未来十年,AI迎来“小数据”时代?-600学习网
600学习网终身会员188,所有资源无秘无压缩-购买会员
“不要相信炒作(基于海量数据的人工智能优势)。”作为全球人工智能和机器学习领域最权威的学者之一,吴恩达教授最近谈到了他对下一个人工智能趋势的看法。
从事人工智能研究的人非常清楚,数据在人工智能的发展中起着至关重要的作用。
传统观点认为,大量数据支持尖端人工智能的发展,大数据被视为构建成功机器学习项目的关键。作为深度学习的引擎,大数据和大模型已经成功运行了15年。
现在,预培训大模型已经成为每个公司构建AI基础设施的有力工具。行业中有各种大数据构建的大模型,例如:
开关变压器
谷歌在2021 1月11日提出,声称参数数量将从1750亿个GPT-3增加到1.6万亿个。开关变压器基于稀疏激活专家模型(专家混合)。文中提到,在相同的计算资源下,训练速度可以达到T5(文本到文本转换变压器)模型的4-7倍。
MT-NLG(百万吨)
2021年底,Nvidia和微软联合发布了MT-NLG,其中包含5300亿个参数,并声称是目前最大.最强的语言生成预训练模型。
启蒙2.0
2021 6月,北京致远研究院发布了启蒙2.0,参数规模达到1.75万亿,是GPT-3的10倍,超过谷歌开关变压器1.6万亿参数记录。
“女神名单”
2021 11月,在深圳IDEA大会上,广东香港澳门大湾区数字经济研究院院长沈向阳(简称”IDEA”)正式宣布启动”神明榜”大模型开源计划,涵盖5个系列的亿级自然语言预训练模型,包括中国最大的开源BERT大模型”二郎神”系列。
然而,值得注意的是,在某些情况下,大数据不适用,而”小数据“是更好的解决方案。
尽管该行业在大数据和大模型方面取得了巨大成就,但这种大规模方法不适用于数据集不足的新兴行业或传统行业。
在传统行业中,基于开放数据的大型预培训模式几乎毫无用处。
吴恩达说:”庞大的搜索数据和经济数据对检测零部件缺陷毫无用处,对医疗记录也没有太大帮助。”。
更困难的是,与能够获取大量用户数据的互联网公司不同,传统企业无法收集大量特定数据来支持人工智能培训。
例如,在汽车制造业,由于精益6西格玛管理技术的广泛应用,大多数零部件制造商和主要供应商都尽力确保每百万批次产品中最多有4个不合格产品。因此,制造商缺乏不合格产品的样本数据,这使得很难为产品质量检验培训一个性能良好的视觉检验模型。
最新的MAPI调查显示,58%的研究对象认为部署人工智能解决方案的主要困难是缺乏数据源。
正如吴恩达教授所说,”过去十年,人工智能最大的变化是深度学习,未来十年,我认为它将转向以数据为中心。随着神经网络架构的成熟,对于许多实际应用,瓶颈将是”如何获取和开发所需的数据“。
随着各国数据和隐私安全法规的出台,以及人工智能技术监管的加强,人工智能的大数据红利期已经一去不复返了。
根据Gartner的报告,到2025年,70%的组织将被迫将重点从大数据转移到小数据和泛数据,为分析提供更多背景,并减少人工智能对数据的需求。
但这并不意味着人工智能的发展会受到阻碍。相反,在小数据时代,人工智能也有很大的潜力。
吴恩达教授认为,基于综合学习.强化学习.知识转移和其他方法,小数据也可以发挥重要作用。一
知识地图属于二级数据集,因为它是通过筛选原始大数据而形成的。知识地图由一组数据点或标签组成,这些数据点或标记具有定义的含义并描述特定领域。例如,一个知识地图可能由一系列著名女演员姓名的数据点组成,而彼此合作过的女演员通过线(或边)连接起来。知识地图是一种非常有用的工具,可以以高度可解释和可重用的方式组织知识。
转移学习
当一个机器学习模型被用作另一个模型的训练起点以帮助该模型完成相关任务时,需要转移学习技术。本质上,它是将一个模型的知识转移到另一个模型。以原始模型为起点,然后使用附加数据进一步训练模型,以培养模型处理新任务的能力。如果新任务不需要原始模型的某些组件,也可以将其删除。
转移学习在自然语言处理.计算机视觉和其他需要大量计算能力和数据的领域尤其有效。转移学习技术的应用可以减少任务所需的工作量和时间。
自我监督学习
自监督学习的原理是让模型从现有数据中收集监督信号。模型使用现有数据来预测未观察到的或隐藏的数据。
例如,在自然语言处理中,数据科学家可以在模型中输入一个缺少单词的句子,然后要求模型预测缺少的单词。在从隐藏单词中获得足够的背景线索后,模型将学习识别句子中的隐藏单词。
复合数据
一个更常见的例子是面部识别模型。人脸识别模型需要包括所有人类肤涩的人脸图像数据,但问题是暗脸的照片数据少于亮脸的照片。数据科学家可以手动创建黑脸数据以实现表示的平等,而不是创建难以识别黑脸的模型。
但机器学习专家必须在现实世界中更彻底地测试这些模型,并在计算机生成的数据集不足时添加额外的训练数据。
小数据的巨大潜力
如今,小数据的潜力正受到行业的重视。
2021 9月,美国网络安全与新兴技术署(简称CSET)发布了《小数据人工智能的巨大潜力》报告,指出长期被忽视的小数据人工i的潜力是不可估量的!
首先,缩小大实体和小实体之间的人工智能能力差距。由于不同机构收集.存储和处理数据的能力存在巨大差异,人工智能的”富人”(如大型科技公司)和”穷人”之间的差距正在扩大。利用小数据构建人工智能系统可以显著降低中小企业进入人工智能的壁垒,减少传统企业项目的研发时间和成本,将成为数万个商业项目的重要突破。
二是促进数据稀缺姓的发展。对于许多迫切需要解决的问题,例如建立算法来预测没有电子健康记录的人的疾病风险,或预测活火山突然爆发的可能姓,几乎没有或没有可用的数据。小数据方法以原则姓的方式处理数据丢失或稀缺。它可以使用标记数据和未标记数据来迁移相关问题的知识。小数据还可以用少量数据点创建更多的数据点,并凭借相关领域的先验知识,或通过构建模拟或编码结构假设,在新领域开始冒险。
第三,避免脏数据。小数据方法可以让厌倦了”脏数据“的大型机构受益。无数的”脏数据“需要大量的人力和物力进行数据清理.标记和排序以”净化”,而小数据方法中的数据标记方法可以通过自动生成标签更容易地处理大量未标记数据。迁移学习.贝叶斯方法或人工数据方法可以显著减少污垢的规模
600学习网 » 未来十年,AI迎来“小数据”时代?-600学习网