文心一言即将面世,规模化落地如何破局

人工智能等各类编程培训资料整理,所有资源无秘无压缩-购买会员

百度文心一言将在3月16日发布,类ChatGPT大模型之间的商业落地战已经开启。人工智能落地就像一座大冰山,产业落地“最后一公里”只是浮在海面上的那个冰山一角。目前围绕“冰山之下”的种种布局和竞争早已开启,实际上头部企业已经进入备战状态。

文牛慧

编赵艳秋

类ChatGPT大模型之间的商业落地战已经开启。

仅在开放测试3个月后,3月2日,OpenAI宣布,对外提供ChatGPT的API接口,允许开发者将其集成到自己的应用和服务中。同时,价格还直接打了个骨折。此前一个月,微软已开始拜访客户,向企业推广旗下云平台Azure提供的OpenAI调用服务。

在国内,百度文心一言将在3月16日发布。此前百度已密集与400多家企业达成战略合作,百度智能云也已官宣,将对外提供文心一言的调用服务

但人工智能应用落地就像一座大冰山,产业落地“最后一公里”只是浮在海面上的那个冰山一角。落地成败将取决于冰山之下自底而上的层层技术栈,以及人工智能研发运营一体化(MLOps)。其中任何一环没有做好,产业落地都很难实现。

如今,围绕“冰山之下”的种种布局竞争也早已开启,头部企业进入备战状态。

01

一个模型和它的产业化之旅

过去几年,在一批行业人士眼中,某种程度上人工智能在产业中的落地在变慢。“我们每年可以发表几万篇论文,但却很难做出几万个好案例。”一位行业人士感叹。

这其中最本质的原因是AI开发范式,它在很大程度上决定了产业落地的成本。当人工智能人士王晔还在IBM Research工作时,业界针对每一个AI应用,都要堆一批全栈算法工程师,从头到尾做一遍算法开发。这种方式是行不通的。因为它人力成本高,严重依赖AI算法研究者;数据标注和训练成本高,占到AI项目的60%~80%;算力成本也高。

于是,在过去10年,业界一直在寻找人工智能开发落地新范式,想摆脱人力密集的状况。先是10年前,开始探索一种预训练模型+微调的开发范式。从2017年开始,随着大模型理论的提出,AI开发进入第三种范式。国外如OpenAI、谷歌,国内如百度、华为,通过数以千亿级的token(字符串)、上亿级图文、上千个节点来训练大模型。有了通用大模型,再叠加行业数据变成行业大模型,之后用少量数据就可以得到场景模型。

“我们认为这是一种基于大模型的新应用范式。”几年前开始转向2B市场的百度AI中台总监忻舟告诉数智前线。业内认为,预训练大模型和AIGC(人工智能生成内容)将有望带领产业落地走向下一个拐点。它极大降低了开发和产业化门槛,现实中大量高价值和长尾问题,都能一站式解决。

不过,不管开发范式怎么变化 ,人工智能开发落地的流程长且复杂,缺乏规范,无论小模型、中模型还是大模型的落地,都面临大量实际问题。

比如,内部场景挖掘难。百度AI中台总监忻舟去拜访银行客户时,被客户问的最多的是“别的银行做过什么场景,能不能给我们也做一遍?”再如,成本高企。仅数据标注,动辄就能花掉企业几千万甚至几个亿。百度AI中台产品架构师靳伟举例,一张小小的增值税发票,人工标注就要15元。AI开发工具门槛高。尤其是央国企对自主可控诉求越来越多,他们要求人工智能平台要降低开发门槛。

此外,还有集成部署、庞杂的系统对接、数据安全、效果评估、风险管控......人工智能落地就像一座大冰山,实际上,要想让模型在产业中发出“洪荒之力”,就更要关注冰山之下,它的层层技术栈,各种模态的预训练大模型,各种海量数据集,各种评测方法,以及开发运维规范和工具。没有这些从底到上的支撑,冰山将会崩解。所以,近两年,人工智能研发运营一体化(MLOps)在AI产业界广受关注。

什么是MLOps?它是一套方和实践指南,覆盖了AI开发运营的全生命周期管理,解决的是AI工程化的事。

百度智能云主任架构师谢永康把AI模型比作一辆汽车的“发动机”,但只有发动机无法满足出行需求。AI工程化就是围绕“发动机”去开展一系列工程,如数据采集、模型开发、服务部署、运营评估、迭代优化等,让“发动机”最终变成一辆“车”,在场景中发挥价值。而MLOps提供的实践指南,让这个过程变得高效平顺。

02

人工智能研发运营标准推出

在做了不少人工智能产业化落地后,忻舟感受到,原来被认为人工智能三大核心的算法、数据、算力,“其实只是核心的一小部分,人工智能落地是个庞大复杂的过程,有一大堆工程姓和流程姓的工作”。这个流程很长,每一个环节出现问题,都会导致最终效果与预期相差甚远。

面对人工智能产业化出现的各种急迫问题,2022年,中国信息通信研究院联合30家头部企业,包括百度、华为云、商汤、中国电信、中国工商银行等展开了MLOps标准编制工作。

“这就像我们日常生活中的ISO9001质量管理体系一样。”忻舟告诉数智前线。MLOps源自实践,这次标准制定更像是将散落在“民间”的实践,提炼并体系化、规范化。百度也在此过程中,将曾趟过的坑以及产业落地的经验,都贡献到了标准中。百度智能云的AI中台解决方案符合MLOps标准,并通过了信通院旗舰级认证。这意味着百度智能云AI中台在AI开发的服务能力和管理能力均达到国内领先水平。

目前,国外头部公司如微软、谷歌,也在MLOps展开布局竞争,推出类似平台。不过,忻舟认为,不像传统软件开发的DevOps,MLOps国内外几乎处于同一起跑线,国内有机会做得更好。

有了MLOps标准和实践,企业在AI落地的每个环节上都变得有章可循,可以少走弯路,AI开发和运营的整体效能得到提升,并降低了成本,保障了质量。

比如,银行客户追问场景的事情,MLOps有环节支撑。如预制场景,相当于是预制菜,当预制一个通用票据识别场景后,可以为客户提供“样板”,在此基础上,客户再做一些细微调整,就可以用在银行票据、回单、发票识别等不同细分场景。

针对企业CEO关注的成本,MLOps也有办法。人工智能在哪些地方最能吞金?业界共识是数据标注、模型训练和推理这三块。以数据标注为例,现在,符合MLOps规范的百度AI中台,提供了智能标注,标注成本节省了70%,一些情况下甚至节省90%。

再如,模型上线后也不是万事大吉了。几年前,山东电力引入了人工智能系统,对电力供给侧与需求侧进行精细化匹配,避免“电有时多得用不掉,有时又少了没电用”。但人工智能模型在运行过程中,会随环境变化,出现漂移,就没法实现供需侧精准匹配了。MLOps有模型效果监测环节,自动检测模型,并回溯查找原因,收集新数据进行训练,保障模型的效果。

模型风险管理也是重要一环。在与银行的合作中,靳伟他们发现,这对金融行业尤为重要,于是研发产品,将全过程自动化地记录下来,必要时重现回塑。这些产品和规范最终也沉淀到MLOps中。

大模型出来后,也给行业带来新挑战。大模型犹如庞然大物,每做一次微调,都几乎要消耗几百万元。针对大模型的所有微调都会慎之又慎,这也更需要MLOps实践指南的指导和协助。

而针对大模型未来的加速落地,忻舟透露,百度计划在2023年下半年在业界陆续推出符合MLOps标准的完整工具链,包括数据准备、数据质量控制、中间效果分析、模型可解释姓工具、模型的量化、压缩等配套工具,从而让大模型,包括即将推出的文心一言,能快速在产业落地。

03

冰山之下

你可能想象不到,业界一个重大的变化发生在2021年。这一年,AI场景的算力增速已远超算力的平均增速。业界多个市场调研公司也预测,到2026年,AI算力将占到整个算力的50%。

忻舟他们早已感知到了这个变化。“我两三年前去某央企时,他们整个集团好几万人当中,所有做人工智能相关的人只有45位。但现在你到任何一个部门,都有几十位做人工智能。”

行业正在掀起数智化浪潮,MLOps也正在发挥更大的作用。在百度,通过MLOps旗舰认证的AI中台,是通过AI大底座对外提供服务的。

什么是AI大底座?它是一个包含从芯片、框架、到大模型再到应用的AI生产全要素的AI基础设施,因此可以进行端到端优化。它实际上支撑了AI落地的最后一公里。而通过MLOps赋能,AI大底座能更有质量地推动AI产业化。

具体而言,AI的底座的芯片层的是昆仑芯,聚焦解决算力问题。它是百度自研的人工智能芯片,100%自研XPU架构。就像苹果芯片和软件的结合能让苹果产品更为顺滑,昆仑芯在设计时要考虑大模型核心网络结构Transformer,以及未来可能的变种,从而更顺滑地处理大模型。

昆仑芯之上是框架层——深度学习框架飞桨,它是人工智能时代的操作系统,是连接底层芯片和上层算法的中间层。飞桨在大模型并行训练上,申请了专利,有更好的大模型训练效能。值得关注的是,人工智能所比拼的生态,归根到底是框架的生态。

飞桨之上是文心大模型。大模型是数据、算力和算法的集大成者,只有在这三个维度上深入积累,才能诞生优秀的大模型。文心一言就是基于文心大模型而生。

在大模型之上,是各种产业AI应用生态。

百度是全球为数不多、进行全栈布局的人工智能公司,各个层面都有领先的关键自研技术,可以实现端到端优化,大幅提升效率。

以能源领域为例,对高压线缆进行巡检是必不可少的工作,但很多高压线缆处于深山密林中,巡检人员很难进去,并且巡检人员需要爬上线缆做各种各样的检查,非常危险。基于AI大底座,百度帮国网福建建设了AI中台,在此基础上,协同打造电力大模型,构建了AI电力关键业务数据的全链条智能处理能力。这一方法已帮他们将识别准确率提升了30%,识别效率提升了5倍。变电端效率提升了40—60倍,启动送电时间缩短了80%。另外,由于不同省市自然环境不一样,借助AI大底座,将其他地方收集的数据,灌到大模型中,实现了对通用大模型和具体到场景中模型的再训练,加强了大模型泛化的能力。

忻舟看到,有更多的人投身人工智能行业,也有更多的人工智能人士进入传统行业。未来,在大模型时代下,人们对于规律的发现方式和协作方式,将可能被刷新。在AI大底座的协助下,在科技界和产业界的协作下,千行百业中那些主流的、长尾的、高频的、低频的场景和数据,将在虚拟空间实现链接,生出巨大价值。

免责声明: 1、本站信息来自网络,版权争议与本站无关 2、本站所有主题由该帖子作者发表,该帖子作者与本站享有帖子相关版权 3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和本站的同意 4、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责 5、用户所发布的一切软件的解密分析文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。 6、您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。 7、请支持正版软件、得到更好的正版服务。 8、如有侵权请立即告知本站,本站将及时予与删除 9、本站所发布的一切破解补丁、注册机和注册信息及软件的解密分析文章和视频仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。
600学习网 » 文心一言即将面世,规模化落地如何破局