从ChatGPT到DriveGPT,自动驾驶大模型背后的数据标注生意

人工智能等各类编程培训资料整理,所有资源无秘无压缩-购买会员

数据标注正在打开一个新的商业通路。

作者 肖莹

最近一段时间,ChatGPT蹿红,引起一阵狂欢。上一次AI行业这么热闹,可能还是Alpha Go击败李世石。

落到产业端,ChatGPT能给自动驾驶带来什么?是大家更关注的话题。

几天前,自动驾驶技术公司毫末智行宣布,将自动驾驶认知大模型升级为DriveGPT。这一个动作,让我们看到了受ChatGPT鼓舞,自动驾驶圈对于AI突破姓的想象和期待。

ChatGPT实现的技术支撑是 Transformer大模型以及人类反馈强化学习(RLHF)。其实早在2019年,特斯拉就将Transformer大模型引入到自动驾驶,而在今年年初,毫末也曾表示要借鉴ChatGPT的实现思路,打造人驾自监督认知大模型。

而不论是ChatGPT的突破,还是自动驾驶算法的进化,都离不开一个底层逻辑——基于海量数据的深度学习。这些数据不能是杂乱的,而是需要经过处理的数据,这样才能够帮助算法进行定向学习。

可以说,AI进化的需求,正在带火一个行业——数据标注。

数据标注是一个非常有意思的行业,你可以说它高大上,因为它是人工智能的“老师”,你也可以说它接地气,因为它是一个劳动密集型行业。

这种链接正在打开一个新的商业通路。

近日,我们访谈了数据标注公司恺望数据创始人兼CEO于旭、恺望数据产品项目副总裁张鹏。以恺望数据为案例,我们来聊一聊自动驾驶数据标注的行业痛点及前景。

恺望数据创始人兼CEO于旭及团队

01

数据标注行业走向垂直化、专业化

数据、算力和算法是AI发展的三大基石。数据相当于AI算法的“饲料”,AI学习都要用标注好的数据进行训练,只有经过大量的训练,覆盖尽可能多的场景才能得到一个好的模型。

数据标注是开发机器学习 (ML) 模型时预处理阶段的一部分,它需要识别原始数据并添加标签为机器学习模型指定上下文,帮助其做出准确的预测。

由于近几年AI快速发展,催生了大量数据标注公司。据于旭介绍,目前,这个行业还处于比较分散的早期阶段,大概存在700-800个玩家。

数据标注在有着市场高需求的同时,也面临着诸多挑战,比如成本高、效率差、标注质量参差不齐、市场需求不稳定等。

这两年,随着AI商业化落地加快,数据标注行业也正在走向规范化发展的阶段。

于旭谈到,数据标注正在朝着聚焦垂直化领域、专业化服务的方向发展。同时,数据标注产业正在由单模态向多模态标注发展,这将带来更多机会。

此外,人工标注与自动标注相结合,提升质量和效率,将是行业发展的大趋势。

02

95%自动驾驶数据标注依赖人工

自动驾驶正在进入到技术深水区,一些业内专家认为,基础科学的突破才能带来自动驾驶真正的质变。

ChatGPT正在打开一个思路,大模型训练或许能带来自动驾驶的突破。

数据标注的质量和数量对算法迭代产生重要影响,标注数据的数量越多、质量越高,模型的训练和性能优化就越充分,性能就越好。

随着对自动驾驶商业化落地的需求,自动驾驶数据标注的需求正在逐年攀升。据张鹏介绍,目前,数据标注以人工标注为主,机器标注为辅。而从整个自动驾驶行业的普遍水平来看,可以说,95%的数据标注还是以人工为主。

随着算法模型的不断进化,大模型训练将越来越多地引领数据标注走向自动化,这会是一个明确的趋势。

但这会是一个相当长的过程,于旭认为,时间周期可能在10-15年。

此外,大模型虽好,但需要大算力支撑,动辄就是数千万、甚至上亿级的投入,并不是每个企业都能玩得转。

因此,恺望数据认为,自动标注与人工标注相结合,才是更具姓价比的方案。

于旭谈到,对自动驾驶数据生产而言,目前还离不开人力的阶段,但未来最终还是会实现完全的自动化:

“就像是自动驾驶最终会走向L4、L5,但中间会经历L2、L3,但L2、L3的经验、可以使最终形态的自动驾驶更准确更科学的实现,人工智能一定是需要一个基于数据进行积累和建模、最终全面自动化和智能化的过程。这个不会是一簇即就,而是需要逐步实现。”

她进一步表示,OpenAI用7年时间孕育了ChatGPT,在此之前,经历了规模极大、基于人的数据,不断的建模与优化。

科技公司领先技术的应用,最终还要面对解决交付、量产等商业化落地的考验。

虽然人工智能是热门焦点,也是大势所趋,但从目前的实际的产业应用来看,在自动驾驶数据生产领域,多个环节都仍依赖”人为判断及行为“在主导。

她认为,在目前阶段,需要以自动化为目标,根据自动驾驶数据生产流程各环节的规则和逻辑、基于人的模式建模,逐步推动将数据生产从”成熟的人工模式“转化为”成熟的人工智能模型“,解决大规模供应和成本的效益匹配问题。

因此,规模化的人力数据和经验在现阶段就非常重要。

03

提质降本是行业当前核心痛点

算法模型的训练依赖人工标注,最终目标是取代人工标注。自动驾驶真正的成熟还有相当时日,因此这门生意的逻辑是成立的。

自动驾驶数据生产依赖规模化的人力供给,波峰波谷的人效配置及稳定、优质数据供应问题一直是行业内的最大问题。

对于赛道玩家来讲,一个核心痛点在于上游需求散,下游产能不稳定,在上下游管理上都存在优化空间。

另一个痛点在于,数据标注是一个价格敏感的行业,在保障数据处理质量同时做到降本,是整个行业的期待方向。

也就是说,需求方的痛点在于如何降成本,供给方则希望能够稳定、规范化、可持续的推进业务。两方的需求都有赖于行业规范化。

数据生产流程包括对需求规则的解读、数据任务拆分、人员匹配,也包括在生产管理过程进行产能监管、质量监管、效率监管,有些部分可以实现全自动化,但有些部分、尤其是需要人为判断的部分,还有待更多成熟的模型建成,才能逐步实现自动化。

目前在行业内的技术方案,多数是关注解决预标注这个环节的效率,而恺望数据认为,现阶段要持续实现稳定的低价数据供应,关键是在通过“自动化技术+人力运营管理”的部署,来提升全生产及管理流程的全局效率,进一步提供规模化的稳定低价数据供应。

目前,恺望数据从两方面入手来解决这个痛点。

一方面,基于“自动化产线+规模化人力”策略,恺望数据推出了自动化数据产线,通过SaaS平台、算法、各板块建模等工具,将每个版块原子化拆分,进而优化每个环节效率。据介绍,目前已可以实现成本降低超过20%。

另一方面,为了保证人力资源的规模化、稳定姓,恺望数据也在推进校企生态合作,与全国20多家实训基地建立了合作,培训逾千位数据标注员。

可以说,ChatGPT拉火了整个AI赛道,并将带动上下游企业快速发展,站在创业的风口上,像恺望数据一样的创业公司,能够在这一波浪潮下,创造出什么样的新模式和新价值,还是非常值得期待的。

免责声明: 1、本站信息来自网络,版权争议与本站无关 2、本站所有主题由该帖子作者发表,该帖子作者与本站享有帖子相关版权 3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和本站的同意 4、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责 5、用户所发布的一切软件的解密分析文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。 6、您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。 7、请支持正版软件、得到更好的正版服务。 8、如有侵权请立即告知本站,本站将及时予与删除 9、本站所发布的一切破解补丁、注册机和注册信息及软件的解密分析文章和视频仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。
600学习网 » 从ChatGPT到DriveGPT,自动驾驶大模型背后的数据标注生意