陈根:承认使用爬虫,OpenAI的数据黑箱成谜?

各类编程培训资料整理,所有资源无秘无压缩-购买会员

Java,C++,人工智能等各类编程培训资料:https://www.600xue.com/

文/陈根

据国外科技媒体Insider最新报道,OpenAI近日承认,其推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练。

网络爬虫,是一种模拟人(网络用户)的行为,自动浏览、收集网络信息的计算机程序。目前还不清楚OpenAI的爬虫机器人在网上潜伏了多久,有些人怀疑OpenAI已经秘密收集每个人的在线数据长达数月或数年。

数据来源一直以来就是OpenAI的黑箱之一,公司公开承认爬虫只是OpenAI公司被用户发现之后所承认的危机公关行为之一。可以说,OpenAI的数据不仅会使用爬虫,并且使用用户数据也是在必然之中。

而更值得关注的是OpenAI所训练出来具有一定知识正确性的ChatGPT,这背后的高质量数据来源。在数据来源层面,OpenAI从采取了黑箱操作策略开始,就没打算向外界公布真正的数据来源方式,包括对用户与各种版权方的数据使用。

而我之所以一直说我们当前的类ChatGPT企业无法训练出ChatGPT这类,在知识生成层面具有竞争力的人工智能模型,核心原因就在于我们无法知晓OpenAI的这个数据黑箱。

可以预见的是,只要用户没有发现OpenAI的数据黑箱证据,OpenAI就不会诚实,或者说不会主动采取措施。而当数据黑箱中的一些手法被用户发现之后,OpenAI就会以同样的方式对于发现的部分采取管控。

在AI时代,在大模型时代,数据决定着模型的核心竞争力,廉价、滥用用户数据已经成为了当前监管的最大挑战。

免责声明: 1、本站信息来自网络,版权争议与本站无关 2、本站所有主题由该帖子作者发表,该帖子作者与本站享有帖子相关版权 3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和本站的同意 4、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责 5、用户所发布的一切软件的解密分析文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。 6、您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。 7、请支持正版软件、得到更好的正版服务。 8、如有侵权请立即告知本站,本站将及时予与删除 9、本站所发布的一切破解补丁、注册机和注册信息及软件的解密分析文章和视频仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。
600学习网 » 陈根:承认使用爬虫,OpenAI的数据黑箱成谜?