人工智能开发者转向合成数据,因为原始内容逐渐枯竭

CN
Decrypt
关注
5小时前

随着人工智能模型消耗互联网的免费内容,一个迫在眉睫的危机正在出现:当没有可供训练的内容时会发生什么?

最近的Copyleaks 报告 显示,中国的人工智能模型DeepSeek 经常产生与ChatGPT几乎相同的回应,这引发了人们对其是否在OpenAI输出上进行训练的担忧。

这使得一些人怀疑人工智能发展的“低垂果实”时代可能已经结束。

在12月,谷歌首席执行官Sundar Pichai 承认 了这一现实,警告说人工智能开发者正在迅速耗尽可自由获取的高质量训练数据。

“在当前这一代大型语言模型中,大约有几家公司处于顶端,但我认为我们都在努力开发下一版本,”Pichai在12月的《纽约时报》年度Dealbook峰会上表示。“我认为进展将变得更加困难。”

随着高质量训练数据的供应减少,许多人工智能研究人员开始转向由其他人工智能生成的合成数据。

合成数据并不新鲜——它可以追溯到1960年代——并已在统计学和机器学习中使用,依赖算法和模拟来创建模仿真实世界信息的人工数据集。但它在人工智能发展中日益增长的角色引发了新的担忧,特别是当人工智能系统融入去中心化技术时。

引导人工智能

“合成数据在统计学中一直存在——这被称为自助法,”麻省理工学院软件工程教授Muriel Médard在2025年ETH丹佛的采访中告诉Decrypt。“你从实际数据开始,想,‘我想要更多,但不想为此付费。我会根据我拥有的内容来编造。’”

Médard是去中心化记忆基础设施平台Optimum的联合创始人,她表示,训练人工智能模型的主要挑战不是数据的缺乏,而是其可获取性。

“你要么寻找更多,要么用你拥有的内容来伪造,”她说。“获取数据——尤其是在链上,检索和更新至关重要——增加了另一层复杂性。”

人工智能开发者面临日益严格的隐私限制和对现实世界数据集的有限访问,合成数据成为模型训练的重要替代品。

“随着隐私限制和一般内容政策得到越来越多的保护,利用合成数据将成为一种必要性,既出于获取的便利,也出于对法律追索的恐惧,”Druid AI的高级解决方案架构师Nick Sanchez告诉Decrypt。

“目前,这并不是一个完美的解决方案,因为合成数据可能包含你在现实世界数据中发现的相同偏见,但它在处理同意、版权和隐私问题方面的作用将随着时间的推移而不断增长,”他补充道。

风险与回报

随着合成数据的使用增加,人们对其潜在操控和滥用的担忧也在增加。

“合成数据本身可能被用来向训练集插入虚假信息,故意误导人工智能模型,”Sanchez说,“这在应用于敏感应用程序时尤其令人担忧,比如欺诈检测,恶意行为者可能会利用合成数据来训练忽视某些欺诈模式的模型。”

区块链技术可以帮助减轻合成数据的风险,Médard解释道,强调目标是使数据防篡改而不是不可更改。

“在更新数据时,你不会随意进行——你会稍微改变一下并观察,”她说。“当人们谈论不可变性时,他们实际上是指耐久性,但完整的框架是重要的。”

编辑:Sebastian Sinclair

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接