AI机器人患者的新救济:Cloudflare的新工具让网站对数据抓取收费

CN
Decrypt
关注
1年前

旧金山云服务公司Cloudflare于周一推出了一套新的人工智能工具,旨在使网站能够阻止未经授权的人工智能网络爬虫进行抓取,或者向它们收取访问数据的费用。发布链接

“我们今天预览的是网站所有者和互联网出版物能够表达自己的期望价值,”Cloudflare副总裁Sam Rhea告诉Decrypt。“如果你是一个人工智能LLM,想要扫描这些内容或者用它进行训练,或者将其作为搜索结果的一部分,我期望从中获得相应的价值。”

免费的Cloudflare Bot管理平台不仅允许网站阻止人工智能机器人,还可以向他们批准的机器人收取费用,从而为那些免费使用其内容的平台获取收入。

人工智能审计工具还赋予用户查看其内容被访问的能力。

正如Rhea所解释的,与试图破坏网站或者在人类顾客尝试访问网站时插队的恶意机器人不同,人工智能网络爬虫并不旨在造成伤害或窃取,而是扫描公共内容以训练大型语言模型。

Rhea表示,有时这些机器人会将信息归因于来源,可能会带来有价值的流量。“但也有时,它们会将材料放入搅拌机中,并将其分享,仿佛它只是通用来源的一部分,而没有任何引用。这对我来说似乎是危险的。”

Rhea表示,就Cloudflare所提供的网站安全和性能优化而言,没有任何单一平台主导网站抓取活动,他补充说,这取决于任何特定时间内被抓取的内容类型。

生成式人工智能模型需要大量数据来运行,并试图提供快速准确的答案,并创建图像、视频,以及音乐。人工智能网络爬虫是一个不断增长的行业,包括像LAION、Defined.AI、Aleph Alpha和Replicate这样的公司,它们为人工智能开发者提供预先收集的文本、语音和图像数据集。根据市场研究公司Research Nester的数据,到2036年,网络抓取软件行业的规模预计将达到245亿美元。

去年,Stability AI前音频主管Ed Newton-Rex因AI平台声称摄取网站数据属于“合理使用”而辞职

“‘合理使用’并不是为生成式人工智能而设计的——以这种方式训练生成式人工智能模型,在我看来是错误的,”他说。“价值数十亿美元的公司未经许可,正在使用创作者的作品来训练生成式人工智能模型,然后用这些模型创作新内容,这在许多情况下可能与原作竞争。”

Newton-Rex补充道:“我不明白这种做法如何能在一个建立了创意艺术经济体系的社会中被接受,创作者依赖版权保护。”

Rhea表示,较小的人工智能开发者似乎愿意付费获取精选的网站内容。

“根据我们与基础模型提供商和该领域的新进入者的对话,高质量数据的海洋变得越来越难以找到,”他说,并指出科学和数学内容尤其受到需求。

Josh QuittnerSebastian Sinclair编辑

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接