随着新闻出版商与 AI 公司签订协议,让后者能够训练其模型,现在终于看到了 AI 公司为获取许可版权信息愿意支付的费用。
据《The Information》报道,OpenAI 每年支付100万至500万美元,用于许可版权新闻文章以训练其 AI 模型。这是 AI 公司计划为获取许可材料愿意支付的费用的首次披露。此前有报道称,苹果也计划与媒体公司合作,为其 AI 训练提供内容,至少会支付5000万美元的数据费用。
这些数字与早期的非 AI 许可协议相当。当 Facebook 推出 Facebook 新闻选项卡时(在欧洲已停止使用),据称它每年支付高达300万美元用于许可新闻故事、标题和预览。但目前尚不清楚总支付金额是否会达到我们所见过的更大数额。例如,谷歌在2020年宣布将投资10亿美元与新闻机构合作。另外,受到新法律的压力,谷歌最近同意每年向加拿大出版商支付1亿美元,以换取其文章的链接。
目前,大多数语言模型的训练数据主要来自互联网。尽管一些 AI 模型不会公开披露其训练数据的来源,但通常可以了解到使用了哪些数据集或网络爬虫。训练数据集的定价因供应商、规模和内容的不同而有所差异。例如,像 LAION 这样的数据提供商是开源且完全免费的,被 Stable Diffusion 等模型使用。AI 开发者通常也会设置网络爬虫,以获取互联网上的数据来帮助训练他们的模型(AI 开发者仍然需要雇佣人员对训练数据进行审核、标记和清理,这显著增加了运营成本)。
然而,这种做法现在面临着重大挑战。首先,OpenAI 的 GPT 网络爬虫已被一些公司(包括《纽约时报》和《The Verge》的母公司 Vox Media)封锁,无法获取数据。此外,一些组织认为对他们的数据进行训练构成了侵犯版权。《纽约时报》等媒体已经对 OpenAI 和微软提起了侵权诉讼,声称 ChatGPT等几乎可以生成与其作品几乎一样的内容。
与新闻机构达成合作伙伴关系可以让 AI 公司避免这些问题,这在过去一年中已经成为一种更常见的做法。出版商如 Axel Springer(Politico 和 Business Insider 的母公司)和美联社已与 OpenAI 签署协议,许可其故事以训练 GPT-4模型并开发新闻采集技术。OpenAI 和苹果并不是唯一希望与新闻机构合作的 AI 开发者。
据报道,谷歌向《纽约时报》、《华尔街日报》和《华盛顿邮报》的高管演示了一款名为 Genesis 的 AI 工具,可以将事实转化为新闻报道。与此同时,一些新闻机构已经在新闻编辑部门使用生成式 AI 工具,但效果参差不齐。