OpenAI与新闻出版商签订协议每年支付 500 万美元_科技魔方-中文AI大模型门户网站

　　随着新闻出版商与 AI 公司签订协议，让后者能够训练其模型，现在终于看到了 AI 公司为获取许可版权信息愿意支付的费用。

　　据《The Information》报道，OpenAI 每年支付100万至500万美元，用于许可版权新闻文章以训练其 AI 模型。这是 AI 公司计划为获取许可材料愿意支付的费用的首次披露。此前有报道称，苹果也计划与媒体公司合作，为其 AI 训练提供内容，至少会支付5000万美元的数据费用。

　　这些数字与早期的非 AI 许可协议相当。当 Facebook 推出 Facebook 新闻选项卡时(在欧洲已停止使用)，据称它每年支付高达300万美元用于许可新闻故事、标题和预览。但目前尚不清楚总支付金额是否会达到我们所见过的更大数额。例如，谷歌在2020年宣布将投资10亿美元与新闻机构合作。另外，受到新法律的压力，谷歌最近同意每年向加拿大出版商支付1亿美元，以换取其文章的链接。

　　目前，大多数语言模型的训练数据主要来自互联网。尽管一些 AI 模型不会公开披露其训练数据的来源，但通常可以了解到使用了哪些数据集或网络爬虫。训练数据集的定价因供应商、规模和内容的不同而有所差异。例如，像 LAION 这样的数据提供商是开源且完全免费的，被 Stable Diffusion 等模型使用。AI 开发者通常也会设置网络爬虫，以获取互联网上的数据来帮助训练他们的模型(AI 开发者仍然需要雇佣人员对训练数据进行审核、标记和清理，这显著增加了运营成本)。

　　然而，这种做法现在面临着重大挑战。首先，OpenAI 的 GPT 网络爬虫已被一些公司(包括《纽约时报》和《The Verge》的母公司 Vox Media)封锁，无法获取数据。此外，一些组织认为对他们的数据进行训练构成了侵犯版权。《纽约时报》等媒体已经对 OpenAI 和微软提起了侵权诉讼，声称 ChatGPT等几乎可以生成与其作品几乎一样的内容。

　　与新闻机构达成合作伙伴关系可以让 AI 公司避免这些问题，这在过去一年中已经成为一种更常见的做法。出版商如 Axel Springer(Politico 和 Business Insider 的母公司)和美联社已与 OpenAI 签署协议，许可其故事以训练 GPT-4模型并开发新闻采集技术。OpenAI 和苹果并不是唯一希望与新闻机构合作的 AI 开发者。

　　据报道，谷歌向《纽约时报》、《华尔街日报》和《华盛顿邮报》的高管演示了一款名为 Genesis 的 AI 工具，可以将事实转化为新闻报道。与此同时，一些新闻机构已经在新闻编辑部门使用生成式 AI 工具，但效果参差不齐。

OpenAI与新闻出版商签订协议 每年支付 500 万美元

延展资讯

OpenAI与新闻出版商签订协议每年支付 500 万美元