本文来自微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌。
此前在去年年末,OpenAICEO Sam Altman在社交平台公布了OpenAI的2024年“愿望清单”,下一代人工智能模型GPT-5赫然在列。此前有传言称,GPT-4的参数量达到了1.5万亿,模型规模是GPT-3的数倍,因此也可想而知,未来GPT-5的参数规模必然将会更上一层楼。而这也就意味着,OpenAI训练GPT-5所需的语料也将会达到史无前例的程度。
为此,OpenAI已经开始为GPT购买新的语料。去年12月中旬,OpenAI方面就曾宣布与新闻出版巨头施普林格出版集团(Axel Springer)达成一项史无前例的协议,OpenAI将付费使用施普林格旗下出版物的内容,以填充ChatGPT的答案、并将媒体的内容作为其训练数据。日前OpenAI的知识产权和内容主管Tom Rubin在接受媒体采访时也证实,OpenAI正在积极与传媒行业接触。
Tom Rubin表示,“我们正在与许多出版商进行许多谈判和讨论。他们很活跃,也非常积极,谈判进展得很顺利。你已经看到了我们公开的部分交易,未来还会有更多。”
然而,海外的出版商似乎对于OpenAI给出的价码不太满意。最近与OpenAI进行谈判的两名媒体公司高管就表示,OpenAI仅仅愿意向部分媒体公司提供每年100万至500万美元的授权费用。即使是对小型出版商来说,这也是一个很小的数字,所有有观点认为这可能会让OpenAI很难达成协议。
OpenAI最近开始积极投身于购买版权内容的原因其实很简单,因为已经版权方“盯上”了他们。就在去年12月27日,大名鼎鼎的《纽约时报》就指控OpenAI和微软未经授权使用其数以百万计的报道,以训练ChatGPT等人工智能聊天机器人。
《纽约时报》方面认为,“(OpenAI)试图搭《纽约时报》在新闻领域巨额投资的便车,在未经许可或未付款的情况下利用《纽约时报》的内容来制造替代产品”。
为什么在2023年年末,OpenAI使用未经许可的数据会被拿出说事呢?答案是GPT-4对于数据或者说语料的渴求,使得目前互联网上公开数据源的开源语料库已经无法满足。
比如,训练ChatGPT的45TB数据主要来源于Common Crawl、维基百科、美国专利文件数据库。其中,Common Crawl是一个抓取互联网、并提供数据开源下载的开源数据库,截止2023年4月其一共汇聚了31亿个网页、共有400TB的原始数据,而纽约时报》的域名就是最具代表性的专有来源之一,贡献了超过1600万条内容。
然而Common Crawl、维基百科、美国专利文件数据库不是政府机构、就是非盈利性组织,所以《纽约时报》没法使用版权这个武器,但OpenAI就不一样了,拥有ChatGPT Plus的它已经是一个盈利组织。而《纽约时报》的底气,则源自于OpenAI单单是训练ChatGPT,就已经几乎将互联网一切英语资源一网打尽,GPT-4的训练更是使用了超过13万亿tokens,甚至OpenAI方面自己都承认,训练GPT-4时使用了来自《纽约时报》的版权内容。
为了避免第二个、第三个《纽约时报》出现,OpenAI就只能选择付钱来购买内容。
那么问题就来了,每年100万至500万美元的授权费用,出版商为什么会觉得这笔钱很少呢?因为在出版商看来,向OpenAI授权相关数据几乎就等于“卖出绞死自己的最后一根绞索”。
如果说当年的搜索引擎与出版商是双赢的关系,毕竟前者需要内容源来满足用户的信息需求,出版商则需要搜索引擎将流量引导到自己的网站,并且搜索引擎只提供简介和链接,详情则要用户点开链接到内容提供方的源头去看。可现在的ChatGPT、Bing Chat却是直接在自己的页面中向用户提供内容,这无疑就是对于出版商的釜底抽薪。
换而言之,通过ChatGPT用户可以直接看到由AI整合的新闻,根本就不需要去《纽约时报》官网再去看相关的内容,长此以往,新闻出版机构存在的意义又在哪里呢?
并且由于AI大模型的发展趋势俨然已经势不可挡,正如当年新闻出版行业被迫与搜索引擎、社交网络媾和一样,因此以《纽约时报》为代表的新闻出版商选择以自己手中的版权作为武器,试图在蓬勃发展的AI行业中分到一杯羹。
而OpenAI大张旗鼓地向出版商购买版权,其实也是一个阳谋。现阶段,大模型赛道的现状是资本和技术双密集,算力成本极其昂贵,以至于有相当多的AI初创企业被迫接受拥有算力资源的英伟达的投资,以此来获得更便宜的算力。如果未来数据或者语料也成为大模型行业的成本,无疑就将会劝退一大批竞争者,这对于保持OpenAI竞争力的相对领先,显然是有很大意义的事情。
可是OpenAI训练GPT需要的内容实在太多,以至于即使不缺资金支持,也难以让每一家出版商都满意,这就是当下OpenAI面临的困局。当拥有数据的一方经过了2023年AI大模型领域爆发式的增长后,已经充分认识到了手中的数据是有价值的,已经处于衰退的出版商就必然指望从这些AI企业手获得更多的收益。
因此从某种意义上来说,在OpenAI造出GPT-5、并产生一个能自我生产内容的AI之前,被新闻出版商围猎几乎是必然。