8月8日消息,OpenAI推出了一种名为GPTBot的网络爬虫机器人,用于收集信息数据以改进未来的AI模型。
据了解,GPTBot将严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据。
不仅如此,OpenAI也把是否要把自己的网站数据供GPTBot抓取的选择交到给网站所有者,他们可自行修改其robots.txt文件。或者通过屏蔽其IP地址,来阻止GPTBot从其网站上抓取数据。
这当然仍不足够,修改robots.txt是一种方式,但它可以更便利和更具透明度,也可进一步告知数据将被用于什么用途等等。
此前,OpenAI抓取公开数据来训练专利AI模型的行为备受争议。Reddit和Twitter等网站,已经采取措施打击AI公司免费使用其用户帖子的行为,而一些作者和其他创作者也因为涉嫌未经授权使用其作品而提起诉讼。