最近的一项研究揭示了一个重要发现:2023-2024年顶级人工智能会议的同行评审中可能包含大量来自ChatGPT等模型的 AI 生成内容。
研究人员利用一种新颖的统计技术,估计了大量文档中由人工智能生成的文本的百分比。他们分析了同行评审,发现在2024年 ICLR 会议中:
有10.6% 的审稿涉及大量 AI 内容;
在 NeurIPS2023中为9.1%;
在 CoRL2023中为6.5%;而在 EMNLP2023中高达16.9%。
与此形成对比的是,仅有1-2% 的2022年及之前的评论被标记为包含重大 AI 贡献。
研究发现,那些内容较多的 AI 审稿往往接近截止日期才出现,这些评论中学术引用较少,审稿人也很少参与作者讨论。此外,AI 内容使评论更加语义一致,审稿人置信度较低则与更高的 AI 估计值相关。
该研究引发了一些问题,包括是否应该披露人工智能在同行评审中的协助、如何激励良好实践、在人工智能同质化下如何保持知识多样性,以及是否需要重新考虑混合人类 / 人工智能知识工作的功劳。
这是对人工智能迅速增长对科学质量控制基础的有趣实证。若您有兴趣,可以阅读更详细的摘要,或者查看原始论文。