中山大学HCP实验室联合Sea AI Lab和哈佛大学等单位开展的一项研究,成功地让大型人工智能模型通过讲笑话的方式,探索多模态大模型的创造力,并因此获得了计算机视觉和模式识别领域的顶级会议CVPR的认可。
这项研究的关键在于使用来自日本的“大喜利”(Oogiri)创新响应游戏作为数据源。传统的大模型,如GPT-4,处理这类任务时往往表现得过于正经,缺乏幽默感。而中山大学的“梗王大模型”则能够根据图像或文本输入,生成具有幽默感和创意的响应。
“大喜利”游戏要求玩家对提供的多模态内容(如问题、图像等)给出幽默和创意的回应。例如,一张老人向年轻人求助的图片,传统回应可能是询问路线,而“大喜利”风格的回应可能是请求帮助解开手铐,这种出人意料的回答具有强烈的幽默冲击感。
研究团队采用了一种新的非顺序、创造性思维范式——跳跃思维(Leap-of-Thought,LoT),以及一套基于此范式的训练方法CLoT。CLoT包括关联性指令微调和探索性自我调整两个阶段,旨在激发模型的创新响应能力。
性能评估方面,CLoT在Oogiri-GO数据集上的选择题和排序题评估中,显著提高了多模态大模型的性能,并超越了包括GPT-4在内的其他先进模型。用户调查也证实了CLoT在生成幽默内容方面的优越性。此外,CLoT在其他任务如“看云猜物CGG”和“发散思维测试DAT”中也展现了良好的泛化能力。
中山大学人机物智能融合实验室(HCP Lab)由林倞教授于2010年创立,专注于多模态内容理解、因果及认知推理、具身学习等领域的研究,并取得了丰富的学术成果。此次研究的成功,不仅展示了该实验室在AI领域的创新能力,也为未来的人工智能研究提供了新的思路和方法。