微软研究员发布EmotionPrompt方法:增强多语言模型的情感智能

　　微软研究员最近发布了名为“EmotionPrompt”的研究成果，旨在增强多语言模型的情感智能。

　　情感智能被认为是人类素质的一个关键组成部分，它涵盖了情感理解、情感处理以及如何利用情感数据来指导逻辑和分析过程，如问题解决和行为管理。研究指出，情感控制对于影响人类问题解决能力具有重要作用，因此情感智能在教育和健康等多个领域都有广泛应用。

　　这项研究由微软、威廉与玛丽大学、北京师范大学和香港科技大学等机构合作进行，旨在探究情感智能与复杂人工智能模型之间的关联。研究表明，新兴的大语言模型在多个任务中表现出色，包括推理、自然语言处理和生成，以及STEM问题解决，这使它们成为实现人工通用智能的有望研究方向之一。

　　尽管最近的研究表明大语言模型可以识别和处理情感线索，但还不清楚它们是否具备解释心理情感冲动的潜力，这对于改进其问题解决能力至关重要。研究人员设计了EmotionPrompt方法，旨在通过情感刺激来探究多语言模型的情感智能。结果表明，情感提示显著提高了生成任务的性能，表现出平均性能、真实性和责任性能的提升。

　　他们特别设计了11条心理短语，作为LLM的后续提示，引发情绪反应。在他们的广泛调查中使用了确定性任务和生成性任务，它们一起涵盖了广泛的难度级别。他们使用多个法学硕士(例如 FlanT5-Large、Vicuna、Llama2、BLOOM、ChatGPT 和 GPT-4)对24项指令归纳任务和21项策划的 BIG-Bench 任务进行了试验，所有这些都是确定性的，可以使用通用指标。他们对106名参与者进行了一项人体研究，以判断使用基于 GPT-4的普通提示和情感提示生成任务的质量，因为这些活动不适合传统和自动评估。他们的人类研究表明，情感提示可以显着提高生成性任务的绩效(绩效、诚实度和责任指标平均提高10.9%)。另一方面，标准实验表明LLM拥有情商，并且可以通过情绪刺激来增强。

　　此外，研究还分析了情感刺激对最终输出的影响，结果显示大语言模型的梯度受益于情感刺激，从而改善了原始提示的表示。最后，研究还探讨了同时使用多个情感线索如何影响性能，发现这样做可以显著提高结果。

　　根据研究结果，EP02是指令归纳中最好的刺激，比最差的刺激高出6.06%，而 EP06是 BIG-Bench 中最好的刺激。重要的是要记住，任务复杂性、任务类型和使用的指标等几个因素可能会影响刺激的绩效。

　　这项研究为多语言模型的情感智能潜力提供了初步的研究，有望在各种应用领域取得进展。

微软研究员发布EmotionPrompt方法:增强多语言模型的情感智能

延展资讯