在一项新研究中,美国贝斯以色列医疗中心(BIDMC)的科学家们将一种大型语言模型与人类医生进行了临床推理能力的比较。研究人员使用了修订后的 IDEA(r-IDEA)评分,这是一种常用工具,用于评估临床推理能力。
这项研究包括给予一个由 GPT-4提供支持的聊天机器人、21名主治医生和18名住院医生20个临床案例,以建立诊断推理并解决问题。然后,评估了这三组答案的 r-IDEA 分数。研究人员发现,聊天机器人实际上获得了最高的 r-IDEA 分数,这在诊断推理方面实际上相当令人印象深刻。然而,作者还指出,聊天机器人 “经常完全错误”。
研究的主要作者 Stephanie Cabral 医生解释说:“需要进一步研究以确定大型语言模型如何最好地整合到临床实践中,但即使在现在,它们也可以作为一个检查点,帮助我们确保我们没有漏掉什么。” 总之,结果显示了聊天机器人的合理推理,但也有重大错误;这进一步支持了这种 AI 驱动系统在目前的成熟水平下最适合作为一种工具,用于增强医生的实践,而不是取代医生的诊断能力。
正如医疗领导者和技术专家所经常解释的那样,这是因为医学实践并不仅仅基于规则的算法输出,而是基于深入的推理和临床直觉,这是 LLM 难以复制的。然而,像这样能够提供诊断或临床支持的工具仍然可以成为医生工作流程中极其强大的资产。例如,如果系统可以根据可用数据(如患者病史或现有记录)合理地提供 “首次诊断” 或初步诊断建议,可能会让医生在诊断过程中节省大量时间。此外,如果这些工具可以增强医生的工作流程,并改善他们处理医疗记录中大量临床信息的能力,可能会有机会提高效率。
许多组织正在利用这些潜在的临床增强手段。例如,利用自然语言处理的人工智能驱动的转录技术正在帮助医生更高效地完成临床文档记录。企业搜索工具正在与组织和电子病历系统集成,以帮助医生搜索大量数据,促进数据互操作性,并更快更深入地洞察现有患者数据。其他系统甚至可能帮助提供初步诊断;例如,在放射学和皮肤科领域出现了能够通过分析上传的照片提出潜在诊断建议的工具。
然而,这个领域仍有许多工作要做。简而言之,尽管这些 AI 系统还没有准备好用于临床诊断,但仍可能利用这项技术来增强临床工作流程,特别是在保持人类控制的同时确保安全、准确的过程。