由哈佛医学院和斯坦福大学组成的科研团队近日对OpenAI的o1-preview模型进行了深入评估,发现该模型在诊断复杂医疗案例时表现出色,准确率显著高于人类医生。
研究报告显示,o1-preview模型在78.3%的测试案例中做出了正确诊断,在70个特定案例的对比测试中,准确率更是高达88.6%,远超其前身GPT-4的72.9%。此外,使用医学推理质量评估标准量表R-IDEA,o1-preview在80个案例中取得了78个满分,而经验丰富的医生仅在28个案例中获得满分,住院医生则仅为16例。
在25位专家设计的复杂案例中,o1-preview模型的得分高达86%,是使用GPT-4的医生(41%)和使用传统工具的医生(34%)的两倍多。
尽管如此,研究人员也承认该测试存在局限性,部分测试案例可能包含在o1-preview的训练数据中,且测试主要集中于系统单独工作,并未充分考虑其与人类医生协同工作的场景。此外,o1-preview建议的诊断测试成本高昂,在实际应用中存在局限性。
这一研究结果引发了关于AI在医疗领域应用的广泛讨论,尽管AI在诊断准确性上表现出色,但其高昂的成本和与人类医生协同工作的挑战仍需进一步解决。