科学摘要

标签： AI临床推理

大语言模型在临床推理任务中表现超越医师

来源： Science

研究发现，大语言模型在处理真实急诊病历、识别诊断和制定管理方案等任务中表现优于医师，甚至早期决策准确率可达到或超过主治医师水平。但研究者强调，AI仍需通过严格临床试验验证其对实际诊疗流程的影响，且人类仍是评估安全与性能的最终基准，不宜自主行医。

2026年5月1日
生成式AI临床推理能力仍存短板，鉴别诊断表现不佳

来源：《JAMA Network Open》

麻省总医院团队评估21种大语言模型在29个临床案例中的分步推理能力，发现模型在完整信息下最终诊断准确率超90%，但超80%的情况下无法生成合理的鉴别诊断清单。为此提出PrIME-LLM评分体系，综合评估诊断推理全流程。研究强调当前AI仍需“人类在环”监督，尚不适合无监督临床部署。

2026年4月14日

手微支：18735388491 谢志强

邮箱：xzq18735388491@outlook.com

豫ICP备2025146657

豫公网安备41010202003471号