标签: AI临床推理

  • 大语言模型在临床推理任务中表现超越医师

    来源: Science

    研究发现,大语言模型在处理真实急诊病历、识别诊断和制定管理方案等任务中表现优于医师,甚至早期决策准确率可达到或超过主治医师水平。但研究者强调,AI仍需通过严格临床试验验证其对实际诊疗流程的影响,且人类仍是评估安全与性能的最终基准,不宜自主行医。

  •  生成式AI临床推理能力仍存短板,鉴别诊断表现不佳

    来源: 《JAMA Network Open》

    麻省总医院团队评估21种大语言模型在29个临床案例中的分步推理能力,发现模型在完整信息下最终诊断准确率超90%,但超80%的情况下无法生成合理的鉴别诊断清单。为此提出PrIME-LLM评分体系,综合评估诊断推理全流程。研究强调当前AI仍需“人类在环”监督,尚不适合无监督临床部署。