标签: AI临床推理

  •  生成式AI临床推理能力仍存短板,鉴别诊断表现不佳

    来源: 《JAMA Network Open》

    麻省总医院团队评估21种大语言模型在29个临床案例中的分步推理能力,发现模型在完整信息下最终诊断准确率超90%,但超80%的情况下无法生成合理的鉴别诊断清单。为此提出PrIME-LLM评分体系,综合评估诊断推理全流程。研究强调当前AI仍需“人类在环”监督,尚不适合无监督临床部署。