科学摘要

专家评估显示LLM理解专业文献能力不均，图像推理仍是短板

作者：

在

来源：Proceedings of the National Academy of Sciences

康奈尔大学与谷歌合作，邀请12名专家以高温超导领域为测试集，评估六种大语言模型理解专业文献的能力。结果显示，基于可信文献库的NotebookLM和定制RAG系统表现最佳；所有模型文本提取能力出色，但图像推理严重不足，且存在引用不实等问题。研究为AI工具在科学研究中的应用提供了改进方向。

更多文章