专家评估显示LLM理解专业文献能力不均,图像推理仍是短板

来源:Proceedings of the National Academy of Sciences

康奈尔大学与谷歌合作,邀请12名专家以高温超导领域为测试集,评估六种大语言模型理解专业文献的能力。结果显示,基于可信文献库的NotebookLM和定制RAG系统表现最佳;所有模型文本提取能力出色,但图像推理严重不足,且存在引用不实等问题。研究为AI工具在科学研究中的应用提供了改进方向。