来源:arXiv预印本服务器
Salesforce AI Research等机构的研究表明,主流AI工具(如Perplexity、You.com、Bing Chat及GPT-4.5)在回答问题时,约30%-47%的声明无法被其提供的来源支持。研究通过DeepTRACE框架测试300多个问题发现,AI在争议性话题中常呈现单方面观点且过度自信,容易形成“信息茧房”,同时存在虚构内容或引用不准确(部分系统引文准确率仅40%-80%)。结果显示当前AI搜索系统仍需大幅改进以确保可靠性与用户自主性。
来源:arXiv预印本服务器
Salesforce AI Research等机构的研究表明,主流AI工具(如Perplexity、You.com、Bing Chat及GPT-4.5)在回答问题时,约30%-47%的声明无法被其提供的来源支持。研究通过DeepTRACE框架测试300多个问题发现,AI在争议性话题中常呈现单方面观点且过度自信,容易形成“信息茧房”,同时存在虚构内容或引用不准确(部分系统引文准确率仅40%-80%)。结果显示当前AI搜索系统仍需大幅改进以确保可靠性与用户自主性。