来源:arXiv预印本服务器
德国研究人员对比了传统搜索引擎与生成式AI搜索工具(如Google AI Overview、Gemini等)的性能差异。研究发现,AI搜索的信息来源更广泛,但答案稳定性较差,且常依赖内部知识而非实时网络信息。尽管AI能提供综合回答,但可能牺牲可靠来源和结果一致性。研究强调需建立新标准以评估AI生成答案的可靠性。
来源:arXiv预印本服务器
德国研究人员对比了传统搜索引擎与生成式AI搜索工具(如Google AI Overview、Gemini等)的性能差异。研究发现,AI搜索的信息来源更广泛,但答案稳定性较差,且常依赖内部知识而非实时网络信息。尽管AI能提供综合回答,但可能牺牲可靠来源和结果一致性。研究强调需建立新标准以评估AI生成答案的可靠性。
来源:《npj·数字医学》
约翰斯·霍普金斯大学研究发现,医生在医疗决策中使用生成式AI会引发同行负面评价:依赖AI作为主要决策工具时,其临床技能与患者护理质量均更易受质疑。尽管医护人员普遍认可AI提升诊断准确性的价值,但将AI定位为“第二意见”仅能部分缓解负面观感。研究表明,AI应用中的社会心理障碍可能成为技术落地的隐形阻力,需通过制度设计平衡技术创新与专业信任。
来源: 《自然-通讯》
研究团队利用天文物理超级计算机,开发出名为PLM-Interact的蛋白质语言模型。该模型通过分析42.1万对人类蛋白质对进行训练,在预测蛋白质相互作用方面比现有最佳模型准确率提升16%-28%,并能精准识别导致癌症等疾病的突变影响。研究还证实该模型能有效预测病毒与人类蛋白质的相互作用,为理解疾病机制、病毒传播及新药研发提供了强大工具。
来源: 《自然》
人工智能系统Centaur能预测人类在各类情境下的决策,其表现常优于心理学经典理论。该系统基于160项心理学实验(6万人累计1000万次选择)训练,可模拟问题解决、赌博等任务中的行为,甚至能泛化至未训练过的任务。研究合著者Marcel Binz表示,Centaur使”在计算机模拟中运行实验替代真人参与”成为可能。
来源:《自然》
研究人员在论文中植入针对AI的隐藏指令,试图诱导大语言模型生成有利的审稿意见。《自然》已发现18篇含此类操作的计算机科学预印本论文。尽管多数出版商禁止AI参与审稿,但部分研究者仍违规使用AI评估论文。专家指出,这一漏洞正被恶意利用,威胁学术评审公正性。
来源:物理学家组织网
美国团队研发的便携设备集成AI算法,通过智能手机即可实现专业级视网膜分析,1秒内完成糖尿病视网膜病变分期(准确率99%)。该技术可解决医疗资源匮乏地区的早期筛查难题,覆盖全球超1亿糖尿病患者。(基于数万张多族裔视网膜图像数据库开发)
来源:《自然·医学》
AI系统Eagle通过分析5000多张肺癌病理切片,学会识别表皮生长因子受体(EGFR)突变的视觉特征。实际测试中,该技术使EGFR基因检测需求降低43%,为无法负担昂贵基因测序的患者提供快速、低成本的替代方案。
来源:《科学进展》
研究人员开发了一种结合人工智能与高光谱成像的新方法,可通过扫描患者手掌及无名指血管变化,在脓毒症早期实现自动化快速诊断。基于508名重症患者数据的测试显示,该模型诊断准确率达0.80(1分制),结合临床数据后对死亡风险的预测准确率提升至0.72。研究者指出,该方法尤其适用于医疗资源有限的中低收入国家,可作为重症监护病房的标准化筛查工具。未来需在不同地区验证其普适性。
来源:Undark
尽管人们常因大语言模型(LLM)的错误而发笑,但AI是否能真正具备幽默感?一些专家认为可以。一位专家指出:“事实证明,AI生成某些类型的幽默比安全驾驶汽车更容易。”这表明AI在特定形式的幽默创作上已具备一定能力,但距离完全理解人类幽默的复杂性仍有差距。
来源:《地球物理研究快报》
研究团队通过结合水下新月形沙丘实验、高精度数值模拟与卷积神经网络(CNN),开发出一种仅凭沙丘图像即可估算每颗沙粒所受作用力的创新方法。该技术利用模拟生成的高分辨率力场图训练AI模型,使其能根据真实沙丘形态准确推断力分布,甚至泛化至未见过的新形状。该方法适用于各类颗粒系统(如冰晶、盐粒),可应用于河道淤积、海岸侵蚀及火星沙丘演化等研究,为环境预测与行星科学提供了全新量化工具。