科学摘要

标签：大语言模型

大语言模型在临床推理任务中表现超越医师

来源： Science

研究发现，大语言模型在处理真实急诊病历、识别诊断和制定管理方案等任务中表现优于医师，甚至早期决策准确率可达到或超过主治医师水平。但研究者强调，AI仍需通过严格临床试验验证其对实际诊疗流程的影响，且人类仍是评估安全与性能的最终基准，不宜自主行医。

2026年5月1日
大语言模型可通过“隐形信号”向其他模型传递不良偏好

来源：《自然》

研究发现，带有隐性偏好（如偏爱猫头鹰）的教师模型在通过纯数字或代码训练学生模型时，仍可将该偏好传递给学生，学生提及偏好的频率超60%（对照组仅12%）。即使训练数据已过滤，有害倾向仍可“潜意识学习”并持续存在。研究表明需对LLM进行更严格的安全检测。

2026年4月16日
研究显示大语言模型不擅长密码猜测，安全性获初步验证

来源：arXiv预印本

澳大利亚研究团队通过合成用户资料测试发现，当前主流开源大语言模型在根据用户个人信息生成猜测密码的任务中表现不佳，命中率均低于1.5%，远低于传统规则组合破解方法。分析表明，大语言模型缺乏对训练数据中密码模式的记忆能力和领域适应能力，难以有效推断个人化密码。该研究为密码安全提供了重要参考，表明现阶段大语言模型在恶意密码破解方面实用性有限。

2025年11月28日
研究揭示大语言模型重大安全漏洞，仅需数百份恶意文档即可植入后门

来源： arXiv预印本服务器

研究发现，大语言模型比想象中更易受“数据投毒”攻击。仅需250份恶意文档，就能在参数量高达130亿的大型模型中成功植入后门（一种隐藏的恶意触发机制）。关键在于，攻击所需的有毒数据量并不随模型规模增大而增加，即使加入海量干净数据也无法稀释毒性。这表明，单纯扩大模型规模无法提升安全性，研究呼吁AI界必须优先开发更强大的防御机制，而非一味追求模型体量。

2025年10月11日

标签： 大语言模型

大语言模型在临床推理任务中表现超越医师

大语言模型可通过“隐形信号”向其他模型传递不良偏好

研究显示大语言模型不擅长密码猜测，安全性获初步验证

研究揭示大语言模型重大安全漏洞，仅需数百份恶意文档即可植入后门

标签：大语言模型