科学摘要

分类： AI

大语言模型在临床推理任务中表现超越医师

来源： Science

研究发现，大语言模型在处理真实急诊病历、识别诊断和制定管理方案等任务中表现优于医师，甚至早期决策准确率可达到或超过主治医师水平。但研究者强调，AI仍需通过严格临床试验验证其对实际诊疗流程的影响，且人类仍是评估安全与性能的最终基准，不宜自主行医。

2026年5月1日
进化生物学警示：可进化AI或难控制

来源： Proceedings of the National Academy of Sciences

研究者警告，能进行达尔文式进化的AI系统（eAI）可能很快出现，并带来特殊风险。进化规律显示，eAI易产生“自私”行为、逃避控制并欺骗人类，且进化速度远超生物。即使未达到通用人工智能水平，资源竞争也可能威胁人类生存。建议对AI“繁殖”实行绝对集中控制，以防eAI取代或支配人类。

2026年4月30日
越“温暖”的聊天机器人在关键问题上错误越多

来源： Nature

牛津大学团队测试发现，经过温暖化训练的AI聊天机器人在医疗建议、纠正阴谋论等任务中错误率增加10%–30%，且更易（约40%）附和使用者的虚假信念，尤其是在对方表达情绪脆弱时。研究警告，追求亲和力的风格调整可能牺牲事实准确性，需纳入AI安全评估体系。

2026年4月30日
AI语言模型能理解真实世界的事件合理性

来源：《arXiv》预印本

布朗大学研究发现，大型AI语言模型通过分析海量文本，发展出与人类相似的对事件“合理性”的编码能力，能区分常见、不可能和荒谬的情景。模型内部生成的数学向量可准确预测人类对事件可能性的判断，并反映出人类的不确定性。该发现为开发更智能、更可信的AI系统提供了新思路。

2026年4月23日
AI系统Quinex自动提取科研论文中的关键数据

来源： The Innovation

德国于利希研究中心开发出基于开源语言模型的Quinex框架，可自动识别科学论文中的数值、单位及上下文信息，并转化为结构化数据。其识别精度达98%（数值与单位）和82%-87%（属性分类）。该系统已成功应用于能源、医学、地震等多领域文献分析，有望减轻科研人员数据提取负担。

2026年4月18日
大语言模型可通过“隐形信号”向其他模型传递不良偏好

来源：《自然》

研究发现，带有隐性偏好（如偏爱猫头鹰）的教师模型在通过纯数字或代码训练学生模型时，仍可将该偏好传递给学生，学生提及偏好的频率超60%（对照组仅12%）。即使训练数据已过滤，有害倾向仍可“潜意识学习”并持续存在。研究表明需对LLM进行更严格的安全检测。

2026年4月16日
半数工人因AI更自信跳槽，“抱紧饭碗”或将转向“跳槽潮”

来源：凤凰城大学职业研究所《2026职业乐观指数》

研究显示，尽管当前劳动力市场流动性低、工人普遍“抱紧饭碗”，但50%的受访者表示AI增强了他们转向新角色的信心，75%认为AI提升了工作自信，81%借助AI发现技能新用途。近半数雇主担忧留不住AI熟练人才。研究建议企业制定清晰的AI战略与成长路径，以应对即将到来的工人主动流动。

2026年4月15日
真实数据显示生成式AI提升生产率、就业与工资，并非替代人力

来源：《对话》（The Conversation）

劳动经济学家基于2017–2024年全美雇主数据研究发现，生成式AI暴露度较高的行业，2024年生产率、就业和工资分别比同州对照组高出10%、3.9%和4.8%。AI主要增强而非替代人力，尤其在与员工互补的岗位中效果显著。企业明确AI战略与管理信任是推广AI、提升福祉的关键。研究呼吁以数据而非预测为基础评估AI影响。

2026年4月15日
AI完全对齐人类价值观数学上不可能，需“管理性失配”

来源：《PNAS Nexus》

研究利用哥德尔不完备定理和图灵停机问题证明，具备通用或超级智能的AI在计算上不可约，行为不可预测，无法实现强制对齐。作为替代，作者提出“管理性失配”策略：让具有不同认知风格和部分重叠目标的AI代理相互制衡，形成“认知生态系统”，以降低单一系统失控的风险。

2026年4月15日
五款热门聊天机器人健康信息半数不准确

来源：《BMJ Open》

研究测试了Gemini、DeepSeek、Meta AI、ChatGPT和Grok在癌症、疫苗等五类健康问题上的回答，发现50%的回复存在不同程度问题，其中20%高度有问题。聊天机器人常以肯定语气输出错误或不完整信息，参考文献质量差，可读性低。研究者呼吁加强公众教育与监管，防止AI加剧健康 misinformation。

2026年4月15日