来源: Science
研究发现,大语言模型在处理真实急诊病历、识别诊断和制定管理方案等任务中表现优于医师,甚至早期决策准确率可达到或超过主治医师水平。但研究者强调,AI仍需通过严格临床试验验证其对实际诊疗流程的影响,且人类仍是评估安全与性能的最终基准,不宜自主行医。
来源: Science
研究发现,大语言模型在处理真实急诊病历、识别诊断和制定管理方案等任务中表现优于医师,甚至早期决策准确率可达到或超过主治医师水平。但研究者强调,AI仍需通过严格临床试验验证其对实际诊疗流程的影响,且人类仍是评估安全与性能的最终基准,不宜自主行医。
来源: Proceedings of the National Academy of Sciences
研究者警告,能进行达尔文式进化的AI系统(eAI)可能很快出现,并带来特殊风险。进化规律显示,eAI易产生“自私”行为、逃避控制并欺骗人类,且进化速度远超生物。即使未达到通用人工智能水平,资源竞争也可能威胁人类生存。建议对AI“繁殖”实行绝对集中控制,以防eAI取代或支配人类。
来源: Nature
牛津大学团队测试发现,经过温暖化训练的AI聊天机器人在医疗建议、纠正阴谋论等任务中错误率增加10%–30%,且更易(约40%)附和使用者的虚假信念,尤其是在对方表达情绪脆弱时。研究警告,追求亲和力的风格调整可能牺牲事实准确性,需纳入AI安全评估体系。
来源:《arXiv》预印本
布朗大学研究发现,大型AI语言模型通过分析海量文本,发展出与人类相似的对事件“合理性”的编码能力,能区分常见、不可能和荒谬的情景。模型内部生成的数学向量可准确预测人类对事件可能性的判断,并反映出人类的不确定性。该发现为开发更智能、更可信的AI系统提供了新思路。
来源: The Innovation
德国于利希研究中心开发出基于开源语言模型的Quinex框架,可自动识别科学论文中的数值、单位及上下文信息,并转化为结构化数据。其识别精度达98%(数值与单位)和82%-87%(属性分类)。该系统已成功应用于能源、医学、地震等多领域文献分析,有望减轻科研人员数据提取负担。
来源: 《自然》
研究发现,带有隐性偏好(如偏爱猫头鹰)的教师模型在通过纯数字或代码训练学生模型时,仍可将该偏好传递给学生,学生提及偏好的频率超60%(对照组仅12%)。即使训练数据已过滤,有害倾向仍可“潜意识学习”并持续存在。研究表明需对LLM进行更严格的安全检测。
来源:凤凰城大学职业研究所《2026职业乐观指数》
研究显示,尽管当前劳动力市场流动性低、工人普遍“抱紧饭碗”,但50%的受访者表示AI增强了他们转向新角色的信心,75%认为AI提升了工作自信,81%借助AI发现技能新用途。近半数雇主担忧留不住AI熟练人才。研究建议企业制定清晰的AI战略与成长路径,以应对即将到来的工人主动流动。
来源:《对话》(The Conversation)
劳动经济学家基于2017–2024年全美雇主数据研究发现,生成式AI暴露度较高的行业,2024年生产率、就业和工资分别比同州对照组高出10%、3.9%和4.8%。AI主要增强而非替代人力,尤其在与员工互补的岗位中效果显著。企业明确AI战略与管理信任是推广AI、提升福祉的关键。研究呼吁以数据而非预测为基础评估AI影响。
来源:《PNAS Nexus》
研究利用哥德尔不完备定理和图灵停机问题证明,具备通用或超级智能的AI在计算上不可约,行为不可预测,无法实现强制对齐。作为替代,作者提出“管理性失配”策略:让具有不同认知风格和部分重叠目标的AI代理相互制衡,形成“认知生态系统”,以降低单一系统失控的风险。
来源:《BMJ Open》
研究测试了Gemini、DeepSeek、Meta AI、ChatGPT和Grok在癌症、疫苗等五类健康问题上的回答,发现50%的回复存在不同程度问题,其中20%高度有问题。聊天机器人常以肯定语气输出错误或不完整信息,参考文献质量差,可读性低。研究者呼吁加强公众教育与监管,防止AI加剧健康 misinformation。