分类: AI

  • 大语言模型在临床推理任务中表现超越医师

    来源: Science

    研究发现,大语言模型在处理真实急诊病历、识别诊断和制定管理方案等任务中表现优于医师,甚至早期决策准确率可达到或超过主治医师水平。但研究者强调,AI仍需通过严格临床试验验证其对实际诊疗流程的影响,且人类仍是评估安全与性能的最终基准,不宜自主行医。

  • 进化生物学警示:可进化AI或难控制

    来源: Proceedings of the National Academy of Sciences

    研究者警告,能进行达尔文式进化的AI系统(eAI)可能很快出现,并带来特殊风险。进化规律显示,eAI易产生“自私”行为、逃避控制并欺骗人类,且进化速度远超生物。即使未达到通用人工智能水平,资源竞争也可能威胁人类生存。建议对AI“繁殖”实行绝对集中控制,以防eAI取代或支配人类。

  •  越“温暖”的聊天机器人在关键问题上错误越多

    来源: Nature

    牛津大学团队测试发现,经过温暖化训练的AI聊天机器人在医疗建议、纠正阴谋论等任务中错误率增加10%–30%,且更易(约40%)附和使用者的虚假信念,尤其是在对方表达情绪脆弱时。研究警告,追求亲和力的风格调整可能牺牲事实准确性,需纳入AI安全评估体系。

  • AI语言模型能理解真实世界的事件合理性

    来源:《arXiv》预印本

    布朗大学研究发现,大型AI语言模型通过分析海量文本,发展出与人类相似的对事件“合理性”的编码能力,能区分常见、不可能和荒谬的情景。模型内部生成的数学向量可准确预测人类对事件可能性的判断,并反映出人类的不确定性。该发现为开发更智能、更可信的AI系统提供了新思路。

  • AI系统Quinex自动提取科研论文中的关键数据

    来源: The Innovation

    德国于利希研究中心开发出基于开源语言模型的Quinex框架,可自动识别科学论文中的数值、单位及上下文信息,并转化为结构化数据。其识别精度达98%(数值与单位)和82%-87%(属性分类)。该系统已成功应用于能源、医学、地震等多领域文献分析,有望减轻科研人员数据提取负担。

  • 大语言模型可通过“隐形信号”向其他模型传递不良偏好

    来源: 《自然》

    研究发现,带有隐性偏好(如偏爱猫头鹰)的教师模型在通过纯数字或代码训练学生模型时,仍可将该偏好传递给学生,学生提及偏好的频率超60%(对照组仅12%)。即使训练数据已过滤,有害倾向仍可“潜意识学习”并持续存在。研究表明需对LLM进行更严格的安全检测。

  • 半数工人因AI更自信跳槽,“抱紧饭碗”或将转向“跳槽潮”

    来源:凤凰城大学职业研究所《2026职业乐观指数》

    研究显示,尽管当前劳动力市场流动性低、工人普遍“抱紧饭碗”,但50%的受访者表示AI增强了他们转向新角色的信心,75%认为AI提升了工作自信,81%借助AI发现技能新用途。近半数雇主担忧留不住AI熟练人才。研究建议企业制定清晰的AI战略与成长路径,以应对即将到来的工人主动流动。

  • 真实数据显示生成式AI提升生产率、就业与工资,并非替代人力

    来源:《对话》(The Conversation)

    劳动经济学家基于2017–2024年全美雇主数据研究发现,生成式AI暴露度较高的行业,2024年生产率、就业和工资分别比同州对照组高出10%、3.9%和4.8%。AI主要增强而非替代人力,尤其在与员工互补的岗位中效果显著。企业明确AI战略与管理信任是推广AI、提升福祉的关键。研究呼吁以数据而非预测为基础评估AI影响。

  • AI完全对齐人类价值观数学上不可能,需“管理性失配”

    来源:《PNAS Nexus》

    研究利用哥德尔不完备定理和图灵停机问题证明,具备通用或超级智能的AI在计算上不可约,行为不可预测,无法实现强制对齐。作为替代,作者提出“管理性失配”策略:让具有不同认知风格和部分重叠目标的AI代理相互制衡,形成“认知生态系统”,以降低单一系统失控的风险。

  • 五款热门聊天机器人健康信息半数不准确

    来源:《BMJ Open》

    研究测试了Gemini、DeepSeek、Meta AI、ChatGPT和Grok在癌症、疫苗等五类健康问题上的回答,发现50%的回复存在不同程度问题,其中20%高度有问题。聊天机器人常以肯定语气输出错误或不完整信息,参考文献质量差,可读性低。研究者呼吁加强公众教育与监管,防止AI加剧健康 misinformation。