来源:《arXiv》预印本
布朗大学研究发现,大型AI语言模型通过分析海量文本,发展出与人类相似的对事件“合理性”的编码能力,能区分常见、不可能和荒谬的情景。模型内部生成的数学向量可准确预测人类对事件可能性的判断,并反映出人类的不确定性。该发现为开发更智能、更可信的AI系统提供了新思路。
来源:《arXiv》预印本
布朗大学研究发现,大型AI语言模型通过分析海量文本,发展出与人类相似的对事件“合理性”的编码能力,能区分常见、不可能和荒谬的情景。模型内部生成的数学向量可准确预测人类对事件可能性的判断,并反映出人类的不确定性。该发现为开发更智能、更可信的AI系统提供了新思路。
来源: The Innovation
德国于利希研究中心开发出基于开源语言模型的Quinex框架,可自动识别科学论文中的数值、单位及上下文信息,并转化为结构化数据。其识别精度达98%(数值与单位)和82%-87%(属性分类)。该系统已成功应用于能源、医学、地震等多领域文献分析,有望减轻科研人员数据提取负担。
来源: 《自然》
研究发现,带有隐性偏好(如偏爱猫头鹰)的教师模型在通过纯数字或代码训练学生模型时,仍可将该偏好传递给学生,学生提及偏好的频率超60%(对照组仅12%)。即使训练数据已过滤,有害倾向仍可“潜意识学习”并持续存在。研究表明需对LLM进行更严格的安全检测。
来源:凤凰城大学职业研究所《2026职业乐观指数》
研究显示,尽管当前劳动力市场流动性低、工人普遍“抱紧饭碗”,但50%的受访者表示AI增强了他们转向新角色的信心,75%认为AI提升了工作自信,81%借助AI发现技能新用途。近半数雇主担忧留不住AI熟练人才。研究建议企业制定清晰的AI战略与成长路径,以应对即将到来的工人主动流动。
来源:《对话》(The Conversation)
劳动经济学家基于2017–2024年全美雇主数据研究发现,生成式AI暴露度较高的行业,2024年生产率、就业和工资分别比同州对照组高出10%、3.9%和4.8%。AI主要增强而非替代人力,尤其在与员工互补的岗位中效果显著。企业明确AI战略与管理信任是推广AI、提升福祉的关键。研究呼吁以数据而非预测为基础评估AI影响。
来源:《PNAS Nexus》
研究利用哥德尔不完备定理和图灵停机问题证明,具备通用或超级智能的AI在计算上不可约,行为不可预测,无法实现强制对齐。作为替代,作者提出“管理性失配”策略:让具有不同认知风格和部分重叠目标的AI代理相互制衡,形成“认知生态系统”,以降低单一系统失控的风险。
来源:《BMJ Open》
研究测试了Gemini、DeepSeek、Meta AI、ChatGPT和Grok在癌症、疫苗等五类健康问题上的回答,发现50%的回复存在不同程度问题,其中20%高度有问题。聊天机器人常以肯定语气输出错误或不完整信息,参考文献质量差,可读性低。研究者呼吁加强公众教育与监管,防止AI加剧健康 misinformation。
来源: 《JAMA Network Open》
麻省总医院团队评估21种大语言模型在29个临床案例中的分步推理能力,发现模型在完整信息下最终诊断准确率超90%,但超80%的情况下无法生成合理的鉴别诊断清单。为此提出PrIME-LLM评分体系,综合评估诊断推理全流程。研究强调当前AI仍需“人类在环”监督,尚不适合无监督临床部署。
来源: The Conversation
研究发现,AI已能通过自动化云实验室自主设计并运行数万项生物实验,大幅降低成本。但现行监管未能跟上其“双重用途”风险:AI可能被滥用于优化病毒传播、指导生物武器开发。尽管部分公司采取自愿安全措施,但政策空白仍存,需在防范风险与避免过度限制间取得平衡。
来源: Molecular Systems Design & Engineering
布鲁克海文实验室与得克萨斯农工大学团队在变分自编码器中引入不确定性量化,通过“主动子空间方法”识别对分子生成影响最大的参数区域进行微调,而非重新训练整个模型。该方法使AI在药物发现、材料设计等领域能生成比原始模型预测性能更佳的分子,将不确定性从障碍转化为优化设计的工具。