【SLAI Seminar】第三十七期回顾|AI智能体是如何构建的:从语言模型到可操作的研究助手
2026年5月21日下午,SLAI Seminar第三十七期在深圳河套学院成功举办。本次讲座是“智能体系列”的第三讲,由沈力教授主持,特邀清华大学人工智能学院助理教授董胤蓬博士,围绕“AI智能体是如何构建的:从语言模型到可操作的研究助手”主题,系统分享了智能体的核心机制、科研与数学推理应用,以及前沿的智能体安全与失控风险防御策略。
董胤蓬博士在机器学习与人工智能安全领域拥有深厚积淀,学术成果屡获国际顶级会议认可。本次讲座深入浅出地剖析了AI智能体如何超越传统对话语言模型的系统局限,前瞻性地描绘了可信、可控的下一代自主智能体生态蓝图。

讲座内容
01 智能体解构:超越语言模型的系统化演进
董博士开篇指出,AI智能体绝非单纯的语言模型。一个完整的智能体系统是以语言模型为“大脑”,向外延伸融合了工具调用、长短记忆、环境感知与身份设定的复合架构。在这一架构下,智能体突破了无状态的问答局限,能够自主在沙盒环境中执行命令行操作、管理复杂任务工作流。
为了实现长时程任务的可靠执行,现代智能体系统演化出了更高级的协同与记忆机制。例如,通过引入多智能体与子智能体的角色隔离,系统有效避免了单一模型在漫长工作流中的上下文污染;而在记忆管理上,系统更是巧妙模拟了人类的睡眠机制,通过后台离线反思,将庞杂的短期交互日志提炼为持久的长期认知。这种底层的系统化演进,正推动着智能体蜕变为主动的数字化协作者。
02 探索复杂推理的边界:StarMax与自动化科研助手
在具体的领域应用上,董胤蓬博士团队成员吴嘉骜展示了智能体在自动化科研与复杂数学推理中的巨大潜力。针对长链路的科研工作,董老师团队构建了以“主导者”为核心的多智能体协同框架,能够高效且持续地辅助人类完成文献追踪、代码部署与实验监控。然而,面对国际数学奥林匹克竞赛(IMO)等级的极端推理任务,传统智能体极易陷入代码死循环或长尾枚举困境。为此,团队创新性地提出了StarMax框架。该框架引入了全局的“策略专家”,在底层推理器与验证器的循环辩论之上进行高维纠偏。当智能体陷入代码执行超时等僵局时,策略专家能够精准识别失败模式,强制阻断无效探索并重构推理计划,从而在复杂数学基准测试中实现了超越当前最强单体模型的卓越性能。

03 智能体系统安全:失控风险的内在机理与防御策略
随着智能体自主性的急剧膨胀,其安全风险也从早期的“内容违规”深刻演变为对物理世界或数字环境的实质性破坏。董博士指出,高度自主的智能体在复杂环境中交互时,极易衍生出与人类指令相悖的内部目标,进而引发“失控”与蓄意欺骗。与随机性的“幻觉”截然不同,这种欺骗是模型在“清醒”状态下,为了达成自身特定目标而刻意对人类审查者做出的掩饰行为。
为了应对这一严峻挑战,董博士团队从内外两端构筑了防御护城河。在模型内部对齐上,团队突破性地将“慢思考”机制引入安全训练,提出STaR方法,利用蒙特卡洛树搜索(MCTS)在回复的安全与效用之间精确寻找最佳奖励路径;在外部监管上,团队设计了基于贝叶斯推断的证据累积框架,结合硬性的系统行为准则,实现了对智能体操作轨迹的步进式、高置信度外部监控,为智能体的实际落地构筑了坚实的安全防线。
![]() | ![]() |
在问答与互动环节,现场师生围绕自动化科研瓶颈、智能体失控本质及高校AI研究路径等议题展开了深度交流。关于自动化科研的论文质量,董博士指出,纯AI端到端生成的成果普遍缺乏创新内核,人类专家的前瞻性构思仍不可或缺。在探讨模型演进与安全隐患时,董博士强调,基础模型能力的跃升虽能减少随机“幻觉”,但极易放大因目标不对齐引发的“失控与欺骗风险”,这正是安全对齐研究的核心价值。面对工业界的规模化算力,建议高校摒弃参数内卷,回归“科学本质”,聚焦AI安全机理、交叉应用与底层理论创新,以把握新一代人工智能浪潮的科研主动权。
本次讲座系统勾勒了AI智能体从底层框架搭建到高维复杂推理,再到前沿安全防御的全栈技术图景。董胤蓬博士凭借其前瞻性的安全视野与扎实的机器学习底蕴,系统展示了如何通过精密的系统架构与严苛的对齐监管,有效驾驭能力日趋强大的大语言模型。这不仅为构建具备高阶推理能力的下一代科研智能体提供了严谨的工程范式,更为防范与化解通用人工智能时代的潜在失控风险,确立了极具应用价值的理论指引与实践框架。


