• 内网
  • 搜索
  • 学院概况
    • 学院概况
    • 联系我们
  • 师资力量
  • 招生培养
    • 招生信息 Admission
    • 招生资讯
    • 学院课程
  • 科研创新
    • 人工智能理论及系统中心
    • 语言模型与人机交互中心
    • 科学与工程智能中心
    • 社会科学智能中心
    • 具身智能与计算机视觉中心
  • 最新资讯
    • 学院动态
    • 活动预告
    • 通知公告
    • 采购公告
  • 人才招聘
  • 学术论坛
    • 论坛预告
    • 论坛回顾

面包屑

  • 首页
  • 学术论坛
  • 论坛回顾
  • 【SLAI Seminar】第二十二期回顾|从单智能体到多智能体:强化学习的演进、协作与决策挑战

【SLAI Seminar】第二十二期回顾|从单智能体到多智能体:强化学习的演进、协作与决策挑战

2026-01-23 学术论坛

SLAI Seminar

2026年1月16日上午,SLAI Seminar第二十二期在深圳河套学院B411教室顺利举行。本期讲座由张治国教授主持,特别邀请阿德莱德大学Zehong Jimmy Cao(曹泽宏)教授,以“单智能体与多智能体强化学习:基础与应用”为主题,系统性梳理强化学习的基础理论、关键算法及其在复杂决策与多智能体协作中的最新进展与应用前景。

 

讲座简介

随着人工智能技术向更深层次的自主决策与群体协作方向发展,强化学习作为核心方法之一,在机器人控制、游戏智能、自动驾驶、医疗决策等领域展现出巨大潜力。然而,从单智能体环境扩展到多智能体系统,仍面临着环境非平稳、奖励稀疏、协作与竞争并存等一系列理论与工程挑战。本期讲座立足于强化学习的基础原理与前沿扩展,旨在为研究者提供从理论到实践、从单智能体到多智能体系统的全景式视角,推动智能决策系统向更复杂、更协作的方向发展。

 

讲座内容

强化学习基础:从马尔可夫决策过程到深度强化学习

曹教授首先从强化学习的核心问题出发,回顾了马尔可夫决策过程(MDP)这一基本建模框架。他强调,与传统的预测性学习不同,强化学习是一种通过与环境交互、通过试错来优化长期累积奖励的序列决策过程。其核心挑战在于“探索与利用”之间的权衡——智能体既需探索未知状态以发现更好策略,也需利用已有知识以获得稳定回报。

在介绍了值函数、Q函数、策略梯度等基本概念后,曹教授深入讲解经典求解方法,包括基于模型的动态规划与无模型的蒙特卡洛、时序差分学习。他特别比较了SARSA(同策略)与Q-learning(异策略)在不同环境下的效率与适用性,指出在环境动态变化或状态空间庞大时,异策略方法往往具备更好的采样效率与收敛稳定性。

随着问题复杂度的提升,传统表格型方法难以应对高维状态与连续动作空间。曹教授进而引入深度强化学习,介绍了Deep Q-Network(DQN)及其改进版本(如Rainbow),以及适用于连续控制任务的策略梯度方法(如PPO)。他强调,深度神经网络不仅能够有效拟合复杂值函数,还能通过端到端学习实现从原始感知到动作输出的直接映射,极大拓展强化学习的应用边界。

从单智能体到多智能体系统的演进与挑战

讲座随后聚焦于多智能体强化学习(MARL)。曹教授指出,多智能体系统不再是单个智能体与静态环境的交互,而是多个智能体在共享环境中同时学习、相互影响,其动态性、非平稳性与信用分配问题使得学习难度显著增加。

曹教授系统介绍了多智能体系统中的关键研究议题,包括协作与竞争机制的建模、通信协议的设计、课程学习与层级结构的引入等。在协作场景中,智能体需学会分工、协调与共同目标达成;在混合动机环境中,则需平衡自身利益与群体利益。曹教授结合其团队的研究,展示了如何通过设计新型评论家网络、引入课程式探索策略、解耦环境混淆因子等方式,提升多智能体系统的学习效率与鲁棒性。

强化学习与大语言模型的融合:新范式与新机遇

讲座尾声,曹教授探讨了强化学习与大语言模型(LLM)结合的创新方向。他指出,PPO等策略优化算法已被广泛应用于LLM的对齐与优化中,例如基于人类反馈的强化学习(RLHF)。通过将语言生成视为序列决策问题,智能体可以根据人类偏好或任务奖励逐步调整生成策略,从而输出更安全、更符合意图的文本。此外,曹教授也展望多智能体框架在LLM协同创作、辩论、群体决策等场景中的应用前景,指出未来智能系统将更注重“群体智能”的涌现与结构化协作,而非单一模型的孤立优化。

本期讲座系统性地呈现了强化学习从基础理论到多智能体前沿的研究脉络,既有扎实的数学推导与算法剖析,也有生动的实验演示与应用案例。在交流环节,与会师生围绕多智能体信用分配、稀疏奖励处理、RLHF的实际部署难点以及仿真到实物的迁移等问题展开深入讨论。曹教授强调,未来的研究需进一步关注样本效率、策略可解释性、开放环境下的自适应协作等方向,推动强化学习走向更稳健、更通用的智能决策系统构建。

相关推荐

SLAI Seminar】第二十三期回顾|跨越虚实鸿沟:基座模型驱动的具身智能泛化之路

【SLAI Seminar】第二十一期回顾|行人重识别的演进与挑战:从单人到群体,从地面到空地
【SLAI Seminar】第二十期回顾|扩展现实系统的安全与隐私保护:从感知攻击到智能修复
关注我们
联系方式
  • 招生:admission@slai.edu.cn 教授招聘:FacultyHiring@slai.edu.cn 校企合作:coop@slai.edu.cn 人才招聘:staff_careers@slai.edu.cn 招投标:bidding@slai.edu.cn
  • 院务办公室:executiveoffice@slai.edu.cn 学生事务:student@slai.edu.cn 院长信箱:deanoffice@slai.edu.cn 财务:financeoffice@slai.edu.cn 地址:福田保税区红棉道6号深圳河套学院
探索更多
  • 学院概况 人才招聘 内网

版权所有 © 深圳河套学院 粤ICP备14099122号-14 

​