• 内网
  • 搜索
  • 学院概况
    • 学院概况
    • 联系我们
  • 师资力量
  • 招生培养
    • 招生信息 Admission
    • 招生资讯
    • 学院课程
  • 科研创新
    • 人工智能理论及系统中心
    • 语言模型与人机交互中心
    • 科学与工程智能中心
    • 社会科学智能中心
    • 具身智能与计算机视觉中心
  • 最新资讯
    • 学院动态
    • 活动预告
    • 通知公告
    • 采购公告
  • 人才招聘
  • 学术论坛
    • 论坛预告
    • 论坛回顾

面包屑

  • 首页
  • 学术论坛
  • 论坛回顾
  • SLAI Seminar】第二十三期回顾|跨越虚实鸿沟:基座模型驱动的具身智能泛化之路

SLAI Seminar】第二十三期回顾|跨越虚实鸿沟:基座模型驱动的具身智能泛化之路

2026-01-29 学术论坛

2026年1月19日上午,SLAI Seminar第二十三期在深圳河套学院成功举办。本次讲座由姬艳丽教授主持,特邀清华大学计算机系副研究员苏航教授,围绕“跨越虚实鸿沟:基座模型驱动的具身智能泛化之路”前沿主题,系统分享在具身智能领域的研究成果、技术路径与未来展望,为与会师生呈现充满前瞻视野与深刻洞见的精彩报告。

 

 

讲座简介

随着人工智能从数字世界迈向物理空间,具身智能(Embodied AI)成为下一代AI发展的核心方向。苏航教授从人工智能未来发展的宏观视角切入,指出在AI即将深度重塑社会分工与技术范式的今天,具身智能不仅是机器人技术的演进,更是AI理解物理规律、与环境交互、实现泛化智能的关键路径。本次讲座系统阐述了具身智能的三大核心问题——认识自己、认识环境、认识二者关系,并重点介绍了其团队在数据驱动范式方面,如何通过仿真预训练、多模态融合、跨本体泛化等技术手段,突破当前具身智能的泛化瓶颈。

 

讲座内容

01

具身智能:从数字智能到物理智能的必然跨越

苏航教授首先从人工智能发展的阶段性特征谈起。他指出,当前大模型在数字空间中已展现出接近甚至超越人类的能力,但在物理世界中,AI仍处于“初级阶段”。真正的智能不仅在于识别与生成,更在于通过本体与环境的交互来理解世界、完成任务。具身智能的核心,是让AI拥有“身体”,并通过身体与物理世界进行持续、双向的交互,从而涌现出更高级的智能。苏教授以“教师职业”为例,生动说明AI对传统角色的冲击与重塑。他认为,教书、科研等认知性工作可能在五年内被AI大幅替代,而“育人”所涉及的人格培养则更具挑战性。在此背景下,选择具身智能作为未来二十年的研究方向,正是看中其连接数字与物理、真正改变世界的潜力。

02

泛化:具身智能的核心挑战与破解之道

苏教授强调,当前具身智能发展的最大瓶颈在于泛化能力的不足。这体现在三个方面:跨本体泛化(同一策略能否适用于不同机器人)、强场景泛化(能否从实验室迁移到复杂开放环境)、样本高效泛化(能否实现少样本甚至零样本学习)。目前大多数研究仍停留在限定场景的演示阶段,离真正的通用具身智能尚有距离。

为突破泛化瓶颈,苏教授团队提出了数据驱动的预训练范式。他重点介绍了团队在四足机器人(机器狗)运动控制上的突破性工作:通过在海量仿真环境中训练一套统一策略,使机器狗能够零样本适应雪地、斜坡、碎石、草地等从未见过的复杂地形,甚至在关节故障、负重变化等极端条件下依然保持稳定运动。这项工作的核心在于,通过仿真构建数十万种环境变体,并强迫模型用同一套策略去解决各类问题,从而极大提升策略的泛化鲁棒性。

03

从“脚”到“手”:操作任务的泛化进阶

相较于移动(“脚”),机器人操作(“手”)的泛化难度更高,因为它涉及更精细的力控、接触物理与多模态协调。苏教授团队创新性地将扩散模型应用于机器人动作生成,将复杂的操作任务建模为概率分布问题,从而更好地处理真实数据中存在的多模态(如抓取同一个物体的多种方式)问题。

苏教授团队构建了全球规模最大的双臂操作模型之一,并创新性地利用校园众包方式,让数百名清华学生通过扫码预约操作机器人,采集了涵盖物体分拣、拼写、倒水、调酒等数百个任务的珍贵微调数据集。其中,“让机器人倒三分之二杯水”、“操作机器狗走直线”等任务,充分体现了模型对物理概念的理解和基于视觉反馈的闭环控制能力。所有模型、代码与数据均已开源,推动领域共同发展。

04

数据金字塔:仿真、真机与视频的协同进化

苏教授系统剖析了具身智能的“数据金字塔”:顶层的真机交互数据质量最高但稀缺;中层的仿真数据可大规模生成,但依赖于物理仿真的真实性;底层的互联网视频数据海量但模态缺失、信息密度低。

团队的工作贯穿了这三层数据:

仿真预训练:为策略提供广阔的泛化基础。

真机微调与采集:研发了轻量化的手持式数据采集设备,高效收集真实世界操作数据。

视频知识注入:创新性地利用视频生成模型作为“世界模型”的先验,提取常识知识(如“烤面包”的步骤),指导机器人进行高层任务规划,实现了仅需少量演示即可泛化到新物体、新场景的效果。

讲座尾声,苏教授指出,当前具身智能的发展阶段类似NLP中“Transformer出现之前”的时期,潜力巨大但基础设施薄弱,从而呼吁学界和产业界共同努力:

打造开源工具与基准:降低研究门槛,推动生态繁荣。

重视跨本体标准化:通过软硬件解耦(如标准化末端执行器),促进模型复用。

加强产学研协作:在数据采集、算力平台、场景落地等方面形成合力。

苏教授特别提到,中国在具身智能领域起步早,拥有优秀的人才储备,但在技术迭代速度、资源整合与长期工具投入上仍需加强。唯有坚持“换道超车”的创新思维,深耕数据驱动与基础模型范式研究,才能在全球下一代AI竞争中占据领先地位。

在问答环节,与会师生围绕“跨本体泛化的技术路径”、“按摩机器人等长链条任务的实现范式”、“世界模型与VLA模型的竞争与融合”、“高质量数据采集的经验原则”以及“国内开源工具生态建设”等议题与苏教授展开热烈讨论。

本次讲座不仅展现了具身智能领域最前沿的技术突破,更传递出一种面向未来、立足实干、开放协同的研究哲学。从运动控制到灵巧操作,从仿真宇宙到真实世界,苏航教授团队的工作已勾勒出以泛化为核心、以数据为驱动、以物理理解为目标的具身智能发展之路。在通往通用物理智能的漫长征途上,每一次对泛化边界的成功突破,都是智能疆域迈向未来世界坚实有力的挺进。

相关推荐

【SLAI Seminar】第二十二期回顾|从单智能体到多智能体:强化学习的演进、协作与决策挑战

【SLAI Seminar】第二十一期回顾|行人重识别的演进与挑战:从单人到群体,从地面到空地
【SLAI Seminar】第二十期回顾|扩展现实系统的安全与隐私保护:从感知攻击到智能修复
关注我们
联系方式
  • 招生:admission@slai.edu.cn 教授招聘:FacultyHiring@slai.edu.cn 校企合作:coop@slai.edu.cn 人才招聘:staff_careers@slai.edu.cn 招投标:bidding@slai.edu.cn
  • 院务办公室:executiveoffice@slai.edu.cn 学生事务:student@slai.edu.cn 院长信箱:deanoffice@slai.edu.cn 财务:financeoffice@slai.edu.cn 地址:福田保税区红棉道6号深圳河套学院
探索更多
  • 学院概况 人才招聘 内网

版权所有 © 深圳河套学院 粤ICP备14099122号-14 

​