【SLAI Seminar】第三十六期回顾|开源框架与基础模型赋能具身智能
2026年5月14日下午,SLAI Seminar第三十六期在深圳河套学院顺利举办。本次讲座是“智能体(Agent)系列”的第二讲,由姬艳丽教授主持,特邀地平线研究院副院长、机器人实验室主任苏治中博士,围绕“开源框架与基础模型赋能具身智能”主题,系统分享了地平线在仿真数据生成、人体运动控制、视觉语言导航及灵巧操作等全链条方向上的前瞻性预研成果与开源生态建设。

讲座内容
01 智驾视角的具身仿真:从数字孪生到生成式资产
作为一家兼顾算法与芯片的生态型平台企业,地平线的具身智能探索带有强烈的工业级量产思维。苏博士指出,正如自动驾驶无法容忍将未经闭环测试的代码直接部署到实车上进行“开盲盒”式路测,具身智能的落地同样必须依靠低成本、高并发的仿真引擎来收敛问题。
为此,地平线打造了EmbodiedGen,一款仿真数字资产生成引擎。针对真实环境重建,团队开发了如IG-Fuse与Sandy Fixer等基于单图或多图的前馈式数字孪生模型,能够精准分离并补全被遮挡的前景交互物体。而在更为宏大的纯生成式资产构建上,团队利用大语言模型作为“环境编排师”,根据特定任务自动布局周边干扰物,并结合扩散模型流水线批量生成了数万个高保真、可交互且带有自动语义标注的3D资产。在最新版本中,该引擎更创新性地攻克了柔性物体的仿真难题,并支持基于自然语言的交互式空间场景编辑。

02 三足鼎立的开源模型生态:运控、导航与操作的全面演进
在具身智能的核心算法栈上,地平线团队在多个维度均展现出了卓越的预研实力:
运控基座HoloMotion:作为当前国内指标最优的开源人形机器人动作跟踪器,HoloMotion模型采用了极其稀疏的MoE架构,使得庞大参数量的模型能够在端侧芯片上实现百赫兹级别的高频实时推理。目前,该模型已成功适配包括宇树在内的多款主流人形机器人,展现出强大的任意地形与动作跟踪泛化能力。
视觉语言导航(VLN):团队不仅研发了可用于超长距商超导览的分层场景图检索系统,更针对学术界前沿的端到端导航任务推出了“Think”与“Dream”两大系列模型。通过在训练阶段创造性地引入思维链(CoT)推理、任务进度预测,甚至让模型一边规划动作、一边“想象”生成周围环境的BEV(鸟瞰)地图辅助监督,极大缓解了传统端到端导航模型由于输入压缩过度导致的训练坍塌难题。
操作大脑HoloBrain:在机器人精细操作领域,苏博士团队将自动驾驶中经典的“多视角空间融合感知”理念引入VLA模型架构中,通过显式的相机外参编码与本体URDF映射,彻底消除了混合视角数据训练时的空间歧义性。同时,为了适配端侧芯片算力,团队精心打磨了仅*0.2B*参数量的轻量化版本。该版本巧妙借用具备强视觉定位能力的骨干网络,在多项主流仿真评测榜单上登顶。
讲座尾声迎来交流环节,现场师生反响热烈,围绕端侧芯片架构、视觉空间编码以及自动驾驶与具身智能的技术分野等话题与苏博士展开了深度对话。针对师生关于“物理AI时代,端侧计算架构有何特殊需求”的提问,苏博士精辟指出,不同于云端大语言模型为了追求吞吐量而依赖大Batch并行推理,具身端侧芯片必须追求“单帧流式预测”的极致低延迟,做到数据来一帧处理一帧,以确保机器人高速运动控制的绝对安全。当被问及“为何智驾VLA模型与具身VLA模型在视觉融合架构上存在差异”时,苏博士深刻剖析,自动驾驶任务本质上是单一的从A点到B点的防碰撞寻迹,其核心在于对空间几何的精准构建;而具身操作面临的是无穷尽的任务类型与高度复杂的指令跟随要求,这迫使当前的具身VLA必须深度绑定具备强语义理解的大语言模型,而非优先进行耗时的底层多视角空间特征拼接。
![]() | ![]() |
本次讲座系统勾勒了地平线机器人实验室从海量生成式数字孪生资产,到端侧高频推断的各类基础模型的宏大开源图景。苏治中博士凭借极其敏锐的智驾量产思维,生动展示了如何用工业级的严谨测试管线与软硬一体的架构优化,深度赋能并解决具身智能落地中的长尾痛点,为构建一个普惠、开源且繁荣的新一代具身演化生态贡献了极其宝贵的行业智慧。

