【SLAI Seminar】第二十一期回顾|行人重识别的演进与挑战:从单人到群体,从地面到空地
SLAI Seminar
2026年1月12日下午,SLAI Seminar 第二十一期在深圳河套学院B411阶梯教室顺利举行。本次讲座由欧阳万里副院长主持,特邀中山大学计算机学院赖剑煌教授,围绕“从个体行人到小股人群、从地面到空地一体”的主题,系统分享从单人行人体识别到小股群体识别、从地面监控到空地一体化协同的系列研究成果与实践思考。
讲座简介
行人重识别作为计算机视觉与智慧城市安全的关键技术,长期以来在公共安防、城市治理、工业检测等领域发挥着重要作用。随着深度学习、多模态融合与大模型技术的发展,行人重识别正从传统的单人识别向群体识别、跨模态识别、空地协同识别等新范式演进。
赖剑煌教授团队深耕行人重识别领域,在基础方法、数据库构建、场景迁移与落地应用等方面取得一系列重大影响力成果。本次讲座,赖教授系统梳理了行人重识别从2005年至今的技术发展脉络,重点介绍其团队在红外-可见光跨模态识别、无监督群体识别、换衣行人识别及空地一体化协同感知等方向的前沿工作,展现了从算法创新到系统落地、从实验室研究到产业应用的全链路研究思路。

讲座内容
一
行人重识别:从实验室走向智慧城市
赖教授首先从行人重识别的基本任务切入,指出其核心是在非重叠摄像头网络中实现对同一行人的持续追踪与身份关联。随着我国公共监控摄像头数量突破6亿台,如何高效利用海量视频数据成为智慧城市建设的核心挑战之一。
赖教授强调,行人重识别不仅关乎技术精度,更涉及光照变化、视角差异、遮挡、换衣、跨模态等实际场景中的复杂问题。他回顾了行人重识别从早期手工特征提取(如颜色、纹理),到2014年后深度学习方法的爆发,再到2018年超越人类识别精度的技术飞跃。然而,真正将系统部署到实际场景中时,仍存在白天-夜晚模态差异、低分辨率、遮挡、衣物更换等“落地鸿沟”。赖教授指出,2022年ChatGPT的出现为大模型在行人描述生成、跨模态对齐等方面提供新思路,也为行人重识别走向更通用、更鲁棒的系统指明方向。
二
多模态与跨场景:从可见光到红外,从校园到车站
赖教授重点介绍了其团队在多模态行人重识别方面的系列工作。针对白天(可见光)与夜晚(红外)模态差异大的问题,团队提出双层双流网络,在浅层进行模态对齐,在深层进行特征匹配,显著提升了跨模态识别性能。此外,针对特征长度不一致的问题,团队创新性地提出基于角度度量的损失函数,替代传统欧式距离,增强了类内紧凑性与类间可分性。在跨场景适配方面,赖教授团队提出基于对抗学习的迁移方法,通过保留源域知识的小概率回溯机制,实现从校园到火车站等新场景的高效适配,减少重新标注成本。针对遮挡问题,团队提出全局-局部渐进交互学习机制,通过动态细化模块提升遮挡下的识别鲁棒性。
三
小股人群识别:从个体到群体的社会性建模
随着应用场景的复杂化,仅识别单一行人已无法满足公共安全需求。赖教授团队率先将研究视角拓展至“小股人群识别”,即对2-8人组成的小群体在不同摄像头下的匹配问题。他引用研究数据指出,超过70%的人倾向于结伴而行,群体行为在聚众事件、团伙作案等场景中具有重要社会意义。
团队在此方向上构建了多个公开数据集,并提出基于不确定性建模的群体表征方法。通过概率生成模型模拟群体中人员缺失与位置变化,结合Transformer架构进行表观与位置特征融合,显著提升了群体识别精度。该方法在自建数据集上大幅超越此前最好方法,相关成果发表于ICCV等顶会。
四
空地一体化协同:无人机与地面摄像头的融合感知
在智慧城市与边境安防场景中,如何融合无人机与地面监控摄像头实现立体化协同感知,成为近年来的研究热点。赖教授团队构建首个大规模空地一体化行人识别数据集,涵盖多视角、多高度、多光照的真实场景数据。
针对无人机俯拍视角带来的尺度变化、旋转、遮挡等问题,团队提出基于视觉Transformer的视角解耦方法,通过逐层分离角度相关特征与角度无关特征,实现地面与空中视角的有效对齐。此外,团队还探索了基于强化学习的无人机姿态调整机制,在识别置信度低时主动调整拍摄角度,提升识别成功率,体现出“具身智能”与感知系统的初步融合。

五
展望未来:大模型驱动、多任务融合与系统落地
赖教授总结指出,行人重识别虽已取得显著进展,但仍面临诸多开放问题:如何借助大模型实现更泛化的行人描述与检索?如何融合步态、人脸等多模态生物特征提升身份确认精度?如何在低算力环境下实现实时高效识别?此外,随着XR、机器人等新载体的发展,行人重识别技术也将在沉浸式安防、具身智能交互等新场景中发挥更大价值。
赖教授特别强调,行人重识别不仅是算法问题,更是系统工程问题,需要学术界与产业界在数据规范、评测标准、部署优化等方面持续协作,推动技术从“实验室优秀”走向“场景中可靠”。

在问答环节,与会师生围绕“跨模态数据生成”“换衣识别伦理边界”“无人机识别距离限制”“大模型在行人检索中的幻觉控制”等议题与赖教授展开热烈交流。赖教授结合自身团队的研究经验,指出“从真实问题出发、构建可靠数据、设计简洁有效的方法”是推动技术落地的关键路径。
![]() | ![]() |
![]() | ![]() |
本次讲座不仅系统展示了行人重识别领域从基础研究到前沿探索的完整图景,更体现了“问题驱动、数据支撑、算法创新、系统落地”的务实研究范式。赖剑煌教授团队的工作,从单人到群体,从地面到空中,从可见光到多模态,逐步构建起面向智慧城市全场景的视觉智能感知体系,为未来公共安全、城市治理与人机共融提供了重要的技术基础与思想启示。




