钱馨园

副教授

语言模型与人机交互中心

教育背景

2015.11-2020.03：英国伦敦玛丽女王大学，计算机科学专业，博士学位
2014.09-2015.09：英国爱丁堡大学，信号处理与通信专业，硕士学位
2012.09-2014.09：英国爱丁堡大学，电子与电气工程专业，工学学士学位
2010.09-2012.09：南京航空航天大学，信息工程专业，工学学士学位

工作经历

2022 年 10 月 - 至今：中国北京科技大学（USTB），副教授
2022 年 3 月 - 2022 年 9 月：中国香港中文大学，研究助理
2020 年 2 月 - 2022 年 3 月：新加坡国立大学（NUS），新加坡，研究员
2017 年 4 月 - 2018 年 12 月：意大利布鲁诺・凯塞勒研究员（FBK），研究实习生
2014 年 6 月 - 2014 年 8 月：英国赫瑞 - 瓦特大学，研究实习生

研究方向

深度学习、机器听觉、视听觉感知与融合、说话人提取、定位与跟踪、跨模态生成

个人网站

https://catherine-qian.github.io/

邮箱

xinyuanqian@slai.edu.cn

个人简介

钱馨园，博士，北京科技大学计算机学院副教授。博士毕业于英国伦敦玛丽女王大学计算机专业，曾在英国爱丁堡大学，意大利FBK研究所，香港中文大学（深圳）从事研究工作。主要研究方向为机器听觉，视听觉融合，说话人提取，音频分析与定位等。主持国家自然科学基金、北京市自然科学基金等多个项目，在TASLP/TMM/ICASSP/CVPR等顶级期刊/会议发表论文70余篇。欢迎智能语音技术、视听觉多模态交互领域的科研合作与优秀学生报考。

学术著作

代表性论文：

1. Qian X, Gao J, Zhang Y, et al. SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model. IEEE Journal of Selected Topics in Signal Processing, 2025.

2. Qian X, Zhang. Q, J. Wang, G. Guan, H. Li, Deep Cross-modal Retrieval between Spatial Image and Acoustic Speech, IEEE Trans. on Multimedia, 2023.

3. Qian X, Z. Wang, J. Wang, G. Guan, H. Li, Audio-Visual Cross-Attention Network for Robotic Speaker Tracking, IEEE**/ACM Trans. on Audio, Speech, and Language Processing, 2022.

4. Qian X, Brutti, A., Lanz, O., Omologo, M. and Cavallaro, A., Audio-visual Tracking of Concurrent Speakers. IEEE Trans. on Multimedia, 2021.

5. Qian X, Brutti, A., Lanz, O., Omologo, M. and Cavallaro, A., Multi-speaker tracking from an audio–visual sensing device. IEEE Trans. on Multimedia, 2019.