钱馨园
副教授
语言模型与人机交互中心
- 2015.11-2020.03:英国伦敦玛丽女王大学,计算机科学专业,博士学位
- 2014.09-2015.09:英国爱丁堡大学,信号处理与通信专业,硕士学位
- 2012.09-2014.09:英国爱丁堡大学,电子与电气工程专业,工学学士学位
- 2010.09-2012.09:南京航空航天大学,信息工程专业,工学学士学位
工作经历
- 2022 年 10 月 - 至今:中国北京科技大学(USTB),副教授
- 2022 年 3 月 - 2022 年 9 月:中国香港中文大学,研究助理
- 2020 年 2 月 - 2022 年 3 月:新加坡国立大学(NUS),新加坡,研究员
- 2017 年 4 月 - 2018 年 12 月:意大利布鲁诺・凯塞勒研究员(FBK),研究实习生
- 2014 年 6 月 - 2014 年 8 月:英国赫瑞 - 瓦特大学,研究实习生
钱馨园,博士,北京科技大学计算机学院副教授。博士毕业于英国伦敦玛丽女王大学计算机专业,曾在英国爱丁堡大学,意大利FBK研究所,香港中文大学(深圳)从事研究工作。主要研究方向为机器听觉,视听觉融合,说话人提取,音频分析与定位等。主持国家自然科学基金、北京市自然科学基金等多个项目,在TASLP/TMM/ICASSP/CVPR等顶级期刊/会议发表论文70余篇。欢迎智能语音技术、视听觉多模态交互领域的科研合作与优秀学生报考。
代表性论文:
1. Qian X, Gao J, Zhang Y, et al. SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model. IEEE Journal of Selected Topics in Signal Processing, 2025.
2. Qian X, Zhang. Q, J. Wang, G. Guan, H. Li, Deep Cross-modal Retrieval between Spatial Image and Acoustic Speech, IEEE Trans. on Multimedia, 2023.
3. Qian X, Z. Wang, J. Wang, G. Guan, H. Li, Audio-Visual Cross-Attention Network for Robotic Speaker Tracking, IEEE**/ACM Trans. on Audio, Speech, and Language Processing, 2022.
4. Qian X, Brutti, A., Lanz, O., Omologo, M. and Cavallaro, A., Audio-visual Tracking of Concurrent Speakers. IEEE Trans. on Multimedia, 2021.
5. Qian X, Brutti, A., Lanz, O., Omologo, M. and Cavallaro, A., Multi-speaker tracking from an audio–visual sensing device. IEEE Trans. on Multimedia, 2019.