王帅
副教授
南京大学
研究领域
语音信号处理,语音合成、转换,说话人建模,目标语音提取,语音大模型,音频处理在医疗领域的应用(病理语音识别与生成等)
邮箱
shuaiwang@slai.edu.cn
个人简介
王帅,南京大学副教授,特聘研究员,博导,河套学院双聘教授专注于智能音频信号处理研究,涵盖语音、音频事件及音乐等多模态声学信号。博士毕业于上海交通大学曾任腾讯光子工作室高级研究员。以第一作者或通讯作者在ICASSP、Interspeech等顶级会议期刊发表论文四十余篇,获授权专利十余项。荣获VoxSRC2019、DIHARD2019等国际竞赛冠军及ISCSLP2024最佳论文、最佳学生论文奖。发起开源工具WeSpeaker,提供的预训练模型在HuggingFace 平台下载量月均超千万次,在学术界与工业界获得广泛应用。欢迎语音、多模态、大模型领域的科研合作与优秀学生报考
学术著作
- Wang S, Chen Z, Han B, Wang H, Liang C, Zhang B, Xiang X, Ding W, Rohdin J, Silnova A, et al. Advancing Speaker Embedding Learning: Wespeaker Toolkit for Research and Production. Speech Communication, 2024.
- Wu W, Chen X, Wang S*, Wang J, Meng L, Wu X, Meng H, Li H. C2AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction. IEEE Journal of Selected Topics in Signal Processing, 2025.
- Ma Y, Wang S*, Liu T, Li H. PhiNet: Speaker Verification with Phonetic Interpretability. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2025.
- Yang C, Wang S*, Chen H, Tan W, Yu J, Li H. SongBloom: Coherent Song Generation via Interleaved Autoregressive Sketching and Diffusion Refinement. NeurIPS, 2025
- Wang W, Pan Z, Li X, Wang S, Li H. Speech Separation with Pretrained Frontend to Minimize Domain Mismatch. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2024.
- Wang S, Yang Y, Wu Z, Qian Y, Yu K. Data Augmentation Using Deep Generative Models for Embedding Based Speaker Recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020.