王帅 | 深圳河套学院

王帅

副教授

南京大学

研究领域

语音信号处理，语音合成、转换，说话人建模，目标语音提取，语音大模型，音频处理在医疗领域的应用（病理语音识别与生成等）

邮箱

shuaiwang@slai.edu.cn

个人简介

王帅，南京大学副教授，特聘研究员，博导，河套学院双聘教授专注于智能音频信号处理研究，涵盖语音、音频事件及音乐等多模态声学信号。博士毕业于上海交通大学曾任腾讯光子工作室高级研究员。以第一作者或通讯作者在ICASSP、Interspeech等顶级会议期刊发表论文四十余篇，获授权专利十余项。荣获VoxSRC2019、DIHARD2019等国际竞赛冠军及ISCSLP2024最佳论文、最佳学生论文奖。发起开源工具WeSpeaker，提供的预训练模型在HuggingFace 平台下载量月均超千万次，在学术界与工业界获得广泛应用。欢迎语音、多模态、大模型领域的科研合作与优秀学生报考

学术著作

Wang S, Chen Z, Han B, Wang H, Liang C, Zhang B, Xiang X, Ding W, Rohdin J, Silnova A, et al. Advancing Speaker Embedding Learning: Wespeaker Toolkit for Research and Production. Speech Communication, 2024.
Wu W, Chen X, Wang S*, Wang J, Meng L, Wu X, Meng H, Li H. C2AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction. IEEE Journal of Selected Topics in Signal Processing, 2025.
Ma Y, Wang S*, Liu T, Li H. PhiNet: Speaker Verification with Phonetic Interpretability. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2025.
Yang C, Wang S*, Chen H, Tan W, Yu J, Li H. SongBloom: Coherent Song Generation via Interleaved Autoregressive Sketching and Diffusion Refinement. NeurIPS, 2025
Wang W, Pan Z, Li X, Wang S, Li H. Speech Separation with Pretrained Frontend to Minimize Domain Mismatch. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2024.
Wang S, Yang Y, Wu Z, Qian Y, Yu K. Data Augmentation Using Deep Generative Models for Embedding Based Speaker Recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020.