高汝霆

副教授

语言模型与人机交互中心副主任

教育背景

教育经历（按时间倒序）：

2010年9月 - 2014年6月香港科技大学计算机科学与工程哲学博士

2008年1月 - 2010年8月香港科技大学计算机科学与工程哲学硕士

2006年9月 - 2007年12月香港科技大学集成电路设计工程理学硕士

2000年9月 - 2003年5月香港中文大学计算机工程学士

工作经历（按时间倒序）：

2021年10月 - 2024年12月字节跳动人工智能实验室研究科学家

2019年1月至 2021年9月南方科技大学助理教授 (终身教职轨)

2014年6月至 2019年1月华为诺亚方舟实验室研究员

研究领域

全双工語音大模型, 多模態大模型, 深度学习

科目分类

语言智能与人机交互

个人网站

https://tomkocse.github.io/

邮箱

tomko@slai.edu.cn

个人简介

现任河套全职副教授及河套语言模型与人机交互中心副主任, 曾任字节跳动AI Lab研究科学家，南方科技大学助理教授、华为诺亚方舟实验室研究员。他于2014年获香港科技大学计算机科学与工程博士学位，在语音识别与自然语言处理领域拥有十余年研发经验。他发表论文50余篇，总引用超5000次，其中两篇以第一作者发表的语音增强相关论文单篇引用均破千。近年来专注于大语言模型在语音翻译中的应用，参与开发SpeechT5、CLASI 等代表性系统，相关成果发表于ACL、ICLR等顶级会议。高汝霆博士曾获字节跳动优秀团队奖、华为“未来之星”奖，并担任IWSLT、Interspeech等国际会议程序委员及主席，在工业界与学术界均具有广泛影响力。]

学术著作

Tom Ko, Vijayaditya Peddinti, Daniel Povey, Sanjeev Khudanpur

"Audio Augmentation for Speech Recognition",

in Proceedings of Interspeech, September, 2015

Tom Ko, Vijayaditya Peddinti, Daniel Povey, Michael L. Seltzer, Sanjeev Khudanpur

"A Study on Data Augmentation of Reverberant Speech for Robust Speech Recognition",

in Proceedings of ICASSP, March, 2017

Yingke Zhu, Tom Ko, David Snyder, Brian Mak, Daniel Povey

"Self-Attentive Speaker Embeddings for Text-Independent Speaker Verification",

in Proceedings of Interspeech, September, 2018

Junyi Ao, Rui Wang, Long Zhou, Chengyi Wang, Shuo Ren, Yu Wu, Shujie Liu, Tom Ko, Qing Li, Yu Zhang, Zhihua Wei, Yao Qian, Jinyu Li, Furu Wei

“Speecht5: Unified-modal encoder-decoder pre-training for spoken language processing”,

in Proceedings of ACL, May, 2022

Xinhao Mei, Chutong Meng, Haohe Liu, Qiuqiang Kong, Tom Ko, … "Wavcaps: A chatgpt-assisted weakly-labelled audio captioning dataset for audio-language multimodal research", IEEE Transactions on Audio, Speech and Language Processing, 2024