高汝霆
副教授
语言模型与人机交互中心副主任
教育经历(按时间倒序):
2010年9月 - 2014年6月 香港科技大学 计算机科学与工程哲学博士
2008年1月 - 2010年8月 香港科技大学 计算机科学与工程哲学硕士
2006年9月 - 2007年12月 香港科技大学 集成电路设计工程理学硕士
2000年9月 - 2003年5月 香港中文大学 计算机工程学士
工作经历(按时间倒序):
2021年10月 - 2024年12月 字节跳动人工智能实验室 研究科学家
2019年1月 至 2021年9月 南方科技大学 助理教授 (终身教职轨)
2014年6月 至 2019年1月 华为诺亚方舟实验室 研究员
现任河套全职副教授及河套语言模型与人机交互中心副主任, 曾任字节跳动AI Lab研究科学家,南方科技大学助理教授、华为诺亚方舟实验室研究员。他于2014年获香港科技大学计算机科学与工程博士学位,在语音识别与自然语言处理领域拥有十余年研发经验。他发表论文50余篇,总引用超5000次,其中两篇以第一作者发表的语音增强相关论文单篇引用均破千。近年来专注于大语言模型在语音翻译中的应用,参与开发SpeechT5、CLASI 等代表性系统,相关成果发表于ACL、ICLR等顶级会议。高汝霆博士曾获字节跳动优秀团队奖、华为“未来之星”奖,并担任IWSLT、Interspeech等国际会议程序委员及主席,在工业界与学术界均具有广泛影响力。]
Tom Ko, Vijayaditya Peddinti, Daniel Povey, Sanjeev Khudanpur
"Audio Augmentation for Speech Recognition",
in Proceedings of Interspeech, September, 2015
Tom Ko, Vijayaditya Peddinti, Daniel Povey, Michael L. Seltzer, Sanjeev Khudanpur
"A Study on Data Augmentation of Reverberant Speech for Robust Speech Recognition",
in Proceedings of ICASSP, March, 2017
Yingke Zhu, Tom Ko, David Snyder, Brian Mak, Daniel Povey
"Self-Attentive Speaker Embeddings for Text-Independent Speaker Verification",
in Proceedings of Interspeech, September, 2018
Junyi Ao, Rui Wang, Long Zhou, Chengyi Wang, Shuo Ren, Yu Wu, Shujie Liu, Tom Ko, Qing Li, Yu Zhang, Zhihua Wei, Yao Qian, Jinyu Li, Furu Wei
“Speecht5: Unified-modal encoder-decoder pre-training for spoken language processing”,
in Proceedings of ACL, May, 2022
Xinhao Mei, Chutong Meng, Haohe Liu, Qiuqiang Kong, Tom Ko, … "Wavcaps: A chatgpt-assisted weakly-labelled audio captioning dataset for audio-language multimodal research", IEEE Transactions on Audio, Speech and Language Processing, 2024