徐跃东
教授
复旦大学
研究领域
Machine Learning Systems, Network Modeling and Optimization
(1) 超节点规模扩展(Scale-Up)系统。通过高速互联总线将数百甚至上千颗GPU或NPU设备互联,使其能够协同完成超大规模模型的训练与推理。Scale-Up系统的超高带宽、统一内存编址、全栈协同特点带来了大模型训练和推理系统架构的变化。研究内容包括Scale-Up算力网络体系结构、大模型训练并行化机制、分布式推理服务系统。通过设计新型通信协议和调度算法,实现高带宽、低延迟和鲁棒容错的算力单元互联;通过设计新型并行化机制,探索芯片算力利用率的极限、算法创新与并行训练系统的协同优化。
(2) 强化学习后训练系统。大模型强化学习后训练技术是通过人类或AI反馈机制,帮助模型生成更符合人类期望的输出,避免有害、偏见等内容,通过奖励机制强化多步推理过程。强化后训练系统的算力利用率低、训练时间漫长,原因在于其推理阶段的时间长尾效应、训推算力难以同时利用等挑战。主要研究强化学习同步和异步后训练的推理加速技术,包括投机解码、分布式推理和任务调度。面向具身智能、智能体云边协同的新型强化学习范式,设计高效的编程模型、通信模式和任务执行模式,构造先进的强化学习后训练系统。
(2) 强化学习后训练系统。大模型强化学习后训练技术是通过人类或AI反馈机制,帮助模型生成更符合人类期望的输出,避免有害、偏见等内容,通过奖励机制强化多步推理过程。强化后训练系统的算力利用率低、训练时间漫长,原因在于其推理阶段的时间长尾效应、训推算力难以同时利用等挑战。主要研究强化学习同步和异步后训练的推理加速技术,包括投机解码、分布式推理和任务调度。面向具身智能、智能体云边协同的新型强化学习范式,设计高效的编程模型、通信模式和任务执行模式,构造先进的强化学习后训练系统。
邮箱
yuedongxu@slai.edu.cn