大模型系统研发工程师 Senior Engineer of LLM system R&D

学院正在寻找资深的大模型系统研发工程师，负责构建、优化和部署大规模语言模型（LLM）及相关基础设施。您将参与包括底层框架设计、预训练、增训微调、强化学习后训练、高性能推理落地的全流程工作，推动大模型技术在真实场景中的高效应用。

岗位职责

1. 大模型系统架构开发：

设计并实现高性能、可扩展的大模型训练与推理系统，优化分布式计算、显存管理、通信效率等关键模块。

开发或改进大模型框架（如Verl、vLLM、Megatron等），支持十亿级/百亿级/千亿级参数的稳定训练与高效推理。

2. 性能优化与调优：

解决大模型在训练/推理中的瓶颈问题（如计算、存储、通信），通过算子融合、流水线并行、量化压缩等技术提升效率。

针对硬件（GPU/昇腾）特性进行底层优化，实现低延迟、高吞吐的推理服务。

3. 基础设施构建：

搭建大模型开发与部署的全栈工具链，包括数据预处理、分布式训练集群管理、模型服务化（如vLLM、SGLang）等。

设计容错、弹性伸缩的推理平台，支持多租户、高并发场景需求。

4. 前沿技术探索：

跟踪LLM领域最新进展（如MoE、RLHF、多模态），将研究成果工程化落地。

探索大模型与边缘计算、知识图谱、具身智能等技术的结合。

岗位要求

1. 计算机科学、人工智能或相关领域的硕士或博士学历，2年以上系统研发经验。精通以下至少一个方向：

a) 分布式系统：熟悉NCCL、RDMA、MPI等通信协议，有大规模分布式训练调优经验。

b) GPU/NPU编程：精通CUDA、OpenAI Triton或Ascend C，能进行内核级性能优化。

c) 机器学习框架：深入理解Verl/vLLM/Megatron底层机制，参与过框架开发或贡献者优先。

2. 扎实的算法基础，熟悉Transformer架构及大模型关键技术 (如KV Cache, Flash Attention)

3. 优秀的编程能力 (Python/C++)，熟悉Linux开发环境与容器化技术(Docker/K8s)。

4. 熟悉LLM生态工具链 (如Hugging Face, LangChain, LoRA)

加分项：发表过MLSys、NeurIPS、OSDI等顶会论文，或开源项目核心贡献者。有百亿以上参数的大模型训练/推理落地经验。熟悉LLM生态工具链 (如Hugging Face, LangChain, LoRA)。

请发送简历至 staff_careers@slai.edu.cn，标题注明“姓名+大模型系统研发高级工程师”。