【2025】大模型分布式优化工程师(J12328)
职位类别:校园招聘
职能类型:
四川省-成都市
岗位职责:
岗位职责:
1. 大规模的分布式训练优化工作
2. 大规模训练容错相关开发工作
任职要求:
岗位要求:
1. 熟悉使用DeepSpeed、Megatron、NCCL、torch等模型分布式训练组件
2. 熟悉使用python编程
3. 熟悉分布式通信优化策略者优先
4. 有过多机多卡调试经验者优先
5. 有分布式大模型训练容错经验者优先
6. 熟悉使用linux操作系统