岗位职责:
1. 为国内领先的大规模计算系统提供运维支持。负责对全系统,包括计算、存储、网络、软件等提供维护支持服务,确保系统稳定可靠的运行。
2. 为大规模计算系统提供运维保障,解决用户遇到的系统异常,协助用户完成业务运行,保障全系统对外稳定高效的提供服务。
3. 完善运维流程与工具。结合系统运维工作,开发自动化运维脚本,协助不断完善运维标准化流程。
4. 问题采集与反馈。结合运维工作,发现产品批次性问题、产品bug、不完善的功能点等,并进行收集、整理与反馈,反向激励产品、流程与制度的改进。
任职要求:
1. 熟悉Linux操作系统及shell脚本,具备高性能计算集群使用或管理维护经验者优先
2. 了解MPI、OpenMP、CUDA等并行计算相关知识,具备并行程序开发者优先
3. 具备AI、物理化学、计算材料、生物信息/药物研发、CAE、气象数值模拟等相关领域并行应用或高性能计算使用、管理或开发经验者优先
4. 熟悉SLURM/PBS/LSF/SGE等作业调度系统中至少一种
5. 具备互联网、超算中心或大规模数据中心运维经验者优先
6. 责任心强,踏实细致,具备工作热情
7. 具备出色的学习能力
8. 硕士及以上学历优先