AI架构师/工程师高薪职位!上海/北京等你来挑战!
本文介绍了多个与AI相关的职位包括AI基础设施系统架构师、大模型训练框架工程师、大模型训练系统工程师、AI推理框架工程师和大模型算法工程师等。这些职位要求应聘者具备扎实的计算机体系结构、分布式系统基础和高性能网络技术熟悉GPU硬件架构和主流AI训练/推理基础设施生态。此外应聘者还需要具备良好的沟通领导力、跨团队项目推动经验和良好的代码习惯。这些职位为AI领域的专业人士提供了广阔的发展空间和挑战机会。一、AI基础设施系统架构师Tech Lead 上海/北京职位描述IaaS 平台架构设计负责 AI IaaS 基础设施的架构设计与持续迭代涵盖 GPU算力资源池化、多集群调度、弹性扩缩容等核心能力建设提供一致性、可扩展、高可靠的平台技术底座Infra 管理平台规划并推进基础设施管理平台的建设覆盖资产管理、容量管理、 故障自愈、可观测性等能力提升大规模集群的运维效率和自动化水平硬件方案创新与 TCO 优化跟踪GPU/网络/存储等硬件技术演进联合硬件研发、网络、存储、内核等团队推动方案创新 在性能、成本、可用性、可运维性等维度持续提升竞争力算力中心规划与建设Lead团队成员完成大模型训练/推理场景下的算力中心整体建设包括机房选址评估、电力/散热容量规划、服务器选型与集群组网方案设计端到端交付高性能 AI 基础设施职位要求5 年以上云计算/IDC 基础设施相关工作经验有大规模 AI 算力集群千卡以上的规划、建设或运营经验优先深入理解计算机体系结构 对GPU 服务器、高速网络IB/RoCE/NVLink/NVSwitch、高性能存储等其中1个或多个方向有比较深入的熟悉和了解了解大模型训练对基础设施的核心需求熟悉主流 AI 训练/推理基础设施生态NVIDIA DGX/HGX、集合通信、NCCL等4… 有 IaaS 平台或基础设施管理平台的设计与落地经验者优先资源调度、CMDB、监控告警等5 具备跨团队项目推动经验和良好的沟通领导力能带领 3-5 人项目组攻克复杂技术问题加分项有头部云厂商阿里云/AWS/GCP/Azure或 AI 公司基础设施团队经验二、大模型训练框架工程师训练框架 RL 方向 北京/上海在某个领域有真正的深度——分布式系统、GPU 性能优化、RL 工程、推理加速都行——同时对算法前沿保持真实的好奇心。三、大模型训练框架研发工程师-生成模型方向 北京/上海你将加入一支把“把万卡集群跑到极致”当日常的团队与业内领先的通用大模型一起成长。你的核心任务是突破大规模训练的速度、成本与稳定性的极限。你将负责的核心工作大规模分布式训练系统研发Scale Matters主导 Data / Tensor / Pipeline / Expert 并行 策略的研发与优化。优化高性能通信、计算通信掩盖、显存复用提升近万卡训练的集群利用率。面向上百亿〜万亿参数模型实践高效并行范式。性能极限优化Performance Engineering系统性分析训练吞吐瓶颈comm / compute / IO / kernel / memory。针对关键路径做深度优化算子融合、精度压缩、通信调度、显存管理策略。与推理体系协同推进量化、MoE、Speculative Training 等最新机制的训练端落地。前沿训练技术探索Frontier Research → Engineering根据你的兴趣及特长可主导其中一类前沿训练范式Agentic RL、异步 RL等机制的系统工程化落地。训练稳定性大规模优化器、 动态容灾、divergence 检测与修复机制。可扩展性研究scaling law 工程落地、模型分布式形态设计、训练效率极限建模。与硬件深度协作System × Model与底层 kernel / runtime / compiler 团队协作共同推进 compute-bound 和 comm-bound 场景的极限性能。设计充分压榨 GPU/NPU 的训练模式让硬件“跑在它没想过的速度”。职位要求我们希望你具备不求全但求强可以 0 优化经验但在其他领域有过优秀成果。熟悉高级编程语言具备扎实的数据结构、并行编程、系统基础。对 PyTorch、DeepSpeed、Megatron、Horovod、JAX、XLA 等之一有体系化理解。对以下任一方向有深入经验或潜力大型分布式训练DP/TP/PP/MoEGPU/多机通信优化NCCL、RDMA、通信拓扑训练框架/执行引擎研发大模型训练的性能与稳定性优化对前沿训练问题有明确兴趣如训练端scaling law、混合并行策略、优化器系统、极致显存压缩推理端协同量化训练、KV cache aware training、speculative training有大规模模型训练经验千卡〜万卡者优先。有顶会论文、开源贡献、或工程项目能展示你能力者是加分项但非必要。为什么加入我们你将直接参与 领先通用大模型的核心训练体系工作成果会快速转化为真实产品力。足够高的解决问题自由度我们的工作不仅局限于特定scope也不受限于特定工程算法方案只要能够挑战更高的极限可以放下当前所有的约束。和有“偏执工程美学”的伙伴一起把“更快、更稳、更大规模”做成一种乐趣。四、大模型训练系统工程师 北京/上海职位描述建设超大规模AI训练集群保证训练的稳定性提升资源效率和硬件效率深度参与大模型技术迭代构建预训练、SFT、RLHF等算法方向的工程架构解决底层基建问题提升模型整体的迭代效率探索业界前沿的AI Infra技术建设行业领先的大模型基础设施解决方案。职位要求扎实的计算机体系结构和分布式系统基础熟悉GPU硬件架构具备Kubernetes及云原生技术栈了解 RDMA、InfiniBand、NVLink 等高性能网络技术扎实的工程素养良好的代码习惯Golang/Python/C善于使用AI Coding提升工作效率对大模型架构和工程链路有了解了解Megatron、Verl、Ray等训练框架优秀的学习能力对AI有热情和好奇心追求技术成长和认知快速迭代表达清晰逻辑严谨良好的沟通协作能力能够与算法团队紧密配合一起探索大模型新技术推动模型快速迭代。五、AI推理框架工程师 北京/上海职位描述针对特定端到端推理任务实现zero-overhead标准的推理服务。针对特定硬件的极限性能压榨。端到端系统架构的研究、开发、维护。性能优化相关算法研究与开发工作。职位要求计算机及相关专业本科及以上学历。有端到端性能分析能力可以正确理解性能表现的原理。包括但不局限于gpu性能分析。有扎实的编程能力和代码品位良好的数据结构和算法基础。理解操作系统基本原理。能熟练使用C/C、python等高级语言。有良好的可靠性意识包括不限于监控、容灾等。有良好的团队沟通和协作能力有良好的责任心。有良好的自驱力和学习能力。加分项icpc、oi、mo、asc等竞赛获奖经历六、大模型算法工程师 北京/上海研发超大规模基础模型LLMMLLM并进行极致的系统优化职位要求有强烈的技术追求和和热情真的想要用技术给现实世界带来改变具备优秀的研究素养和创新能力在国际顶会或期刊发表过高质量论文有良好的工程和动手能力能够广泛利用各种工具解决问题主导或者参与过有影响力的大规模机器学习项目加分项有大规模分布式训练相关经验、在理解算法原理的同时也掌握实现细节者优先有ACM/NOI/超算等各类竞赛获奖经历者优先有强化学习经验优先七、大模型算法工程师-co design 北京/上海职位描述寻找深度理解大模型算法同时具备顶尖系统工程设计能力的专家。你将作为算法研究与工程落地的核心桥梁主导优化大模型训练/推理效率、性能与成本确保前沿算法在大规模系统中高效实现。协同设计与优化深入理解大模型算法架构、训练/推理技术评估其工程可行性、性能瓶颈与成本。主导设计下一代训练/推理框架或核心组件确保原生支持高效算法实现如高效Attention、通信优化。系统性解决训练/推理工作负载的性能瓶颈计算、通信、存储。高性能系统实现设计并实现高性能核心如定制Kernel、优化通信与数据流水线。分布式架构设计构建大规模分布式训练系统DeepSpeed/Megatron-LM/FSDP。设计构建高并发、低延迟的大模型推理服务平台。前瞻探索与协作跟踪领域前沿探索验证新技术新硬件、非Transformer架构等。高效沟通跨团队算法、工程、平台协作推动方案落地。职位要求学历/经验 计算机/人工智能等相关领域本科及以上或具备同等杰出实践经验。大模型基础 深刻理解Transformer架构及大模型训练/推理等相关核心技术。工程硬实力精通 PyTorch 及其分布式训练DDP/FSDP有大规模分布式系统设计开发调优经验扎实的计算机体系结构/操作系统/网络基础。丰富的“性能调优”经验Nsight Systems, Profiler等。加分项参与 DeepSpeed/Megatron-LM/vLLM/SGLang 等核心框架开发。GPU Kernel优化 (CUDA/Triton) 经验。千亿参数级模型训练/部署经验。熟悉云平台大规模AI负载管理。说真的这两年看着身边一个个搞Java、C、前端、数据、架构的开始卷大模型挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis稳稳当当过日子。结果GPT、DeepSeek火了之后整条线上的人都开始有点慌了大家都在想“我是不是要学大模型不然这饭碗还能保多久”我先给出最直接的答案一定要把现有的技术和大模型结合起来而不是抛弃你们现有技术掌握AI能力的Java工程师比纯Java岗要吃香的多。即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇这绝非空谈。数据说话2025年的最后一个月脉脉高聘发布了《2025年度人才迁徙报告》披露了2025年前10个月的招聘市场现状。AI领域的人才需求呈现出极为迫切的“井喷”态势2025年前10个月新发AI岗位量同比增长543%9月单月同比增幅超11倍。同时在薪资方面AI领域也显著领先。其中月薪排名前20的高薪岗位平均月薪均超过6万元而这些席位大部分被AI研发岗占据。与此相对应市场为AI人才支付了显著的溢价算法工程师中专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%产品经理岗位中AI方向的产品经理薪资也领先约20%。当你意识到“技术AI”是个人突围的最佳路径时整个就业市场的数据也印证了同一个事实AI大模型正成为高薪机会的最大源头。最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】