【专家观点】秦凤伟：AIGC时代智算中心网络协议演进与思考

张

张建站

2026/5/8 16:15:20

10分钟阅读

一、AI需求激增推动建设计算和网络基础设施****篇幅有限仅展示了部分ChatGPT引爆AI 智算算力需求激增参数量呈指数级迭代增长推动计算与网络基础设施建设不断布局二、面向大模型训练网络成为AI算力瓶颈AI大模型以GPU集群分布式训练为基础带来大量节点间通信消耗网络成为AI算力“瓶颈”当前业界主流智算中心网络技术被国外厂商垄断网络芯片存在代际差距网络可能成为我国AI发展的“新卡点”集群有效算力∝GPU单卡算力总卡数线性加速比*有效运行时随着GPU单卡算力进一步受限获得同等算力的难度持续增加以网强算是支撑为未来大模型训练的关键三、传统DC与智算中心流量模型区别五、IB与RoCE是目前业界主流高性能网络协议Infini Band与RoCE是由IBTA提出的两种主流面向RDMA提供高性能交换能力的传输协议前者从硬件级别保证网络低时延、高吞吐后者是将RDMA应用到以太网依赖PFC等协议实现无损两者在路由机制、转发机制、算网能力等方面存在差异六、当前RoCE网络存在诸多问题不适应大AI模型部署现有以太网协议基础转发和调度机制在AI模型训练场景存在天然缺陷单纯优化上层网络协议无法解决需对底层转发和调度机制进行革新并推动网络芯片底层逻辑架构支持突破无损以太性能瓶颈七、业界智算中心高性能网络标准组织介绍—UEC2023年7月19日 Linux基金会成立超以太网联盟 (UEC) 发布UE技术愿景白皮书当前已成立四个工作组并与OCP开展合作• 面向大模型和高性能计算场景从物理层到软件层对以太协议栈和配套芯片产业进行革新• 创始成员 AMD、Arista、博通、思科、 Eviden 、 HPE、 Intel、 Meta和微软强强联合覆盖全产业生态核心是将“产品”标准化八、GSE技术体系框架GSE技术体系最大限度兼容以太网生态从四层物理层、链路层、网络层、传输层一体管理和运维体系等几个层级进行优化和增强构建无阻塞、高带宽、低时延的新型智算中心网络形成标准开放的技术体系助力AI产业发展九、GSE技术体系—光交换新型光交换机与传统交换机的核心区别在于用光口代替电口无需插光模块可实现端口与速率无关内部无交换芯片点到点通信关系一定时间内固定设备容量及端口密度与芯片无关可用在网络中替代Spine设备提升网络性能及建设扩容灵活性十、GSE技术体系—新型拓扑• Group与Group之间full-mash, 每个group内部可以是任意拓扑结构如Fat-tree Dragonfly• 人为干预控制流量转发缺乏动态负载分担机制• 现有网络架构缺乏网络拥塞的标准定义和远程拥塞的通知机制难以及时获取拥塞信息。十一、GSE技术体系—全调度以太网三大核心机制中国移动提出全调度以太网GSE 技术架构最大限度兼容以太网生态创新基于报文容器 PKTC 的转发及调度机制构建无阻塞、高带宽、低时延的新型智算中心网络形成标准开放的技术体系助力AI产业发展创新以太网转发机制实现三大核心机制转变十二、GSE技术体系—NDMA分布式系统节点间以多对多的集合通信为主业界主流方案基于RDMA点到点高效传输实现多对多集合通信存在性能瓶颈十三、GSE技术体系—网络可靠性AI大模型训练中所需GPU卡数量达到千卡、万卡级别增加了网络故障概率如何提高网络可靠性是重中之重• 本地故障检测本地检测时间大约为几毫秒故障检测时间太长无法满足模型训练需求• 本地故障切换在发生链路故障时通过ECMP、 FRR等技术进行快速切换将链路切换为备份链路。链路故障切换时间可在毫秒内实现• 故障通知 IGP链路状态泛洪和BGP路由更新太慢远端发生故障缺乏统一的故障通知机制• 全局故障切换当前只有本地故障的快速切换机制但在响应远程故障时仍缺乏快速切换机制当前 AI大模型训练网络故障后本地故障处理时间为几毫秒远端故障处理时间为几秒故障处理时间过长十四、总结与展望• 智算中心网络的有效带宽、时延抖动、可靠性成为提升训练效率的关键因素• 以全调度以太网为核心开展四层物理层、链路层、网络层、传输层一体管理和运维体系攻关构建标准开放技术生态和评测体系推动新型智算中心网络技术体系成熟• 欢迎更多上下游产业伙伴加入GSE推进计划推动GSE技术标准和生态成熟助力AI技术发展

AI智能体技能库goose-skills：模块化开发与实战应用指南

1. 项目概述：一个面向AI智能体的技能库最近在折腾AI智能体（Agent）开发的朋友，应该都遇到过类似的困境：想让你的智能体去执行一个稍微复杂点的任务，比如“帮我查一下明天的天气，然后根据天气推荐…...

2026/5/8 16:15:20 阅读更多 →

基于AI与GitHub Actions的智能仓库管理代理：Clawless实战指南

1. 项目概述：当GitHub遇上AI，一个“无爪”的智能代理如果你是一名开发者，或者深度参与过开源项目，那么对GitHub上那些繁琐的日常操作一定不会陌生：检查Issue、回复评论、审查Pull Request、合并代码、打标签、发布版本…...

2026/5/8 16:15:19 阅读更多 →

射频氮化镓技术解析：从宽禁带优势到5G与雷达实战应用

1. 项目概述：从“新秀”到“主力”，射频氮化镓的时代已至最近在翻看行业资料时，Qorvo发布的一款型号为QPA2309的C波段功率放大器（PA）引起了我的注意。这款产品能在5GHz到6GHz的频率范围内输出高达100瓦的饱和功率&…...

2026/5/8 16:15:06 阅读更多 →

Autovisor：终极自动化学习助手 - 5分钟快速上手智慧树刷课教程

Autovisor：终极自动化学习助手 - 5分钟快速上手智慧树刷课教程【免费下载链接】Autovisor 2025智慧树刷课脚本基于Python Playwright的自动化程序 [有免安装版] 项目地址: https://gitcode.com/gh_mirrors/au/Autovisor 你是否厌倦了每天手动点击播放、等待…...

2026/5/7 18:12:05 阅读更多 →

ModelScope Auto Proxy：智能路由网关，零成本统一调用免费大模型API

1. 项目概述与核心价值如果你和我一样，是个重度依赖 AI 编程工具（比如 Cursor、Cline）的开发者，那你肯定对 OpenAI 的 API 调用成本又爱又恨。爱的是它强大的能力，恨的是账单上的数字。最近，国内的开源社…...

2026/5/7 9:02:42 阅读更多 →

从零到一：手把手教你用BetaFlight CLI命令配置AOCODARC H7DUAL飞控板（保姆级教程）

从零到一：手把手教你用BetaFlight CLI命令配置AOCODARC H7DUAL飞控板（保姆级教程） 当你第一次拿到AOCODARC H7DUAL这块飞控板时，可能会被密密麻麻的引脚和复杂的配置选项吓到。别担心，这篇教程将带你从零开始&#xff…...

2026/5/7 19:32:04 阅读更多 →

League Akari：你的英雄联盟游戏体验进化指南

League Akari：你的英雄联盟游戏体验进化指南【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 想象一下这样的场景：你正在…...

2026/5/7 19:28:13 阅读更多 →