路修好了,该跑车了!RoCE零成本部署,智算中心RDMA平替方案全公开
纸上得来终觉浅绝知此事要躬行回顾前面的摸爬滚打我们先搭建好了Underlay网络告别OSPFEVE-NG专业版BGP Unnumbered打通Underlay的完整实战实现了网络的毫秒级收敛从180秒到0.01秒智算中心Underlay路由优化的速度与激情再打通了Overlay网络告别VLAN限制EVPN VXLAN实现跨Leaf二层互通打造千万级隔离网络。通过对比集中式网关跨VLAN通信过五关斩六将都不够我的数据包创造了8跳的新纪录显示出分布式网关的游刃有余从8跳到3跳EVPN 分布式网关让时延降低67%的完整实战。最后我们也给智算中心打开了通向互联网大门Type-2是管家Type-5是外交官Border Leaf让智算中心网络走出去。针对潜在的Leaf设备单点故障问题我们用ESI技术进行了优化从M-LAG到ESI打造不用心跳线的神交式双活智算中心架构并针对性的做了二次调优从M-LAG到ESI打造不用心跳线的神交式双活智算中心架构最终实现Leaf设备单上行故障不丢包、单Leaf设备整机故障丢1个包的良好效果。为了解决智算中心Incast拥塞的性能瓶颈我们测试了QoS映射队列绑定别让普通包超了AI的车QoS调度让RoCEv2流量一路绿灯也测试了QoS映射PFC技术给AI流量装上紧急刹车PFC优先级流控如何叫停上游流量还有提前预警的ECN上医治未病从PFC流控到ECN预警配置实战都实现了跨Leaf、跨隧道、跨VLAN的复杂环境下全链路贯通。当然受模拟环境限制ECN配置折戟记vEOS模拟器局限性深度剖析只能展示其配置逻辑并不能完美展示硬件设备的优化效果。但路修好了如果没有RDMA流量在上边跑那不过是一条寂寞的高速公路。今天我们就在这套高速公路上利用修好的“VIP 3号通道”实现跨Leaf、跨隧道的RDMA通信开着网络界的法拉利真正推开智算中心无损网络的大门。本次实验环境为EVE-NG专业版6.4.0-78虚拟机配置为64核vCPU、96 GB内存。调整了虚拟机CPU和内存的份额预留了全部内存同时将延迟敏感度调整为高也关闭了KSM和CPULimit理论上能大幅提升虚拟设备的运行效率。组网拓扑沿用上次实验的组网如下所示其中Spine/Leaf交换机均使用Nvidia Cumulus VX的5.15.1版本资源配置为2核CPU、3 GB内存服务器使用我们最新定制的Ubuntu 24.04万物皆可EVE-NG一招解决Ubuntu镜像MAC冲突资源配置为2核CPU、2 GB内存。设备互联情况如下所示实验开始之前我们先回顾一下从历史实验总结的注意事项