数据中心硬件初识
功率通常利用率为80%1、8kw 可用8kw * 80% 6.4kw2、16kw 可用16kw * 80% 12.8kwUPS通常需要总功率的1.2倍网卡分类维度类型特点与解析物理接口电口 (RJ45)也就是常见的网线接口。优点是部署方便兼容旧网线缺点是发热大速率通常限制在 10G/25G 以下延迟相对较高。光口 (SFP/QSFP28)使用光纤或高速铜缆。优点是速率高100G/400G、延迟极低、功耗低缺点是需要配套光模块成本高。连接方式板载 (LOM)直接集成在主板上。适合普通办公、Web服务器成本低但性能一般坏了难修。PCIe 扩展卡插在主板 PCIe 插槽上。这是高性能网卡的主流形态带宽足功能强支持卸载、RDMA等。OCP 网卡数据中心专用直接插在服务器前端的 OCP 插槽无挡板设计利于散热和自动化部署。1、RDMA (远程直接内存访问) —— 解决“CPU 太累”和“速度太慢”核心逻辑传统网络传输中数据要从网卡拷贝到内存CPU 要参与搬运和处理协议效率低。RDMA 允许网卡绕过 CPU直接把数据写入另一台服务器的内存零拷贝。2、SR-IOV (单根 I/O 虚拟化) —— 解决“虚拟化性能损耗”核心逻辑在虚拟化环境中传统网卡需要通过 Hypervisor虚拟化层来转发数据这会产生大量的上下文切换VM Exit消耗 CPU 并增加延迟。SR-IOV 允许一块物理网卡虚拟出成百上千个“虚拟网卡”VF直接分配给虚拟机使用。各个参数1、带宽—万兆网卡 (10 Gigabit Ethernet, 10GbE)带宽10 Gbps即 10,000 Mbps。应用场景适用于高性能计算、大型数据传输、存储网络如 NAS 和 SAN等场景。2、25 千兆网卡 (25 Gigabit Ethernet, 25GbE)带宽25 Gbps即 25,000 Mbps。应用场景数据中心、虚拟化环境、云计算、高性能计算HPC和大数据处理。3、40 千兆网卡 (40 Gigabit Ethernet, 40GbE)带宽40 Gbps即 40,000 Mbps。接口类型QSFPQuad Small Form-factor Pluggable Plus通常用于光纤连接支持较远距离的传输。应用场景高性能数据中心、存储区域网络SAN、高性能计算HPC。4、Fibre Channel (光纤通道网卡)通常用于存储具有低延时可靠性高的特点内存各个参数解析1、内存大小—内存大小越大能够同时处理的任务就越多。2、内存频率—表示内存每秒能够传输的数据量。频率越高内存的性能越强。常见频率有2133MHz、2400MHz、2933MHz、3600MHz等。影响内存频率越高内存传输速度就越快进而提升系统性能特别是在进行大量数据处理时如科学计算、渲染、大数据分析。注意内存频率需要与CPU和主板支持的频率匹配否则会受到瓶颈影响。3、内存延迟 (Latency)内存延迟通常通过 CAS 延迟Column Address Strobe Latency表示常见的有 CL15、CL16、CL18 等。延迟值越低内存响应速度越快。4、内存类型 (Memory Type)内存类型决定了内存技术的版本常见的有 DDR3、DDR4、DDR5 等。影响DDR4 相比 DDR3 提供更高的频率、更低的功耗而 DDR5 则进一步提升了数据传输速度和带宽。建议选择较新且与主板和 CPU 配置兼容的内存类型。5、ECC内存 (Error-Correcting Code Memory)ECC 内存是一种带有错误检测和修正功能的内存常见于服务器和工作站。影响ECC 内存可以检测和修正内存中的单个比特错误保证数据的完整性和系统的稳定性。6、内存带宽 (Memory Bandwidth)内存带宽是指单位时间内内存能够传输的数据量。其大小与内存频率、通道数和每通道的带宽相关。影响较高的内存带宽可以加速数据传输尤其是在大数据量或高并发任务中内存带宽的提升能带来显著性能改善。CPU各个参数解析1、56 核—物理核心56 核CPU 的 “实体计算单元”每个核心独立处理任务2、112 线程—通过英特尔 “超线程技术”每个物理核心可模拟出 2 个逻辑线程56×2112相当于 “虚拟增加了核心数量”3、基础频率 2.0GHz—CPU “日常稳定运行” 的默认速度1GHz 每秒 10 亿次运算2.0GHz 即每个核心每秒可执行约 20 亿条基础指令。4、最大睿频 3.8GHz—当 CPU 负载较低如只有少数核心在工作时可短暂 “超频” 到 3.8GHz提升单个任务的处理速度。比如 56 核中只有 4 个核心在处理一个复杂查询这 4 个核心可跑到 3.8GHz让查询更快完成。实际意义基础频率保证 “多任务并行时的底线性能”比如 50 台虚拟机同时运行时每台都能分到稳定的算力最大睿频应对 “突发单任务需求”比如某台虚拟机突然需要处理一个大文件压缩、一次复杂的数据分析避免单个任务耗时过长。5、CPU缓存 105MB—CPU 缓存是集成在芯片内的 “高速临时存储器”用于临时存放频繁使用的数据比如数据库的热数据、程序的中间计算结果速度比内存快 10-100 倍。实际意义减少 CPU “访问内存的次数”比如处理数据库查询时若频繁访问的数据如用户信息表能存放在 105MB 缓存中CPU 就不用每次都去内存读取内存速度慢查询响应时间可缩短 50% 以上。6、最大内存大小—单颗 CPU 支持的最大内存容量为 4TB若服务器是双路2S 配置两颗同款 CPU总内存可扩展至8TB。GPU通过nvidia-smi监控查看信息具体参数意义表头字段全称/来源解释常见值/判断阈值GPUGPU index物理序号0 开始计数0~78 卡节点NameProduct Name芯片型号A100/A800/RTX4090 等Persistence-MPersistence Mode持久模式ON驱动常驻OFF用时才加载长期跑任务建议ONBus-IdPCI Bus Location物理插槽地址格式00000000:XX:00.0定位哪条 PCIe 槽Disp.ADisplay Active是否接显示器服务器卡Off桌面卡OnVolatile Uncorr. ECCVolatile Uncorrectable ECC本次上电累计不可纠正 ECC 错误0为正常0 考虑返修FanFan Speed %风扇转速百分比被动散热N/A85 % 说明高温TempTemperature核心温度服务器卡 70 ℃ 优秀83 ℃ 降频PerfPerformance StateGPU 电源状态P0满频P8/P12节能高温自动降到 P2Pwr:Usage/CapPower Draw / Power Limit实时功耗 / 功耗墙300 W 卡跑 295 W≈满载50 W≈空载Memory-UsageUsed / Total VRAM显存占用训练大模型常见 70 GB/80 GBGPU-UtilGPU Utilization采样周期内 kernel 执行时间占比0 %≠空闲需结合显存看Compute M.Compute Mode计算模式Default 多进程共享先到先得 训练框架默认单机单卡 无需改动Exclusive_Process 一卡只能被一个进程独占 多人公用节点防止抢资源 nvidia-smi -c 3 Prohibited 暂时禁止任何计算 维护、排错 nvidia-smi -c 1MIG M.Multi-Instance GPU Mode是否开启 MIG 分区Disabled 完整 GPU 整卡训练、大 batch nvidia-smi -mig 0 Enabled 已切成 MIG 实例 一卡变多卡租户隔离 nvidia-smi -mig 1