在前几天野村证券出了一份Global AI Trend Tracker 的分析,但报告中讲到的关于AI网络的内容和数据很有意思。报告中对博通的Tomahawk 6进行了分析,也提到了Ethernet和InfiniBand的对比,其实在大型数据中心里面InfiniBand的市场占有率早就超过了Ethernet,而且优势越来越大,只是之前并没有单独去查过这个数据,InfiniBand当然就是英伟达,Ethernet则是以博通为代表的其他大厂的方案。原始报告已经放到星球中。
Broadcom于2025年6月3日宣布开始出货Tomahawk 6交换芯片,这一消息在全球AI基础设施市场引起了广泛关注。TH6采用3纳米工艺技术,配备200G SerDes(串行解串器),支持高达102.4Tbps的交换容量,是当前主流以太网交换芯片(51.2Tbps)的两倍。这一技术突破不仅显著提升了网络传输带宽和降低了延迟,还通过支持共封装光学(Co-packaged Optics, CPO)技术,实现了功耗、延迟、链路波动和总体拥有成本(TCO)的全面优化。CPO技术通过将光学引擎与交换硅芯片集成,仅保留外部激光源,进一步提升了系统的能效和性能。根据Broadcom高级副总裁Ram Velaga的介绍,TH6的价格接近前一代产品的两倍,单芯片价值低于2万美元,但其性能提升带来的价值远超成本。
TH6在AI网络中必博官方网站的优化尤为突出。在规模扩展(Scale-out)方面,TH6通过200G链路的两层Clos架构,可连接多达10万个XPU(加速处理单元,如GPU或TPU),相比传统三层架构减少了67%的光学模块和物理连接,从而大幅降低延迟和功耗。在规模收缩(Scale-up)方面,单芯片支持512个XPU单跳连接,是竞争产品的7倍,特别适合机架内GPU/TPU的紧密互联。此外,TH6配备的认知路由2.0(Cognitive Routing 2.0)技术针对现代AI工作负载(如混合专家模型和强化学习)进行了优化,集成了全局负载均衡、动态拥塞控制、快速故障恢复和自适应流量控制等功能,使其成为大规模AI集群的理想选择。
TH6的推出不仅标志着Broadcom在高端交换芯片领域的技术领先地位,也有望推动1.6T光学模块和数据中心互联(DCI)需求的快速增长。同时,TH6的CPO版本将加速CPO价值链企业的商业化进程,为AI数据中心(AIDC)提供更高效、更经济的网络解决方案。报告指出,TH6的量产将引发全球AI基础设施和网络市场的新一轮技术升级周期,惠及光学收发器、PCB/CCL制造以及AI服务器/交换机领域的市场领导者,如中际旭创、苏州天孚、深南电路、昆山沪士和紫东武汉。
AI网络的架构主要分为Scale-out和Scale-up两大类。规模扩展网络连接不同AI服务器之间的网卡(NIC)至叶子节点交换机,通常采用NVIDIA的InfiniBand或以太网的Clos拓扑结构。规模收缩网络则聚焦于加速处理器(如GPU/XPU)之间的高速点对点互联,代表技术包括NVIDIA的NVLink、UALink联盟的Ultra Accelerator Link、Broadcom的Scale Up Ethernet(SUE)以及AMD的Infinity Fabric。这些技术的竞争与发展反映了AI模型训练和推理对计算能力和灵活扩展的需求。
在规模扩展网络中,以太网凭借其兼容性强、生态系统广泛和成本较低的优势,在传统数据中心网络中长期占据主导地位。然而,在生成式AI兴起的初期,NVIDIA的InfiniBand因其在GPU市场的统治地位和高性能(低延迟、高带宽)而迅速抢占市场份额。为应对这一挑战,Ultra Ethernet Consortium(UEC)于2023年7月成立,推出了超以太网协议,支持多路径传输和微秒级延迟,适用于AI训练场景。2024年,800G以太网实现标准化并进入商业化阶段,采用PAM4调制技术和四通道200G SerDes,结合RoCEv2(基于融合以太网的RDMA)和优先级流量控制(PFC),显著降低网络延迟。报告预测,随着全球云服务提供商(CSPs)加大自研ASIC项目的投入,以太网将在未来几年重夺市场动能。
相比之下,InfiniBand因其封闭生态和高成本,市场规模增长缓慢,但其在超级计算集群中的可靠性依然无可替代。2023年10月,InfiniBand Trade Association发布XDR标准,支持800Gb/s单端口带宽,采用PAM4调制和硅光子技术,功耗较NDR降低30%。NVIDIA的最新800G Quantum-X CPO交换机基于XDR标准,展现了其在高端AI网络市场的持续创新。此外,谷歌通过自研的光学电路交换(OCS)技术,采用Torus拓扑结构,实现了30%吞吐量提升、40%功耗降低和50倍的网络停机时间减少,为AI网络架构提供了全新范式。
在规模收缩网络中,NVIDIA的NVLink凭借其在超大规模AI数据中心的广泛应用,占据主导地位。NVLink通过高带宽、低延迟的点对点连接,优化了GPU互联性能。2025年3月的GTC大会上,NVIDIA CEO Jensen Huang宣布推出NVLink Fusion,允许客户通过IP授权与NVIDIA生态伙伴(如MediaTek、Marvell、Qualcomm)合作,构建半定制AI基础设施。相比之下,UALink联盟的Ultra Accelerator Link提供开放标准,支持高达200G每通道的连接,覆盖1024个加速器,旨在挑战NVLink的垄断地位。Broadcom的SUE则基于以太网框架,为XPU提供低延迟、高带宽的内存事务传输,单层交换支持1024个端口。AMD的Infinity Fabric主要用于芯片内和处理器间通信,但在AI/ML训练等规模扩展应用中,通过以太网连接可实现更大规模的性能提升。
这些技术路线的竞争表明,AI网络正朝着更高带宽、更低延迟和更灵活扩展的方向发展。Broadcom的TH6通过支持双架构(Scale-out和Scale-up),在这一竞争中占据了有利位置,其创新的认知路由和CPO技术进一步巩固了其市场竞争力。
根据LightCounting的数据,2023-2028年,全球光学电路交换(OCS)硬件销售预计以32%的年复合增长率(CAGR)增长,超过以太网交换机(14%)和InfiniBand交换机(24%)。尽管如此,以太网交换机在2021-2028年的总销售额仍将保持领先地位。DellOro Group预测,到2027年,云服务提供商将占据数据中心交换机销售的60%,推动400Gbps、800Gbps和1600Gbps的广泛采用,其中800Gbps预计在2027年超越400Gbps。在中国市场,IDC数据显示,2024年数据中心交换机市场同比增长23.3%,200/400G设备收入和端口出货量分别增长132.0%和166.5%,反映了生成式AI对高速网络的强劲需求。
白盒交换机因其低成本、开放性和高可扩展性,受到云服务提供商的青睐。IDC统计显示,2023年第四季度至2024年第四季度,ODM Direct的市场份额持续上升。全球以太网交换机市场高度集中,2024年CR5(前五厂商)市场份额达到70%,其中思科(Cisco)、Arista、华为、HPE和H3C分别占据35.9%、13.0%、10.5%、5.8%和4.4%的份额。Arista凭借其在高速交换机领域的突破,2024年上半年市场份额首次超过思科,成为白盒交换机市场的领军者。
CPO技术是交换机市场的另一大趋势。NVIDIA计划于2025年下半年出货Quantum X800 CPO交换机,而Broadcom的TH6 CPO版本虽未明确出货时间,但已展现出商业化潜力。报告预测,2025年CPO交换机在AI数据中心市场的渗透率仅为1%,但到2027年和2030年将分别提升至10%和20%。由于CPO交换机集成了光学收发器,其平均销售价格(ASP)高于传统交换机,预计2025年、2027年和2030年的CPO交换机市场规模(TAM)将分别达到4.16亿美元、67.51亿美元和128.77亿美元。
交换机的价值链分析显示,交换芯片是核心组件,占BOM成本的32%。Broadcom和思科在以太网交换芯片市场占据主导地位,而NVIDIA则是InfiniBand交换芯片的主流供应商。TH6的102.4T交换容量和CPO架构进一步巩固了Broadcom在高端市场的垄断地位。下游市场包括电信、数据通信和企业客户,其中云服务提供商是主要驱动力。报告列举了主要云服务提供商的交换机和芯片供应商,如AWS和Meta使用Broadcom芯片,谷歌和微软则部分采用自研芯片,显示出市场竞争的复杂性。
报告指出,在全球顶级超级计算机中,约78%的计算系统采用基于RoCE(RDMA over Converged Ethernet)的以太网解决方案,而65%的系统使用InfiniBand架构。这表明,以太网在覆盖范围上略占优势,但两者在高性能计算(HPC)和AI数据中心中存在一定的重叠应用。在生成式AI基础设施部署的初期,InfiniBand凭借NVIDIA在GPU市场的统治地位,成为规模扩展(Scale-out)网络的首选。然而,随着云服务提供商(CSPs)加大自研ASIC项目的投入,以太网正逐渐重夺市场动能。下图直观展示了以太网和InfiniBand在不同时间段或数据中心规模中的市场份额,凸显了两者的动态博弈。
报告指出,在生成式AI基础设施部署的头两年(2022-2024年),InfiniBand因NVIDIA在GPU市场的统治地位而成为规模扩展网络的首选架构。NVIDIA通过其Quantum/Quantum-2系列交换机和ConnectX适配器,推动了InfiniBand在400Gbps和800Gbps网络中的广泛应用。与此同时,以太网尽管在传统数据中心占据主导,但在AI后端网络中的增长速度不及InfiniBand,导致其市场份额相对下滑。