全球科技巨头大比拼:AI 数据中心的构建和竞争

AI 数据中心成为科技巨头的竞争焦点,他们争相构建自己的 AI 基础设施,以支持大型语言模型的训练和推理。自建数据中心是他们的 preferred plan,多数据中心训练和液冷 AI 芯片的发展成为重点。

原文标题:OpenAI 已破解多数据中心分布式训练?美科技巨头比拼 AI 基础设施能力

原文作者:机器之心

冷月清谈:

- AI 语言模型的快速发展对 AI 数据中心的需求不断增长,微软、谷歌等科技巨头纷纷投入巨资构建 AI 数据中心。

- 当前,科技巨头解决 AI 数据集群问题主要有自建、合作和租赁三种方式。从长期来看,自建在成本效益、控制权和可扩展性等方面更有优势。

- 未来,大语言模型训练将由使用单一数据中心转向使用多数据中心。高密度液冷 AI 芯片也越来越受到关注,谷歌等公司部署了数百万的液冷 TPU。

- 全球超大规模数据中心数量不断增长,亚马逊、微软和谷歌占据了大部分市场份额。中国科技巨头阿里巴巴、腾讯和字节跳动也在积极布局 AI 数据中心。

怜星夜思:

1、为什么科技巨头倾向于自建数据中心,而不是租赁?
2、多数据中心训练相比于单一数据中心训练有哪些优势?
3、液冷 AI 芯片受到关注的原因是什么?

原文内容

本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。


近日,SemiAnalysis 的创始人 Dylan Patel 在一档播客中透露,微软和 OpenAI 已经实现了多数据中心训练。据悉,OpenAI 和 Microsoft 计划将各个超大型园区互联,进行美国范围内的大规模分布式训练。
随着语言模型的 Scaling Law 的有效性验证和持续推进,对于 AI 数据中心的建设需求不断增加。微软、谷歌等科技巨头正在投入数百亿美元疯狂地进行 AI 数据中心的建设。各家科技巨头的 AI 数据中心的布局情况如何?谁更强?为什么多数据中心训练及液冷技术的突破成为巨头们竞争的关键?

目录

01. AI 浪潮下,美科技巨头们正在如何疯狂构建 AI 数据中心?

科技巨头们狂建 AI 数据中心背后的逻辑是什么?为什么科技巨头们解决 AI 数据集群问题更倾向于选择自建而不是租赁?AI 数据中心的趋势将由单一数据中心逐渐转向多数据中心?
02. 美科技巨头的 AI 基础设施能力比拼,进展如何?
科技巨头的 AI 基础设施布局情况如何?谁更强?
03. 微软和 OpenAI 已经实现多数据中心分布式训练?
微软、OpenAI 合力筹建数据中心项目的具体情况如何?微软和 OpenAI 已经实现了多数据中心训练?多数据中心分布式训练是什么?为什么很重要?关键技术及挑战有哪些?
04. 当前 AI 数据中心面临的能源挑战以及瓶颈有哪些?

额外的电力需求如何解决?GPU 部署在哪?

 01   AI 浪潮下,美科技巨头们正在如何疯狂构建 AI 数据中心?

1、随着语言模型的 Scaling Law 的有效性验证和持续推进,对于 AI 数据中心等基础设施建设的需求不断增加。据 SemiAnalysis 分析,从 2021 年到 2024 年底,仅英伟达将出货超过 500 万 H100 的加速器,预计到 2025 年初,AI 数据中心的容量需求将超过 10GW。未来几年,数据中心容量的复合年增长率将从 12-15%加速到 25%。[1]

2、近期,AI 头部公司 OpenAI 向美政府提交了一份报告,提出希望美政府能支持其在美国多个州建立总容量为 5GW 的数据中心,通过构建巨型数据中心来推动更先进的人工智能模型研发。与此同时,科技巨头们都在疯狂地构建以 AI 为核心的数据中心,微软、谷歌等正在投入数百亿美元进行 AI 数据中心的建设。[2]

3、作为重要的AI 基础设施之一,数据中心分为基于传统 IT 架构的传统数据中心、适合物联网(IoT)和边缘计算应用的边缘数据中心以及拥有庞大服务器集群的超大规模数据中心三类。不同的数据中心的设计与其预期用途有关,拥有庞大服务器的超大规模 AI 数据中心主要为 AI 模型的训练和推理提供支持,需要具备以最小的延迟实时处理大量数据的能力。

4、目前来看,科技巨头们解决 AI 数据集群不足的问题主要包括三种方式,自建数据中心、与其他公司/供应商建立合作关系和租赁。

① 例如,马斯克的创业公司 xAI 选择自建的方式,计划建造「超级算力工厂」。建成之后,「超级算力工厂」将拥有10 万块的 GPU 芯片集群,可用于加速 Grok 聊天机器人的开发,减少语音限制。

② OpenAI 和微软则采用合作的模式建立数据中心,通过与 Oracle、CoreWeave 等合作扩建数据中心。近期,OpenAI 和微软正在讨论数据中心扩建的下一阶段,即名为「Fairwater」的项目。微软计划到明年年底在威斯康星州和亚特兰大的两个数据中心站点为 OpenAI 提供约 30 万块英伟达最新的 GPU GB200。[3]

③ 此外,租赁也是一种方式,能够缓解购买和维护硬件设备的巨额成本。但 SemiAnalysis 的 Dylan Patel 认为,「现在最有意义的是建立自己的数据集群而非租赁,或者是与其他公司建立合作关系」。有业内观点认为,从长期来看,自建比租赁在成本效益、控制权、可扩展性等方面更具优势。[4]

④ 同样,Synergy Research Group 首席分析师 John Dinsdale 表示:「虽然超大规模数据中心的数量和平均规模继续以惊人的速度增长,但这些趋势背后却存在着许多复杂性和细微差别。一般而言,自有数据中心比租赁数据中心大得多[5]

5、从需求端看,近期大语言模型训练的一个趋势是,由使用单一数据中心逐渐转向使用多数据中心。据 SemiAnalysis 爆料,Google、OpenAI、Anthropic 等近期已经在执行一个计划,即将其大模型训练从一个站点扩展到多个数据中心(Multi-Datacenter)。

6、此外,高密度液冷 AI 芯片越发受到关注。大多数公司开始引入高密度液冷 AI 芯片,芯片采用英伟达的 GB200 架构。如谷歌部署了数百万的液冷 TPU,液冷 AI 芯片的总容量超过 1 GW。[1] 

 02  美科技巨头们的 AI 基础设施能力比拼,进展如何?

1、据 Statista 的数据显示,全球各地共有逾 1 万个数据中心,美国拥有全球最多的数据中心,占全球数据中心总量的 1/2。其中,超大规模数据中心的数量由 2023 年底的 992 个增长至 2024 年突破千个。

① 据 Synergy 的数据显示,目前亚马逊、微软和谷歌三家公司占据了超大规模数据中心总容量的 60%,其次是 Meta、阿里巴巴、腾讯、苹果、字节跳动,然后是其他相对较小的超大规模运营商。未来正在建设中的超大规模数据中心渠道有 440 个,处于规划、开发或装修的不同阶段。[6] 

表:部分美国科技巨头的 AI 基础设施布局动作比拼(不完全统计)
 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 

👀 往期回顾 👀 

 01  LLM 之后,AI 的下个关键词会是 LWM 吗?

World Labs 要做的 LWM 是什么?LWM 和空间智能有什么关系?LWM 和下一代 AI 有什么关系?3D 才是 AI 的核心表征?空间智能当前有什么进展?世界模型进展如何?...

 02  人形是做通用机器人最合适的形态吗?

为何业内都在做人形通用机器人?人形一定是做通用机器人最合适的形态吗?为什么说 Scaling Laws 才是通用机器人面临的真正难点?如何解决「数据魔咒」的难题?...

 03  Scaling 范式变了?Self-Play 还值得 All In 吗?

OpenAI 的 o1 模型有质的突破吗?Scaling Law 的范式要变了吗?Self-Play 在新范式中重要吗?传统 Self-Play 技术发展如何?Self-Play+LLM 已经能训出更强的模型了吗?...

 04  Machine Psychology,解构 LLM 还是心理学更靠谱吗?

什么是 Machine Psychology?为什么要做 Machine Psychology?做 Machine Psychology 有哪些路线?哪些心理学理论可以用于 LLMs 研究?Machine Psychology 要如何应用?Machine Psychology 下一步要怎么走?...


更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。

多数据中心训练可以解决单一数据中心容量不足的问题,支持更大规模的模型训练。

科技巨头拥有雄厚的资金实力和技术积累,自建数据中心有利于他们掌控核心技术和保持竞争优势。

分布式训练可以充分利用多个数据中心的算力,有效提高训练速度和模型效果。

自建数据中心可以最大限度地满足企业的定制化需求,保证数据安全和业务连续性。

液冷 AI 芯片可以有效解决传统风冷无法满足的散热问题,提高芯片的算力和能效。

液冷可以降低芯片温度,使其在更高的频率下稳定运行,从而提升性能。

液冷技术可以实现更紧凑的数据中心设计,节约空间和能耗。

从长期来看,自建数据中心在成本效益、控制权和可扩展性等方面更具优势。

多数据中心分布可以提高模型的鲁棒性和容错能力,即使一个数据中心出现故障,训练过程也能继续进行。