Microsoft's first "AI super factory" is put into operation: connecting two data centers to build a distributed network

華爾街見聞
2025.11.13 00:10
portai
I'm PortAI, I can summarize articles.

微軟通過構建橫跨多州的分佈式網絡打造” 行星級 AI 超級工廠”,將分散在亞特蘭大和威斯康星等地的數據中心整合為統一算力系統。該架構成功整合數十萬個 Blackwell GPU,並採用液冷高密度設計,通過專用光纖網絡實現算力協同,將複雜 AI 訓練任務從數月壓縮至數週,標誌着 AI 基礎設施正式進入網絡化協同新時代。

微軟正式推出其首座 “AI 超級工廠”,通過將跨越不同州的數據中心連接為統一系統,構建起一個具備行星際規模算力的分佈式 AI 超級工廠

這一架構將分散的算力資源整合為虛擬超級計算機,以前所未有的規模加速 AI 模型訓練,將原本需數月的複雜任務縮短至數週,標誌着 AI 基礎設施從獨立站點建設正式邁向 “行星際規模” 網絡化協同的新階段。

據微軟披露,位於亞特蘭大的新一代 AI 數據中心已於 10 月投入運營,這是 “Fairwater” 系列中的第二個設施,並通過專用網絡與威斯康星州的首個 Fairwater 站點相連。該系統整合了數十萬個最新 NVIDIA Blackwell GPU,構建起全球首個真正意義上的跨州 AI 計算集羣。

這一進展正值科技巨頭間 AI 算力競爭白熱化。據《華爾街日報》報道,微軟計劃在未來兩年內將其數據中心總面積擴大一倍。該 “AI 超級工廠” 將支持 OpenAI、微軟 Copilot、法國 Mistral AI 及埃隆・馬斯克的 xAI 等關鍵客户,進一步鞏固其在 AI 基礎設施領域的領先地位。

背後是鉅額資本投入。微軟上一財季資本支出超過 340 億美元,並預計將持續加大投入。行業預計,全球科技公司今年 AI 相關投資總額將達 4000 億美元。微軟的分佈式網絡策略不僅是技術革新,更是其應對算力需求爆發、保持市場競爭力的核心舉措。

“AI 超級工廠”:從獨立站點到分佈式網絡

微軟的 “AI 超級工廠” 概念,核心在於將多個地理上分散的數據中心融合成一個虛擬的單一超級計算機,這與傳統數據中心的設計理念截然不同。

微軟 Azure 基礎設施總經理 Alistair Speirs 解釋稱:“傳統數據中心旨在為多個客户運行數百萬個獨立的應用程序,而我們將此稱為 ‘AI 超級工廠’,是因為它在數百萬個硬件上運行一個複雜的作業。” 這種模式下,不再是單個站點訓練一個 AI 模型,而是由一個站點網絡共同支持同一項訓練任務。

位於亞特蘭大費爾沃特園區的所有 GPU 之間通過高速、高吞吐量的網絡共享信息。圖片由微軟提供。

這個分佈式網絡將連接多個站點,整合數十萬個最先進的 GPU、EB 級的存儲空間和數百萬個 CPU 核心。其設計目標是支持參數規模達到數萬億級別的未來 AI 模型訓練。隨着 AI 訓練流程日益複雜,涵蓋預訓練、微調、強化學習和評估等多個階段,這種跨站點的協同能力變得至關重要。

專為 AI 打造:新一代數據中心的設計與技術

為了實現 “超級工廠” 的願景,微軟從零開始設計了 “Fairwater” 系列數據中心。位於亞特蘭大的設施佔地 85 英畝,建築面積超過 100 萬平方英尺,其設計完全為 AI 工作負載優化。

Fairwater AI 數據中心的設計共有兩層。圖片由微軟提供。

其關鍵技術特徵包括:

高密度架構:採用創新的雙層建築設計,以便在更小的物理空間內容納更多 GPU,從而縮短內部通信延遲。

尖端芯片系統:部署了英偉達的 GB200 NVL72 機架規模系統,可擴展至數十萬個英偉達 Blackwell 架構 GPU。

高效液冷系統:為應對 GPU 集羣產生的高熱量,微軟設計了複雜的閉環液體冷卻系統。該系統幾乎不消耗水資源,其初次注水量僅相當於 20 個美國家庭一年的用水量。

內部高速互聯:在數據中心內部,通過高速網絡將所有 GPU 緊密連接,確保信息在芯片之間快速流通。

“在人工智能領域取得領先,不僅僅是增加更多的 GPU,而是要構建能讓它們作為一個系統協同工作的基礎設施。” 微軟雲與人工智能部門執行副總裁 Scott Guthrie 表示。他強調,Fairwater 的設計凝聚了微軟多年的端到端工程經驗,旨在以真實世界的性能滿足日益增長的需求。

Fairwater 數據中心 GPU 的物理密度使微軟能夠在更小的空間內集成更強大的計算能力,從而降低延遲。圖片由微軟提供。

跨州互聯:AI 廣域網與算力分配策略

將相隔遙遠的多個數據中心連接成一個整體,依賴於微軟專門打造的 AI 廣域網(AI WAN)。微軟為此部署了 12 萬英里的專用光纖電纜,構建了一條專供 AI 流量的 “高速公路”,使數據能夠以接近光速的速度無擁堵傳輸。

微軟 Azure 首席技術官 Mark Russinovich 指出,隨着模型規模的增長,訓練所需的算力早已超出單個數據中心所能承載的極限。如果網絡中任何一部分出現瓶頸,整個訓練任務就會停滯。Fairwater 網絡的目標就是讓所有 GPU 始終保持忙碌狀態

之所以選擇跨州建設,而非將所有算力集中一處,主要是出於土地和電力供應的考量。Alistair Speirs 在接受《華爾街日報》採訪時表示,將電力需求分散到不同地區,可以避免對任何單一電網或社區造成過度負擔。他坦言:“你必須做到能夠跨多個區域進行訓練,因為還沒有人達到我們現在的規模,所以也沒有人真正遇到過這個問題。”

需求激增下的 “軍備競賽”

微軟的 “AI 超級工廠” 是其應對 AI 算力需求激增並與對手競爭的核心資產。儘管微軟此前曾調整過部分數據中心租賃計劃,但 Alistair Speirs 澄清這只是 “產能規劃的轉變”,公司目前面臨的需求遠超其供應能力。

在這場算力競賽中,微軟並非孤身一人。其主要競爭對手亞馬遜最近在印第安納州啓動了佔地 1200 英畝的 Project Rainier 數據中心集羣,預計將消耗 2.2 吉瓦的電力。此外,Meta Platforms、甲骨文等公司也公佈了龐大的建設計劃,而 AI 初創公司 Anthropic 則宣佈計劃在美國投資 500 億美元用於計算基礎設施。

通過將數據中心連接成一個統一的分佈式系統,微軟不僅在技術上開闢了新路徑,也在商業上為滿足頂級 AI 公司的龐大需求做好了準備。正如 Scott Guthrie 所説:“我們讓 AI 站點作為一個整體運行,能夠幫助我們的客户將突破性的模型變為現實。”