全球企業都在爭相引入 AI 來領先於商業流程的自動化競賽。要充分發揮 AI 的潛力,首要任務是部署 IT 架構進行訓練和優化,接著將 AI 模型應用於實際業務操作中。然而,AI 的 IT 架構與傳統雲端及企業資料中心過去數十年使用的標準運算架構不同。 GPU(圖形處理單元)是一種專門用來加速運算的高效能處理器,特別適合執行如訓練大型語言模型(LLM)這類平行處理任務。這些 GPU 是 AI 伺服器的核心,由 CPU(中央處理器)進行管理和控制。為了簡化伺服器的設計, NVIDIA 開發並生產了 AI “伺服器主板”(將 GPU 和 CPU 整合在同一塊電路板上,並通過 NVLink 連接)。更進一步, NVIDIA 還提供了 AI 訓練和推理叢集的設計藍圖,將 AI 主板和伺服器整合成技術上等同於超級電腦的系統,該公司稱之為 SuperPOD。
SuperPOD 需要更完善的參考設計
無論是在現有資料中心中部署,還是新建專門的 AI 資料中心,SuperPOD 對於資料中心營運商來說都是一大挑戰。與傳統工作負載相比,SuperPOD 需要更高的密度,並且消耗更多的電力和冷卻資源。為了應對這一挑戰,施耐德電機與 NVIDIA 攜手合作,旨在簡化並加速 AI IT 架構的部署,特別是 SuperPOD 的部署。
施耐德電機運用了其在資料中心基礎設施領域的專業知識,對 NVIDIA 的先進 AI 技術進行了深入研究,推出了首個公開的 AI 資料中心參考設計。我們設計了四種方案(其中三個針對改造現有設施,一個針對全新建設的資料中心),為各種不同情境提供具體的指導,考量標準如佔地面積、密度和現有基礎設施等。改造設計適用於現有 IT 空間,能提供約 1 兆瓦的 AI SuperPOD;新建方案則支持約 2 兆瓦的功率,每個機架的密度達 70 kW,適合希望專門為 AI 集群打造資料中心的業者,且可進行擴展與複製。
如果您想進一步了解這些參考設計的價值和內容,歡迎參閱我們的簡報《促進 AI 採用的參考設計:施耐德電機與 NVIDIA 的合作概要》。當您準備深入了解包括設計規格、性能參數、電力單線圖、管道佈局、地板設計和設備清單等技術細節時,也歡迎您進一步查閱這些設計方案。
作者:Steven Carlini | 原文連結
延伸閱讀