雖然此觀點來自生產資料中心電力和冷卻系統的公司,但這並不代表施耐德電機的看法是錯誤的。人工智能的工作負載與標準的伺服器端應用(如資料庫)截然不同,傳統的方法已不再適用。
這種情況導致了機架密度的大幅提升。在過去,一個標準機架的密度大約在 10kW 到 20kW 之間,這樣的熱量可以透過空氣冷卻系統(如散熱片和風扇)來有效處理。然而,當機架的功率需求升高至 30kW 以上時,傳統的空氣冷卻方法就不再足夠。在這種情況下,就必須轉向使用液體冷卻系統,但液體冷卻系統的安裝和改造過程相對複雜。
施耐德電機白皮書的作者群表示:“面對這種高密度的挑戰,從人工智能新創公司到大型企業、共置服務提供商,乃至於網路業的巨頭,都必須重新思考並評估其對資料中心物理基礎設施設計和管理所帶來的深遠影響。”
電網與成本考量
雖然電力和冷卻一直是資料中心建設者關注的重點,但網絡吞吐量和連接性這一方面卻經常被忽視。在人工智能訓練過程中,每個 GPU 都需要一個高吞吐量的專用網絡端口。
然而,GPU 的發展速度已經遠遠超越了網絡端口的能力。例如,若使用的 GPU 從記憶體以 900 Gbps 的速度處理數據,但只配備了 100 Gbps 的運算網絡,這將會拖慢 GPU 的運作速度,因為它需要等待網絡處理完所有數據。另一方面,雖然 InfiniBand 的速度遠超傳統銅線,但其成本卻是後者的十倍。
空間分隔與供應鏈整合
為了避免高熱密度的問題,一種方法是將硬體設備物理上分散開來。這意味著不應將機架填滿,而是應該將它們物理上分開放置。然而,這樣做會導致延遲,因為需要移動傳輸大量數據,而延遲對性能的影響是不容忽視的。
解決方案與建議的精進
對於空氣冷卻系統,施耐德建議設定每個機架的最大功率閾值為 20kW。當功率需求超過此閾值時,他們推薦轉向更高效的液體冷卻系統。儘管空氣冷卻系統在 30kW 時達到極限,施耐德在這方面的建議似乎更為謹慎,這可能是出於對其液體冷卻設備的推廣考量。
在液體冷卻技術的選擇上,施耐德特別推崇直接液體冷卻方法。這種方法中,銅板直接與 CPU 相連,類似於空氣冷卻系統,但配備了雙管道系統:冷水通過一條管道進入,吸收熱量後通過另一條管道排出,進行循環和冷卻。
施耐德對浸沒式冷卻技術的態度較為保留,主要是因為使用於浸沒的介電液體含有可能對環境造成污染的氟碳化合物。
此外,施耐德還指出,由於液體冷卻技術目前缺乏產業標準,因此進行全面的基礎設施評估變得尤為重要,這需要由對相關設備有深入了解的專家來執行。這是基於設施本身能夠進行必要改裝的前提。大多數採用液體冷卻的資料中心都是在建設初期就規劃了相關基礎設施,而非在建成後進行改造。
施耐德的白皮書中還涵蓋了更多其他建議和指導原則。
作者:Andy Patrizio | Oct 3, 2023 | 原文連結-Networkworld