AI電力激增背后的液冷管道
AI 工作負載的算力需求正在飛速飆升。本能的反應是什么?建造更多數據中心。但這種策略正變得越來越難以實施。除了建設大型數據中心的現實難題外,電網容量有限,就連接入電網都變得困難重重。再加上新設施帶來的資金與環境成本,很明顯,單純靠擴張規模并非解決之道。
然而,更有效的策略是:通過針對性的基礎設施升級,在現有占地面積內釋放更多性能,擴大容量、提升效率并加快部署速度。
問題在于,每一代新產品中,GPU 和其他 AI 加速器都在推高功耗和散熱量。這些飛躍正在讓傳統設計過時,并迫使基礎設施策略發生根本性轉變。例如 NVIDIA 的 GB200 超級芯片,每個模塊集成兩顆布萊克韋爾 GPU 和一顆格蕾絲 CPU,功耗最高可達約 2700 瓦,凸顯出下一代 AI 系統的熱負荷正在快速攀升。
只要采用正確的冷卻、供電和機架級集成方案,數據中心運營商就能在不新建設施的前提下,大幅提高算力密度和性能。
理解數據中心算力密度面臨的約束
總體而言,傳統數據中心并非為大語言模型(LLM)和其他高密度 AI 工作負載而設計。在這類環境中進行擴容面臨四大關鍵挑戰:
空間限制:現有機架布局通常沒有足夠物理空間容納現代高密度配置。
供電約束:傳統配電單元(PDU)和開關設備從未設計用于為功率密度 60 至 120 千瓦甚至更高的機架供電。
冷卻低效:即使風量開到最大,傳統風冷系統也無法散出新一代 AI 處理器的熱量。
可持續性壓力:隨著數據中心用電量在全球電力消耗中的占比不斷上升,運營商面臨來自監管機構、投資者和客戶越來越大的壓力,要求提高能源效率。
這些約束都會影響可靠性、正常運行時間和投資回報率。工程師和系統集成商正在尋找在不停機的情況下提升性能的方法,而在每瓦電力、每一寸空間都至關重要的情況下,這絕非易事。
芯片直連液冷為 AI 釋放更大功率
散熱是高性能計算最直接、最突出的約束。風冷系統已經達到實際極限。即使配備架空地板、密閉通道和優化氣流,傳統方案也無法跟上 AI 芯片的熱特性。
芯片直連液冷已成為一種可行的解決方案。通過將冷卻液直接引到芯片表面,并精準對準熱點,這種方式大幅提升傳熱效率,穩定 CPU 和 GPU 溫度,并最小化影響性能的溫度梯度。
盡管在技術上具備優勢,但液冷往往被誤解為需要大規模基礎設施改造。而事實并非總是如此。
獨立式閉環液冷系統可以提供一種實用、漸進式的升級路徑。這些方案可直接集成到標準服務器配置中,1U 規格可支持高達 1200 瓦,2U 規格可支持 1500 瓦甚至更高,且無需外部管路或配電單元。運營商通過大幅降低風量需求,平均可節省 15% 的電力,所有這些都在現有機架空間和功率預算內實現。
對于新建項目或大規模設施升級,機房級液冷值得認真考慮。這類系統可支持每路插槽超過 3000 瓦,機架功率密度接近 1 兆瓦。
雖然帶管路的液冷需要更多基礎設施,且可能占用更多機架物理空間,但它能讓企業在相同的數據中心總占地面積內大幅提升算力密度。這意味著你可以在不擴建設施的情況下擴容 AI 工作負載。前期投資更高,但長期投資回報率十分可觀:更高的算力密度、更低的能耗、更高的可靠性。
對于希望在不新建數據中心的前提下最大化性能的企業,圍繞先進散熱方案進行設計,能夠帶來巨大的效率提升,并為規模化 AI 打造面向未來的基礎設施。
液冷并非非此即彼的選擇。運營商可以從小規模起步,部署能夠無縫融入現有環境的獨立系統。通過在芯片層面提升熱傳輸效率,這些方案釋放出新的空間,能夠在相同占地面積內實現更高功率密度、更好性能和更高效率。本質上,液冷讓在不擴大空間和功率預算的前提下提升算力密度成為可能。
重新思考兆瓦級機架的配電與供電
僅靠散熱創新無法解決下一代算力面臨的挑戰。隨著機架功率密度飆升至 120 千瓦以上,并且超大規模運營商將 1 兆瓦機架架構納入路線圖,行業需要從根本上重新思考供電和配電方式。傳統數據中心許多仍配備為 5 至 15 千瓦負載設計的 PDU 和開關設備,與 AI 優化型基礎設施的需求越來越不匹配。
這種不匹配是一種供電隱患。升級供電架構已不再是可選方案,而是實現可擴展性、高效率和高韌性的前提。高效率 PDU、直流母線、模塊化電源架和分離式供電機架平臺,正在為 AI 工作負載實現更安全、更高效的供電。
超大規模運營商正引領向分離式基礎設施轉型,將供電、冷卻和 IT 設備拆分為模塊化、可獨立擴容的組件。例如谷歌的 Mt. Diablo 項目,推出了交流轉直流的側掛式電源機架,提供 ±400 伏直流電,單機架支持最高 1 兆瓦功率,并回收 IT 機架內的寶貴空間用于算力部署。這種方案讓運營商能夠在不擴大物理占地面積的前提下提升密度。
這類創新正吸引更廣泛的解決方案提供商生態系統參與。諸如 Flex 等公司不僅在被動響應,更是在構建未來。
在 2025 年 OCP 全球峰會上,Flex 推出了其 AI 基礎設施平臺 —— 一款面向吉瓦級數據中心的全集成解決方案。該平臺采用 1 兆瓦機架,支持 ±400 伏直流供電,并可向 800 伏直流供電架構演進,支持最高 1.8 兆瓦的模塊化散熱,以及預制式系統,可大幅縮短部署時間。這是一種更智能的擴容模式,在不擴大占地面積的前提下最大化密度和速度。
智能電源管理:AI 格局中被忽視的一環
同樣重要的是電力管理方式。閑置容量 —— 因分配不均而未被利用的能源 —— 仍然是影響運營效率的隱形消耗。軟件定義和模塊化電源系統支持動態分配,確保電力精準輸送到需要的地方。這不僅提高利用率和可靠性,還降低過度配置和不必要資本支出的風險。
隨著數據中心采用直流配電,固態變壓器等技術旨在簡化轉換環節。它們有助于提高能源效率,并可大幅縮小配電室占地面積 —— 據 Flex 估計,到 2030 年可縮小高達 90%。這帶來兩大顯著優勢:以更小的占地面積實現相同容量,從而降低建設成本;或在相同空間內部署更多機架,從而提高算力密度。
對系統集成商而言,挑戰在于無中斷執行。停機是不可接受的。這就是行業正向熱插拔、前置式設計轉型的原因,這類設計簡化了在線環境中的安裝和維護。
機架級集成:冷卻、供電與算力的交匯點
真正的密度提升,發生在冷卻、供電和算力不再各自為政,而是在機架層面協同工作之時。有前瞻性的領導者正在采用將這些功能整合為統一生態系統的架構,而非將每個子系統獨立看待。
通過這種方式,基于開放標準的一體化機架能夠實現跨代硬件的互操作性,簡化維護,而液冷設計則確保最佳散熱性能。隨著芯片熱設計功耗(TDP)持續上升,這種模式支持長期可擴展性。
最有效的方案之一是部署交鑰匙、垂直一體化的液冷機架解決方案,將供電、熱管理和 IT 硬件整合為單一的預工程化系統。這些方案消除了復雜的多廠商集成需求,實現更快部署、簡化運營和單一責任點。
合作伙伴關系同樣重要。通過與提供完整機架級系統(包含匹配的冷卻、供電和算力組件)的解決方案提供商合作,運營商可獲得單一聯系點和簡化的保修服務。這降低了復雜性和風險,加快部署速度,讓數據中心能夠更快擴容,避免常見的集成難題。
對系統集成商而言,這些架構通過互操作性測試、性能驗證以及為優化 AI 負載部署預集成機架解決方案,創造了提供價值的新機會。通過將先進液冷與高效率供電相結合,運營商能夠在算力輸出提升的同時降低設施總能耗,與風冷系統相比,機架級功耗可降低數千瓦。
這些效率提升直接轉化為每平方英尺更高的算力密度。當冷卻和供電系統高效運行時,機架能夠在不超出設施限制的前提下支持更高功率和熱負荷。這意味著每單位面積更多算力,最大化現有空間價值,在不擴大數據中心占地面積的前提下提供更高性能。
高壓直流母線和鈦金級電源進一步提高轉換效率,減少廢熱和后續散熱需求。
在相同空間內容納全新基礎設施
未來的數據中心不必更大,才能滿足 AI 需求;它只需要更具戰略性的設計。通過聚焦正確的基礎設施升級,運營商能夠在現有場地內解鎖 AI 工作負載所需的密度和性能。
冷卻和供電是最關鍵的起點。通過一體化、模塊化、支持液冷的設計協同應對這些挑戰的工程師和系統集成商,將能夠讓數據中心與每一代新算力硬件同步演進,從而真正支撐越來越耗電的 AI 解決方案。
通過重新思考基礎設施,你可以在有限空間內獲得更大價值。











評論