久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 設計應用 > 借助英偉達全新CMX平臺突破GPU內存墻瓶頸

借助英偉達全新CMX平臺突破GPU內存墻瓶頸

作者: 時間:2026-03-04 來源: 收藏

在擴展 AI 工作負載的過程中,你會遇到的問題之一就是 KV 緩存耗盡 HBM 內存,這會限制 AI 應用的 “記憶” 容量,并導致用戶體驗下降。針對這一問題,及其合作伙伴正在開發全新的 上下文內存存儲平臺(Context Memory Storage,。上周在美國猶他州鹽湖城舉辦的首屆 VAST Forward 大會上, 的代表演示了 如何突破 。 

KV 緩存是現代 AI 技術棧的固有組件。有了 KV 緩存,用戶不必每天早上 7 點重新加載所有輸入給 AI 模型的上下文,而是可以將上下文長期保留(按天、按月),以簡單的鍵值存儲形式存放在 HBM、片上內存,最終延伸到存儲介質中。作為 AI 技術棧面向用戶的核心組件之一,KV 緩存自然會受到人類使用需求的影響。換句話說,當員工使用 AI 時 —— 無論是生成貓咪視頻,還是搜索新的核苷酸序列 —— 緩存都會快速占滿

1772587161544912.png

圖1 不斷膨脹的 KV 緩存正在擠占內存 來源:與 VAST 在 2026 VAST Forward 大會上的演講《突破

“KV 緩存的一個核心問題是,它會隨著你使用的上下文長度與批次大小同步增長。” 英偉達高級研究科學家 Vikram Sharma Mailthody 在上周 VAST Forward 的一場演講中表示,“假設我們使用相同的模型進行推理……緩存計算成本會隨上下文長度呈二次方增長。正如你所見,當你需要使用更長的上下文窗口時,系統負擔會顯著增加,這在智能體工作流中尤為明顯。”

這已成為當前擴展 AI 推理系統的核心瓶頸之一。除了 HBM 與 之間的數據搬運速度之外,HBM 能存儲的數據量,也直接決定了 AI 能完成多少有效工作。當 HBM 占滿后,KV 緩存會開始溢出到系統內存;系統內存也占滿后,就會溢出到本地存儲。但到那時,延遲就會嚴重影響用戶體驗。誰愿意等上五分鐘,才等到智能體 AI 系統給出回答?

“核心結論很簡單:推理上下文離 GPU 越遠,推理的成本就越高、效率也越低。”Mailthody 說,“這就是為什么現有的內存與存儲層級結構,并不適合為下一代 AI 做擴展。也正因如此,我們必須重新構想:存儲應該如何構建,以及應該如何為推理上下文管理而構建。”

英偉達針對 “上下文窗口–GPU ” 問題的短期解決方案就是 平臺。該平臺于今年 1 月隨 BlueField?4 DPU(數據處理器)一同發布。英偉達正與包括 在內的存儲合作伙伴合作,大幅擴展 KV 緩存容量,讓客戶能夠用智能體 AI 完成更多工作。

1772587185957196.png

圖2 CMX 旨在擴展客戶 KV 緩存且不損失性能 (來源:同上)

CMX 包含多個組件:

  • 在基礎設施層面,它將使用英偉達下一代      Rubin GPU 系統,并利用部署在 VAST 等存儲廠商管理的存儲集群中的      BlueField?4 DPU。BlueField?4      將幫助管理元數據、減少數據遷移,并讓 Rubin GPU 從數據管理負擔中解放出來。

  • 它還將利用      Spectrum?X 以太網交換機,構建基于 RoCE(面向融合以太網的遠程直接內存訪問)      的高速網絡架構,用于高速共享 KV 緩存數據。

  • 在軟件層面,CMX 將使用英偉達面向 BlueField?4 的 DOCA 開發套件,以及 Nvidia Inference      Transfer Library(NIXL)——      這是一個開源庫,用于加速 Dynamo 內部的數據遷移。Dynamo 是英偉達開源的 AI 推理框架。

Mailthody 表示,CMX + VAST 存儲的組合將提供下一代千兆級推理架構,可實現:

  • 首詞延遲(TTFT)最高提升 20 倍

  • GPU 利用率提升 90%

  • 存儲功耗降低 70%

VAST AI 架構總監 Anat Heilper 在 VAST Forward 演講中表示,基于 CMX 的鍵值塊管理器,VAST 可以 “從根本上改變計算邏輯”。

“我們把緩慢、重 I/O 的過程,變成了高吞吐量、受網絡限制的過程。” 她說,“本質上,這意味著存儲可以隨網絡一起擴展,以支撐這類工作負載。”

在基于 Llama 3 模型的基準測試中,VAST 實現了 200GbE 網絡接近線速利用率,該網絡連接了 8 張 H100 GPU。

1772587206778423.png

圖3 VAST 與英偉達合作開發 CMX (來源:同上)

“結果顯示,從 VAST 系統中讀取 KV 緩存,相比讓 GPU 重新計算,首詞響應速度提升 20 倍。”Heilper 說,“這是用戶能直觀感受到的變化。原本需要等待 GPU 計算 65 秒,現在只需要 3 秒就能讀取。這是根本性的改變。這種加速,再加上 GPU 時間節省 90%,體現了效率的巨大提升。”

如果使用更快的網絡,收益還會更高,因為 VAST 已經(幾乎)打滿了 200GbE 帶寬。在實際場景中,VAST 估算:通過 CMX 和 BlueField?4 DPU 將 KV 緩存溢出到 VAST NVMe 存儲,利潤可提升 60%~130%

(VAST 上周還發布了全新 CNode?X,將英偉達 GPU、BlueField?4 DPU 和 Spectrum?X 硅光交換機直接集成到 VAST 存儲集群中。)

“我們假設企業 AI 工作流的緩存命中率保守在 40%~60%。對于智能體工作流和認知任務,提升幅度可能更高。”Heilper 說,“原理很明確:我們沒有讓 GPU 變快 —— 那是英偉達的工作。但我們讓它更常處于可用狀態,并把存儲變成算力倍增器。”

VAST 還給出了一份用于智能體系統的 最佳 KV 緩存容量配置指南

  • 對于 10,000 名用戶、每輪對話 32GB KV 緩存的組織,要支持 “即時恢復” 會話,需要 320TB 系統

  • 保留每位用戶最近 5 輪會話(每日備份):需要 1.6PB 系統

  • 保留最近 15 輪會話(適合程序員、研究員等高頻用戶做周級緩存):需要 4.8PB      系統

  • 要實現 “智能體記憶”,即      10,000 名用戶每人 150 輪會話:需要 48PB 存儲

“CMX 是一種專為 KV 緩存設計的新型存儲。”Mailthody 說,“它會取代這里所有的存儲嗎?適合所有人、所有集群嗎?不,并不是。CMX 專為推理和 KV 緩存管理而設計

如果你的工作負載模型大、需要大緩存,CMX 就是為此而生。

如果你有需要超長輸入序列的場景,比如 AI、聊天機器人或推理模型,它能提供超大內存容量,讓服務極高效。如果你的訪問模式存在大量內容復用,或是擁有跨多洲共享的大型 GPU 集群,CMX 能輕松啟用并提升運營效率。”


評論


相關推薦

技術專區

關閉