英偉達——推理王國持續擴張
英偉達通過極致協同設計,每年從芯片、機柜到人工智能工廠,持續釋放顛覆性技術優勢
(注:文中涉及的英偉達產品代際與技術規格圖表,已在翻譯中轉化為清晰的文字說明與表格,核心參數完整保留)
在 2026 年 GPU 技術大會(GTC)上,英偉達發布了一系列突破性成果,創新步伐絲毫未減。本次大會推出三款全新系統:Groq LPX、Vera ETL256 與 STX;同時公布 Kyber 機柜架構的重大更新,首次展示面向規模化擴展網絡的共封裝光學(CPO)技術,推出 Rubin Ultra NVL576 與 Feynman NVL1152 多機柜系統,并披露 Feynman 架構的早期細節。黃仁勛在主題演講中重點提及的 InferenceX 技術,成為本次大會的一大亮點。

本文將為你復盤 2026 年 GTC 大會核心內容,解答英偉達尚未明確的關鍵問題:深入解析 LPX 機柜與 LP30 芯片,闡釋注意力與前饋網絡解耦(AFD)技術原理;詳解 NVL144、NVL576、NVL1152 背后的機柜架構差異,說明光模塊的部署規模及高密 Vera ETL256 的設計邏輯;揭秘下一代 Kyber 機柜的重大更新與隱藏細節。
一、Groq 收購與 LPU 技術解析
近期人工智能基礎設施領域最重大的事件之一,便是英偉達對 Groq 的 “收購”—— 嚴格來說,英偉達以 200 億美元的價格獲得 Groq 的 IP 授權,并吸納其核心團隊。這一交易形式雖未構成法律意義上的完全收購,卻實質達到收購效果,既簡化了監管審批流程(若按完全收購提交反壟斷審查,大概率無法通過),又避免了冗長的交割周期,讓英偉達迅速獲得 Groq 的技術與人才。這也是為何交易宣布后不到四個月,英偉達便推出整合 Groq 技術的系統概念,并將其融入 Vera Rubin 推理架構。
1. LPU 架構核心原理
Groq 的 LPU(推理處理單元)架構最早在 2020 年國際計算機體系結構研討會(ISCA)上披露。與傳統多通用核心互聯架構不同,LPU 將硬件重新設計為多個專用功能單元組(稱為 “切片”),單元組間通過流寄存器、暫存 SRAM 實現數據交互。Groq 采用單級暫存 SRAM 而非多級存儲層級,確保硬件執行的確定性。
LPU 架構包含四類切片:
VXM 切片:負責向量運算
MEM 切片:負責數據加載 / 存儲
SXM 切片:負責張量形狀轉換
MXM 切片:負責矩陣乘法運算
切片按水平方向布局,數據沿水平方向流轉;切片內部,指令沿垂直方向在單元間傳輸,整體類似 “垂直傳指令、水平傳數據” 的脈動陣列結構。這種數據流與指令流設計需通過細粒度流水線實現高性能,而確定性計算特性讓編譯器可通過激進的指令調度與重疊,隱藏延遲。高帶寬 SRAM 與激進流水線設計,是 LPU 實現低延遲的兩大核心。

2. LPU 芯片迭代歷程
第一代 LPU:基于格芯 14nm 工藝打造,由美滿電子負責物理設計。2020 年流片時,14nm 工藝已相當成熟(同期主流人工智能芯片多采用臺積電 N7 工藝),適合作為驗證 Groq 架構的初代產品,更側重架構差異化而非制程領先性。其核心優勢是可完全在美國完成制造與封裝,而競爭對手高度依賴亞洲供應鏈(中國臺灣的邏輯芯片與封裝、韓國的 HBM)。
第二代 LPU:原計劃采用三星晶圓廠 SF4X 工藝,由三星奧斯汀工廠生產,延續 “美國本土制造” 的定位。三星為爭奪先進制程客戶,以優惠條款與投資吸引 Groq 合作,并參與了 Groq 2024 年 8 月的 D 輪融資及 2025 年 9 月英偉達 “收購” 前的最后一輪融資。但該產品因設計問題未能量產 —— 芯片上的 C2C 串并轉換器(SerDes)無法達到宣傳的 112G 速率,導致功能異常。
第三代 LPU(LP30):英偉達將量產的首款 LPU 產品,跳過第二代直接迭代。產品本身無英偉達設計參與,但已修復第二代的 SerDes 問題。后續還將推出小幅升級的 LP35 版本,仍基于 SF4 工藝,需重新流片,將支持 NVFP4 數據格式,為搶占上市時間,暫不做其他大幅設計改動。
第四代 LPU(LP40):將采用臺積電 N3P 工藝與 CoWoS-R 封裝,英偉達將深度參與設計,融入 NVLink 協議(替代 Groq 原生 C2C),并與 Feynman 平臺深度協同。計劃采用混合鍵合 DRAM 技術擴展片上內存, latency 與帶寬略低于 SRAM,但遠超傳統 DRAM;SK 海力士將為其提供 3D 堆疊 DRAM。
3. SRAM 在存儲層級中的定位
SRAM 的優勢是低延遲、高帶寬,但密度低、成本高。因此,以 Groq LPU 為代表的 SRAM 架構設備,首 token 生成速度與單用戶每秒 token 生成量極快,但總吞吐量受限 —— 有限的 SRAM 容量易被權重占滿,留給隨用戶批量增加而擴容的 KV 緩存空間有限。而 GPU 在吞吐量與成本上更具優勢。
這也是英偉達決定整合兩種架構的核心原因:將延遲敏感、內存需求較低的解碼環節,交由低延遲、高 SRAM 占比的 LPU 處理;將內存密集型的注意力計算,交由具備大容量高速內存(雖不及 SRAM 快)的 GPU 完成,實現優勢互補。

各類存儲介質性能對比
存儲類型 | 單 GPU/XPU/LPU 容量 | 單 GPU/XPU/CPU 帶寬 | 延遲 |
HBM4 12 層堆疊 | 約 288GB | 約 22TB/s | 約 100-150 納秒 |
DDR5 | 128-1024GB(2-16 條 DIMM) | 約 307-614GB/s | 約 60-100 納秒 |
GDDR7 | 約 16-48GB(8-12 顆芯片) | 約 1.5-1.8TB/s | 約 50-80 納秒 |
LPU SRAM | 約 500MB | 約 150TB/s | 約 5-20 納秒 |
4. 第三代 LPU(LP30)核心規格
LP30 芯片采用接近掩模版尺寸的單片設計,無需先進封裝,500MB 片上 SRAM 占用大量芯片面積,而矩陣乘法核心僅提供 1.2 PFLOPs 的 FP8 算力,遠低于英偉達 GPU。相比第一代 LPU(230MB SRAM、750 TFLOPs INT8 算力),性能提升主要源于制程從格芯 14nm 遷移至三星 SF4 工藝。

采用 SF4 工藝的核心優勢:不受臺積電 N3 工藝產能限制(當前 N3 工藝制約加速器量產,是行業算力緊張的關鍵原因),且無需依賴同樣緊缺的 HBM,讓英偉達可在不占用寶貴的臺積電產能與 HBM 配額的前提下,擴大 LPU 產量,創造獨特的增量收入與產能優勢。

二、GPU 與 LPU 整合:注意力與前饋網絡解耦(AFD)
英偉達引入 LPU 的核心目標是提升高交互場景的推理性能,核心技術路徑之一便是注意力與前饋網絡解耦(AFD)—— 該技術最早在 MegaScale-Infer 與 Step-3 中提出。

1. LLM 推理的兩個階段
預填充(Prefill):處理完整輸入上下文,屬于計算密集型任務,適合 GPU 執行。
解碼(Decode):逐一生成新 token,屬于內存受限型任務,對延遲敏感。LPU 的高 SRAM 帶寬與低延遲特性,可顯著加速這一迭代過程。

2. 注意力與 FFN 的性能差異
注意力(Attention)與前饋網絡(FFN)是模型中的兩類核心運算:
注意力運算:輸出需傳入 token 路由器,路由器將每個 token 分配給 k 個專家(每個專家對應一個 FFN);解碼階段,注意力運算受 KV 緩存加載限制,批量擴大時 GPU 利用率提升有限。
FFN 運算:計算僅依賴 token 輸入,無狀態;批量擴大時 GPU 利用率提升更明顯。

隨著最先進的混合專家(MoE)模型稀疏度不斷提高,token 可選擇的專家池擴大,每個專家接收的 token 減少,導致利用率下降 —— 這正是 AFD 技術的核心應用場景。

3. AFD 技術原理
將注意力與 FFN 運算解耦,分別映射至不同硬件:
注意力運算→GPU:GPU 擅長處理動態工作負載,其 HBM 容量可完全分配給 KV 緩存,提升單次處理的 token 總量,進而提高每個專家的平均 token 處理量,改善利用率。
FFN 運算→LPU:LPU 架構具有確定性,更適合靜態計算工作負載。

4. 令牌路由與通信優化
AFD 技術中,GPU 與 LPU 間的令牌路由可能成為瓶頸(尤其在嚴格延遲約束下),路由流程包含 “分發(dispatch)” 與 “合并(combine)” 兩步:
分發:通過全對全(All-to-All)集合運算,將每個 token 路由至最優的 k 個專家。
合并:專家運算完成后,通過反向全對全集合運算,將結果返回至源 GPU,繼續下一層計算。

為隱藏路由通信延遲,采用 “乒乓流水線并行” 技術:除將批量拆分為微批量并進行計算流水處理外,令牌在 GPU 與 LPU 間循環傳輸(類似 “乒乓”),最大化重疊計算與通信時間。

5. 推測解碼(Speculative Decoding)
LPU 加速解碼的另一路徑是推測解碼:在 LPU 上部署草稿模型(draft model)或多令牌預測(MTP)層。

核心原理:對于 N 個 token 的上下文解碼,若新增 k 個 token(k<<N),延遲僅小幅增加。利用這一特性,草稿模型 / MTP 層先預測 k 個新 token(小模型解碼延遲更低);主模型僅需對這 k 個 token 進行一次 “熱身預填充” 驗證,延遲相當于單次解碼步驟。推測解碼通常可將每步解碼的輸出 token 數提升 1.5-2 倍,而 LPU 的低延遲特性可進一步擴大延遲節省效果,提升吞吐量。

與 AFD 技術不同,推測解碼中的草稿模型 / MTP 層需動態加載 KV 緩存(有狀態),且模型體積達數十 GB(遠超單個 FFN 的數百 MB)。為此,LPX 計算托盤的結構擴展邏輯 FPGA,可為 LPU 提供高達 256GB 的 DDR5 內存支持。

三、LPX 機柜系統
英偉達在 GTC 上展示的 LPX 機柜包含 32 個 1U LPU 計算托盤與 2 個 Spectrum-X 交換機,這一配置與收購前 Groq 的原始服務器設計高度相似,但預計 2026 年第三季度量產時將有調整。以下是量產版本的核心細節:
1. LPX 機柜整體配置
組件 | 規格 |
光纖跳線 / 交換面板 | - |
電源架 | 1U,90kW(共 4 個) |
帶外管理交換機 | 1Gbe MGMT Switch 01 - SN2201 M DC |
機柜加固件 + 接水盤 | - |
計算托盤 | 2U,含 16 顆 Groq 3 LPU、2 顆 FPGA、1 顆 CPU(共 16 個) |
2. LPX 計算托盤核心設計
每個計算托盤(節點)包含 16 顆 LPU、2 顆阿爾特拉 FPGA、1 顆英特爾 Granite Rapids 主機 CPU 與 1 個 BlueField-4 前端模塊(超大規模客戶可替換為自定義網卡)。
LPU 部署方式:采用 “背對背” 安裝,PCB 上表面與下表面各 8 個 LP30 模塊,所有 LPU 互聯通過 PCB 走線實現。這種設計可縮短 X、Y 維度的 PCB 走線長度,滿足節點內全對全互聯的高密度布線需求。
FPGA 的三大作用:
網卡功能:將 LPU 的 C2C 協議轉換為以太網,連接 Spectrum-X 擴展網絡,實現 LPU 與 GPU 的解碼系統互聯。
協議轉換:將 LPU 的 C2C 協議轉換為 PCIe,實現 LPU 與主機 CPU 的通信(LPU 無原生 PCIe PHY,無法直接連接 CPU)。
控制與內存擴展:通過背板與節點內其他 FPGA 互聯,管理 LPU 的控制流與時序;每顆 FPGA 可提供高達 256GB 的額外系統 DRAM,若用戶需完全由 LPX 承擔解碼流程,該內存池可用于 KV 緩存。
前端接口:8 個 OSFP 插槽用于跨機柜 C2C 互聯;2 個 QSFP-DD 插槽連接 Spectrum 交換機,實現 LPU 與 GPU 的解耦解碼系統互聯。

3. LPU 網絡架構(分為擴展網絡與外聯網絡)
(1)擴展網絡(C2C 網絡)
分為節點內、節點間 / 機柜內、機柜間三個層級,英偉達宣稱單機柜擴展帶寬達 640TB/s(計算邏輯:256 顆 LPU × 90 通道 × 112Gbps/8 × 2 方向 = 645TB/s,注:英偉達采用 112G 線速計算,而非 100G 有效數據率)。

節點內拓撲:16 顆 LPU 采用全對全互聯,每顆 LPU 與其他 15 顆 LPU 通過 4×100G C2C 帶寬連接(非 NVLink,為 Groq 原生擴展網絡),所有連接通過 PCB 走線實現。每顆 LPU 還通過 1×100G 連接至 1 顆 FPGA,每顆 FPGA 通過 8×PCIe Gen5 連接至 CPU。
節點間 / 機柜內拓撲:每顆 LPU 與機柜內其他 15 個節點的對應 LPU 通過 2×100G 銅纜背板連接;每顆 FPGA 與其他節點的 FPGA 通過 25G/50G 鏈路連接(同樣通過背板)。單個節點需 510 個通道(1020 個差分對)用于節點間互聯。
機柜間拓撲:每顆 LPU 通過 4×100G 通道連接至 OSFP 插槽,支持跨 4 個機柜互聯。推薦采用菊花鏈配置,節點 0 與其他 2 個節點 0 連接,兩端通過 9 米 AEC 線纜或光模塊連接形成環形網絡。

(2)外聯網絡
通過 Spectrum-X 以太網,實現 LPU 與英偉達 GPU 的通信。


四、英偉達 CPO 路線圖
英偉達在 2026 年 GTC 主題演講中首次披露 CPO(共封裝光學)路線圖,黃仁勛在次日的財務分析師問答會上進一步補充說明。與行業預期不同,英偉達并未將 CPO 用于 Rubin Ultra Kyber 機柜的內部擴展,而是聚焦于構建更大規模的計算系統。

1. GTC 2026 披露的機柜級形態與 CPO 應用
系統 | Rubin 系列 | Feynman 系列 | ||||
NVL 規格 | NVL72 | NVL144 | NVL576 | NVL72 | NVL144 | NVL1152 |
形態 | Oberon | Kyber | 8 個 Oberon 機柜 | Oberon | Kyber | 8 個 Kyber 機柜 |
機柜內擴展 | 銅背板 | PCB 中板 + 飛線 | 銅背板 | 銅背板(推測) | PCB 中板 + 飛線(推測) | 銅或 CPO(未確定) |
機柜間擴展 | 無 | 無 | CPO(DR 光模塊) | 無 | 無 | CPO(DR 或 DWDM) |
2. 各代產品 CPO 應用規劃
Rubin 系列:
NVL72(Oberon):全銅擴展網絡。
Rubin Ultra NVL72(Oberon)、NVL144(Kyber)、NVL288(2 個 Kyber 機柜互聯):均采用全銅擴展網絡。
Rubin Ultra NVL576(8 個 Oberon 機柜互聯):機柜內銅擴展,機柜間采用兩層全對全網絡的 CPO 擴展(低批量測試用途)。
Feynman 系列:
NVL72(Oberon)、NVL144(Kyber):全銅擴展網絡。
NVL1152(8 個 Kyber 機柜互聯):機柜內銅擴展,機柜間 CPO 擴展(黃仁勛稱 “全 CPO”,但機柜內是否仍用銅存在爭議)。
3. 技術決策邏輯
英偉達的核心原則是 “能用電銅則不用光”:
當前 224Gbit/s 雙向 SerDes 難以升級至 448Gbit/s 單向,帶寬提升有限;
448G 高速 SerDes 在傳輸距離、功耗上面臨巨大挑戰,且 Feynman 的制造復雜度、成本與可靠性要求,決定了交換機仍需采用銅互聯。
注:NVL1152 距量產尚有多年,路線圖可能調整,當前基準假設為 “機柜內銅、機柜間 CPO”。

五、Oberon 與 Kyber 更新:更大規模擴展與網絡升級
1. Kyber 機柜形態更新
Kyber 機柜首次作為原型機在 2025 年 GTC 展示,此次披露的量產版本有顯著調整:
計算刀片密度提升:每個計算刀片含 4 顆 Rubin Ultra GPU 與 2 顆 Vera CPU;共 2 個罐式單元,每個單元 18 個計算刀片,整機柜 36 個計算刀片,合計 144 顆 GPU。(初代原型機每個計算刀片含 2 顆 GPU 與 2 顆 Vera CPU,共 4 個罐式單元)。
交換刀片高度翻倍:每個交換刀片含 6 顆 NVLink 7 交換機,整機柜 12 個交換刀片,合計 72 顆 NVLink 7 交換機。
互聯方式:GPU 通過 2 塊 PCB 中板(每罐 1 塊)與交換刀片全對全互聯;交換機與中板通過銅質飛線連接(距離過遠,無法通過 PCB 走線)。

2. Rubin Ultra NVL144 核心參數
單 GPU 擴展帶寬:14.4Tbit/s 單向(采用 80DP 連接器,72 個 DP 通道 × 200Gbit/s 雙向通道)。
交換機規格:每顆 NVLink 7 交換機單向聚合帶寬 28.8Tbit/s,含 144 個 200G 雙向通道;每個交換刀片通過 144 個 DP 連接器(144 × 200G 雙向通道)與中板連接。

3. 更大規模擴展方案
Rubin Ultra NVL288:供應鏈透露的概念方案,由兩個 NVL144 Kyber 機柜通過機柜間銅背板互聯。面臨的挑戰:當前 NVLink 7 交換機最大端口基數僅 144 個(200G 端口),若實現 288 顆 GPU 全對全互聯,需更高基數交換機,或采用蜻蜓網絡拓撲并接受一定程度的超訂閱。


Rubin Ultra NVL576:8 個低密 Oberon 機柜互聯,機柜間需光互聯(CPO 概率高于可插拔光模塊),形成兩層胖樹架構。當前 Blackwell NVL576 原型機 “Polyphe” 采用可插拔光模塊,但 Rubin Ultra NVL576 預計先以低批量測試形式推出,待 Feynman NVL1152 量產時,CPO 才會大規模應用。

六、Feynman 架構前瞻
Feynman 雖未披露過多細節,但從大會預覽可知,其將集成三大核心技術創新:混合鍵合 / 系統級芯片互聯(SoIC)、A16、CPO 與定制 HBM,是極具突破性的平臺。核心懸念在于 CPO 的應用范圍 —— 機柜內互聯將沿用銅還是轉向光,后續將在付費內容中披露可能的配置方案。
七、Vera ETL256:超高密度 CPU 機柜
人工智能工作負載對數據處理、預處理與調度的需求日益增長,強化學習進一步提升 CPU 需求(CPU 需并行運行模擬、執行代碼、驗證輸出)。由于 GPU 性能增長速度遠超 CPU,需更大規模的 CPU 集群才能充分發揮 GPU 算力,CPU 已成為日益突出的瓶頸。
Vera ETL256 機柜專為解決這一問題設計,通過液冷實現超高密度部署:單機柜集成 256 顆 CPU,設計理念與 NVL 機柜一致 —— 通過極致密集的計算布局,讓銅互聯可覆蓋機柜內所有節點,省去骨干網的光模塊,銅互聯的成本節省遠超額外的冷卻開銷。
1. 機柜結構
32 個計算托盤(上下各 16 個),對稱分布在中間 4 個 1U MGX ETL 交換機托盤(基于 Spectrum-6)兩側,最小化計算托盤與骨干網的線纜長度差異,確保所有連接在銅互聯范圍內。
交換機托盤的后置端口連接銅骨干網,用于機柜內通信;32 個前置 OSFP 插槽提供光互聯,連接其余 POD 節點。
機柜內采用 Spectrum-X 多平面拓撲,將 200Gb/s 通道分布在 4 個交換機上,實現單層網絡的全對全互聯。每個計算托盤含 8 顆 Vera CPU,整機柜 256 顆 CPU 通過以太網實現扁平互聯。
1. CMX(推理上下文內存存儲平臺)
前身為 ICMS(推理上下文內存存儲),是英偉達推出的 “G3.5 層” 存儲解決方案,位于 G3 層(本地 SSD)與 G4 層(共享存儲)之間,專為解決長上下文與智能體式工作負載中 KV 緩存快速擴張的瓶頸。
KV 緩存存儲層級挑戰
存儲層級 | 介質 | 訪問延遲 | 應用場景 | 核心特點 |
G1 | GPU HBM | 納秒級 | 活躍 KV 緩存(生成中) | 訪問最快,每瓦性能、性價比最優 |
G2 | 系統 DRAM | 納秒級 | 暫存 / 溢出 KV 緩存 | 延遲遞增,每 token 開銷上升 |
G3 | 本地 SSD / 機柜本地存儲 | 微秒級 | 短期復用的熱 KV 緩存 | 延遲較高 |
G4 | 共享對象 / 文件存儲 | 毫秒級 | 冷 KV 緩存或共享 KV 上下文 | 延遲最高,推理瓶頸,限制擴展,效率最低 |
CMX 的本質是通過 BlueField 網卡連接存儲服務器與計算服務器(替代原有的 Connect-X 網卡),為 KV 緩存提供額外的卸載層級,緩解本地存儲容量不足與共享存儲延遲過高的矛盾。

2. STX:參考存儲機柜架構
STX 是基于英偉達 BlueField-4 的存儲解決方案參考架構,用于補充 VR 計算機柜,明確規定了特定集群所需的硬盤、Vera CPU、BlueField-4 數據處理單元(DPU)、CX-9 網卡與 Spectrum-X 交換機數量。
核心配置
每個 STX 盒含 2 個 BlueField-4 單元,每個單元含 1 顆 Vera CPU、2 顆 CX-9 網卡、2 個 SOCAMM 模塊;整機柜 16 個 STX 盒,合計 32 顆 Vera CPU、64 顆 CX-9 網卡、64 個 SOCAMM 模塊。
支持廠商包括 AIC、Cloudian、DDN、戴爾科技、愛惠浦、日立 Vantara、HPE、IBM、MinIO、NetApp、Nutanix、超微、廣達云、VAST Data、WEKA 等主流存儲廠商。
3. 戰略意義
BlueField-4、CMX 與 STX 共同構成英偉達存儲層集群標準化的核心布局。在掌控計算與網絡層后,英偉達正逐步向存儲、軟件與基礎設施運營層擴張。










評論