英偉達——推理王國持續擴張

—— 涵蓋 Groq LP30、LPX 機柜、注意力與前饋網絡解耦（AFD）、Oberon 與 Kyber 更新、英偉達 CPO 路線圖、Vera ETL256、CMX 及 STX 技術解析

作者：時間：2026-03-25 來源：SemiAnalysis

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

英偉達通過極致協同設計，每年從芯片、機柜到人工智能工廠，持續釋放顛覆性技術優勢

（注：文中涉及的英偉達產品代際與技術規格圖表，已在翻譯中轉化為清晰的文字說明與表格，核心參數完整保留）

在 2026 年 GPU 技術大會（GTC）上，英偉達發布了一系列突破性成果，創新步伐絲毫未減。本次大會推出三款全新系統：Groq LPX、Vera ETL256 與 STX；同時公布 Kyber 機柜架構的重大更新，首次展示面向規模化擴展網絡的共封裝光學（CPO）技術，推出 Rubin Ultra NVL576 與 Feynman NVL1152 多機柜系統，并披露 Feynman 架構的早期細節。黃仁勛在主題演講中重點提及的 InferenceX 技術，成為本次大會的一大亮點。

本文將為你復盤 2026 年 GTC 大會核心內容，解答英偉達尚未明確的關鍵問題：深入解析 LPX 機柜與 LP30 芯片，闡釋注意力與前饋網絡解耦（AFD）技術原理；詳解 NVL144、NVL576、NVL1152 背后的機柜架構差異，說明光模塊的部署規模及高密 Vera ETL256 的設計邏輯；揭秘下一代 Kyber 機柜的重大更新與隱藏細節。

一、Groq 收購與 LPU 技術解析

近期人工智能基礎設施領域最重大的事件之一，便是英偉達對 Groq 的 “收購”—— 嚴格來說，英偉達以 200 億美元的價格獲得 Groq 的 IP 授權，并吸納其核心團隊。這一交易形式雖未構成法律意義上的完全收購，卻實質達到收購效果，既簡化了監管審批流程（若按完全收購提交反壟斷審查，大概率無法通過），又避免了冗長的交割周期，讓英偉達迅速獲得 Groq 的技術與人才。這也是為何交易宣布后不到四個月，英偉達便推出整合 Groq 技術的系統概念，并將其融入 Vera Rubin 推理架構。

1. LPU 架構核心原理

Groq 的 LPU（推理處理單元）架構最早在 2020 年國際計算機體系結構研討會（ISCA）上披露。與傳統多通用核心互聯架構不同，LPU 將硬件重新設計為多個專用功能單元組（稱為 “切片”），單元組間通過流寄存器、暫存 SRAM 實現數據交互。Groq 采用單級暫存 SRAM 而非多級存儲層級，確保硬件執行的確定性。

LPU 架構包含四類切片：

VXM 切片：負責向量運算
MEM 切片：負責數據加載 / 存儲
SXM 切片：負責張量形狀轉換
MXM 切片：負責矩陣乘法運算

切片按水平方向布局，數據沿水平方向流轉；切片內部，指令沿垂直方向在單元間傳輸，整體類似 “垂直傳指令、水平傳數據” 的脈動陣列結構。這種數據流與指令流設計需通過細粒度流水線實現高性能，而確定性計算特性讓編譯器可通過激進的指令調度與重疊，隱藏延遲。高帶寬 SRAM 與激進流水線設計，是 LPU 實現低延遲的兩大核心。

2. LPU 芯片迭代歷程

第一代 LPU：基于格芯 14nm 工藝打造，由美滿電子負責物理設計。2020 年流片時，14nm 工藝已相當成熟（同期主流人工智能芯片多采用臺積電 N7 工藝），適合作為驗證 Groq 架構的初代產品，更側重架構差異化而非制程領先性。其核心優勢是可完全在美國完成制造與封裝，而競爭對手高度依賴亞洲供應鏈（中國臺灣的邏輯芯片與封裝、韓國的 HBM）。
第二代 LPU：原計劃采用三星晶圓廠 SF4X 工藝，由三星奧斯汀工廠生產，延續 “美國本土制造” 的定位。三星為爭奪先進制程客戶，以優惠條款與投資吸引 Groq 合作，并參與了 Groq 2024 年 8 月的 D 輪融資及 2025 年 9 月英偉達 “收購” 前的最后一輪融資。但該產品因設計問題未能量產 —— 芯片上的 C2C 串并轉換器（SerDes）無法達到宣傳的 112G 速率，導致功能異常。
第三代 LPU（LP30）：英偉達將量產的首款 LPU 產品，跳過第二代直接迭代。產品本身無英偉達設計參與，但已修復第二代的 SerDes 問題。后續還將推出小幅升級的 LP35 版本，仍基于 SF4 工藝，需重新流片，將支持 NVFP4 數據格式，為搶占上市時間，暫不做其他大幅設計改動。
第四代 LPU（LP40）：將采用臺積電 N3P 工藝與 CoWoS-R 封裝，英偉達將深度參與設計，融入 NVLink 協議（替代 Groq 原生 C2C），并與 Feynman 平臺深度協同。計劃采用混合鍵合 DRAM 技術擴展片上內存， latency 與帶寬略低于 SRAM，但遠超傳統 DRAM；SK 海力士將為其提供 3D 堆疊 DRAM。

3. SRAM 在存儲層級中的定位

SRAM 的優勢是低延遲、高帶寬，但密度低、成本高。因此，以 Groq LPU 為代表的 SRAM 架構設備，首 token 生成速度與單用戶每秒 token 生成量極快，但總吞吐量受限 —— 有限的 SRAM 容量易被權重占滿，留給隨用戶批量增加而擴容的 KV 緩存空間有限。而 GPU 在吞吐量與成本上更具優勢。

這也是英偉達決定整合兩種架構的核心原因：將延遲敏感、內存需求較低的解碼環節，交由低延遲、高 SRAM 占比的 LPU 處理；將內存密集型的注意力計算，交由具備大容量高速內存（雖不及 SRAM 快）的 GPU 完成，實現優勢互補。

各類存儲介質性能對比

存儲類型	單 GPU/XPU/LPU 容量	單 GPU/XPU/CPU 帶寬	延遲
HBM4 12 層堆疊	約 288GB	約 22TB/s	約 100-150 納秒
DDR5	128-1024GB（2-16 條 DIMM）	約 307-614GB/s	約 60-100 納秒
GDDR7	約 16-48GB（8-12 顆芯片）	約 1.5-1.8TB/s	約 50-80 納秒
LPU SRAM	約 500MB	約 150TB/s	約 5-20 納秒

4. 第三代 LPU（LP30）核心規格

LP30 芯片采用接近掩模版尺寸的單片設計，無需先進封裝，500MB 片上 SRAM 占用大量芯片面積，而矩陣乘法核心僅提供 1.2 PFLOPs 的 FP8 算力，遠低于英偉達 GPU。相比第一代 LPU（230MB SRAM、750 TFLOPs INT8 算力），性能提升主要源于制程從格芯 14nm 遷移至三星 SF4 工藝。

采用 SF4 工藝的核心優勢：不受臺積電 N3 工藝產能限制（當前 N3 工藝制約加速器量產，是行業算力緊張的關鍵原因），且無需依賴同樣緊缺的 HBM，讓英偉達可在不占用寶貴的臺積電產能與 HBM 配額的前提下，擴大 LPU 產量，創造獨特的增量收入與產能優勢。

二、GPU 與 LPU 整合：注意力與前饋網絡解耦（AFD）

英偉達引入 LPU 的核心目標是提升高交互場景的推理性能，核心技術路徑之一便是注意力與前饋網絡解耦（AFD）—— 該技術最早在 MegaScale-Infer 與 Step-3 中提出。

1. LLM 推理的兩個階段

預填充（Prefill）：處理完整輸入上下文，屬于計算密集型任務，適合 GPU 執行。
解碼（Decode）：逐一生成新 token，屬于內存受限型任務，對延遲敏感。LPU 的高 SRAM 帶寬與低延遲特性，可顯著加速這一迭代過程。

2. 注意力與 FFN 的性能差異

注意力（Attention）與前饋網絡（FFN）是模型中的兩類核心運算：

注意力運算：輸出需傳入 token 路由器，路由器將每個 token 分配給 k 個專家（每個專家對應一個 FFN）；解碼階段，注意力運算受 KV 緩存加載限制，批量擴大時 GPU 利用率提升有限。
FFN 運算：計算僅依賴 token 輸入，無狀態；批量擴大時 GPU 利用率提升更明顯。

隨著最先進的混合專家（MoE）模型稀疏度不斷提高，token 可選擇的專家池擴大，每個專家接收的 token 減少，導致利用率下降 —— 這正是 AFD 技術的核心應用場景。

3. AFD 技術原理

將注意力與 FFN 運算解耦，分別映射至不同硬件：

注意力運算→GPU：GPU 擅長處理動態工作負載，其 HBM 容量可完全分配給 KV 緩存，提升單次處理的 token 總量，進而提高每個專家的平均 token 處理量，改善利用率。
FFN 運算→LPU：LPU 架構具有確定性，更適合靜態計算工作負載。

4. 令牌路由與通信優化

AFD 技術中，GPU 與 LPU 間的令牌路由可能成為瓶頸（尤其在嚴格延遲約束下），路由流程包含 “分發（dispatch）” 與 “合并（combine）” 兩步：

分發：通過全對全（All-to-All）集合運算，將每個 token 路由至最優的 k 個專家。
合并：專家運算完成后，通過反向全對全集合運算，將結果返回至源 GPU，繼續下一層計算。

為隱藏路由通信延遲，采用 “乒乓流水線并行” 技術：除將批量拆分為微批量并進行計算流水處理外，令牌在 GPU 與 LPU 間循環傳輸（類似 “乒乓”），最大化重疊計算與通信時間。

5. 推測解碼（Speculative Decoding）

LPU 加速解碼的另一路徑是推測解碼：在 LPU 上部署草稿模型（draft model）或多令牌預測（MTP）層。

核心原理：對于 N 個 token 的上下文解碼，若新增 k 個 token（k<<N），延遲僅小幅增加。利用這一特性，草稿模型 / MTP 層先預測 k 個新 token（小模型解碼延遲更低）；主模型僅需對這 k 個 token 進行一次 “熱身預填充” 驗證，延遲相當于單次解碼步驟。推測解碼通常可將每步解碼的輸出 token 數提升 1.5-2 倍，而 LPU 的低延遲特性可進一步擴大延遲節省效果，提升吞吐量。

與 AFD 技術不同，推測解碼中的草稿模型 / MTP 層需動態加載 KV 緩存（有狀態），且模型體積達數十 GB（遠超單個 FFN 的數百 MB）。為此，LPX 計算托盤的結構擴展邏輯 FPGA，可為 LPU 提供高達 256GB 的 DDR5 內存支持。

三、LPX 機柜系統

英偉達在 GTC 上展示的 LPX 機柜包含 32 個 1U LPU 計算托盤與 2 個 Spectrum-X 交換機，這一配置與收購前 Groq 的原始服務器設計高度相似，但預計 2026 年第三季度量產時將有調整。以下是量產版本的核心細節：

1. LPX 機柜整體配置

組件	規格
光纖跳線 / 交換面板	-
電源架	1U，90kW（共 4 個）
帶外管理交換機	1Gbe MGMT Switch 01 - SN2201 M DC
機柜加固件 + 接水盤	-
計算托盤	2U，含 16 顆 Groq 3 LPU、2 顆 FPGA、1 顆 CPU（共 16 個）

2. LPX 計算托盤核心設計

每個計算托盤（節點）包含 16 顆 LPU、2 顆阿爾特拉 FPGA、1 顆英特爾 Granite Rapids 主機 CPU 與 1 個 BlueField-4 前端模塊（超大規模客戶可替換為自定義網卡）。

LPU 部署方式：采用 “背對背” 安裝，PCB 上表面與下表面各 8 個 LP30 模塊，所有 LPU 互聯通過 PCB 走線實現。這種設計可縮短 X、Y 維度的 PCB 走線長度，滿足節點內全對全互聯的高密度布線需求。
FPGA 的三大作用：

網卡功能：將 LPU 的 C2C 協議轉換為以太網，連接 Spectrum-X 擴展網絡，實現 LPU 與 GPU 的解碼系統互聯。
協議轉換：將 LPU 的 C2C 協議轉換為 PCIe，實現 LPU 與主機 CPU 的通信（LPU 無原生 PCIe PHY，無法直接連接 CPU）。
控制與內存擴展：通過背板與節點內其他 FPGA 互聯，管理 LPU 的控制流與時序；每顆 FPGA 可提供高達 256GB 的額外系統 DRAM，若用戶需完全由 LPX 承擔解碼流程，該內存池可用于 KV 緩存。

前端接口：8 個 OSFP 插槽用于跨機柜 C2C 互聯；2 個 QSFP-DD 插槽連接 Spectrum 交換機，實現 LPU 與 GPU 的解耦解碼系統互聯。

3. LPU 網絡架構（分為擴展網絡與外聯網絡）

（1）擴展網絡（C2C 網絡）

分為節點內、節點間 / 機柜內、機柜間三個層級，英偉達宣稱單機柜擴展帶寬達 640TB/s（計算邏輯：256 顆 LPU × 90 通道 × 112Gbps/8 × 2 方向 = 645TB/s，注：英偉達采用 112G 線速計算，而非 100G 有效數據率）。

節點內拓撲：16 顆 LPU 采用全對全互聯，每顆 LPU 與其他 15 顆 LPU 通過 4×100G C2C 帶寬連接（非 NVLink，為 Groq 原生擴展網絡），所有連接通過 PCB 走線實現。每顆 LPU 還通過 1×100G 連接至 1 顆 FPGA，每顆 FPGA 通過 8×PCIe Gen5 連接至 CPU。
節點間 / 機柜內拓撲：每顆 LPU 與機柜內其他 15 個節點的對應 LPU 通過 2×100G 銅纜背板連接；每顆 FPGA 與其他節點的 FPGA 通過 25G/50G 鏈路連接（同樣通過背板）。單個節點需 510 個通道（1020 個差分對）用于節點間互聯。
機柜間拓撲：每顆 LPU 通過 4×100G 通道連接至 OSFP 插槽，支持跨 4 個機柜互聯。推薦采用菊花鏈配置，節點 0 與其他 2 個節點 0 連接，兩端通過 9 米 AEC 線纜或光模塊連接形成環形網絡。

（2）外聯網絡

通過 Spectrum-X 以太網，實現 LPU 與英偉達 GPU 的通信。

四、英偉達 CPO 路線圖

英偉達在 2026 年 GTC 主題演講中首次披露 CPO（共封裝光學）路線圖，黃仁勛在次日的財務分析師問答會上進一步補充說明。與行業預期不同，英偉達并未將 CPO 用于 Rubin Ultra Kyber 機柜的內部擴展，而是聚焦于構建更大規模的計算系統。

1. GTC 2026 披露的機柜級形態與 CPO 應用

系統	Rubin 系列			Feynman 系列
NVL 規格	NVL72	NVL144	NVL576	NVL72	NVL144	NVL1152
形態	Oberon	Kyber	8 個 Oberon 機柜	Oberon	Kyber	8 個 Kyber 機柜
機柜內擴展	銅背板	PCB 中板 + 飛線	銅背板	銅背板（推測）	PCB 中板 + 飛線（推測）	銅或 CPO（未確定）
機柜間擴展	無	無	CPO（DR 光模塊）	無	無	CPO（DR 或 DWDM）

2. 各代產品 CPO 應用規劃

Rubin 系列：

NVL72（Oberon）：全銅擴展網絡。
Rubin Ultra NVL72（Oberon）、NVL144（Kyber）、NVL288（2 個 Kyber 機柜互聯）：均采用全銅擴展網絡。
Rubin Ultra NVL576（8 個 Oberon 機柜互聯）：機柜內銅擴展，機柜間采用兩層全對全網絡的 CPO 擴展（低批量測試用途）。

Feynman 系列：

NVL72（Oberon）、NVL144（Kyber）：全銅擴展網絡。
NVL1152（8 個 Kyber 機柜互聯）：機柜內銅擴展，機柜間 CPO 擴展（黃仁勛稱 “全 CPO”，但機柜內是否仍用銅存在爭議）。

3. 技術決策邏輯

英偉達的核心原則是 “能用電銅則不用光”：

當前 224Gbit/s 雙向 SerDes 難以升級至 448Gbit/s 單向，帶寬提升有限；
448G 高速 SerDes 在傳輸距離、功耗上面臨巨大挑戰，且 Feynman 的制造復雜度、成本與可靠性要求，決定了交換機仍需采用銅互聯。
注：NVL1152 距量產尚有多年，路線圖可能調整，當前基準假設為 “機柜內銅、機柜間 CPO”。

五、Oberon 與 Kyber 更新：更大規模擴展與網絡升級

1. Kyber 機柜形態更新

Kyber 機柜首次作為原型機在 2025 年 GTC 展示，此次披露的量產版本有顯著調整：

計算刀片密度提升：每個計算刀片含 4 顆 Rubin Ultra GPU 與 2 顆 Vera CPU；共 2 個罐式單元，每個單元 18 個計算刀片，整機柜 36 個計算刀片，合計 144 顆 GPU。（初代原型機每個計算刀片含 2 顆 GPU 與 2 顆 Vera CPU，共 4 個罐式單元）。
交換刀片高度翻倍：每個交換刀片含 6 顆 NVLink 7 交換機，整機柜 12 個交換刀片，合計 72 顆 NVLink 7 交換機。
互聯方式：GPU 通過 2 塊 PCB 中板（每罐 1 塊）與交換刀片全對全互聯；交換機與中板通過銅質飛線連接（距離過遠，無法通過 PCB 走線）。

2. Rubin Ultra NVL144 核心參數

單 GPU 擴展帶寬：14.4Tbit/s 單向（采用 80DP 連接器，72 個 DP 通道 × 200Gbit/s 雙向通道）。
交換機規格：每顆 NVLink 7 交換機單向聚合帶寬 28.8Tbit/s，含 144 個 200G 雙向通道；每個交換刀片通過 144 個 DP 連接器（144 × 200G 雙向通道）與中板連接。

3. 更大規模擴展方案

Rubin Ultra NVL288：供應鏈透露的概念方案，由兩個 NVL144 Kyber 機柜通過機柜間銅背板互聯。面臨的挑戰：當前 NVLink 7 交換機最大端口基數僅 144 個（200G 端口），若實現 288 顆 GPU 全對全互聯，需更高基數交換機，或采用蜻蜓網絡拓撲并接受一定程度的超訂閱。

Rubin Ultra NVL576：8 個低密 Oberon 機柜互聯，機柜間需光互聯（CPO 概率高于可插拔光模塊），形成兩層胖樹架構。當前 Blackwell NVL576 原型機 “Polyphe” 采用可插拔光模塊，但 Rubin Ultra NVL576 預計先以低批量測試形式推出，待 Feynman NVL1152 量產時，CPO 才會大規模應用。

六、Feynman 架構前瞻

Feynman 雖未披露過多細節，但從大會預覽可知，其將集成三大核心技術創新：混合鍵合 / 系統級芯片互聯（SoIC）、A16、CPO 與定制 HBM，是極具突破性的平臺。核心懸念在于 CPO 的應用范圍 —— 機柜內互聯將沿用銅還是轉向光，后續將在付費內容中披露可能的配置方案。

七、Vera ETL256：超高密度 CPU 機柜

人工智能工作負載對數據處理、預處理與調度的需求日益增長，強化學習進一步提升 CPU 需求（CPU 需并行運行模擬、執行代碼、驗證輸出）。由于 GPU 性能增長速度遠超 CPU，需更大規模的 CPU 集群才能充分發揮 GPU 算力，CPU 已成為日益突出的瓶頸。

Vera ETL256 機柜專為解決這一問題設計，通過液冷實現超高密度部署：單機柜集成 256 顆 CPU，設計理念與 NVL 機柜一致 —— 通過極致密集的計算布局，讓銅互聯可覆蓋機柜內所有節點，省去骨干網的光模塊，銅互聯的成本節省遠超額外的冷卻開銷。

1. 機柜結構

32 個計算托盤（上下各 16 個），對稱分布在中間 4 個 1U MGX ETL 交換機托盤（基于 Spectrum-6）兩側，最小化計算托盤與骨干網的線纜長度差異，確保所有連接在銅互聯范圍內。
交換機托盤的后置端口連接銅骨干網，用于機柜內通信；32 個前置 OSFP 插槽提供光互聯，連接其余 POD 節點。
機柜內采用 Spectrum-X 多平面拓撲，將 200Gb/s 通道分布在 4 個交換機上，實現單層網絡的全對全互聯。每個計算托盤含 8 顆 Vera CPU，整機柜 256 顆 CPU 通過以太網實現扁平互聯。

八、CMX 與 STX：存儲層標準化方案

1. CMX（推理上下文內存存儲平臺）

前身為 ICMS（推理上下文內存存儲），是英偉達推出的 “G3.5 層” 存儲解決方案，位于 G3 層（本地 SSD）與 G4 層（共享存儲）之間，專為解決長上下文與智能體式工作負載中 KV 緩存快速擴張的瓶頸。

KV 緩存存儲層級挑戰

存儲層級	介質	訪問延遲	應用場景	核心特點
G1	GPU HBM	納秒級	活躍 KV 緩存（生成中）	訪問最快，每瓦性能、性價比最優
G2	系統 DRAM	納秒級	暫存 / 溢出 KV 緩存	延遲遞增，每 token 開銷上升
G3	本地 SSD / 機柜本地存儲	微秒級	短期復用的熱 KV 緩存	延遲較高
G4	共享對象 / 文件存儲	毫秒級	冷 KV 緩存或共享 KV 上下文	延遲最高，推理瓶頸，限制擴展，效率最低

CMX 的本質是通過 BlueField 網卡連接存儲服務器與計算服務器（替代原有的 Connect-X 網卡），為 KV 緩存提供額外的卸載層級，緩解本地存儲容量不足與共享存儲延遲過高的矛盾。

2. STX：參考存儲機柜架構

STX 是基于英偉達 BlueField-4 的存儲解決方案參考架構，用于補充 VR 計算機柜，明確規定了特定集群所需的硬盤、Vera CPU、BlueField-4 數據處理單元（DPU）、CX-9 網卡與 Spectrum-X 交換機數量。

核心配置

每個 STX 盒含 2 個 BlueField-4 單元，每個單元含 1 顆 Vera CPU、2 顆 CX-9 網卡、2 個 SOCAMM 模塊；整機柜 16 個 STX 盒，合計 32 顆 Vera CPU、64 顆 CX-9 網卡、64 個 SOCAMM 模塊。
支持廠商包括 AIC、Cloudian、DDN、戴爾科技、愛惠浦、日立 Vantara、HPE、IBM、MinIO、NetApp、Nutanix、超微、廣達云、VAST Data、WEKA 等主流存儲廠商。

3. 戰略意義

BlueField-4、CMX 與 STX 共同構成英偉達存儲層集群標準化的核心布局。在掌控計算與網絡層后，英偉達正逐步向存儲、軟件與基礎設施運營層擴張。