英偉達 Groq 3 LPU推理加速器與Groq LPX機柜入駐Rubin平臺

—— 這款集成靜態隨機存取存儲器的加速器，可助力 AI 模型每個令牌的每一層運算性能提升

作者：時間：2026-03-17 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

格羅克(Groq)技術為Rubin平臺邁向多智能體系統新領域做好準備

Rubin圖形處理器與格羅克推理加速器

英偉達的Vera?Rubin計算平臺將為下一代人工智能數據中心（英偉達首席執行官黃仁勛將其稱作 “人工智能工廠”）提供強勁算力支持，這些系統將于今年晚些時候正式面世。在本屆 GTC 大會的主題演講中，黃仁勛公布了英偉達將去年收購的格羅克知識產權技術融入Rubin平臺、實現功能升級的具體方案。Rubin平臺現已新增一款核心芯片 —— 英偉達 Groq 3 LPU 推理加速器，該芯片能大幅提升系統的令牌生成量與低延遲表現，為前沿 AI 模型的高交互性運行提供支撐。

此前，Rubin平臺已搭載六款核心芯片，英偉達依托這些芯片搭建機柜級算力系統，并進一步拓展為規模化人工智能工廠，這六款芯片分別為：Rubin圖形處理器、Vera中央處理器、新一代 NVLink 6 橫向擴展交換機、ConnectX 9 智能網絡接口卡、Bluefield 4 數據處理單元，以及集成共封裝光模塊的 Spectrum-X 縱向擴展交換機。如今，Groq 3 LPU 成為Rubin平臺實現規模化擴展的又一核心硬件單元。

與多數依賴高帶寬存儲器作為工作內存的人工智能加速器不同，每顆 Groq 3 LPU 芯片均集成了 500 兆字節的靜態隨機存取存儲器，這類存儲器也被用于中央處理器和圖形處理器的超高速緩存。相較于Rubin圖形處理器搭載的 288 吉字節超大容量第四代高帶寬存儲器，500 兆字節的容量看似微不足道，但該靜態隨機存取存儲器能提供 150 太字節 / 秒的超高帶寬，遠超第四代高帶寬存儲器 22 太字節 / 秒的帶寬表現。對于對帶寬高度敏感的人工智能解碼運算，Groq 3 芯片帶來的海量帶寬提升，能為推理應用賦予極具吸引力的性能優勢。

英偉達將基于 Groq 3 LPU 芯片搭建 Groq 3 LPX 機柜，每個機柜集成 256 顆 Groq 3 LPU 芯片。該款機柜可提供 128 吉字節的靜態隨機存取存儲器，推理加速帶寬達 40 拍字節 / 秒，機柜內還配備專用橫向擴展接口，單臺機柜的擴展帶寬可達 640 太字節 / 秒。

英偉達 Groq 3 LPX 機柜核心參數

2026 年下半年正式上市

人工智能推理算力	315 千萬億次浮點運算 / 秒
靜態隨機存取存儲器容量	128 吉字節
內存帶寬	40 拍字節 / 秒
橫向擴展芯片密度	256 顆
橫向擴展帶寬	640 太字節 / 秒

（配圖標注：推理加速器芯片間點對點骨干連接器、8 顆推理加速器芯片、現場可編程門陣列、搭載 Bluefield 4 的數據處理單元的主中央處理器、推理加速器芯片間點對點連接）

英偉達超大規模計算業務副總裁伊恩?巴克表示，英偉達將 Groq LPX 機柜定位為Rubin平臺的協處理器，能夠實現 “AI 模型每個令牌的每一層解碼性能全方位提升”，同時這一組合也讓Rubin平臺具備了支撐人工智能下一發展前沿的能力 —— 滿足多智能體系統的運行需求。這類系統需在對萬億級參數模型進行推理運算、處理百萬級令牌上下文窗口的同時，保障高交互性能。

在多智能體系統中，人工智能智能體的交互對象正從面對聊天窗口的人類，逐漸轉變為其他人工智能智能體，這也讓系統的響應速度要求發生了新的變化。對于人類而言，每秒生成 100 個令牌的速度已屬可觀，但對于人工智能智能體來說，這一速度卻十分緩慢。伊恩?巴克描繪的多智能體系統未來圖景中，Rubin圖形處理器與格羅克推理加速器的組合，將把人工智能智能體間的交互吞吐量從目前每秒 100 個令牌的水平，提升至每秒 1500 個及以上令牌。

Groq 3 LPU 芯片的加入，將進一步強化Rubin平臺在低延遲推理領域的競爭力，助力其應對行業挑戰者。賽睿博拉斯公司憑借晶圓級引擎技術，集成了海量靜態隨機存取存儲器與算力單元，能為先進模型提供低延遲推理運算，該公司還多次指出英偉達圖形處理器在低延遲推理場景下的短板。包括開放人工智能公司在內的頭部客戶，均已采購賽睿博拉斯的算力服務，借助其平臺的低延遲優勢運行前沿人工智能模型。

伊恩?巴克還透露，Groq 3 LPU 的推出或會降低Rubin CPX 推理加速器的應用比重，英偉達目前正重點推進 Groq 3 LPX 機柜與Rubin平臺的集成工作。盡管他并未透露更多細節，但在當前內存資源緊張的行業背景下，這一研發重心的調整實則合乎情理 ——Groq 3 LPU 與Rubin CPX 推理加速器的定位相近，均為提升推理性能的專用芯片，而 Groq 3 LPU 無需像Rubin CPX 加速模塊那樣，搭配大容量第七代圖形雙倍數據率存儲器。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

英偉達 Groq 3 LPU推理加速器與Groq LPX機柜入駐Rubin平臺

評論

相關推薦

技術專區