拆解大模型推理：SambaNova × 英特爾異構計算架構詳解

作者：時間：2026-04-20 來源：

SambaNova 與英特爾聯合推出了一套大模型異構推理架構藍圖，標志著現代大語言模型（LLM）部署方式的重大轉變。該架構不再依賴單一加速芯片，而是將推理的不同階段分配給專用硬件：

這一設計專門應對智能體 AI 系統日益復雜的需求 —— 推理循環、工具調用、迭代執行帶來的異構算力壓力，無法靠單一加速集群高效滿足。

該方案的核心觀點是：推理并非單一負載，而是由多個性能瓶頸完全不同的計算階段組成。

1. 預填充階段（Prefill）

預填充負責處理用戶提示詞、計算注意力矩陣、構建鍵值緩存。這一階段高并行、計算密集，GPU 是最高效的選擇。

2. 解碼階段（Decode）

預填充之后進入解碼階段，逐一生成 Token。解碼與預填充本質不同：它是內存帶寬瓶頸型負載，高度依賴注意力緩存的高效訪問。

3. 智能體調度：英特爾至強 6 CPU

架構第三部分是用至強 6 CPU承擔智能體工具調用與全局編排。

現代智能體 AI 頻繁需要外部操作：數據庫查詢、API 調用、代碼執行、工作流管理等。這些任務不適合加速器，更適合通用 CPU 的大內存與成熟軟件生態。

架構優勢

每種芯片都工作在最優區間：GPU 扛并行計算、RDU 扛內存敏感型 Token 生成、CPU 扛控制與編排。

智能體多步推理會累積解碼延遲，專用 RDU 可緩解這一瓶頸。

可根據負載獨立擴容 GPU 池、RDU 池、CPU 池。

純 GPU 方案在解碼與編排階段利用率很低。把這些任務剝離到專用硬件，可減少過度配置 GPU。同時 x86 架構兼容現有企業軟件棧，降低集成成本。

這套架構也反映出 AI 負載向智能體推理系統演進的趨勢：傳統聊天是單次生成，現代智能體需要反復規劃、執行、修正。異構架構天然匹配這種交替式計算模式，降低瓶頸、提升響應速度。

總結

SambaNova 與英特爾的這套方案，給出了下一代 AI 基礎設施的可行路線：

從單一加速集群走向專用算力編織，用 GPU 做預填充、RDU 做解碼、至強 6 做智能體調度，全面提升性能、利用率與擴展性，也預示了未來 AI 數據中心將如何支撐更復雜的推理系統。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠