拆解大模型推理:SambaNova × 英特爾異構計算架構詳解
SambaNova 與英特爾聯合推出了一套大模型異構推理架構藍圖,標志著現代大語言模型(LLM)部署方式的重大轉變。該架構不再依賴單一加速芯片,而是將推理的不同階段分配給專用硬件:
這一設計專門應對智能體 AI 系統日益復雜的需求 —— 推理循環、工具調用、迭代執行帶來的異構算力壓力,無法靠單一加速集群高效滿足。
該方案的核心觀點是:推理并非單一負載,而是由多個性能瓶頸完全不同的計算階段組成。
1. 預填充階段(Prefill)
預填充負責處理用戶提示詞、計算注意力矩陣、構建鍵值緩存。這一階段高并行、計算密集,GPU 是最高效的選擇。
GPU 擅長密集矩陣運算與高吞吐張量計算
可快速處理長提示詞,降低首 Token 延遲
將預填充單獨交給 GPU,能避免算力浪費,提升利用率
2. 解碼階段(Decode)
預填充之后進入解碼階段,逐一生成 Token。解碼與預填充本質不同:它是內存帶寬瓶頸型負載,高度依賴注意力緩存的高效訪問。
GPU 雖強,但在串行 Token 生成場景下效率偏低
SambaNova RDU 專為數據流執行優化,內存訪問模式更適配 Transformer 解碼
能提升 Token 吞吐、降低延遲,尤其適合長上下文與多步推理
3. 智能體調度:英特爾至強 6 CPU
架構第三部分是用至強 6 CPU承擔智能體工具調用與全局編排。
現代智能體 AI 頻繁需要外部操作:數據庫查詢、API 調用、代碼執行、工作流管理等。這些任務不適合加速器,更適合通用 CPU 的大內存與成熟軟件生態。
至強 6 作為控制平面,協調 GPU 與 RDU
負責工具執行、校驗、決策邏輯
讓加速器專注推理,CPU 專注流程邏輯與企業系統集成
架構優勢
硬件利用率大幅提升
每種芯片都工作在最優區間:GPU 扛并行計算、RDU 扛內存敏感型 Token 生成、CPU 扛控制與編排。
智能體負載擴展性更強
智能體多步推理會累積解碼延遲,專用 RDU 可緩解這一瓶頸。
模塊化彈性擴縮
可根據負載獨立擴容 GPU 池、RDU 池、CPU 池。
成本更優
純 GPU 方案在解碼與編排階段利用率很低。把這些任務剝離到專用硬件,可減少過度配置 GPU。同時 x86 架構兼容現有企業軟件棧,降低集成成本。
這套架構也反映出 AI 負載向智能體推理系統演進的趨勢:傳統聊天是單次生成,現代智能體需要反復規劃、執行、修正。異構架構天然匹配這種交替式計算模式,降低瓶頸、提升響應速度。

總結
SambaNova 與英特爾的這套方案,給出了下一代 AI 基礎設施的可行路線:
從單一加速集群走向專用算力編織,用 GPU 做預填充、RDU 做解碼、至強 6 做智能體調度,全面提升性能、利用率與擴展性,也預示了未來 AI 數據中心將如何支撐更復雜的推理系統。









評論