AWS將把Cerebras晶圓級WSE?3芯片引入云平臺
亞馬遜云科技(AWS)將向客戶開放使用 Cerebras Systems 公司的 WSE?3 人工智能芯片。兩家公司今日宣布了這一合作計劃,這是一項多年戰略合作的一部分,雙方還將為 AI 推理工作負載共同打造解耦架構(disaggregated architecture),預計可將 AI 模型生成輸出的速度提升5 倍。
Cerebras 的 WSE?3 芯片集成90 萬個計算核心與44GB 片上 SRAM,該處理器以水冷整機設備 CS?3 的形式交付。這套系統大小近似迷你冰箱,將一顆 WSE?3 與外置內存、網絡設備及其他輔助組件整合在一起。
根據新公布的合作,AWS 將在其數據中心內部署 CS?3 整機設備,并通過旗下 AWS Bedrock 服務向客戶開放使用 —— 該服務提供自研及第三方基礎模型的訪問能力。CS?3 可讓神經網絡以每秒數千個 token的速度生成提示響應。
雙方聯合研發的解耦架構將把 WSE?3 與 AWS 自研 AI 芯片系列 Trainium 相結合,目標是加速客戶的推理工作負載。
大語言模型處理提示詞時,會將其拆分為名為token的小型數據單元,每個 token 包含若干字母或數字。LLM 會為提示中的每個 token 生成三個數學對象:鍵(Key)、值(Value)、查詢(Query),幫助模型判斷提示中哪些部分重要、哪些細節可降低優先級。
LLM 處理提示的過程稱為預填充階段(prefill),隨后進入解碼階段(decode),模型在此階段生成對用戶問題的回答。
預填充與解碼任務通常由同一塊芯片完成。而在 AWS 的解耦架構中,Trainium 負責預填充階段,WSE?3 負責解碼階段。
解碼涉及與預填充類似的計算,但需要顯著更多的數據搬運,信息需要在芯片的邏輯電路與內存之間頻繁傳輸。芯片搬運信息的速度越快,生成響應的速度就越快。
WSE?3 的核心賣點之一,就是其邏輯與內存電路間的數據搬運速度遠超許多其他芯片。據 Cerebras 介紹,該處理器提供27PB/s 的內部內存帶寬,是英偉達 NVLink 顯卡互聯帶寬的200 倍以上。
AWS 將在數據中心內通過自研網絡設備Elastic Fabric Adapter(EFA,彈性結構適配器) 連接 Trainium 與 WSE?3 芯片。通常芯片間傳輸數據包需要經過主機服務器操作系統,而 EFA 跳過這一步以加速連接,并自動緩解網絡擁塞。
“解耦架構非常適合大型、穩定的工作負載,”Cerebras 產品營銷總監 James Wang 在博文中寫道,“大多數客戶會運行預填充 / 解碼比例各異的混合工作負載,傳統的聚合架構在此場景下依然是理想選擇。我們預計大多數客戶會希望同時使用兩種方案。”
此次合作宣布前幾周,Cerebras 剛剛拿下另一筆重磅芯片供應協議:OpenAI Group PBC 同意在 2028 年前向該公司采購750 兆瓦算力的計算基礎設施,這筆交易據稱價值超100 億美元。該協議公布于 Cerebras 兩輪融資之間,兩輪融資合計為其募資超20 億美元。
這家芯片制造商預計最快將于2026 年第二季度提交 IPO 申請。與 AWS 及 OpenAI 的合作有望提升投資者對其上市的興趣。












評論