邊緣 AI 架構(gòu)如何跟上模型迭代
核心要點(diǎn)
AI 模型迭代速度已超越芯片設(shè)計(jì)周期,邊緣 AI 架構(gòu)必須優(yōu)先考慮可適配性。
模型更新節(jié)奏高度依賴(lài)具體應(yīng)用,與產(chǎn)品生命周期、運(yùn)行風(fēng)險(xiǎn)緊密相關(guān)。
可適配性常與功耗、性能、面積(PPA)目標(biāo)沖突,高效的異構(gòu)架構(gòu)與完善的軟件 / 編譯器工具鏈至關(guān)重要。
圓桌訪(fǎng)談:邊緣 AI 架構(gòu)如何跟上模型迭代
如今的芯片架構(gòu)師在設(shè)計(jì) AI 處理器時(shí),必須在 AI 模型快速迭代的背景下,兼顧高性能與高效率。邀請(qǐng)多位行業(yè)專(zhuān)家展開(kāi)討論,以下為訪(fǎng)談精華。
受訪(fǎng)嘉賓
Ronan Naughton:Arm 邊緣 AI 產(chǎn)品管理總監(jiān)
Amol Borkar、Jason Lawley:Cadence Tensilica DSP/AI IP 產(chǎn)品管理高管
Sharad Chole:Expedera 首席科學(xué)家兼聯(lián)合創(chuàng)始人
Justin Endo:Silvaco 旗下 Mixel 營(yíng)銷(xiāo)總監(jiān)
Steve Roddy:Quadric 首席營(yíng)銷(xiāo)官
Steven Woo:Rambus 院士、杰出發(fā)明家
Sathishkumar Balasubramanian:西門(mén)子 EDA IC 驗(yàn)證與 EDA AI 產(chǎn)品負(fù)責(zé)人
Gordon Cooper:新思科技(Synopsys)首席產(chǎn)品經(jīng)理

一、模型迭代有多快?不同場(chǎng)景差異巨大
SE:AI 模型移植是邊緣 AI 處理器設(shè)計(jì)的關(guān)鍵。目標(biāo)模型更新頻率如何?芯片 / IP 廠商需要多快響應(yīng)?是否因終端市場(chǎng)而異?
Steve Roddy(Quadric)部分領(lǐng)域模型迭代正在加速,例如汽車(chē)、機(jī)器人領(lǐng)域,正從獨(dú)立模型串聯(lián)轉(zhuǎn)向世界模型,如視覺(jué) - 語(yǔ)言 - 動(dòng)作(VLA)模型,融合視覺(jué)、語(yǔ)言與控制能力。
傳統(tǒng)視覺(jué)處理:計(jì)算密集,小模型 + 海量像素,看重 MAC 算力密度。
語(yǔ)言模型:權(quán)重流式傳輸,看重通用計(jì)算能力。
產(chǎn)品生命周期決定更新需求:
一次性消費(fèi)設(shè)備(如百元門(mén)鈴攝像頭):幾年不更新固件,模型基本不變。
長(zhǎng)壽命設(shè)備(交通攝像頭、汽車(chē),壽命 10–20 年):模型必須持續(xù)迭代。如今多數(shù)應(yīng)用在產(chǎn)品上市前模型就已變更,靈活性比三年前重要得多。
Steven Woo(Rambus)新模型與優(yōu)化方案推出極快,硬件廠商無(wú)法逐個(gè)追趕。客戶(hù)期望快速支持更高處理速度、更大內(nèi)存帶寬,并在主流模型家族上提供一定專(zhuān)用化能力。消費(fèi)與視覺(jué)類(lèi)邊緣設(shè)備響應(yīng)窗口短,安全關(guān)鍵市場(chǎng)則優(yōu)先保障安全性。
Ronan Naughton(Arm)Arm 主張異構(gòu) AI,AI 算力可分布在整個(gè) SoC 甚至跨設(shè)備。
智能眼鏡 + 手機(jī):眼鏡側(cè)重語(yǔ)音、視覺(jué)等特定負(fù)載;手機(jī)算力更強(qiáng)、負(fù)載多變。
不同設(shè)備模型更新頻率差異顯著,移動(dòng)設(shè)備需完全可編程以應(yīng)對(duì)未知負(fù)載。
Sathishkumar Balasubramanian(西門(mén)子 EDA)模型更新頻率完全取決于應(yīng)用:
工廠自動(dòng)化:環(huán)境穩(wěn)定,模型更新少。
汽車(chē)應(yīng)用:場(chǎng)景開(kāi)放、任務(wù)關(guān)鍵,需實(shí)時(shí)或盡快更新。工業(yè)場(chǎng)景即便更新頻率低,也需預(yù)留異常情況下的模型修改機(jī)制。
Gordon Cooper(新思科技)芯片設(shè)計(jì) + 產(chǎn)品化需約 2 年,市場(chǎng)壽命 5–10 年,期間模型必然變化,IP 必須內(nèi)置靈活性。CNN 歷經(jīng) 10 年演進(jìn),如今大模型正向小語(yǔ)言模型(SLM)收斂,架構(gòu)需持續(xù)適配。同時(shí)要在可編程性與極致 PPA間做權(quán)衡。
Amol Borkar(Cadence)模型幾乎每時(shí)每刻都在變,Hugging Face 等平臺(tái)頻繁推出 SLM、VLM、多模態(tài)模型變體。行業(yè)正全面 AI 化,嵌入式領(lǐng)域面臨兩大挑戰(zhàn):
硬件:無(wú)萬(wàn)能方案,需 NPU+DSP+CPU 等異構(gòu)子系統(tǒng)提供靈活性;硬化架構(gòu)(如 NPU)性能功耗最優(yōu),但遇新算子易失效。
軟件:編譯器需高效映射硬件,對(duì)不支持算子提供仿真等兜底方案;客戶(hù)關(guān)注不同計(jì)算單元的負(fù)載分配與端到端流程通暢。
Sharad Chole(Expedera)模型更新速度取決于 NPU 在 pipeline 中的位置:
靠近傳感器(如降噪):與傳感器強(qiáng)綁定,變更少。
靠近應(yīng)用(控制、人機(jī)交互):需支持新量化、結(jié)構(gòu)優(yōu)化等技術(shù)。難點(diǎn)不在于支持新模型,而在于高性能支持,硬件約束與模型演進(jìn)始終存在追趕博弈。
Jason Lawley(Cadence)客戶(hù)最重視私有模型,編譯器必須能高效編譯未公開(kāi)網(wǎng)絡(luò)。跟上算子與網(wǎng)絡(luò)演進(jìn)極具挑戰(zhàn)與成本,IP 廠商可通過(guò)多客戶(hù)分?jǐn)傑浖杀荆茸匝屑铀倨鞲邇?yōu)勢(shì)。
Steve Roddy(Quadric)下游 OEM 不愿依賴(lài)多層供應(yīng)商完成模型移植。工具鏈必須可靠,讓車(chē)企數(shù)據(jù)科學(xué)家能直接將新算法高效部署到硬件,IP 廠商不能成為模型迭代的瓶頸。
二、智能體 AI(Agentic AI)帶來(lái)哪些 workload 變革
SE:智能體 AI 熱潮如何改變邊緣負(fù)載類(lèi)型與頻率?
Sathishkumar Balasubramanian(西門(mén)子 EDA)智能體 AI 領(lǐng)域正大量實(shí)驗(yàn)浮點(diǎn)精度取舍,以平衡精度與內(nèi)存利用。邊緣 AI 需應(yīng)對(duì)更多編排與未知性,IP 需靈活適配浮點(diǎn)位寬等基礎(chǔ)變更。
Ronan Naughton(Arm)智能體 AI 分兩類(lèi):
云端智能體:通過(guò) API 調(diào)用云端 LLM 等能力。
本地 / 私有智能體:模型運(yùn)行在終端或家庭設(shè)備,保護(hù)隱私。編排器與智能體模型(Llama、Claude、ChatGPT 等)更新極快,Arm CPU 常用于任務(wù)拆解與分發(fā)。
Steve Roddy(Quadric)智能體 AI 使推理需求量級(jí)躍升:從人工觸發(fā)變?yōu)?7×24 小時(shí)自主運(yùn)行(如設(shè)備實(shí)時(shí)監(jiān)控)。
工廠等場(chǎng)景無(wú)法承擔(dān)海量云端 Token 費(fèi)用,必須本地閉環(huán)。
邊緣需更強(qiáng)算力、更大內(nèi)存,僅在異常時(shí)回傳云端,推動(dòng)邊緣硬件升級(jí)。
Steven Woo(Rambus)智能體 AI 帶來(lái)更長(zhǎng)生命周期、更深上下文的負(fù)載,硬件關(guān)注點(diǎn)從短期瞬時(shí)任務(wù)轉(zhuǎn)向持續(xù)效率、數(shù)據(jù)移動(dòng)、可靠性與功耗管理。多智能體交互放大負(fù)載,內(nèi)存容量與帶寬需求激增,推動(dòng)更高效計(jì)算與內(nèi)存分層設(shè)計(jì)。
Sharad Chole(Expedera)智能體 AI 的 Token 規(guī)模極大,系統(tǒng)提示可達(dá)數(shù)萬(wàn) Token。提示工程比微調(diào)更有效,大任務(wù)帶來(lái)海量輸入 / 輸出 Token。邊緣難以運(yùn)行重型智能體,需明確哪些輕量智能體適合邊緣,兼顧隱私與時(shí)延要求。
Gordon Cooper(新思科技)從 NPU 視角看,智能體 AI 是系統(tǒng)級(jí)問(wèn)題:既要做好感知類(lèi) AI,也要支撐 LLM、VLA 等存儲(chǔ) / 計(jì)算密集型任務(wù)。客戶(hù)更關(guān)注每秒 Token 數(shù)、特定模型運(yùn)行效果,而非 NPU 直接運(yùn)行智能體 AI。
Jason Lawley(Cadence)邊緣智能體 AI 的應(yīng)用形態(tài)仍在探索中,最終回歸三大核心:
功耗
數(shù)據(jù)移動(dòng)量
計(jì)算需求
總結(jié)
模型迭代速度已跑贏芯片周期,邊緣 AI 的核心矛盾是靈活性 vs. 功耗 / 性能 / 面積。未來(lái)勝出的方案將是:異構(gòu)硬件架構(gòu) + 強(qiáng)大編譯器工具鏈,既能適配快速演進(jìn)的模型,又能在長(zhǎng)生命周期設(shè)備中保持高效與可靠。









評(píng)論