把大模型刻進芯片,可行嗎?
最近一家叫 Taalas 的芯片公司橫空出世,引發行業關注。
2023 年成立的多倫多初創公司 Taalas,由芯片行業資深人士 Ljubisa Bajic 等人創立,其憑借一款 HC1 芯片攪動了 AI 硬件市場的格局。這家公司跳出了傳統 AI 硬件的設計思路,將 AI 大模型的權重直接蝕刻到芯片的金屬互連層中,實現了極致的存算合一,讓芯片的推理速度達到 17000 tokens/秒,遠超英偉達 H200 的約 230 tokens/秒、B200 的約 2000 tokens/秒。這一創新做法,也讓行業開始重新思考:把大模型直接刻進芯片,究竟是打破 AI 硬件瓶頸的新方向,還是受限于技術迭代的小眾嘗試?
放棄通用性,換極致的性能與能效
Taalas 的 HC1 芯片,本質上是徹底拋棄「一顆芯片跑所有模型」的通用路線,轉向「為特定模型定制硅結構」。這款芯片采用臺積電 6nm 工藝和 Mask ROM 技術,將模型權重直接硬編碼在硅片上,從物理層面消除了計算與存儲之間的數據搬運,大幅破解了困擾行業的內存墻問題。同時,它摒棄了液冷方案和 HBM 顯存,改用空氣冷卻,在降低功耗的同時也減少了硬件成本,配套的軟件棧也因模型權重和結構的硬件固化變得極度簡化,無需復雜的優化層,進一步提升了性能和能效比。
這份極致的定制化,讓 HC1 芯片在性能和成本上展現出顯著優勢:其 token 處理速度達到英偉達最強 GPU 的近 10 倍,硬件成本僅為傳統 GPU 方案的 1/20,功耗也降至 1/10。但與之相伴的,是通用性的完全犧牲——HC1 芯片僅能運行特定的 Llama 3.1 8B 模型,任何模型的更新迭代,都意味著芯片需要重新流片。當然,這種極端專用化也能擴展到更大的模型。Taalas 給出了他們對 DeepSeek R1 671B 的模擬數據。671B 參數的模型需要大約 30 顆芯片協同工作,每顆芯片承載約 20B 參數(采用 MXFP4 格式,并將 SRAM 分離到獨立芯片以提高密度)。30 顆芯片意味著 30 次增量流片,但 Bajic 指出由于每次只改兩層掩模,增量流片成本并不高。
這一特點也決定了 Taalas 的市場定位,它并非要成為「下一個英偉達」,而是瞄準 AI 推理的細分環節,成為該領域的專用供應商,其思路與 Groq 推出的 LPU 相似,且在專用化的道路上走得更遠。
目前 Taalas 的商業模式仍在探索中,主要有自建基礎設施提供 API 服務、直接銷售芯片、與模型開發者合作定制專用芯片三種可能。而這一極端專用化的方案能否被市場接受,主要取決于特定應用場景對延遲的敏感程度,以及模型本身的長期穩定性。盡管存在明顯的局限性,但對于高頻金融交易、自動駕駛、軍事裝備等對延遲高度敏感且模型相對穩定的場景,HC1 芯片的技術方案仍具備不可替代的價值。
推理芯片的賽道,多元技術路線的探索
在 AI 硬件領域,GPU 在訓練環節的優勢依舊無可撼動,但在推理環節,GPU 卻暴露了「貴且慢」的短板,這也讓推理芯片成為眾多初創企業的創新賽場。除了 Taalas 的硬編碼方案,行業內還誕生了多種技術路線,各家都在通過放棄某一傳統設計要素,換取推理環節的性能突破,形成了各具特色的技術探索。

Taalas 選擇放棄軟件,走硬連線的路線,將模型的權重和數據流直接變成物理連線,在其設計邏輯中,軟件是純粹的開銷,指令集更是一種浪費,甚至連編譯器都無需配備,模型確定后便直接流片。這種設計讓芯片的功耗和成本壓至極低,但容錯率也降為 0,模型的任何變動都會讓芯片失去使用價值。
Etched 選擇把架構刻進芯片。他們的第一塊 AI 芯片是一種專用的集成電路(ASIC),聲稱在 AI 大語言模型(LLM)推理方面擊敗了英偉達的 H100。由于它是 ASIC,所以 Etched 需要把 transformer 架構刻蝕在芯片上。通過把 Transformer 的計算邏輯,注意力機制、矩陣乘法、激活函數,直接硬編碼進芯片的電路設計中,效率實現了指數級提升。但這同時也意味著完全喪失靈活性:無法運行循環神經網絡(RNN),無法跑推薦系統模型,無法做任何非 Transformer 的 AI 任務。
Groq 則推出了專屬的 LPU(語言處理單元),采用純 SRAM 架構,摒棄了硬件調度器、緩存一致性協議和分支預測等傳統設計。其核心邏輯是讓硬件保持 100% 的確定性,數據的傳輸和運算全靠編譯器在軟件層面提前進行周期級的精確規劃。這一方案讓芯片在批處理(Batch=1)時的推理速度極快,而 Groq 的核心競爭力,也并非芯片本身,而是能調度海量并行指令的編譯器軟件。
Cerebras 的核心產品 WSE(晶圓級引擎),跳出了傳統的芯片切割思路,直接將整塊晶圓作為一顆大芯片,晶圓上集成了海量的 SRAM 和計算核心。該設計的底層邏輯,是從物理層面解決芯片間數據傳輸的內存墻問題,畢竟芯片間的數據交互是速度最慢、能耗最高的環節。這一方案讓芯片獲得了無敵的帶寬,但也讓制造、散熱、容錯的物理工程難度達到了極致。
Tenstorrent(由芯片大神 Jim Keller 創立)則選擇擁抱開源與解耦,其路線是 RISC-V 指令集搭配矩陣計算單元(Tensix),打造高度可編程的數據流架構。這家企業也是四家之中最不「ASIC」的存在,Jim Keller 認為,AI 算法仍處于快速迭代的階段,硬件設計絕不能寫死,因此采用靈活的 RISC-V 指令集處理控制流,再通過異構網絡將成千上萬個小芯片連接起來。這一方案讓芯片更接近「通用計算機」,其賭點在于未來的 AI 并非單一的 Transformer 架構,而是會發展為包含大量條件判斷、邏輯推理的復雜軟件工程。
回望歷史:固化硬件的教訓,不同層級的綁定風險
把程序刻進硬件的思路,并非 Taalas 首創,在科技發展史上早有先例,而這些先例的興衰,也為大模型刻進芯片的方案提供了重要的參考。
上世紀 90 年代末的 3dfx Voodoo 顯卡,曾是 3D 圖形領域的標桿,其成功與失敗都源于同一個設計邏輯——將 3D 渲染的步驟完全硬件化。它把 3D 游戲的光柵渲染步驟(頂點矩陣、光照、貼圖等計算)做成「固定管線」直接刻死在電路中,專款專用的設計讓其在 3D 游戲運行上的速度碾壓同期產品,成為 3D 顯卡的代名詞。但到了 1999 年之后,開發者開始探索更豐富的 3D 效果,如水景反光、皮膚質感等,而 Voodoo 顯卡因硬件固化無法支持這些新功能,最終被推出「可編程著色器」的英偉達 GeForce GPU 取代,走向破產并被英偉達收購。
2016-2018 年,AI 領域的主要算法是用于圖像識別的 CNN(卷積神經網絡),一大批芯片創業公司針對 CNN 的計算模式,在硬件上設計了專門的「卷積加速引擎」,這類芯片在處理人臉識別、自動駕駛的圖像識別任務時,速度快、能耗低,與如今 Taalas 的思路高度相似。但 2017 年《Attention is All You Need》的發布,以及 2018 年 BERT 的橫空出世,讓大模型的底層數學邏輯從「局部卷積」徹底轉向「全局自注意力機制」,那些將 CNN 邏輯刻死在芯片里的企業,因硬件缺乏通用矩陣計算能力,運行 Transformer 架構的效率極低,甚至無法運行,這也讓第一波 AI 芯片潮中,大部分專注特定視覺算法的初創公司黯然退場。
對比這兩個案例與 Taalas 的方案可以發現,三者的硬件固化程度存在本質差異:Voodoo 顯卡固化的是渲染管線,即便技術迭代,只要仍運行 3D 游戲它依然能使用,只是畫面效果落后;CNN 芯片固化的是算法,人臉識別等傳統場景中它依舊能發揮作用,只是適用場景大幅收窄;而 Taalas 固化的是特定的模型,一旦模型更新,芯片便會直接報廢。這種極致的綁定,也讓 Taalas 的方案背上了最大的風險——它賭的是 AI 算法已經進入「平臺期」,架構上難以再有突破性進步,但現實是,當前 AI 模型的迭代周期甚至以周計算,只要行業競爭不停止,模型的標準就無從談起,前沿 AI 領域的技術變化,始終是懸在這款芯片頭上的達摩克利斯之劍。
并非普適方案,卻在特定場景中具備價值
從前沿 AI 研發的角度來看,將大模型刻進芯片的技術路線顯然并不可行,但這并不意味著該方案毫無市場,在大量模型需求相對固定的場景中,它恰好能解決大模型推理延遲過長的痛點,展現出獨特的應用價值。
工業領域中,大模型下車間成為趨勢,很多場景并不需要性能頂尖的大模型,只需用蒸餾后的輕量模型(如 qwen2.5)就能解決傳統軟件定制化開發的問題,這類場景對模型的穩定性要求遠高于迭代速度,將輕量模型刻進芯片,能完美解決推理延遲的問題;
政務系統的大模型應用中,部署后通常會斷開外網,模型本身無法在線更新,此時將模型固化為硬件,后續的模型更新只需替換硬件,反而比軟件更新更便捷;
消費電子領域,翻譯、TTS 等小模型如果做成專用芯片并集成進手機等設備中,能為設備提供保底的離線智能能力,即便后續出現更優的模型,也能滿足用戶的基礎需求,同時相比手機直接運行小模型,專用芯片還能大幅提升設備的續航能力。
而在對延遲和離線運行能力有極致要求的特殊場景中,把大模型刻進芯片的方案更是展現出不可替代的優勢,成為這些領域的最佳選擇之一。在智能駕駛領域,車輛遇到臨時修路、交警現場指揮等突發狀況時,需要的是低于 1 毫秒的「本能邏輯推理反射」,傳統自動駕駛芯片僅擅長快速圖像識別,無法處理這類復雜的邏輯推理,而云端大模型的反饋又存在延遲,固化了大模型的專用芯片,能實現本地的極速推理,應對各類突發狀況;在高頻量化金融領域,美聯儲講話、非農數據、企業財報等信息的發布往往伴隨市場的快速波動,專用芯片能以極高的速度,快速解析信息,判斷市場走向并轉化為交易信號,相當于為量化交易開掛;在軍工領域,無需聯網、固化在物理硬件中的大模型芯片,即便身處斷網的「信息孤島」,也能憑借出廠時的龐大參數,獨立進行極速的戰術分析和保密決策。
同時,人們也無需擔心固化在芯片中的大模型會因無法迭代,導致知識永遠停留在出廠階段。實際上,芯片固化的只是模型本身的架構和權重,模型無法再進化,但它的邏輯推理、知識檢索能力依舊保持頂級;而且刻入芯片的大模型并非失去聯網能力,仍可通過聯網獲取最新信息,進行分析和問題解決,只是不再通過模型迭代實現能力升級。
爭議與未來可能性:一場關于迭代周期的博弈
把大模型刻進芯片的方案,其未來的發展前景,將圍繞著迭代周期和成本的博弈展開,這也是行業對該方案的主要爭議點。
Taalas 的競爭力之一,是宣稱能將「大模型轉化為定制芯片」的周期,從傳統的一年縮短至兩個月,同時因拋棄了昂貴的 HBM 芯片,采用 6nm 工藝的專用芯片,硬件成本僅為英偉達 H100 等 GPU 方案的 1/20。從成本角度來看,這一方案的優勢十分明顯,按照 17000tps 的處理速度計算,單顆 HC1 芯片的處理能力堪比英偉達的 8 卡服務器,只要單芯片總成本不超過 1 萬美元,就具備極強的市場競爭力。
真正的問題在于迭代周期,即便兩個月的流片周期已經大幅縮短,但當前 AI 模型的迭代基本以月為單位,兩個月的時間足夠競爭對手推出新一代模型,芯片剛量產就面臨落后的局面,這也是該方案最致命的短板。此外,將軟件時代迭代最快、最不穩定的模型,綁定為硬件時代迭代最慢、最穩定的對象,這種做法本質上是犧牲了技術的抽象性,換取短期內亮眼的性能數據,這也是行業對該方案的主要質疑。
不過,Taalas 為芯片設計了 LoRa 掛載能力,一定程度上能彌補模型無法迭代的短板;同時,該方案的本質是一個經濟學問題,隨著大模型技術的發展,其架構和能力終將逼近極限,模型的更新周期也會逐步變長,當模型迭代速度慢于芯片的流片速度時,這一方案的經濟價值便會凸顯。Taalas 的賭點,正是大模型技術會進入發展停滯期,當技術成熟、模型無需頻繁更新底座時,其提前布局的專用芯片方案,便能成為業界領先的存在。
結語
把大模型刻進芯片,并非能顛覆 AI 硬件市場的普適性技術路線,在前沿 AI 研發領域,因模型的快速迭代,這一方案的局限性被無限放大,難以成為主流。但不可否認的是,Taalas 的嘗試為 AI 芯片的發展提供了全新的視角,其犧牲通用性換取極致性能和能效的思路,切中了 AI 推理細分環節的市場需求,為存算合一、定制化硬件的設計方向提供了重要參考。
這一技術路線的未來,終究取決于 AI 模型的迭代速度與行業場景需求的平衡。當大模型技術進入穩定期,那些對延遲、離線運行有極致要求的固定場景,終將成為大模型專用芯片的市場;而即便技術迭代始終保持高速,這一方案的創新思路,也會推動行業不斷探索更高效的 AI 硬件設計,讓 AI 硬件的發展朝著多元化、場景化的方向不斷前進。






評論