Anthropic打造的 “不完美巨獸”Mythos
我們已知曉Anthropic推出了全新的Mythos 模型的情況,不得不說雖然Anthropic跟美國政府鬧掰了,但這款產(chǎn)品簡直是為特朗普政府量身定制般極具吸引力。事實(shí)上,對(duì)任何一位身處白宮、尤其面臨來自伊朗、俄羅斯網(wǎng)絡(luò)威脅的美國總統(tǒng)而言,它同樣極具誘惑力。
Mythos 的能力層級(jí)更高,智能程度也遠(yuǎn)超該公司兩年來主推的 Opus 混合專家模型。Opus 此前僅向少數(shù)科技巨頭開放,原因在于其危險(xiǎn)性極高 —— 它能精準(zhǔn)挖掘全球海量存量軟件中的安全漏洞,構(gòu)成重大網(wǎng)絡(luò)安全風(fēng)險(xiǎn)。
本周早些時(shí)候,Anthropic 在發(fā)布 Mythos 預(yù)覽版時(shí),并未過多透露這款即將面世的模型架構(gòu),也未說明何時(shí)會(huì)向公眾開放。但這款模型被悄悄藏在一則關(guān)于 “琉璃翅計(jì)劃(Project Glasswing)” 安全項(xiàng)目的公告中,著實(shí)讓所有人驚出一身冷汗。
Anthropic 在公告中寫道:“Mythos 預(yù)覽版已發(fā)現(xiàn)數(shù)千個(gè)高危安全漏洞,覆蓋所有主流操作系統(tǒng)與網(wǎng)頁瀏覽器。”—— 這是官方重點(diǎn)強(qiáng)調(diào)的內(nèi)容,并非筆者杜撰。“鑒于人工智能技術(shù)迭代速度,此類能力很快會(huì)擴(kuò)散,可能落入無法安全運(yùn)用它的主體手中。這對(duì)全球經(jīng)濟(jì)、公共安全與國家安全造成的后果將極為嚴(yán)重。琉璃翅計(jì)劃正是為了將這些能力用于防御目的而緊急啟動(dòng)的項(xiàng)目。”
也正因如此,Anthropic 與亞馬遜云科技、蘋果、博通、思科、克勞德強(qiáng)襲、谷歌、摩根大通、Linux 基金會(huì)、微軟、英偉達(dá)以及帕洛阿爾托網(wǎng)絡(luò)公司達(dá)成合作,這些企業(yè)正借助 Mythos 模型排查自身代碼中的安全漏洞。或許它們還能用 Mythos 修復(fù)這些漏洞?也或許在重新編譯代碼后,模型不會(huì)在代碼中埋下任何隱患……
本刊物聚焦系統(tǒng)架構(gòu),而非技術(shù)對(duì)社會(huì)、文化與商業(yè)的影響。但我們?nèi)哉J(rèn)為,一家頭部大模型廠商因擔(dān)憂其成果失控而選擇不公開發(fā)布,這一事件值得高度關(guān)注。沒人斷言 Mythos 未來絕不會(huì)以某種形式面世,但至少有一家模型研發(fā)方在審慎考量 —— 并非因?yàn)槟P唾|(zhì)量不佳,恰恰相反,是因?yàn)樗谧陨眍I(lǐng)域強(qiáng)悍得過分。
這是非同尋常的一周里,一個(gè)格外詭異的時(shí)刻。
與 Claude 系列的 Haiku、Sonnet、Opus 等版本一樣,Anthropic 對(duì) Mythos 的細(xì)節(jié)守口如瓶。官方未提及參數(shù)量與訓(xùn)練數(shù)據(jù)集規(guī)模,盡管所有模型廠商都宣稱這些指標(biāo)已不再重要。可想而知,筆者對(duì)此完全不敢茍同。訓(xùn)練數(shù)據(jù)集的規(guī)模與質(zhì)量、模型總參數(shù)量,以及混合專家模型中可同時(shí)激活的參數(shù)量,這些因素絕對(duì)至關(guān)重要。所有廠商都不愿公開,只因一旦披露,外界就能推斷出其模型結(jié)構(gòu)與運(yùn)行邏輯。
不過,我們?nèi)阅軓牧鹆С嵊?jì)劃公告、Mythos 預(yù)覽版技術(shù)深度解析,以及官方發(fā)布的系統(tǒng)說明卡(也就是我們常說的規(guī)格表)中挖掘出一些信息。Mythos 預(yù)覽版的對(duì)齊風(fēng)險(xiǎn)評(píng)估報(bào)告可在此查閱。
Mythos 的研發(fā)代號(hào)為 “水豚(Capybara)”—— 這種產(chǎn)自南美洲、體重近 70 公斤的水棲嚙齒動(dòng)物,若歷經(jīng)足夠漫長的歲月(比如 5000 萬年),或許會(huì)進(jìn)化成近似海豚的生物。很難說 Anthropic 為何以此命名,但從基準(zhǔn)測試結(jié)果可以明確:Mythos 與該公司主打?qū)υ挼?Sonnet、側(cè)重推理的 Opus 模型相比,實(shí)現(xiàn)了質(zhì)的飛躍。它可能依舊是混合專家架構(gòu),也可能是一種全新技術(shù)路線。
Mythos 的上下文窗口與當(dāng)前最新版 Sonnet 4.6、Opus 4.6 一致,為 100 萬 token,但我們有充分理由相信,其設(shè)計(jì)初衷是支持遠(yuǎn)超這一規(guī)模的擴(kuò)展。坊間傳言 Mythos 參數(shù)量達(dá) 10 萬億,但據(jù)筆者所知,尚無可靠信源佐證。Mythos 是一款推理型模型,能力被認(rèn)為優(yōu)于 Opus,不過它最終是否會(huì)正式商業(yè)化仍未可知。
Anthropic 前沿安全紅隊(duì)負(fù)責(zé)人洛根?格雷厄姆上周接受 NBC 新聞采訪時(shí),如此評(píng)價(jià) Mythos:“這款模型的自主決策能力、長程規(guī)劃能力,以及整合多維度信息的能力,是其最突出的特質(zhì)。”Mythos 系統(tǒng)說明卡描述道:該模型如同協(xié)作伙伴,觀點(diǎn)鮮明、立場堅(jiān)定,表達(dá)凝練密集,默認(rèn)使用者與它具備相同背景,擁有辨識(shí)度極強(qiáng)的語言風(fēng)格,能清晰描述自身運(yùn)行邏輯,且犯錯(cuò)方式十分隱蔽、不易察覺。(如果你覺得這描述像極了身邊某類人,絕非你一人這么想……)
從系統(tǒng)說明卡公布的基準(zhǔn)測試數(shù)據(jù)中,我們可以推斷出以下結(jié)論:

這份對(duì)齊風(fēng)險(xiǎn)更新報(bào)告評(píng)估了 Mythos 的安全性與潛在危害,其中明確指出:“Mythos 預(yù)覽版與 Claude Opus 4.6 的能力差距,遠(yuǎn)超該公司過往歷代模型間的代差。”
由此我們推測,Mythos 很可能采用了某項(xiàng)突破性技術(shù),實(shí)現(xiàn)了跨越式升級(jí)。這一點(diǎn)在 SWE-bench 代碼助手基準(zhǔn)測試、GraphWalks BFE 測試中體現(xiàn)得尤為明顯 —— 后者要求模型在海量十六進(jìn)制哈希圖譜中完成推理,專門檢驗(yàn) “上下文退化” 問題,即模型是否會(huì)偷懶忽略超大上下文窗口,僅依賴記憶內(nèi)容作答(當(dāng)然,我們不必過度擬人化解讀)。在 “人類終極考試”(名稱頗具諷刺意味,并非選擇題,而是包含模型無法解答、領(lǐng)域?qū)<译m感棘手但仍能解決的難題)與 Charxiv 推理基準(zhǔn)測試(檢驗(yàn)?zāi)P突趫D表、表格、圖形推理的能力)中,Mythos 相較 Opus 4.6 的性能躍升,證明其搭載了 Opus 4.6、OpenAI 的 GPT-5.4 與谷歌 Gemini 3.1 Pro 均不具備的核心創(chuàng)新。最后,在美國數(shù)學(xué)奧林匹克競賽(USAMO)測試中,Mythos 展現(xiàn)出極強(qiáng)的復(fù)雜數(shù)學(xué)問題求解能力,大幅優(yōu)于 Opus 4.6,顯著領(lǐng)先 Gemini 3.1 Pro,與 GPT-5.4 旗鼓相當(dāng)。
直白總結(jié):所有人都想得到 Mythos 模型,而 Anthropic 一方面心懷顧慮,另一方面或許也在刻意吊足市場胃口。







評(píng)論