Anthropic打造的 “不完美巨獸”Mythos

作者：時(shí)間：2026-04-14 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

我們已知曉Anthropic推出了全新的Mythos 模型的情況，不得不說雖然Anthropic跟美國政府鬧掰了，但這款產(chǎn)品簡直是為特朗普政府量身定制般極具吸引力。事實(shí)上，對(duì)任何一位身處白宮、尤其面臨來自伊朗、俄羅斯網(wǎng)絡(luò)威脅的美國總統(tǒng)而言，它同樣極具誘惑力。

Mythos 的能力層級(jí)更高，智能程度也遠(yuǎn)超該公司兩年來主推的 Opus 混合專家模型。Opus 此前僅向少數(shù)科技巨頭開放，原因在于其危險(xiǎn)性極高 —— 它能精準(zhǔn)挖掘全球海量存量軟件中的安全漏洞，構(gòu)成重大網(wǎng)絡(luò)安全風(fēng)險(xiǎn)。

本周早些時(shí)候，Anthropic 在發(fā)布 Mythos 預(yù)覽版時(shí)，并未過多透露這款即將面世的模型架構(gòu)，也未說明何時(shí)會(huì)向公眾開放。但這款模型被悄悄藏在一則關(guān)于 “琉璃翅計(jì)劃（Project Glasswing）” 安全項(xiàng)目的公告中，著實(shí)讓所有人驚出一身冷汗。

Anthropic 在公告中寫道：“Mythos 預(yù)覽版已發(fā)現(xiàn)數(shù)千個(gè)高危安全漏洞，覆蓋所有主流操作系統(tǒng)與網(wǎng)頁瀏覽器。”—— 這是官方重點(diǎn)強(qiáng)調(diào)的內(nèi)容，并非筆者杜撰。“鑒于人工智能技術(shù)迭代速度，此類能力很快會(huì)擴(kuò)散，可能落入無法安全運(yùn)用它的主體手中。這對(duì)全球經(jīng)濟(jì)、公共安全與國家安全造成的后果將極為嚴(yán)重。琉璃翅計(jì)劃正是為了將這些能力用于防御目的而緊急啟動(dòng)的項(xiàng)目。”

也正因如此，Anthropic 與亞馬遜云科技、蘋果、博通、思科、克勞德強(qiáng)襲、谷歌、摩根大通、Linux 基金會(huì)、微軟、英偉達(dá)以及帕洛阿爾托網(wǎng)絡(luò)公司達(dá)成合作，這些企業(yè)正借助 Mythos 模型排查自身代碼中的安全漏洞。或許它們還能用 Mythos 修復(fù)這些漏洞？也或許在重新編譯代碼后，模型不會(huì)在代碼中埋下任何隱患……

本刊物聚焦系統(tǒng)架構(gòu)，而非技術(shù)對(duì)社會(huì)、文化與商業(yè)的影響。但我們?nèi)哉J(rèn)為，一家頭部大模型廠商因擔(dān)憂其成果失控而選擇不公開發(fā)布，這一事件值得高度關(guān)注。沒人斷言 Mythos 未來絕不會(huì)以某種形式面世，但至少有一家模型研發(fā)方在審慎考量 —— 并非因?yàn)槟Ｐ唾|(zhì)量不佳，恰恰相反，是因?yàn)樗谧陨眍I(lǐng)域強(qiáng)悍得過分。

這是非同尋常的一周里，一個(gè)格外詭異的時(shí)刻。

與 Claude 系列的 Haiku、Sonnet、Opus 等版本一樣，Anthropic 對(duì) Mythos 的細(xì)節(jié)守口如瓶。官方未提及參數(shù)量與訓(xùn)練數(shù)據(jù)集規(guī)模，盡管所有模型廠商都宣稱這些指標(biāo)已不再重要。可想而知，筆者對(duì)此完全不敢茍同。訓(xùn)練數(shù)據(jù)集的規(guī)模與質(zhì)量、模型總參數(shù)量，以及混合專家模型中可同時(shí)激活的參數(shù)量，這些因素絕對(duì)至關(guān)重要。所有廠商都不愿公開，只因一旦披露，外界就能推斷出其模型結(jié)構(gòu)與運(yùn)行邏輯。

不過，我們?nèi)阅軓牧鹆С嵊?jì)劃公告、Mythos 預(yù)覽版技術(shù)深度解析，以及官方發(fā)布的系統(tǒng)說明卡（也就是我們常說的規(guī)格表）中挖掘出一些信息。Mythos 預(yù)覽版的對(duì)齊風(fēng)險(xiǎn)評(píng)估報(bào)告可在此查閱。

Mythos 的研發(fā)代號(hào)為 “水豚（Capybara）”—— 這種產(chǎn)自南美洲、體重近 70 公斤的水棲嚙齒動(dòng)物，若歷經(jīng)足夠漫長的歲月（比如 5000 萬年），或許會(huì)進(jìn)化成近似海豚的生物。很難說 Anthropic 為何以此命名，但從基準(zhǔn)測試結(jié)果可以明確：Mythos 與該公司主打?qū)υ挼?Sonnet、側(cè)重推理的 Opus 模型相比，實(shí)現(xiàn)了質(zhì)的飛躍。它可能依舊是混合專家架構(gòu)，也可能是一種全新技術(shù)路線。

Mythos 的上下文窗口與當(dāng)前最新版 Sonnet 4.6、Opus 4.6 一致，為 100 萬 token，但我們有充分理由相信，其設(shè)計(jì)初衷是支持遠(yuǎn)超這一規(guī)模的擴(kuò)展。坊間傳言 Mythos 參數(shù)量達(dá) 10 萬億，但據(jù)筆者所知，尚無可靠信源佐證。Mythos 是一款推理型模型，能力被認(rèn)為優(yōu)于 Opus，不過它最終是否會(huì)正式商業(yè)化仍未可知。

Anthropic 前沿安全紅隊(duì)負(fù)責(zé)人洛根?格雷厄姆上周接受 NBC 新聞采訪時(shí)，如此評(píng)價(jià) Mythos：“這款模型的自主決策能力、長程規(guī)劃能力，以及整合多維度信息的能力，是其最突出的特質(zhì)。”Mythos 系統(tǒng)說明卡描述道：該模型如同協(xié)作伙伴，觀點(diǎn)鮮明、立場堅(jiān)定，表達(dá)凝練密集，默認(rèn)使用者與它具備相同背景，擁有辨識(shí)度極強(qiáng)的語言風(fēng)格，能清晰描述自身運(yùn)行邏輯，且犯錯(cuò)方式十分隱蔽、不易察覺。（如果你覺得這描述像極了身邊某類人，絕非你一人這么想……）

從系統(tǒng)說明卡公布的基準(zhǔn)測試數(shù)據(jù)中，我們可以推斷出以下結(jié)論：

這份對(duì)齊風(fēng)險(xiǎn)更新報(bào)告評(píng)估了 Mythos 的安全性與潛在危害，其中明確指出：“Mythos 預(yù)覽版與 Claude Opus 4.6 的能力差距，遠(yuǎn)超該公司過往歷代模型間的代差。”

由此我們推測，Mythos 很可能采用了某項(xiàng)突破性技術(shù)，實(shí)現(xiàn)了跨越式升級(jí)。這一點(diǎn)在 SWE-bench 代碼助手基準(zhǔn)測試、GraphWalks BFE 測試中體現(xiàn)得尤為明顯 —— 后者要求模型在海量十六進(jìn)制哈希圖譜中完成推理，專門檢驗(yàn) “上下文退化” 問題，即模型是否會(huì)偷懶忽略超大上下文窗口，僅依賴記憶內(nèi)容作答（當(dāng)然，我們不必過度擬人化解讀）。在 “人類終極考試”（名稱頗具諷刺意味，并非選擇題，而是包含模型無法解答、領(lǐng)域?qū)＜译m感棘手但仍能解決的難題）與 Charxiv 推理基準(zhǔn)測試（檢驗(yàn)?zāi)Ｐ突趫D表、表格、圖形推理的能力）中，Mythos 相較 Opus 4.6 的性能躍升，證明其搭載了 Opus 4.6、OpenAI 的 GPT-5.4 與谷歌 Gemini 3.1 Pro 均不具備的核心創(chuàng)新。最后，在美國數(shù)學(xué)奧林匹克競賽（USAMO）測試中，Mythos 展現(xiàn)出極強(qiáng)的復(fù)雜數(shù)學(xué)問題求解能力，大幅優(yōu)于 Opus 4.6，顯著領(lǐng)先 Gemini 3.1 Pro，與 GPT-5.4 旗鼓相當(dāng)。

直白總結(jié)：所有人都想得到 Mythos 模型，而 Anthropic 一方面心懷顧慮，另一方面或許也在刻意吊足市場胃口。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

Anthropic打造的 “不完美巨獸”Mythos

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)