久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

關 閉

新聞中心

EEPW首頁 > 安全與國防 > 業界動態 > 英國政府對Mythos AI的測試:幫業界分清網絡安全威脅與炒作

英國政府對Mythos AI的測試:幫業界分清網絡安全威脅與炒作

—— 人類黑客要失業了?新模型成為首個完成高難度多步驟滲透挑戰的 AI 系統
作者: 時間:2026-04-15 來源: 收藏

英國人工智能安全研究所(SI)是少數獲得 Preview 早期訪問權的機構之一。上周, 宣布將 Preview 初始發布限制在 “核心行業合作伙伴小范圍”,并稱該模型在計算機安全任務上能力驚人。如今,旗下的 SI 發布了對這款模型網絡攻擊能力的初步評估,為 的說法提供了獨立公開驗證。

核心測試結論

SI 的測試顯示:

  • 在單項網絡安全任務中, 與其他最新前沿模型沒有顯著差異。

  • 但 Mythos 的真正突破:能把單項任務有效串聯成多步驟連續攻擊,實現對部分系統的完整滲透。

“The Last Ones” 終極測試被攻破

自 2023 年初以來,AISI 一直在用專門設計的 ** 奪旗賽(CTF)** 測試各類 AI 模型。當年 GPT-3.5 Turbo 連低級 “學徒級” 任務都難以完成。

  • 如今 Mythos Preview 能完成 ** 超過 85%** 的學徒級 CTF 任務。

  • GPT-5.4、Claude Opus 4.6、Codex 5.3 等模型成績相近(準確率差距在 5%–10% 以內)。

  • 單看這項提升,并不足以解釋 Anthropic 為何對 Mythos 采取嚴格限制發布。

真正拉開差距的測試:The Last Ones(TLO)

AISI 搭建的高難度仿真靶場,模擬對企業網絡執行32 步數據竊取攻擊。

  • 需跨多臺主機、多個網段串聯數十個步驟。

  • 人類熟練黑客預計需約 20 小時完成。

結果:

  • Mythos 是首個從頭到尾完整通關 TLO 的 AI 模型。

  • 10 次嘗試成功3 次。

  • 平均完成22/32步,遠超 Claude 4.6 的16 步平均水平。

Mythos 仍有明顯短板

AISI 指出,Mythos 在更難的 “冷卻塔”(Cooling Tower) 測試中表現吃力。

  • 該測試模擬攻擊電廠控制軟件,共 7 步,難度更高。

  • 研究團隊表示:若提升推理算力(突破測試設定的 1 億 token 上限),表現還會繼續提升。

安全警示:小型、防御薄弱系統需警惕

AISI 總結:

  • Mythos 至少具備自主攻擊小型、防御弱、已入網的脆弱企業系統的能力。

  • 但測試環境缺少真實系統中的主動防御者與防護工具。

  • TLO 預設了特定漏洞,現實中不一定存在;且測試不會因被檢測而判定失敗。

因此,AISI 目前無法確認 Mythos 能否攻破防護良好的真實系統。

但警告:未來更強模型出現時,防御方必須同樣用 AI 加固系統。


評論


相關推薦

技術專區

關閉