摩爾線程完成DeepSeek-V4全鏈路工程化適配：S5000基于MUSA+SGLang實現復雜MoE模型快速落地

作者：時間：2026-05-01 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

近日，摩爾線程依托旗艦級AI訓推一體智算卡MTT S5000與自研MUSA軟件棧，基于SGLang 開源推理框架，成功完成DeepSeek-V4的完整運行驗證。該成果表明，面向新一代MoE大模型，摩爾線程已構建起從硬件架構核心計算引擎承接、熱點算子支持，再到端到端部署驗證的系統化適配鏈路，驗證了國產GPU平臺對前沿大模型“框架級兼容、開箱即落地”的承載實力及工程化落地能力。

隨著大模型架構持續演進，DeepSeek-V4等先進模型對底層精度能力、算子覆蓋、編譯優化、并行通信和推理效率提出了嚴苛要求。摩爾線程充分發揮S5000原生FP8算力、MUSA對CUDA深度兼容、TileLang MUSA編譯器對TileLang生態完美支持等優勢，結合TileKernels開源庫復用，基于TileLang快捷開發自定義算子等手段，快速打通了DeepSeek-V4推理適配鏈路，再次驗證了摩爾線程為開發者和行業用戶提供高效、易部署的國產大模型運行軟硬件底座的能力。

值得注意的是，TileLang-MUSA已正式進入 TileLang官方主線，實現了對DeepSeek-V4最新發布TileLang算子庫TileKernels的Day-0無縫支持。這意味著MUSA平臺已具備承載前沿LLM算子生態的工程基礎，為后續先進開源模型適配提供了直接復用的算子通路。

▼ TileKernels算子庫開源地址：

https://github.com/tile-ai/tilelang-musa/tree/main/tilekernels

▼ TileLang-MUSA開源地址：

https://github.com/tile-ai/tilelang-musa

三層技術路徑，

完成DeepSeek-V4工程化適配

本次適配驗證了一條新模型快速推理部署的系統化工程路徑：通過MUSA對CUDA的全棧兼容，實現核心主流AI框架快速適配，復用開源 TileKernels算子替代標準融合模式，并借助AI Agent基于TileLang完成模型特異性算子的快速開發與驗證。

首先，MUSA軟件棧提供了FlashMLA、DeepGEMM、DeepEP等DeepSeek開源倉庫的兼容實現，使得推理依賴的Attention、FP8 GEMM、MoE dispatch/combine等關鍵計算、通信算子能夠在S5000上快速適配。

其次，面向SwiGLU + FP8 quant等標準融合模式，S5000可直接復用DeepSeek TileKernels原生算子實現Day 0開箱適配，通過摩爾線程MATE 開源算子庫在layout、dtype 、scale contract及接口層面與DeepGEMM深度兼容，消除熱點算子的格式、接口對齊開銷。得益于MUSA對AI軟件生態良好的兼容性，DeepSeek-V4在MUSA平臺上可實現從核心算子適配，到端到端拉起，再到系統級性能調優的工程級加速。

最后，針對DeepSeek-V4高度特異化的計算負載，摩爾線程借助AI Agent實現TileLang Kernel 自動生成及調試，圍繞算子語義分析、接口適配、Kernel實現與正確性及精度驗證等環節提升開發效率，完成RMSNorm、RoPE、Compress、Topk等多個核心自定義算子快速開發、集成。該方案在保證計算語義零偏差的前提下，顯著壓縮了Kernel級開發及適配周期，并進一步釋放關鍵算子的性能，例如，RMSNorm等帶寬瓶頸算子帶寬利用率可達80%。

原生FP8支持，

夯實混合精度推理底座

上述三層路徑快速打通，得益于摩爾線程S5000 原生FP8算力底座支撐，完整承接前沿混合精度模型推理需求，在保持模型精度的同時，實現高吞吐、低顯存占用與顯存帶寬的高效利用。

該能力深度對齊DeepSeek V4等先進MoE模型的精度演進范式，確保DeepGEMM、FlashMLA、DeepEP等核心算子在MUSA平臺上快速適配。

圍繞原生FP8能力，摩爾線程已完成涵蓋激活量化（SwiGLU FP8 quant）、MoE路由（routing）、注意力預處理（attention-prep）、緩存管理（FlashMLA cache store / paged metadata）及解碼壓縮（compressor decode/prefill）在內的關鍵模塊適配，并通過多層回歸測試，完成關鍵路徑正確性與穩定性的驗證。

FlashMLA DSA極致優化，

釋放長上下文推理性能

在完整模型鏈路適配的基礎上，摩爾線程在S5000上針對FlashMLA DSA的Prefill（預填充）與Decode（解碼）場景開展了專項優化，采用了一致的底層優化邏輯：緊密圍繞DeepSeek-V4 KV Cache的數據組織模式，直接完成稀疏KV讀取、Cache Layout解析、Attention計算及結果寫回，有效消除了額外的緩存重排（Rearrangement）開銷，同步支持Original + Extra雙路KV Cache機制及動態Top-k長度，通過TileLang對DSA算子進行深度優化，顯著提升了長上下文與稀疏注意力場景下的計算效率，最終DSA Prefill及Decode算子BF16 Tensor算力利用率可達50%，這還不是終點，我們還在繼續推進優化。

四層驗證體系，

確保生產級穩定和確定性

圍繞完整推理鏈路，摩爾線程建立了覆蓋MUSA Kernel驗證、算子級精度對齊、優化路徑選擇、端到端場景回歸四層驗證體系，確保關鍵算子在實際運行中的正確性及穩定性。當前，摩爾線程基于DeepSeek-V4的工作已進入性能調優、長上下文能力完善與生產級穩定性驗證階段。

后續，摩爾線程將持續深耕DeepGEMM、 MoE 調度、長上下文推理服務化部署等關鍵能力，推動DeepSeek-V4等前沿大模型在摩爾線程GPU平臺實現更高質量、更高效率的規模化部署。

從TileLang-MUSA對DeepSeek-V4 TileKernels的Day-0支持，到S5000基于FlagOS DeepSeek-V4 Pro和Flash雙模型推理鏡像發布，再到基于SGLang推理框架成功實現S5000 MUSA適配，摩爾線程正以“產品發布即適配、框架開源即支持”的節奏，持續推進國產GPU對前沿大模型的快速承接與深度優化。未來，摩爾線程將圍繞MUSA、TileLang與FlagOS生態，持續完善FP8推理、MoE調度、長上下文與端到端部署能力，為開發者和行業用戶提供性能穩定可靠、路徑可持續、生態可生長的國產 AI 算力底座。

▼ 開發者可下載鏡像進行開箱體驗：

registry.mthreads.com/mcconline/inference/sglang:deepseek-v4-s5000-4.3.5-torch2.9.0-20260430

▼ DeepSeek-V4推理服務部署指南：

https://blog.mthreads.com/blog/AI/2026-04-30-DeepSeek-V4%20%E6%8E%A8%E7%90%86%E6%9C%8D%E5%8A%A1%E9%83%A8%E7%BD%B2%E6%8C%87%E5%8D%97/

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

摩爾線程完成DeepSeek-V4全鏈路工程化適配：S5000基于MUSA+SGLang實現復雜MoE模型快速落地

評論

相關推薦

技術專區