摩爾線程完成DeepSeek-V4全鏈路工程化適配:S5000基于MUSA+SGLang實現復雜MoE模型快速落地
近日,摩爾線程依托旗艦級AI訓推一體智算卡MTT S5000與自研MUSA軟件棧,基于SGLang 開源推理框架,成功完成DeepSeek-V4的完整運行驗證。該成果表明,面向新一代MoE大模型,摩爾線程已構建起從硬件架構核心計算引擎承接、熱點算子支持,再到端到端部署驗證的系統化適配鏈路,驗證了國產GPU平臺對前沿大模型“框架級兼容、開箱即落地”的承載實力及工程化落地能力。
隨著大模型架構持續演進,DeepSeek-V4等先進模型對底層精度能力、算子覆蓋、編譯優化、并行通信和推理效率提出了嚴苛要求。摩爾線程充分發揮S5000原生FP8算力、MUSA對CUDA深度兼容、TileLang MUSA編譯器對TileLang生態完美支持等優勢,結合TileKernels開源庫復用,基于TileLang快捷開發自定義算子等手段,快速打通了DeepSeek-V4推理適配鏈路,再次驗證了摩爾線程為開發者和行業用戶提供高效、易部署的國產大模型運行軟硬件底座的能力。
值得注意的是,TileLang-MUSA已正式進入 TileLang官方主線,實現了對DeepSeek-V4最新發布TileLang算子庫TileKernels的Day-0無縫支持。這意味著MUSA平臺已具備承載前沿LLM算子生態的工程基礎,為后續先進開源模型適配提供了直接復用的算子通路。
▼ TileKernels算子庫開源地址:
https://github.com/tile-ai/tilelang-musa/tree/main/tilekernels
▼ TileLang-MUSA開源地址:
https://github.com/tile-ai/tilelang-musa
三層技術路徑,
完成DeepSeek-V4工程化適配
本次適配驗證了一條新模型快速推理部署的系統化工程路徑:通過MUSA對CUDA的全棧兼容,實現核心主流AI框架快速適配,復用開源 TileKernels算子替代標準融合模式,并借助AI Agent基于TileLang完成模型特異性算子的快速開發與驗證。
首先,MUSA軟件棧提供了FlashMLA、DeepGEMM、DeepEP等DeepSeek開源倉庫的兼容實現,使得推理依賴的Attention、FP8 GEMM、MoE dispatch/combine等關鍵計算、通信算子能夠在S5000上快速適配。
其次,面向SwiGLU + FP8 quant等標準融合模式,S5000可直接復用DeepSeek TileKernels原生算子實現Day 0開箱適配,通過摩爾線程MATE 開源算子庫在layout、dtype 、scale contract及接口層面與DeepGEMM深度兼容,消除熱點算子的格式、接口對齊開銷。得益于MUSA對AI軟件生態良好的兼容性,DeepSeek-V4在MUSA平臺上可實現從核心算子適配,到端到端拉起,再到系統級性能調優的工程級加速。
最后,針對DeepSeek-V4高度特異化的計算負載,摩爾線程借助AI Agent實現TileLang Kernel 自動生成及調試,圍繞算子語義分析、接口適配、Kernel實現與正確性及精度驗證等環節提升開發效率,完成RMSNorm、RoPE、Compress、Topk等多個核心自定義算子快速開發、集成。該方案在保證計算語義零偏差的前提下,顯著壓縮了Kernel級開發及適配周期,并進一步釋放關鍵算子的性能,例如,RMSNorm等帶寬瓶頸算子帶寬利用率可達80%。
原生FP8支持,
夯實混合精度推理底座
上述三層路徑快速打通,得益于摩爾線程S5000 原生FP8算力底座支撐,完整承接前沿混合精度模型推理需求,在保持模型精度的同時,實現高吞吐、低顯存占用與顯存帶寬的高效利用。
該能力深度對齊DeepSeek V4等先進MoE模型的精度演進范式,確保DeepGEMM、FlashMLA、DeepEP等核心算子在MUSA平臺上快速適配。
圍繞原生FP8能力,摩爾線程已完成涵蓋激活量化(SwiGLU FP8 quant)、MoE路由(routing)、注意力預處理(attention-prep)、緩存管理(FlashMLA cache store / paged metadata)及解碼壓縮(compressor decode/prefill)在內的關鍵模塊適配,并通過多層回歸測試,完成關鍵路徑正確性與穩定性的驗證。
FlashMLA DSA極致優化,
釋放長上下文推理性能
在完整模型鏈路適配的基礎上,摩爾線程在S5000上針對FlashMLA DSA的Prefill(預填充)與Decode(解碼)場景開展了專項優化,采用了一致的底層優化邏輯:緊密圍繞DeepSeek-V4 KV Cache的數據組織模式,直接完成稀疏KV讀取、Cache Layout解析、Attention計算及結果寫回,有效消除了額外的緩存重排(Rearrangement)開銷,同步支持Original + Extra雙路KV Cache機制及動態Top-k長度,通過TileLang對DSA算子進行深度優化,顯著提升了長上下文與稀疏注意力場景下的計算效率,最終DSA Prefill及Decode算子BF16 Tensor算力利用率可達50%,這還不是終點,我們還在繼續推進優化。
四層驗證體系,
確保生產級穩定和確定性
圍繞完整推理鏈路,摩爾線程建立了覆蓋MUSA Kernel驗證、算子級精度對齊、優化路徑選擇、端到端場景回歸四層驗證體系,確保關鍵算子在實際運行中的正確性及穩定性。當前,摩爾線程基于DeepSeek-V4的工作已進入性能調優、長上下文能力完善與生產級穩定性驗證階段。
后續,摩爾線程將持續深耕DeepGEMM、 MoE 調度、長上下文推理服務化部署等關鍵能力,推動DeepSeek-V4等前沿大模型在摩爾線程GPU平臺實現更高質量、更高效率的規模化部署。
從TileLang-MUSA對DeepSeek-V4 TileKernels的Day-0支持,到S5000基于FlagOS DeepSeek-V4 Pro和Flash雙模型推理鏡像發布,再到基于SGLang推理框架成功實現S5000 MUSA適配,摩爾線程正以“產品發布即適配、框架開源即支持”的節奏,持續推進國產GPU對前沿大模型的快速承接與深度優化。未來,摩爾線程將圍繞MUSA、TileLang與FlagOS生態,持續完善FP8推理、MoE調度、長上下文與端到端部署能力,為開發者和行業用戶提供性能穩定可靠、路徑可持續、生態可生長的國產 AI 算力底座。
▼ 開發者可下載鏡像進行開箱體驗:
registry.mthreads.com/mcconline/inference/sglang:deepseek-v4-s5000-4.3.5-torch2.9.0-20260430
▼ DeepSeek-V4推理服務部署指南:
https://blog.mthreads.com/blog/AI/2026-04-30-DeepSeek-V4%20%E6%8E%A8%E7%90%86%E6%9C%8D%E5%8A%A1%E9%83%A8%E7%BD%B2%E6%8C%87%E5%8D%97/






評論