久久6-波多野结衣av在线观看-a级在线观看-亚洲精品国产精品乱码不卡√香蕉-91免费小视频-久久网av-人妖粗暴刺激videos呻吟-久久中文字幕av-91人人干-日韩美女啪啪-欧美xxxx18国产-三级欧美韩日大片在线看-久久系列-日本成人片网站-五月婷激情-精品久久久久久亚洲-激情久久网站-光棍福利视频-国产又色又爽又黄-欧美极品视频在线观看

你的位置:首頁 > RF/微波 > 正文

摩爾線程MusaCoder開源:首個基于國產(chǎn)全功能GPU全棧訓(xùn)練的代碼大模型

發(fā)布時間:2026-06-11 來源:轉(zhuǎn)載 責(zé)任編輯:lily

【導(dǎo)讀】近日,摩爾線程正式發(fā)布并開源面向GPU底層算子生成的專用代碼大模型MusaCoder。這是業(yè)內(nèi)首個基于國產(chǎn)GPU算力底座完成全鏈路訓(xùn)練與驗證的開源代碼大模型,其完整后訓(xùn)練流程均在基于MTT S5000構(gòu)建的夸娥智算集群上完成。在KernelBench嚴(yán)格評測中,MusaCoder-27B-RL以O(shè)verall Pass@8 93.2%、Avg.@8 88.60%的成績,超越Claude Opus 4.7、GLM-5.1、DeepSeek-V4 Pro、Kimi K2.6等主流SOTA代碼模型,展現(xiàn)出在GPU原生Kernel生成任務(wù)上的領(lǐng)先性能。


160632eeszxssx1zjgeexz.png

KernelBench準(zhǔn)確率(Avg.@8)對比


MusaCoder模型權(quán)重已開源:https://huggingface.co/MooreThreads/MusaCoder-27B


MusaCoder論文地址:http://arxiv.org/abs/2606.04847


MusaCoder:專為GPU設(shè)計的高性能算子生成模型


MusaCoder是摩爾線程面向GPU底層算子生成任務(wù)設(shè)計的專用代碼大模型,包含9B和27B兩個參數(shù)規(guī)模。該模型重點(diǎn)支持從PyTorch標(biāo)準(zhǔn)算子自動生成高性能CUDA/MUSA原生Kernel代碼,旨在降低開發(fā)者手寫底層GPU算子的門檻,提升GPU高性能計算場景下的代碼生成、驗證和優(yōu)化效率。


傳統(tǒng)代碼大模型雖然具備較強(qiáng)的通用編程能力,但在GPU Kernel生成任務(wù)中仍面臨顯著挑戰(zhàn):一方面,GPU Kernel 對并行計算、線程組織、內(nèi)存訪問、索引映射和硬件執(zhí)行特性要求極高;另一方面,生成代碼不僅要語法正確,還必須能夠通過編譯、數(shù)值正確性驗證、反作弊檢測,并在真實執(zhí)行中獲得性能收益。


160632z4cc5e55djic5jzl.png

MusaCoder訓(xùn)練總流程


針對上述難點(diǎn),MusaCoder構(gòu)建了一套面向GPU原生算子(CUDA/MUSA)生成的大模型全棧后訓(xùn)練方法論。該流程覆蓋數(shù)據(jù)構(gòu)建、執(zhí)行驗證、強(qiáng)化學(xué)習(xí)優(yōu)化等關(guān)鍵環(huán)節(jié),使模型能夠從基礎(chǔ)代碼能力逐步進(jìn)化為具備底層算子生成與修復(fù)能力的專用模型。


在數(shù)據(jù)構(gòu)建階段,MusaCoder 通過結(jié)構(gòu)化推理過程和顯式 Shape 信息注入,增強(qiáng)模型對張量形狀、內(nèi)存布局和索引關(guān)系的理解,解決從通用代碼能力遷移到 GPU Kernel 生成任務(wù)時的冷啟動問題。


在評測與訓(xùn)練環(huán)境方面,摩爾線程構(gòu)建了 MooreEval 分布式執(zhí)行驗證系統(tǒng)。MooreEval 能夠?qū)δP蜕傻拇a進(jìn)行自動編譯、執(zhí)行、正確性驗證、性能測試和反作弊檢測,并將結(jié)果轉(zhuǎn)化為穩(wěn)定的訓(xùn)練反饋信號。這使得模型不僅能學(xué)習(xí)“寫出能運(yùn)行的代碼”,還能夠進(jìn)一步學(xué)習(xí)“寫出正確、合法且更高效的原生 GPU Kernel”。


在強(qiáng)化學(xué)習(xí)階段,MusaCoder針對GPU Kernel生成任務(wù)中的多輪修復(fù)、訓(xùn)練穩(wěn)定性和長尾困難樣本等問題,引入了PrimeEcho、MirrorPop和BDR等機(jī)制,用于提升模型在多輪調(diào)試場景下的修復(fù)能力和訓(xùn)練穩(wěn)定性。通過這些方法,MusaCoder打通了從基礎(chǔ)代碼微調(diào)到執(zhí)行反饋強(qiáng)化學(xué)習(xí)的完整優(yōu)化閉環(huán)。


核心成果:正確率與真實加速能力雙提升


在MooreEval執(zhí)行式驗證協(xié)議下,MusaCoder-27B-RL在KernelBench評測中取得了顯著領(lǐng)先表現(xiàn)。


160632zkjnok22eobue2yt.png

表1:KernelBench評估結(jié)果對比。Pass@8表示8個采樣代碼中至少有一個通過驗證,而Avg.@8則衡量8個樣本的平均正確率。


高準(zhǔn)確率超越SOTA:從正確率來看,MusaCoder-27B-RL的Overall Pass@8達(dá)到93.2%,Avg.@8達(dá)到88.60%,均超過Claude Opus 4.7的87.2%和77.30%。在更具挑戰(zhàn)性的Level 3任務(wù)上,MusaCoder-27B-RL的優(yōu)勢更加明顯。Level 3任務(wù)通常涉及復(fù)雜shape推導(dǎo)、索引映射和多算子組合,對模型的底層代碼理解能力和調(diào)試能力提出了更高要求。在該難度級別上,MusaCoder-27B-RL的Pass@8和Avg.@8分別領(lǐng)先Claude Opus 4.7的18個百分點(diǎn)和26.5個百分點(diǎn)。


真實加速能力突出:在MooreEval標(biāo)準(zhǔn)下,只有同時通過正確性驗證、合法性檢查,并且相比PyTorch baseline獲得有效加速的候選實現(xiàn),才會被計入 Faster Rate。MusaCoder-27B-RL的Overall Faster Rate達(dá)到15.0%(vs. PyTorch Eager)和9.2%(vs. torch.compile),分別高于Claude Opus 4.7的 11.8%和7.5%。


這表明MusaCoder不僅能夠更穩(wěn)定地生成正確的GPU Kernel,也更有能力生成具備實際性能收益的原生算子代碼。


國產(chǎn)GPU完成全流程后訓(xùn)練,驗證夸娥智算集群能力


MusaCoder模型的SFT(監(jiān)督微調(diào))、RFT(拒絕采樣微調(diào))、RL(強(qiáng)化學(xué)習(xí))、異步rollout、在線編譯執(zhí)行驗證及reward計算等全棧訓(xùn)練與驗證流程,均依托摩爾線程旗艦級AI訓(xùn)推一體智算卡MTT S5000所構(gòu)建的夸娥智算集群完成。


這一成果,充分驗證了國產(chǎn)GPU不僅能夠支撐大模型推理和常規(guī)微調(diào)任務(wù),更能夠穩(wěn)定承載代碼大模型后訓(xùn)練全周期算力需求。尤其是在GPU Kernel生成這一類任務(wù)中,訓(xùn)練系統(tǒng)需要頻繁進(jìn)行代碼生成、編譯、執(zhí)行、驗證和反饋計算,對硬件、編譯棧、運(yùn)行時、調(diào)度系統(tǒng)和評測基礎(chǔ)設(shè)施都提出了更高要求。


MusaCoder的成功實踐,將一次模型訓(xùn)練驗證沉淀為可復(fù)用的工程范式:不僅為AI Coding、AI Infra等基礎(chǔ)設(shè)施的自主可控提供了實踐范例,也展現(xiàn)了摩爾線程在AI軟件棧、訓(xùn)練平臺、評測系統(tǒng)和開源模型生態(tài)方面的完整工程支撐能力。


共建開放生態(tài),推動國產(chǎn)AI創(chuàng)新與應(yīng)用


MusaCoder的正式開源,旨在為MUSA生態(tài)提供面向PyTorch到原生算子生成的基礎(chǔ)模型能力,幫助開發(fā)者更高效地完成GPU Kernel 的生成、驗證、修復(fù)和優(yōu)化,降低底層算子開發(fā)門檻。


同時,MusaCoder也為高校、科研機(jī)構(gòu)和開源社區(qū)提供了一個基于國產(chǎn)全功能GPU的代碼生成研究平臺,推動異構(gòu)計算編程、AI編譯優(yōu)化和自動化Kernel生成等方向的開放研究與技術(shù)交流。


未來,摩爾線程將持續(xù)增強(qiáng)MusaCoder在復(fù)雜任務(wù)上的生成與修復(fù)能力,并進(jìn)一步探索與IDE插件、自動調(diào)試工具、profiling工具等開發(fā)者工具鏈的結(jié)合,逐步形成從PyTorch參考實現(xiàn)到MUSA原生Kernel的自動生成、驗證、修復(fù)和優(yōu)化閉環(huán),持續(xù)推動國產(chǎn)GPU生態(tài)建設(shè)與AI基礎(chǔ)設(shè)施創(chuàng)新。



gg_20260512171736_266.png

特別推薦
技術(shù)文章更多>>
技術(shù)白皮書下載更多>>
熱門搜索

關(guān)閉

?

關(guān)閉