中國版NV!摩爾線程GPU千卡集群化解AI算力國產(chǎn)化難題
- 來源:快科技
- 作者:上方文Q
- 編輯:liyunfei
這是一個(gè)AI的時(shí)代,這是一個(gè)算力的時(shí)代。遺憾的是,我們已經(jīng)無緣接觸到最先進(jìn)的AI硬件和算力,用著H20這樣閹割兩次的N卡,還要支付上百億元的費(fèi)用,實(shí)在憋屈。
面對持續(xù)上漲的AI算力需求,我們唯有發(fā)展自己的國產(chǎn)方案,發(fā)展自己的大規(guī)模AI算力集群,才能突破圍追堵截,走上康莊大道。
說到這里,很多人或許會(huì)第一時(shí)間想到華為,在美國制裁下頑強(qiáng)屹立突破的中國企業(yè)標(biāo)桿,昇騰910B在AI算力領(lǐng)域也取得了一定的成就。
當(dāng)然了,中國只依靠一個(gè)華為是不夠的。中國的AI生態(tài)需要遍地開花,才有可能多點(diǎn)突破,讓生態(tài)更繁榮。
目前來看,摩爾線程以全功能GPU走通用計(jì)算路線是另一條希望之路,尤其是它已經(jīng)成為華為之外,另一家可以實(shí)現(xiàn)千卡千億參數(shù)大模型訓(xùn)推的全國產(chǎn)AI芯片公司。
說起來,大家對摩爾線程并不陌生,其堪稱中國自主GPU最大的希望,但很多人對摩爾線程的認(rèn)知還停留在國產(chǎn)游戲顯卡,其實(shí)不然,摩爾線程在AI上也實(shí)力突出。
自成立以來,摩爾線程做的就是通用GPU,跟英偉達(dá)一樣,除了圖形渲染,也能用于AI人工智能加速、科學(xué)計(jì)算。
經(jīng)過三年多潛心發(fā)展,摩爾線程在AI GPU方面已經(jīng)展現(xiàn)了強(qiáng)勁的實(shí)力,構(gòu)建了一張從芯片、板卡、服務(wù)器,到集群、軟件棧的全棧AI智算產(chǎn)品版圖,并且已經(jīng)多點(diǎn)落地、處處開花。
比如和清華系A(chǔ)I大模型公司無問芯穹的合作。摩爾線程是第一家接入無問芯穹,并成功完成千卡級(jí)別大模型訓(xùn)練的國產(chǎn)GPU公司。
摩爾線程的“夸娥”(KUAE)千卡智算集群,已與無穹Infini-AI大模型開發(fā)與服務(wù)平臺(tái)完成系統(tǒng)級(jí)融合適配,并完成了LLama2 700億參數(shù)大模型的訓(xùn)練測試。近期,雙方又完成了“MT-infini-3B” 3B(30億參數(shù))大模型的實(shí)訓(xùn)。
這意味著什么呢?這是行業(yè)首個(gè)基于國產(chǎn)GPU芯片的從0到1的端到端大模型實(shí)訓(xùn)案例??涠鹨渤蔀闃I(yè)內(nèi)首個(gè)成功跑通并完整運(yùn)行國產(chǎn)大模型的千卡集群。
無問芯穹聯(lián)合創(chuàng)始人兼CEO夏立雪表示力挺:“經(jīng)過無問芯穹Infini-AI平臺(tái)的實(shí)訓(xùn)與聯(lián)合優(yōu)化工作驗(yàn)證,摩爾線程夸娥千卡智算集群在精度、性能、易用性和算力利用率上均有優(yōu)異表現(xiàn),而且在實(shí)訓(xùn)中實(shí)現(xiàn)了長時(shí)間穩(wěn)定訓(xùn)練不中斷,可以為千億參數(shù)級(jí)別大模型訓(xùn)練提供持續(xù)高效的高性能算力支持。”
另外,滴普科技、實(shí)在智能等也基于摩爾線程的夸娥千卡智算集群,成功完成了不同參數(shù)量級(jí)的大模型分布式訓(xùn)練測試,效率、精度、穩(wěn)定性都相當(dāng)完美?;谀柧€程夸娥千卡智算集群,滴普科技成功完成了700億參數(shù)LLaMA2大語言模型的預(yù)訓(xùn)練測試,訓(xùn)練時(shí)長共計(jì)77小時(shí),全程無故障連續(xù)運(yùn)行,集群訓(xùn)練穩(wěn)定性達(dá)到100%。
夸娥(KUAE)是摩爾線程推出的智算中心全棧解決方案,而夸娥這個(gè)名字來自我國神話傳說中的大力神夸娥氏,
可以說,為AI算力集群取這么一個(gè)名字,充分展現(xiàn)了獨(dú)屬于中國人的堅(jiān)忍不拔和浪漫情懷。出自《愚公移山》:“帝感其誠,命夸娥氏二子負(fù)二山,一厝朔東,一厝雍南。自此,冀之南,漢之陰,無隴斷焉?!?
夸娥解決方案的基本節(jié)點(diǎn)是大模型智算加速卡MTT S4000組成的雙路八卡GPU服務(wù)器“MCCX D800”,以軟硬件一體化交付、開箱即用的方式,高可靠地解決大規(guī)模GPU算力的建設(shè)和運(yùn)營管理問題。
MTT S4000是摩爾線程新一代專為AI大模型打造的智算加速卡,基于其自主研發(fā)的第三代MUSA架構(gòu)。
利用自研的MTLink互連技術(shù),MTT S4000可以高效千卡并行,線性加速比高達(dá)91%以上。
最為關(guān)鍵的是,摩爾線程擁有自研的全功能GPU MUSA統(tǒng)一系統(tǒng)架構(gòu),包括指令集架構(gòu)、MUSA 編程模型、驅(qū)動(dòng)、運(yùn)行時(shí)庫、算子庫、通訊庫、數(shù)學(xué)庫等,而且充分兼容CUDA軟件生態(tài),代碼可以幾乎零成本遷移,也無需擔(dān)心未來的可用性問題。
MTT S4000不但可用于大規(guī)模AI計(jì)算,還具備領(lǐng)先的圖形渲染能力、視頻編解碼能力、8K超高清顯示能力。
這使得它可為數(shù)字孿生、云游戲、云渲染、數(shù)字內(nèi)容創(chuàng)作等場景提供支持,并配合大模型推理能力,服務(wù)于AIGC等多模態(tài)業(yè)務(wù)場景。
從2024年的趨勢來看,多模態(tài)需求將快速崛起,英偉達(dá)CFO Colette Kress曾預(yù)計(jì)這塊業(yè)務(wù)將從零增長至數(shù)十億美元,對國產(chǎn)芯片來說也同樣如此。
MCCX D800作為AI大模型訓(xùn)推一體機(jī),是專為支持MTT S4000大模型智算加速卡充分發(fā)揮其訓(xùn)練與推理性能、穩(wěn)定性、可靠性的服務(wù)器系統(tǒng),同時(shí)兼容主流GPU軟硬件生態(tài)。
就這樣,從核心基礎(chǔ)層面的MUSA統(tǒng)一架構(gòu)芯片,到性能強(qiáng)大、可靈活部署的MTT S系列智算加速卡,到高度整合、完整方案的訓(xùn)推一體機(jī),到小型的智算微模塊,最終到夸娥千卡集群,摩爾線程提供了全套的全功能GPU產(chǎn)品組合。
如此一來,不同需求的客戶,都可以根據(jù)實(shí)際情況,選擇最適合自己的對應(yīng)層級(jí)方案。
夸娥智算中心全棧解決方案,包括底層的以夸娥計(jì)算集群為核心的基礎(chǔ)設(shè)施、中間層的KUAE Platform集群管理平臺(tái)、最上層的KUAE Model Studio大模型平臺(tái),軟硬一體開箱即用,一站式方案,一體化交付。
首先在基礎(chǔ)設(shè)施方面,全功能GPU是最堅(jiān)定的基石,具備AI加速計(jì)算、3D圖形渲染、超清視頻編解碼、物理仿真和科學(xué)計(jì)算四大計(jì)算引擎,在功能上是國內(nèi)唯一可以對標(biāo)NVIDIA的全功能國產(chǎn)GPU。
其次是軟硬一體,因?yàn)榕c傳統(tǒng)GPU從芯片到卡的路徑不同,摩爾線程走的是系統(tǒng)級(jí)平臺(tái)路線,不但有千卡規(guī)模的算力集群,還有集群管理平臺(tái)、大模型平臺(tái),從而做到軟硬結(jié)合,以一體化交付的方式,解決大規(guī)模GPU算力的建設(shè)和運(yùn)營管理問題。
最后是全棧方案,從底層基礎(chǔ)設(shè)施,到中間層管理平臺(tái),再到上層應(yīng)用,摩爾線程做到了全面覆蓋,具備云全棧能力,能夠有效地為千億參數(shù)大模型訓(xùn)練和推理提供強(qiáng)大支持。
總結(jié)來說,夸娥智算集群全棧方案有8大核心優(yōu)勢:
一是廣泛模型覆蓋,支持包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等數(shù)十種業(yè)界主流的多種大模型的訓(xùn)練和微調(diào)。
二是CUDA主流生態(tài)兼容,可利用摩爾線程代碼移植工具M(jìn)usify,幾乎零成本地將CUDA代碼自動(dòng)遷移到摩爾線程統(tǒng)一系統(tǒng)架構(gòu)MUSA,再快速完成優(yōu)化,而且完全獨(dú)立可靠。
三是斷點(diǎn)續(xù)訓(xùn),可以實(shí)時(shí)監(jiān)測訓(xùn)練任務(wù)集群,分鐘級(jí)發(fā)現(xiàn)故障,并自動(dòng)恢復(fù)訓(xùn)練,再加上檢查點(diǎn)備份恢復(fù),可以大大降低故障率,并將綜合訓(xùn)練效率提升15-50%。
四是大模型分布式訓(xùn)練,支持DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale等業(yè)界主流分布式框架,并融合多種并行算法策略,還支持大模型分布式訓(xùn)練斷點(diǎn)續(xù)訓(xùn)、分布式推理。
五是推理加速,包含了KUAEModel Studio一體化應(yīng)用平臺(tái)、MUSA Serving推理服務(wù)軟件、MT Transformer分布式推理加速框架、TensorX推理加速框架四大部分,可以有效支持主流大語言模型推理。
六是高性能通信,包括2/4/8卡節(jié)點(diǎn)內(nèi)互連、PCIe和自主研發(fā)的MT-Link鏈路帶寬聚合、自研MCCL集合通訊庫等,MT-Link帶寬高達(dá)112GB/s。
七是高性能存儲(chǔ),支持存儲(chǔ)數(shù)據(jù)經(jīng)RDMA網(wǎng)絡(luò)讀寫、GPU Direct Storage、數(shù)據(jù)讀寫加速、數(shù)據(jù)緩存加速、AI訓(xùn)練數(shù)據(jù)集加載加速、高性能并行文件系統(tǒng)、與外部存儲(chǔ)交換冷熱數(shù)據(jù),等等。
八是集群可靠性與性能,完全可以支持萬卡以上大規(guī)模GPU集群的運(yùn)行。
歷史無數(shù)次證明,越是艱難時(shí)刻,越需要國人勇敢地站出來,獨(dú)立自主,打破封鎖,AI算力時(shí)代亦是如此。
作為國內(nèi)率先落地的首個(gè)以全功能GPU為底座的全國產(chǎn)千卡千億模型訓(xùn)練平臺(tái),摩爾線程夸娥千卡集群方案實(shí)現(xiàn)了軟硬設(shè)計(jì)、性能算力、生態(tài)應(yīng)用的多方面突破,憑借自研軟硬架構(gòu)與開發(fā)平臺(tái)、通用計(jì)算路線,具備多方面的獨(dú)特優(yōu)勢。
尤其是在惡劣的國際環(huán)境下,在我國GPU技術(shù)相對薄弱的情況下,摩爾線程是最有希望破局的,全功能GPU唯一可以在功能上對標(biāo)媲美英偉達(dá),尤其是摩爾線程的創(chuàng)始團(tuán)隊(duì)基本都出自英偉達(dá),創(chuàng)始人張建中是原英偉達(dá)全球副總裁、中國區(qū)總經(jīng)理,不但有著豐富的行業(yè)經(jīng)驗(yàn)、雄厚的技術(shù)功底,更能做到知己知彼。
而在技術(shù)之外,GPU行業(yè)也迎來了政策利好,更有利于實(shí)現(xiàn)突圍。
比如北京市近期發(fā)布的《北京市算力基礎(chǔ)設(shè)施建設(shè)實(shí)施方案(2024-2027年)》就明確提出,加快推動(dòng)核心軟硬件產(chǎn)品自主可控,建設(shè)自主可控算力技術(shù)體系,推動(dòng)人工智能大模型與自主可控芯片開展適配。
對于采購自主可控GPU芯片、開展智能算力服務(wù)的企業(yè),按照投資額的一定比例給予支持,加速實(shí)現(xiàn)智算資源供給自主可控。
從千卡高效互連的算力領(lǐng)先,到軟硬一體的高度優(yōu)化,從大模型訓(xùn)練與推理一體化,到高度的穩(wěn)定性與可靠性,摩爾線程夸娥千卡集群在各個(gè)方面都已經(jīng)擁有成熟的經(jīng)驗(yàn),堪稱“中國英偉達(dá)”,最有希望實(shí)現(xiàn)國產(chǎn)自主替代,解決國內(nèi)AI算力緊缺的難題。
玩家點(diǎn)評 (0人參與,0條評論)
熱門評論
全部評論