主站
商城
論壇
自運營

注冊

新聞
專欄
娛樂
硬件
商城
電競
下載
論壇
MOD站
風靈月影

您的位置：首頁 > 新聞 > 電腦配件 > 新聞詳情

16384塊N卡訓練4050億參數(shù)大模型：3小時報錯一次

時間：2024-07-29 12:06:05

來源：快科技
作者：上方文Q
編輯：liyunfei

如今的AI大模型規(guī)模越來越龐大，動輒成百上千億參數(shù)，訓練過程不僅需要數(shù)萬甚至十幾萬塊GPU加速卡，出錯的幾率也越來越高。Meta(Facebook)就披露了一份驚人的報告。

Meta在報告中披露，為了訓練自己的Llama 3 4050億參數(shù)大模型，使用了包含16384塊NVIDIA H100 80GB GPU的集群，一共花了45天，期間居然出現(xiàn)了419次意外報錯，平均每3個小時就一次，而一半的錯誤都和GPU及其自帶的HBM3內(nèi)存有關。

16384塊N卡訓練4050億參數(shù)大模型：3小時報錯一次

要知道，大模型訓練的工作量異常龐大，而且需要高度同步，一次錯誤就可能導致整個訓練工作必須從頭再來。

報告顯示，為期45天的預訓練階段中，總共出現(xiàn)了466次工作中斷，其中47次是計劃內(nèi)的自動維護，419次是意外的，且大部分都來自硬件問題，GPU又是最多的，占了其中的58.7%。

具體來說，148次即30.1%的意外中斷來自各種GPU失效(包括NVLink總線)，72次即17.2%來自HBM3內(nèi)存失效——畢竟，700W的功耗太熱了。

16384塊N卡訓練4050億參數(shù)大模型：3小時報錯一次

還有19次來自GPU SRAM，17次來自GPU處理器，6次來自GPU靜默數(shù)據(jù)錯誤，6次來自GPU散熱和傳感器。

其他錯誤來自軟件bug、網(wǎng)線和網(wǎng)卡等等各個方面。有趣的是，CPU錯誤只出現(xiàn)了2次。

還好，Llama 3團隊非常給力，在這么高的出錯幾率下，依然維持了超過90%的有效訓練時間，而且只有三次GPU報錯需要大量人工干預，其他都被自動化管理糾正了。

0

相關資訊

標簽：顯卡

玩家點評（0人參與，0條評論）

收藏

違法和不良信息舉報

分享:

注冊

熱門評論

全部評論

近期熱門更多+

中國造“RTX4010”橫空出世：700元性能出奇的好《仙劍奇?zhèn)b傳四》重制版與原版對比畫質(zhì)天差地別《最終幻想7》女角新3D美圖蒂法愛麗絲太嬌媚了恒源祥女主播被質(zhì)疑擦邊穿著清涼引網(wǎng)友爭議吸引《流放2》玩家？《暗黑破壞神4》又開啟免費試玩 TGA美女主持人被網(wǎng)友們稱贊穿黑紗裙非常吸睛網(wǎng)友稱已經(jīng)拿到Switch 2真機或?qū)⒃?025年2月公布 RTX 5090、5080售價再曝光：英偉達讓兩者相差近萬元

他們都在說再看看

信你個鬼，糟資本家，壞的很，之前也說國產(chǎn)固態(tài)硬盤崛起，把國外價格打下來，，也就打了兩三個月，把4T硬盤打到八百多，2T硬盤打到三百多，1T硬盤打到一百多，，，兩三個月后呢，還不是跟那些巨頭同流合污把價格使勁往上抬了，到現(xiàn)在還不是跟之前一樣價格啊，

yu972569432 12月22日

首批國產(chǎn)顆粒DDR5內(nèi)存上市性價比讓三巨頭慌了

不肝不氪那圖你什么，做慈善？

恨兲奪莪一萬年 12月21日

《燕云十六聲》官方稱不肝不氪 12月25日預載開啟

小編是懂陰陽怪氣的[汗]

lcwanghan 12月21日

《星際：異端先知》壁紙欣賞女主喬丹的美麗

專欄文章更多+

3DM的讀者，你們怎么頭頂尖尖的？

把DLC做成游戲，這群波蘭人時隔兩年整了個好活

《紙嫁衣6千秋魘》PC版試玩報告：完全形態(tài)

《Warframe：1999》會是粉絲們期待的下一個“第二場夢”嗎？

單機發(fā)售更多+

紙嫁衣6千秋魘 rpg 2024-12-20

奪寶奇兵：古老之圈 avg 2024-12-09

潛行者2：切爾諾貝利之心 fps 2024-11-20

勇者斗惡龍3：HD-2D重制版 rpg 2024-11-15

野狗子：裂頭怪 act 2024-11-09

地平線：零之曙光重制版 arpg 2024-11-01

龍騰世紀：影障守護者 rpg 2024-10-31

使命召喚：黑色行動6 stg 2024-10-25

3DM自運營游戲推薦更多+

開始游戲進入官網(wǎng)

傳奇歲月
開始游戲進入官網(wǎng)

原始傳奇
安卓下載
 進入官網(wǎng)

斗羅大陸（我唐三認可0.1折）
安卓下載
 進入官網(wǎng)

妖神記之巔峰對決
安卓下載
 進入官網(wǎng)

坦克兄弟連（0.1折瘋狂千抽）
開始游戲
 進入官網(wǎng)

深淵契約
開始游戲
 進入官網(wǎng)

貓狩紀0.1折
開始游戲
 進入官網(wǎng)

同城麻將

搞笑娛樂更多+

沉睡超大質(zhì)量黑洞被發(fā)現(xiàn)：宇宙大爆炸后8億年形成

第二家采用HAMR技術的硬盤制造商即將出現(xiàn)

韓國美女Ru_a09Cos圖賞身材火辣顏值爆表！

3DM輕松一刻第1364期果然有臥龍的地方必有鳳雛

綜合內(nèi)容

單機游戲

游戲下載補丁MOD 原創(chuàng)攻略 XBOX PS5 發(fā)售表

手機游戲

安卓游戲蘋果游戲手游攻略手游禮包專題合集排行榜

網(wǎng)絡游戲

網(wǎng)游資訊競技賽事網(wǎng)游活動網(wǎng)游大全新游試玩激活碼

關于3DMGAME|招聘信息|網(wǎng)站地圖|聯(lián)系我們|媒體信息|家長監(jiān)護申請引導|家長監(jiān)護|漢化翻譯

京ICP備14006952號-1 京B2-20201630 京網(wǎng)文（2019）3652-335號滬公網(wǎng)安備 31011202006753號違法和不良信息舉報/未成年人舉報：legal@3dmgame.com

CopyRight?2003-2018 違法和不良信息舉報（021-54473036） All Right Reserved

登錄后免費暢享游戲內(nèi)容

APP玩家專屬福利：每日登錄抽大獎，各類福利領不停

驗證碼登錄密碼登錄

自動登錄忘記密碼新會員注冊

登錄

社交賬號登錄

3DM 歡迎新人加入

區(qū)號:

賬號:

密碼:

確認密碼:

驗證碼:

獲取驗證碼

收不到驗證碼？去反饋

注冊

我已同意《3DM賬號協(xié)議》

已有賬號？去登錄

APP掃碼登錄

打開“3DM游戲APP 首頁”

右上角“掃一掃”

下載3DM游戲APP

下載3DM游戲APP

立領 5元現(xiàn)金紅包!

<menuitem id="l6nkl"></menuitem>