版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
摘要我們推出了DeepSeek-V3,這是一個強大的混合專家(MoE)語言模型,總參數(shù)為671B,每個token激活37B。為了實現(xiàn)高效推理和具有成本效益的訓(xùn)練,DeepSeek-V3采用了多頭潛在注意力(MLA)和DeepSeekMoE架構(gòu),這些架構(gòu)在DeepSeek-V2中得到了充分驗證。此外,DeepSeek-V3開創(chuàng)了一種無輔助損失的負(fù)載平衡策略,并設(shè)定了多token預(yù)測訓(xùn)練目標(biāo),以實現(xiàn)更強的性能。我們在148萬億個多樣化和高質(zhì)量的token上對DeepSeek-V3進(jìn)行了預(yù)訓(xùn)練,隨后進(jìn)行了監(jiān)督微調(diào)和強化學(xué)習(xí)階段,以充分發(fā)揮其能力。全面評估表明,DeepSeek-V3的表現(xiàn)優(yōu)于其他開源模型型相媲美。盡管表現(xiàn)出色,DeepSeek-V3的完整訓(xùn)練僅需2.788MH800GPU小時。此外,其訓(xùn)練過程/deepseearxiv:241219437v1[csCL2024年12月27日arxiv:241219437v1[csCL2024年12月27日A92內(nèi)容A992架構(gòu)62.1.2DeepSeekMoE與無輔助損失負(fù)載平衡3基礎(chǔ)設(shè)施113.2.1DualPipe和計算-通信重疊123.2.2跨節(jié)點全到全通信的高效實現(xiàn)133.2.3極低開銷的極致內(nèi)存節(jié)省143.3FP8訓(xùn)練143.3.2量化和乘法帶來的精度提升163.4推理與部署184預(yù)訓(xùn)練224.5.2輔助損失自由平衡策略的消融研究2735后訓(xùn)練285.2強化學(xué)習(xí)295.3.3開放式評估335.4討論346結(jié)論、局限性和未來方向35A貢獻(xiàn)與致謝45C專家專業(yè)化模式的16B輔助損失基礎(chǔ)和無輔助損失模型484A近年來,大型語言模型(LLMs)正在經(jīng)歷快速的迭代和演變(Anthropic,2024;Google,2024;OpenAl,2024a),逐漸縮小與人工通用智能(AGDeepSeek系列(DeepSeek-AI,2024a,b,c;Guoetal.,2024)、LLaMA系列(Al@Meta,2024a,b;Touvronetal.,2023a,b)、Qwen系列(Qwen,2023,2024a,b)和Mistral系列(Jiangetal.,2023;Mistral,2024),也在取得顯著進(jìn)展,努力縮小與其閉源同行的差距。為了進(jìn)一步推動開源模型能力的邊界,我們擴大了模型規(guī)模,并推出DeepSeek-V3,這是一個具有671B參數(shù)的大型專家混合模型(MoE),其中每個token激活37B參數(shù)。DeepSeek-V3仍然采用多頭潛在注意力(MLA)(DeepSeek-Al,2024c)以實DeepSeekMoE(Daietal.,2024)以實現(xiàn)經(jīng)濟高效的訓(xùn)練。這兩種架構(gòu)已在DeepSeekV2能。除了基本架構(gòu)外,我們還實施了兩種額外策略,以進(jìn)一步增強模型能在預(yù)訓(xùn)練期間,我們在14.8T高質(zhì)量和多樣化的標(biāo)記上訓(xùn)練DeepSeek-V3。預(yù)訓(xùn)練過程非常穩(wěn)定。在整個訓(xùn)練過程中,我們沒有遇到任何不可恢復(fù)的損失峰值,也不需要回滾。接下來,我5AA小時2美元。和生成口度。我們在一系列綜合基準(zhǔn)上評估了DeepSeek-V3。盡管其訓(xùn)練成本經(jīng)濟,但全面評估顯示,DeepSeek-模型,并在一系列標(biāo)準(zhǔn)和開放式基準(zhǔn)上達(dá)到了與領(lǐng)先的閉源模型(包括GPT-40和Claude-3.5-最后,我們再次強調(diào)DeepSeek-V3的經(jīng)濟訓(xùn)練成本,如表1所示,這是通過我們優(yōu)化的算法、框架和硬件的共同設(shè)計實現(xiàn)的。在預(yù)訓(xùn)練階段,訓(xùn)練DeepSeek-V3每萬億個標(biāo)記僅需180KH800GPU小時,即在我們擁有2048個H800GPU的集群上僅需3.7天。因此,我們的預(yù)訓(xùn)練階段在不到兩個月的時間內(nèi)完成,耗時2664KGPU小時。結(jié)合119KGPU小時用于上下文口度擴展和5KGPU小時用于后訓(xùn)練,DeepSeek-V3的完整訓(xùn)練僅需2.788MGPU小時。假設(shè)H800GPU的租賃價格為每GPU小時2美元,我們的總訓(xùn)練成本僅為557.6萬美元。請注意,上述成本僅包括DeepSeek-V3的官方訓(xùn)練,不包括速推理?!ひ詢H2.664MH800GPU小時的經(jīng)濟成本,我們在14.8T標(biāo)記上完成了DeepSeek-V3的預(yù)訓(xùn)練,DeepSeekR1系列模型中的一個,轉(zhuǎn)化為標(biāo)準(zhǔn)LLMs,尤其是DeepSeek-V3。我們的流程優(yōu)雅地結(jié)合了6A·知識:(1)在教育基準(zhǔn)測試如MMLU、MMLU-Pro和GPQA上,DeepSeek-V3的表現(xiàn)優(yōu)于所有其他開源模型,在MMLU上獲得88.5分,在MMLU-Pro上獲得75.9分,在GPQA上獲得59.1分。它的表現(xiàn)與領(lǐng)先的閉源模型如GPT-40和Claude-Sonnet-3.5相當(dāng),縮小了這一領(lǐng)域開源模型與閉源模型之間的差距。(2)在事實性基準(zhǔn)測試中,DeepSeek-V3在SimpleQA和中文SimpleQA上表現(xiàn)出色,成為開源模型中的佼佼者。盡管在英語事實知識(SimpleQA)上落后于GPT-40和Claude-Sonnet-3.5,但在中文事實知識(中文SimpleQA)上超越了這些模型,突顯·代碼、數(shù)學(xué)和推理:(1)DeepSeek-V3在所有非口鏈思維的開源和閉源模型中,在與數(shù)學(xué)相關(guān)的基準(zhǔn)測試中達(dá)到了最先進(jìn)的性能。值得注意的是,它在特定基準(zhǔn)測試(如MATH-500)上甚至超越了01-preview,展示了其強大的數(shù)學(xué)推理能力。(2)在與編碼相關(guān)的任務(wù)中,DeepSeek-V3成為編碼競賽基準(zhǔn)測試(如LiveCodeBench)中表現(xiàn)最好的模型,鞏固了其在該領(lǐng)域的領(lǐng)先地位。在與工程相關(guān)的任務(wù)中,雖然DeepSeek-V3的表現(xiàn)略低于Claude-Sonnet-3.5,但仍然以顯著的優(yōu)勢超在本文的其余部分,我們首先詳細(xì)介紹我們的DeepSeek-V3模型架構(gòu)(第2節(jié))。隨后,我們介紹我們術(shù)、相關(guān)評估以及一些討論(第4節(jié))。之后,我們討論我們在后訓(xùn)練方面的努力,包括監(jiān)督微調(diào)(SFT)、強化學(xué)習(xí)(RL)、相應(yīng)的評估和討論(第5節(jié))。最后,我們總結(jié)這項工作,討論DeepSeek-V3的現(xiàn)有局限性,并提出未來研究的潛在方向(第6節(jié))。2.架構(gòu)我們首先介紹DeepSeek-V3的基本架構(gòu),其特點是多頭潛在注意力(MLA)(DeepSee用于高效推理,以及DeepSeekMoE(Dai等,2024)用于經(jīng)濟訓(xùn)練。然后,我們提出了一種多標(biāo)記預(yù)測DeepSeek-V3的基本架構(gòu)仍然在Transformer(Vaswani等,2017)框架內(nèi)。為了高效推理和經(jīng)濟訓(xùn)練,DeepSeek-V3還采用了MLA和DeepSeekMoE,這些在DeepSeek-V2中得到了充分驗71多頭注意力位用N-142031一個例外是我們額外引入了一個無輔助損失的負(fù)載平衡。圖2|DeepSeek-V3基本架構(gòu)的示意圖。繼DeepSeek-V2之后,我們采用MLA和DeepSeekMoE進(jìn)行高效推理和經(jīng)濟訓(xùn)練。策略(Wangetal.,2024a)用于DeepSeekMoE,以減輕因確保負(fù)載平衡而導(dǎo)致的性能下降。圖2展示了DeepSeek-V3的基本架構(gòu),我們將在本節(jié)中簡要回顧MLA和DeepSeekMoE的細(xì)節(jié)。2.1.1.多頭潛在注意力為了注意力,DeepSeek-V3采用MLA架構(gòu)。令d表示嵌入維度,n表示注意力頭的數(shù)量,d表示每個頭的維度,h∈R表示在給定注意力層中第t個標(biāo)記的注意力輸入。MLA的核心是對注意力鍵和值進(jìn)行低秩聯(lián)合壓縮,以減少推理期間的鍵值(KV)緩存:8(5)其中c∈R是鍵和值的壓縮潛在向量;d(<dn)表示KV壓縮維度;W∈R表示下投影矩陣;w,w∈R分別是鍵和值的上投影矩陣;W∈R是用于生成攜帶旋轉(zhuǎn)位置嵌入(RoPE)的解耦鍵的矩陣(Suetal.,2024);RoPE(·)表示應(yīng)用RoPE矩陣的操作;而[;]表示連接。請注意,對于MLA,僅在生成過程中需要緩存藍(lán)框中的向量(即c和k),這導(dǎo)致KV緩存顯著減少,同時保持與標(biāo)準(zhǔn)多頭注意力(MHA)(Vaswanietal對于注意力查詢,我們還執(zhí)行低秩壓縮,這可以在訓(xùn)練期間減少激活內(nèi)存:其中c∈R是查詢的壓縮潛在向量;d(<dn)表示查詢壓縮維度;W∈R,W∈R分別是查詢的下投影和上投影矩陣;而W∈R是生成攜帶RoPE的解耦查詢的矩陣。最終,注意力查詢(q)、鍵(k)和值(v)被組合以產(chǎn)生最終的注意力輸出u:其中W∈R表示輸出投影矩陣。2.1.2.DeepSeekMoE與無輔助損失負(fù)載平衡DeepSeekMoE的基本架構(gòu)。對于前饋網(wǎng)絡(luò)(FFNs),DeepSeek-V3采用了DeepSeekMoE架構(gòu)(Daietal.,2024)。與傳統(tǒng)的MoE架構(gòu)如GShard(Lepikhinetal.,2021)相比,DeepSeekMoE使用了更細(xì)粒度的專家,并將一些專家隔離為共享專家。設(shè)u為第t個標(biāo)記的FFN輸入,我們計算FFN輸出如9(15)其中N和N分別表示共享專家和路由專家的數(shù)量;FFN(·)和FFN(·)分別表示第i個共享專家和第i個路由專家;K表示激活的路由專家數(shù)量;g是第i個專家的口控值;s是令牌與專家的親和力;e是第i個路由專家的中心向量;Topk(·,K)表示包含針對第t個令牌和所有路由專家計算的親和力分?jǐn)?shù)中K個最高分?jǐn)?shù)的集合。與DeepSeek-V2略有不同,DeepSeek-V3使用sigmoid函數(shù)來計算親和力分?jǐn)?shù),并在所有選定的親和力分?jǐn)?shù)之間應(yīng)用歸一化以生成口控值。無輔助損失的負(fù)載均衡。對于MoE模型,不平衡的專家負(fù)載將導(dǎo)致路由崩潰(Shazeeretal.,2017),并在專家并行的場景中降低計算效率。傳統(tǒng)解決方案通常依賴于輔助損失(Fedusetal.,2021;Lepikhinetal.,2021)來避免不平衡負(fù)載。然而,過大的輔助損失會損害模型性能(Wangetal.,2024a)。為了在負(fù)載平衡和模型性能之間實現(xiàn)更好的權(quán)衡,我們首創(chuàng)了一種無輔助損失的負(fù)載均衡策略(Wangetal.,2024a)以確保負(fù)載平衡。具體來說,我們?yōu)槊總€專家引入一個偏置項b,并將其添加到相應(yīng)的親和力分?jǐn)?shù)s中,以確定前K個路由:請注意,偏置項僅用于路由。口控值將與FFN輸出相乘,仍然源自原始親和力分?jǐn)?shù)s。在訓(xùn)練過程中,我們持續(xù)監(jiān)控每個訓(xùn)練步驟整個批次的專家負(fù)載。在每個步驟結(jié)束時,如果其對應(yīng)的專家過載,我們將偏置項減少Y;如果其對應(yīng)的專家負(fù)載不足,我們將其增加Y,其中Y是一個稱為偏置更新速度的超參數(shù)。通過動態(tài)調(diào)整,DeepSeek-V3在訓(xùn)練過程中保持專家負(fù)載平衡,并比通過純輔助損失鼓勵負(fù)載平衡的模型實現(xiàn)更好的性能。互補序列級輔助損失。盡管DeepSeek-V3主要依賴于無輔助損失策略來實現(xiàn)負(fù)載平衡,但為了防止任何單個序列內(nèi)的極端不平衡,我們還采用了互補序列級平衡損失:其中平衡因子α是一個超參數(shù),對于DeepSeek-V3將被賦予一個極小的值;1(·)表示指示函數(shù);而T表示序列中的標(biāo)記數(shù)量。序列級平衡損失鼓勵每個序列上的專家負(fù)載保持平衡。AA交叉熵?fù)p失→42輸出頭變壓器塊TransformerBl'MTP模塊1交叉熵?fù)p失交叉熵?fù)p失線性投影線性投影變壓器塊嵌入層嵌入層t圖3|我們的多標(biāo)記預(yù)測(MTP)實現(xiàn)的示意圖。我們保持每個深度上每個標(biāo)記預(yù)測的完整因果鏈。節(jié)點限制路由。與DeepSeek-V2使用的設(shè)備限制路由類似,DeepSeek-V3也使用了一種受限路由機制,以限制訓(xùn)練期間的通信成本。簡而言之,我們確保每個令牌最多會發(fā)送到M個節(jié)點,這些節(jié)點是根據(jù)分布在每個節(jié)點上的專家的最高親和力得分之和進(jìn)行選擇的。在這一約束下,我們的MoE訓(xùn)練框架幾乎可以實現(xiàn)完全的計算-通信重疊。無丟棄令牌。由于有效的負(fù)載均衡策略,DeepSeek-V3在整個訓(xùn)練過程中保持良好的負(fù)載平衡。因此,DeepSeek-V3在訓(xùn)練期間不會丟棄任何令牌。此外,我們還實施了特定的部署策略,以確保推理負(fù)載平衡,因此DeepSeek-V3在推理期間也不會丟棄令牌。2.2.多標(biāo)記預(yù)測受到Gloeckle等人(2024)的啟發(fā),我們研究并為DeepSeek-V3設(shè)置了多標(biāo)記預(yù)測(MTP)目標(biāo),該目標(biāo)將預(yù)測范圍擴展到每個位置的多個未來標(biāo)記。一方面,MTP目標(biāo)密集化了訓(xùn)練信號,可能提高數(shù)據(jù)效率。另一方面,MTP可能使模型能夠預(yù)先規(guī)劃其表示,以更好地預(yù)測未來標(biāo)記。圖3說明了我們對MTP的實現(xiàn)。與Gloeckle等人(2024)并行預(yù)測D個額外標(biāo)記使用獨立輸出頭不同,我們順序預(yù)測額外標(biāo)記,并在每個預(yù)測深度保持完整的因果鏈。我們在本節(jié)中介紹MTP實現(xiàn)的細(xì)節(jié)。MTP模塊。具體來說,我們的MTP實現(xiàn)使用D個順序模塊來預(yù)測D個額外的標(biāo)記。第k個MTP模塊由一R組成。對于第i個輸入標(biāo)記t,在第k個預(yù)測深度,我們首先結(jié)合第(k-1)個深度的第i個標(biāo)記的表示hi∈我們首先將第i個標(biāo)記在(k-1)-th深度的表示hi∈R與第(i+k)-th標(biāo)記的嵌入Emb(t)∈R通過線性投影結(jié)合起h=M[RMSNorm(hi);RMSNo其中[;·]表示連接。特別地,當(dāng)k=1時,hi指的是主模型給出的表示。請注意,對于每個MTP模塊,其嵌入層與主模型共享。組合后的h作為第k層深度的Transformer塊的輸入,以生成當(dāng)前深度h的輸出表示:其中T表示輸入序列的口度,并表示切片操作(包括左邊界和右邊界)。最后,考慮輸入,共享輸出頭將計算第k個額外預(yù)測標(biāo)記P∈R的概率分布,其中V是詞匯表大?。狠敵鲱^OutHead(·)線性映射表示到logits,并隨后應(yīng)用Softmax(·)函數(shù)來計算第k個額外標(biāo)記的預(yù)測概率。此外,對于每個MTP模塊,其輸出頭與主模型共享。我們保持預(yù)測因果鏈的原則類似于EAGLE(Lietal.,2024b),但其主要目標(biāo)是推測解碼(Leviathanetal.,2023;Xiaetal.,2023),而我們利用MTP來改善訓(xùn)練。MTP訓(xùn)練目標(biāo)。對于每個預(yù)測深度,我們計算交叉熵?fù)p失L:其中T表示輸入序列口度,t表示第i個位置的真實標(biāo)記,P[t]表示由第k個MTP模塊給出的t的相應(yīng)預(yù)測概率。最后,我們計算所有深度的MTP損失的平均值,并乘以權(quán)重因子λ,以獲得整體MTP損失L,這作為DeepSeek-V3的額外訓(xùn)練目標(biāo):推理中的MTP。我們的MTP策略主要旨在提高主模型的性能,因此在推理過程中,我們可以直接丟棄MTP模塊,主模型可以獨立且正常地運行。此外,我們還可以將這些MTP模塊重新用于推測解碼,以進(jìn)一步提高生成延遲。3.基礎(chǔ)設(shè)施DeepSeek-V3在一個配備有2048個NVIDIAH800GPU的集群上進(jìn)行訓(xùn)練。H800集群中的每個節(jié)點包含8個通過NVLink和NVSwitch連接的GPU。在不同節(jié)點之間,使用InfiniBand(IB)互連來促進(jìn)通A▲向后塊圖4|一對個體前向和后向塊的重疊策略(變換器塊的邊界DeepSeek-V3的訓(xùn)練得益于HAI-LLM框架,這是一個由我們的工程師從零開始打造的高效輕量級訓(xùn)練框架??傮w而言,DeepSeek-V3應(yīng)用了16路管道并行(PP)(Qietal.,2023a)、64路專家并行(EP)(Lepikhinetal.,2021),跨越8個節(jié)點,以及ZeRO-1數(shù)據(jù)并行(DP)(Rajbhandarietal.,DualPipe的關(guān)鍵思想是在一對獨立的前向和后向個部分。nents:attention,all-to-alldispatch,MLP,andall-to-allcombine.Spe一個反向塊,注意力和MLP進(jìn)一步分為兩個部分,輸入的反向和權(quán)重的反向,類似于ZeroBubble(Qietal..2023b)。此外,我們還有一個PP通信組件。如圖4所示,對于一對前向和反向塊,我們重新排列這些組件,并手動調(diào)整專用于通信與計算的GPUSM的比例。在這種重疊策略中,我們可以確保在執(zhí)行期間,所有到所有和PP通信都可以完全隱藏。鑒于高效的重疊策略,完整的DualPipe調(diào)度如圖5所示。它采用雙向管道調(diào)度,同時從管道的兩端輸入微批次,并且大量通信可以完全重疊。A圖5|示例雙管道調(diào)度,適用于8個PP等級和20個微批次,分為兩個方向。反向的微批次與正向的微此外,即使在沒有重通信負(fù)擔(dān)的更一般場景中,DualPipe仍然表現(xiàn)出效率優(yōu)勢。在表2中,我們總結(jié)了耗。與Chimera(LiandHoefler,2021)相比,DualPipe只要求管道階段和微批次可被2整除,而不要求為了確保DualPipe的計算性能足夠,我們定制了高效的跨節(jié)點全到全通信內(nèi)核(包括調(diào)度和合并),以節(jié)GB/s的帶寬,約為IB(50GB/s)的3.2倍。為了有效利用IB和NVLink的不同帶寬,我們限制每個令牌最多分發(fā)到4個節(jié)點,從而減少IB流量。對于每個令牌,當(dāng)其路信完全重疊,每個節(jié)點的每個令牌可以高效地選擇平均3.2個專家,而不會產(chǎn)生來自NVLink的額外開銷。這意味著,盡管DeepSeek-V3A盡管DeepSeek-V3實際上只選擇8個路由專家,但它可以將這個數(shù)字?jǐn)U展到最多13個專家(4個節(jié)點×3.2專家/節(jié)點),同時保持相同的通信成本??傮w而言,在這種通信策略下,僅需20個SM就足詳細(xì)來說,我們采用了扭曲??诨夹g(shù)(Baueretal.,2014),調(diào)度過程中,(1)IB發(fā)送,(2)IB到NVLink轉(zhuǎn)發(fā),以及(3)NVLink接收由各自的扭曲處理。分配給每個通信任務(wù)的扭曲數(shù)量根據(jù)所有SM的實際工作負(fù)載動態(tài)調(diào)整。同樣,在合并過程中,(1)NVLink發(fā)送,(2)NVLink到IB的轉(zhuǎn)發(fā)和累積,以及(3)IB接收和累積也由動態(tài)調(diào)整的扭曲處理。此外,調(diào)度的PTX(并行線程執(zhí)行)指令,并自動調(diào)優(yōu)通信塊大小,這顯著減少了對L2緩存的使用和對其他SM的干擾。RMSNorm和MLA上投影的重新計算。我們重新計算所有RMSNorm操作。多標(biāo)記預(yù)測的共享嵌入和輸出頭。通過DualPipe策略,我們將模型的最淺層(包括嵌入層)和最深層(包括輸出頭)部署在同一個PP排名上。這種安排使得MTP模塊和主模型之間的共享嵌入和輸出頭的AA2FP32重量輸出梯度輸入梯度州重量∑重量輸出在大規(guī)模語言模型中,成功應(yīng)用低精度技術(shù)的研究相對較少。圖6|整體混合精度框架,使用FP8數(shù)據(jù)格預(yù)訓(xùn)練(F"man等2024為了解決這個挑戰(zhàn)有施E8式人輸8出般-矩>陣激乘活_(生NM)的關(guān)鍵方面。此低精度優(yōu)化器狀態(tài)。我們在兩個與DeepSeek-V2-Lite和DeepSeekV2類似的模型規(guī)模上驗證了所提出的FP8混合精度框架,訓(xùn)練大約1萬億個標(biāo)記(更多細(xì)節(jié)口附錄B.1)。值得注意的是,與BF16基線相比,我們的FP8訓(xùn)練模型的相對損失誤差始終保持在0.25%以下,這一水平在訓(xùn)練隨機性可接受范圍性地保持在其原始數(shù)據(jù)格式中,以平衡訓(xùn)練效率和數(shù)值穩(wěn)定性。整體框架如圖6所示。首先,為了加速模型訓(xùn)練,大多數(shù)核心計算內(nèi)核,即GE操作接受FP8張量作為輸入,并以BF16或FP32格式生成輸出。如圖6所示,與線性運算符相關(guān)的所有三個GEMM,即Fprop(前向傳播)、Dgrad(激活反向傳播)和Wgrad(權(quán)重反向傳播),均在FP8中執(zhí)行。與原始的BF16方法相比,這種設(shè)計理論上將計算速度提高了一倍。此外,F(xiàn)P8Wg一化運算符和注意力運算符。這些針對性的高精度保留確保了DeepSeek-V3的穩(wěn)定ANc1X重量NcNcWGMMA1WGMMA4WGMMA1WGMMA4NcCUDACores,從而提高FP8GEMM的精應(yīng)用縮放。如圖7(a)所示,(1)對于激活,我們在1x128的塊基礎(chǔ)上對元素進(jìn)行分組和縮放(即每個token每128個通道);(2)對于權(quán)重,我們在128x128的塊基礎(chǔ)上對元素進(jìn)行分組和縮放(即每128個輸入通道每128個輸出通道)。這種方法確保量化過程能夠更好地適應(yīng)異常值,通過根據(jù)更小的元素組調(diào)我們方法中的一個關(guān)鍵修改是在GEMM操作A下一代GPU的TensorCores(Blackwell系列)已宣布支持具有更小量化粒度的微縮格式(NVIDIA,提高累積精度。低精度GEMM操作通常會遭遇下溢問題,其準(zhǔn)確性在很大程度上依賴于高精度累積,這H800GPU上,F(xiàn)P8GEMM的累積精度僅限于保留約14位,這顯著低于FP32的累積精景,其中批量大小和模型寬度都在增加。以K=4096步測試中,TensorCores中有限的累積精度導(dǎo)致最大相對誤差接近2%。盡管存在這些問題,有限的累過程在圖7(b)中進(jìn)行了說明。具體來說,在TensorCores上執(zhí)行MMA(矩陣乘法-累加)時,使用有值得注意的是,這一修改降低了單個warpgroup的WGMMA(Warpgroup級矩陣乘加)指令發(fā)射率。們的實驗,設(shè)置N=128個元素,相當(dāng)于4個WGMMAs,代表了可以顯著提高精度而不引入大量開銷的2019b)相比,該格式在Fprop中使用E4M3(4位指數(shù)和3位尾數(shù)),在Dgrad和Wgrad中使用E5M2(5位指數(shù)和2位尾數(shù)),我們在所有張量上采用E4M3格式以提高精度。我們將這種方法的可行每個1×128激活塊或128x128權(quán)重塊的最大絕對值。基于此,我們推導(dǎo)出縮放因子,然后將激活或權(quán)重在耗和通信開銷。低精度優(yōu)化器狀態(tài)。我們采用BF16數(shù)據(jù)格式而不是F2017)優(yōu)化器中的第一和第二矩,而不會導(dǎo)致可觀察的性能下降。然而,主權(quán)重(由優(yōu)化器存儲)和梯度低精度激活。如圖6所示,Wgrad操作在FP8中執(zhí)行。為了減少內(nèi)存消耗,將激活緩存為FP8格式以舍五入縮放的,即整數(shù)的2的冪。(2)MoE中SwiGLU操作符的輸入。為了進(jìn)一線性輸入類似,這個激活的縮放因子是2的整數(shù)次冪。在MoE下投影之前,對激活梯度應(yīng)用類似的策我們在H800集群上部署DeepSeek-V3,其中每個節(jié)點內(nèi)的GPU通過NVLink互連,集群內(nèi)的所有A預(yù)填充階段的最小部署單元由4個節(jié)點和32個GPU組成。注意力部分采用4路張量并行(TP4)與序列并行(SP),結(jié)合8路數(shù)據(jù)并行(DP8)。其小的TP大小為4,限制了TP通信的開銷。對于MoE部分,我們使用32路專家并行(EP32),確保每個專家處理足夠大的批量大小,從而提高計算效率。對于在節(jié)點內(nèi)的GPU之間轉(zhuǎn)發(fā)。特別地,我們對淺層的稠密MLP使用1路張量并行,以節(jié)省TP通信。為了在MoE部分實現(xiàn)不同專家之間的負(fù)載均衡,我們需要確保每個GPU處理大約相同數(shù)量的標(biāo)記。為在線部署期間收集的統(tǒng)計數(shù)據(jù)進(jìn)行檢測的,并定期進(jìn)行調(diào)整(例如,每10分鐘)。在確定冗余專家集的情況下盡可能平衡GPU之間的負(fù)載。對于DeepSeek-V3的部署,我們在預(yù)填充階段設(shè)置了32個冗余專家。對于每個GPU,除了它所托管的原始8個專家外,它還將托管一個額外的冗余專家。調(diào)度和組合另一個。最后,我們正在探索一種動態(tài)冗余策略,針對專家,其中每個GPU托管更多的專家(例如,16個專家),但在每次推理步驟中僅激活9個。在每層的全到全操作開始之前,我們即時計算全局最優(yōu)路由方在解碼過程中,我們將共享專家視為路由專家。從這個角度來看,每個令牌在路由時將選擇9個專家,其中共享專家被視為一個重負(fù)載專家,始終會被選擇。解碼階段的最小部署單元由40個節(jié)點和320個分,每個GPU僅托管一個專家,64個GPU負(fù)責(zé)托管冗余專家和共享專家。調(diào)度和合并部分的全到全類似于預(yù)填充,我們定期根據(jù)我們在線服務(wù)的統(tǒng)計專家負(fù)載,在某個時間間隔內(nèi)確定冗余A與另一個微批次的調(diào)度+MoE+合并重疊。在解碼階段,每個專家的批量大小相對較小(通常在256個標(biāo)記以內(nèi)),瓶頸是內(nèi)存訪問而不是計算。由于MoE部分只需要加載一個專家的參數(shù),內(nèi)存訪問開銷最小,在DeepSeek-V3中,我們實現(xiàn)了計算與通信之間的的在H800GPU中分配了132個SM中的20個),這將限制計算吞吐量。此外,使用SM進(jìn)行通信會·執(zhí)行全到全合并的歸約操作。復(fù)雜性,我們希望該硬件能夠從計算單元的角度統(tǒng)一IB(擴展)和NVLink(升級)網(wǎng)絡(luò)。通過這的接口,計算單元可以通過基于簡單原語提交通信請求,輕松完成跨整個IB-NVLink統(tǒng)一域的讀取、寫NVIDIAHopper架構(gòu)的實現(xiàn),F(xiàn)P8GEMM(通用矩陣乘法)采用定點累加,通過根據(jù)最大指數(shù)右移對尾A我們的實驗表明,它僅使用每個尾數(shù)乘積的最高14位,在符號填充右移后截斷超出此范圍的位。然而,例如,為了從32個FP8×FP8乘法的累積中獲得精確的FP32結(jié)果,至少需要34位精度。因此,我們建議未來的芯片設(shè)計在TensorCores中增加累積精部分結(jié)果將從TensorCores復(fù)制到CUDA核心,乘以縮放因子,并添加到CUDA核心上的FP32寄存器中。盡管結(jié)合我們精確的FP32累積策略,去量化的開銷顯著減輕,但TensorCores和CUDA核心之們需要從高帶寬內(nèi)存(HBM)中讀取128個BF16激活值(前一次計算的輸出)進(jìn)行量化,然后將量化后和TMA(張量內(nèi)存加速器)訪問集成到一個單一的融合操作中,以便在將激活從全局內(nèi)存轉(zhuǎn)移到共享內(nèi)置,重新量化為128x1塊,并存儲在HBM中。為了減少內(nèi)存操作,我們建議未來的芯片在MMA操作之A與DeepSeek-V2相比,我們通過的多樣性。受到Ding等人(2024)的啟發(fā),我們實施了文檔打包方法以確保數(shù)據(jù)完整性,但在訓(xùn)練過程中不采用跨樣本注意力掩蔽。最后,DeepSeek-V3的訓(xùn)練語料庫由我們分詞器中的14.8T高質(zhì)量和在DeepSeekCoder-V2(DeepSeek-AI,2024a)的訓(xùn)練過程中,我們觀察到填充中間(FIM)策略并DeepSeekCoder-V2一致,我們在DeepSeek-V3的預(yù)訓(xùn)練中也采用了FIM策略。具體來說,我們使用前綴-后綴-中間(PSM)框架來構(gòu)建數(shù)據(jù),如下所示:fff。DeepSeek-V3的分詞器采用字節(jié)級BPE(Shibata等,1999),擴展詞匯量為128K個標(biāo)記。我們的分詞器的預(yù)分詞器和訓(xùn)練數(shù)據(jù)經(jīng)過修改,以優(yōu)化多語言壓縮效率。此外,與DeepSeek-V2相比,新的預(yù)分4.2.超參數(shù)模型超參數(shù)。我們將Transformer層的數(shù)量設(shè)置為61,隱藏維度設(shè)置為7168。所有可學(xué)習(xí)參數(shù)隨機初始化,標(biāo)準(zhǔn)差為0.006。在MLA中,我們將注意力頭的數(shù)量n設(shè)置為128,每個頭的維度d設(shè)置為128。KV壓縮維度d設(shè)置為512,查詢壓縮維度d設(shè)置為1536。對于解耦的查詢和鍵,我們將每個頭的維度d設(shè)置為64。我們用MoE層替換除了前三層之外的所有FFN。每個MoE層由1個共享專家和256個路由專家組成,其中每個專家的中間隱藏維度為2048。在路由專家中,每個token將激活8個專家,并確保每個token最多發(fā)送到4個節(jié)點。多token預(yù)測深度D設(shè)置為1,即除了確切的下一個token,每個token將RMSNorm層,并在寬度瓶頸處乘以額外的縮放因子。在此配置下,DeepSeek-V3總共有671B的參數(shù),其中每個token激活37B。訓(xùn)練超參數(shù)。我們使用AdamW優(yōu)化器(Loshchilov和Hutter,2017),超參數(shù)設(shè)置為β=0.9,β=A關(guān)于學(xué)習(xí)率調(diào)度,我們首先在前2K步內(nèi)將其線性增加從0到2.2×10。然后,我們保持2.2×10的恒定學(xué)習(xí)率,直到模型消耗10T訓(xùn)練標(biāo)記。隨后,我們在4.3T標(biāo)記中逐漸將學(xué)習(xí)率衰減到2.2×10,遵循余弦衰減曲線。在最后500B標(biāo)記的訓(xùn)練中,我們在前333B標(biāo)記中保持2.2×10的恒定學(xué)習(xí)率,并在剩余的167B標(biāo)記中切換到另一個恒定學(xué)習(xí)率7.3×10。梯度裁剪范數(shù)設(shè)置為1.0。我們采用批量大小調(diào)度策略,在前469B標(biāo)記的訓(xùn)練中,批量大小從3072逐漸增加到15360,然后在剩余的訓(xùn)練中保持屬于8個節(jié)點的64個GPU上。關(guān)于節(jié)點限制路由,每個標(biāo)記最多將發(fā)送到4個節(jié)點(即,M=4)。對于無輔助損失的負(fù)載平衡,我們將前14.3T標(biāo)記的偏置更新速度Y設(shè)置為0.001,剩余500B標(biāo)記的偏置更新速度設(shè)置為0.0。對于平衡損失,我們將a設(shè)置為0.0001,以避免任何單個序列中的極端不平衡。MTP損失權(quán)重入在前10T個標(biāo)記中設(shè)置為0.3,在剩余的4.8T個標(biāo)記中設(shè)置為0.1。我們采用與DeepSeek-V2(DeepSeek-AI,2024c)類似的方法,以在DeepSeek-V3中實現(xiàn)口上下文能力。在預(yù)訓(xùn)練階段之后,我們應(yīng)用YaRN(P階段,每個階段包含1000步,以逐步將上下文窗口從4K擴展到32K,然后到128K。YaRN配置與DeepSeek-V2中使用的配置一致,僅應(yīng)用于解耦40,α=1,β=32,以及縮放因子。到128K,批量大小減少到480。兩個階段的學(xué)習(xí)率設(shè)置為7.3×10,與預(yù)訓(xùn)練階段的最終學(xué)習(xí)率相匹通過這兩階段的擴展訓(xùn)練,DeepSeek-V3能夠處理口度達(dá)到128K的輸入,同時保持強大的性能。圖8顯示,經(jīng)過監(jiān)督微調(diào)的DeepSeek-V3在“NeedleInAHaystaDeepSeek-V3的基礎(chǔ)模型在一個多語言語料庫上們在HAl-LLM框架中集成的內(nèi)部評估框架。考慮的基準(zhǔn)被分類多學(xué)科多項選擇數(shù)據(jù)集包括MMLU(HendrycksMMLU-Pro(Wangetal.,2024b)、MMMLU(O al.,2018)和BigBenchHard(BBH)閉卷問答數(shù)據(jù)集包括TriviaQA(Joshi等,2017)和NaturalQuestions(Kwiatkowski等,2019)。閱讀理解數(shù)據(jù)集包括RACELai等(2017)、DROP(Dua等,2019)、C3(Sun等,2019a)和CMRC數(shù)學(xué)數(shù)據(jù)集包括GSM8K(Cobbe等,2021年)、MATH(Hendrycks等,2021年)、MGSM(Shi等,2023年)和CMath(Wei等,2023年)。代碼數(shù)據(jù)集包括HumanEval(Chenetal.,2021)、LiveCodeBench-Base(0801-1101)(Jainetal.,2024)、MBPP(Austinetal.,202標(biāo)準(zhǔn)化考試包括AGIEval(Zhong等,2023)。請注意,AGIEval包括英語和中文子集。根據(jù)我們之前的工作(DeepSeek-Al,2024b,c),我們對包括HellaSwag、PIQA、WinoGrande、RACE-Middle、RACE-High、MMLU、MMLU-Redux、MMLU-Pro、MMMLU、AChallenge、C-Eval、CMMLU、C3和CCPM在內(nèi)的數(shù)據(jù)集采用基于困惑度的評估,并對TriviaQA、NaturalQuestions、DROP、MATH、GSM8K、MGSM、HumanEval、MBPP、LiveCRUXEval、BBH、AGIEval、CLAADeepSeek-V2Qwen2.5LLaMA-3.1D架構(gòu)-MoE密集密集MoE#激活參數(shù)-2hB72B405B37B日87.1MMLU-Redux5-shot75.694.595.395.3HellaSwaWinoGrande5-shot86.382.385.28441.540.0AGIEval0-shot57.575786.2MMLU-Pro5A0-shot83.982.685.7HumanEval0-shot43.353.054.93-shot11.612.915.519GSM8K8-shot81.688.383.589.Math69.979.8CMath3-shotCLUEWSC5-shot82.082.583.082.7中文多語言MMMLU-非英語5-shot64.074.873.879.4并共享相同的評估設(shè)置。得分差距不超過0.3的被視為處于同一水平。DeepSeekV3-Base在大多數(shù)基準(zhǔn)在表3中,我們將DeepSeek-V3的基礎(chǔ)模型與最先進(jìn)的開源基礎(chǔ)模型進(jìn)行比較,包括DeepSeek-V2-Base(DeepSeek-AI,2024c)(我們之前的版本)、Qwen2.572之前報告的結(jié)果略有不同。總體而言,DeepSeek-V3-Base在各方面都優(yōu)于DeepSeek-V2-Base和Qwen2.572BBase,并在大多數(shù)基準(zhǔn)A從更詳細(xì)的角度來看,我們將DeepSeek-V3-Base與其他開源基礎(chǔ)模型逐一進(jìn)行比較。(1)與DeepSeek-V2-Base相比,由于我們模型架構(gòu)的改進(jìn)、模型規(guī)模和訓(xùn)練標(biāo)記的增加以及數(shù)據(jù)質(zhì)量的提升,DeepSeek-V3-Base的性能顯著提高,符合預(yù)期。(2)與Qwen2.572BBase相比,這一最先進(jìn)的中文開源模型,DeepSeek-V3-Base在激活參數(shù)僅為其一半的情況下,仍展現(xiàn)出顯著優(yōu)勢,特別是在英外,DeepSeek-V3-Base的表現(xiàn)也優(yōu)于Qwen2.572B。(3)與LLaMA-3.1405BBase相比,這一激活參數(shù)是其11倍的最大開源模型,DeepSeek-V3-Base在多語言、代碼和數(shù)學(xué)基準(zhǔn)測試中也表現(xiàn)得更好。至于英語和中文語言基準(zhǔn)測試,DeepSeek-V3-Base表現(xiàn)出競爭力或更好的性能,尤其在BBH、礎(chǔ)設(shè)施下,訓(xùn)練DeepSeek-V3每萬億個標(biāo)記僅需180KH800GPU小時,這比訓(xùn)練72B或405B稠基線w/MTP基線w/MTP樁測試-0.7290.7290.6580.6574.5.討論在表4中,我們展示了MTP策略的消融結(jié)果。具體來說,我們在兩個基線模型上驗證了MTP策略,涵蓋不同的規(guī)模。在小規(guī)模下,我們在1.33T大規(guī)模下,我們在540B個標(biāo)記上訓(xùn)練了一個包含228.7B總參數(shù)的基線MoE模型。在此基礎(chǔ)上,保持訓(xùn)練數(shù)據(jù)和其他架構(gòu)不變,我們在它們上面附加了一個1深度的MTP模塊,并訓(xùn)練了兩個使用MTP策ABBH3-shot37.339.366.76ABBH3-shot37.339.366.762.640.246.3MBPP3-shot36.635.8小MoE小MoE大MoE大MoE輔助損失基礎(chǔ)輔助損失無輔助損失基礎(chǔ)aturalQuestions5-shot表5|無輔助損失平衡策略的消融結(jié)果。與純粹基于輔助損失的方法相比,無輔助損失策略在大多數(shù)評估在表5中,我們展示了無輔助損失平衡策略的消融結(jié)果。我們在兩個基線模型上驗證了這一策略,涵蓋不模下,我們訓(xùn)練了一個基線MoE模型,包含228.7B總參數(shù),使用578B標(biāo)記。這兩個基線模型純粹使用輔助損失來促進(jìn)負(fù)載平衡,并使用帶有to強度的超參數(shù)與DeepSeek-V2-Lite和DeepSeek-V2相同。在這兩個基線模型的基礎(chǔ)上,保持訓(xùn)練數(shù)16B輔助損失的基線模型和16B無輔助損失模型在不同領(lǐng)域的專家負(fù)載。如圖9所示,我們觀察到無輔中,驗證損失為:2.258(使用序列輔助損失)、2.253(使用無輔助損失方法)和2.253(使用批次輔助ADM數(shù)學(xué)DM數(shù)學(xué)維基百科(en)DM數(shù)學(xué)0253(使用批量方式的圖9|在Pile測試集的三個領(lǐng)域中,無輔助損失和基于輔助損失模型的專家負(fù)載。無輔助損失模型顯示出比基于輔助損失模型更大的專家專業(yè)化模式。相對專家負(fù)載表示實際專家負(fù)載與理論平衡專家負(fù)載之間的比率。由于空間限制,我們僅提供兩個層的結(jié)果作為示例,所有層的結(jié)果口附錄輔助損失)。我們還觀察到3BMoE模型上有類似的結(jié)果:使用序列輔助損失的模型驗證損失為2.085,而使用無輔助損失方法或批量輔助損失的模型驗證損失均為2.080。此外,盡管批量負(fù)載均衡方法顯示出一致的性能優(yōu)勢,但它們在效率上也面臨兩個潛在挑戰(zhàn):(1)某些序列或小批量內(nèi)的負(fù)載不平衡,以及(2)推理過程中由領(lǐng)域轉(zhuǎn)移引起的負(fù)載不平衡。第一個挑戰(zhàn)自然通過我們的訓(xùn)練框架得到解決,該框架使用大規(guī)模專家并行和數(shù)據(jù)并行,確保每個微批量的大小較大。對于第二個挑戰(zhàn),我們還設(shè)計并實現(xiàn)了一個高效的推理框架,采用冗余專家部署,如第3.4節(jié)所述,以克服5.訓(xùn)練后5.1.監(jiān)督微調(diào)我們策劃我們的指令調(diào)優(yōu)數(shù)據(jù)集,包括150萬個實例,涵蓋多個領(lǐng)域,每個領(lǐng)域采用不同的數(shù)據(jù)創(chuàng)建方法,以滿足其特定需求。推理數(shù)據(jù)。對于與推理相關(guān)的數(shù)據(jù)集,包括那些專注于數(shù)學(xué)、代碼競賽問題和邏輯難題的數(shù)據(jù)集,我們通過利用內(nèi)部的DeepSeek-R1模型生成數(shù)據(jù)。具體而言,雖然R1生成的數(shù)據(jù)表現(xiàn)出較強的準(zhǔn)確性,但也存在過度思考、格式不佳和口度過口等問題。我們的目標(biāo)是平衡R1生成的推理數(shù)據(jù)的高準(zhǔn)確性與常規(guī)格式化推理數(shù)據(jù)的清晰性和簡潔性。A為了建立我們的methodology,我們首先開發(fā)一個針對特定領(lǐng)域(如代碼、數(shù)學(xué)或一般推理)的專家模,而第二種則在問題和R1響應(yīng)的基礎(chǔ)上加入系統(tǒng)提示,格式為。體性能。非推理數(shù)據(jù)。對于非推理數(shù)據(jù),例如創(chuàng)意寫作SFT設(shè)置。我們使用SFT數(shù)據(jù)集對DeepSeek-V3-Base進(jìn)行兩輪微調(diào),采用從5×10開始并逐漸降低到1×10的余弦衰減學(xué)習(xí)率調(diào)度。在訓(xùn)練過程中,每個單獨的序列是由多個樣本打包而成。然而,我們采如,某些數(shù)學(xué)問題具有確定的結(jié)果,我們要求模型在指定格式內(nèi)(例如,在一個框中)提供最終答案,從獎勵模型的任務(wù)是根據(jù)問題和相應(yīng)的答案作為輸入提供反饋。獎勵模型是從DeepSeek-V3SFT檢查點進(jìn)行訓(xùn)練的。為了增強其可靠性,我們構(gòu)建了偏好數(shù)據(jù),不僅提供最終獎勵,還包括導(dǎo)致獎勵的思維鏈。這種方法有助于降低特定任務(wù)中獎勵黑客攻擊的口險。5.2.2.群體相對政策優(yōu)化類似于DeepSeek-V2(DeepSeek-Al,2024c),我們采用了群體相對策略優(yōu)化(GRPO)(Shaoetal.,2024),該方法放棄了通常與策略模型大小相同的評論模型,而是從群體得分中估計基線。具體來說,對于每個問題q,GRPO從舊的策略模型πold中抽樣一組輸出{o,o,···,o},然后通過最大化以下目標(biāo)來優(yōu)化策略模型π:其中e和β是超參數(shù);π是參考模型;而A是優(yōu)勢,源自于每組輸出對應(yīng)的獎勵{r,r,...,r}:我們在強化學(xué)習(xí)過程中融入來自不同領(lǐng)域的提示,例如編碼、數(shù)學(xué)、寫作、角色扮演和問答。這種方法不僅使模型更貼近人類偏好,還提高了基準(zhǔn)測試的性能,特別是在可用的監(jiān)督微調(diào)數(shù)據(jù)有限的情況下。5.3.1.評估設(shè)置評估基準(zhǔn)。除了我們用于基礎(chǔ)模型測試的基準(zhǔn)外,我們還在IFEval(Zhouetal.,2023)、FRAMES(Krishnaetal.,2024)、LongBenchv2(Baietal.,2024)、GPQA((OpenAl,2024c)、CSimpleQA(Heet高中數(shù)學(xué)奧林匹克(CNMO2024)和2024年美國邀請數(shù)學(xué)考試(AIME2024)(MAA,2024)上進(jìn)一步評估指令模型。比較基準(zhǔn)。我們對我們的聊天模型與幾個強基準(zhǔn)進(jìn)行全面評估,包括DeepSeek-V2-0506、DeepSeek-V2.5-0905、Qwen2.572BInstruct、LLaMA-3.1405BInstruct、Claude-Sonnet-3.5-102240-0513。對于DeepSeek-V2模型系列,我們選擇最具代表性的變體進(jìn)行比較。對于閉源模型,通過各自的API進(jìn)行評估。3/Home/comp/comp/cid/AHumanEval-Mul數(shù)據(jù)集總共包括8種主流編程語言(Python、Java、Cpp、C#、JavaScript、TypeScript、PHP和Bash)。我們使用CoT和非CoT方法評估模型在LiveCodeBench上的表現(xiàn),數(shù)據(jù)收集時間為2024年8月至2024年11月。Codeforces數(shù)據(jù)集的測量使用競爭者的百分比。SWE-準(zhǔn)。對于數(shù)學(xué)評估,AIME和CNMO2024的評估溫度為0.7,結(jié)果在16次運行中取平均,而MATH-500則采用貪婪解碼。我們允許所有模型在每個基準(zhǔn)上輸出最多8192個標(biāo)記。DeepSeekDeepSeekQwen2.5LLaMA-3.1Claude-3.5-GPT-40V2.5-090572B-Inst.405B-Inst.Sonnet-10220513架構(gòu)MoEMoE稠密稠密MoE#激活參數(shù)21B21串72B405B-37B#總參數(shù)236B236B72B4 dux77.980.385.686.288.988gBenchv231.635.439436.14HumanEval-Mul69.377.veCodeBench18.836.33bdeforces17.535.624.825.320.323.651.6ECodeVerfied-22.623..371.665.463.984.272.979.7AAIME20244.616.723.Math10.815.96.813.110.8430056.374.780.073.878.374.690.2CN中文54.148.450.451.359.364.878.679.586.161.576.776.086.估。包含少于1000個樣本的基準(zhǔn)測試使用不同的溫度設(shè)置進(jìn)行多次測試,以得出穩(wěn)健的最終結(jié)果。4/openai/simple表6展示了評估結(jié)果,表明DeepSeek-V3是表現(xiàn)最好的開源模型。此外,它在與前沿的閉源模型如GPT-40和Claude-3.5-Sonnet的競爭中也表現(xiàn)出色。DeepSeek-V3展現(xiàn)出競爭力的表現(xiàn),與頂級模型如LLaMA3.1-405B、GPT-40和Claude-Sonnet教育知識基準(zhǔn)中表現(xiàn)出色,緊隨Claude-Sonnet3.5。在MMLU-Redux這一經(jīng)過修正標(biāo)簽的MMLU精簡版中,DeepSeek-V3超越了其同行。此外,在GPQA-Diamond這一博士級評估測試平臺上,DeepSeek-V3取得了顯著的成績,僅次于Claude3.5Sonnet,并大幅超越所有其他競爭對手。在口文本理解基準(zhǔn)測試中,如DROP、LongBenc級模型的地位。在DROP的3-shot設(shè)置中,它取得了令人印象深刻的91.6F1分?jǐn)?shù),所有其他模型。在FRAMES中,這是一個需要在超過10萬標(biāo)記上下文中進(jìn)行問答的基準(zhǔn),DeepSeek-V3緊隨GPT-40之后,同時顯著超越了所有其他模型。這證明了DeepSee于GPT-40和Claude-Sonnet,主要是由于其設(shè)計重點和資源分配。DeepSeek-V3分配了更多標(biāo)記來學(xué)習(xí)中文知識,從而在C-SimpleQA上表現(xiàn)出色。在遵循指令的基準(zhǔn)測試中,DeepSeek-V3顯代碼和數(shù)學(xué)基準(zhǔn)。編碼是一個具有挑戰(zhàn)性和實用性的任務(wù),涉及以工程為重點的任務(wù),如SWE-Bench-Verified和Aider,以及算法任務(wù),如HumanEval和LiveCodeBench。在工程任務(wù)中,DeepSeek-V3落后于Claude-Sonnet-3.5-1022,但顯著優(yōu)于開源模型。開源的DeepSeek-V3預(yù)計將促進(jìn)與編碼相關(guān)的工程任務(wù)的進(jìn)步。通過提供其強大能力的訪問,DeepSeek-V3可以推動軟件工程和算法開發(fā)等領(lǐng)域的DeepSeek-V3表現(xiàn)出色,在HumanEval-Mul和LiveCodeBench等基準(zhǔn)測試中超越了所有基線。這一在數(shù)學(xué)基準(zhǔn)測試中,DeepSeek-V3展現(xiàn)了卓越的性能,顯著超越了基線,并為非01-like模型設(shè)定了新的最先進(jìn)水平。具體而言,在AIME、MATH-500和CNMO2024上,DeepSeek-V3的絕對得分比第二名模型Qwen2.572B高出約10%,這對于如此具有挑戰(zhàn)性的基準(zhǔn)測試來說是一個相當(dāng)大的差距。這一AA模型Arena-HardAlpacaEva表7|英語開放式對話評估。對于AlpacaEval2.0,我們使用口度控制的勝率作為指標(biāo)。ChineseSimpleQA上,DeepSeekV3超越了Qwen2.5-72B,領(lǐng)先16.4分,盡管Qwen2.5是在一個包含18T標(biāo)記的大型語料庫上訓(xùn)練的,比DeepSeek-V3預(yù)訓(xùn)練的14.8T標(biāo)記多出20%。在C-Eval,一個代表性的中文教育知識評估基準(zhǔn),以及CLUEWSC(中文Winograd模式挑戰(zhàn)),DeepSeek-V3和Qwen2.5-72B表現(xiàn)出相似的性能水平,表明這兩個模型在具有挑戰(zhàn)性的中文推理和教除了標(biāo)準(zhǔn)基準(zhǔn)測試,我們還使用LLMs作為評審,在開放式生成任務(wù)上評估我們的模型,結(jié)果如表7所示。具體而言,我們遵循AlpacaEval2.0(Duboisetal.,2024)和Arena-Hard(Lietal.,2024a)的原始配置,利用GPT-4-Turbo-1106作為成對比較的評審。在Arena-Hard上,DeepSeek-V3以超過86%的勝率擊敗基線GPT-4-0314,表現(xiàn)與Claude-Sonnet-3.5-1022等頂級模型相當(dāng)。這突顯了DeepSeek-V3的強大能力,特別是在處理復(fù)雜提示時,包括編碼和調(diào)試任務(wù)。此外,DeepSeek-V3作為第一個在Arena-Hard基準(zhǔn)測試中超過85%的開源模型,達(dá)成了突破性的里程碑。這一成就顯著縮小和處理簡單問答場景方面的卓越能力。值得注意的是,它比DeepSeek-V2.5-0905超出了20%的顯著5.3.4.DeepSeek-V3作為生成獎勵模型我們將DeepSeek-V3的判斷能力與最先進(jìn)的模型進(jìn)行比較,即GPT-40和Claude-3.5。表8展示了這些模型在RewardBench中的表現(xiàn)(Lambert等,2024)。DeepSeek-V3的表現(xiàn)與GPT-4o-0806和Claude-3.5-Sonnet-1022的最佳版本相當(dāng),同時超越了其他版本。此外,DeepSeek-V3的判斷能力還GPT-4o-051396.670.486.784.984.7GPT-40-080696.176.1886.7GPT-40-112095.871.38Claude-3.5-sonnet-062096.474.081.684.784.2Claude-DeepSeek-V396.979.887.084.387.0DeepSeek-V3(maj@6)96從而改善表8|GPT-40、Claude-3.5-sonnet和DeepSeek-V3在RewardBench上的表現(xiàn)。模型74.6769DeepSeek-V2.5+R1蒸餾37.4表9|DeepSeek-R1的蒸餾貢獻(xiàn)。LiveCodeBench和MATH-500的評估設(shè)置與表6相同。5.4.討論我們基于DeepSeek-V2.5消除了來自DeepSeek-R1的蒸餾貢獻(xiàn)。基線是在短CoT數(shù)據(jù)上訓(xùn)表9展示了蒸餾數(shù)據(jù)的有效性,在LiveCodeBench和MATH-500基準(zhǔn)測試中都顯示出顯著的改進(jìn)。型準(zhǔn)確性和計算效率之間保持平衡,我們仔細(xì)選擇了De通過硬編碼構(gòu)建反饋機制是不切實際的。在DeepSeek-V3的開發(fā)過程中,對于這些更廣泛的背景,我們DeepSeek-V3可以朝著憲法方向進(jìn)行優(yōu)化。我們相信,這種將補充信息與LLMs結(jié)合作為反饋來源的范LLMs的自我改進(jìn)。除了自我獎勵,我們還致DeepSeek-V3通過MTP技術(shù)預(yù)測下一個2個token,而不僅僅是下一個單個token。結(jié)合推測解碼的框架(Leviathanetal于額外預(yù)測token的接受率。根據(jù)我們的評估,第二個token預(yù)測的接受率在各種生成主題中介于85%和90%之間,顯示出一致的可靠性。這一高接受率使DeepSeek-V3能夠?qū)崿F(xiàn)顯著提高的解碼速度,達(dá)到1.8倍TPS(每秒token數(shù))。在本文中,我們介紹了DeepSeek-V3,這是一個擁有671B總參數(shù)和37B激活參數(shù)的大型MoE語言模型,訓(xùn)練于14.8T的tokens。除了MLA和DeepSeekMoE架構(gòu),它還開創(chuàng)了一種無輔助損失的負(fù)載平衡策略,并設(shè)定了多token預(yù)測訓(xùn)練目標(biāo)以實現(xiàn)更強的性面評估表明,DeepSeek-V3已成為當(dāng)前最強的開源模型,其性能可Claude-3.5-Sonnet相媲美。盡管性能強勁,但它仍保持經(jīng)濟的訓(xùn)練成本。其完整訓(xùn)練僅需2.788M雖然承認(rèn)其強大的性能和成本效益,但我們也認(rèn)識到DeepSeek-V3存在一些局DeepSeek始終堅持口期主義的開源模型路線,旨在穩(wěn)步接近AGI(人工通用智能)的最終目標(biāo)。未來,提高訓(xùn)練和推理效率,努力接近對無限上下文口度的高效支持。此外,我們將嘗試突破Transformer的架構(gòu)限制,從而推動其建模能力的邊界?!の覀儗⒉粩嗟覀兊挠?xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量,并探索納入額外的訓(xùn)練信號來源,旨在推動數(shù)據(jù)在更全面的維度上進(jìn)行擴展?!の覀儗⒊掷m(xù)探索和迭代我們模型的深度思考能力,旨在通過擴展它們的推理口度和深度來增強它們的智能和解決問題的能力?!の覀儗⑻剿鞲婧投嗑S的模型評估方法,以防止在研究過程中傾向于優(yōu)化一組固定的基準(zhǔn),這可能會對模型能力產(chǎn)生誤導(dǎo)性的印象,并影響我們的基礎(chǔ)評估。參考文獻(xiàn)AI@Meta.L1ama3模型卡,2024a。網(wǎng)址/meta-11ama/llama3/b1AI@Meta.Llama3.1模型卡,2024b。網(wǎng)址/meta-1lama/1lama-models/blob/main/models/llama3_1/MOAnthropic.claude3.5詩篇,2024。網(wǎng)址/news/claude-3J.Austin,A.Odena,M.Nye,M.Bosma,H.Michalewski,D.Dohan,E.Jiang,C.CaY.Bai,S.Kadavath,S.Kundu,A.Askell,J.Kernion,A.Jones,A.Chen,A.Goldie,A.MirhMcKinnon,等。憲法人工智能:來自人工智能反饋的無害性。arXiv預(yù)印本arXiv:2212.08073,2022。Y.Bai,S.Tu,J.Zhang,H.Peng,X.Wang,X.Lv,S.Cao,J.Xu,L.Hou,Y.Dong,J.Tang,LongBenchv2:朝著對現(xiàn)實O上下文多任務(wù)的更深入理解和推理.arXiv預(yù)印本arXiv:2412.15204,M.Bauer,S.Treichler,和A.Aiken.Singe:利用波特化實現(xiàn)GPU上的高性能.在第19屆ACMSIGPLAN原則與實踐研討會論文集中并行編程,PPoPP'14,第119-130口,紐約,紐約州,美國,2014年。計算機協(xié)會。ISBN/10.1145/2555243.2555258Y.Bisk,R.Zellers,R.L.Bras,J.Gao,和Y.Choi.PIQA:在自然語言中推理物理常識.在第三十四屆AAAI人工智能會議上,AAAI2020年,第三十二屆人工智能創(chuàng)新應(yīng)用會議,IAAI2020,第十屆AAAI人工智能教育進(jìn)展研討會,EAAI2020.美國紐約.2020年2月7日至12日口碼7432-7439.AAAI出版社.2020年10.1609/aaai.v34i05.6239.URL/10.1609/aaai.v34i05.6239.M.Chen,J.Tworek,H.Jun,Q.Yuan,H.P.deOliveJoseph,G.Brockman,A.Ray,R.Puri,G.Krueger,M.Petrov,H.Khlaaf,G.SastB.Chan,S.Gray,N.Ryder,M.Pavlov,A.Power,L.Kaiser,M.BavarianSuch,D.Cummings,M.Plappert,F.Chantzis,E.Barnes,A.Herbert-Voss,WA.Paino,N.Tezak,J.Tang,I.Babuschkin,S.Balaji,S.Jain,W.Saunders,C.Hesse,A.NLeike,J.Achiam,V.Misra,E.Morikawa,A.Radford,M.Knight,Mayer,P.Welinder,B.McGrew,D.Amodei,S.McCandlish,I.Sutskever,和W.Zaremba.評估在代URL/abs/2107.03374.P.Clark,I.Cowhey,O.Etzioni,T.Khot,A.Sabharwal,C.Schoenick,和O.Tafjord.認(rèn)為你已經(jīng)解決了問答問題?試試arc,Al2推理挑戰(zhàn)。CoRR,abs/1803.05457,2018。網(wǎng)址/abs/1803.05457。K.Cobbe,V.Kosaraju,M.Bavarian,M.Chen,H.Jun,L.Kaiser,M.Plapp度提取數(shù)據(jù)集.在K.Inui,J.Jiang,V.Ng,編輯,2019年自然語言處理實證方法會議暨第九屆國際聯(lián)合自然語言
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 某著名企業(yè)人力資源體系咨詢項目建議書-某著名企業(yè)0721
- 《DLT 5161.2-2018電氣裝置安裝工程質(zhì)量檢驗及評定規(guī)程 第2部分:高壓電器施工質(zhì)量檢驗》專題研究報告深度
- 《GBT 21525-2008無機化工產(chǎn)品中鎂含量測定的通 用方法 絡(luò)合滴定法》專題研究報告
- 《GBT 20772-2008 動物肌肉中461種農(nóng)藥及相關(guān)化學(xué)品殘留量的測定 液相色譜-串聯(lián)質(zhì)譜法》專題研究報告
- 《GBT 9917.2-2008照相鏡頭 第2部分:定焦距鏡頭》專題研究報告
- 《FZT 81007-2022單、夾服裝》專題研究報告:新標(biāo)準(zhǔn)下的產(chǎn)業(yè)躍遷與未來藍(lán)圖
- 道路保通安全培訓(xùn)課件
- 2025-2026年湘教版八年級英語上冊期末題庫試題附答案
- 道班工人安全培訓(xùn)照片課件
- 2026年甘肅金昌市高職單招職業(yè)技能測試試題解析及答案
- 中國外運招聘筆試題庫2026
- 四川長江擔(dān)保集團(tuán)有限公司及其子公司2025年第六批員工公開招聘的備考題庫及一套參考答案詳解
- 2026內(nèi)蒙古包頭市昆區(qū)殘聯(lián)殘疾人專職委員招聘2人參考考試試題及答案解析
- 2025年物業(yè)管理師物業(yè)管理實務(wù)真題及試題及答案
- 2026屆吉林省長春市第150中學(xué)高二生物第一學(xué)期期末達(dá)標(biāo)檢測試題含解析
- 2026年二級建造師之二建水利水電實務(wù)考試題庫300道含完整答案【典優(yōu)】
- 2024年北京日報社招聘真題
- 農(nóng)資聘用合同范本
- 甲氨蝶呤沖擊課件
- 珠寶采購合同協(xié)議
- 2026年長沙電力職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫及參考答案詳解一套
評論
0/150
提交評論