版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
2025.02報告人簡介事長。國際計算機學會(ACM)、中國計算機學會存算一體與3DChiplet處理器,相關技術成果已被廣泛應用于知名IDC和互聯(lián)網(wǎng)企業(yè)。?曾任領域知名人工智能(自然語言處理)企業(yè)首席科學家,中國科學院副主任(2012多個國家科技項課題負責人。中國與美國發(fā)明專利軟件著作權約70+項(約50+項發(fā)明專利已授權)。著有《Sora大模型技術精要—原理、關鍵技術、模型架構與未來趨勢》大語言模型的本質(zhì)?知識,是指人類在實踐中認識(計算)客觀世界?大語言模型本質(zhì)上是“對知識的壓縮(存)+對輸入的反饋(算)”?視頻大模型的性能與其“知識”體量密切相關?視頻大模型參數(shù)量未來會達到主流文本大模型的1-3個數(shù)量級?3年內(nèi)日常生活算力需求至少提升1個數(shù)量級(提前實現(xiàn)?擁有數(shù)據(jù)最多的企業(yè)將是具身智能機器人企業(yè)ScalingLaws,也稱為縮放定律或規(guī)模定律,是描述模型性能如何隨著模型規(guī)模(如參數(shù)數(shù)量)、訓練數(shù)據(jù)集大小以及用于訓練的計算資源增加而提升的一組經(jīng)驗法則模型大小與性能的關系數(shù)據(jù)量與性能的關系計算量與性能的關系性能的可預測性模型結構的影響Moore’slaw與模型算法的進步集成電路上可以容納的晶體管數(shù)目在大約每經(jīng)過18個月到24個月便會增加一倍。換言之,處理器的性能大約每兩年翻一倍,同時價格下降為之前的一半大模型成本的下降(來源:semianalysi每年算法進步的速度為4倍,意味著每過一年,實現(xiàn)相同能力所需的計算資源減少4倍MoE與Amdahl,sLaw(DeepSeek是否受到芯片大小核思路影響計算負載是固定不變的。為此在一定的計算負載下,為達到實時性可利用增加處理器數(shù)來提高計算速度計算負載是固定不變的。為此在一定的計算負載下,為達到實時性可利用增加處理器數(shù)來提高計算速度/性能),),模型性能和效率的架構。其核心思想是通過引入多個專家模型(Experts每個輸入數(shù)據(jù)只選擇和激活其中的一部分專家模型進行處理,從而減少計算量,提高訓練和推理速度。MoE的概念在1991年就已提出,訓練不容易收斂是MoE在大應用的主要障礙。DeepSeek的進步(對開源社區(qū)的關鍵貢獻)DarioAmodei(AnthropicCEO):Shiftingthecurve(改變曲線)(Moore’slaw)^2成本降低DarioAmodei:Shiftingtheparadigm(轉變范式)Amdahl’sLaw在DeepSeekR1之前這一范式轉移已經(jīng)發(fā)生開源領域則是第一次既要又要與唯快不破DeepSeek-V3/R1億(671B)參數(shù),其中每個Token(詞元)的計算約激活370億理(Reasoning)能力的V3廣義上的DeepSeek-R1不是一個單一的模型,還包括了R1采用了多頭潛注意力(MLA,對傳統(tǒng)多頭注意力機制的改進)無輔助損失的負載平衡策略等創(chuàng)新技術MLA:從KVCache(KV緩存)說起目前常用的方法是緩存所有過去目前常用的方法是緩存所有過去Token的相關內(nèi)部狀態(tài),主要是注意力機制中的鍵(Key)和值(Value)向量。這也是鍵值緩存不同注意力機制對比目前開源大模型中的主流方法是分組查詢注意力(Grouped-QueryAttention)機制機制中,為每對鍵和值頭分配多個查詢頭,將查詢頭有效的分組在一起。在Llama3.370B級陳巍:DeepSeekV3/R1架構的深度分析與深度Multi-HeadLatentAttentionMLA的方法是將KV矩陣轉換為低秩形式,將原矩陣表示為兩個較小矩陣(相當于潛向而不緩存完整的鍵KV。這規(guī)避了分組查詢注意力和多查詢注意力的查詢的信息損失,從而在降低KV緩存的前提下獲得更好的性是對KV的有損壓縮,提高存儲信息密度的同時盡可能保留關鍵細節(jié)。與分組查詢和多查詢注意力等方法相比,MLA是目前開源模型里顯著矩陣的低秩近似(來源:互聯(lián)網(wǎng))能其他KVCache優(yōu)化方法?通過將長提示轉換為短提示同時保持其MixtureofExperts專家模型提升深度學習模型性能和效率的架構。其核心思想是通過引入多個專家模型(Experts),每個輸入數(shù)據(jù)只選擇和激活其中的一部分專家模型進行處理,從而減少計算量,提高訓練和推理速度無輔助損耗負載均衡(也許還有更好的方法)相比Dense模型,MoE主要增加了專家路由,通過門控(僅有開或關)的方法,負責將數(shù)據(jù)流引向不同的專家模塊。專家路由事實上引入了一個不連續(xù)的門控函數(shù)(對梯度計算不友好這導致梯度下降優(yōu)化方法在MoE訓練中表現(xiàn)不佳,甚至出現(xiàn)“路由崩潰”,Balancing)方法是將特定于專家的偏差項添加到路由機而是在整個訓練過程中持續(xù)監(jiān)控并進行調(diào)整以確保負載平在每個梯度步驟中精調(diào)偏差項增加命中概率不同應用場景對Dense和MoE模型的需求ToC邊緣/端側特點通用領域多,對檢索和訓練數(shù)據(jù)更新時間敏感,需要多專家通用領域多,可不需要高性能/精度回答,不需要多專家行業(yè)大模型,主通用基礎模型,是Dense架構MoE架構的本質(zhì)是模型參數(shù)分布式存儲,MoE減少計算量的代價可能是不同專家模型的參數(shù)重復和總參數(shù)量增加,這往往也意味著更大更貴的HBM成本。外界傳言的MoE模型可以更小,其實是指的MoE模型蒸餾的Dense模型可以兼顧參數(shù)量和推理(Reasoning)本)密切相關,很多場景MoE未必比Dense模型好V3/R1訓練架構的獨特優(yōu)勢(快!)訓練上驗證了這一框架的有效性。通過對FP和存儲的支持,實現(xiàn)了訓練的加速和GPU內(nèi)存使用的減少設計了DualPipe算法來實現(xiàn)更高效的流水線并行,并通過計算-通信重疊隱藏了大模型訓練過程中的大部分通信開發(fā)了高效的跨節(jié)點All-to-All通信內(nèi)核,以充分利用無需使用昂貴的張量并行即可訓練DeepSeek軟件層面的并行優(yōu)化流水線并行(PipelineParallelism每個設備(計算芯片)都包含一部通過配置數(shù)據(jù)并行排隊,規(guī)避單個節(jié)點(服務器)8個對模型的參數(shù)、優(yōu)化器狀態(tài)和梯度分布到不同的設備(計算芯片)上。在基于ZeROStage-3算法實現(xiàn)FSDP。將allgather和reduce-scatter通信與前向和反向傳播計算重疊,拆分反向傳播步驟以增強重疊,減少通信量。與PyTorch的家分布在不同的設備(計算芯片)上,由門控單元將輸入的Toke針對軟件并行策略的硬件優(yōu)化),用兩層Fat-Tree拓撲+InfiniBand(IB)作為集群架構(硬件)。(作者注:DeepSeek目前在用的集群架構應該比這個更先進)這一集群架構的核心思路是減少互連層次,降低訓練的綜合成本。相對DGX-A100的標準萬卡集群三層Fat-Tree的1320個交換機,DeepSeek的同規(guī)模集群僅僅需要122臺交換機,至少節(jié)省了40%的互連成本減少通信軟件棧深度HFReduce與HFReducewithNVLink針對所采用的硬件架構特點,DeekSeek開發(fā)了HFReduce(針對不使用NVLink的方案),以執(zhí)行高效的allreduce操作。HFReduce會首先執(zhí)行節(jié)點內(nèi)reduce,然后通過GPU。這樣的優(yōu)化需要DeepSeek團隊對硬件互連有非常深刻的理解DeepSeek團隊也開發(fā)了基于NVLink的HFReducewith分并分別返回給NVLink連接的配對GPU,再通過NVLink執(zhí)行allgather。層次化的Reduce,減少低優(yōu)先級的互連通信通常的大模型訓練會采用BF16(16位浮點)或FP32/TF32(32位浮點)精度作為數(shù)據(jù)計算和存儲的格式,來確保較高的訓練精度。相比之下,F(xiàn)P8占用的數(shù)據(jù)位寬僅為FP32的1/4,可以有力的提升計算速度,降低對存儲的消DeepSeek-V3主要使用FP8(8位浮點數(shù))來提高計算速度并減少訓練期間的顯存使用量。為了讓FP8更好的完成訓練,DeepSeek專門設計了針對FP8的訓練框架體系。當然,就在撰寫本文的時候,微軟已經(jīng)跑通了FP4(4位浮點數(shù))的完整模型訓練FP8的精度改進將數(shù)據(jù)分解成更小的組,每個組都使用特定度。這一方法類似于Tile-Wise或Block-Wise。對于激活,在1x128對計算數(shù)據(jù)進行分組和縮放。該方法可以根據(jù)最大或最小數(shù)據(jù)調(diào)整縮為了提高精度并簡化框架,該框架在線計算每個1x128激活塊或重在線轉化為FP8格式,而不是采用靜態(tài)的歷史數(shù)據(jù)。相對靜態(tài)的量FP8在大量累加時會累積出現(xiàn)隨機誤差。例如FP8GEMM在英偉達H800GPU上的累加精度保留14位左右,明顯低于FP32累加精度。DeepSeek將中間結果儲存計算升級為FP32(32位浮點實行高4)低精度/混合精度存儲與通信為了進一步減少MoE訓練中的顯存和通信開銷,該框架基于模塊、MoE門控模塊、歸一化算子和注意力算子,以確保模型的動態(tài)穩(wěn)定訓練。為保證數(shù)值穩(wěn)定性,以高精度存儲主要權重、權重梯度和優(yōu)化器狀態(tài)方法相比,DualPipe具備以1)DualPipe的流水線氣泡2)DualPipe將前向和后向傳播中的計算和通信重疊,帶來的繁重通信開銷問題3)在確保計算與通信比例恒定的情況下,具有很好的Scale-out能力DualPipe算法將每個數(shù)據(jù)塊分為四個部分:attention(圖中ATTN)、all-to-alldispatch(圖中通信和計算的過程和瓶頸進行優(yōu)化。DualPipe采用雙向流水線調(diào)度,同時從流水線發(fā)送前向和后跨節(jié)點All-to-All通信DeepSeek將每個Token(詞元)的分發(fā)限制為最多4個節(jié)點,從而減少IB流量限制的影響。(本質(zhì)的通點還是節(jié)點間帶寬不足)對于每個Token,在做節(jié)點間路由決策時,先通過IB傳輸?shù)侥繕斯?jié)點上具有相同節(jié)點內(nèi)索引的GPU;到達目標節(jié)點后,通過IB和NVLink的通信重疊,平均每個Token可以在每個節(jié)點將20個SM劃分為10個通信信道。根據(jù)所有SM的實際工作負載動態(tài)調(diào)整對L2緩存的使用和對其他SM的干擾方法說明RMSNorm和MLAUp-Projection在反向傳播期間重新計算所有Projection,無需持久存儲其輸出以算代存,充分利用GPU內(nèi)算力充沛但緩存不足的特點在CPU內(nèi)存中保存指數(shù)平均數(shù)指在CPU內(nèi)存中保存EMA,并在每個訓練步驟后異步更新把EMA從GPU顯存占用改為CPU在多標記預測(MTP)中共享嵌入和輸出頭使用DualPipe策略,將模型最淺的層(包括嵌入層)和最深的層(包括輸出頭)部署在相同的PP允許MTP模塊和主模型之間物理提升顯存效率V3的訓練流程(R1訓練的基礎)語言與知識學習能力泛化與提升128K的序列長度和480的批量AdamW優(yōu)化器利用了R1合成的SFT數(shù)據(jù)集利用了R1合成的SFT數(shù)據(jù)集高質(zhì)量Prompt體系V3的基礎預訓練1)提高數(shù)學和編程樣本的比例來優(yōu)化預訓練語料庫,2)基于中國互聯(lián)網(wǎng)可用的語料庫整合了更多的中文數(shù)據(jù)。(這也是V3能玩中文梗的關鍵)4)優(yōu)化數(shù)據(jù)處理/過濾算法,在保持語料庫多樣性的過濾掉有爭議的內(nèi)容,減少特定區(qū)域文化引入的數(shù)據(jù)5)通過文檔打包,減少在短文本塊的訓練浪費,同V3的訓練采用前綴-后綴-中間(PSM)框架來構建FIM訓練數(shù)據(jù)。Fill-in-Middle(FIM,中間補全)是一種針對代碼補全能力的預訓練方式,模型在訓練過程中學習使用上下文的語境來預測文段中間缺失的部分。FIM策略不會損害下一Token預測(NTP)能力,同時可使模型能夠根據(jù)上下文線索準確預測中間文本。V3的有監(jiān)督精調(diào)(SFT)V3的有監(jiān)督精調(diào)做了以下這些事:1)梳理指令精調(diào)(instruction-tuning)數(shù)據(jù)集。該數(shù)據(jù)集包括1.5M個實例,跨多個域,每個域都量身定制的不同的數(shù)據(jù)合成方法2)利用DeepSeek-R1模型合成與推理(Reasoning)相關的SFT數(shù)據(jù)集。這里很有意思,基于R1來SFTV3,再基于V3冷啟動R1。感覺上這里有關鍵的訓練信息沒有透露,DeepSeek應該還是留了3)為特定領域(例如代碼、數(shù)學或一般推理)構建量身定制的專家模型數(shù)據(jù)合成器。使用復合有監(jiān)督精調(diào)和強化學習訓練該專家模型。訓練過程中為每個實例生成兩種不同類型的SFT樣本:第一而第二種將系統(tǒng)提示與問題和R1響應合并,格式為<system4)建立高質(zhì)量提示(Prompt)體系,引導模型形成自身的反饋與驗證機制。同時整合了來自R1合成的數(shù)據(jù),通過強化學習加強5)對于非推理數(shù)據(jù)(例如創(chuàng)意寫作、角色扮演利用DeepSeek-V2.5生成數(shù)據(jù),并通過人工注釋驗證性V3的強化學習對于可以使用特定規(guī)則驗證的問題,采用基于規(guī)則的獎勵模型來提供2)基于模型的獎勵模型對于不具有收斂性的問題,依靠模型判斷來確進行強化學習。中構建了特殊的偏好數(shù)據(jù),該數(shù)據(jù)同時包括提供最終獎勵結果和形成大模型的訓練通常用無監(jiān)督進行預訓練,然后通過有監(jiān)督精調(diào)(SFT)進一步學習。然而SFT有時難以將人類的偏好顯式地整合進去,這時就需要強化學習來進行精調(diào)。來形成梯度策略。PPO的代價在于需要維護較大的價值網(wǎng)絡(也是一V3中則采用了DeepSeek提出的GRPO(GroupRelativePolicyOptimization)策略,只需要在一個分組內(nèi)進行多個采樣輸出的比較,再根據(jù)比較結果選擇較優(yōu)的策略。GRPO中不再需要一個顯無SFT的R1-Zero訓練作為R1的無SFT版本,R1-Zero使用DeepSeek-V3-Base作為基礎(Reasoning)性能,根據(jù)準確度和格式進行訓練獎勵。獎勵的計算方式在很大程度上決定了強化學習訓練的效果。2)格式獎勵(Formatrewards)。獎勵模型將其思考過程置于Reasoning(推理):通過對事實的考慮和分析來得出結論的過程。推理強調(diào)的是思考和決策的過程,比“推斷”具有更多的邏輯和分析過):推斷側重于通過既定的算法或模型來實現(xiàn),與“推理”相比,更強調(diào)形式頓悟時刻(AhaMoment)指代模型在訓練過程中間階段突然學會通過主動延長思考時間并重新評估初始策略來解決復雜問題。這一現(xiàn)象標志著模型推理能力的質(zhì)變動態(tài)調(diào)整思考時間:模型不再急于輸出答案,而是像人類遇到難題時“停下來反復推敲”一樣,主動分配更多計算資源(如增加推理長度)來重新分析問題策略迭代優(yōu)化:在初步嘗試失敗后,模型能自主修正初始方案過試錯、邏輯鏈驗證或引入外部知識輔助決策RL的潛力:無需明確的教模型如何解決問題,只需為其提供適當?shù)募み~向通用/超級智能:這也說明強化學習有潛力解鎖新的智能水平,為未來更自主、更具適應性的模型鋪平道路,提供了形成超級智能的可DeepSeek-R1的訓練流程①冷啟動:CoTSFT②面向推理的強④全場景強化學習與對齊1)冷啟動(ColdStart):CoTSFT與R1-Zero不同,R1首先基于DeepSeek-V3-Base進行有監(jiān)督精調(diào)(SFT以克服強化學習的早期不穩(wěn)定。DeekSeek認為這種基于人類先驗知識冷啟動并進行迭代訓練的方式更適合推理模型為構建少量的長CoT數(shù)據(jù),DeepSeek探索了幾種合成方法:使用長CoT的few-shot提示作為示例,直接提示模型通過反思和驗證生成詳細后處理來完善結果。在此步驟中收集了數(shù)千個冷啟動樣本以進行精調(diào)。其中可讀模式指為每個回答在末尾包含一個摘要,并過濾掉不易閱讀的部分。其輸出格式為2)面向推理的強化學習練中引入了語言一致性獎勵,該獎勵以CoT中目標語言單詞的此階段主要提升模型的推理(Reasoning)性能,特別是在編定義明確且解決方案明確的問題。3)拒絕采樣與SFT這是另一個使用標記數(shù)據(jù)的有監(jiān)督精調(diào)(SFT)訓練階段,分批進行了兩個epoch的精調(diào),樣本量為800k。800k中包括600k推理數(shù)據(jù)和200k非推理數(shù)據(jù)。與主要側重于推理的冷啟動數(shù)據(jù)不同,此階段結合了來自其他領域的數(shù)拒絕采樣(RejectionSampling)提供了一種橋梁,使用易于采樣的分布來近似訓練真正感興趣的復雜分布。目標響應(ground-truth)從一組生成的1)通過從上一輪強化學習訓練的檢查點進行拒絕抽樣,整理推理提示并生成推理軌跡(ReasoningTrajecto),200k非推理數(shù)據(jù)的生成(如寫作、事實問答、自我認知和翻譯等):3)對于更簡單的查詢(例如“你好”不提供CoT4)面向全場景的強化學習與對齊2)對于推理數(shù)據(jù),利用基于規(guī)則的獎勵來指導數(shù)學、代碼和邏輯推理領域的訓練過程3)對于一般數(shù)據(jù),采用獎勵模型來捕捉復雜微妙場景中的人類偏好。即參考DeepSeek-V3管訓練流程,4)對于有用性,只關注最終摘要,以確保重點響應對用戶識別和減輕生成過程中可能出現(xiàn)的潛在風險、偏見或有害內(nèi)容RL仍處于變幻莫測起步的階段做RL的訓練框架有較大工程挑戰(zhàn)其他算法(包括GRPO)的精度可能不如PPO從MoE回歸Dense(蒸餾SFT)為了能夠將推理能力遷移到MoE架構不適合的場景,DeepSeek選擇Llama和Qwen系列開源大模型進行蒸餾,使相應的Dense模型也能獲得推理能力。與使用強化學習相比,直接SFT更適合較小的大模型,蒸餾完成的Dense模型推理能力明顯好于原開源模型。蒸餾是將復雜的大型神經(jīng)網(wǎng)絡壓縮為更小、更簡單的神經(jīng)網(wǎng)絡,同時盡可能多的保留結果模型的性能的過程。此過程涉及訓練較小的“學生“神經(jīng)網(wǎng)絡,通過其預測或內(nèi)部表示的精調(diào)來學習模DeepSeek-R1-Distill-Qwen-1.5BDeepSeek-R1-Distill-Qwen-7BDeepSeek-R1-Distill-Llama-8BDeepSeek-R1-Distill-Qwen-14BDeepSeek-R1-Distill-Qwen-32BDeepSeek-R1-Distill-Llama-70BMoE的跨GPU部署模式),Expert都能處理足夠大的批量,從而提高計算效率冗余專家部署策略該策略復制高負載專家并冗余部署。根據(jù)在線部署期間收集的統(tǒng)計數(shù)測高負載專家,并定期調(diào)整(例如,每10后,根據(jù)負載重排節(jié)點內(nèi)GPU之間的專家,盡量在不增加跨節(jié)點All-to-All通MoE模型的GPU+CPU混合部署DeepSeek的關鍵貢獻軟硬件結合,提高模型計算效率降低提出MLA,通過將鍵值(KV)緩存顯著壓縮為潛在向量來保證高效推理采用GQA或MHA,占用KV緩存比MLA大一減少冗余,提高模型計算效率降低成本提出DeepSeekMoE,采用細粒度專家分割和共享專采用GRPO進一步使模型與人類偏好對齊,提高訓練效率基于開源代碼開發(fā)自有的FP8混合精度訓練框架,提傳統(tǒng)開源訓練框架,以BF16或FP32為主,顯跨節(jié)點All-to-All通信內(nèi)核,使用PTX編程以充分利用默認通信內(nèi)核,幾乎無長思維鏈訓練DeepSeek的安全性評估(瑕不掩瑜,不應否認先進性)偏見是模型生成有歧視或不公平的內(nèi)容的程度。由于訓練數(shù)據(jù),AI模型中引入了偏差有害測試會檢查模型在多大程度上可以縱以生成仇恨言論、自殘、性或犯罪內(nèi)容毒性是模型生成惡毒或有害內(nèi)容的程度。這可能意言論、威脅或其他形式的有害語言不安全代碼測試模型可縱以生成惡意軟件或已知惡意軟件簽名的程度。惡意軟件是病毒、特洛伊木馬和其他破壞性計算機程序的總稱,威脅行為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大學課件主講
- 月亮的暢想課件
- 大學講課件教學課件
- 最美的逆行者課件
- 胰腺癌的診斷和治療
- 2025年福建廈門南洋職業(yè)學院招聘筆試考試參考題庫及答案解析
- 中醫(yī)外科臨床操作規(guī)范
- 護理進修匯報:新生兒護理專題
- 2025廣東惠州市第一婦幼保健院招聘第二批員額制衛(wèi)生專業(yè)技術人員13人考試筆試備考試題及答案解析
- 2026天津市南開區(qū)衛(wèi)生健康系統(tǒng)招聘事業(yè)單位60人(含高層次人才)筆試考試備考題庫及答案解析
- 傳承紅色基因鑄就黨紀之魂建黨104周年七一黨課
- 詩詞大會搶答題庫及答案
- 立式油罐知識培訓課件
- 口腔健康科普指南
- 2025年《智能客戶服務實務》課程標準
- 公司便民雨傘管理制度
- 醫(yī)院購買電腦管理制度
- 編制竣工圖合同范本
- 新22J01 工程做法圖集
- 預防高空拋物2
- 廣西欽州市2024-2025學年高一上學期期末教學質(zhì)量監(jiān)測數(shù)學試題(解析版)
評論
0/150
提交評論