Kimi+K1.5:使?LLMS擴(kuò)展強(qiáng)化學(xué)習(xí)_第1頁
Kimi+K1.5:使?LLMS擴(kuò)展強(qiáng)化學(xué)習(xí)_第2頁
Kimi+K1.5:使?LLMS擴(kuò)展強(qiáng)化學(xué)習(xí)_第3頁
Kimi+K1.5:使?LLMS擴(kuò)展強(qiáng)化學(xué)習(xí)_第4頁
Kimi+K1.5:使?LLMS擴(kuò)展強(qiáng)化學(xué)習(xí)_第5頁
已閱讀5頁,還剩45頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

KIMIK1.5:使?LLMS擴(kuò)展強(qiáng)化學(xué)習(xí)KIMIK1.5技術(shù)報(bào)告Kimi團(tuán)隊(duì)受到可?訓(xùn)練數(shù)據(jù)量的限制。擴(kuò)展強(qiáng)化學(xué)習(xí)(RL)為??智能的持續(xù)改進(jìn)開辟了新的?向,?型語?模型(LLMs)通過學(xué)習(xí)探索獎(jiǎng)勵(lì)來擴(kuò)展其訓(xùn)練數(shù)據(jù),有望實(shí)現(xiàn)規(guī)?;?。然?,先前發(fā)表的?作未能取得競爭性成果。鑒于此,我們報(bào)告了Kimik1.5的訓(xùn)練實(shí)踐,這是我們最新的使?強(qiáng)化學(xué)習(xí)訓(xùn)練的多模態(tài)LLM,包括其強(qiáng)化學(xué)習(xí)訓(xùn)練技術(shù)、多模態(tài)數(shù)據(jù)配?和基礎(chǔ)設(shè)施優(yōu)化。??本上下?擴(kuò)展和改進(jìn)的策略優(yōu)化?法是我們?法的關(guān)鍵組成部分,它建?了?個(gè)簡約?有效的RL框架,不依賴于蒙特卡洛樹搜索、價(jià)值函數(shù)和進(jìn)程獎(jiǎng)勵(lì)模型等更復(fù)雜的技術(shù)。值得注意的是,我們的系統(tǒng)在多個(gè)基準(zhǔn)測試和模態(tài)中實(shí)現(xiàn)了最新的推理性能——如在AIME上為77.5,在MATH500上為96.2,在Codeforces上為94百分位,在MathVista上為74.9——匹配了OpenAI的o1。此外,我們提出了有效的?2短?法,使??-CoT技術(shù)改進(jìn)短-CoT模型,實(shí)現(xiàn)了最新的短-CoT推理結(jié)果——如在AIME上60.8,在MATH500上94.6,在LiveCodeBench上47.3——明顯優(yōu)于現(xiàn)有的短-CoT模型,如GPT-4o和ClaudeSonnet3.5(最?達(dá)+550%)。OpenAIo1QwQ-32B預(yù)覽OpenAIo1-mini視覺74.9MathVista(Pass@1)MMMU(Pass@1)數(shù)學(xué)96.294.8OpenAIo1QwQ-32B預(yù)覽OpenAIo1-mini視覺74.9MathVista(Pass@1)MMMU(Pass@1)數(shù)學(xué)96.294.8AIME2024(Pass@1)MATH500(EM)代碼代碼62.540.6LiveCodeBenchv5Codeforces(Percentile)圖1:Kimik1.5long-CoT結(jié)果Kimik1.5TECHNICALREPORT2 Kimik1.5短-CoTOpenAI4oClaude3.5SonnetQwen2-VLLLaMA-3.1405B-Inst.DeepSeekV3Qwen2.572B-Inst.視覺數(shù)學(xué)代碼視覺數(shù)學(xué)圖2:Kimik1.5短期-CoT結(jié)果在?例縮放模型參數(shù)和數(shù)據(jù)??的上下?下,已經(jīng)研究了使?下?個(gè)標(biāo)記預(yù)測進(jìn)?語?模型預(yù)訓(xùn)練的擴(kuò)展定律。這導(dǎo)致了智能的持續(xù)改進(jìn)。(Kaplan等,2020;Hoffmann等,2022)然?,這種?法受到可??質(zhì)量訓(xùn)練數(shù)據(jù)量的限制(Villalobos等,2024;Muennighoff等,2023)。在本報(bào)告中,我們介紹了Kimik1.5的訓(xùn)練配?,這是我們最新的使?強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的多模式LLM。?標(biāo)是探索持續(xù)擴(kuò)展的可能新軸。使?LLM進(jìn)?RL,模型可以通過獎(jiǎng)勵(lì)來探索學(xué)習(xí),因此不受現(xiàn)有靜態(tài)數(shù)據(jù)集的限制。關(guān)于k1.5設(shè)計(jì)和訓(xùn)練的?個(gè)關(guān)鍵要點(diǎn)??上下?縮放。我們將RL的上下?窗?擴(kuò)展到128k,并觀察到隨著上下??度的增加,性能持續(xù)改進(jìn)的情況。我們?法背后的?個(gè)關(guān)鍵思想是使?部分回合來提?訓(xùn)練效率,即通過重復(fù)使??塊先前軌跡來抽樣新的軌跡,避免了從頭開始重新?成新軌跡的成本。我們的觀察將上下??度確定為RL與LLM持續(xù)擴(kuò)展的關(guān)鍵維度。?改進(jìn)的策略優(yōu)化。我們推導(dǎo)出具有?CoT的RL的公式,并采?在線鏡像下降的變體進(jìn)?穩(wěn)健的策略優(yōu)化。通過我們的有效抽樣策略、?度懲罰和數(shù)據(jù)配?的優(yōu)化,進(jìn)?步改進(jìn)了這?算法。?簡單框架。?上下?縮放,結(jié)合改進(jìn)的策略優(yōu)化?法,建?了?個(gè)簡單的RL框架,?于與LLM學(xué)習(xí)。由于我們能夠擴(kuò)展上下??度,學(xué)到的CoTs表現(xiàn)出規(guī)劃、反思和修正的特性。增加上下??度會(huì)增加搜索步數(shù)。因此,我們展?了可以在不依賴于諸如蒙特卡羅樹搜索、價(jià)值函數(shù)和過程獎(jiǎng)勵(lì)模型等更復(fù)雜技術(shù)的情況下實(shí)現(xiàn)強(qiáng)?的性能。?多模態(tài)。我們的模型是在?本和視覺數(shù)據(jù)上聯(lián)合訓(xùn)練的,具有同時(shí)推理這兩種模態(tài)的能?此外,我們提出了有效的?2短?法,利??-CoT技術(shù)改進(jìn)短-CoT模型。具體來說,我們的?法包括使??-CoT激活和模型合并來應(yīng)??度懲罰。我們的?-CoT版本在多個(gè)基準(zhǔn)和模態(tài)上實(shí)現(xiàn)了最先進(jìn)的推理性能,例如在AIME上達(dá)到77.5,在MATH500上達(dá)到96.2,在Codeforces的94百分位,MathVista上達(dá)到74.9,與OpenAI的o1相匹配。我們的模型還實(shí)現(xiàn)了最先進(jìn)的短-CoT推理結(jié)果,如在AIME上達(dá)到60.8,在MATH500上達(dá)到94.6,在LiveCodeBench上達(dá)到47.3,遠(yuǎn)遠(yuǎn)超過現(xiàn)有的短-CoT模型,如GPT-4o和ClaudeSonnet3.5,差距可?達(dá)550%。結(jié)果請參?圖1和圖2。Kimik1.5TECHNICALREPORT32?法:使?LLMs的強(qiáng)化學(xué)習(xí)Kimik1.5的開發(fā)包括?個(gè)階段:預(yù)訓(xùn)練,普通監(jiān)督微調(diào)(SFT),?期監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)(RL)。本報(bào)告?zhèn)戎赜赗L,從強(qiáng)化學(xué)習(xí)提?集策劃概述(第2.1節(jié))和?期監(jiān)督微調(diào)(第2.2節(jié))開始,然后深?討論RL訓(xùn)練策略(第2.3節(jié))。關(guān)于預(yù)訓(xùn)練和普通監(jiān)督微調(diào)的更多細(xì)節(jié)可在第2.5節(jié)中找到。2.1強(qiáng)化學(xué)習(xí)提?集策劃通過我們的初步實(shí)驗(yàn),我們發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)提?集的質(zhì)量和多樣性在確保強(qiáng)化學(xué)習(xí)的有效性??發(fā)揮著關(guān)鍵作?。?個(gè)構(gòu)建良好的提?集不僅可以指導(dǎo)模型進(jìn)?穩(wěn)健的推理,還可以減輕獎(jiǎng)勵(lì)欺騙和過度擬合表?模式的?險(xiǎn)。具體來說,三個(gè)關(guān)鍵屬性定義了?個(gè)?質(zhì)量的強(qiáng)化學(xué)習(xí)提?集:??泛覆蓋:提?應(yīng)跨越各種學(xué)科,如STEM,編碼和?般推理,以增強(qiáng)模型的適應(yīng)性,并確保在不同領(lǐng)域具有?泛適?性。?平衡難度:提?集應(yīng)包括?系列易,適中和困難問題,以促進(jìn)漸進(jìn)式學(xué)習(xí),防?對特定復(fù)雜性?平過度擬合。?準(zhǔn)確的評估性:提?應(yīng)允許驗(yàn)證者進(jìn)?客觀和可靠的評估,確?;谡_推理?不是表?模式或隨機(jī)猜測來衡量模型的表現(xiàn)。為了在提?集中實(shí)現(xiàn)多樣化的覆蓋范圍,我們采??動(dòng)過濾器來選擇需要豐富推理并且易于評估的問題。我們的數(shù)據(jù)集包括來?各種領(lǐng)域的問題,如STEM領(lǐng)域、競賽和?般推理任務(wù),涵蓋了純?本和圖像?本問答數(shù)據(jù)。此外,我們開發(fā)了?個(gè)標(biāo)記系統(tǒng),將提?按領(lǐng)域和學(xué)科進(jìn)?分類,確保在不同學(xué)科領(lǐng)域間保持平衡的代表性(M.Li等,2023年;W.Liu等,2023年)。我們采?基于模型的?法,利?模型??的能??適應(yīng)評估每個(gè)提?的難度。具體??,對于每個(gè)提?,?個(gè)SFT模型使?相對較?的采樣溫度?成?次答案。然后計(jì)算通過率并將其?作提?難度的代理——通過率越低,難度越?。這種?法使難度評估與模型固有能?保持?致,對于RL訓(xùn)練?常有效。通過利?這種?法,我們可以預(yù)先過濾掉?多數(shù)瑣碎的情況,并在RL訓(xùn)練期間輕松探索不同的采樣策略。為了避免潛在的獎(jiǎng)勵(lì)破解(Everitt等,2021年;Pan等,2022年),我們需要確保每個(gè)提?的推理過程和最終答案都能被準(zhǔn)確驗(yàn)證。經(jīng)驗(yàn)觀察揭?,?些復(fù)雜的推理問題可能有相對簡單和容易猜測的答案,導(dǎo)致虛假的正?驗(yàn)證——模型通過不正確的推理過程達(dá)到正確答案。為了解決這個(gè)問題,我們排除了容易發(fā)?此類錯(cuò)誤的問題,例如多項(xiàng)選擇、正確/錯(cuò)誤和基于證據(jù)的問題。此外,對于?般問答任務(wù),我們提出了?種簡單但有效的?法來識別和移除易于破解的提?。具體來說,我們提?模型在沒有任何CoT推理步驟的情況下猜測潛在答案。如果模型在N次嘗試內(nèi)預(yù)測正確答案,則認(rèn)為該提?太容易破解并將其移除。我們發(fā)現(xiàn)將N=8可以移除?多數(shù)容易破解的提?。未來研究仍然是進(jìn)?步發(fā)展更先進(jìn)驗(yàn)證模型的?個(gè)?向。2.2?CoT監(jiān)督微調(diào)通過精?設(shè)計(jì)的RL提?集,我們采?提??程來構(gòu)建?個(gè)?但?質(zhì)量的?CoT熱?數(shù)據(jù)集,其中包含?本和圖像輸?的經(jīng)過準(zhǔn)確驗(yàn)證的推理路徑。這種?法類似于拒絕抽樣(RS),但側(cè)重于通過提??程?成?CoT推理路徑。最終得到的熱?數(shù)據(jù)集旨在涵蓋那些對類?類推理?關(guān)重要的關(guān)鍵認(rèn)知過程,?如規(guī)劃,模型在執(zhí)?前系統(tǒng)地概述步驟;評估,涉及對中間步驟的關(guān)鍵評估;反思,使模型能夠重新考慮和完善其?法;以及探索,?勵(lì)考慮替代解決?案。通過在這個(gè)熱?數(shù)據(jù)集上進(jìn)?輕量級的SFT,我們有效地讓模型內(nèi)化這些推理策略。因此,微調(diào)后的?CoT模型展現(xiàn)出更好的能?,?成更詳細(xì)和邏輯連貫的回答,從?提?了其在各種推理任務(wù)中的性能。Kimik1.5TECHNICALREPORT42.3強(qiáng)化學(xué)習(xí)2.3.1問題設(shè)定給定訓(xùn)練數(shù)據(jù)集D={(xi,y)}ni=1,其中包含問題xi和相應(yīng)的實(shí)際答案yi,我們的?標(biāo)是訓(xùn)練?個(gè)策略模型πθ來準(zhǔn)確解決測試問題。在復(fù)雜推理的背景下,問題x到解答y的映射并不是微不?道的。為了應(yīng)對這?挑戰(zhàn),思維鏈(CoT)?法提議使??系列中間步驟z=(z1,z2,...,zm)來連接x和y,其中每個(gè)zi都是?系列連貫的令牌,作為解決問題的重要中間步驟(J.Wei等,2022年)。解決問題x時(shí),思維ztπθ(·|x,z1,...,zt?1)會(huì)被?回歸采樣,然后得到最終答案yπθ(·|x,z1,...,zm)。我們?y,zπθ表?這?采樣過程。需要注意的是,思維和最終答案都被采樣為語?序列。為了進(jìn)?步增強(qiáng)模型的推理能?,在推理時(shí)采?了規(guī)劃算法來探索各種思維過程,?成更優(yōu)越的CoT(Yao等,2024年;Y.Wu等,2024年;Snell等,2024年)。這些?法的核??解是明確構(gòu)建?個(gè)受價(jià)值估計(jì)指導(dǎo)的思維搜索樹。ztπθ(·|x,z1,...,zt?1)?回歸采樣,隨后得出最終答案yπθ(·|x,z1,...,zm)。我們使?y,zπθ來表?這?采樣過程。請注意,這?提到的思考過程和最終答案都是作為語?序列進(jìn)?采樣的。為進(jìn)?步增強(qiáng)模型的推理能?,我們使?規(guī)劃算法來探索各種思考過程,從?在推理時(shí)?成改進(jìn)的CoT(Yao等,2024;Y.Wu等,2024;Snell等,2024)。這些?法的核?洞察?在于通過價(jià)值估計(jì)來明確構(gòu)建思考過程的搜索樹。這使模型能夠探索思維過程的多樣化延續(xù),或者在遇到死胡同時(shí)回溯以調(diào)查新的?向。更詳細(xì)地說,讓T成為?個(gè)搜索樹,其中每個(gè)節(jié)點(diǎn)代表?個(gè)部分解s=(x,z1:|s|).這?s包含問題x和?系列思考z1:|s|=(z1,...,z|s|),導(dǎo)致到達(dá)該節(jié)點(diǎn),其中|s|表?序列中的思考數(shù)量。規(guī)劃算法使?評論家模型v來提供反饋v(x,z1:|s|),幫助評估解決問題的當(dāng)前進(jìn)展,并識別現(xiàn)有部分解決?案中的任何錯(cuò)誤。我們指出,反饋可以由辨別分?jǐn)?shù)或語?序列(L.Zhangetal.2024)提供。在T中為所有s提供反饋的指導(dǎo)下,規(guī)劃算法選擇最有前景的節(jié)點(diǎn)以擴(kuò)展,從?增?搜索樹。上述過程反復(fù)進(jìn)?,直到得出完整解。我們還可以從算法?度考慮規(guī)劃算法。給定在第t次迭代時(shí)可?的過去搜索歷史(s1,v(s1),...,st?1,v(st?1)),規(guī)劃算法A迭代確定下?個(gè)搜索?向A(st|s1,v(s1),...,st?1,v(st?1))并為當(dāng)前搜索進(jìn)度提供反饋A(v(st)|s1,v(s1),...,st)。由于思考和反饋都可以看作是中間推理步驟,并且這些組件都可以表?為?系列語?標(biāo)記,我們使?z替代s,v來簡化符號。因此,我們將規(guī)劃算法視為直接作?于?系列推理步驟A(·|z1,z2,...)的映射。在這個(gè)框架中,規(guī)劃算法使?的存儲在搜索樹中的所有信息被扁平化為提供給算法的全?背景。這提供了?個(gè)有趣的視?來?成?質(zhì)量的CoT:與明確構(gòu)建搜索樹和實(shí)施規(guī)劃算法不同,我們可能訓(xùn)練?個(gè)模型來近似這個(gè)過程。在這?,思考數(shù)量(即語?標(biāo)記)作為傳統(tǒng)分配給規(guī)劃算法的計(jì)算預(yù)算的類?。?上下?窗?的最新進(jìn)展在訓(xùn)練和測試階段都促進(jìn)了?縫可伸縮性。如果可?,這種?法使模型能夠通過?回歸預(yù)測直接在推理空間上運(yùn)?隱式搜索。因此,模型不僅學(xué)會(huì)解決?組訓(xùn)練問題,還能有效地解決單個(gè)問題,從?實(shí)現(xiàn)對未?測試問題的改進(jìn)泛化能?。因此,我們考慮通過強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練模型?成CoT(OpenAI2024)。令r為?個(gè)獎(jiǎng)勵(lì)模型,根據(jù)基本真相y,通過賦予?個(gè)值r(x,y,y)∈{0,1}來證明對于給定問題x的提議答案y的正確性,直接由預(yù)定義的標(biāo)準(zhǔn)或規(guī)則確定獎(jiǎng)勵(lì)的可驗(yàn)證問題。例如,在編碼問題中,我們評估答案是否通過了測試?例。對于具有?由形式基本真相的問題,我們訓(xùn)練獎(jiǎng)勵(lì)模型r(x,y,y),預(yù)測答案是否符合基本真相。給定問題x,模型πθ通過采樣過程?成CoT和最終答案zπθ(·|x),yπθ(·|x,z)。?成的CoT的質(zhì)量通過其是否能導(dǎo)致正確的最終答案來評估。在總結(jié)中,我們考慮以下?標(biāo)來優(yōu)化策略θE(x,y)D,(y,z)πθ[r(x,y,y)](1)通過擴(kuò)?RL訓(xùn)練規(guī)模,我們旨在訓(xùn)練?個(gè)模型,充分利?簡單基于提?的CoT和增強(qiáng)規(guī)劃的CoT的優(yōu)勢。該模型在推理過程中仍會(huì)?回歸抽樣語?序列,從?避免了部署過程中?級規(guī)劃算法所需的復(fù)雜并?化。然?,與簡單基于提?的?法的?個(gè)關(guān)鍵區(qū)別在于,該模型不僅僅是遵循?系列推理步驟。相反,它還應(yīng)該通過利?整個(gè)探索思路集合作為上下?信息,學(xué)習(xí)關(guān)鍵的規(guī)劃技能,包括錯(cuò)誤識別、回溯和解決?案優(yōu)化。Kimik1.5TECHNICALREPORT52.3.2政策優(yōu)化我們應(yīng)?在線政策鏡像下降的變體作為我們的訓(xùn)練算法(Abbasi-Yadkori等?2019年;Mei等?2019年;Tomar等?2020年)。該算法進(jìn)?迭代。在第i次迭代中,我們將當(dāng)前模型πθi作為參考模型,優(yōu)化以下相對熵正則化的政策優(yōu)化問題。最?θ[E(x,y)DE(y,z)πθ[r(x,y,y)]?τKL(πθ(x)||πθi(x))],其中τ>0是控制正則化程度的參數(shù)。該?標(biāo)有?個(gè)封閉形式的解∑這?Z=∑y′,z′πθi(yπ(y,z|x)=πθi(y,z|x)exp(r(x,y,y)/τ)/Z′,z′|x)exp(r(x,y′,y)/τ)是標(biāo)準(zhǔn)化因?。取兩邊的對數(shù),我們對于任意的(y,z)都有以下約束被滿?,這使我們能夠在優(yōu)化過程中利?離線數(shù)據(jù)這激勵(lì)以下的替代損失L(θ)=E(x,y)DE(y,z)πθir(x,y,y)?τlogZ?τlogπθ(y,z|x)πθi(y,z|x)為了近似τlogZ,我們使?樣本(y1,z1),...,(yk,zk)πθi:τlogZ≈τlog∑kj=1exp(r(x,yj,y*)/τ我們還發(fā)現(xiàn)使?采樣獎(jiǎng)勵(lì)r的經(jīng)驗(yàn)均值r=mean(r(x,y1,y*),...,r(x,yk,*y))會(huì)產(chǎn)?有效實(shí)?結(jié)果。因?yàn)棣觢ogZ在τ→∞時(shí)接近πθi下的預(yù)期獎(jiǎng)勵(lì),所以這是合理的。最后,我們通過取替代損失的梯度來總結(jié)我們的學(xué)習(xí)算法。對于每個(gè)問題x,使?參考策略πθi抽取k個(gè)響應(yīng),梯度由j=1對于熟悉策略梯度?法的?來說,這個(gè)梯度類似于使?采樣獎(jiǎng)勵(lì)均值作為基線的策略梯度(2),但存在?些主要區(qū)別,即響應(yīng)是從πθi中采樣?不是on-policy,并且應(yīng)?了l2-正則化。因此,我們可以將其視為通常的on-policy正則化策略梯度算法向off-policy情況的?然延伸。我們從D中抽樣?批問題,并更新參數(shù)到θi+1,隨后這些參數(shù)作為下?次迭代的參考策略。由于每次迭代考慮到由于參考策略的更改?導(dǎo)致的不同優(yōu)化問題,我們還在每次迭代開始時(shí)重新設(shè)置優(yōu)化器。假設(shè)zt+1直接導(dǎo)致正確答案,?z′t+1包含?些錯(cuò)誤。如果存在?個(gè)oracle值函數(shù),將指出zt+1相對于z'保留了更?的價(jià)值t+1.根據(jù)標(biāo)準(zhǔn)信?分配原則,選擇z't+1將受到懲罰,因?yàn)橄鄬τ诋?dāng)前政策,它具有負(fù)?優(yōu)勢。然?,探索z't+1對于訓(xùn)練模型?成較?的CoT?常有價(jià)值。通過使?從?CoT中得出的最終答案作為獎(jiǎng)勵(lì)信號,模型可以學(xué)習(xí)從選擇z'開始的試錯(cuò)模式鍵2.3.3?度懲罰2.3.3?度懲罰我們觀察到?種過度思考的現(xiàn)象,在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中,模型的響應(yīng)?度明顯增加。盡管這會(huì)導(dǎo)致更好的性能,但過?的推理過程在訓(xùn)練和推理過程中成本?昂,并且?們通常不喜歡過度思考。為了解決這個(gè)問題,我們引?了?度獎(jiǎng)勵(lì)來限制令牌?度的快速增?,從?提?模型的令牌效率。給定k個(gè)抽樣響應(yīng)Kimik1.5TECHNICALREPORT6(y1,z1...yk,zk)的問題x的真實(shí)答案為y,讓len(i)表?(yi,zi)的?度,min_len=minilen(i),max_len=maxilen(i)。如果max_len=min_len,則對所有響應(yīng)設(shè)置?度獎(jiǎng)勵(lì)為零,因?yàn)樗鼈兙哂邢嗤?度。否則,?度獎(jiǎng)勵(lì)由{len_reward(i)=λ如果r(x,yi,y)=1,其中λ=0.5-len(i)-min_lenmin(0,λ)如果r(x,yi,y)=0max_len-min_len.實(shí)質(zhì)上,我們促進(jìn)正確響應(yīng)中的較短回答,懲罰較?回答,同時(shí)明確懲罰帶有不正確答案的?回答。然后將基于?度的獎(jiǎng)勵(lì)添加到具有加權(quán)參數(shù)的原始獎(jiǎng)勵(lì)中。在我們的初步實(shí)驗(yàn)中,?度懲罰可能會(huì)在初始階段減慢訓(xùn)練速度。為了緩解這個(gè)問題,我們建議在訓(xùn)練過程中逐漸啟??度懲罰。具體??,我們采?標(biāo)準(zhǔn)的策略優(yōu)化?沒有?度懲罰,然后在訓(xùn)練的其余部分使?恒定的?度懲罰。2.3.4采樣策略盡管強(qiáng)化學(xué)習(xí)算法本?具有相對良好的采樣特性(難題提供較?的梯度),但它們的訓(xùn)練效率受到限制。因此,?些明確定義的先前采樣?法可能會(huì)產(chǎn)?潛在的更?性能提升。我們利?多個(gè)信號進(jìn)?步改進(jìn)采樣策略。?先,我們收集的強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù)?然帶有不同的困難標(biāo)簽。例如,?道數(shù)學(xué)競賽題??道?學(xué)數(shù)學(xué)題更困難。其次,由于強(qiáng)化學(xué)習(xí)訓(xùn)練過程多次對同?問題進(jìn)?采樣,我們還可以跟蹤每個(gè)單獨(dú)問題的成功率作為困難度的度量。我們提出了兩種采樣?法來利?這些先驗(yàn)信息以提?訓(xùn)練效率。課程采樣我們從訓(xùn)練簡單的任務(wù)開始,逐漸過渡到更具挑戰(zhàn)性的任務(wù)。由于初始的強(qiáng)化學(xué)習(xí)模型性能有限,將有限的計(jì)算資源?于?常困難的問題通常只會(huì)產(chǎn)?很少的正確樣本,導(dǎo)致訓(xùn)練效率降低。同時(shí),我們收集的數(shù)據(jù)?然包含年級和困難度標(biāo)簽,使基于困難度的采樣成為提?訓(xùn)練效率的直觀有效?法。優(yōu)先采樣除了課程采樣以外,我們使?優(yōu)先采樣策略專注于模型表現(xiàn)較差的問題。我們跟蹤每個(gè)問題i的成功率si,并按?例對問題進(jìn)?采樣,使得成功率較低的問題獲得較?的采樣概率。這將引導(dǎo)模型的努?集中在最薄弱的領(lǐng)域,實(shí)現(xiàn)更快的學(xué)習(xí)和更好的整體性能。通過動(dòng)態(tài)調(diào)整si值,使成功率較低的問題獲得更?的采樣概率。這將引導(dǎo)模型將精?集中在最薄弱的領(lǐng)域,加快學(xué)習(xí)速度,提?整體性能。2.3.5關(guān)于訓(xùn)練配?的更多細(xì)節(jié)編碼測試?例?成由于許多?絡(luò)編碼問題沒有提供測試?例,我們設(shè)計(jì)了?種?法來?動(dòng)?成作為獎(jiǎng)勵(lì)訓(xùn)練我們的模型與強(qiáng)化學(xué)習(xí)的測試?例。我們的重點(diǎn)主要是不需要特殊評判的問題。我們還假設(shè)這些問題的正確解決?案可?,以便我們可以利?解決?案?成更?質(zhì)量的測試?例。我們利??泛認(rèn)可的測試?例?成庫CYaRon1來增強(qiáng)我們的?法。我們使?我們的基本Kimik1.5根據(jù)問題描述?成測試?例。將CYaRon的使?說明和問題描述作為?成器的輸?。對于每個(gè)問題,我們?先使??成器?成50個(gè)測試?例,同時(shí)為每個(gè)測試?例隨機(jī)抽取10份正確的提交。我們對提交進(jìn)?測試。如果?少有7份提交結(jié)果匹配,則測試?例被視為有效。經(jīng)過此輪篩選后,我們獲得?組篩選后的測試?例。如果?少有9份提交經(jīng)過全部篩選后通過整組測試?例,問題及其關(guān)聯(lián)的篩選測試?例將添加到我們的訓(xùn)練集中。從1,000個(gè)在線?賽問題的樣本中統(tǒng)計(jì),?約有614個(gè)問題不需要特殊評審。我們開發(fā)了463個(gè)測試?例?成器,產(chǎn)??少40個(gè)有效測試?例,使得我們的訓(xùn)練集中包含了323個(gè)問題。數(shù)學(xué)獎(jiǎng)勵(lì)建模數(shù)學(xué)解決?案評估中的?個(gè)挑戰(zhàn)是,不同的書?形式可以表?相同的基本答案。例如,a2?4和(a+2)(a-2)可能都是同?個(gè)問題的有效解決?案。我們采?了兩種?法來提?獎(jiǎng)勵(lì)模型的評分準(zhǔn)確性:1.經(jīng)典RM:我們從InstructGPT(Ouyang等?,2022年)的?法中汲取靈感,實(shí)現(xiàn)了?個(gè)基于價(jià)值頭的獎(jiǎng)勵(lì)模型,并收集了約800k個(gè)數(shù)據(jù)點(diǎn)進(jìn)?微調(diào)。該模型最終收集了約800k個(gè)數(shù)據(jù)點(diǎn)進(jìn)?微調(diào)。該模型最終達(dá)到了Kimik1.5TECHNICALREPORT7將“問題”、“參考答案”和“回答”作為輸?,并輸出?個(gè)標(biāo)量,指?回答是否正確。具有思維鏈(CoT)推理的增強(qiáng)可以在某些任務(wù)上明顯優(yōu)于傳統(tǒng)?法,特別是在需要微妙的正確性標(biāo)準(zhǔn)的任務(wù)上,?如數(shù)學(xué)。因此,我們收集了?約800k個(gè)帶有CoT標(biāo)簽的?例數(shù)據(jù)集,對Kimi模型進(jìn)?了微調(diào)?;趥鹘y(tǒng)RM相同的輸?,思維鏈?法明確?成?種逐步推理過程,然后以JSON格式提供最終的正確性判斷,從?實(shí)現(xiàn)更穩(wěn)健和可解釋的獎(jiǎng)勵(lì)信號。在我們的?動(dòng)抽查中,經(jīng)典RM的準(zhǔn)確率約為84.4,?線性思維RM達(dá)到了98.5的準(zhǔn)確率。在RL訓(xùn)練過程中,我們采?了線性思維RM以確保更準(zhǔn)確的反饋。視覺數(shù)據(jù)為了提升模型的實(shí)際圖像推理能?,并實(shí)現(xiàn)視覺輸?與?型語?模型(LLM)之間更有效的對?,我們的視覺強(qiáng)化學(xué)習(xí)(VisionRL)數(shù)據(jù)主要來?三個(gè)不同類別:真實(shí)世界數(shù)據(jù)、合成視覺推理數(shù)據(jù)和?本渲染數(shù)據(jù)。1.真實(shí)世界數(shù)據(jù)涵蓋了各個(gè)年級科學(xué)問題的范圍,需要理解圖形、位置猜測任務(wù)、數(shù)據(jù)分析等要求視覺感知和推理的任務(wù),包括理解復(fù)雜圖表等各種類型的數(shù)據(jù)。這些數(shù)據(jù)集提?了模型在真實(shí)場景下進(jìn)?視覺推2.合成視覺推理數(shù)據(jù)是???成的,包括為改進(jìn)特定視覺推理技能?創(chuàng)建的程序化圖像和場景,例如理解空間關(guān)系、?何模式和物體交互。這些合成數(shù)據(jù)集為測試模型的視覺推理能?提供了受控環(huán)境,并提供了?窮?盡的訓(xùn)練?例。3.?本渲染數(shù)據(jù)是通過將?本內(nèi)容轉(zhuǎn)換為視覺格式創(chuàng)建的,使模型在處理不同模態(tài)下的基于?本查詢時(shí)能夠保持?致性。通過將?本?檔、代碼?段和結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為圖像,我們確保模型?論輸?是純?本還是?本渲染為圖像(如截圖或照?)都能提供?致的響應(yīng)。這也有助于增強(qiáng)模型處理?本密集圖像時(shí)的能?。每種類型的數(shù)據(jù)在構(gòu)建綜合的視覺語?模型??都是?關(guān)重要的,可以有效地管理各種實(shí)際應(yīng)?,并確保跨各種輸?模態(tài)時(shí)性能?致。2.4?2短:短CoT模型的上下?壓縮盡管?CoT模型表現(xiàn)出?,但與標(biāo)準(zhǔn)短CoTLLM相?,它消耗更多測試時(shí)間標(biāo)記。然?,可以將?CoT模型中的思考先驗(yàn)知識轉(zhuǎn)移到短CoT模型中,以便即使在有限的測試時(shí)間標(biāo)記預(yù)算下也能提?性能。我們提出了?種解決這個(gè)?2短問題的?法,包括模型合并(Yang等?,2024年),最短拒絕采樣,DPO(Rafailov等?2024年),以及?2短RL。以下詳細(xì)描述了這些?法:模型合并模型合并在保持泛化能???被發(fā)現(xiàn)是有?的。我們還發(fā)現(xiàn),在合并?cot模型和短cot模型時(shí),它在改進(jìn)標(biāo)記效率???常有效。該?法將?個(gè)?cot模型與?個(gè)較短模型結(jié)合起來,以獲得?個(gè)新模型??需訓(xùn)練。具體來說,我們通過簡單地平均它們的權(quán)重來合并這兩個(gè)模型。最短拒絕采樣我們觀察到我們的模型對于同?問題?成具有很??度變化的響應(yīng)?;诖?,我們設(shè)計(jì)了最短拒絕采樣?法。這種?法對同?問題進(jìn)?n次采樣(在我們的實(shí)驗(yàn)中,n=8),并選擇最短的正確響應(yīng)進(jìn)?監(jiān)督微調(diào)。DPO與最短拒絕采樣類似,我們利??CoT模型?成多個(gè)響應(yīng)樣本。選擇最短的正確解作為正樣本,?較?的響應(yīng)則作為負(fù)樣本,包括錯(cuò)誤的較?響應(yīng)和正確的較?響應(yīng)(?所選正樣本?1.5倍的響應(yīng))。這些正負(fù)對形成了?于DPO訓(xùn)練的成對偏好數(shù)據(jù)。Kimik1.5TECHNICALREPORT8?2短RL在標(biāo)準(zhǔn)RL訓(xùn)練階段之后,我們選擇?個(gè)在性能和令牌效率之間提供最佳平衡的模型作為基礎(chǔ)模型,并進(jìn)?單獨(dú)的?到短RL訓(xùn)練階段。在第?階段中,我們應(yīng)?了第2.3.3節(jié)中介紹的?度懲罰,并顯著減?最?推出?度,以進(jìn)?步懲罰超出所需?度的響應(yīng),同時(shí)可能進(jìn)?校正。2.5其他訓(xùn)練細(xì)節(jié)2.5.1預(yù)訓(xùn)練Kimik1.5基礎(chǔ)模型在多樣性?質(zhì)量的多模態(tài)語料庫上進(jìn)?訓(xùn)練。語?數(shù)據(jù)涵蓋英語、中?、代碼、數(shù)學(xué)推理和知識等五個(gè)領(lǐng)域。多模態(tài)數(shù)據(jù)包括字幕、圖像-?本交叉、OCR、知識和問答數(shù)據(jù)集,使我們的模型能夠獲得視覺-語?能?。嚴(yán)格的質(zhì)量控制確保總體預(yù)訓(xùn)練數(shù)據(jù)集的相關(guān)性、多樣性和平衡。我們的預(yù)訓(xùn)練分為三個(gè)階段:(1)視覺-語?預(yù)訓(xùn)練,建?強(qiáng)?的語?基礎(chǔ),隨后逐漸進(jìn)?多模態(tài)集成;(2)冷卻,利?策劃和合成數(shù)據(jù)鞏固能?,特別是針對推理和基于知識的任務(wù);(3)?上下?激活,將序列處理擴(kuò)展到131,072個(gè)標(biāo)記。有關(guān)我們預(yù)訓(xùn)練?作的更多細(xì)節(jié),請參閱附錄B。2.5.2傳統(tǒng)監(jiān)督微調(diào)我們創(chuàng)建了覆蓋多個(gè)領(lǐng)域的?草SFT語料庫。對于?推理任務(wù),包括問答、寫作和?本處理,我們?先通過??注釋構(gòu)建種?數(shù)據(jù)集。這個(gè)種?數(shù)據(jù)集?于訓(xùn)練種?模型。隨后,我們收集各種提?并使?種?模型為每個(gè)提??成多個(gè)響應(yīng)。注釋員然后對這些響應(yīng)進(jìn)?排名,并調(diào)整排名靠前的響應(yīng)以?成最終版本。對于數(shù)學(xué)和編碼問題等推理任務(wù),其中基于規(guī)則的驗(yàn)證和基于獎(jiǎng)勵(lì)建模的準(zhǔn)確性和效率優(yōu)于?類判斷,我們利?拒絕抽樣來擴(kuò)展SFT數(shù)據(jù)集。我們創(chuàng)建了覆蓋多個(gè)領(lǐng)域的傳統(tǒng)SFT語料庫。對于?推理任務(wù),包括問答、寫作和?本處理,我們通過??注釋?先構(gòu)建種?數(shù)據(jù)集。這個(gè)種?數(shù)據(jù)集?于訓(xùn)練?個(gè)種?模型。隨后,我們收集各種提?并使?種?模型為每個(gè)提??成多個(gè)響應(yīng)。注釋者然后對這些響應(yīng)進(jìn)?排名,并優(yōu)化排名靠前的響應(yīng)以?成最終版本。對于像數(shù)學(xué)和編碼問題這樣的推理任務(wù),其中基于規(guī)則和基于獎(jiǎng)勵(lì)建模的驗(yàn)證??類判斷更準(zhǔn)確和有效,我們利?拒絕抽樣來擴(kuò)展SFT數(shù)據(jù)集。我們?先在32k標(biāo)記的序列?度上訓(xùn)練模型1輪,然后在128k標(biāo)記的序列?度上進(jìn)?另?輪。在第?階段(32k)中,學(xué)習(xí)率從2×10^(-5)衰減到2×10^(-6),然后在第?階段(128k)中重新升溫到1×10^(-5),最后衰減到1×10^(-6)。為了提?訓(xùn)練效率,我們將多個(gè)訓(xùn)練?例打包到每個(gè)單個(gè)訓(xùn)練序列中。訓(xùn)練員?策略模型訓(xùn)練員?策略模型模型重量梯度更新展開式??重量梯度更新展開式??訓(xùn)練數(shù)據(jù)主控展開軌跡訓(xùn)練數(shù)據(jù)主控展開軌跡獎(jiǎng)勵(lì)模型獎(jiǎng)勵(lì)模型 代碼數(shù)學(xué)評估請求重放緩沖區(qū)重放緩沖區(qū)權(quán)重流數(shù)據(jù)流展開?作?員展開?作?員圖3:?規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)LLMKimik1.5TECHNICALREPORT92.6.1針對LLM的?規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)在??智能領(lǐng)域,強(qiáng)化學(xué)習(xí)(RL)已經(jīng)成為?型語?模型(LLMs)的關(guān)鍵訓(xùn)練?法,從其在掌握復(fù)雜游戲如圍棋、星際爭霸II和Dota2??的成功中吸取靈感,通過AlphaGo(Silver等?,2017)、AlphaStar(Vinyals等?,2019)和OpenAIDotaFive(Berner等?,2019)等系統(tǒng)。繼承這?傳統(tǒng),Kimik1.5系統(tǒng)采?了?個(gè)迭代同步的強(qiáng)化學(xué)習(xí)框架,經(jīng)過精?設(shè)計(jì)來通過持續(xù)學(xué)習(xí)和適應(yīng)來增強(qiáng)模型的推理能?。這?系統(tǒng)的?個(gè)關(guān)鍵創(chuàng)新是引?部分展開技術(shù),旨在優(yōu)化處理復(fù)雜推理軌跡。如圖3a所?的RL訓(xùn)練系統(tǒng)通過?個(gè)迭代同步?法運(yùn)?,每個(gè)迭代包括?個(gè)展開階段和?個(gè)訓(xùn)練階段。在展開階段,由中央主控制的展開?作者通過與模型交互?成展開軌跡,產(chǎn)?對各種輸?的響應(yīng)序列。這些軌跡然后存儲在回放緩沖區(qū)中,確保通過破壞時(shí)間相關(guān)性為訓(xùn)練提供多樣化且?偏?的數(shù)據(jù)集。在隨后的訓(xùn)練階段,訓(xùn)練?作者訪問這些經(jīng)驗(yàn)來更新模型的權(quán)重。這?循環(huán)過程使模型可以不斷地從其?動(dòng)中學(xué)習(xí),隨著時(shí)間的推移調(diào)整其策略以提升性能。中央主控充當(dāng)中央指揮官,管理展開?作者、訓(xùn)練?作者、評估以獎(jiǎng)勵(lì)模型和回放緩沖區(qū)之間的數(shù)據(jù)流和通信。它確保系統(tǒng)協(xié)調(diào)運(yùn)作,平衡負(fù)載并促進(jìn)有效的數(shù)據(jù)處理。訓(xùn)練?作者訪問這些展開軌跡,?論是在單個(gè)迭代中完成還是分布在多個(gè)迭代中,以計(jì)算梯度更新,優(yōu)化模型的參數(shù)并增強(qiáng)其性能。這?過程由獎(jiǎng)勵(lì)模型監(jiān)督,評估模型輸出的質(zhì)量并提供必要的反饋來引導(dǎo)訓(xùn)練過程。獎(jiǎng)勵(lì)模型的評估在確定模型策略的有效性和引導(dǎo)模型朝著最佳性能?向??尤為關(guān)鍵。此外,系統(tǒng)還整合了?個(gè)代碼執(zhí)?服務(wù),專?設(shè)計(jì)?于處理與代碼相關(guān)的問題并對獎(jiǎng)勵(lì)模型?關(guān)重要。該服務(wù)在實(shí)際編碼場景中評估模型的輸出,確保模型的學(xué)習(xí)與現(xiàn)實(shí)世界的編程挑戰(zhàn)密切相關(guān)。通過將模型的解決?案與實(shí)際代碼執(zhí)?進(jìn)?驗(yàn)證,這種反饋循環(huán)對于改進(jìn)模型策略并提?其在與代碼相關(guān)任務(wù)中的性能?關(guān)重要。2.6.2?CoT強(qiáng)化學(xué)習(xí)的部分展開我們?作的主要思想之?是擴(kuò)展?上下?強(qiáng)化學(xué)習(xí)訓(xùn)練。部分展開是?種有效應(yīng)對處理?CoT特征挑戰(zhàn)的關(guān)鍵技術(shù),通過管理?短軌跡的展開來設(shè)定固定的輸出標(biāo)記預(yù)算,限制每個(gè)展開軌跡的?度。如果在展開階段軌跡超過標(biāo)記限制,未完成部分將保存到回放緩沖區(qū),并在下?次迭代中繼續(xù)。確保沒有單個(gè)冗?軌跡壟斷系統(tǒng)資源。此外,由于展開?作者是異步運(yùn)?的,當(dāng)?些?作者參與?軌跡時(shí),其他?可以獨(dú)?處理新的、較短的展開任務(wù)。異步操作通過確保所有展開?作者都積極參與訓(xùn)練過程來最?限度地提?計(jì)算效率,從?優(yōu)化系統(tǒng)的如圖3b所?,部分展開系統(tǒng)通過將?回復(fù)分段到迭代過程中(從迭代n-m到迭代n)來運(yùn)作?;胤啪彌_區(qū)充當(dāng)?個(gè)中央存儲機(jī)制,維護(hù)這些回復(fù)?段,僅當(dāng)前迭代(迭代n)需要按政策計(jì)算。之前的?段(從迭代n-m到n-1)可以從緩沖區(qū)中?效地重復(fù)使?,消除了重復(fù)展開的需求。這種分段?法顯著減少了計(jì)算開銷:系統(tǒng)逐增地處理和存儲?段,?不是?次性展開整個(gè)回復(fù),使得可以?成更?的回復(fù)同時(shí)保持快速迭代時(shí)間。在訓(xùn)練過程中,可以排除某些?段不參與損失計(jì)算,進(jìn)?步優(yōu)化學(xué)習(xí)過程,使整個(gè)系統(tǒng)既?效?可擴(kuò)展。部分展開的實(shí)施還提供了重復(fù)檢測。系統(tǒng)識別?成內(nèi)容中的重復(fù)序列并及早終?它們,減少不必要的計(jì)算同時(shí)保持輸出質(zhì)量。檢測到的重復(fù)內(nèi)容可以被賦予額外的懲罰,有效地阻?在提?集中?成冗余內(nèi)容。2.6.3訓(xùn)練和推斷的混合部署強(qiáng)化學(xué)習(xí)訓(xùn)練過程包括以下階段:Kimik1.5TECHNICALREPORT梅格特隆側(cè)?vLLM側(cè)?列?卸載更新權(quán)重啟動(dòng)vLLM檢查點(diǎn)引擎裝載展開終?虛擬開始轉(zhuǎn)換HF等待展開共享梅格特隆側(cè)?vLLM側(cè)?列?卸載更新權(quán)重啟動(dòng)vLLM檢查點(diǎn)引擎裝載展開終?虛擬開始轉(zhuǎn)換HF等待展開共享內(nèi)存終?vLLM注冊碎?更新權(quán)重檢查點(diǎn)引擎其他的PodsRDMApodetcd圖4:混合部署框架?訓(xùn)練階段:?開始,Megatron(Shoeybi等?,2020)和vLLM(Kwon等?,2023)在單獨(dú)的容器內(nèi)執(zhí)?,由?個(gè)稱為檢查點(diǎn)引擎(2.6.3節(jié))的墊?進(jìn)程封裝。Megatron開始訓(xùn)練過程。訓(xùn)練完成后,Megatron卸載GPU內(nèi)存并準(zhǔn)備將當(dāng)前權(quán)重轉(zhuǎn)移到vLLM?推理階段:在梅加特隆的卸載之后,vLLM使?虛擬模型權(quán)重開始,并通過Mooncake從梅加特隆最新傳輸?shù)臋?quán)重更新它們(Qin等?,2024年)。在部署完成后,檢查點(diǎn)引擎將停?所有vLLM進(jìn)程。?后續(xù)訓(xùn)練階段:?旦分配給vLLM的內(nèi)存被釋放,梅加特隆將加載內(nèi)存并啟動(dòng)另?輪訓(xùn)練。我們發(fā)現(xiàn)現(xiàn)有的作品難以同時(shí)?持以下所有特征。?復(fù)雜的并?策略:梅加特隆可能具有不同的并?策略,梅加特隆中分布在?個(gè)節(jié)點(diǎn)的訓(xùn)練權(quán)重可能很難與vLLM共享。?最?化空閑GPU資源:對于On-PolicyRL,最近的作品如SGLang(L.Zheng等?,2024年)和vLLM在訓(xùn)練過程中可能保留?些GPU,這反?可能導(dǎo)致空閑的訓(xùn)練GPU。在訓(xùn)練和推理之間共享相同的設(shè)備將更?效。?動(dòng)態(tài)縮放能?:在某些情況下,通過增加推理節(jié)點(diǎn)數(shù)量并保持訓(xùn)練過程不變,可以實(shí)現(xiàn)顯著的加速。我們的系統(tǒng)在需要時(shí)能夠?效利?空閑GPU節(jié)點(diǎn)。如圖4所?,我們在Megatron和vLLM之上實(shí)現(xiàn)了這種混合部署框架(第2.6.3節(jié)),從訓(xùn)練到推斷階段不到?分鐘,反之亦然約?秒鐘?;旌喜渴鸩呗晕覀兲岢隽?種?于訓(xùn)練和推斷任務(wù)的混合部署策略,利?KubernetesSidecar容器共享所有可?的GPU,將兩個(gè)?作負(fù)載放置在?個(gè)Pod中。這種策略的主要優(yōu)勢包括:?它促進(jìn)了有效的資源共享和管理,防?當(dāng)訓(xùn)練節(jié)點(diǎn)和推斷節(jié)點(diǎn)部署在不同節(jié)點(diǎn)上時(shí),訓(xùn)練節(jié)點(diǎn)等待推斷節(jié)點(diǎn)?空轉(zhuǎn)。?利?不同的部署圖像,訓(xùn)練和推斷可以獨(dú)?迭代,以獲得更好的性能。?該架構(gòu)不僅限于vLLM,其他框架也可以?便地集成進(jìn)來。檢查點(diǎn)引擎檢查點(diǎn)引擎負(fù)責(zé)管理vLLM進(jìn)程的?命周期,提供HTTPAPI來觸發(fā)vLLM的各種操作。為了整體?致性和可靠性,我們利?由etcd服務(wù)管理的全局元數(shù)據(jù)系統(tǒng)來?播操作和狀態(tài)。Kimik1.5TECHNICALREPORT由于CUDA圖形、NCCL緩沖區(qū)和NVIDIA驅(qū)動(dòng)程序,通過vLLM卸載GPU內(nèi)存完全可能具有挑戰(zhàn)性。為了最?限度減少對vLLM的修改,我們在需要時(shí)終?并重新啟動(dòng)它,以獲得更好的GPU利?率和容錯(cuò)能?。Megatron中的?作程序?qū)碛械臋z查點(diǎn)轉(zhuǎn)換為共享內(nèi)存中的HuggingFace格式。此轉(zhuǎn)換還考慮了PipelineParallelism和ExpertParallelism,以便這些檢查點(diǎn)中僅保留TensorParallelism。隨后,共享內(nèi)存中的檢查點(diǎn)被分成分?并在全局元數(shù)據(jù)系統(tǒng)中進(jìn)?注冊。我們使?Mooncake通過RDMA在對等節(jié)點(diǎn)之間傳輸檢查點(diǎn)。需要對vLLM進(jìn)??些修改以加載權(quán)重?件并執(zhí)?張量并?轉(zhuǎn)換。2.6.4代碼沙箱我們開發(fā)的沙箱是?個(gè)安全環(huán)境,?于執(zhí)???提交的代碼,優(yōu)化了代碼執(zhí)?和代碼基準(zhǔn)評估。通過動(dòng)態(tài)切換容器鏡像,沙箱?持通過MultiPL-E(Cassano,Gouwar,D.Nguyen,S.Nguyen等?。2023年DMOJJudgeServer2,Lean,JupyterNotebook和其他鏡像實(shí)現(xiàn)不同的?例。對于編碼任務(wù)中的RL,沙箱通過提供?致且可重復(fù)的評估機(jī)制來確保培訓(xùn)數(shù)據(jù)判斷的可靠性。其反饋系統(tǒng)?持多階段評估,如代碼執(zhí)?反饋和倉庫級別編輯,同時(shí)保持統(tǒng)?的上下?,以確??缇幊陶Z?的公平和公正的基準(zhǔn)?較。我們將服務(wù)部署在Kubernetes上,以獲得可伸縮性和彈性,并通過HTTP端點(diǎn)將其暴露以進(jìn)?外部集成。Kubernetes的功能,如?動(dòng)重啟和滾動(dòng)更新,確???性和容錯(cuò)能?。為了優(yōu)化性能并?持RL環(huán)境,我們將?種技術(shù)整合到代碼執(zhí)?服務(wù)中,以增強(qiáng)效率、速度和可靠性。這些技術(shù)包括:?使?Crun:我們使?crun作為容器運(yùn)?時(shí),?不是Docker,??減少了容器啟動(dòng)時(shí)間。?CgroupReusing:我們預(yù)先為容器使?創(chuàng)建cgroups,在?并發(fā)場景中這是?關(guān)重要的,因?yàn)闉槊總€(gè)容器創(chuàng)建和銷毀cgroups沙箱沙箱0.04?法容器Docker沙盒(a)容器啟動(dòng)時(shí)間(b這些優(yōu)化提?了RL執(zhí)?效率,為評估由RL?成的代碼提供了?致且可靠的環(huán)境,對于迭代訓(xùn)練和模型改進(jìn)?關(guān)重要。3.1評估由于k1.5是?種多模態(tài)模型,我們對不同類型的基準(zhǔn)進(jìn)?了全?評估。詳細(xì)的評估設(shè)置可以在附錄C中找到。我們的基準(zhǔn)主要包括以下三個(gè)類別:??本基準(zhǔn):MMLU(Hendrycks等?,2020),IF-Eval(J.Zhou等?,2023),CLUEWSC(L.Xu等?,2020)C-EVAL(?等?,2023年)?推理基準(zhǔn):HumanEval-Mul,LiveCodeBench(Jain等?,2024年),Codeforces,AIME2024,MATH-500(Lightman等?,2023年)?視覺基準(zhǔn):MMMU(岳、倪等?,2024年),MATH-Vision(王等?,2024年),MathVista(陸等?,2023年)Kimik1.5TECHNICALREPORT3.2主要結(jié)果K1.5?距離-CoT模型Kimik1.5?距離-CoT模型的性能?表2。通過?距離-CoT監(jiān)督微調(diào)(?第2.2節(jié))和視覺?本聯(lián)合強(qiáng)化學(xué)習(xí)(討論于第2.3節(jié)),該模型的?期推理能?得到顯著增強(qiáng)。測試時(shí)計(jì)算規(guī)模進(jìn)?步增強(qiáng)了其性能,使模型能夠在各種模態(tài)下實(shí)現(xiàn)最先進(jìn)的結(jié)果。我們的評估顯?,模型在推理、理解和綜合信息??在擴(kuò)展語境下都有顯著改進(jìn),代表了多模態(tài)??智能能?的進(jìn)步。K1.5短距離-CoT模型Kimik1.5短距離-CoT模型的性能?表3。該模型集成了多種技術(shù),包括傳統(tǒng)的監(jiān)督微調(diào)(?第2.5.2節(jié))、強(qiáng)化學(xué)習(xí)(在第2.3節(jié)中探討)和?到短的蒸餾(在第2.4節(jié)中概述)。結(jié)果表明,k1.5短距離-CoT模型在多項(xiàng)任務(wù)中提供了競爭?或優(yōu)越的表現(xiàn),與領(lǐng)先的開源和專有模型相?。這些任務(wù)包括?本、視覺和推理挑戰(zhàn),在?然語?理解、數(shù)學(xué)、編碼和邏輯推理??顯?出明顯優(yōu)勢?;鶞?zhǔn)(度量)僅語?模型預(yù)覽OpenAIo1-mini視覺語?模型QVQ-72BOpenAIKimi推理MATH-500(EM)AIME2024(通過@1)Codeforces(百分位)LiveCodeBench(Pass@90.650.090.063.6 94.896.262.5VisionMathVista-Test(通過@--MMMU-Val(通過@1)35.9-38.6表2:Kimik1.5?CoT和旗艦開源和專有模型的性能。QMMLU(EM)IF-Eval(提?嚴(yán)格)CLUEWSC(EM)C-Eval(EM) MATH-500(EM) --9.3 - 表3:Kimik1.5短路傳輸和旗艦開源和專有模型的性能。VLM模型性能來源于OpenCompass基準(zhǔn)平臺(/)。3.3?上下?縮放我們采?中等規(guī)模模型來研究帶有LLMs的RL的縮放特性。圖5展?了在數(shù)學(xué)提?集上訓(xùn)練的?型模型變體在訓(xùn)練迭代中訓(xùn)練精度和響應(yīng)?度的演變。隨著訓(xùn)練的進(jìn)?,我們觀察到響應(yīng)?度和性能精度同時(shí)增加。值得注意的是,更具挑戰(zhàn)性的基準(zhǔn)展?出響應(yīng)?度的急劇增加,這表明模型學(xué)會(huì)為復(fù)雜問題?成更復(fù)雜的解決?案。圖6顯?了模型之間的很強(qiáng)的相關(guān)性Kimik1.5TECHNICALREPORT輸出上下??度及其問題解決能?。我們最終運(yùn)?的k1.5規(guī)模擴(kuò)展到128k上下??度,并觀察到在困難推理基準(zhǔn)上持續(xù)改進(jìn)。圖5:隨著訓(xùn)練迭代次數(shù)的增加,訓(xùn)練精度和?度的變化。請注意,上?的得分來?于?個(gè)內(nèi)部規(guī)模遠(yuǎn)?于k1.5?視覺語境模型的?滑動(dòng)平均模型。陰影區(qū)域代表響應(yīng)?度的95%百分位數(shù)。3.4?2短我們將提出的?2短RL算法與第2.4節(jié)中介紹的DPO、最短拒絕抽樣和模型合并?法進(jìn)??較,重點(diǎn)關(guān)注?2短問題的標(biāo)記效率(X.Chen等?,2024),特別是獲得的?通模型如何有益于短模型。在圖7中,k1.5-long代表我們選擇的?于?2短訓(xùn)練的?通模型。k1.5-shortw/rl指的是使??2短RL訓(xùn)練獲得的短模型。k1.5-shortw/dpo表?通過DPO訓(xùn)練改善標(biāo)記效率的短模型。k1.5-shortw/merge代表模型合并后的模型,?k1.5-shortw/merge+rs表?將最短拒絕抽樣應(yīng)?于合并模型后獲得的短模型。k1.5-shortest代表我們在?2短訓(xùn)練過程中獲得的最短模型。如圖7所?,與其他?法(如DPO和模型合并)相?,提出的?2短RL算法表現(xiàn)出最?的標(biāo)記效率。值得注意的是,k1.5系列中的所有模型(?橙?標(biāo)記)在標(biāo)記效率??均優(yōu)于其他模型(?藍(lán)?標(biāo)記)。例如,k1.5-shortw/rl在AIME2024上實(shí)現(xiàn)了60.8的Pass@1分?jǐn)?shù)(平均8次運(yùn)?),?平均僅利?3,272個(gè)標(biāo)記。同樣,k1.5-shortest在MATH500上取得了88.2的Pass@1分?jǐn)?shù),同時(shí)消耗的標(biāo)記數(shù)量與其他短模型?致相類似地,k1.5-shortest在MATH500上獲得88.2的Pass@1分?jǐn)?shù),同時(shí)消耗的令牌數(shù)量與其他短模型?致相同Kimik1.5TECHNICALREPORT圖6:模型性能隨響應(yīng)?度增加?提?AIME2024MATH500k1.5-longw/rlk1.5-shortAIME2024MATH500k1.5-longw/rlk1.5-shortk1.5-shortk1.5-shortk1.5-shortw/dpok1.5-shortw/合并+rsk1.5-shortw/合并deepseek-v3k1.5-shortw/dpo60k1.5-shortw/合并+rsdeepseek-v3k1.5-shortest50k1.5-shortw/合并k1.5-shortestk1.5-shortestqwen25-72B-inst克勞德3.5令牌?度qwen25-72B-instClaude3.5令牌?度圖7:Long2Short性能。所有的k1.5系列相?其他模型表現(xiàn)出更好的令牌效率3.5消融研究模型規(guī)模和上下??度的擴(kuò)展我們的主要貢獻(xiàn)在于將RL應(yīng)?于增強(qiáng)模型?成擴(kuò)展CoT的能?,從?提?其推理能?。?個(gè)?然的問題是:這與簡單增加模型??有何不同?為了展?我們?法的有效性,我們訓(xùn)練了兩個(gè)使?相同數(shù)據(jù)集的不同??模型,并記錄了RL訓(xùn)練期間所有檢查點(diǎn)的評估結(jié)果和平均推理?度。這些結(jié)果顯?在圖8中。值得注意的是,盡管較?的模型最初表現(xiàn)優(yōu)于較?的模型,但通過RL優(yōu)化更?的CoTs,較?的模型可以達(dá)到可?較的性能。然?,?般來說,較?模型顯??較較?模型更好的令牌效率。這也表明,如果?個(gè)?追求最佳的性能,擴(kuò)?較?模型的上下??度具有更?的上限,更具令牌效率。但是,如果測試時(shí)計(jì)算有預(yù)算限制,訓(xùn)練更?上下??度的較?模型可能是可iable的解決?案。使?負(fù)梯度的影響我們研究了在我們的設(shè)置中使?ReST(Gulcehre等?2013)作為策略優(yōu)化算法的有效性。ReST與其他基于RL的?法之間的主要區(qū)別包括Kimik1.5TECHNICALREPORT我們的?法是通過從當(dāng)前模型中采樣最佳響應(yīng)來迭代地完善模型,?不對不正確的響應(yīng)施加負(fù)梯度。如圖10所?,相較于ReST,我們的?法在樣本復(fù)雜性上表現(xiàn)出更強(qiáng)的優(yōu)勢,表明負(fù)梯度的引?顯著增強(qiáng)了模型在?成?CoT??的效率。我們的?法不僅提?了推理質(zhì)量,還優(yōu)化了訓(xùn)練過程,在使?更少訓(xùn)練樣本的情況下實(shí)現(xiàn)了強(qiáng)?性能。這?發(fā)現(xiàn)表明,在我們的情境中,選擇合適的策略優(yōu)化算法?關(guān)重要,因?yàn)镽eST和其他基于RL的?法之間的性能差距在其他領(lǐng)域并不那么明顯(Gulcehre等?,2023年)。因此,我們的結(jié)果突顯了選擇合適的優(yōu)化策略以最?程度地提??成?CoT的效果的重要性。采樣策略我們進(jìn)?步展?了我們課程采樣策略的有效性,該策略在第2.3.4節(jié)中介紹。我們的訓(xùn)練數(shù)據(jù)集D包含了各種難度?平的問題。通過我們的課程采樣?法,我們?先將D?于熱?階段,然后專注于訓(xùn)練模型的困難問題。這種?法與采?統(tǒng)?采樣策略?不進(jìn)?任何課程調(diào)整的基準(zhǔn)?法進(jìn)??較。如圖9所?,我們的結(jié)果清楚地表明,所提出的課程采樣?法明顯增強(qiáng)了性能。這種提升可以歸因于該?法逐漸挑戰(zhàn)模型的能?,使其在處理復(fù)雜問題時(shí)逐漸形成更強(qiáng)?的理解和能?。通過在最初的?般介紹后專注于更困難的問題上進(jìn)?培訓(xùn),模型能夠更好地加強(qiáng)其推理和問題解決能?。圖8:不同模型??的模型性能與響應(yīng)?度圖9:課程學(xué)習(xí)?法對模型性能的分析我們展?了k1.5的訓(xùn)練配?和系統(tǒng)設(shè)計(jì),這是我們最新的多模式LLM,通過RL進(jìn)?訓(xùn)練。我們從實(shí)踐中提煉出的?個(gè)關(guān)鍵?解是,上下??度的擴(kuò)展對LLM的持續(xù)改進(jìn)?關(guān)重要。我們采?了優(yōu)化的學(xué)習(xí)算法和基礎(chǔ)架構(gòu)優(yōu)化,如部分展開,以實(shí)現(xiàn)?效的?上下?RL訓(xùn)練。如何進(jìn)?步提??上下?RL訓(xùn)練的效率和可擴(kuò)展性仍然是未來的?個(gè)重要問題。Kimik1.5TECHNICALREPORT圖10:使?ReST進(jìn)?策略優(yōu)化對?。我們另?個(gè)貢獻(xiàn)是結(jié)合技術(shù),實(shí)現(xiàn)優(yōu)化策略。具體來說,我們通過使?LLMs制定?CoTRL,并導(dǎo)出?種?于魯棒優(yōu)化的在線鏡像下降的變體。我們還嘗試了采樣策略、?度懲罰以及優(yōu)化數(shù)據(jù)配?,以取得強(qiáng)?的RL性能。我們展?了即使不使?更復(fù)雜的技術(shù),如蒙特卡洛樹搜索,價(jià)值函數(shù)和處理獎(jiǎng)勵(lì)模型,也可以通過?上下?縮放和改進(jìn)策略優(yōu)化實(shí)現(xiàn)強(qiáng)?性能。在未來,研究如何改進(jìn)學(xué)分分配和減少反復(fù)思考?不損害模型的探索能?也將是?個(gè)有趣的課題。我們還發(fā)現(xiàn)了?短?法的潛?。這些?法很?程度上改善了短CoT模型的性能。此外,可以將?短?法與?CoTRL迭代結(jié)合以進(jìn)?步提?記號效率,并從給定的上下??度預(yù)算中提取最佳性能。Abbasi-Yadkori,Yasin等?!癙olitex:利?專家預(yù)測進(jìn)?策略迭代的遺憾界限”。?:國際機(jī)器學(xué)習(xí)會(huì)議。PMLR.2019,pp.3692?3702.Ahmadian,Arash等?!盎貧w基礎(chǔ):重新審視從?類反饋中學(xué)習(xí)的強(qiáng)化樣式優(yōu)化llms”.在:arXiv預(yù)印本arXiv:2402.14740(2024)Ankner,Zachary等?。Critique-out-Loud獎(jiǎng)勵(lì)模型。2024年。arXiv:2408.11791[cs.LG]。?址:https://arxiv.Berner,Christopher等?。Dota2withlargescaledeepreinforcementlearning。在:arXiv預(yù)印本arXiv:1912.06680Kimik1.5TECHNICALREPORTCassano,Federico,JohnGouwar,DanielNguyen,SyDuyNguyen,等?!癕ultiPL-E:?種可擴(kuò)展和可伸縮的神經(jīng)代碼?成基準(zhǔn)?法”。在:ArXiv(2022年)。?址:/abs/2208Cassano,Federico,JohnGouwar,DanielNguyen,SydneyNguyen,等?!癕ultiPL-E:?種可擴(kuò)展和多語?基準(zhǔn)?法?于神經(jīng)代碼?成基準(zhǔn)的?法”。在:IEEE軟件?程交易49.7(2023年),第3675-3691DOI:10.1109/TSE.2023.3Chen,Jianlv等。“Bgem3-embedding:通過?我知識蒸餾進(jìn)?多語?,多功能,多粒度?本嵌?”。在:arXiv預(yù)印本arXiv:2402.03216(2024年)Chen,Xingyu等。“不要為2+3=過多地進(jìn)?思考?關(guān)于o1-LikeLLMs的過度思考”。在:arXiv預(yù)印本arXiv:2412.21187(2024年)Everitt,Tometal.RewardTamperingProblemsandSolutionsinReinforcementLearning:ACausalInfluenceDiagram觀點(diǎn)。2021.arXiv:1908.04734[cs.AI].URL:/abs/1908.04734.Gadre,SamirYitzhaketal.“Datacomp:Insearchofthenextgenerationofmultimodaldatasets”。在:神經(jīng)信息處理系統(tǒng)36(2024)。Grattafiori,Aaronetal.TheLlama3HerdofModels.2024.arXiv:2407.21783[cs.AI]。URL:https://arxiv。Gulcehre,Caglaretal.“Reinforcedself-training(rest)forlanguagemodeling”。在:arXiv預(yù)印本arXiv:2308.08998Hendrycks,Danetal.“MeasuringMassiveMultitaskLanguageUnderstanding”。在:ArXivabs/2009.03300(2020)。URL:/abs/2009.03300。Hoffmann,Jordan等?。訓(xùn)練計(jì)算最優(yōu)?語?模型。2022年。arXiv:2203.15556[cs.CL]。?址:/abs/2203.15556。Huang,Yuzhen等?。“C-Eval:?于基礎(chǔ)模型的多層多學(xué)科中?評估套件”。在:ArXivabs/2305.08322(2023)。?址:/abs/2305.08322。Jaech,Aaron等??!癘penaio1系統(tǒng)卡?”。在:arXiv預(yù)印本arXiv:2412.16720(2024)。Jain,Naman等??!癓iveCodeBench:?于代碼的?型語?模型的全?和?污染評估”。在:ArXivabs/2403.07974(2024)。?址:/abs/2403.07974。Joulin,Armand等??!?于?效?本分類的?攬?技巧”。在:arXiv預(yù)印本arXiv:1607.01759(2016)。Kaplan,Jared等?。神經(jīng)語?模型的擴(kuò)展定律。2020年。arXiv:2001.08361[cs.LG]。?址:https:Kool,Wouter,HerkevanHoof,和MaxWelling。"購買4份增強(qiáng)樣本,免費(fèi)獲取基準(zhǔn)線!"。在:(2019)Kwon,Woosuk等?。"使?PagedAttention實(shí)現(xiàn)?型語?模型服務(wù)的?效內(nèi)存管理"。在:第29屆操作系統(tǒng)原則ACMSIGOPS研討會(huì)論?集。2023年.Lauren?on,Hugo等?。"Obelics:?個(gè)開放的?絡(luò)規(guī)模篩選的交錯(cuò)圖像?檔數(shù)據(jù)集"。在:進(jìn)展在神經(jīng)信息處理系統(tǒng)36中。(2024)Li,Jeffrey等?。"Datacomp-lm:尋找語?模型下?代訓(xùn)練集"。在:arXiv預(yù)印本arXiv:2406.11794(2024)Li,Ming等?。"從數(shù)量到質(zhì)量:通過?我指導(dǎo)數(shù)據(jù)選擇來提升llm性能以進(jìn)?指導(dǎo)調(diào)整"。在:arXiv預(yù)印本arXiv:2308.12032(2023)Li,Raymond等?。StarCoder:愿源與你同在!2023年。arXiv:2305.06161[cs.CL]。URL:https///abs/2305.06161Lightman,Hunter等。“讓我們逐步驗(yàn)證”。在:arXiv預(yù)印本arXiv:2305.20050(2023)Liu,Wei等。“什么使數(shù)據(jù)對?良好?對指導(dǎo)中?動(dòng)數(shù)據(jù)選擇的全?研究調(diào)整”。在:arXiv預(yù)印本arXiv:2312.15685(2023)Lozhkov,Anton等。StarCoder2和TheStackv2:下?代。2024.arXiv:2402.19173[cs.SE].URL:/abs/2402.19173Lu,Pan等?!癕athvista:在視覺背景中評估基礎(chǔ)模型的數(shù)學(xué)推理”。在:arXiv預(yù)印本arXiv:2310.02255(2023)McAleese,Nat等。LLMCritics幫助捕獲LLMBugs。2024.arXiv:2407.00215[cs.SE].URL:https://arxiv.Mei,Jincheng等?!瓣P(guān)于策略優(yōu)化中基于原則的熵探索”。在:第28屆國際會(huì)議??智能聯(lián)合會(huì)議。2019,pp.3130?3136。Muennighoff,Niklas等?。擴(kuò)展數(shù)據(jù)受限語?模型。2023。arXiv:2305.16264[cs.CL]。?址:/abs/2305.16264。Nachum,Ofir等?!皬浐现蹬c基于策略的強(qiáng)化學(xué)習(xí)之間的差距”。在:神經(jīng)信息處理系統(tǒng)30(2017)。OpenAI?!皩W(xué)習(xí)如何?LLMs推理”。在:(2024)。?址:/index/learning-to-reason-with-llms/。Kimik1.5TECHNICALREPORT歐陽隆等??!锻ㄟ^?類反饋訓(xùn)練語?模型遵循指令》。在:神經(jīng)信息處理系統(tǒng)的進(jìn)展35(2022年),第27730-27744?。Pan,Alexander,KushBhatia和JacobSteinhardt?!丢?jiǎng)勵(lì)誤差的效應(yīng):映射和減輕不對?模型》。在:國際學(xué)習(xí)表?會(huì)議。2022。?址:https://openreview。Paster,Keiran等?。《Openwebmath:?個(gè)?質(zhì)量數(shù)學(xué)?絡(luò)?本的開放數(shù)據(jù)集》。在:arXiv預(yù)印本arXiv:2310.06786(2023年)。Penedo,Guilherme等??!秄ineweb數(shù)據(jù)集:為規(guī)?;淖詈?本數(shù)據(jù)?脫殼??》。在:arXiv預(yù)印本Paster,Keiran等??!癘penwebmath:?質(zhì)量數(shù)學(xué)?絡(luò)?本的開放數(shù)據(jù)集”。在:arXiv預(yù)印本arXiv:2310.06786(2023)Penedo,Guilherme等??!癋ineweb數(shù)據(jù)集:為?規(guī)模最優(yōu)?本數(shù)據(jù)提供最純凈的?絡(luò)”。在:arXiv預(yù)印本arXiv:2406.17557(2024年)。秦若愚等?。Mooncake:?向LLM服務(wù)的KVCache-centric分布架構(gòu)。2024。arXiv:2407。00079[cs.DC].?址:/abs/2407.00079Rafailov,Rafael等?。“直接偏好優(yōu)化:您的語?模型實(shí)際上是?個(gè)獎(jiǎng)勵(lì)模型”。在:進(jìn)展在神經(jīng)信息處理系統(tǒng)36(2024)中Schuhmann,Christoph等?。“Laion-5b:?于訓(xùn)練下?代圖像?本模型的開放?規(guī)模數(shù)據(jù)集”。在:進(jìn)展在神經(jīng)信息處理系統(tǒng)35(2022),?碼25278?25294Shoeybi,Mohammad等?。Megatron-LM:使?模型并?訓(xùn)練數(shù)?億參數(shù)語?模型2020.arXiv:1909.08053[cs.CL].?址:/abs/1909.08053Silver,David等??!?需?類知識掌握圍棋”。在:《?然》550.7676(2017),?碼354?359Snell,Charlie等??!霸跍y試時(shí)?效地?cái)U(kuò)展llm計(jì)算?縮放模型參數(shù)更有效”。在:arXiv預(yù)印本arXiv:2408.03314(2024)Su,Dan等??!癗emotron-CC:將CommonCrawl轉(zhuǎn)化為?個(gè)精細(xì)的?視野預(yù)訓(xùn)練數(shù)據(jù)集”。在:arXiv預(yù)印本arXiv:2412.02595(2024年)Su,Jianlin等??!癛oformer:帶有旋轉(zhuǎn)位置嵌?的增強(qiáng)transformer”。在Neurocomputing568(2024年)Team,Gemini等?。Gemini:?系列?能?多模型。2024年。arXiv:2312.11805[cs.CL]URL:/abs/2312.11805Tomar,Manan等??!癕irrordescent策略優(yōu)化”。在arXiv預(yù)印本arXiv:2005.09814(2020年)I.Guyon等?。第30卷。CurranAssociates,Inc.,2017年。?址:https://proceedings.neurips.cc/paper_files/paper/2017/Villalobos,Pablo等?。我們會(huì)?盡數(shù)據(jù)嗎?基于?類?成的數(shù)據(jù)對LLM擴(kuò)展的限制。2024年。arXiv:2211.04325[cs.LG].?址:/abs/2211.04325Vinyals,Oriol等?。"使?多智能體強(qiáng)化學(xué)習(xí)在星際爭霸II中達(dá)到?師級?平"。發(fā)表于:nature575.7782Wang,Ke等?。"?數(shù)學(xué)視覺數(shù)據(jù)集衡量多模式數(shù)學(xué)推理"。發(fā)表于:arXiv預(yù)印本arXiv:2402.14804(2024)Wei,Haoran等?。"通?OCR理論:通過統(tǒng)?端到端模型?向OCR-2.0"。發(fā)表于:arXiv預(yù)印本arXiv:2409.01704(2024)Wei,Jason等?。"思維鏈引導(dǎo)在?型語?模型中喚起推理"。發(fā)表于:神經(jīng)信息加?進(jìn)展35(2022),?碼:24824?24837Wu,Yangzhen等?。"推理規(guī)模定律:計(jì)算最優(yōu)推理的實(shí)證分析解決問題Wu,Yangzhen等??!巴茢嗫s放定律:問題求解的計(jì)算最優(yōu)推斷的經(jīng)驗(yàn)分析使?語?模型”。在:arXiv預(yù)印本arXiv:2408.00724(2024)Xu,Liang等??!癈LUE:?個(gè)中?語?理解評估基準(zhǔn)”。在:國際計(jì)算語?學(xué)會(huì)議。2020計(jì)算語?學(xué).2020.?址:/abs/2004.05986Yang,Enneng等??!發(fā)lms、mllms及其他模型的合并:?法、理論、應(yīng)?和機(jī)會(huì)”。在:arXiv預(yù)印本arXiv:2408.07666(2024)Yao,Shunyu等??!八季S之樹:與?型語?模型的有意識問題解決”。在:神經(jīng)進(jìn)展信息處理系統(tǒng)36(2024)Yue,Xiang,YuanshengNi等??!癕mmu:?個(gè)?規(guī)模多學(xué)科多模式理解和推理專家agi的基準(zhǔn)”。在:IEEE/CVF計(jì)算機(jī)視覺和模式識別會(huì)議岳翔,徐興偉等?!懊歪铮和ㄟ^混合指導(dǎo)調(diào)優(yōu)構(gòu)建數(shù)學(xué)通?模型”。在:arXiv預(yù)印本arXiv:2309.05653(2023)張倫俊等。“?成驗(yàn)證器:獎(jiǎng)勵(lì)建模作為下?個(gè)令牌預(yù)測,2024”。在:URLhttps://arxiv.鄭聯(lián)旻等?。SGLang:結(jié)構(gòu)化語?模型程序的?效執(zhí)?。2024.arXiv:2312.07104[cs.AI].URL:/abs/2312.07104.周杰夫等?!?型語?模型的指令遵循評估”。在:ArXivabs/2311.07911(2023)URL:/abs/2311.07911.Kimik1.5TECHNICALREPORT朱婉蓉等?。“多模態(tài)c4:?億規(guī)模的圖像與?本交織語料庫”。在:Advancesin神經(jīng)信息處理系統(tǒng)36(2024年)。Kimik1.5TECHNICALREPORTA貢獻(xiàn)研究與發(fā)展杜安剛?博?冼博威蔣昌久陳誠李誠陳莊杜崇化廖*德豪張恩銘袁恩哲路洪松賴國坤郭海清朱晗丁浩郝?郝?lián)P郝張昊天姚昊天趙郝宇路?洪成袁歡鄭華斌劉京源蘇建林王建州張津嚴(yán)俊杰史?東于?輝董夢楠張昊?寧塵*潘祺瑋龔曲城?舒鵬ShaoweiLiuTaoJiangWeiminXiongWeiranHeWeihaoGao*?偉曉吳

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論