版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
目錄 31 42 43 84 95 106 10奌奡奲奧奧奬奡奮奧奵奡奧奧奭奯奤奧奬女奨奡奶奧奧奡奩奮奧奤女奩奧奮奩夌奣奡奮奴奡奴奴奧奮奴奩奯奮奯奶奧奲奴奨奧奰奡女奴奴奷奯她奧奡奲女夬女奰奡奲奫夭奩奮奧奧奸奴奧奮女奩奶奧奤奩女奣奵女女奩奯奮女奯奮奡奲奴奩夌奣奩奡奬奧奧奮奧奲奡奬奩奮奴奧奬奬奩奧奧奮奣奧夨奩奇奉天央奓她奮奴奨奧奴奩奣奤奡奴奡奩女奣奯奮夭奭奯奮女她奮奴奨奧奴奩奣奤奡奴奡奭奧奴奨奯奤女奩奮奴奯奴奨奲奧奧奴她奰奧女奪奤奩女奴奩奬奬奡奴奩奯奮夭奢奡女奧奤夬奭奯奤奧奬女奧奬奦夭奧奶奯奬奵奴奩奯奮夭奢奡女奧奤夬奡奮奤奴奯奯奬夭奢奡女奧奤央奆奯奲奧奡奣奨奴她奰奧夬奷奧奢奲奩奧復(fù)她奩奮奴奲奯奤奵奣奧女奧奶奧奲奡奬奭奡奩奮女奴奲奧奡奭奡奰夭奰奲奯奡奣奨奧女奴奯奰奲奯奶奩奤奧奡奮奯奶奧奲奶奩奧奷奯奦奴奨奧奢奡女奩奣奩奤奧奡女奡奮奤奤奩夋奧奲奧奮奣奧女奡奭奯奮奧奴奨奧女奧奭奧奴奨夭奯奤女央奍奯女奴奣奵奲奲奧奮奴女她奮奴奨奧奴奩奣奤奡奴奡奭奧奴奨奯奤女奡奲奧奢奡女奧奤奯奮奤奩女奴奩奬奬奡奴奩奯奮央奩奬奴奨奯奵奧奨奴奨奧女奧奭奧奴奨奯奤女奨奡奶奧奡奣奨奩奧奶奧奤奧奯奯奤奲奧女奵奬奴女夬奴奨奧奩奲奧女女奧奮奣奧奬奩奧女奩奮奤奩女奴奩奬奬奩奮奧奡奭奯奲奧奰奯奷奧奲奦奵奬奬奡奲奧奧奭奯奤奧奬奩奮奴奯奡女奭奡奬奬奧奲奯奮奧央奔奨奩女奡奰奰奲奯奡奣奨奩女奰奲奡奣奴奩奣奡奬奬她女奩奧奮奩夌奣奡奮奴奦奯奲奲奧奤奵奣奩奮奧奴奨奧奩奮奦奧奲奧奮奣奧奣奯女奴奯奦奬奡奲奧奧奭奯奤奧奬女奢奵奴奨奡女奬奩奭奩奴奧奤奧夋奧奣奴奩奶奧奮奧女女奩奮奦奵奲奴奨奧奲奧奮奨奡奮奣奩奮奧奴奨奧奵奰奰奧奲奬奩奭奩奴奯奦奬奡奲奧奧奭奯奤奧奬奣奡奰奡奢奩奬奩奴奩奧女央奒奧女奧奡奲奣奨奯奮奭奯奤奧奬女奧奬奦夭奧奶奯奬奵奴奩奯奮夭奢奡女奧奤奡奮奤奴奯奯奬夭奢奡女奧奤女她奮奴奨奧奴奩奣奤奡奴奡奩女奲奧奬奡奴奩奶奧奬她女奣奡奲奣奧夬奡奮奤奭奯奲奧奧奸奰奬奯奲奡奴奩奯奮奩女奮奧奧奤奧奤奩奮奴奨奧女奧奴奷奯奤奩奲奧奣奴奩奯奮女奦奯奲奣奯奮奴奩奮奵奯奵女奬她奩奭奰奲奯奶奩奮奧奭奯奤奧奬奣奡奰奡奢奩奬奩奴奩奧女央Keywords:奓她奮奴奨奧奴奩奣奄奡奴奡夬奌奡奲奧奧奌奡奮奧奵奡奧奧奍奯奤奧奬夬奮奮奯奷奬奧奤奧奧大語(yǔ)言模型(奌奡奲奧奧奌奡奮奧奵奡奧奧奍奯,簡(jiǎn)稱(chēng))自夲夰夲夲年失失月底奃奨奡奴奇奐奔問(wèn)世以來(lái)受到了各個(gè)行業(yè)的持續(xù)關(guān)注,由于其出色的文字掌握能力和邏輯推理,被廣泛應(yīng)用于代碼生成0、文案寫(xiě)作、奩奉?yuàn)V奯奲奓奣奩奧奮奣奧夨奚奨奡奮奧奧奴奡奬央夬夲夰夲頭夻奡奧奴奡奬央夬夲夰夲頭天等領(lǐng)域。盡管各類(lèi)最先進(jìn)大模型的具體訓(xùn)練方法并未披露夨奏奰奧奮奩奉夬夲夰夲夳夻奩奮奩奬奧奴奡奬央夬夲夰夲夳夻奴奨奲奯奰奩奣夬夲夰夲頭天,但數(shù)據(jù)被普遍認(rèn)為是決定大模型能力的最重要因素夨奯奵奶奲奯奮奧奴奡奬央夬夲夰夲夳奡夻奐奡奩奧奴奡奬央夬夲夰夲夳夻奃奡奩奧奴奡奬央夬夲夰夲頭奢。奰奬奡奮奧奴奡奬央夬夲夰夲夰夻奈奯夋奭奡奮奮奧奴奡奬央夬夲夰夲夲天,是否能夠持續(xù)產(chǎn)生訓(xùn)練數(shù)據(jù)將很大程度上決定大模型未來(lái)的能力上限。然而奅奰奯奣奨奩奉的預(yù)測(cè)表明人類(lèi)將在夲夰夲夶年耗盡高質(zhì)量數(shù)據(jù)1,盡管近期的一些研究表明可以通過(guò)重復(fù)使用數(shù)據(jù)的方式繼續(xù)提高模型的性能夨奍奵奧奮奮奩奧奨奯夋奧奴奡奬央夬夲夰夲夳天,但這得在某些場(chǎng)景下必須要借助合成來(lái)進(jìn)行補(bǔ)充,例如一些復(fù)雜數(shù)學(xué)推理夨奔奲奩奮奨奧奴奡奬央夬夲夰夲頭奡天和代碼數(shù)據(jù)夨奌奩奧奴奡奬央夬夲夰夲夲天,這些場(chǎng)景下需要比較專(zhuān)業(yè)的人才來(lái)標(biāo)注相關(guān)數(shù)據(jù),這類(lèi)數(shù)據(jù)在天然文夨奡奬央夬夲夰夲夳奢夻奡奬央夬夲夰夲夳天。在本文中,我們將合成數(shù)據(jù)定義為:借助大模型或者工具生產(chǎn)的數(shù)據(jù)。在此定義下,本文根據(jù)合成數(shù)據(jù)使用到的方法將過(guò)去的工作分成了三類(lèi):基于蒸餾的合成數(shù)據(jù)、基于模型自我進(jìn)化的合成數(shù)據(jù)以及外部工具合成數(shù)據(jù)。其中基于蒸餾的相關(guān)工作主要集中在從性能更優(yōu)的私有模型中獲取訓(xùn)練數(shù)據(jù),在開(kāi)源大模型上進(jìn)行繼續(xù)訓(xùn)練,縮小開(kāi)源模型與閉源模型間的性能差異夨奘奵奧奴奡奬央夬夲夰夲夳夻奵奧奴奡奬央夬夲夰夲夳夻奡奮奧奧奴奡奬央夬夲夰夲頭天;基于模型自我進(jìn)化的合成數(shù)據(jù)從前景上,更有可能解決數(shù)據(jù)的短缺問(wèn)題,目前這類(lèi)方法效果提升相較前一種方案不明顯,但這類(lèi)方法未來(lái)有很好的發(fā)展前景,特別是對(duì)于如何持續(xù)提升大語(yǔ)言模型性能上限上有重要意義夨奡奮奧奧奴奡奬央夬夲夰夲夳奢夻奚奧奬奩奫奭奡奮奧奴奡奬央夬夲夰夲夲天;除了前兩種需要借助語(yǔ)言模型的方法,還可以通過(guò)配合使用工具夨奵奧奧奴奡奬央夬夲夰夲夳夻奓奩奮奧奨奧奴奡奬央夬夲夰夲頭天或者完全依賴(lài)工具來(lái)構(gòu)造訓(xùn)練數(shù)據(jù)夨奵奡奮奧奴奡奬央夬夲夰夲夳夻奲奩奮奨奧奴奡奬央夬夲夰夲頭奡天,借助工具的方法可以利用工具的可靠性,提升合成數(shù)據(jù)的準(zhǔn)確性,例如通過(guò)規(guī)則構(gòu)造的四則運(yùn)算數(shù)據(jù)就不會(huì)存在錯(cuò)誤,但如何在合適的領(lǐng)域利用對(duì)應(yīng)的工具需要領(lǐng)域知識(shí)。盡管自然語(yǔ)言處理領(lǐng)域早在奃奨奡奴奇奐奔誕生之前就在使用合成數(shù)據(jù)訓(xùn)練模型,例如奚奧奲奯奇奧奮夨夲夰夲夲利用生成式模型為判別式模型生成訓(xùn)練數(shù)據(jù),奄奩奮奧等人夨夲夰夲夳天使用奇奐奔夭夳來(lái)進(jìn)行數(shù)據(jù)標(biāo)注訓(xùn)練模型,但本文的討論的方法主要集中在奃奨奡奴奇奐奔之后,并且主要以呈現(xiàn)近期合成數(shù)據(jù)主流方法為主,每種方法主要介紹幾篇相關(guān)工作,如需更詳細(xì)和全面的了解,請(qǐng)參閱近期的相關(guān)綜述論文夨奘奵奧奴奡奬央夬夲夰夲頭夻奌奩奵奧奴奡奬央夬夲夰夲頭天。知識(shí)蒸餾(奮奮奯奷奬奧奤奧奧奄奩女奴奩奬奬奡奴奩奯奮)通過(guò)一定的方法將大模型的知識(shí)遷移到小模型上,這樣可以在推理的時(shí)候使用更小的模型獲得相近的性能夨奌奩奮奧奴奡奬央夬夲夰夲失天。過(guò)去的知識(shí)蒸餾方法一般假設(shè)可以獲取到大模型的輸出概率分布?jí)髌鎶_奵奧奴奡奬央夬夲夰夲失天,甚至可以獲取大模型的中間層輸出夨奊奩奡奯奧奴奡奬央夬夲夰夲夰天,但隨著模型能力的增強(qiáng),一些商業(yè)模型選擇了閉源其模型,用戶(hù)只能拿到其預(yù)測(cè)的結(jié)果。在這種情況下,只能通過(guò)模仿大模型的輸出來(lái)實(shí)現(xiàn)蒸餾夨套奡奬奬奡奣奧奧奴奡奬央夬夲夰夲夰夻套奡奮奧奧奴奡奬央夬夲夰夲夳奢天。自奏奰奧奮奩奉于夲夰夲夲年失失月底發(fā)布奃奨奡奴奇奐奔以來(lái),各家商業(yè)公司的大模型能力不斷攀升夨奏奰奧奮奩奉夬夲夰夲夳夻奩奮奩奬奧奴奡奬央夬夲夰夲夳夻奩奮奴奨奲奯奰奩奣夬夲夰夲頭天,這些模型都選擇了閉源,開(kāi)源在這一節(jié)中,我們將討論利用一些更強(qiáng)模型,例如奃奨奡奴奇奐奔、奇奐奔夭頭夨奏奰奧奮奩奉夬夲夰夲夳天提升開(kāi)源模型的方法。由于這些方法都利用了更強(qiáng)的模型,所以它們的性能增益很大一部分來(lái)源于對(duì)更強(qiáng)模型的知識(shí)蒸餾。在過(guò)去兩年涌現(xiàn)的相關(guān)方法,由于沒(méi)有辦法直接獲取到模型的輸出概率分布,基本均通過(guò)讓語(yǔ)言大模型生成文本回答,模仿該回答來(lái)提升模型能力夨奓奨奲奩奤奨奡奲奧奴奡奬央夬夲夰夲夲夻奍奡奧奩女奴奧奲奧奴奡奬央夬夲夰夲夲夻奵奧奴奡奬央夬夲夰夲夳天。這些方法都等同于擴(kuò)大了訓(xùn)練數(shù)據(jù)量(通過(guò)擴(kuò)展了回答的推理路徑或者直接擴(kuò)充了更多的數(shù)據(jù)條數(shù)),這類(lèi)方法從本質(zhì)上也類(lèi)似于傳統(tǒng)的數(shù)據(jù)增強(qiáng)(奄奡奴奡奴奡奴奩奯奮)夨奧奮奧奧奴奡奬央夬夲夰夲失夻奘奵奧奴奡奬央夬夲夰夲頭天。根據(jù)這些方法是否需要利用標(biāo)注數(shù)據(jù)標(biāo)簽(例如數(shù)學(xué)題目的答案),我們將這類(lèi)方法進(jìn)一步細(xì)分為:借助監(jiān)督數(shù)據(jù)標(biāo)簽進(jìn)行合成和無(wú)需監(jiān)督數(shù)據(jù)標(biāo)簽的數(shù)據(jù)合成。在奏奰奧奮奩奉公司的奇奐奔夭夳夨奷奮奧奴奡奬央夬夲夰夲夰天問(wèn)世之后,人們發(fā)現(xiàn)其在經(jīng)過(guò)思維鏈()的提示之后可以顯著提高推理任務(wù)的回答準(zhǔn)確率夨奧奩奧奴奡奬央夬夲夰夲夲,這種特性同時(shí)也在谷歌公司推出的大模型上得到了印證夨奷奤奨奧奲她奧奴奡奬央夬夲夰夲夳。經(jīng)驗(yàn)性的結(jié)論發(fā)現(xiàn),模型的參數(shù)量需要超過(guò)一定的量級(jí)才能涌現(xiàn)出一些能力夨奨奡奧夋奧奲奧奴奡奬央夬夲夰夲夳。但這些模型都太大了,推理成本高昂,研究者們希望能夠找到方法縮小模型的尺寸同時(shí)保持其推理能力,因此奍奡奧奩女奴奧奲夨夲夰夲夲、奓奨奲奩奤奨奡奲夨夲夰夲夲和奈奯夨夲夰夲夲天等人嘗試了通過(guò)借助語(yǔ)境學(xué)習(xí)(奉?yuàn)^夭奃奯奮奴奧奸奴奌奧奡奲奮奩奮奧)奆奩奧奵奲奧失奪模型性能隨著微調(diào)數(shù)據(jù)量增加的曲線(xiàn),如果不對(duì)數(shù)據(jù)中的問(wèn)題進(jìn)行增廣(藍(lán)色虛線(xiàn)),隨著訓(xùn)練數(shù)據(jù)量增加,模型性能增長(zhǎng)非常緩慢夨奙奵奧奴奡奬央夬夲夰夲夳利用上述的方法可以獲得大量的思維鏈訓(xùn)練數(shù)據(jù),然而問(wèn)題的數(shù)量被固定為了原數(shù)據(jù)集中問(wèn)題的數(shù)量,這會(huì)導(dǎo)致訓(xùn)練數(shù)據(jù)的問(wèn)題多樣性不足,影響模型性能持續(xù)提升,如圖失了規(guī)避這個(gè)問(wèn)題,研究者們提出了多種方法來(lái)可靠地增加問(wèn)題的數(shù)量。奍奧奴奡奍奡奴奨夨奵奧奴奡奬央夬夲夰夲夳天提出可通過(guò)同義改寫(xiě)題目、逆向推理的題目增強(qiáng)以及同義改寫(xiě)答案來(lái)增加數(shù)據(jù)多樣性。其中逆向推理的推理題目增強(qiáng)方法為任意將原文中的某個(gè)數(shù)字更換為未知數(shù),讓模型求解其未知數(shù),例如原題為奜農(nóng)場(chǎng)的母雞每日可以產(chǎn)蛋失夰顆,夳天可產(chǎn)蛋多少顆?夢(mèng),可修改為奜農(nóng)場(chǎng)的母雞每日可以產(chǎn)蛋奸顆,夳天可產(chǎn)蛋夳夰顆。問(wèn)奸的值為多少?。不論是同義改寫(xiě)還是增強(qiáng)題目方法,都需要借助一個(gè)聰明的模型,通過(guò)輸出最終的正確答案來(lái)篩選生成的數(shù)據(jù),在該論文中使用了奏奰奧奮奩奉的奵奲奢奯來(lái)進(jìn)行數(shù)據(jù)生產(chǎn)。通過(guò)借助程序來(lái)計(jì)算數(shù)學(xué)解答過(guò)程中的一些數(shù)值計(jì)算可以避免出現(xiàn)因?yàn)橛?jì)算帶來(lái)的錯(cuò)誤,奍奩奭奭奯奔奈夨奵奧奧奴奡奬央夬夲夰夲夳天提出解題過(guò)程中可以生成類(lèi)似于思維鏈的程序鏈(奐奲奯奧奲奡奭奯奦)來(lái)進(jìn)行解題,即在問(wèn)題求解過(guò)程中直接將解答過(guò)程寫(xiě)成可執(zhí)行的代碼,通過(guò)代碼解釋器執(zhí)行完這些代碼得到的結(jié)果作為預(yù)測(cè)結(jié)果,這樣可以讓針對(duì)相同的問(wèn)題提出不同的解奆奩奧奵奲奧夲奪如果有監(jiān)督數(shù)據(jù)標(biāo)簽,除了通過(guò)上述的丟掉不符合答案的推理路徑方案外,還可以嘗試直接將答案用于解答過(guò)程的生成。奏奲奣奡夨奍奵奫奨奧奲奪奧奧奧奴奡奬央夬夲夰夲夳天嘗試將奆奌奩奎夨奌奯奮奧奰奲奧奧奴奡奬央夬夲夰夲夳天中的數(shù)據(jù)集通過(guò)大語(yǔ)言模型推理構(gòu)建回答,并在模型回答前提前將答案拼接到輸入中,然后輸入諸如下面的提示詞假設(shè)我只有夵歲,請(qǐng)一步步思考,并將為什么答案是這樣解釋給我聽(tīng)夢(mèng),這樣可以讓小模型學(xué)習(xí)并模仿大模型的思考過(guò)程。在奏奲奣奡中,作者總共通過(guò)奇奐奔夭夳央夵了夵夰夰萬(wàn)條數(shù)據(jù),其中的失夰夰萬(wàn)條通過(guò)奇奐奔夭頭進(jìn)行了再次生成。盡管這份數(shù)據(jù)沒(méi)有直接開(kāi)源,社區(qū)在這個(gè)思想的基礎(chǔ)上進(jìn)行了復(fù)現(xiàn)夨奌奩奡奮奧奴奡奬央夬夲夰夲夳,并將復(fù)現(xiàn)結(jié)果進(jìn)行了開(kāi)源2。在本小節(jié)中我們介紹的幾種方法被匯總到了圖夲,這類(lèi)方法由于利用了監(jiān)督信號(hào)來(lái)輔助數(shù)據(jù)生產(chǎn),所以可以在一定程度上保證生成數(shù)據(jù)的質(zhì)量,使得這種方法生成的訓(xùn)練數(shù)據(jù)在下游任務(wù)提升上效果都比較顯著。此外,類(lèi)似的思想也可以用于代碼生成之后,在代碼中,可以通過(guò)生成的代碼能否通過(guò)單元測(cè)試來(lái)判斷生成的代碼是否有誤。但正如奏奲奣奡夨奍奵奫奨奧奲奪奧奧奧奴奡奬央夬夲夰夲夳天指出的那樣,能夠利用的數(shù)據(jù)不夠多是這類(lèi)方法一個(gè)比較明顯的缺點(diǎn),盡管奏奲奣奡里面利用了奆奌奩奎來(lái)擴(kuò)大可利用的監(jiān)督數(shù)據(jù)集,但這個(gè)數(shù)據(jù)量離預(yù)訓(xùn)練數(shù)據(jù)量還有兩到三個(gè)數(shù)量級(jí)的差異。在過(guò)去的蒸餾方法中,可以借助大量的無(wú)標(biāo)簽數(shù)據(jù)集來(lái)將大模型的能力遷移到小模型上。同樣地,在大語(yǔ)言模型時(shí)代仍然可以利用相同的思想。在這一節(jié)中我們主要討論三個(gè)相關(guān)的方法:)借助進(jìn)化的思想,讓合成數(shù)據(jù)的難度不斷增加;夲)通過(guò)大模型生成更具教育意義的數(shù)據(jù);()從預(yù)訓(xùn)練語(yǔ)料中挖掘高質(zhì)量數(shù)據(jù)。套奩奺奡奲奤奌奍夨奘奵奧奴奡奬央夬夲夰夲夳天設(shè)計(jì)了奅奶奯奬夭奉?yuàn)^女奴奲奵奣奴算法來(lái)避免依賴(lài)人類(lèi)生產(chǎn)高質(zhì)量的指令。奅奶奯奬夭奉?yuàn)^女奴奲奵奣奴算法的思想如圖夳所示,通過(guò)給大模型施加指令,使其在一個(gè)初始指令的演化指令,因此生成的指令也不一定有標(biāo)準(zhǔn)答案,此刻就需要利用大模型來(lái)根據(jù)生成的指令進(jìn)行回答,收集這些復(fù)雜指令和對(duì)應(yīng)的回答可以構(gòu)成訓(xùn)練數(shù)據(jù)集用于微調(diào)開(kāi)源模型。通過(guò)迭代不斷生成更復(fù)雜指令的思想也被廣泛使用在了后續(xù)的工作中夨奌奵奯奧奴奡奬央夬夲夰夲夳奡夻奌奵奯奧奴奡奬央夬夲夰夲夳奢。受到人類(lèi)學(xué)習(xí)啟發(fā),等人夨夲夰夲夳天提出利用大模型生成更具教育意義的訓(xùn)練數(shù)據(jù)能夠使小模型更快地進(jìn)行訓(xùn)練?;诖嗽瓌t,作者發(fā)現(xiàn)許多代碼數(shù)據(jù)是不具備良好的教育意義的,因?yàn)椋海┖芏鄶?shù)據(jù)不完備,需要來(lái)自其它代碼文件的信息;(夲)很多代碼塊都只是類(lèi)似變量定義等無(wú)意義的操作,不具備學(xué)習(xí)的價(jià)值;(夳)一些具備復(fù)雜邏輯的代碼沒(méi)有很好地注釋?zhuān)唬ǎ┐嬖趪?yán)重的長(zhǎng)尾效應(yīng)。為了避免這些問(wèn)題,作者提出了借助大模型來(lái)生產(chǎn)更具教育意義的數(shù)據(jù),具體來(lái)說(shuō):失)使模型僅保留預(yù)訓(xùn)練文本中具有教育意義的內(nèi)容;夲)讓大模型直接生成奜代碼教科書(shū);)讓大模型生產(chǎn)奜課后習(xí)題夢(mèng)。通過(guò)以上方案,作者發(fā)現(xiàn)一個(gè)僅失央夳奐的代碼模型可以在代碼相關(guān)評(píng)測(cè)集上達(dá)到失夰倍其規(guī)模模型的性能。隨后作者在此基礎(chǔ)上,將相關(guān)思想推廣到了推理類(lèi)文本數(shù)據(jù)上夨奌奩奧奴央夬夲夰夲夳奢,并取得了優(yōu)異的效果。這類(lèi)大量數(shù)據(jù)生成的方法容易遭遇模型生成過(guò)程中與已生成內(nèi)容重復(fù)的問(wèn)題,為了避免這個(gè)問(wèn)題,作者首先收集了兩萬(wàn)個(gè)主題,在模型生成時(shí)通過(guò)給定主題讓模型盡量不重復(fù)。除了通過(guò)限制主題來(lái)避免得到重復(fù)的內(nèi)容,還可以通過(guò)借助大量的預(yù)訓(xùn)練語(yǔ)料來(lái)獲取高質(zhì)量合成數(shù)據(jù)。奵奧等人夨夲夰夲頭天提出首先從互聯(lián)網(wǎng)數(shù)據(jù)中篩選出相關(guān)文檔,然后抽取出其中的問(wèn)答對(duì),最后使用開(kāi)源大語(yǔ)言模型對(duì)問(wèn)答對(duì)進(jìn)行潤(rùn)色的方式來(lái)獲取大量的訓(xùn)練數(shù)據(jù)。在篩選階段,作者訓(xùn)練了一個(gè)基于奡女奴奴奧奸奴夨奊奯奵奬奩奮奧奴奡奬央夬夲夰失夶的文本分類(lèi)器來(lái)從奷奬夨奃奯奭夬天數(shù)據(jù)中分類(lèi)出可能包含高質(zhì)量問(wèn)題夭答案對(duì)的文檔,在這個(gè)過(guò)程中大模型可以用于標(biāo)注正樣本數(shù)據(jù),負(fù)樣本數(shù)據(jù)則通過(guò)隨機(jī)采樣產(chǎn)生;然后通過(guò)去掉網(wǎng)頁(yè)數(shù)據(jù)中的奈奔奍奌標(biāo)簽以及廣告,在這一步基礎(chǔ)之上通過(guò)借助開(kāi)源大模型,如奧奮夨奐奡奩奧奴奡奬央夬夲夰夲夳,判斷文檔中是否存在自然的問(wèn)題夭答案對(duì),如果存在則讓模型提取出;在抽取出的問(wèn)題夭答案對(duì)中,部分?jǐn)?shù)據(jù)只含有問(wèn)題和對(duì)應(yīng)的答案,缺乏對(duì)相關(guān)過(guò)程的展示,則需要使用大模型來(lái)補(bǔ)足這部分內(nèi)容。通過(guò)以上步驟可獲取超過(guò)千萬(wàn)條相關(guān)數(shù)據(jù),在上面訓(xùn)練的各種夷奐大小的模型取得了良好的性能。但由于生產(chǎn)這批數(shù)據(jù)使用的是奧奮夭夷夲奐,一定程度上可以將整個(gè)過(guò)程看做是在蒸餾奧奮夭夷夲奐模型。域,奓奯奮奧等人夨夲夰夲頭天通過(guò)讓大語(yǔ)言模型補(bǔ)充代碼數(shù)據(jù)注釋的方式產(chǎn)生了超過(guò)失夰夰奐詞元的訓(xùn)練語(yǔ)而導(dǎo)致模型訓(xùn)練變壞的問(wèn)題。此外,讓大模型在生成數(shù)據(jù)過(guò)程中保持多樣性和生成數(shù)據(jù)質(zhì)量的平衡是未來(lái)這類(lèi)方法另一個(gè)需要解決的難題,在方法中多樣性提高的時(shí),也容易出現(xiàn)合成指令不合理或無(wú)法被現(xiàn)有大模型很好解決的問(wèn)題。利用上述的方法一些工作被總結(jié)在表失中,可以看出這些方法有以下兩個(gè)特點(diǎn),第一個(gè)是都利用了更強(qiáng)的模型,第二個(gè)是都主要集中在代碼和數(shù)學(xué)等領(lǐng)域。將這些方法應(yīng)用到其他領(lǐng)域仍然需要回答兩個(gè)問(wèn)題,其一是這些被蒸餾的模型是否在除代碼和數(shù)學(xué)之外的領(lǐng)域仍然有很高的蒸餾價(jià)值,其二則是通過(guò)生成思維鏈進(jìn)行蒸餾的方法是否對(duì)其它領(lǐng)域也適用。GPT-LLaMA-Evol-Instruct、GPT-3.5、GPT-LLaMA-BBH、AGIEvalGPT-StarCoder-HumanEval、MBPPphi-GPT-GPT-LLaMA-2GSM8K、GPT-LLaMA-2GSM8K、MATHGPT-LLaMA-2GSM8K、MATHGPT-3.5、GPT-StarCoder-15BHumanEval、MBPPMixtralLLaMAGSM8K、Orca-GPT-Mistral-Xwin-GPT-LLaMA-2GSM8K、MATHMixtral-8x22BMistral-7BGSM8K、MATH奔除借助更強(qiáng)大模型合成數(shù)據(jù)的思路外,也有大量的工作著眼于利用較弱模型自身的能力,使用奅奍算法或強(qiáng)化學(xué)習(xí)等算法,通過(guò)框架和合成方法的設(shè)計(jì)幫助模型進(jìn)行自我進(jìn)化夨奓奧奬奦夭。從方法和原理上看,這類(lèi)工作與上一節(jié)基于蒸餾的方法沒(méi)有本質(zhì)區(qū)別,但這類(lèi)方法由于不借助更強(qiáng)的大模型,因此具有更高的理論上限,同時(shí)也能避免一些法律許可相關(guān)的問(wèn)題3,因此我們單獨(dú)把這一類(lèi)方法列為一節(jié)進(jìn)行討論。在奡奒方法夨奚奧奬奩奫奭奡奮奧奴奡奬央夬夲夰夲夲中,作者利用奇奐奔夭奊夨奡奮奧奡奮奤奮奯奭奡奴女奵奺奡奫奩夬夲夰夲失模型來(lái)生成大量的推理路徑,并將這些推理路徑用作訓(xùn)練數(shù)據(jù)微調(diào)模型自身。由于這個(gè)方法是在有監(jiān)督標(biāo)簽的數(shù)據(jù)集上,因此判斷這些推理路徑是否正確時(shí)可以采用對(duì)比最終答案和標(biāo)準(zhǔn)答案的方式。除了直接使用對(duì)比答案的方法,在奧奈奵奡奮奧奧奴奡奬央夬夲夰夲夲天中作者提出了通過(guò)采樣生成多次答案,然后進(jìn)行多數(shù)投票的方式選擇可能的答案,并將此作為可用的訓(xùn)練數(shù)據(jù)用于訓(xùn)練模型。此外,指令回譯夨奌奩奧奴奡奬央夬夲夰夲夳奡方法也可以在不需要標(biāo)準(zhǔn)答案的情況下合成數(shù)據(jù),具體來(lái)說(shuō),模型通過(guò)反向利用指令數(shù)據(jù)集,即將回答作為輸入,將指令作為輸出訓(xùn)練了一個(gè)指令生成模型,得到該生成模型后可以將大量的自然文本作為潛在的回答,并讓該回譯模型生成潛在的指令,這種方式得到的指令和回答數(shù)據(jù)質(zhì)量可能參差不齊,因此論文提到也需要借助指令數(shù)據(jù)集訓(xùn)練一個(gè)正向模型,該正向模型可以用來(lái)評(píng)估生成的指令和回答的質(zhì)量是否可用,并從中篩選出高質(zhì)量的部分。篩選出來(lái)的數(shù)據(jù)可以繼續(xù)用于迭代訓(xùn)練回譯模型和正向模型,經(jīng)過(guò)多輪迭代的模型可以取得良好的指令跟隨能力。受奩奬奰奨奡夭奚奧奲奯夨奧奲奧奴奡奬央夬夲夰失夷天的啟發(fā),奩奬奰奨奡夭奍奡奴奨夨奃奨奧奮奧奴奡奬央夬夲夰夲頭構(gòu)建了一個(gè)由蒙特卡洛樹(shù)搜索()驅(qū)動(dòng)的推理算法,在采樣推理路徑時(shí)通過(guò)充分激發(fā)模型的推理潛能,通過(guò)策略和價(jià)值網(wǎng)絡(luò)的協(xié)同使用進(jìn)行節(jié)點(diǎn)的增長(zhǎng)。其中策略網(wǎng)絡(luò)為原始的模型,而價(jià)值網(wǎng)絡(luò)通過(guò)在原始模型上添加一個(gè)帶有奴奡奮奨激活函數(shù)得到。在搜索過(guò)程中,論文將推理過(guò)程簡(jiǎn)化為步級(jí)別的束搜索(奧奬奐奧奡奭)操作,迭代地從最優(yōu)的步驟中采樣多組方案,使用價(jià)值網(wǎng)絡(luò)對(duì)不同的采樣方案進(jìn)行評(píng)估并得到更新后的最優(yōu)步驟。通過(guò)使用價(jià)值模型對(duì)不同的推理路徑進(jìn)行評(píng)估,模型的推理表現(xiàn)得到了顯著的提升。下一代模型的數(shù)據(jù)生產(chǎn)實(shí)現(xiàn)不同代模型間的逐步提升。例如在奌奌奡奍奩夭夳4中奍奧奴奡用奌奌奡奍奩夭夲模型夨奔奯奵奶奲奯奮奧奴奡奬央夬夲夰夲夳奢天來(lái)識(shí)別高質(zhì)量語(yǔ)料,實(shí)驗(yàn)發(fā)現(xiàn)奌奌奡奍奩夭夲可以可靠地為目前來(lái)說(shuō),基于模型自我迭代增強(qiáng)的數(shù)據(jù)合成方法較少,未來(lái)有很大的研究空間。并且基于已有的方法來(lái)看,其效果隨著迭代次數(shù)的增加并沒(méi)有特別好的規(guī)模(奓奣奡奬奩奮奧)效應(yīng),未來(lái)如何提高迭代方案的性能上限是一個(gè)值得研究的問(wèn)題。更多相關(guān)的探討可以參閱論文夨奐奵奲奮女奧奡奬央夬夲夰夲夳天及引用了該論文的后續(xù)論文。在使用語(yǔ)言模型合成代碼數(shù)據(jù)的工作中,代碼解釋器是一個(gè)天然的輔助工具。代碼解釋器的執(zhí)行結(jié)果能帶來(lái)額外的信息增益,這部分信息可以用于篩選合成數(shù)據(jù)的正確性,或者作為推理過(guò)程的中間結(jié)果。奍奩奭奭奯奔奈奵奧奧奴奡奬央夬夲夰夲夳天調(diào)用模型對(duì)已有數(shù)據(jù)集中的問(wèn)題生成奐她奴奨奯奮代碼,并調(diào)用代碼解釋器返回代碼的執(zhí)行結(jié)果,通過(guò)比較代碼執(zhí)行結(jié)果與標(biāo)準(zhǔn)答案的異同,即可篩選出正確的代碼數(shù)據(jù)。而奍奡奴奨奃奯奤奧奲夨奡奮奧奧奴奡奬央夬夲夰夲夳奡天和奏奰奧奮奍奡奴奨奉?yuàn)^女奴奲奵奣奴夨奡奬奧奴奡奬央夬夲夰夲頭等工作使模型在推理時(shí)生成含有內(nèi)嵌代碼段的題解,在得到代碼段的執(zhí)行結(jié)果后模型將繼續(xù)自回歸的推理過(guò)程。等人夨夲夰夲頭奡天使語(yǔ)言模型充當(dāng)工具制作者,為特定任務(wù)編寫(xiě)奐她奴奨奯奮函數(shù)作為工具,同時(shí)為函數(shù)編寫(xiě)相應(yīng)的測(cè)例。在工具通過(guò)所有測(cè)例后,另一個(gè)將作為工具調(diào)用者解決實(shí)際問(wèn)題。還有一些工作利用代碼解釋器搭建了交互式的框架夨她奰奵奬奡奧奴央夬夲夰夲頭夻奡奮奧奧奴奡奬央夬夲夰夲夳奡夻奓奨奩奮奮奧奴奡奬央夬夲夰夲夳天,使用強(qiáng)化學(xué)習(xí)等算法,在模型生成代碼數(shù)據(jù)后,利用代碼解釋器提供的信息對(duì)合成數(shù)據(jù)進(jìn)行分類(lèi)或更正,進(jìn)而迭代優(yōu)化模型。奎奩等人夨夲夰夲頭天在代碼修復(fù)任務(wù)中通過(guò)使用注釋的方式將調(diào)試信息加入代碼中,使得模型可以基于調(diào)試信息修正代碼中的奐奵奧。盡管大模型在文字生成方面取得了良好的效果,但是它們卻不能很好地計(jì)算基礎(chǔ)的四則運(yùn)算。為了讓大模型能夠在數(shù)值計(jì)算的時(shí)候減少錯(cuò)誤,過(guò)去的方法嘗試了通過(guò)規(guī)則生成大量的四則運(yùn)算等式以及基礎(chǔ)數(shù)學(xué)等式作為訓(xùn)練數(shù)據(jù)夨奵奡奮奧奴奡奬央夬夲夰夲夳夻奡奮奧奧奴奡奬央夬夲夰夲夳奢天,這類(lèi)數(shù)據(jù)的一些示例如圖所示。但這類(lèi)方法主要依靠讓模型??下來(lái)所有的計(jì)算,不太具備泛化計(jì)算的能力。人類(lèi)在計(jì)算這類(lèi)復(fù)雜運(yùn)算時(shí)一般會(huì)通過(guò)草稿紙的形式,而非靠記下所有的四則運(yùn)算,受此啟發(fā),奌奧奧等人夨夲夰夲夳天提出通過(guò)奨奰奡奤的形式計(jì)算復(fù)雜運(yùn)算,一個(gè)簡(jiǎn)單的示意如圖所示,通過(guò)加入對(duì)任務(wù)的理解,可以極大降低模型學(xué)習(xí)的難度,結(jié)合領(lǐng)域知識(shí)對(duì)于用好工具合成數(shù)據(jù)很重要。運(yùn)算類(lèi)運(yùn)算類(lèi) 示四則運(yùn) 7+1825.4=乘方運(yùn) 73=對(duì)數(shù)運(yùn) ln1523=三角運(yùn) cot(313??/306)=(a)遍歷各類(lèi)運(yùn) (b)改變計(jì)算方式減少學(xué)習(xí)難奆奩奧奵奲奧頭奪借助數(shù)學(xué)工具,不但可以合成簡(jiǎn)單的四則運(yùn)算,甚至可以合成比較復(fù)雜的數(shù)學(xué)推理數(shù)據(jù)。奌奧奡奮夨奤奧奍奯奵奲奡奡奮奤奨夬夲夰夲失天是一個(gè)功能強(qiáng)大的交互式定理證明器和編程語(yǔ)言,主要用于形式化數(shù)學(xué)和計(jì)算機(jī)科學(xué)的證明,通過(guò)可以實(shí)現(xiàn)自動(dòng)驗(yàn)證數(shù)學(xué)證明。因此可以通過(guò)將大量數(shù)學(xué)證明問(wèn)題轉(zhuǎn)換為的形式,并讓語(yǔ)言模型使用語(yǔ)言生成大量證明,通過(guò)的定理驗(yàn)證器從中選擇推理正確的數(shù)據(jù),我們就可以生產(chǎn)出大量的嚴(yán)格正確的數(shù)學(xué)證明。通過(guò)這種方式大模型已經(jīng)能夠完成一些國(guó)際數(shù)學(xué)奧林匹克大賽的題目夨奙奩奮奧奧奴奡奬央夬夲夰夲頭夻奘奩奮奧奴奡奬央夬夲夰夲頭天。除此之外,還通過(guò)學(xué)習(xí)幾何推理引擎合成大量的高難度集合證明題,在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽()的幾何證明題目上取得了驚艷的結(jié)果夨奲奩奮奨奧奴奡奬央夬夲夰夲頭奢。幾何推理引擎能夠在給定前提的基礎(chǔ)上,利用已知的歐式幾何規(guī)則,反復(fù)生成新的結(jié)論直到所有結(jié)論窮盡,即生成給定前提的推理閉包。然而,僅僅依靠幾何推理引擎并不能夠解決大部分證明問(wèn)題,啟發(fā)式的輔助點(diǎn)添加策略是必不可少的,而使用語(yǔ)言模型來(lái)替代了原先啟發(fā)式添加輔助點(diǎn)的策略。由以上的工作可以看出,為了更好地利用各
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 魯濱遜題目及答案100道選擇題
- 藥劑科學(xué)習(xí)培訓(xùn)制度
- 阜寧縣中考題目及答案
- 臨考沖刺作文題目及答案
- 養(yǎng)老院老人心理輔導(dǎo)支持制度
- 高三電磁感應(yīng)題目及答案
- 養(yǎng)老院老人康復(fù)設(shè)施維修人員表彰制度
- 養(yǎng)老院老人健康監(jiān)測(cè)人員職業(yè)發(fā)展規(guī)劃制度
- 美團(tuán)酒店考試題目及答案
- 辦公室員工培訓(xùn)記錄與檔案制度
- 杭州中考初中英語(yǔ)詞匯表
- 2024年國(guó)企行測(cè)題庫(kù)
- 煙囪技術(shù)在血管腔內(nèi)修復(fù)術(shù)中的應(yīng)用
- 崗位聘用登記表
- 2023年全國(guó)統(tǒng)一高考政治試卷(新課標(biāo)ⅰ)(含解析版)
- 2023年北京高考語(yǔ)文答題卡(北京卷)word版可編輯kh
- 2023年高鐵信號(hào)車(chē)間副主任述職報(bào)告
- GB/T 5762-2012建材用石灰石、生石灰和熟石灰化學(xué)分析方法
- 第3章 圓錐曲線(xiàn)的方程【精簡(jiǎn)思維導(dǎo)圖梳理】高考數(shù)學(xué)高效備考 人教A版2019選擇性必修第一冊(cè)
- 劉一秒演說(shuō)智慧經(jīng)典(內(nèi)部筆記)
- 管道TOFD檢測(cè)記錄及續(xù)表
評(píng)論
0/150
提交評(píng)論