大語言模型預(yù)訓(xùn)練數(shù)據(jù)_第1頁
大語言模型預(yù)訓(xùn)練數(shù)據(jù)_第2頁
大語言模型預(yù)訓(xùn)練數(shù)據(jù)_第3頁
大語言模型預(yù)訓(xùn)練數(shù)據(jù)_第4頁
大語言模型預(yù)訓(xùn)練數(shù)據(jù)_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1大語言模型預(yù)訓(xùn)練數(shù)據(jù)3大語言模型預(yù)訓(xùn)練數(shù)據(jù)2訓(xùn)練大語言模型需要數(shù)萬億的各類型數(shù)據(jù)。如何構(gòu)造海量“高質(zhì)量”數(shù)據(jù)對(duì)于大語言模型的訓(xùn)練具有至關(guān)重要的作用。截至2023年9月,還沒有非常好的大語言模型的理論分析和解釋,也缺乏對(duì)語言模型訓(xùn)練數(shù)據(jù)的嚴(yán)格說明和定義。但是,大多數(shù)研究人員認(rèn)為預(yù)訓(xùn)練數(shù)據(jù)是影響大語言模型效果及樣本泛化能力的關(guān)鍵因素之一。當(dāng)前的研究表明,預(yù)訓(xùn)練數(shù)據(jù)需要涵蓋各種類型的文本,也需要覆蓋盡可能多的領(lǐng)域、語言、文化和視角,從而提高大語言模型的泛化能力和適應(yīng)性。目前,大語言模型所采用的預(yù)訓(xùn)練數(shù)據(jù)通常包括網(wǎng)絡(luò)數(shù)據(jù)、圖書、論文、百科和社交媒體等。數(shù)據(jù)來源1.1數(shù)據(jù)處理1.2數(shù)據(jù)影響分析1.3目錄Contents3開源數(shù)據(jù)集合1.4實(shí)踐思考1.5數(shù)據(jù)來源1.1數(shù)據(jù)處理1.2數(shù)據(jù)影響分析1.3目錄Contents4開源數(shù)據(jù)集合1.4實(shí)踐思考1.55文獻(xiàn)[5]介紹了OpenAI訓(xùn)練GPT-3所使用的主要數(shù)據(jù)來源,包含經(jīng)過過濾的Common-Crawl數(shù)據(jù)集[19]、WebText2、Books1、Books2以及英文Wikipedia等數(shù)據(jù)集。CommonCrawl的原始數(shù)據(jù)有45TB,進(jìn)行過濾后僅保留了570GB的數(shù)據(jù)。通過詞元方式對(duì)上述語料進(jìn)行切分,大約包含5000億詞元。為了保證模型使用更多高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練,在GPT-3訓(xùn)練時(shí),根據(jù)語料來源的不同,設(shè)置不同的采樣權(quán)重。在完成3000億詞元訓(xùn)練時(shí),英文Wikipedia的語料平均訓(xùn)練輪數(shù)為1.4次,而CommonCrawl和Books2僅有0.44次和0.43次。Meta公司的研究人員在訓(xùn)練OPT[31]模型時(shí)采用了混合RoBERTa[71]、Pile[72]和PushShift.ioReddit[73]數(shù)據(jù)的方法。由于這些數(shù)據(jù)集中包含的絕大部分?jǐn)?shù)據(jù)都是英文數(shù)據(jù),因此OPT也從CommonCrawl數(shù)據(jù)集中抽取了部分非英文數(shù)據(jù)加入訓(xùn)練語料。1.1數(shù)據(jù)來源6大語言模型預(yù)訓(xùn)練所需的數(shù)據(jù)來源大體上分為通用數(shù)據(jù)和專業(yè)數(shù)據(jù)兩大類。通用數(shù)據(jù)(General

Data)包括網(wǎng)頁、圖書、新聞、對(duì)話文本等內(nèi)容[14,31,46]。通用數(shù)據(jù)具有規(guī)模大、多樣性和易獲取等特點(diǎn),因此支持大語言模型的語言建模和泛化能力。專業(yè)數(shù)據(jù)(SpecializedData)包括多語言數(shù)據(jù)、科學(xué)數(shù)據(jù)、代碼及領(lǐng)域特有資料等。通過在預(yù)訓(xùn)練階段引入專業(yè)數(shù)據(jù)可以有效提升大語言模型的任務(wù)解決能力。1.1數(shù)據(jù)來源7通用數(shù)據(jù)在大語言模型訓(xùn)練數(shù)據(jù)中占比通常非常高,主要包括來自網(wǎng)頁、書籍、對(duì)話文本等不同類型的數(shù)據(jù),為大語言模型提供了大規(guī)模且多樣的訓(xùn)練數(shù)據(jù)。網(wǎng)頁(Webpages)是通用數(shù)據(jù)中數(shù)量最多的一類。隨著互聯(lián)網(wǎng)的大規(guī)模普及,人們通過網(wǎng)站、論壇、博客、App等各種類型網(wǎng)站和應(yīng)用,創(chuàng)造了海量的數(shù)據(jù)。根據(jù)2016年Google公開的數(shù)據(jù),其搜索引擎索引處理了超過130萬億網(wǎng)頁。爬取和處理海量網(wǎng)頁內(nèi)容并不是一件容易的事情,因此一些研究人員構(gòu)建了包括ClueWeb09[74]、ClueWeb12[75]、SogouT-16[76]、CommonCrawl等在內(nèi)的開源網(wǎng)頁數(shù)據(jù)集。雖然這些爬取的網(wǎng)絡(luò)數(shù)據(jù)包含大量高質(zhì)量的文本(如維基百科),但也包含非常多低質(zhì)量的文本(如垃圾郵件等)。因此,過濾并處理網(wǎng)頁以提高數(shù)據(jù)質(zhì)量對(duì)大語言模型訓(xùn)練來說非常重要。1.1.1通用數(shù)據(jù)8對(duì)話數(shù)據(jù)(ConversationText)是指有兩個(gè)或更多參與者交流的文本內(nèi)容。對(duì)話數(shù)據(jù)包含書面形式的對(duì)話、聊天記錄、論壇帖子、社交媒體評(píng)論等。當(dāng)前的一些研究表明,對(duì)話數(shù)據(jù)可以有效增強(qiáng)語言模型的對(duì)話能力[31],并潛在地提高其在多種問答任務(wù)上的表現(xiàn)[14]。對(duì)話數(shù)據(jù)可以通過收集、清洗、歸并等過程從社會(huì)媒體、論壇、郵件組等構(gòu)建。相較于網(wǎng)頁數(shù)據(jù),對(duì)話數(shù)據(jù)收集和處理更加困難,數(shù)據(jù)數(shù)量也相對(duì)少非常多。常見的對(duì)話數(shù)據(jù)集包括PushShift.ioReddit[73,77]、Ubuntu

DialogueCorpus[78]、DoubanConversationCorpus、ChromiumConversationsCorpus等。文獻(xiàn)[79]也提出了使用大語言模型自動(dòng)生成對(duì)話數(shù)據(jù)的UltraChat方法。1.1.1通用數(shù)據(jù)9書籍(Book)是人類知識(shí)的主要積累方式之一,從古代經(jīng)典著作到現(xiàn)代學(xué)術(shù)著述,承載了豐富多樣的人類思想。書籍通常包含廣泛的詞匯,包括專業(yè)術(shù)語、文學(xué)表達(dá)及各種主題詞匯。利用書籍?dāng)?shù)據(jù)進(jìn)行訓(xùn)練,大語言模型可以接觸多樣化的詞匯,從而提高其對(duì)不同領(lǐng)域和主題的理解能力。相較于其他語料庫(kù),書籍也是最重要的,甚至是唯一的長(zhǎng)文本書面語的數(shù)據(jù)來源。書籍提供了完整的句子和段落,使得大語言模型可以學(xué)習(xí)到上下文之間的聯(lián)系。這對(duì)于模型理解句子中的復(fù)雜結(jié)構(gòu)、邏輯關(guān)系和語義連貫性非常重要。書籍涵蓋了各種文體和風(fēng)格,包括小說、科學(xué)著作、歷史記錄,等等。通過使用書籍?dāng)?shù)據(jù)訓(xùn)練語言模型,可以使模型學(xué)習(xí)到不同的寫作風(fēng)格和表達(dá)方式,提高大語言模型在各種文本類型上的能力。受限于版權(quán)因素,開源書籍?dāng)?shù)據(jù)集很少,現(xiàn)有的開源大語言模型研究通常采用Pile數(shù)據(jù)集[72]中提供的Books3和Bookcorpus2數(shù)據(jù)集。1.1.1通用數(shù)據(jù)10專業(yè)數(shù)據(jù)在通用大語言模型中所占比例通常較低,但是其對(duì)改進(jìn)大語言模型在下游任務(wù)上的特定能力有著非常重要的作用。專業(yè)數(shù)據(jù)有非常多的種類,文獻(xiàn)[18]總結(jié)了當(dāng)前大語言模型使用的三類專業(yè)數(shù)據(jù),包括多語言數(shù)據(jù)、科學(xué)文本數(shù)據(jù)和代碼。多語言數(shù)據(jù)(MultilingualText)對(duì)于增強(qiáng)大語言模型的語言理解和生成多語言能力具有至關(guān)重要的作用。當(dāng)前的大語言模型訓(xùn)練除了需要目標(biāo)語言中的文本,通常還要整合多語言語料庫(kù)。BLOOM[33]的預(yù)訓(xùn)練語料中包含46種語言,PaLM[14]的訓(xùn)練語料中甚至包含高達(dá)122種語言的數(shù)據(jù)。此前的研究發(fā)現(xiàn),通過多語言混合訓(xùn)練,預(yù)訓(xùn)練模型可以在一定程度上自動(dòng)構(gòu)建多語言之間的語義關(guān)聯(lián)[80]。多語言數(shù)據(jù)混合訓(xùn)練,可以有效提升翻譯、多語言摘要和多語言問答等任務(wù)能力。此外,由于不同語言中不同類型的知識(shí)獲取難度不同,多語言數(shù)據(jù)還可以有效地增加數(shù)據(jù)的多樣性和知識(shí)的豐富性。1.1.2專業(yè)數(shù)據(jù)11科學(xué)文本(ScientificText)數(shù)據(jù)包括教材、論文、百科及其他相關(guān)資源。這些數(shù)據(jù)對(duì)于提升大語言模型在理解科學(xué)知識(shí)方面的能力具有重要作用[34]??茖W(xué)文本數(shù)據(jù)的來源主要包括arXiv論文[81]、PubMed論文[82]、教材、課件和教學(xué)網(wǎng)頁等。由于科學(xué)領(lǐng)域涉及眾多專業(yè)領(lǐng)域且數(shù)據(jù)形式復(fù)雜,通常還需要對(duì)公式、化學(xué)式、蛋白質(zhì)序列等采用特定的符號(hào)標(biāo)記并進(jìn)行預(yù)處理。這樣可以將不同格式的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的形式,使大語言模型更好地處理和分析科學(xué)文本數(shù)據(jù)。公式可以用LaTeX語法表示化學(xué)結(jié)構(gòu)可以用SMILES(SimplifiedMolecularInputLineEntrySystem)表示蛋白質(zhì)序列可以用單字母代碼或三字母代碼表示1.1.2專業(yè)數(shù)據(jù)12代碼(Code)數(shù)據(jù)是進(jìn)行程序生成任務(wù)所必需的訓(xùn)練數(shù)據(jù)。近期的研究和ChatGPT的結(jié)果表明,通過在大量代碼上進(jìn)行預(yù)訓(xùn)練,大語言模型可以有效提升代碼生成的效果[83-84]。代碼數(shù)據(jù)不僅包含程序代碼本身,還包含大量的注釋信息。與自然語言文本相比,代碼數(shù)據(jù)具有顯著的不同。代碼是一種格式化語言,它對(duì)應(yīng)著長(zhǎng)程依賴和準(zhǔn)確的執(zhí)行邏輯[85]。代碼的語法結(jié)構(gòu)、關(guān)鍵字和特定的編程范式都對(duì)其含義和功能起著重要的作用。代碼數(shù)據(jù)的主要來源是編程問答社區(qū)(如StackExchange[86-87])和公共軟件倉(cāng)庫(kù)(如GitHub[29,83,88])。編程問答社區(qū)中的數(shù)據(jù)包含了開發(fā)者提出的問題、其他開發(fā)者的回答及相關(guān)代碼示例。這些數(shù)據(jù)提供了豐富的語境和真實(shí)世界中的代碼使用場(chǎng)景。公共軟件倉(cāng)庫(kù)中的數(shù)據(jù)則包含了大量的開源代碼,涵蓋多種編程語言和不同領(lǐng)域。這些代碼庫(kù)中的很多代碼經(jīng)過了嚴(yán)格的代碼評(píng)審和實(shí)際的使用測(cè)試,因此具有一定的質(zhì)量和可靠性。1.1.2專業(yè)數(shù)據(jù)數(shù)據(jù)來源1.1數(shù)據(jù)處理1.2數(shù)據(jù)影響分析1.3目錄Contents13開源數(shù)據(jù)集合1.4實(shí)踐思考1.514大語言模型的相關(guān)研究表明,數(shù)據(jù)質(zhì)量對(duì)于模型的影響非常大。因此,在收集了各種類型的數(shù)據(jù)之后,需要對(duì)數(shù)據(jù)進(jìn)行處理,去除低質(zhì)量數(shù)據(jù)、重復(fù)數(shù)據(jù)、有害信息、個(gè)人隱私等內(nèi)容[14,89]。典型的數(shù)據(jù)處理流程如圖1.2所示,主要包括質(zhì)量過濾、冗余去除、隱私消除、詞元切分這幾個(gè)步驟。1.2數(shù)據(jù)處理15互聯(lián)網(wǎng)上的數(shù)據(jù)質(zhì)量參差不齊,無論是OpenAI聯(lián)合創(chuàng)始人AndrejKarpathy在微軟Build

2023的報(bào)告,還是當(dāng)前的一些研究都表明,訓(xùn)練數(shù)據(jù)的質(zhì)量對(duì)于大語言模型效果具有非常重要的影響。因此,從收集到的數(shù)據(jù)中刪除低質(zhì)量數(shù)據(jù)成為大語言模型訓(xùn)練中的重要步驟。大語言模型訓(xùn)練中所使用的低質(zhì)量數(shù)據(jù)過濾方法可以大致分為兩類:基于分類器的方法和基于啟發(fā)式的方法。1.2.1質(zhì)量過濾16基于分類器的方法的目標(biāo)是訓(xùn)練文本質(zhì)量判斷模型,并利用該模型識(shí)別并過濾低質(zhì)量數(shù)據(jù)。GPT-3[46]、PaLM[14]和GLaM[90]模型在訓(xùn)練數(shù)據(jù)構(gòu)造時(shí)都使用了基于分類器的方法。文獻(xiàn)[90]采用了基于特征哈希的線性分類器(FeatureHashBasedLinearClassifier),可以非常高效地完成文本質(zhì)量判斷。該分類器使用一組精選文本(維基百科、書籍和一些選定的網(wǎng)站)進(jìn)行訓(xùn)練,目標(biāo)是給與訓(xùn)練數(shù)據(jù)類似的網(wǎng)頁較高分?jǐn)?shù)。利用這個(gè)分類器可以評(píng)估網(wǎng)頁的內(nèi)容質(zhì)量。在實(shí)際應(yīng)用中,還可以通過使用Pareto分布對(duì)網(wǎng)頁進(jìn)行采樣,根據(jù)其得分選擇合適的閾值,從而選定合適的數(shù)據(jù)集。然而,一些研究發(fā)現(xiàn),基于分類器的方法可能會(huì)刪除包含方言或者口語的高質(zhì)量文本,從而損失一定的多樣性[89-90]。1.2.1質(zhì)量過濾17基于啟發(fā)式的方法則通過一組精心設(shè)計(jì)的規(guī)則來消除低質(zhì)量文本,BLOOM[33]和Gopher[89]采用了基于啟發(fā)式的方法。這些啟發(fā)式規(guī)則主要包括:語言過濾:如果一個(gè)大語言模型僅關(guān)注一種或者幾種語言,則可以大幅過濾數(shù)據(jù)中其他語言的文本。指標(biāo)過濾:利用評(píng)測(cè)指標(biāo)也可以過濾低質(zhì)量文本。例如,可以使用語言模型對(duì)給定文本的困惑度(Perplexity)進(jìn)行計(jì)算,利用該值可以過濾非自然的句子。統(tǒng)計(jì)特征過濾:針對(duì)文本內(nèi)容可以計(jì)算包括標(biāo)點(diǎn)符號(hào)分布、符號(hào)字比(Symbol-to-WordRatio)、句子長(zhǎng)度在內(nèi)的統(tǒng)計(jì)特征,利用這些特征過濾低質(zhì)量數(shù)據(jù)。關(guān)鍵詞過濾:根據(jù)特定的關(guān)鍵詞集,可以識(shí)別并刪除文本中的噪聲或無用元素。例如,HTML標(biāo)簽、超鏈接及冒犯性詞語等。1.2.1質(zhì)量過濾18在大語言模型出現(xiàn)之前,在自然語言處理領(lǐng)域已經(jīng)開展了很多文章質(zhì)量判斷(TextQuality

Evaluation)相關(guān)研究,主要應(yīng)用于搜索引擎、社會(huì)媒體、推薦系統(tǒng)、廣告排序及作文評(píng)分等任務(wù)中。在搜索和推薦系統(tǒng)中,結(jié)果的內(nèi)容質(zhì)量是影響用戶體驗(yàn)的重要因素之一,因此,此前很多工作都是針對(duì)用戶生成內(nèi)容(User-GeneratedContent,UGC)的質(zhì)量進(jìn)行判斷的。自動(dòng)作文評(píng)分也是文章質(zhì)量判斷領(lǐng)域的一個(gè)重要子任務(wù),自1998年文獻(xiàn)[91]提出使用貝葉斯分類器進(jìn)行作文評(píng)分預(yù)測(cè)以來,基于SVM[92]、CNN-RNN[93]、BERT[94-95]等方法的作文評(píng)分算法也被相繼提出,并取得了較大的進(jìn)展。這些方法都可以應(yīng)用于大語言模型預(yù)訓(xùn)練數(shù)據(jù)過濾。由于預(yù)訓(xùn)練數(shù)據(jù)量非常大,并且對(duì)質(zhì)量判斷的準(zhǔn)確率要求并不非常高,因此一些基于深度學(xué)習(xí)和預(yù)訓(xùn)練的方法還沒有應(yīng)用于低質(zhì)過濾中。1.2.1質(zhì)量過濾19文本冗余發(fā)現(xiàn)(TextDuplicateDetection)也稱為文本重復(fù)檢測(cè),是自然語言處理和信息檢索中的基礎(chǔ)任務(wù)之一,其目標(biāo)是發(fā)現(xiàn)不同粒度上的文本重復(fù),包括句子、段落、文檔等不同級(jí)別。冗余去除就是在不同的粒度上去除重復(fù)內(nèi)容,包括句子、文檔和數(shù)據(jù)集等粒度。文獻(xiàn)[96]指出,大語言模型訓(xùn)練語料庫(kù)中的重復(fù)數(shù)據(jù),會(huì)降低大語言模型的多樣性,并可能導(dǎo)致訓(xùn)練過程不穩(wěn)定,從而影響模型性能。因此,需要對(duì)預(yù)訓(xùn)練語料庫(kù)中的重復(fù)數(shù)據(jù)進(jìn)行處理,去除其中的冗余部分。1.2.2冗余去除20在句子級(jí)別上,文獻(xiàn)[97]指出,包含重復(fù)單詞或短語的句子很可能造成語言建模中引入重復(fù)的模式。這對(duì)語言模型來說會(huì)產(chǎn)生非常嚴(yán)重的影響,使得模型在預(yù)測(cè)時(shí)容易陷入重復(fù)循環(huán)(Repetition

Loops)。例如:使用GPT-2模型,對(duì)于給定的上下文:“Inashockingfinding,scientist

discoveredaherdofunicornslivinginaremote,previouslyunexploredvalley,intheAndes

Mountains.Evenmoresurprisingtotheresearcherswasthefactthattheunicornsspokeperfect

English.”。如果使用束搜索(BeamSearch),當(dāng)設(shè)置b=32時(shí),模型就會(huì)產(chǎn)生如下輸出,進(jìn)入重復(fù)循環(huán)模式?!癟hestudy,publishedintheProceedingsoftheNationalAcademyofSciencesofthe

UnitedStatesofAmerica(PNAS),wasconductedbyresearchersfromtheUniversidadNacional

AutónomadeMéxico(UNAM)andtheUniversidadNacionalAutónomadeMéxico(UNAM/UniversidadNacionalAutónomadeMéxico/UniversidadNacionalAutónomadeMéxico/Universidad

NacionalAutónomadeMéxico/UniversidadNacionalAutónomade···”1.2.2冗余去除21在RefinedWeb[64]的構(gòu)造過程中使用了文獻(xiàn)[98]提出的過濾方法,進(jìn)行了句子級(jí)別的過濾。該方法提取并過濾文檔間超過一定長(zhǎng)度的相同字符串。給定兩個(gè)文檔xi和xj,其中存在長(zhǎng)度為k的公共子串。當(dāng)k?50時(shí),就將其中一個(gè)子串過濾。公共子串匹配的關(guān)鍵是如何高效完成字符串匹配,文獻(xiàn)[64]將整個(gè)文檔D轉(zhuǎn)換為一個(gè)超長(zhǎng)的字符串序列S,之后構(gòu)造序列S的后綴數(shù)組(SuffixArray)A。該數(shù)組包含在該序列中的所有后綴按字典順序排列的列表。具體而言,后綴數(shù)組A是一個(gè)整數(shù)數(shù)組,其中每個(gè)元素表示S中的一個(gè)后綴的起始位置。A中的元素按照后綴的字典順序排列。針對(duì)Wiki-40B訓(xùn)練語料(約包含4GB文本內(nèi)容),使用擁有96核CPU以及768GB內(nèi)存的服務(wù)器,可以在140秒內(nèi)完成計(jì)算。對(duì)于包含350GB文本的C4數(shù)據(jù)集,僅需要12小時(shí)就可以完成后綴數(shù)組構(gòu)造。1.2.2冗余去除22在文檔級(jí)別上,大部分大語言模型依靠文檔之間的表面特征相似度(例如n-gram重疊比例)進(jìn)行檢測(cè)并刪除重復(fù)文檔[33,37,64,98]。LLaMA[37]采用CCNet[99]的處理模式,先將文檔拆分為段落,并把所有字符轉(zhuǎn)換為小寫字符、將數(shù)字替換為占位符,以及刪除所有Unicode標(biāo)點(diǎn)符號(hào)和重音符號(hào)來對(duì)每個(gè)段落進(jìn)行規(guī)范化處理。然后,使用SHA-1方法為每個(gè)段落計(jì)算一個(gè)哈希碼(Hash

Code),并使用前64位數(shù)字作為鍵。最后,利用每個(gè)段落的鍵進(jìn)行重復(fù)判斷。RefinedWeb[64]先去除頁面中菜單、標(biāo)題、頁腳、廣告等內(nèi)容,僅抽取頁面中的主要內(nèi)容。在此基礎(chǔ)上,在文檔級(jí)別進(jìn)行過濾,采用與文獻(xiàn)[89]類似的方法,使用n-gram重疊程度來衡量句子、段落及文檔的相似度。如果重復(fù)程度超過預(yù)先設(shè)定的閾值,則會(huì)過濾重復(fù)段落或文檔。1.2.2冗余去除23由于絕大多數(shù)預(yù)訓(xùn)練數(shù)據(jù)源于互聯(lián)網(wǎng),因此不可避免地會(huì)包含涉及敏感或個(gè)人信息(Personally

IdentifiableInformation,PII)的用戶生成內(nèi)容,這可能會(huì)增加隱私泄露的風(fēng)險(xiǎn)[101]。1.2.3隱私消除如左圖所示,輸入前綴詞“EastStroudsburgStroudsburg”,語言模型在此基礎(chǔ)上補(bǔ)全了姓名、電子郵件地址、電話號(hào)碼、傳真號(hào)碼及實(shí)際地址。這些信息都是模型從預(yù)訓(xùn)練語料中學(xué)習(xí)得到的。因此,非常有必要從預(yù)訓(xùn)練語料庫(kù)中刪除包含個(gè)人身份信息的內(nèi)容。24刪除隱私數(shù)據(jù)最直接的方法是采用基于規(guī)則的算法,BigScienceROOTSCorpus[102]在構(gòu)建過程中就采用了基于命名實(shí)體識(shí)別的方法,利用命名實(shí)體識(shí)別算法檢測(cè)姓名、地址、電話號(hào)碼等個(gè)人信息內(nèi)容并進(jìn)行刪除或者替換。該方法使用了基于Transformer的模型,并結(jié)合機(jī)器翻譯技術(shù),可以處理超過100種語言的文本,消除其中的隱私信息。該方法被集成在muliwai類庫(kù)中。1.2.3隱私消除25傳統(tǒng)的自然語言處理通常以單詞為基本處理單元,模型都依賴預(yù)先確定的詞表V,在編碼輸入詞序列時(shí),這些詞表示模型只能處理詞表中存在的詞。因此,在使用中,如果遇到不在詞表中的未登錄詞,模型無法為其生成對(duì)應(yīng)的表示,只能給予這些未登錄詞(Out-of-Vocabulary,OOV)一個(gè)默認(rèn)的通用表示。在深度學(xué)習(xí)模型中,詞表示模型會(huì)預(yù)先在詞表中加入一個(gè)默認(rèn)的“[UNK]”(unknown)標(biāo)識(shí),表示未知詞,并在訓(xùn)練的過程中將[UNK]的向量作為詞表示矩陣的一部分一起訓(xùn)練,通過引入某些相應(yīng)機(jī)制來更新[UNK]向量的參數(shù)。在使用時(shí),對(duì)于全部的未登錄詞,都使用[UNK]的向量作為這些詞的表示向量。1.2.4詞元切分26基于固定詞表的詞表示模型對(duì)詞表大小的選擇比較敏感。當(dāng)詞表大小過小時(shí),未登錄詞的比例較高,影響模型性能。當(dāng)詞表大小過大時(shí),大量低頻詞出現(xiàn)在詞表中,而這些詞的詞向量很難得到充分學(xué)習(xí)。理想模式下,詞表示模型應(yīng)能覆蓋絕大部分的輸入詞,并避免詞表過大所造成的數(shù)據(jù)稀疏問題。為了緩解未登錄詞問題,一些工作通過利用亞詞級(jí)別的信息構(gòu)造詞表示向量。一種直接的解決思路是為輸入建立字符級(jí)別表示,并通過字符向量的組合來獲得每個(gè)單詞的表示,以解決數(shù)據(jù)稀疏問題。然而,單詞中的詞根、詞綴等構(gòu)詞模式往往跨越多個(gè)字符,基于字符表示的方法很難學(xué)習(xí)跨度較大的模式。1.2.4詞元切分27為了充分學(xué)習(xí)這些構(gòu)詞模式,研究人員們提出了子詞詞元化(SubwordTokenization)方法,試圖緩解上文介紹的未登錄詞問題。詞元表示模型會(huì)維護(hù)一個(gè)詞元詞表,其中既存在完整的單詞,也存在形如“c”,“re”,“ing”等單詞部分信息,稱為子詞(Subword)。詞元表示模型對(duì)詞表中的每個(gè)詞元計(jì)算一個(gè)定長(zhǎng)向量表示,供下游模型使用。對(duì)于輸入的詞序列,詞元表示模型將每個(gè)詞拆分為詞表內(nèi)的詞元。例如,將單詞“reborn”拆分為“re”和“born”。模型隨后查詢每個(gè)詞元的表示,將輸入重新組成為詞元表示序列。當(dāng)下游模型需要計(jì)算一個(gè)單詞或詞組的表示時(shí),可以將對(duì)應(yīng)范圍內(nèi)的詞元表示合成為需要的表示。1.2.4詞元切分28詞元表示模型能夠較好地解決自然語言處理系統(tǒng)中未登錄詞的問題。詞元分析(Tokenization)目標(biāo)是將原始文本分割成由詞元(Token)序列的過程。詞元切分也是數(shù)據(jù)預(yù)處理中至關(guān)重要的一步。字節(jié)對(duì)編碼(BytePairEncoding,BPE)模型[103]是一種常見的子詞詞元模型。該模型采用的詞表包含最常見的單詞及高頻出現(xiàn)的子詞。在使用時(shí),常見詞通常本身位于BPE詞表中,而罕見詞通常能被分解為若干個(gè)包含在BPE詞表中的詞元,從而大幅降低未登錄詞的比例。BPE算法包括兩個(gè)部分:(1)詞元詞表的確定。(2)全詞切分為詞元以及詞元合并為全詞的方法。1.2.4詞元切分29BPE模型中詞元詞表的計(jì)算過程1.2.4詞元切分首先,確定語料庫(kù)中全詞的詞表和詞頻,然后將每個(gè)單詞切分為單個(gè)字符的序列,并在序列最后添加符號(hào)“</w>”作為單詞結(jié)尾的標(biāo)識(shí)。所切分出的序列元素稱為字節(jié),即每個(gè)單詞都切分為字節(jié)的序列。之后,按照每個(gè)字節(jié)序列的相鄰字節(jié)對(duì)和單詞的詞頻,統(tǒng)計(jì)每個(gè)相鄰字節(jié)對(duì)的出現(xiàn)頻率,合并出現(xiàn)頻率最高的字節(jié)對(duì),將其作為新的詞元加入詞表,并將全部單詞中的該字節(jié)對(duì)合并為新的單一字節(jié)。重復(fù)這一步驟,直至BPE詞元詞表的大小達(dá)到指定的預(yù)設(shè)值,或沒有可合并的字節(jié)對(duì)為止。30在詞元詞表確定之后,對(duì)輸入詞序列中未在詞表中的全詞進(jìn)行切分,BPE方法對(duì)詞表中的詞元按從長(zhǎng)到短的順序進(jìn)行遍歷,用每一個(gè)詞元和當(dāng)前序列中的全詞或未完全切分為詞元的部分進(jìn)行匹配,將其切分為該詞元和剩余部分的序列。例如,對(duì)于單詞“l(fā)owest</w>”首先通過匹配詞元“est</w>”將其切分為“l(fā)ow”“est</w>”的序列再通過匹配詞元“l(fā)ow”確定其最終切分結(jié)果為“l(fā)ow”“est</w>”的序列。通過這樣的過程,使用BPE盡量將詞序列中的詞切分成已知的詞元。1.2.4詞元切分31在遍歷詞元詞表后,對(duì)于切分得到的詞元序列,為每個(gè)詞元查詢?cè)~元表示,構(gòu)成詞元表示序列。若出現(xiàn)未登錄詞元,即未出現(xiàn)在BPE詞表中的詞元,則采取和未登錄詞類似的方式,為其賦予相同的表示,最終獲得輸入的詞元表示序列。字節(jié)級(jí)(Byte-level)BPE通過將字節(jié)視為合并的基本符號(hào),改善多語言語料庫(kù)(例如包含非ASCII字符的文本)的分詞質(zhì)量。GPT-2、BART、LLaMA等大語言模型都采用了這種分詞方法。原始LLaMA的詞表大小是32K,并且主要根據(jù)英文進(jìn)行訓(xùn)練,因此,很多漢字都沒有直接出現(xiàn)在詞表中,需要字節(jié)來支持所有的中文字符,由2個(gè)或者3個(gè)ByteToken才能拼成一個(gè)完整的漢字。對(duì)于使用了BPE的大語言模型,其輸出序列也是詞元序列。對(duì)于原始輸出,根據(jù)終結(jié)符</w>的位置確定每個(gè)單詞的范圍,合并范圍內(nèi)的詞元,將輸出重新組合為詞序列,作為最終的結(jié)果。1.2.4詞元切分32WordPiece[104]也是一種常見的詞元分析算法,最初應(yīng)用于語音搜索系統(tǒng)。此后,該算法做為BERT的分詞器。WordPiece與BPE有非常相似的思想,都是通過迭代地合并連續(xù)的詞元,但在合并的選擇標(biāo)準(zhǔn)上略有不同。為了進(jìn)行合并,WordPiece需要首先訓(xùn)練一個(gè)語言模型,并用該語言模型對(duì)所有可能的詞元對(duì)進(jìn)行評(píng)分。在每次合并時(shí),選擇使得訓(xùn)練數(shù)據(jù)似然概率增加最多的詞元對(duì)。由于Google并沒有發(fā)布其WordPiece算法的官方實(shí)現(xiàn),HuggingFace在其在線NLP課程中提供了一種更直觀的選擇度量方法:一個(gè)詞元對(duì)的評(píng)分是根據(jù)訓(xùn)練語料庫(kù)中兩個(gè)詞元的共現(xiàn)計(jì)數(shù)除以它們各自的出現(xiàn)計(jì)數(shù)的乘積。計(jì)算公式如下所示:1.2.4詞元切分33Unigram詞元分析[105]是另外一種應(yīng)用于大語言模型的詞元分析方法,T5和mBART采用該方法構(gòu)建詞元分析器。不同于BPE和WordPiece,Unigram詞元分析從一個(gè)足夠大的可能詞元集合開始,然后迭代地從當(dāng)前列表中刪除詞元,直到達(dá)到預(yù)期的詞匯表大小為止?;谟?xùn)練好的Unigram語言模型,使用從當(dāng)前詞匯表中刪除某個(gè)字詞后,訓(xùn)練語料庫(kù)似然性的增加量作為選擇標(biāo)準(zhǔn)。為了估計(jì)一元語言(Unigram)模型,采用了期望最大化(Expectation–Maximization,EM)算法:每次迭代中,首先根據(jù)舊的語言模型找到當(dāng)前最佳的單詞切分方式,然后重新估計(jì)一元語言單元概率以更新語言模型。在這個(gè)過程中,使用動(dòng)態(tài)規(guī)劃算法(如維特比算法)來高效地找到給定語言模型時(shí)單詞的最佳分解方式。1.2.4詞元切分34以HuggingFaceNLP課程中介紹的BPE代碼為例,介紹BPE方法的構(gòu)建和使用,代碼實(shí)現(xiàn)如下所示:1.2.4詞元切分351.2.4詞元切分?jǐn)?shù)據(jù)來源1.1數(shù)據(jù)處理1.2數(shù)據(jù)影響分析1.3目錄Contents36開源數(shù)據(jù)集合1.4實(shí)踐思考1.537大語言模型的訓(xùn)練需要巨大的計(jì)算資源,通常不可能多次迭代大語言模型預(yù)訓(xùn)練。千億級(jí)參數(shù)量的大語言模型每次預(yù)訓(xùn)練的計(jì)算需要花費(fèi)數(shù)百萬元。因此,在訓(xùn)練大語言模型之前,構(gòu)建一個(gè)準(zhǔn)備充分的預(yù)訓(xùn)練語料庫(kù)尤為重要。本節(jié)將從數(shù)據(jù)規(guī)模、數(shù)據(jù)質(zhì)量和數(shù)據(jù)多樣性三個(gè)方面分析數(shù)據(jù)對(duì)大語言模型的性能影響。需要特別說明的是,截止本書成稿時(shí),由于在千億參數(shù)規(guī)模的大語言模型上進(jìn)行實(shí)驗(yàn)的成本非常高,很多結(jié)論是在100億甚至是10億規(guī)模的語言模型上進(jìn)行的實(shí)驗(yàn),其結(jié)果并不能完整地反映數(shù)據(jù)對(duì)大語言模型的影響。此外,一些觀點(diǎn)仍處于猜想階段,需要進(jìn)一步驗(yàn)證。需要各位讀者甄別判斷。1.3數(shù)據(jù)影響分析38隨著大語言模型參數(shù)規(guī)模的增加,為了有效地訓(xùn)練模型,需要收集足夠數(shù)量的高質(zhì)量數(shù)據(jù)[37,106]。在文獻(xiàn)[106]針對(duì)模型參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)量及總計(jì)算量與模型效果之間關(guān)系的研究之前,大部分大語言模型訓(xùn)練所采用的訓(xùn)練數(shù)據(jù)量相較于LLaMA等最新的大語言模型都少很多。1.1.1數(shù)據(jù)規(guī)模39DeepMind的研究人員在文獻(xiàn)[106]中給出了他們通過訓(xùn)練參數(shù)范圍從7000萬到160億,訓(xùn)練詞元數(shù)量從5億到5000億不等的400多個(gè)語言模型所得出的分析結(jié)果。研究發(fā)現(xiàn),如果希望模型訓(xùn)練達(dá)到計(jì)算最優(yōu)(Compute-optimal),則模型大小和訓(xùn)練詞元數(shù)量應(yīng)該等比例縮放,即模型大小加倍則訓(xùn)練詞元數(shù)量也應(yīng)該加倍。為了驗(yàn)證該分析結(jié)果,他們使用與Gopher語言模型訓(xùn)練相同的計(jì)算資源,根據(jù)上述理論預(yù)測(cè)了Chinchilla語言模型的最優(yōu)參數(shù)量與詞元數(shù)量組合。最終確定Chinchilla語言模型為700億參數(shù),使用了1.4萬億詞元進(jìn)行訓(xùn)練。通過實(shí)驗(yàn)發(fā)現(xiàn),Chinchilla在很多下游評(píng)估任務(wù)中都顯著地優(yōu)于Gopher(280B)、GPT-3(175B)、Jurassic-1(178B)以及Megatron-TuringNLG(530B)。1.1.1數(shù)據(jù)規(guī)模40圖1.5給出了在同等計(jì)算量情況下,訓(xùn)練損失隨參數(shù)量的變化情況。針對(duì)9種不同的訓(xùn)練參數(shù)量設(shè)置,使用不同詞元數(shù)量的訓(xùn)練語料,訓(xùn)練不同大小的模型參數(shù)量,使得最終訓(xùn)練所需浮點(diǎn)運(yùn)算數(shù)達(dá)到預(yù)定目標(biāo)。圖中綠色線表示使用Gopher訓(xùn)練計(jì)算量所預(yù)測(cè)的最佳模型參數(shù)量和訓(xùn)練數(shù)據(jù)詞元數(shù)量。還可以使用冪律(PowerLaw)對(duì)計(jì)算量限制、損失最優(yōu)模型參數(shù)量大小及訓(xùn)練詞元數(shù)之間的關(guān)系進(jìn)行建模。1.1.1數(shù)據(jù)規(guī)模41LLaMA[37]模型在訓(xùn)練時(shí)采用了與文獻(xiàn)[106]相符的訓(xùn)練策略。研究發(fā)現(xiàn),70億參數(shù)的語言模型在訓(xùn)練超過1萬億個(gè)詞元(1TTokens)后,性能仍在持續(xù)增長(zhǎng)。因此,Meta的研究人員在LLaMA-2[109]模型訓(xùn)練中,進(jìn)一步增大了訓(xùn)練數(shù)據(jù)量,訓(xùn)練數(shù)據(jù)量達(dá)到2萬億詞元。文獻(xiàn)[106]給出了不同參數(shù)量模型在訓(xùn)練期間,隨著訓(xùn)練數(shù)據(jù)量的增加,模型在問答和常識(shí)推理任務(wù)上的效果演變過程,如圖1.6所示。研究人員分別在TriviaQA、HellaSwag、NaturalQuestions、SIQA、WinoGrande、PIQA這6個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試。1.1.1數(shù)據(jù)規(guī)模42可以看到,隨著訓(xùn)練數(shù)據(jù)量的不斷增加,模型在分屬兩類任務(wù)的6個(gè)數(shù)據(jù)集上的性能都在穩(wěn)步提高。通過使用更多的數(shù)據(jù)和更長(zhǎng)的訓(xùn)練時(shí)間,較小的模型也可以實(shí)現(xiàn)良好的性能。1.1.1數(shù)據(jù)規(guī)模43文獻(xiàn)[110]對(duì)不同任務(wù)類型所依賴的語言模型訓(xùn)練數(shù)量進(jìn)行了分析。針對(duì)分類探查(Classifier

Probing)、信息論探查(Info-theoreticProbing)、無監(jiān)督相對(duì)可接受性判斷(UnsupervisedRelative

AcceptabilityJudgment)以及應(yīng)用于自然語言理解任務(wù)的微調(diào)(Fine-tuningonNLUTasks)這四類任務(wù)?;诓煌考?jí)預(yù)訓(xùn)練數(shù)據(jù)的RoBERTa[71]模型在不同類型任務(wù)上的效果進(jìn)行了實(shí)驗(yàn)驗(yàn)證和分析。分別針對(duì)預(yù)訓(xùn)練了1M、10M、100M和1B個(gè)單詞的RoBERTa模型進(jìn)行了能力分析。研究發(fā)現(xiàn),模型只需要10M~100M個(gè)單詞的訓(xùn)練,就可以可靠地獲得語法和語義特征。但是需要更多的數(shù)據(jù)量訓(xùn)練才能獲得足夠的常識(shí)知識(shí)和其他技能,并在典型下游自然語言理解任務(wù)中取得較好的結(jié)果。1.1.1數(shù)據(jù)規(guī)模44數(shù)據(jù)質(zhì)量通常被認(rèn)為是影響大語言模型訓(xùn)練效果的關(guān)鍵因素之一。包含大量重復(fù)的低質(zhì)量數(shù)據(jù)甚至導(dǎo)致訓(xùn)練過程不穩(wěn)定,造成模型訓(xùn)練不收斂[96,111]?,F(xiàn)有的研究表明,訓(xùn)練數(shù)據(jù)的構(gòu)建時(shí)間、包含噪聲或有害信息情況、數(shù)據(jù)重復(fù)率等因素,都對(duì)語言模型性能存在較大影響[89,96,98,112]。截至2023年9月的研究都得出了相同的結(jié)論,即語言模型在經(jīng)過清洗的高質(zhì)量數(shù)據(jù)上訓(xùn)練數(shù)據(jù)可以得到更高的性能。文獻(xiàn)[89]介紹了Gopher語言模型在訓(xùn)練時(shí)針對(duì)文本質(zhì)量進(jìn)行的相關(guān)實(shí)驗(yàn)。如圖1.7所示,具有140億參數(shù)的模型在OpenWebText、C4及不同版本的MassiveWeb數(shù)據(jù)集上訓(xùn)練得到的模型效果對(duì)比。1.1.2數(shù)據(jù)質(zhì)量45使用經(jīng)過過濾和去重的MassiveWeb數(shù)據(jù)訓(xùn)練得到的語言模型在三個(gè)任務(wù)上都遠(yuǎn)好于使用未經(jīng)處理的數(shù)據(jù)訓(xùn)練得到的模型。使用經(jīng)過處理的MassiveWeb數(shù)據(jù)訓(xùn)練得到的語言模型在下游任務(wù)上的表現(xiàn)也遠(yuǎn)好于使用OpenWebText和C4數(shù)據(jù)集訓(xùn)練得到的結(jié)果。1.1.2數(shù)據(jù)質(zhì)量46構(gòu)建GLaM[90]語言模型時(shí),也對(duì)訓(xùn)練數(shù)據(jù)質(zhì)量的影響進(jìn)行了分析。該項(xiàng)分析同樣使用包含17億參數(shù)的模型,針對(duì)下游少樣本任務(wù)性能進(jìn)行了分析。使用相同超參數(shù),對(duì)通過原始數(shù)據(jù)集和經(jīng)過質(zhì)量篩選后的數(shù)據(jù)訓(xùn)練得到的模型效果進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果如圖1.8所示。1.1.2數(shù)據(jù)質(zhì)量可以看到,使用高質(zhì)量數(shù)據(jù)訓(xùn)練的模型在自然語言生成和自然語言理解的任務(wù)上表現(xiàn)更好。特別是,高質(zhì)量數(shù)據(jù)對(duì)自然語言生成任務(wù)上的影響大于自然語言理解任務(wù)。這可能是因?yàn)樽匀徽Z言生成任務(wù)通常需要生成高質(zhì)量的語言,過濾預(yù)訓(xùn)練語料庫(kù)對(duì)于語言模型的生成能力至關(guān)重要。文獻(xiàn)[90]的研究強(qiáng)調(diào)了預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量在下游任務(wù)的性能中也扮演著關(guān)鍵角色。47GoogleResearch的研究人員針對(duì)數(shù)據(jù)構(gòu)建時(shí)間、文本質(zhì)量、是否包含有害信息開展了系統(tǒng)的研究[113]。使用具有不同時(shí)間、毒性和質(zhì)量及領(lǐng)域組成的數(shù)據(jù),訓(xùn)練了28個(gè)15億參數(shù)的僅有解碼器(Decoder-only)結(jié)構(gòu)語言模型。研究結(jié)果表明,大語言模型訓(xùn)練數(shù)據(jù)的時(shí)間、內(nèi)容過濾方法及數(shù)據(jù)源對(duì)下游模型行為具有顯著影響。針對(duì)數(shù)據(jù)時(shí)效性對(duì)于模型效果的影響問題,研究人員在C4語料集的2013、2016、2019和2022版本上訓(xùn)練了4個(gè)自回歸語言模型。對(duì)于每個(gè)版本,從CommonCrawl數(shù)據(jù)集上刪除了截止年份之后爬取的所有數(shù)據(jù)。使用新聞、Twitter和科學(xué)領(lǐng)域的評(píng)估任務(wù)來衡量時(shí)間錯(cuò)位的影響。這些評(píng)估任務(wù)的訓(xùn)練集和測(cè)試集按年份劃分,分別在每個(gè)按年份劃分的數(shù)據(jù)集上微調(diào)模型,然后在所有年份劃分的測(cè)試集上進(jìn)行評(píng)估。1.1.2數(shù)據(jù)質(zhì)量48圖1.9給出了使用4個(gè)不同版本的數(shù)據(jù)集訓(xùn)練得到的模型在5個(gè)不同任務(wù)上的評(píng)測(cè)結(jié)果。熱力圖顏色(HeatmapColors)根據(jù)每一列進(jìn)行歸一化得到。從圖中可以看到,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的時(shí)間錯(cuò)配會(huì)在一定程度上影響模型的效果。1.1.2數(shù)據(jù)質(zhì)量49Anthropic的研究人員針對(duì)數(shù)據(jù)集中的重復(fù)問題開展了系統(tǒng)研究[96]。為了研究數(shù)據(jù)重復(fù)對(duì)大語言模型的影響,研究人員構(gòu)建了特定的數(shù)據(jù)集,其中大部分?jǐn)?shù)據(jù)是唯一的,只有一小部分?jǐn)?shù)據(jù)被重復(fù)多次,并使用這個(gè)數(shù)據(jù)集訓(xùn)練了一組模型。研究發(fā)現(xiàn)了一個(gè)強(qiáng)烈的雙峰下降現(xiàn)象,即重復(fù)數(shù)據(jù)可能會(huì)導(dǎo)致訓(xùn)練損失在中間階段增加。例如,通過將0.1%的數(shù)據(jù)重復(fù)100次,即使其余90%的訓(xùn)練數(shù)據(jù)保持不變,一個(gè)800M參數(shù)的模型的性能也可能降低到與400M參數(shù)的模型相同。此外,研究人員還設(shè)計(jì)了一個(gè)簡(jiǎn)單的復(fù)制評(píng)估,即將哈利·波特(HarryPotter)的文字復(fù)制11次,計(jì)算模型在該段上的損失。在僅有3%的重復(fù)數(shù)據(jù)的情況下,訓(xùn)練過程中性能最差的輪次僅能達(dá)到參數(shù)量為1/3的模型的效果。1.1.2數(shù)據(jù)質(zhì)量50文獻(xiàn)[14]對(duì)大語言模型的記憶能力進(jìn)行分析,根據(jù)訓(xùn)練樣例在訓(xùn)練數(shù)據(jù)中出現(xiàn)的次數(shù),顯示了記憶率的變化情況,如圖1.10所示。1.1.2數(shù)據(jù)質(zhì)量可以看到,對(duì)于在訓(xùn)練中只見過一次的樣例,PaLM模型的記憶率為0.75%,而對(duì)見過500次以上的樣例的記憶率超過40%。這也在一定程度上說明重復(fù)數(shù)據(jù)對(duì)于語言模型建模具有重要影響。這也可能進(jìn)一步影響使用上下文學(xué)習(xí)的大語言模型的泛化能力。由于PaLM模型僅使用了文檔級(jí)別過濾,因此片段級(jí)別(100個(gè)以上Token)可能出現(xiàn)非常高的重復(fù)次數(shù)。51來自不同領(lǐng)域、使用不同語言、應(yīng)用于不同場(chǎng)景的訓(xùn)練數(shù)據(jù)具有不同的語言特征,包含不同語義知識(shí)。通過使用不同來源的數(shù)據(jù)進(jìn)行訓(xùn)練,大語言模型可以獲得廣泛的知識(shí)。1.1.3數(shù)據(jù)多樣性52Gopher模型[89]的訓(xùn)練過程對(duì)數(shù)據(jù)分布進(jìn)行了消融實(shí)驗(yàn),驗(yàn)證混合來源對(duì)下游任務(wù)的影響情況。針對(duì)MassiveText子集設(shè)置了不同權(quán)重的數(shù)據(jù)組合,并用于訓(xùn)練語言模型。利用Wikitext103、Lambada、C4和CurationCorpus測(cè)試不同權(quán)重組合訓(xùn)練得到的語言模型在下游任務(wù)上的性能。為了限制數(shù)據(jù)組合分布范圍,實(shí)驗(yàn)中固定了Wikipedia和GitHub兩個(gè)數(shù)據(jù)集的采樣權(quán)重。對(duì)于Wikipedia,要求對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行完整的學(xué)習(xí),因此將采樣權(quán)重固定為2%;對(duì)于GitHub,采樣權(quán)重設(shè)置為3%。對(duì)于剩余的4個(gè)子集(MassiveWeb、News、Books和C4)設(shè)置了7種不同的組合。1.1.3數(shù)據(jù)多樣性53圖1.11給出了7種不同子集采樣權(quán)重訓(xùn)練得到Gopher模型在下游任務(wù)上的性能。可以看到,使用不同數(shù)量子集采樣權(quán)重訓(xùn)練,所獲得的模型效果差別很大。在所有任務(wù)中表現(xiàn)良好且在CurationCorpus上取得最佳表現(xiàn)的綠色配置是10%的C4、50%的MassiveWeb、30%的Books和10%的News。增加書籍?dāng)?shù)據(jù)的比例可以提高模型從文本中捕獲長(zhǎng)期依賴關(guān)系的能力,因此可以降低Lambada語料集[114]上的損失。而使用更高比例的C4數(shù)據(jù)集[19]則有助于在C4驗(yàn)證集[89]上獲得更好的表現(xiàn)。1.1.3數(shù)據(jù)多樣性數(shù)據(jù)來源1.1數(shù)據(jù)處理1.2數(shù)據(jù)影響分析1.3目錄Contents54開源數(shù)據(jù)集合1.4實(shí)踐思考1.555隨著基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的自然語言處理算法的發(fā)展,以及信息檢索研究的需求,特別是近年來深度學(xué)習(xí)和預(yù)訓(xùn)練語言模型的研究,研究人員構(gòu)建了多種大規(guī)模開源數(shù)據(jù)集,涵蓋了網(wǎng)頁、圖書、論文、百科等多個(gè)領(lǐng)域。在構(gòu)建大語言模型時(shí),數(shù)據(jù)的質(zhì)量和多樣性對(duì)于提高模型的性能至關(guān)重要。同時(shí),為了推動(dòng)大語言模型的研究和應(yīng)用,學(xué)術(shù)界和工業(yè)界也開放了多個(gè)針對(duì)大語言模型的開源數(shù)據(jù)集。1.4開源數(shù)據(jù)集56Pile數(shù)據(jù)集[72]是一個(gè)用于大語言模型訓(xùn)練的多樣性大規(guī)模文本語料庫(kù),由22個(gè)不同的高質(zhì)量子集構(gòu)成,包括現(xiàn)有的和新構(gòu)建的,許多來自學(xué)術(shù)或?qū)I(yè)領(lǐng)域。這些子集包括Pile-CC(CommonCrawl子集)、Wikipedia、OpenWebText2、ArXiv、PubMedCentral等。1.4.1PilePile的特點(diǎn)是包含了大量多樣化的文本,涵蓋了不同領(lǐng)域和主題,從而提高了訓(xùn)練數(shù)據(jù)集的多樣性和豐富性。Pile數(shù)據(jù)集包含825GB英文文本,其數(shù)據(jù)類型組成如圖1.12所示,所占面積大小表示數(shù)據(jù)在整個(gè)數(shù)據(jù)集中所占的規(guī)模。57ROOTS(ResponsibleOpen-scienceOpen-collaborationTextSources)數(shù)據(jù)集[102]是Big-Science項(xiàng)目在訓(xùn)練具有1760億參數(shù)的BLOOM大語言模型時(shí)使用的數(shù)據(jù)集。該數(shù)據(jù)集包含46種自然語言和13種編程語言,總計(jì)59種語言,整個(gè)數(shù)據(jù)集的大小約1.6TB1.4.2ROOTS58ROOTS數(shù)據(jù)主要來源于四個(gè)方面:公開語料、虛擬抓取、GitHub代碼、網(wǎng)頁數(shù)據(jù)。在公開語料方面,BigScienceDataSourcing工作組的目標(biāo)是收集盡可能多的各種類型的數(shù)據(jù),包括自然語言處理數(shù)據(jù)集和各類型文檔數(shù)據(jù)集合。在虛擬抓取方面,采用CommonCrawl網(wǎng)頁鏡像,選取了614個(gè)域名,從這些域名下的網(wǎng)頁中提取文本內(nèi)容補(bǔ)充到數(shù)據(jù)集中,以提升語言的多樣性。在GitHub代碼方面,針對(duì)程序語言,ROOTS數(shù)據(jù)集采用了與AlphaCode[84]相同的方法從BigQuery公開數(shù)據(jù)集中選取文件長(zhǎng)度在100到20萬字符之間,字母符號(hào)占比在15%至65%,最大行數(shù)在20至1000行之間的代碼。在網(wǎng)頁數(shù)據(jù)方面,ROOTS數(shù)據(jù)集中包含了OSCAR21.09版本,對(duì)應(yīng)的是CommonCrawl2021年2月的快照,占整體ROOTS數(shù)據(jù)集規(guī)模的38%。1.4.2ROOTS59在數(shù)據(jù)準(zhǔn)備完成后,還要進(jìn)行清洗、過濾、去重及隱私信息刪除等工作1.4.2ROOTS60RefinedWeb[64]是由位于阿布扎比的技術(shù)創(chuàng)新研究院(TechnologyInnovationInstitute,TII)在開發(fā)Falcon大語言模型時(shí)同步開源的大語言模型預(yù)訓(xùn)練集合,其主要由從CommonCrawl數(shù)據(jù)集[128]過濾的高

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論