版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
大語言模型的涌現(xiàn)能力是一個有趣的現(xiàn)象,也是研究的一大挑戰(zhàn)。復(fù)雜性科學(xué)領(lǐng)域的學(xué)者早在大語言模型誕生之前就一直致力于破解涌現(xiàn)謎題,衍生出了自組織、分形等重要概念,所以研究大語言模型的涌現(xiàn)也是復(fù)雜性科學(xué)與當(dāng)下最前沿技術(shù)的一次對話。我們要如何量化和解釋大語言模型的涌現(xiàn)現(xiàn)象?作為一個復(fù)雜系統(tǒng),它的內(nèi)部結(jié)構(gòu)究竟發(fā)生了什么樣的演化?來自田納西大學(xué)的助理教授肖熊燁老師的團隊在這方面有一個最新的進展,通過多重分形分析的方法來回答我們關(guān)于大語言模型涌現(xiàn)的困引言如今,大語言模型(LLM)的技術(shù)仍在飛速發(fā)展,人們還在訓(xùn)練更大規(guī)模的LLM。除了神經(jīng)標(biāo)度律給予我們信心,讓我們相信更大規(guī)模的LLM會有更出色的表現(xiàn),大語言模型的涌現(xiàn)現(xiàn)象也讓我們期待LLM會在規(guī)模超過一定閾值后,給我們意想不到的驚喜。2022年,JasonWei等人正式提出大語言模型的涌現(xiàn)能力這一概念。此后,越來越多的學(xué)者開始研究對大語言模型的涌現(xiàn)的度量和解釋。討論這樣的話題,我們首先需要對涌現(xiàn)(emergence)這一概念本身進行闡述。根據(jù)Goldstein在1999年給出的說法,“涌現(xiàn)是指在自組織過程中出現(xiàn)新穎且連貫的結(jié)構(gòu)、模式和特性”。單看這樣一個定性的定義,涌現(xiàn)實際上與自組織(self-organization)過程有關(guān)。自組織同樣是復(fù)雜性科學(xué)中的一個重要概念。自組織是指一個集體系統(tǒng)驅(qū)動自身走向更有序狀態(tài),并在面對擾動時保持其功能的能力。比如團結(jié)的蟻群,自發(fā)生成的圖靈斑圖等,都是自組織的典型案例。它們都是在沒有外部設(shè)計的情況,通過微觀個體彼此交互,從而在系統(tǒng)層面產(chǎn)生了超越所有個體的宏觀性質(zhì)。觀察生物界的這些案例,我們發(fā)現(xiàn),出現(xiàn)涌現(xiàn)現(xiàn)象不只是因為一個系統(tǒng)很大,更在于組成單元之間要有復(fù)雜的交互。同樣的道理,在研究LLM的涌現(xiàn)時,我們也不應(yīng)只關(guān)注模型的規(guī)模,而是應(yīng)當(dāng)關(guān)注神經(jīng)元之間的交互作用。這正是肖熊燁團隊在新研究工作中所強調(diào)的。除了關(guān)注模型大小的變化,他們還關(guān)注涌現(xiàn)程度隨訓(xùn)練次數(shù)的變化。神經(jīng)交互網(wǎng)絡(luò)為了能對AI的結(jié)構(gòu)進行分析,我們要將一個LLM轉(zhuǎn)化為一個神經(jīng)交互網(wǎng)絡(luò)(NeuronInteractionNetwor,NIN)。NIN是一個有向圖,圖中的節(jié)點就是人工神經(jīng)網(wǎng)絡(luò)里的神經(jīng)元,而連邊上的權(quán)重則是原始權(quán)重的絕對值的倒數(shù)ωab=|wab|-1——即原始權(quán)重越小,表示兩個神經(jīng)元之間的距離越大。轉(zhuǎn)換過程如下圖所示。在這個圖上,我們可以定義兩節(jié)點之間的最短路徑距離。從公式中可以看出,該距離由兩部分組成,第一部分是考慮連邊權(quán)重的最短距離,而另一部分則是路徑節(jié)點數(shù)量。超參數(shù)入eR,yeR則在調(diào)控兩部分的占比。進一步的,我們可以定義一個節(jié)點的鄰居。給定一個閾值,所有和某節(jié)點的最短路徑距離小于該閾值的節(jié)點都是該節(jié)點的鄰居。對于一個閾值(半徑)來說,鄰居數(shù)量可以說是一個盒子(圓)所覆蓋的“質(zhì)量”。下圖a中便是在展現(xiàn),隨著盒子半徑(r)增大,其覆蓋的質(zhì)量也一定在增大。而在真實實驗中觀察到,質(zhì)量與半徑呈現(xiàn)出一種冪律關(guān)系(如圖b所示)。這說明,我們可以假設(shè)神經(jīng)網(wǎng)絡(luò)中存在著分形結(jié)構(gòu)。什么是分形對于初識復(fù)雜性科學(xué)的讀者,這里有必要介紹一下什么是分形(Fractal)。1975年,曼德布洛特首次提出“分形”這一概念,大名鼎鼎的分形圖案曼德布洛特集就是以他的名字命名的。他認(rèn)為,分形是由與整體在某些方面相似的部分構(gòu)成的圖形。從這張圖中我們可以體會到,當(dāng)你對其中某一個局部不斷放大觀察時,會發(fā)現(xiàn)局部的圖形和它整體的形狀是相似的。也就是說,你在任意一個尺度上去觀察它,得到的都是一模一樣的結(jié)果。像這樣的分形特性,在大自然中非常普遍,包括海岸線、山脈、作用性細胞骨架等等。所以具有分形性質(zhì)的系統(tǒng)有著巨大的研究價值。不同的分形系統(tǒng)有著不一樣的分形維數(shù)。分形維數(shù)的計算如下式所示,是描述分形的一個重要參量。它的含義便是,你用一個盒子(平面上便是一個小正方形或圓)去覆蓋一個個分形體。隨著盒子半徑的變化,覆蓋的分形體數(shù)量也會以冪律的關(guān)系發(fā)生變化,這里的冪律指數(shù)便是分形維度。對于分形更進一步的介紹,讀者可參考文章?;氐絃LM上,我們發(fā)現(xiàn)作者構(gòu)建出的相應(yīng)的NIN有著分形的特性,可以在分形的假設(shè)下展開進一步的研究。多重分形分析正是基于這樣的背景,肖熊燁團隊提出了基于神經(jīng)元的多重分形分析(Neuron-basedMultifractalAnalysis,NeuroMFA)的框架。他們首先定義了NIN的配分函數(shù):其中表示l層中的節(jié)點i在某個半徑r下的鄰居數(shù)量占該節(jié)點所有鄰居數(shù)量的比例。作者們發(fā)現(xiàn),配分函數(shù)的大小與當(dāng)前半徑和最大半徑的比值有著一個冪律關(guān)系,冪指數(shù)和失真因子q有關(guān)。這里的冪律指數(shù)Τ(q)被稱為質(zhì)量指數(shù)。經(jīng)過勒讓德變換,便可以進一步得到利普希茨-霍爾德指數(shù)α(q)和多重分形譜f(α),其計算公式分別如下所示,這里涉及的抽象概念比較多,我們重點解釋最后得到的兩個核心指標(biāo)。α(q)就像城市里一個“崎嶇度”探測器,用來衡量系統(tǒng)里某個局部區(qū)域的個體分布有多么不規(guī)則。在NIN中α(q)衡量的是神經(jīng)元局部連接模式的規(guī)整性。一個低α(q)值意味著該區(qū)域的神經(jīng)元連接方式很均勻、有秩序;一個高α(q)值則意味著連接方式很混亂、無序。f(α)則像一幅城市復(fù)雜性地圖或全景圖。它告訴我們,擁有不同“崎嶇度”(α)的區(qū)域在整個城市中有多常見。f(α)值越高,說明這種類型(α)的區(qū)域越多。我們把出現(xiàn)頻率最高的區(qū)域類型挑出來,它的不規(guī)整程度便可以代表整個系統(tǒng)的不規(guī)則性。如下式所示,我們定義了不規(guī)則度α0。我們還可以計算多重分形譜的譜寬,即最不規(guī)則區(qū)域和最規(guī)則區(qū)域的差異有多大:這便是系統(tǒng)的異質(zhì)性指標(biāo)。從多重分形譜的最小值調(diào)到最大值,背后的調(diào)節(jié)器就是計算配分函數(shù)時引入的因子q。它是人為給定的參數(shù),就好像是我們使用的不同倍率的顯微鏡。當(dāng)q是極大的正數(shù)時,它會放大那些連接稠密(對于較小的r就有非常多的鄰居)的區(qū)域的作用(在配分函數(shù)中的占比因為被放大的是那些接近1的pl,i(r)。與之相反,當(dāng)q是特別大的負數(shù)時,被放大的就是那些連接非常稀疏(只有r非常大時才有較多的鄰居)的區(qū)域。當(dāng)q約為0時,所有區(qū)域都被抹平為同質(zhì)的區(qū)域。涌現(xiàn)的度量有了不規(guī)則性和異質(zhì)性的度量,我們便可以定義如何計算涌現(xiàn)了。如下式所示,涌現(xiàn)是一個與時間有關(guān)的指標(biāo)。它由兩項相乘而得。第一部分與異質(zhì)性有關(guān),它的含義是,在某一時刻,如果異質(zhì)性更高,那么涌現(xiàn)的程度便更高。第二部分與不規(guī)則性有關(guān),如果t時刻不規(guī)則程度更低,那么系統(tǒng)就有更高的涌現(xiàn)程度。其中這些指標(biāo)與0時刻的數(shù)值做比值,可以理解為是對指標(biāo)E進行標(biāo)準(zhǔn)化處理??梢钥闯?,該指標(biāo)依賴于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以及時間的變化。在該指標(biāo)度量下,涌現(xiàn)程度高的LLM(NIN)應(yīng)該是有著多種多樣規(guī)整的斑圖的大系統(tǒng)。實驗分析下圖展示了對不同規(guī)模的Pythia系列模型(從14M到2.8B參數(shù))在訓(xùn)練過程中的內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu)演變進行的可視化分析。每張子圖的橫軸是利普希茨-霍爾德指數(shù),縱軸是多重分形譜。從藍色的線到紅色的線,代表著訓(xùn)練迭代次數(shù)越來越多。可以看出隨著訓(xùn)練的進行,多重分形譜越來越寬了,這意味著系統(tǒng)內(nèi)部的異質(zhì)性越來越高了。這就像一個城市從單一的村莊發(fā)展成擁有金融區(qū)、住宅區(qū)、工業(yè)區(qū)等多種功能區(qū)的繁華大都會。而對于規(guī)模較大的模型,到了一定程度,多重分形譜就不再顯著變寬,開始出現(xiàn)向左漂移的現(xiàn)象。這意味著不規(guī)則的程度在降低,即頻率最高的利普希茨-霍爾德指數(shù)在變小。這種不規(guī)則程度降低的現(xiàn)象在很小的模型(14M)中是不存在的。另外,文章中將涌現(xiàn)度指標(biāo)與兩個公認(rèn)的下游任務(wù)性能基準(zhǔn)(LambadaOpenAI和PIQA)進行比較,發(fā)現(xiàn)它們之間有很強的相關(guān)性。下圖則是用一張雷達圖展示了涌現(xiàn)度指標(biāo)與其他四個下游任務(wù)基準(zhǔn)的關(guān)聯(lián)。這些任務(wù)基準(zhǔn)分別是:.A:LAMBADA-評估模型的語境理解和長距離依賴處理能力。·B:SciQ-評估模型的科學(xué)知識和推理能力?!:PIQA-評估模型的物理常識推理能力?!:ARC-easy-評估模型的基礎(chǔ)科學(xué)知識和簡單推理能力。下圖則展示了不同模型大小下,不同訓(xùn)練程度時,各個指標(biāo)的得分情況。它揭示出,訓(xùn)練充分時判斷模型涌現(xiàn)的必要條件,當(dāng)訓(xùn)練不充分時(Epoch512所有指標(biāo)得分都近乎為0。而當(dāng)訓(xùn)練足夠充分后,所有指標(biāo)的變化趨勢都是類似的,都會隨模型變大而增長。總結(jié)這篇工作開創(chuàng)性地以多重分形分析的視角來研究LLM的涌現(xiàn)現(xiàn)象,把我們對一個具有涌現(xiàn)的復(fù)雜系統(tǒng)網(wǎng)絡(luò)的期待能夠量化
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 濕氣重體質(zhì)的飲食安排
- 經(jīng)期不適的飲食調(diào)節(jié)
- 員工設(shè)備維護課件
- 2025年網(wǎng)絡(luò)接口適配器項目合作計劃書
- 2025年抗結(jié)劑項目建議書
- 太陽能建筑一體化原理與應(yīng) 課件 第10、11章 太陽能空調(diào)、太陽能與建筑圍護結(jié)構(gòu)的一體化
- 牙周炎的成因及危害分析
- 燒傷患者靜脈通路護理
- 綜合護理能力比武課件制作
- 呼吸衰竭的護理經(jīng)濟管理
- 潘謝礦區(qū)西淝河、泥河、濟河、港河水體下安全開采可行性論證報告
- 本田供應(yīng)商品質(zhì)監(jiān)查1
- 創(chuàng)業(yè)人生(上海大學(xué))【超星爾雅學(xué)習(xí)通】章節(jié)答案
- 開放系統(tǒng)10862人文英語(4)期末機考真題及答案
- GB/T 4957-2003非磁性基體金屬上非導(dǎo)電覆蓋層覆蓋層厚度測量渦流法
- GB/T 27806-2011環(huán)氧瀝青防腐涂料
- GB/T 12618.1-2006開口型平圓頭抽芯鉚釘10、11級
- FZ/T 52051-2018低熔點聚酯(LMPET)/聚酯(PET)復(fù)合短纖維
- 設(shè)備吊裝方案編制受力計算
- 食品工程原理概述經(jīng)典課件
- 養(yǎng)老院機構(gòu)組織架構(gòu)圖
評論
0/150
提交評論