版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第6章機器學習與知識發(fā)現(xiàn)(二)
6.1統(tǒng)計學習
6.2神經(jīng)網(wǎng)絡(luò)學習
6.3深度學習
6.4數(shù)據(jù)挖掘與知識發(fā)現(xiàn)
延伸學習導引
6.1統(tǒng)計學習6.1.1概述讓計算機(機器)執(zhí)行以統(tǒng)計、概率和其他數(shù)學理論為基礎(chǔ)的算法,處理相關(guān)樣本數(shù)據(jù)以發(fā)現(xiàn)其中的模式或規(guī)律的“機器學習”方法——統(tǒng)計機器學習(statisticalmachinelearning),即統(tǒng)計學習(statisticallearning)。統(tǒng)計學習的主要工作和過程是:首先準備樣本數(shù)據(jù),然后針對樣本數(shù)據(jù)的特點,選擇或設(shè)計某種數(shù)值模型或概率模型、準則函數(shù)(criterionfunction)(如誤差、損失、代價、風險函數(shù)等)、學習策略和算法,最后編程實現(xiàn)以歸納或估算一個最優(yōu)模型。
統(tǒng)計學習的主要任務是發(fā)現(xiàn)或估計隱藏于樣本數(shù)據(jù)中的類別關(guān)系、函數(shù)關(guān)系或模式(類)以解決相關(guān)的分類(classification)、回歸(regression)或聚類(clustering)等問題。這樣,統(tǒng)計學習又可分為面向分類的學習、面向回歸的學習和面向聚類的學習等。
其中,面向分類的學習又大體有兩條技術(shù)路線:一條是數(shù)值路線,另一條是概率路線。一般來講,數(shù)值路線的學習結(jié)果是問題的近似解,而概率路線的學習結(jié)果是可能解。面向回歸的學習與面向分類的學習的數(shù)據(jù)形式是相似的,只是其數(shù)據(jù)對中的響應值(也稱輸出值)一般是實數(shù),而不是分類學習中的類別標記。所以,回歸學習的模型、約束、策略、算法等與數(shù)值路線的分類學習既相似又有區(qū)別。聚類學習面向無響應值的數(shù)據(jù),其目標是發(fā)現(xiàn)數(shù)據(jù)所表征的類別模式。聚類學習也有許多經(jīng)典算法,如k-均值算法、期望最大化算法、譜聚類算法和層次聚類算法等等。統(tǒng)計學習是一種基于樣本數(shù)據(jù)的學習,而樣本數(shù)據(jù)一般是n維向量(稱為特征向量)或者n維向量與符號或數(shù)值組成的序?qū)?,所以統(tǒng)計學習的方法主要是監(jiān)督學習和無監(jiān)督學習。決策樹學習是一種獨特的監(jiān)督學習方法,它不僅可用于符號學習,也可用于統(tǒng)計學習。在統(tǒng)計學習中,它既可用于分類學習也可用于回歸學習;它既可走數(shù)值路線,也可走概率路線。6.1.2回歸問題的線性函數(shù)模型學習,梯度下降法設(shè)有樣本數(shù)據(jù)如下表所示:它們所構(gòu)成的數(shù)據(jù)點在x-y空間中的分布如圖7-1所示。
設(shè)作為評價學習效果的準則函數(shù),稱為誤差函數(shù)。再設(shè)定一個
>0,作為誤差函數(shù)值E(a,b)的上限。那么,
E(a,b)<
(6-2)就是我們的評價準則。用誤差函數(shù)E(a,b)在點(a,b)的負梯度來引導搜索,即確定當前點(a,b)的下一個點(a’,b’)的所在方向和位置。
用梯度引導函數(shù)極小值點的搜索,就是著名的梯度下降法(gradientdescent,亦稱最速下降法)。
由矢量代數(shù)知識和梯度下降法原理,在搜索過程中點(a,b)的變換公式亦即系數(shù)a,b取值的修正公式為(a,b)=(a,b)
E(a,b)(6-4)
其中0<
1,稱為學習因子或?qū)W習率,用以控制搜索時的移動步長亦即參數(shù)值修正量的大小。(7-4)式是用向量表示的修正公式,寫成分量形式則為一個學習相應線性函數(shù)的算法:
(1)設(shè)定一個
值和一個誤差上限
;(2)給系數(shù)變量a,b各賦一個初值;(3)將樣本中變量xi的取值依次代入函數(shù)式ax+b求相應的y值,并計算總誤差
E(a,b)=
(4)如果E(a,b)<
,則當前的a、b取值即為所求,于是,算法結(jié)束;否則,計算梯度E(a,b),修正a、b的取值,即令
(a,b)=(a,b)
E(a,b);然后轉(zhuǎn)(3)
假設(shè)經(jīng)機器學習,系數(shù)a,b分別取1.95和
0.96。于是,得線性函數(shù)y=1.95x
0.96相應的函數(shù)圖像如圖6-2所示。說明:梯度下降法的缺點是容易陷入局部極小點。另外,對于大規(guī)模數(shù)據(jù),這種步進式的搜索其效率也是個問題。為此,人們又開發(fā)出了隨機梯度下降法。上面關(guān)于一元線性函數(shù)的學習算法也可推廣到多元線性函數(shù)的學習中去。6.1.3分類問題的線性判別函數(shù)模型學習
設(shè)有下列樣本數(shù)據(jù):其中,y=f(x1,x2)是一個指示函數(shù),y為(x1,x2)所屬類別的標記,取值為0和1??紤]在類1和類0(分別記為C0和C1)之間構(gòu)造一條直線:w0+w1x1+w2x2=0(6-7)這里,x1、x2為變量,w1、w2系數(shù),w0為常數(shù)。令g(x)=g(x1,x2)=w0+w1x1+w2x2,則對于點x
U
V
R2當g(x)<0時,則x
c0;當g(x)>0時,則x
c1
這樣,參數(shù)w0、w1、w2取值未定的函數(shù)g(x)=w0+w1x1+w2x2就是這個分類問題的假設(shè)判別函數(shù)模型。g(x)是一個線性函數(shù),稱為線性判別函數(shù)。
為了敘述方便,將函數(shù)式w0+w1x1+w2x2寫成系數(shù)向量與變元向量的內(nèi)積的形式,即
這里參數(shù)w1、w2稱為權(quán)值,表示在函數(shù)中的重要程度,w0稱為閾值權(quán)或偏置(bias,亦稱偏差或偏倚)。如果引入x0=1,則上面的函數(shù)式可進一步寫成
原直線方程也就變?yōu)?/p>
wTxi=0(6-8)
一個簡單的學習算法:—————————————————————————————————————
(1)初始化權(quán)向量w,并設(shè)置一個合適的學習率
(0,1];
(2)對訓練樣例(xi,yi)(i=1,2,…,n):
計算wTxi;
如果wTxi>0,令hi=1,否則hi=0;
更新權(quán)值:w=
w+
(hi
yi)
xi。
(3)直到對所有訓練樣例都有hi
yi=0,則當前權(quán)向量w即為所求,學習結(jié)束;
否則轉(zhuǎn)(2)。—————————————--————————————————————————
經(jīng)過機器學習,權(quán)向量w的值被確定后,判別函數(shù)g(x)=
wTx也就確定了。于是,進一步就有分類判決規(guī)則:
對于任一x
U
V,
如果g(x)>0,則x
C1;
如果g(x)<0,則x
C0;
如果g(x)=0,則根據(jù)實際問題進行分類或不予分類。上述判別函數(shù)和判決規(guī)則就構(gòu)成了一個“分類器”,或線性分類器?,F(xiàn)在,就可用這個分類器對相關(guān)的對象進行分類了。
說明:
這里的判別函數(shù)g(x)完全可以推廣為n元線性函數(shù)。從而這個分類器也就被推廣為n維線性分類器。
上面的學習算法是針對線性可分的樣本的,相應的分類器也是針對線性可分問題的。
上面的算法中沒有使用準則函數(shù)。但實際上,對于線性判別函數(shù)的學習,人們已開發(fā)了許多準則函數(shù)。
線性判別函數(shù)不僅可用于二分類問題,也可用于多分類問題。6.2神經(jīng)網(wǎng)絡(luò)學習
6.2.1從生物神經(jīng)元到人工神經(jīng)元1.生物神經(jīng)元
生物神經(jīng)元的基本結(jié)構(gòu)2.人工神經(jīng)元
人工神經(jīng)元結(jié)構(gòu)模型人工神經(jīng)元的輸入輸出關(guān)系可描述為:常見的幾種神經(jīng)元激活函數(shù)1.階躍函數(shù)2.Sigmoid函數(shù)3.分段線性函數(shù)
6.2.2神經(jīng)網(wǎng)絡(luò)及其學習
1.神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)與功能(1)分層前向(饋)網(wǎng)絡(luò)(2)反饋前向網(wǎng)絡(luò)(3)互連前向網(wǎng)絡(luò)(4)廣泛互連網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型神經(jīng)網(wǎng)絡(luò)至少可以實現(xiàn)如下功能:
數(shù)學上的映射逼近
數(shù)據(jù)聚類、壓縮
聯(lián)想記憶
優(yōu)化計算和組合優(yōu)化問題求解
模式分類
概率密度函數(shù)的估計2.神經(jīng)網(wǎng)絡(luò)學習機理與方法
1)學習規(guī)則
?Hebb規(guī)則:
?最基本的誤差修正規(guī)則,即δ學習規(guī)則:
(1)選擇一組初始權(quán)值Wij(0)。
(2)計算某一輸入模式對應的實際輸出與期望輸出的誤差(dj-yj)。
(3)用下式更新權(quán)值(閾值可視為輸入恒為-1的一個權(quán)值)
Wij(t+1)=Wij(t)+η[dj-yj(t)]xi(t)
(4)返回(2),直到對所有訓練模式網(wǎng)絡(luò)輸出均能滿足要求。
2)學習方法
根據(jù)樣例數(shù)據(jù)的特點神經(jīng)網(wǎng)絡(luò)學習有監(jiān)督學習和無監(jiān)督學習之分。
從神經(jīng)網(wǎng)絡(luò)內(nèi)部狀態(tài)變化的角度來分,神經(jīng)網(wǎng)絡(luò)學習可分為權(quán)值修正、拓撲變化、權(quán)值與拓撲修正三種。
神經(jīng)網(wǎng)絡(luò)學習還可分為確定性學習與隨機性學習。
此外,神經(jīng)網(wǎng)絡(luò)學習還有競爭學習、BP學習、玻爾茲曼學習、遷移學習、深度學習等提法。6.2.3神經(jīng)網(wǎng)絡(luò)模型及其分類1.按網(wǎng)絡(luò)結(jié)構(gòu)分類前向(饋)網(wǎng)絡(luò)反饋網(wǎng)絡(luò)2.按學習方式分類有監(jiān)督(導師)學習網(wǎng)絡(luò)無監(jiān)督(導師)學習網(wǎng)絡(luò)3.按網(wǎng)絡(luò)的狀態(tài)分類連續(xù)型網(wǎng)絡(luò)離散型網(wǎng)絡(luò)4.按網(wǎng)絡(luò)的活動方式分類確定性網(wǎng)絡(luò)隨機性網(wǎng)絡(luò)表6-1早期的一些著名的神經(jīng)網(wǎng)絡(luò)模型6.2.4BP網(wǎng)絡(luò)及其學習舉例
BP(Back-Propagation)網(wǎng)絡(luò)的特點:
(1)BP網(wǎng)絡(luò)的拓撲結(jié)構(gòu)為分層前向(饋)網(wǎng)絡(luò)。
(2)神經(jīng)元的特性函數(shù)為Sigmoid型(S型)函數(shù),一般取為
(3)輸入為連續(xù)信號量(實數(shù))。
(4)學習方式為有監(jiān)督學習。
(5)學習算法為推廣的δ學習規(guī)則,稱為誤差反向傳播算法,簡稱BP學習算法。BP學習算法:
例
6-1
設(shè)計一個BP網(wǎng)絡(luò),對下表所示的樣本數(shù)據(jù)進行學習,使學成的網(wǎng)絡(luò)能解決類似的模式分類問題。
輸入輸出x1
x2
x3y1
y2
y30.30.80.10.70.10.30.60.60.6100010001BP網(wǎng)絡(luò)舉例6.3深度學習6.3.1什么是深度學習深度學習(DeepLearning,DL),簡單來講,就是基于深度神經(jīng)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)學習或者說機器學習。這里的深度神經(jīng)網(wǎng)絡(luò),一般地講,就是含有多個隱層的前向(前饋)神經(jīng)網(wǎng)絡(luò),其隱層個數(shù)依具體問題可以是數(shù)個、數(shù)十個、數(shù)百個甚至數(shù)千個。不過,更準確地說,深度神經(jīng)網(wǎng)絡(luò)的一個隱層可能是一行神經(jīng)元,也可能是一行由神經(jīng)元排列而成的矩陣,甚至是一行網(wǎng)絡(luò)模塊,而且各層神經(jīng)元之間并非必須是全連接。
深度學習的優(yōu)異效績主要歸功于以下兩點:其一:深度網(wǎng)絡(luò)有自動特征發(fā)現(xiàn)(Automatingfeaturediscovery)的潛質(zhì)和特性。其二:深度學習所采用的“逐層訓練,多級學習(抽象)(learningmultiplelevelsofrepresentation)”等技術(shù)技巧。
6.3.2深度學習的優(yōu)勢除了學習效果優(yōu)異外,深度學習的優(yōu)勢和吸引力還在于需要較少的人工干預。事實上,采用深度學習,不需要手工制作正確的特征或合適的基函數(shù)(Basisfunction),也不必擔心網(wǎng)絡(luò)結(jié)構(gòu)。一旦有充足的數(shù)據(jù)和足夠強大的計算能力,就只需等待,讓學習算法獨自發(fā)現(xiàn)所需要的一切。延伸學習導引關(guān)于統(tǒng)計學習,可進一步學習文獻[3]中的10.2.3節(jié)、10.3節(jié)、10.4節(jié)、12.4節(jié)和13.3節(jié)。關(guān)于神經(jīng)網(wǎng)絡(luò)學習,可進一步學習文獻[3]中的第11.3節(jié)。關(guān)于數(shù)據(jù)挖掘與知識發(fā)現(xiàn),可進一步學習文獻[3]中的第12章。
第7章機器感知與語言交流
7.1引言
7.2模式識別
7.3自然語言處理
延伸學習導引
7.1引言
感知能力是一個智能體所必備的功能要素,也是智能的重要表現(xiàn)和衡量指標。感知就是將接收到的來自外部環(huán)境或自身的刺激信號(量)轉(zhuǎn)換為一種以語言(值)形式表達的心理量(的過程)。研究機器感知,首先要涉及圖像、聲音等信息的識別問題。
機器感知不僅是對人類感知的模擬,也是對人類感知的擴展和延伸。
智能體需要與人類進行信息交流,最好的交流媒介莫過于自然語言。因此,自然語言處理(包括理解和生成)就成了人工智能的一個重要研究課題。7.2模式識別7.2.1基本原理與方法1.模式、模式類與模式識別
定義
7-1能夠表征或刻畫被識對象類屬特征的信息模型稱為對象的模式(pattern)。
定義
7-2具有某些共同特性的模式的集合稱為模式類,判定一個待識模式類屬的過程稱為模式識別。
2.模式的表示最常用的模式表示形式有向量和字符串。該圖形的模式就可以用字符串S=accbda來描述。3.模式識別系統(tǒng)工作原理
4.模式識別方法分類統(tǒng)計模式識別結(jié)構(gòu)模式識別神經(jīng)網(wǎng)絡(luò)模式識別模糊模式識別和軟模式識別自適應模式識別仿生模式識別7.2.2距離分類法1.標準模式法
2.平均距離法3.
最近鄰法7.2.3幾何分類法
一個模式類就是相應特征空間中的一個點集。一般來講,在特征空間中一個模式類的點集總是在某種程度上與另一個模式類的點集相分離。因此,模式識別的另一個思路就是設(shè)法構(gòu)造一些分界面(線),把特征空間Rn分割成若干個稱為決策區(qū)域的子空間Ri
(i=1,2,…,n),使得一個模式類剛好位于一個決策區(qū)域。這樣,對于待識模式X,就可以利用空間中的這些分界面來判定X的類屬。分界面(線)方程gi(X)=0中的函數(shù)gi(X)稱為判別函數(shù)。分界面(線)可分為平面(直線)和曲面,相應的判別函數(shù)為線性函數(shù)和非線性函數(shù)。下面我們介紹分界平面和線性判別函數(shù)。對于二分類問題,顯然只需一個分界平面。設(shè)判別函數(shù)為g(X)=WTX+w0其中W=(w1,w2,…,
wn)T為X中各分量x1,x2,…,
xn的系數(shù)組成的向量,稱為權(quán)向量;w0為一個常數(shù),稱為閾值權(quán)。那么,分界平面方程為g(X)=WTX+w0=08.2.4概率分類法
1.基于最小錯誤率的貝葉斯決策
例
8-2假設(shè)對某地區(qū)人體細胞的統(tǒng)計發(fā)現(xiàn),正常細胞(c1)和異常細胞(c2)的先驗概率分別為0.9和0.1,即
P(c1)=0.9,P(c2)=0.1現(xiàn)有一待識細胞,其特征值為X,若已知其類條件概率密度為
p(X|c1)=0.2,p(X|c2)=0.4試用最小錯誤率的貝葉斯決策判斷該細胞是否正常。
2.基于最小風險的貝葉斯決策7.3自然語言處理7.3.1自然語言處理的途徑、方法和發(fā)展概況
自然語言處理(NLP)包括自然語言的理解、分析、綜合和生成等。狹義的自然語言處理主要指對文字形態(tài)語言的處理,廣義的自然語言處理也包括非文字形態(tài)語言(如語音、手語等)的處理。
在形式語言理論框架下,自然語言處理相繼形成了基于規(guī)則的形式化機制、基于統(tǒng)計的形式化機制和基于聯(lián)結(jié)的形式化機制,相應地,也就出現(xiàn)了基于規(guī)則的方法、基于統(tǒng)計的方法和基于聯(lián)結(jié)的方法等三大方法和流派。
基于規(guī)則的方法(理性主義學派)
基于統(tǒng)計的方法(經(jīng)驗主義學派)
基于聯(lián)結(jié)的方法(經(jīng)驗主義學派)
7.3.2基于規(guī)則的自然語言理解
1.簡單句理解1)理解的實現(xiàn)過程(1)理解語句中的每一個詞。(2)以這些詞為基礎(chǔ)組成一個可以表達整個語句意義的結(jié)構(gòu)。這項工作分成以下三個部分來進行:
語法分析
將單詞之間的線性次序變換成一個顯示單詞如何與其他單詞相關(guān)聯(lián)的結(jié)構(gòu)。語法分析確定語句是否合乎語法,因為一個不合語法的語句就更難理解。語義分析
各種意義被賦予由語法分析程序所建立的結(jié)構(gòu),即在語法結(jié)構(gòu)和任務領(lǐng)域內(nèi)對象之間進行映射變換。語用分析為確定真正含義,對表達的結(jié)構(gòu)重新加以解釋。2)語法分析
要進行語法分析,必須首先給出該語言的文法規(guī)則,以便為語法分析提供一個準則和依據(jù)。對于自然語言人們已提出了許多種文法,例如,喬姆斯基(Chomsky)提出的上下文無關(guān)文法就是一種常用的文法。一個語言的文法一般用一組文法規(guī)則(稱為產(chǎn)生式或重寫規(guī)則)以及非終結(jié)符與終結(jié)符來定義和描述。例如,下面就是一個英語子集的上下文無關(guān)文法:
sentence
∷=
noun-phrase
verb-phrase
noun-phrase
∷=
determiner
noun
verb-phrase
∷=
verb
noun-phrase
|
verb
determiner
∷=the
a
an
noun
∷=man
student
apple
computer
verb
∷=eats
operates例7-3一個基于上述文法的語法分析程序。
sentence(X):-append(Y,Z,X),noun
phrase(Y),verb
phrase(Z).
noun
phrase(X):-append(Y,Z,X),determiner(Y),noun(Z).
verb
phrase(X):-append(Y,Z,X),verb(Y),noun_phrase(Z).
verb
phrase(X):-verb(X).determiner([the]).noun([H
]):-member(H,[man,student,apple,banana,computer]).verb([H
]):-member(H,[eats,study,programming,operates]).append([],L,L).append([H
T],L,[H
L2]):-append(T,L,L2).member(X,[X
]).member(X,[
T]):-member(X,T).這個程序是先把所給的句子以符號表的形式約束給謂詞sentence的變量X,然后對其進行分解和變換。如果最終分解、變換的結(jié)果與語言的文法樹相符,則證明所給的句子語法正確;否則語法錯誤。例如,對于句子Thestudentoperatesthecomputer.要用該程序進行語法分析,則應給出詢問:
?-sentence([the,student,operates,the,computer]).這時,系統(tǒng)則回答:Yes分析這個句子所產(chǎn)生的解樹如下圖所示。這個解樹稱為該句子的語法分析樹。3)語義分析語義分析就是要識別一個語句所表達的意思。其方法很多,如運用格文法、語義文法等。語義文法就是在傳統(tǒng)的短語結(jié)構(gòu)文法的基礎(chǔ)上,將名詞短語、動詞短語等不含語義信息的純語法類別,用所討論領(lǐng)域的專門類別來代替。例如,下面一個語義文法的例子:S→PRESENTtheATTRIBUTEofSHIP
PRESENT→what
is|canyoutellme
ATTRIBUTE→length|class
SHIP→theSHIPNAME|CLASSNAMEclassship
SHIPNAME→Huanghe|Changjiang
CLASSNAME→carrier|submarine
2.復合句理解
復合句的理解,就不僅要分析各個簡單句,而且要找出句子之間的關(guān)系。句子之間關(guān)系包括以下幾種:(1)相同的事物,例如:
小華有個計算器,小劉想用它。單詞“它”和“計算器”指的是同一物體。(2)事物的一部分,例如:
小林穿上她剛買的大衣,發(fā)現(xiàn)掉了一個扣子。
“扣子”指的是“剛買的大衣”的一部分。(3)行動的一部分,例如:
王宏去北京出差,他乘早班飛機動身。乘飛機應看成是出差的一部分。
(4)與行動有關(guān)的事物,例如:
李明準備騎車去上學,但他騎上車子時,發(fā)現(xiàn)車胎沒氣了。李明的自行車應理解為是與他騎車去上學這一行動有關(guān)的事物。(5)因果關(guān)系,例如:
今天下雨,所以不能上早操。下雨應理解為是不能上操的原因。(6)計劃次序,例如:
小張準備結(jié)婚,他決定再找一份工作干。小張對工作感興趣,應理解為是由于他要結(jié)婚,而結(jié)婚需要錢而引起的。
“焦點”技術(shù)。舉例:
接著,把虎鉗固定到工作臺上。螺栓就放在小塑料袋中。螺栓
“焦點”“行動規(guī)劃”技術(shù)。舉例:
小王有點餓。他便向行人打聽餐館在哪里。行動規(guī)劃:
打聽地址→去餐館→吃飯→不餓
7.3.3統(tǒng)計語言模型一個句子就是由若干詞組成的一個序列。例如:
小明是一個學生。
Xiaomingisastudent.設(shè)w1,w2,...,wn為n個單詞,語句S由詞序列w1,w2,...,wn組成,記為S=w1,w2,...,wn(7-13)又設(shè)C為一個與語句S屬同一語言的語料庫。則有P(S)=P(w1,w2,...,wn)(7-14)由概率的乘法公式,又有P(w1,w2,...,wn)=P(w1)P(w2
w1)P(w3
w1,w2)…P(wn
w1,w2,...,wn-1)(7-15)
設(shè)X為從語料庫C中取單詞值的一個隨機變量。則有X(t1)=w1,X(t2)=w2,…,X(tn)=
wn隨機變量X按時間順序t1,t2,...,tn在C中取值的過程可以看作是一個隨機過程(Stochasticprocess)。進而視為或者假設(shè)為一個馬爾科夫過程(Markovprocess),或者說馬爾科夫鏈(Markovchain)。于是,有P(w1)P(w2
w1)P(w3
w1,w2)…P(wn
w1,w2,...,wn-1)=
P(w1)P(w2
w1)P(w3
w2)…P(wn
wn-1)于是,(7-15)式就可以簡化為
P(w1,w2,...,wn)=P(w1)P(w2
w1)P(w3
w2)…P(wn
wn-1)(7-16)
由條件概率的定義,
公式(7-16)也就是語句S的一種數(shù)學模型,即統(tǒng)計語言模型(StatisticalLanguageModel)。更準確地講,公式(7-16)所表示的統(tǒng)計語言模型稱為二元文法模型(BigramModel)。除了二元模型外,按條件概率中的變量個數(shù),還有三元、四元、...、N元模型。
7.3.4神經(jīng)語言模型1.詞元與編碼分詞,將一個句子切分成一個個具有獨立語義的稱為詞元(token)的語言符號片段,作為后續(xù)處理的基本單位。詞元主要是單詞或子詞(一個詞的組成部分),也包括其他字符,如標點符號、數(shù)學符號、化學符號、表意符號等等。1)one-hot(獨熱或單熱)編碼
設(shè)有詞元表(亦稱詞表或詞典)V={w1,w2,...,w
V
},wi。one-hot編碼就是將V中第i個詞元wi表示為第i個分量為1而其余分量皆為0的一個
V
維向量:(0…,0,1,0,…0)
這意味著詞元wi的one-hot編碼向量(記為oi)的維數(shù)等于相應詞表V的長度
V
。原詞表V也就被編碼為一個
V
V
矩陣。這些one-hot碼向量也就是
V
維實向量空間R
V
的一個
V
維子空間:R(0-1)
{(1,0,…,0),(0,1,0,…,0),(0,0,1,0,…,0),…,(0,0,…,0,1)}2)詞嵌入編碼
可把一個one-hot碼向量看作一個1
V
矩陣,然后與詞向量表所形成的
V
m矩陣做矩陣乘法運算,那么由one-hot碼向量的特點,所得結(jié)果恰好就是相應詞元的m維詞向量。還需指出,詞向量又分為靜態(tài)詞向量和動態(tài)詞向量。靜態(tài)詞向量就是固定不變的詞向量,而動態(tài)詞向量則是可以隨上下文的變化而變化的詞向量。顯然,后者能更好地適應一詞多義的情形。詞向量又分為靜態(tài)詞向量和動態(tài)詞向量。靜態(tài)詞向量就是固定不變的詞向量,而動態(tài)詞向量則是可以隨上下文的變化而變化的詞向量。
獲得詞向量的方法仍然是基于神經(jīng)網(wǎng)絡(luò)的機器學習。簡單來講,就是將詞向量的分量作為神經(jīng)網(wǎng)絡(luò)的權(quán)重,從而整個詞向量表就是一個權(quán)矩陣,然后利用相關(guān)語料來訓練該神經(jīng)網(wǎng)絡(luò),從而得到相應的詞向量。這樣,一個m維的詞向量就含有m個網(wǎng)絡(luò)模型參數(shù),而整個詞向量表就含有
V
m個參數(shù)。具體實現(xiàn)時,可以與相應的語言模型集成在一起進行訓練,也可以獨立訓練。在這方面,研究者們已提出了許多模型和算法,并做成學習軟件。著名的靜態(tài)詞向量學習軟件有Word2Vec、GloVe、FastText等。2.前饋神經(jīng)網(wǎng)絡(luò)語言模型1)網(wǎng)絡(luò)結(jié)構(gòu)與數(shù)據(jù)流程輸入層下面小方塊表示所求詞元wt前面依次相鄰的n
1個詞元wt?n+1,…,wt?2,wt?1的one-hot編碼向量ot?n+1,…,
ot?2,
ot?1。輸入層由n
1組神經(jīng)元組成,自左向右依次對應m維詞向量C(wt?n+1)、…、C(wt?2)、C(wt?1);這些詞向量就是相應詞元的one-hot編碼向量所對應的詞向量,這時它們實際上已被拼接成了一個m
(n
1)維向量x了。詞向量C(wi)可由詞元wi的one-hot編碼向量oi與一個由全體詞向量所組成的
V
m矩陣(記為黑體C)相乘而得,即C(wi)=
oiC(但圖中采用了索引方法)。隱層由若干神經(jīng)元組成。輸出層共有
V
個節(jié)點,輸出向量為一個與下面的one-hot編碼向量同維的實數(shù)向量。輸出向量再經(jīng)softmax函數(shù)做歸一化變換后才是最終輸出:i-thoutput=P(wt=i
context),i=1,2,…,
V
,即詞表V中各單詞在上下文wt?n+1,…,wt?2,wt?1條件下是所求單詞wt的概率分布。設(shè)網(wǎng)絡(luò)輸出向量y=(y1,y2,…,
y
V
),則最終輸出為說明:(1)輸入層也可以另外直接與輸出層連接(如圖中的虛線箭頭所示),也可以不連接。(2)由于最終的輸出向量的各分量值都在[0,1]區(qū)間且它們之和為1,所以該輸出向量恰好是個概率分布,即表示詞表V中各相應位置上的詞元是所求單詞wt的概率。于是,對于學成的網(wǎng)絡(luò),如果其輸出向量中第k個分量值最大,則一般來說相應的單詞wk可為所求。(3)詞特征向量是為解決one-hot編碼向量的維數(shù)太高而且沒有體現(xiàn)單詞之間的語義相關(guān)性以及數(shù)據(jù)稀疏問題等而引入,此方法后來被稱為詞嵌入技術(shù)。(4)矩陣C的列數(shù)m遠小于詞表的長度
V
,C的初值可隨機取,然后在網(wǎng)絡(luò)訓練過程中進行動態(tài)調(diào)整。延伸學習導引關(guān)于模式識別的延伸學習的有以下內(nèi)容和方向可供參考。
文獻[3]中的第13章。
統(tǒng)計模式識別與統(tǒng)計學習關(guān)系密切,在分類問題上二者幾乎是一回事。所以,統(tǒng)計學習中關(guān)于分類的學習模型和算法也就是統(tǒng)計模式識別的學習模型和算法,而且相應的延伸學習內(nèi)容在這里也是適用的。
除了統(tǒng)計模式識別方法外,基于神經(jīng)網(wǎng)絡(luò)的模式識別技術(shù)在深度學習的推動下目前正方興未艾,而且應該說已經(jīng)走在了統(tǒng)計模式識別的前面。所以,在本章的基礎(chǔ)上,可進一步學習神經(jīng)網(wǎng)絡(luò)模式識別的初步知識。
結(jié)構(gòu)模式識別也是模式識別的重要分支,所以,可在本章概述的基礎(chǔ)上進一步學習結(jié)構(gòu)模式識別。
圖像識別、語音識別等是模式識別的重要和主要應用領(lǐng)域。所以,在本章及前面機器學習知識的基礎(chǔ)上,可開始考慮圖像識別和語音識別等方面的課題。但要用模式識別技術(shù)解決圖像和語音方面的問題,首先得了解學習圖像、語音等的模式表示原理和方法,這就還需要了解計算機圖形學,計算機視覺等方面的知識。
關(guān)于自然語言處理延伸學習的內(nèi)容和方向可供參考。
文獻[3]中的第15章。
要做好自然語言處理,應具備語言學特別是計算語言學方面的基本知識。
語言文字和文本的形式化或量化表示、語料庫、分詞、詞性標注等技術(shù)是自然語言處理的前提和基礎(chǔ),需要繼續(xù)學習。
建立了統(tǒng)計語言模型后,還涉及模型訓練問題,語料選取問題,這方面的至少還需延伸學習。
在神經(jīng)網(wǎng)絡(luò)技術(shù)方面,在深度學習的基礎(chǔ)上,需進一步學習、掌握循環(huán)網(wǎng)絡(luò)、遞歸網(wǎng)絡(luò)和長短時記憶等網(wǎng)絡(luò)模型的原理和應用技術(shù)。第8章大語言模型多模態(tài)大模型和生成式人工智能
8.1大語言模型
8.2多模態(tài)大模型
8.3生成式人工智能
8.4大模型與生成式AI的性能、應用、
問題與對策
8.5當前趨勢及其他思路和范式
延伸學習導引
8.1大語言模型
8.1.1
大語言模型概述1.什么是大語言模型?
大規(guī)模神經(jīng)語言模型(LargeLanguegeModel,LLM)
由基本網(wǎng)絡(luò)模型搭建而成
百億以上的參數(shù)量2.為什么要建大語言模型?
ScalingLaw
(擴展或縮放法則):模型規(guī)模的擴展(增加模型的參數(shù))或數(shù)據(jù)規(guī)模的加大,往往會使模型的性能得到顯著提升,進而也使模型在下游任務中表現(xiàn)更佳。3.
大語言模型發(fā)展概況2014年,GoogleBrain的llya
Sutskever團隊和
Yoshua
Bengio
團隊各自獨立提出了Seq2Seq(SequencetoSequence)網(wǎng)絡(luò)模型架構(gòu),該架構(gòu)由編碼器和解碼器兩部分組成,并引入了注意力機制。2017年6月,Google的Vaswani
等受Seq2Seq的啟發(fā),進一步提出了稱為Transformer的模型架構(gòu)。Transformer的出現(xiàn),給大語言模型的研發(fā)奠定了基礎(chǔ),開辟了道路。從此,大語言模型的研發(fā)正式起步。2018年3月,華盛頓大學提出了語言模型ELMo(EmbeddingfromLanguageModels),其中提出了預訓練、微調(diào)和動態(tài)詞嵌入的思想和技術(shù)。2018年6月,OpenAI
推出了一款基于Transformer的生成式預訓練語言模型GPT-1。2018年10月,Google的JacobDevlin等推出了一款基于Transformer的雙向編碼語言模型BERT。2019年10月,Google發(fā)布并開源了參數(shù)為110億的T5(Text-to-TextTransferTransformer)模型??梢哉f,參數(shù)規(guī)模突破百億大關(guān)的T5標志著大語言模型的誕生。從此,大語言模型的研發(fā)便拉開了序幕。2019年10月,F(xiàn)acebook
的MikeLewis等推出了一款基于Transformer的語言模型BART。2020年5月,OpenAI
推出了參數(shù)為1750億的GPT-3。隨后又是兼有編程能力的GPT-3.5。2021年4月,華為推出了PanGu-
(盤古的一個版本)。2021年7月,百度推出了Ernie3.0(文心一言的基座模型)。2022年,OpenAI
的Ouyang
等提出了“有監(jiān)督學習+強化學習”的InstructGPT。2022年4月,Google推出了參數(shù)為5400億的PaLM。2022年11月30日,OpenAI
在網(wǎng)上發(fā)布了聊天機器人ChatGPT,轟動業(yè)界,震驚全球。從此,“大語言模型”、“AI”便家喻戶曉,一個新的AI研發(fā)熱潮在全球范圍內(nèi)如火如荼地展開了。2023年2月,Googel發(fā)布了聊天機器人Bard。2023年3月,OpenAI發(fā)布了有多模態(tài)處理能力的GPT-4。2023年3月,Anthropic發(fā)布了有多模態(tài)處理能力的大語言模型Claude。2023年7月,Meta發(fā)布并開源了大語言模型LLaMA-2。2024年2月,OpenAI發(fā)布了文生視頻大模型Sora。2024年2月Google推出了MoE架構(gòu)的新型多模態(tài)大模型Gemini。2024年9月,OpenAI
發(fā)布了o1推理模型系列。12月又發(fā)布了GPT-4.5。2025年1月Google提出了一種可望繼任Transformer的新型架構(gòu)Titans.2025年1月20日,深度求索推出了低成本、高性能的DeepSeek-R1,震驚世界。國內(nèi)的大模型有百度的文心一言(已改名為“文小言”)、華為的盤古、字節(jié)跳動的豆包、科大訊飛的星火、智譜的ChatGLM、阿里的通義天問、騰訊的混元、…等等,還有中科院和不少高等院校(如清華、復旦、北航)也都紛紛推出了各自己的大語言模型。
從任務處理能力來看,早期的語言模型主要面向自然語言的建模和生成任務,而大語言模型則擴展到更廣泛、更復雜任務的求解。統(tǒng)計語言模型主要被用于(或輔助用于)解決一些語言處理任務,如信息檢索、文本分類、語音識別、翻譯等。神經(jīng)語言模型專注于學習任務無關(guān)的語義表征。預訓練語言模型加強了語義表征的上下文感知能力,并且可以針對下游任務進行微調(diào),能夠有效提升模型性能,擴展了語言模型的應用范圍,如問答、文本生成、代碼生成、數(shù)學解題等。隨著模型參數(shù)、訓練數(shù)據(jù)和算力的大規(guī)模擴展,最新一代大語言模型的一般任務和特定任務求解能力都有了顯著提升。
8.1.2大語言模型的技術(shù)脈絡(luò)在循環(huán)網(wǎng)絡(luò)語言模型和長短期記憶網(wǎng)絡(luò)及門控單元語言模型的基礎(chǔ)上,引入了注意力機制,而開發(fā)出Seq2Seq這種由編碼器和解碼器組成的組合式網(wǎng)絡(luò)語言模型(架構(gòu));在前饋網(wǎng)絡(luò)語言模型的基礎(chǔ)上,又引入了位置編碼、并行計算和多頭自注意力機制,并參照了Seq2Seq模式,而推出了Transformer這種變換器網(wǎng)絡(luò)語言模型(架構(gòu));在Transformer的基礎(chǔ)上,僅采用其編碼器部分,并引入自編碼、雙向編碼、段嵌入、預訓練和數(shù)據(jù)微調(diào)等機制和措施,而得到了面向自然語言理解任務的大語言模型BERT;在Transformer的基礎(chǔ)上,僅采用其解碼器部分,并引入自回歸解碼、生成式預訓練和數(shù)據(jù)微調(diào)等機制和措施,而得到了面向自然語言生成任務的大語言模型GPT-1、-2等初級版;在Transformer的基礎(chǔ)上,采用完全的編碼器和解碼器架構(gòu),用自回歸解碼模型,文本破壞等機制而實現(xiàn)了用于分類、理解、翻譯等任務的BART模型。在Transformer的基礎(chǔ)上,采用完全的編碼器和解碼器架構(gòu),再增添雙向編碼、texttotext和任務聲明前綴等機制,實現(xiàn)了可用于各種自然語言處理任務的T5模型;ELMo
似乎是一枝獨秀,它實際是第二代預訓練語言模型的重要代表。Word2Vec這個詞嵌入工具則是最早采用了類似預訓練的方法,它亦功不可沒。圖中最高層為至2025年初名列前茅的多模態(tài)大模型。所采用的技術(shù)有多模態(tài)、MoE架構(gòu)、數(shù)據(jù)生成、RAG、輕量化、思維鏈等。在預訓練語言模型時代,自然語言處理領(lǐng)域廣泛采用了預訓練+微調(diào)的范式,并誕生了以BERT為代表的編碼器(Encoder-only)架構(gòu)、以GPT為代表的解碼器(Decoder-only)架構(gòu)和以T5和BART為代表的編碼器-解碼器(Encoder-decoder)架構(gòu)的大規(guī)模預訓練語言模型。隨著GPT系列模型的成功發(fā)展,當前自然語言處理領(lǐng)域走向了生成式大語言模型的道路,解碼器架構(gòu)已經(jīng)成為了目前大語言模型的主流架構(gòu)。語言大模型的擴展則是多模態(tài)大模型,其當前的流行架構(gòu)為MoE架構(gòu)。8.1.3Transformer簡介
1.體系結(jié)構(gòu)和數(shù)據(jù)流程跨層加和歸一化跨層相加實際上是實現(xiàn)了一種殘差連接(ResidualConnection),即直接將相應前層模塊的輸入連接到其輸出,以避免在訓練過程中產(chǎn)生梯度爆炸和消失問題。而歸一化則是對數(shù)據(jù)進行重新放縮,以提高訓練的穩(wěn)定性,使相應層的輸入和輸出保持在一個合理的范圍內(nèi)。前饋網(wǎng)絡(luò)模塊前饋網(wǎng)絡(luò)模塊由兩層全連接網(wǎng)絡(luò)組成,其對下面歸一化層的輸出做非線性變換,以學習復雜的關(guān)系和特征。這一非線性變換可抽象地表示為y=FFN(x)=
(W1x
+b1)W2
+b2
(8-4)其中W1
和W2分別是第一層和第二層的線性變換權(quán)重矩陣,b1′和b2是偏置項,
是激活函數(shù)(如采用ReLU函數(shù))。交叉注意力就是解碼器同時接收來自編碼器的輸出和解碼器前端模塊的輸出,綜合計算后將結(jié)果向后傳輸。掩碼多頭注意力就是在計算注意力時,遮蔽當前位置之后的詞元信息,使其不參加注意力的相關(guān)計算。這樣做是為了后面的生成目標序列僅依賴當前詞元及前面詞元的信息而不依賴后面詞元的信息。掩碼多頭自注意力機制實際上是為預訓練設(shè)計的。因為預訓練時是用真實的句子(詞元序列)通過一步步遮蔽后面的詞元而讓機器預測下一個詞元的方式來訓練網(wǎng)絡(luò)、優(yōu)化模型參數(shù)的。Outputs和OutputEmbeddingOutputs是指上一時刻解碼器輸出的詞元序列,箭頭的意思是將這個詞元序列從此處輸入;箭頭上面的OutputEmbedding則是指將Outputs變換為詞向量序列,然后送入上面的掩碼多頭自注意力模塊。另外,對于翻譯任務,訓練時則要采用“教師強制(teacherforcing)”方法,將正確答案(即譯文)從這里輸入,以供計算模型預測結(jié)果與真實文本的損失。
3.運行過程Transformer的訓練過程大體是:首先將預訓練用的詞元序列輸入編碼器,對編碼器進行預訓練。編碼器訓練完成后,給編碼器輸入實際序列數(shù)據(jù),將其編碼后傳給解碼器,并將相應的原序列數(shù)據(jù)也輸入解碼器,然后以迭代的方式對解碼器進行解碼預訓練。由解碼器的結(jié)構(gòu)可以看出,掩碼自注意力機制和Outputs的設(shè)計已提供了以迭代方式進行解碼的條件。對于已經(jīng)預訓練好的Transformer,其運行過程則大體是:首先將實際詞元序列輸入編碼器對其進行編碼,接著將相應編碼傳給解碼器,解碼器仍然以迭代方式進行解碼,而生成相應的輸出文本。
4.基于Transformer的大語言模型分類從架構(gòu)看,基于Transformer的大語言模型可分為僅采用編碼器,僅采用解碼器,和采用完整的Transformer架構(gòu)等三大類?;赥ransformer的大語言模型又被分為自編碼模型(auto-encodingmodel,AE)、自回歸模型(autoregressivemodel,AR)和自編碼-自回歸模型三大類別。
8.1.4大語言模型開發(fā)與構(gòu)建
1.模型設(shè)計與實現(xiàn)模型設(shè)計階段,首先要根據(jù)模型的任務目標設(shè)計模型的基本架構(gòu);然后再根據(jù)具體任務做進一步調(diào)整和完善來搭建相應的大語言模型。大模型編程語言特點是:支持并行處理、能處理大規(guī)模數(shù)據(jù)、強大的計算能力、可擴展等。當前的流行做法是選用能調(diào)用相關(guān)程序庫的編程語言,以簡單的編程來實現(xiàn)模型。例如,可用Python、C++、R、JavaJulia等語言。至于程序庫,著名有TensorFlow、PyTorch等。這些將在后面的11.4節(jié)介紹。在這里我們再推薦HuggingFace、GitHub、NLTK、Keras和飛槳等幾款開發(fā)平臺。2.數(shù)據(jù)準備事先采集和收集大量的相關(guān)文本資料。這些文本資料包括普通書籍、大眾報刊、資訊網(wǎng)頁、問答網(wǎng)站、百科全書等等,內(nèi)容十分廣泛,涉及天文地理、人文歷史、文化藝術(shù)、科技教育、醫(yī)療衛(wèi)生、體育軍事、風土人情、宗教信仰、農(nóng)林牧副漁、經(jīng)濟建設(shè)、……等等。但這些文本資料中難免存在冗余、瑕疵、疏漏、矛盾、錯誤甚至有毒有害的內(nèi)容。所以,對于收集到的文本資料還得進行一番檢查、甄別、整理、篩選等被稱為“數(shù)據(jù)清洗”的工作,以保證語言模型能在全面、正確、精練、安全、健康的高質(zhì)量數(shù)據(jù)環(huán)境中學習、訓練和“成長”。目前比較著名的大型和超大型開源數(shù)據(jù)集有:Pile、ROOTS、RefinedWeb、SlimPajama等。3.無監(jiān)督預訓練預訓練是對語言模型所進行的第一階段訓練。預訓練需要內(nèi)容廣泛的海量文本語料,一般采用無監(jiān)督或自監(jiān)督學習方法,通過對眾多的模型參數(shù)進行優(yōu)化,而得到這些語料數(shù)據(jù)所蘊含的相關(guān)語言模式和語義關(guān)聯(lián)的一個“雛形”或“基準”。由于數(shù)據(jù)規(guī)模巨大(千億甚至萬億級詞匯量),模型參數(shù)超多(百億、千億甚至萬億級參數(shù)量),而且是深度學習,因此對硬件資源要求特別高。預訓練需配置具有數(shù)千甚至數(shù)萬塊高性能GPU的分布式并行計算機系統(tǒng)和高速網(wǎng)絡(luò)系統(tǒng),而且往往要連續(xù)運行達數(shù)十天之久。例如,GPT-4就用了2.5萬個A100GPU,訓練了兩個月,花費6300萬美元。4.有監(jiān)督微調(diào)數(shù)據(jù)微調(diào)一般是針對有些特殊專業(yè)領(lǐng)域或任務(如數(shù)學和編程),組織一批相應的有標注數(shù)據(jù),然后用有監(jiān)督學習方法對預訓練模型的局部參數(shù)進行微調(diào),以優(yōu)化模型的相關(guān)性能。也有先給原模型增加新的網(wǎng)絡(luò)模塊,然后僅對新模塊進行有監(jiān)督訓練的微調(diào)方法。指令微調(diào)(instructionfinetuning)亦稱有監(jiān)督微調(diào)或多任務提示訓練,其做法是,給具有某種對應關(guān)系的數(shù)據(jù)前添加一個稱為“指令”的任務描述,然后用有監(jiān)督學習方法,對預訓練后的模型進行參數(shù)微調(diào),以進一步優(yōu)化模型。這些可配對數(shù)據(jù)包括問題和相應的答案、原文和相應的譯文、原因和相應的結(jié)果、輸入和相應的輸出、……等等。例如,指令:請回答這個問題。
問題:西岳指的是哪座山?
答案:華山。指令:請把這個中文成語翻譯為英文。
原文:學無止境
譯文:Learninghasnoend.就是兩條指令微調(diào)的格式化數(shù)據(jù)。
5.人類對齊學習將大語言模型與人類的期望、需求以及價值觀保持一致,亦即對齊。為此,研究者們提出了兩種方法:有人類反饋的強化學習(ReinforcementLearningfromHumanFeedback,RLHF)和直接偏好優(yōu)化(DirectPreferenceOptimization,DPO)。就是說,在有監(jiān)督微調(diào)的基礎(chǔ)上,讓模型再進行面向真實用戶的學習,即進行與人類對齊的學習,以便使模型更符合用戶的偏好、要求和習慣。要進行RLHF,一般還得先建立一個稱為獎勵模型(rewardmodel)。
6.提示學習(promptinglearning)與提示工程1)基礎(chǔ)提示知識問答的任務描述:請使用所提供的以三個井號(###)分隔的文章回答問題。如果在文章中找不到答案,請回答“無法找到答案?!贝a補全的任務描述:你是一名程序員。給你一個代碼片段,你的目標是完成這段代碼,確保它能實現(xiàn)描述的功能。對話推薦的任務描述:推薦10個符合用戶偏好的商品。推薦列表可以包含對話框之前提到的商品。推薦列表的格式為:商品ID標題(年份)。請勿在推薦列表中提及商品標題以外的任何內(nèi)容。
2)上下文學習(In-ContextLearning,ICL)上下文學習是在不改變或者基本不改變模型結(jié)構(gòu)和參數(shù)值的情況下,僅通過給出自然語言提示(任務描述)和若個示例,來預估新情況的結(jié)果??聪旅娴睦?。任務描述:回答下面的問題。示例:
問題:如果你有12張卡片,給了朋友4張,你還剩幾張?答案:8。問題:如果一個長方形的長是6cm,寬4cm,這個長方形的周長是多少?答案:20cm?;谏厦娴娜蝿彰枋龊褪纠瑢τ谠儐枺盒∶饔?2張卡片,他將其中的1/4給了妹妹。小明自己還剩多少?模型回答:9。3)思維鏈(CoT)提示思維鏈提示是上下文學習的一種擴展形式,它將原始的?輸入,輸出?映射關(guān)系轉(zhuǎn)換為?輸入,思維鏈,輸出?這一三元組形式,進一步融合了中間的思維鏈來指導從輸入到輸出的推理過程。在這個結(jié)構(gòu)中,思維鏈扮演著重要的角色,它提供了一系列語義連貫且具有邏輯性的中間步驟,有效地建立起輸入與輸出之間的橋接關(guān)系。在思維鏈提示的作用下,大語言模型可以根據(jù)輸入生成對應的思維鏈(推理步驟)及答案。舉例:任務描述:回答下面的問題。示例:問題:如果一個長方形的長是6cm,寬4cm,這個長方形的周長是多少?答案:對于一個長方形,將其長加上寬再乘以2即為周長。所以,這個長方形的周長是(6+4)
2=20cm。答案是20cm?;陬愃七@樣的思維鏈提示,對于詢問:小明有12張卡片,他將其中的1/4給了妹妹。小明自己還剩多少?模型回答:他給出去了12
(1/4)=3張卡片,所以,小明還剩12
3=9張卡片。答案是9。
7.DeepSeek的后訓練新途徑2025年1月20日,深度求索發(fā)布了長于推理的大語言模型DeepSeek-R1-Zero和DeepSeek-R1。這兩個模型在后訓練階段,沒有墨守從SFT到RLHT的成規(guī),而是探索了新的途徑和技術(shù)。R1-Zero采用
純強化學習。R1采用兩個階段的SFT+RL模式進行訓練,前一階段是基于R1-Zero生成的稱為冷啟動數(shù)據(jù)的SFT和基于準確性、格式和一致性獎勵的面向推理的強化學習;后一階段用前一階段生成的CoT數(shù)據(jù)和
DeepSeek-V3創(chuàng)建的知識性數(shù)據(jù)進行SFT,然后又進行面向全場景任務的強化學習,強化學習使用了群組相對策略優(yōu)化算法。這些新技術(shù)極大地提升了模型的推理能力,使得其在數(shù)學、代碼和推理任務上可與OpenAIo1媲美。
8.大語言模型構(gòu)建路線圖示8.2多模態(tài)大模型
在大語言模型的基礎(chǔ)上,或者說以大語言模型為核心,構(gòu)建兼有文本、視頻、音頻等多種模態(tài)信息的大型神經(jīng)網(wǎng)絡(luò)模型,并稱其為多模態(tài)大語言模型(MultimodalLargeLanguageModel,MLLM),或多模態(tài)大模型(MLM)。
8.2.1多模態(tài)大模型的架構(gòu)與運作
多模態(tài)大模型的處理任務:圖文檢索(Image-TextRetrieval)即圖像到文本的檢索和文本到圖像的檢索。圖像描述(ImageCaptioning)即根據(jù)所給圖像生成相應的描述文本。視覺問答(VisualQuestionAnswering)即回答與所給圖像相關(guān)的問題。視覺推理(VisualReasoning)即根據(jù)所給圖像進行邏輯推理。圖像生成(ImageGenerating)即根據(jù)文本描述生成相應圖像。
8.2.2多模態(tài)大模型的訓練
1.視覺-語言對齊預訓練
就是使圖像與相應的文本一致起來。方法是通過大量的“圖像-文本”對進行端到端訓練,而使兩種不同的語義空間對齊。現(xiàn)已摸索到一些經(jīng)驗性的訓練策略,如:①如果圖文對數(shù)量不足夠大,通常只更新線性層;②如果訓練數(shù)據(jù)規(guī)模相對較大,可以微調(diào)大語言模型以提升性能;③如果圖文對的數(shù)量非常大,可以進一步微調(diào)視覺編碼器。2.視覺指令微調(diào)微調(diào)的輸入包括一張圖像和一段任務描述文本,輸出是對應的文本回復??梢詫D像自帶的描述文本輸入給大語言模型,通過特定的提示來引導大語言模型自動合成視覺指令;或者基于已有的視覺-語言任務數(shù)據(jù)集,利用特定的問題模板將原有任務數(shù)據(jù)轉(zhuǎn)化為視覺指令。
8.2.3多模態(tài)大模型的發(fā)展概況形勢是已有大語言模型紛紛擴展視覺、音頻等多模態(tài)處理能力,而原視覺、音頻等大模型則紛紛向語言模型靠攏。當然,也有從頭設(shè)計、實現(xiàn)的多模態(tài)大模型。于是,多模態(tài)大模型如雨后春筍。例如,OpenAI的GPT-4、谷歌的GeminiProVision、Meta的LLaMA-3、阿里的Qwen-VL-Plus、Anthropic的Claude-3VSonnet等。還有諸如XVERSE-V、面壁智能的OmniLMM-12B、深度求索的DeepSeek-VL-7B、NEXT-GPT、DreamLLM、蘋果的Ferret-UI、商湯的日日新5.5、…等等不勝枚舉。從技術(shù)角度看,當前多模態(tài)大模型的主要研究內(nèi)容有:基本架構(gòu)、多模態(tài)指令調(diào)優(yōu)(M-IT)、多模態(tài)上下文學習(M-ICL)、多模態(tài)思維鏈(M-CoT)和LLM輔助視覺推理(LAVR)。在架構(gòu)方面,MoE架構(gòu)最引人注目,已成為大模型的一個研發(fā)熱點甚至發(fā)展方向。
8.3生成式人工智能
8.3.1
生成式AI發(fā)展概況2013年,提出了變分自編碼器的深度神經(jīng)網(wǎng)絡(luò)模型,可用于圖像和文本生成。2021年1月,OpenAI
將VAE引入其DALL-E中。之后同年5月清華推出了支持中文生成圖像的CogView;11月微軟和北大推出了NUWA(女媧),可以生成圖像和短視頻。2014年6月,一種稱為生成式對抗網(wǎng)絡(luò)(GAN)的神經(jīng)網(wǎng)絡(luò)模型被提出。該模型所生成的人、物、風景等圖像栩栩如生,可以假亂真,震驚了世界!很快GAN便成了人工智能的一個熱點。
2015年,非平衡熱力學中基于費克定律的擴散模型(DiffusionModel)引入AI,在ICML上首次提出了擴散概率模型(也簡稱擴散模型)。2021年1月,OpenAI
在其圖像生成系統(tǒng)DALL-E2中采用改進的擴散模型DDPM。12月OpenAI又推出了GLIDE模型。12月百度推出了ERNIE-ViLG模型。2022年4月,OpenAI推出了DALL-E2;同月清華推出了CogView2;5月清華又推出CogVideo。谷歌在五月推出了Imggen,6月又推出了新一代AI繪畫大師Parti。文本生成典型代表就是ChatGPT。從循環(huán)網(wǎng)絡(luò)RNN、LSTM和GRU到序列處理模型Seq2Seq、Transformer,這些模型中的解碼器都有文本生成能力,而到了GPT系列以及T5系列等,其文本生成能力已從基本的單詞預測、文本補全發(fā)展到直接生成短語、句子甚至整個段落。到了多模態(tài)大模型階段,則文本生成和圖像、視頻、音頻等的生成便融合為一體了。文與圖、文與視頻等可以互相生成。2024年2月,OpenAI推出的Sora則將視頻生成推向新的高度。這樣一來,這些生成式網(wǎng)絡(luò)模型和算法就構(gòu)成了一種生成技術(shù)(generativetechnology,GT),其也被稱為AIGC(artificialintelligencegeneratedcontent,直譯為:人工智能生成內(nèi)容)技術(shù),也正是這些生成技術(shù)給人工智能注入了新的活力?,F(xiàn)在,大語言模型、大視覺模型和多模態(tài)大模型中都有生成技術(shù)的支撐;反過來,那些具有生成功能的神經(jīng)網(wǎng)絡(luò)模型也就是一種生成模型(generativemodel)。正是在這樣的情勢下,一個稱為生成式人工智能(GenAI)的新術(shù)語、新方向便應運而生。時至今日,生成技術(shù)已是人工智能研究的重要領(lǐng)域,其成果頗豐,而且仍然在日新月異地發(fā)展著。
8.3.2生成模型的類型按生成的內(nèi)容劃分,生成模型可以分為圖像生成模型和文本生成模型。圖像生成模型目前主要有四個流派:對抗生成網(wǎng)絡(luò)(GAN)、變分自編碼器(VAE)、標準化流模型(NormalizationFlow,NF)和擴散模型(DM)。此外,還有啟發(fā)于電動力學的“泊松流”生成模型PFGM(“PoissonFlow”GenerativeModel),以及Autoregressivemodel和Energy-basedmodel等。
GAN包括兩部分:一個生成器,一個判別器。生成器根據(jù)輸入的自然語言描述生成相應的圖像,判別器則試圖區(qū)分生成的圖像與真實的圖像。生成器不斷優(yōu)化自己,以產(chǎn)生更逼真精確的圖像,判別器也不斷學習如何更好地鑒別圖像的真?zhèn)巍?/p>
VAE是一個編碼器-解碼器架構(gòu),編碼器將輸入圖像編碼成特征向量,用來學習高斯分布的均值和方差,而解碼器則可以將特征向量轉(zhuǎn)化為生成圖像,它側(cè)重于學習生成能力。
NF是從一系列簡單的分布開始,通過一系列可逆的轉(zhuǎn)換函數(shù)將分布轉(zhuǎn)化成目標分布。
DM先通過正向過程將噪聲逐漸加入到已知圖像數(shù)據(jù)中,然后通過反向過程估計每一步加入的噪聲,再將噪聲去掉,逐漸還原而得到無噪聲的、新的圖像數(shù)據(jù)。8.4
大模型與生成式AI的應用、性能、問題與對策
1.應用
可應用于多種業(yè)務、任務以及日常生活中。比如用于問答聊天、信息咨詢、資料查閱與整理、文稿起草、資料翻譯、圖文處理、廣告設(shè)計、輔助編程、輔助教學、文藝創(chuàng)作、情感分析、智能代理、數(shù)據(jù)生成、人機接口、多媒體(圖像、視頻、音頻)處理等等。2.問題及對策
“幻覺”問題,能力和水平受限于訓練數(shù)據(jù),運行過程不夠透明,解釋性差,以及對相關(guān)資源要求過高,構(gòu)建成本過高等問題。針對大模型的現(xiàn)狀,研究者們一方面進行深入的理論分析。如有學者從大模型的解釋性著眼,并擬以此為突破口進一步探討大模型的運行機理。另一方面又不斷進行技術(shù)改進。例如,利用外部工具(如計算器)、搜索引擎、插件、API等來提高工作質(zhì)量和能力范圍。又如,將大模型與知識圖譜、Agent、Web等技術(shù)相結(jié)合。再如,引入專家混合(MoE)架構(gòu)等。這些舉措也是近年來的一些技術(shù)突破和熱門方向。另外,還有一個稱為檢索增強生成(Retrieval-AugmentedGeneration,RAG)的技術(shù)創(chuàng)新值得一提。RAG就是建立一個外部數(shù)據(jù)庫,為大模型不斷提供
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 區(qū)域教育協(xié)同發(fā)展視角下人工智能與小學跨學科教學融合實踐研究教學研究課題報告
- 3D打印模型在基層醫(yī)院手術(shù)的推廣策略
- 2025年合肥市檔案館公開招聘政府購買服務崗位人員備考題庫完整參考答案詳解
- 中智科技集團2025年招聘備考題庫及1套參考答案詳解
- 2型糖尿病的腸道菌群個體化干預策略
- 浙江省國貿(mào)集團2026校園招聘前錦網(wǎng)絡(luò)備考題庫技術(shù)(上海)有限公司含答案詳解
- 人工智能技術(shù)在小學語文教育故事中的應用與傳統(tǒng)文化傳承研究教學研究課題報告
- 2025年定西市安定區(qū)人工智能教育實踐基地招聘23人備考題庫有答案詳解
- 江蘇省泰興市部分高中學校2026年公開招聘高層次人才30人備考題庫及1套參考答案詳解
- 2025年勞務派遣人員招聘(派遣至浙江大學教育學院)備考題庫及一套答案詳解
- 四川省達州市達川中學2025-2026學年八年級上學期第二次月考數(shù)學試題(無答案)
- 2025陜西西安市工會系統(tǒng)開招聘工會社會工作者61人歷年題庫帶答案解析
- 江蘇省南京市秦淮區(qū)2024-2025學年九年級上學期期末物理試題
- 債轉(zhuǎn)股轉(zhuǎn)讓協(xié)議書
- 外賣平臺2025年商家協(xié)議
- (新教材)2026年人教版八年級下冊數(shù)學 24.4 數(shù)據(jù)的分組 課件
- 老年慢性病管理及康復護理
- 2025廣西自然資源職業(yè)技術(shù)學院下半年招聘工作人員150人(公共基礎(chǔ)知識)測試題帶答案解析
- 2026年海南經(jīng)貿(mào)職業(yè)技術(shù)學院單招(計算機)考試參考題庫及答案1套
- 國家開放大學《民法學(1)》案例練習參考答案
- 美容行業(yè)盈利分析
評論
0/150
提交評論