統(tǒng)計(jì)自然語(yǔ)言處理基本概念課件_第1頁(yè)
統(tǒng)計(jì)自然語(yǔ)言處理基本概念課件_第2頁(yè)
統(tǒng)計(jì)自然語(yǔ)言處理基本概念課件_第3頁(yè)
統(tǒng)計(jì)自然語(yǔ)言處理基本概念課件_第4頁(yè)
統(tǒng)計(jì)自然語(yǔ)言處理基本概念課件_第5頁(yè)
已閱讀5頁(yè),還剩163頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)自然語(yǔ)言處理基本概念統(tǒng)計(jì)自然語(yǔ)言處理基本概念1模型真實(shí)世界中的系統(tǒng)模型1InputOutput模型2Output1Output2如果Output1總是和Ouput接近,Output2總是和Output偏離,我們就認(rèn)為模型1比模型2好模型真實(shí)世界中模型1InputOutput模型2Output2

真實(shí)系統(tǒng)模型1模型2InputOutput真實(shí)系統(tǒng)模型1模型2InputOutput3模型由體系結(jié)構(gòu)和參數(shù)兩部分構(gòu)成舉例:住宅樓多層板樓高層板樓高層塔樓參數(shù)層數(shù):戶型:三室一廳,兩室一廳,……舉架高度:供熱方式:地?zé)??暖氣片?模型由體系結(jié)構(gòu)和參數(shù)兩部分構(gòu)成4目錄樣本空間(SampleSpace)估計(jì)器(Estimator)和隨機(jī)過程(StochasticProcess)信息論(InformationTheory)數(shù)據(jù)集分類(DataSetClassification)性能評(píng)價(jià)(PerformanceMeasure)目錄樣本空間(SampleSpace)5樣本空間

(SampleSpace)樣本空間

(SampleSpace)6試驗(yàn)(Experiment)試驗(yàn)一個(gè)可觀察結(jié)果的人工或自然的過程,其產(chǎn)生的結(jié)果可能不止一個(gè),且不能事先確定會(huì)產(chǎn)生什么結(jié)果例如連擲兩次硬幣樣本空間是一個(gè)試驗(yàn)的全部可能出現(xiàn)的結(jié)果的集合舉例連擲兩次硬幣={HH,HT,TH,TT},H:面朝上;T:面朝下試驗(yàn)(Experiment)試驗(yàn)7事件(Event)事件一個(gè)試驗(yàn)的一些可能結(jié)果的集合,是樣本空間的一個(gè)子集舉例:連擲兩次硬幣A:至少一次面朝上B:第二次面朝下A={HT,TH,HH},B={HT,TT}事件(Event)事件8事件的概率事件的概率重復(fù)m試驗(yàn),如果事件A出現(xiàn)的次數(shù)為n,則事件A的概率為P(A)=n/m,這稱為概率的頻率解釋,或稱統(tǒng)計(jì)解釋頻率的穩(wěn)定性又稱為經(jīng)驗(yàn)大數(shù)定理舉例:連擲兩次硬幣A:至少一次面朝上B:第二次面朝下P(A)=3/4,P(B)=1/2當(dāng)試驗(yàn)不能重復(fù)時(shí),概率失去其頻率解釋的含義,此時(shí)概率還有其他解釋:貝葉斯學(xué)派和信念學(xué)派一個(gè)人出生時(shí)的體重,一個(gè)人只能出生一次事件的概率事件的概率9舉例舉例10概率空間概率空間的三個(gè)公理P(A)0P()=1P(AB)=P(A)+P(B)ifAB=這三條公理也是概率的原始定義推論:P()=0;ABP(A)<P(B);P(ā)=1-P(A)不是所有0和1之間的值都是概率例如:|cos(x)|就不是概率概率空間概率空間的三個(gè)公理11概率空間圖示ABAB概率空間圖示ABAB12聯(lián)合事件A和B兩個(gè)事件的聯(lián)合概率就是A和B兩個(gè)事件同時(shí)出現(xiàn)的概率A和B的聯(lián)合概率表示為:P(A,B)或P(AB)舉例:連擲兩次硬幣事件A:第一次面朝上,A={HH,HT}事件B:第二次面朝下,B={HT,TT}聯(lián)合事件AB={HT}聯(lián)合事件A和B兩個(gè)事件的聯(lián)合概率就是A和B兩個(gè)事件同時(shí)出現(xiàn)的13條件概率在事件B發(fā)生的條件下事件A發(fā)生的概率P(A|B)=P(A,B)/P(B)P(A|B)=(c(A,B)/T)/(c(B)/T)=c(A,B)/c(B)c(A)代表事件A出現(xiàn)的次數(shù),c(B)同理T是試驗(yàn)總次數(shù)舉例:兩次擲硬幣問題事件A:第一次面朝上,A={HH,HT}事件B:第二次面朝下,B={HT,TT}AB={HT}P(A|B)=1/2條件概率可以被視為從另外一個(gè)樣本空間產(chǎn)生條件概率在事件B發(fā)生的條件下事件A發(fā)生的概率14概率的乘法原理P(A,B)=P(A|B)P(B)=P(B|A)P(A)ChainRuleP(A1,A2,…,An)=P(A1)P(A2|A1)P(A3|A1,A2)…P(An|A1,A2,…,An)舉例1:詞性標(biāo)注P(det,adj,n)=P(det)P(adj|det)P(n|det,adj)舉例2:計(jì)算一個(gè)句子的概率p(w1,w2,…,wn)=p(w1)p(w2|w1)……p(wn|w1…wn-1)概率的乘法原理P(A,B)=P(A|B)P(B)=P(B|15獨(dú)立和條件獨(dú)立獨(dú)立定義:P(A,B)=P(A)P(B)P(A|B)=P(A),P(B|A)=P(B)條件獨(dú)立定義:P(A,B|C)=P(A|B,C)P(B|C)=P(A|C)P(B|C)P(A|B,C)=P(A|C),P(B|A,C)=P(B|C)Na?veBaiysian:假定各特征之間條件獨(dú)立P(A1,A2,…,An|B)=i=1,…,nP(Ai|B)避免一個(gè)錯(cuò)誤:P(A|B,C)=P(A|B)P(A|C)獨(dú)立和條件獨(dú)立獨(dú)立16獨(dú)立和條件獨(dú)立獨(dú)立不意味著條件獨(dú)立舉例:色盲和血緣關(guān)系A(chǔ):甲是色盲B:乙是色盲C:甲和乙有血緣關(guān)系P(A,B)=P(A)P(B)P(A,B|C)P(A|C)P(B|C)條件獨(dú)立不意味著獨(dú)立P(肺癌,買雪茄|吸煙)=P(肺癌|吸煙)P(買雪茄|吸煙)P(肺癌,買雪茄)P(肺癌)P(買雪茄)獨(dú)立和條件獨(dú)立獨(dú)立不意味著條件獨(dú)立17Bayes’Rule根據(jù)乘法原理:P(A,B)=P(A)P(B|A)=P(B)P(A|B)得到貝葉斯原理:P(A|B)=P(A)P(B|A)/P(B)應(yīng)用1argmaxAP(A|B)=argmaxAP(A)P(B|A)/P(B)=argmaxAP(A)P(B|A)應(yīng)用2A1,A2,…,An是特征,B是結(jié)論P(yáng)(B|A1,A2,…,An)=P(A1,A2,…,An|B)P(B)/P(A1,A2,…,An)其中:P(A1,A2,…,An|B)=i=1,nP(Ai|B)Bayes’Rule根據(jù)乘法原理:18Bayes舉例應(yīng)用3英漢統(tǒng)計(jì)機(jī)器翻譯P(CW1,…,CWm|EW1,…,EWn)=P(EW1,…,EWn|CW1,…,CWm)P(CW1,…,CWm)/P(EW1,…,EWn)漢語(yǔ)句子CW1,…,CWm英語(yǔ)句子EW1,…,EWm翻譯模型:P(EW1,…,EWn|CW1,…,CWm)目標(biāo)語(yǔ)語(yǔ)言模型:P(CW1,…,CWm)Bayes舉例應(yīng)用319隨機(jī)變量(RandomVariable)隨機(jī)變量是一個(gè)函數(shù)X:R。是樣本空間,R是實(shí)數(shù)集合人們常常關(guān)心和樣本點(diǎn)有關(guān)的數(shù)量指標(biāo)數(shù)值也比事件更易于處理,舉例打靶的環(huán)數(shù)舉例:[X=0]={TT};[X=1]={TH,HT};[X=2]={HH}X是兩次擲硬幣面朝上的次數(shù)數(shù)值可以是連續(xù)值,也可以是離散值PX(x)=P(X=x)=dfP(Ax),Ax={a:X(a)=x},通常簡(jiǎn)寫作P(x)隨機(jī)變量(RandomVariable)隨機(jī)變量是一個(gè)函數(shù)20期望Expectation期望是隨機(jī)變量的均值E(X)=xX()xPX(x)(對(duì)于離散值)E(X)=RxP(x)dx(對(duì)于連續(xù)值)舉例:六面擲骰子問題:E(X)=3.511/6+21/6+31/6+41/6+51/6+61/6=3.5兩次六面擲骰子得到的點(diǎn)數(shù)和:E(X)=721/36+32/36+43/36+……=7方差(Variance)E((X-E(X))2)=xX()(x-E(X))2PX(x)(對(duì)于離散值)E((X-E(X))2)=R(x-E(X))2P(x)dx(對(duì)于連續(xù)值)王勵(lì)勤和王皓的期望接近,王勵(lì)勤的方差大期望Expectation期望是隨機(jī)變量的均值21概率分布多項(xiàng)式分布(MultinomialDistribution)P(n1,,nm)=n!/(n1!nm!)p1n1pmnmini=n,做n次試驗(yàn)輸出第i種結(jié)果的次數(shù)是ni,第i種結(jié)果出現(xiàn)的概率是pi二項(xiàng)式分布(BinomialDistribution)輸出:0或1做n次試驗(yàn)關(guān)心的是試驗(yàn)成功的次數(shù)的概率Pb(r|n)=Cnrpr(1-p)n-rCnr是從n個(gè)元素中任意取出r個(gè)元素的組合數(shù)p是成功的概率如果是等概率分布,則p=1/2,Pb(r|n)=Cnr/2n概率分布多項(xiàng)式分布(MultinomialDistribu22協(xié)方差和相關(guān)系數(shù)協(xié)方差(Covariance)Cxy=E[(X-E(X))(Y-E(Y))]相關(guān)系數(shù)(CorrelationCoefficient)xy=Cxy/(xy)x是隨機(jī)變量X的方差y是隨機(jī)變量Y的方差-11,>0正相關(guān),<0負(fù)相關(guān),=0不相關(guān)協(xié)方差和相關(guān)系數(shù)協(xié)方差(Covariance)23參數(shù)估計(jì)

ParameterEstimation參數(shù)估計(jì)

ParameterEstimation24參數(shù)估計(jì)研究對(duì)象的全體所構(gòu)成的集合成為總體(population)數(shù)理統(tǒng)計(jì)的任務(wù):已經(jīng)知道總體的一部分個(gè)體的指標(biāo)變量值,以此為出發(fā)點(diǎn)來推斷總體分布的性質(zhì)簡(jiǎn)單樣本(simplesample)是指這樣的樣本(X1,X2,…,Xn),它的分量Xi,i=1,…,n是獨(dú)立同分布的隨機(jī)變量(向量)參數(shù)估計(jì)研究對(duì)象的全體所構(gòu)成的集合成為總體(populati25估計(jì)器設(shè)(X1,X2,…,Xn)為一個(gè)樣本,它的一個(gè)與總體分布無(wú)關(guān)的函數(shù)(或向量函數(shù))f(X1,X2,…,Xn)稱為一個(gè)統(tǒng)計(jì)量(statistics)舉例:擲硬幣問題X:面朝上/面朝下T(X1,X2,…,Xn):面朝上的次數(shù)估計(jì)器(Estimator)根據(jù)樣本計(jì)算參數(shù)一個(gè)估計(jì)器是隨機(jī)變量的函數(shù),同時(shí)其自身也可以視為一個(gè)隨機(jī)變量估計(jì)器的準(zhǔn)確率依賴于采樣數(shù)據(jù)的大小估計(jì)器設(shè)(X1,X2,…,Xn)為一個(gè)樣本,它的一個(gè)與總體分26參數(shù)估計(jì)所有參數(shù)都是從一個(gè)有限的樣本集合中估計(jì)出來的一個(gè)好的估計(jì)器的標(biāo)準(zhǔn):無(wú)偏(unbias):期望等于真實(shí)值有效(efficient):方差小一致(consistent):估計(jì)的準(zhǔn)確性隨樣板數(shù)量的增加而提高一些常用的估計(jì)方法極大似然估計(jì)最小二成估計(jì)貝葉斯估計(jì)參數(shù)估計(jì)所有參數(shù)都是從一個(gè)有限的樣本集合中估計(jì)出來的27極大似然估計(jì)極大似然估計(jì)MaximumLikelihoodEstimation(MLE)選擇一組參數(shù),使似然函數(shù)L()達(dá)到最大L()=f(x1,x2,…,xn|)=i=1,nf(xi|)舉例:罐里有黑球和白球,比例3:1,今連續(xù)抽取兩球全為黑球,問罐里黑球多還是白球多?設(shè)黑球概率為p,抽取n次拿到x次黑球的概率符合二項(xiàng)分布:fn(x,p)=Cnxpx(1-p)n-x今抽取兩次全是黑球f2(2,p)=C22p2(1-p)0=p2若p=1/4,則f2(2,p)=1/16;若p=3/4,則f2(2,p)=9/16選擇概率大的:p=3/4,黑球多極大似然估計(jì)極大似然估計(jì)28隨機(jī)過程隨機(jī)過程(StochasticProcess)X(t),tTX是一組隨機(jī)變量T是過程的索引集合,例如時(shí)間或位置如果T是可數(shù)集,則X(t)是離散時(shí)間過程舉例:詞性標(biāo)注C(t),C是詞性,t是位置C(1)=noun,C(2)=verb,…,C(n)=pron隨機(jī)過程隨機(jī)過程(StochasticProcess)29馬爾可夫過程馬爾可夫過程,也稱馬爾可夫鏈MarcovChain離散時(shí)間,離散狀態(tài)無(wú)后效性:已知現(xiàn)在狀態(tài),則未來和過去無(wú)關(guān)P(Xn=xn|X1=x1,X2=x2,…,Xn-1=xn-1)=P(Xn=xn|Xn-1=xn-1)舉例:拼音輸入法一本[書](輸,淑,叔,舒,……)P(書|一,本)=P(書|本)馬爾可夫過程馬爾可夫過程,也稱馬爾可夫鏈30信息論信息論31信息控制論創(chuàng)始人(維納NorbertWiener)信息既不是物質(zhì)也不是能量,是人類在適應(yīng)外部世界時(shí)以及在感知外部世界時(shí)而作出協(xié)調(diào)時(shí)與外部環(huán)境交換內(nèi)容的總和。信息論奠基者(香農(nóng)ClauseShannon)信息就是能夠用來消除不確定性的東西,是一個(gè)事件發(fā)生概率的對(duì)數(shù)的負(fù)值RobertM.Losee信息可以被定義為一個(gè)處理過程的特征,這些特征就是輸入和處理過程中產(chǎn)生的信息信息存在于客體間的差別,而非客體本身題帕三絕新消息的信息量大布什是美國(guó)總統(tǒng)(熟知,信息量?。R其頓總統(tǒng)遇難(新知,信息量大)信息控制論創(chuàng)始人(維納NorbertWiener)32信息論信息論33自信息量自信息量(Self-information)I(X)=-logP(X)小概率事件包含的信息量大,大概率事件包含的信息量小自信息量自信息量(Self-information)34互信息

MutualInformationI(x,y)=log2p(x,y)/(p(x)p(y))比如計(jì)算兩個(gè)詞的搭配I(偉大,祖國(guó))=log2p(偉大,祖國(guó))/(p(偉大)p(祖國(guó)))此值較高,說明“偉大”和“祖國(guó)”是一個(gè)比較強(qiáng)的搭配I(的,祖國(guó))=log2p(的,祖國(guó))/(p(的)p(祖國(guó)))此值較低,因?yàn)閜(的)太高,“的”和“祖國(guó)”不是一個(gè)穩(wěn)定的搭配I(x,y)>>0:x和y關(guān)聯(lián)強(qiáng)度大I(x,y)=0:x和y無(wú)關(guān)I(x,y)<<0:x和y具有互補(bǔ)的分布互信息

MutualInformationI(x,y)=l35熵(Entropy)熵(Entropy)Chaos(混沌),無(wú)序物理學(xué):除非施加能量,否則熵不會(huì)降低舉例:把房間弄亂很容易,整理干凈不容易是不確定性(Uncertainty)的衡量不確定性越高,熵越高,我們從一次實(shí)驗(yàn)中得到的信息量越大熵(Entropy)熵(Entropy)36熵的公式熵H(X)=-xp(x)logxp(x)假設(shè)PX(x)是隨機(jī)變量X的分布基本輸出字母表是單位:bits熵是X的平均信息量,是自信息量的期望E(X)=xp(x)

xI(X)=-logp(x),取2為底,I(X)=-log2p(x)E(I(X)=E(-log2p(x))=xp(x)(-log2p(x))

=H(X)H(X)=H(p)=Hp(X)=HX(p)=H(pX)熵的公式熵H(X)=-xp(x)logxp(x)37熵的例子熵的例子38好書店,差書店好書店,差書店39什么時(shí)候H(p)=0?試驗(yàn)結(jié)果事先已經(jīng)知道即:x,p(x)=1;y,p(y)=0ifyx熵有沒有上限?沒有一般的上限對(duì)于||=n,H(p)log2n均衡分布的熵是最大的什么時(shí)候H(p)=0?40等概率分布2個(gè)輸出的等概率分布,H(p)=1bit32個(gè)輸出的等概率分布,H(p)=5bits43億輸出的等概率分布,H(p)=32bits非等概率分布32個(gè)輸出,2個(gè)0.5,其余為0,H(p)=1bit怎樣比較具有不同數(shù)量輸出的“熵”等概率分布41混亂度Perplexity混亂度G(p)=2H(p)平均每次試驗(yàn)有多少種可能的結(jié)果在NLP中,如果詞表中的詞具有統(tǒng)一的分布概率,則最難預(yù)測(cè),熵最大,混亂度最高反之,分布越不均衡,熵越小,混亂度越小混亂度Perplexity混亂度42聯(lián)合熵和條件熵兩個(gè)隨機(jī)變量:X(空間是),Y()聯(lián)合熵(JointEntropy)(X,Y)被視為一個(gè)事件H(X,Y)=-xyp(x,y)log2p(x,y)條件熵(ConditionalEntropy)H(Y|X)=-xyp(x,y)log2p(y|x)p(x,y)是加權(quán),權(quán)值是沒有條件的聯(lián)合熵和條件熵兩個(gè)隨機(jī)變量:X(空間是),Y()43條件熵H(Y|X)=xp(x)H(Y|X=x)=xp(x)(-yp(y|x)log2p(y|x))=-xyp(y|x)p(x)log2p(y|x)=-xyp(x,y)log2p(y|x)條件熵H(Y|X)=xp(x)H(Y|X=x)44熵的性質(zhì)熵的非負(fù)的H(X)0ChainRuleH(X,Y)=H(Y|X)+H(X)H(X,Y)=H(X|Y)+H(Y)H(X,Y)H(X)+H(Y),X和Y獨(dú)立時(shí)相等H(Y|X)H(Y),條件熵比熵小熵的性質(zhì)熵的非負(fù)的45熵的編碼意義如果一個(gè)符號(hào)序列是滿足概率分布p的隨機(jī)過程產(chǎn)生的,那么對(duì)這個(gè)序列進(jìn)行編碼至少需要的bit數(shù)是H(p)壓縮問題如果數(shù)據(jù)中有很多重復(fù)的模式,則易于壓縮,因?yàn)殪匦》駝t,熵大,不容易壓縮熵的編碼意義如果一個(gè)符號(hào)序列是滿足概率分布p的隨機(jī)過程產(chǎn)生的46編碼實(shí)例編碼實(shí)例47語(yǔ)言的熵p(cn+1|c1…cn)ci是語(yǔ)言中的一個(gè)字符c1…cn是歷史h舉例:漢語(yǔ),n=3p(趙|圍魏救):高p(去|我曾經(jīng)):低計(jì)算語(yǔ)言的條件熵-hHcp(c,h)log2p(c|h)語(yǔ)言的熵p(cn+1|c1…cn)48各種語(yǔ)言的熵各種語(yǔ)言的熵49Kullback-Leibler距離假設(shè)通過一組試驗(yàn)估計(jì)得到的概率分布為p,樣本空間,隨機(jī)變量X真實(shí)的分布為q,相同的和X現(xiàn)在的問題是:p和q相比,誤差多大?Kullback-Leibler距離給出的答案是:D(q||p)=xq(x)log2q(x)/p(x) =Eplog(q(x)/p(x))Kullback-Leibler距離假設(shè)通過一組試驗(yàn)估計(jì)得到50KL距離(相對(duì)熵)習(xí)慣上0log0=0plog(p/0)=DistanceorDivergence(分歧)不對(duì)稱D(q||p)D(p||q)也不滿足三角不等式事實(shí)上,D(q||p)不是距離,而是分歧H(q)+D(q||p):根據(jù)q分布,對(duì)p進(jìn)行編碼需要的bit數(shù)(交叉熵)KL距離(相對(duì)熵)習(xí)慣上51平均互信息隨機(jī)變量:X;Y;pXY(X,Y);pX(x);pY(y)兩個(gè)離散集之間的平均互信息I(X,Y)=D(p(x,y)||p(x)p(y))=xyp(x,y)log2(p(x,y)/p(x)p(y))這里說的是兩個(gè)離散集的平均互信息互信息衡量已知Y的分布時(shí),對(duì)X的預(yù)測(cè)有多大的幫助,或者說Y的知識(shí)降低了H(X)或者說p(x,y)和p(x)p(y)之間的距離平均互信息隨機(jī)變量:X;Y;pXY(X,Y);pX(x);52統(tǒng)計(jì)自然語(yǔ)言處理基本概念課件53互信息的性質(zhì)I(X,Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)I(X,Y)=H(X)+H(Y)-H(X,Y)因?yàn)椋篐(X,Y)=H(X|Y)+H(Y)I(X,X)=H(X)(因?yàn)镠(X,X)=0)I(X,Y)=I(Y,X)I(X,Y)0互信息的性質(zhì)I(X,Y)=H(X)-H(X|Y)54交叉熵

Cross-Entropy典型情況:我們得到一個(gè)觀察序列T={t1,t2,…tn},ti估計(jì):y:p(y)=c(y)/|T|,定義:c(y)=|{tT,t=y}|但是,真實(shí)的q不知道,再大的數(shù)據(jù)也不夠問題:用p對(duì)q進(jìn)行估計(jì)是否準(zhǔn)確?方法:用一個(gè)不同的觀察序列T’估計(jì)實(shí)際的q交叉熵

Cross-Entropy典型情況:55交叉熵Hp’(p)=H(p’)+D(p’||p)Hp’(p)=-xp’(x)log2p(x)p’當(dāng)然也不是真實(shí)的分布,但是我們視為真實(shí)世界的分布,以便測(cè)試p交叉混亂度:Gp’(p)=2Hp’(p)交叉熵Hp’(p)=H(p’)+D(p’||p)56條件交叉熵實(shí)踐中計(jì)算的往往是條件交叉熵兩個(gè)樣本空間樣本空間:,隨機(jī)變量Y,yY上下文樣本空間:,隨機(jī)變量X,xX實(shí)驗(yàn)得到的分布p(y|x),“真實(shí)”分布p’(y|x)Hp’(p)=-y,xp’(y,x)log2p(y|x)條件交叉熵中的權(quán)值是p’(y,x),不是p’(y|x)條件交叉熵實(shí)踐中計(jì)算的往往是條件交叉熵57在實(shí)際應(yīng)用中,在全部?jī)蓚€(gè)樣本空間上做累加通常不是很方便,因此常常簡(jiǎn)化使用如下公式:Hp’(p)=-y,xp’(y,x)log2p(y|x)=-1/|T’|i=1…|T’|log2p(yi|xi)事實(shí)上,就是在T’上進(jìn)行累加,然后歸一化=-1/|T’|log2i=1…|T’|p(yi|xi)在實(shí)際應(yīng)用中,在全部?jī)蓚€(gè)樣本空間上做累加通常不是很方便,因此58舉例={a,b,…,z},概率分布(估計(jì)值)p(a)=0.25,p(b)=0.5,p()=1/64,{c,…,r},p()=0,{s,…,z}測(cè)試數(shù)據(jù)為:barb,p’(a)=p’(r)=0.25,p’(b)=0.5在上做累加abcd…qrs…z-p’()log2p()0.50.50001.500=2.5也可以在測(cè)試數(shù)據(jù)上進(jìn)行累加,然后歸一化si barb-log2p(si)1261=10(1/4)10=2.5舉例={a,b,…,z},概率分布(估計(jì)值)59統(tǒng)計(jì)自然語(yǔ)言處理基本概念課件60交叉熵的使用不是比較數(shù)據(jù),而是比較分布如果我們有兩個(gè)分布p和q,哪一個(gè)更好呢?面對(duì)“真實(shí)數(shù)據(jù)”S,p和q誰(shuí)的交叉熵低,誰(shuí)就更好HT(p)=-1/|S|log2i=1…|S’|p(yi|xi)HT(q)=-1/|S|log2i=1…|S’|q(yi|xi)交叉熵的使用不是比較數(shù)據(jù),而是比較分布61統(tǒng)計(jì)自然語(yǔ)言處理基本概念課件62數(shù)據(jù)集分類數(shù)據(jù)集分類63訓(xùn)練集TrainingSet用來獲得模型參數(shù)測(cè)試集TestingSet從訓(xùn)練集以外獨(dú)立采樣反映系統(tǒng)面對(duì)真實(shí)世界的處理能力測(cè)試集經(jīng)常被無(wú)意識(shí)地“做了手腳”交叉確認(rèn)集Cross-ValidationSet從訓(xùn)練集和測(cè)試集以外獨(dú)立采樣主要用來幫助做設(shè)計(jì)決策訓(xùn)練集TrainingSet64測(cè)試集測(cè)試集從訓(xùn)練集去評(píng)價(jià)系統(tǒng)的性能,結(jié)果往往過于樂觀如果模型的參數(shù)比需要的多很多時(shí),獲得100%的準(zhǔn)確率也是可能的過擬和(Over-fitting)常常出現(xiàn)在訓(xùn)練數(shù)據(jù)的數(shù)量不足以支持模型的復(fù)雜程度之時(shí)為此,我們需要另一個(gè)數(shù)據(jù)集來模擬用戶的真實(shí)需要測(cè)試集測(cè)試集65在設(shè)計(jì)階段,不允許偷看測(cè)試數(shù)據(jù)的細(xì)節(jié),以保證測(cè)試數(shù)據(jù)不被污染你不能參照測(cè)試數(shù)據(jù)來決定模型的復(fù)雜度,特征空間的維數(shù),以及什么時(shí)候決定停止訓(xùn)練過程等設(shè)計(jì)決策可以參照交叉確認(rèn)數(shù)據(jù)進(jìn)行每一個(gè)階段采用一個(gè)不同測(cè)試集當(dāng)你試圖選擇一個(gè)最好的方法使測(cè)試效果達(dá)到最佳時(shí),實(shí)際上已經(jīng)在無(wú)意識(shí)地使你的系統(tǒng)偏向測(cè)試集問題的關(guān)鍵在于測(cè)試集并不是真實(shí)數(shù)據(jù)本身,如果面向測(cè)試集調(diào)整參數(shù),可能造成系統(tǒng)對(duì)于從未見過的真實(shí)數(shù)據(jù)效果下降在設(shè)計(jì)階段,不允許偷看測(cè)試數(shù)據(jù)的細(xì)節(jié),以保證測(cè)試數(shù)據(jù)不被污染66交叉確認(rèn)集如果在訓(xùn)練集合上獲得了比較差的結(jié)果,我們必須重新設(shè)計(jì)如果在訓(xùn)練集合上獲得了比較好的結(jié)果,那可能是因?yàn)椋耗P痛_實(shí)好(在測(cè)試數(shù)據(jù)上性能一樣會(huì)好)模型過擬和(在測(cè)試數(shù)據(jù)上性能會(huì)下降)由于不允許使用測(cè)試集來改進(jìn)系統(tǒng)設(shè)計(jì),因此需要另一個(gè)數(shù)據(jù)集交叉確認(rèn)集67性能評(píng)價(jià)性能評(píng)價(jià)68使用有限的樣本進(jìn)行性能測(cè)試有估計(jì)誤差性能評(píng)價(jià)的結(jié)果和測(cè)試數(shù)據(jù)的大小有關(guān)不同數(shù)據(jù)集的測(cè)試結(jié)果往往不同性能上限PerformanceUpperBound人與人取得一致的指標(biāo)就是系統(tǒng)性能的上限使用有限的樣本進(jìn)行性能測(cè)試69聯(lián)立表(Contingencytable)第一類:+第二類:-系統(tǒng)給出的標(biāo)記+-正確標(biāo)記+N11N12-N21N22聯(lián)立表(Contingencytable)第一類:+系統(tǒng)給70準(zhǔn)確率P(Precision)N11/(N11+N21)召回率R(Recall)N11/(N11+N12)錯(cuò)誤率E(ErrorRate)(N12+N21)/(N11+N12+N21+N22)F-measure2PR/(P+R)準(zhǔn)確率P(Precision)71謝謝!謝謝!72飯卡打開巴士風(fēng)格反對(duì)廣泛的的非官是大蘇打發(fā)的發(fā)非官方共和國(guó)符合國(guó)家和國(guó)際撒的方大哥給飛得更高是個(gè)搜狗是歸屬感是搞后呵呵敢死隊(duì)敢死隊(duì)敢死隊(duì)好地方個(gè)地方豆腐花哈哈動(dòng)畫的發(fā)揮和家具風(fēng)格就國(guó)防軍廣泛幾個(gè)房間房管局房管局法國(guó)加工費(fèi)交付給交付給交付給警方根據(jù)高房?jī)r(jià)法國(guó)警方交付給飯卡打開巴士風(fēng)格反對(duì)廣泛的的非官是大蘇打發(fā)的發(fā)非官方共和國(guó)73地方官梵蒂岡地方官方的說法暗室逢燈啊的非官是大蘇打發(fā)發(fā)射機(jī)的驕傲給大家仨個(gè)地方大師傅艱苦絕對(duì)是九回復(fù)肯定是解放后肯定是國(guó)防部換個(gè)風(fēng)格大富大貴士大夫但是發(fā)交付給地方官梵蒂岡地方官方的說法暗室逢燈啊的非官是大蘇打發(fā)發(fā)射機(jī)74地方大師傅大大規(guī)劃風(fēng)格化地方士大夫時(shí)的感到十分的官方電話獎(jiǎng)和國(guó)家的驕傲還是看見好看的順豐單號(hào)健康博客程序客戶貸款空間很大防空識(shí)別的看不舒服的看不到看見對(duì)方看世界杯的咖啡酒吧的設(shè)備發(fā)的空降兵反抗波斯的反抗波斯的包括舍不得放開白色的反饋博客大巴是否看不上大夫開博客大巴發(fā)地方大師傅大大規(guī)劃風(fēng)格化地方士大夫時(shí)的感到十分的官方電話獎(jiǎng)和75發(fā)的高科技恢復(fù)的很快就北方港口賓館飯店免費(fèi)感受到覅好的傷口縫合第三部分難道是擴(kuò)大解放和開始變得反抗集散地和反抗精神美女部門你先吃吧每年從小便考多少分可接受的反抗集散地和付款計(jì)劃的司法環(huán)境快遞費(fèi)還是給客服電話給客服電話高考加分梵蒂岡回復(fù)后可見風(fēng)華高科點(diǎn)擊返回高科技發(fā)的高科技恢復(fù)的很快就北方港口賓館飯店免費(fèi)感受到覅好的傷口縫76輔導(dǎo)功課變得瘋狂進(jìn)攻的傷口縫合可視電話的生命發(fā)表的但是發(fā)布的科級(jí)干部科技發(fā)達(dá)韓國(guó)可接受的和都是方面你身邊的負(fù)面報(bào)道隨便翻開基本上都李開復(fù)倒過來看發(fā)動(dòng)了攻擊附加山東南面分別明尼蘇達(dá)白發(fā)魔女十點(diǎn)半分工合理分擔(dān)和管理費(fèi)的后果都是免費(fèi)表面蛋白和風(fēng)格和規(guī)范輔導(dǎo)功課變得瘋狂進(jìn)攻的傷口縫合可視電話的生命發(fā)表的但是發(fā)布的77我卻哦網(wǎng)球餓哦我去哦欸開始的方便快捷反對(duì)蒙蔽動(dòng)漫被父母電腦設(shè)備方面你的身邊每年頒發(fā)的身份決定勝負(fù)看得十分愧疚和第三方?jīng)]辦法每個(gè)部門的婦女不敢面對(duì)瘋牛病而微軟微軟微軟為法國(guó)空軍東方科技很發(fā)達(dá)客戶給開發(fā)經(jīng)費(fèi)的士大夫大師傅似的犯得上廣泛的和廣泛化工艱苦戶籍科戶籍科我卻哦網(wǎng)球餓哦我去哦欸開始的方便快捷反對(duì)蒙蔽動(dòng)漫被父母電腦設(shè)78飯卡打開巴士風(fēng)格反對(duì)廣泛的的非官是大蘇打發(fā)的發(fā)非官方共和國(guó)符合國(guó)家和國(guó)際撒的方大哥給飛得更高是個(gè)搜狗是歸屬感是搞后呵呵敢死隊(duì)敢死隊(duì)敢死隊(duì)好地方個(gè)地方豆腐花哈哈動(dòng)畫的發(fā)揮和家具風(fēng)格就國(guó)防軍廣泛幾個(gè)房間房管局房管局法國(guó)加工費(fèi)交付給交付給交付給警方根據(jù)高房?jī)r(jià)法國(guó)警方交付給飯卡打開巴士風(fēng)格反對(duì)廣泛的的非官是大蘇打發(fā)的發(fā)非官方共和國(guó)79地方官梵蒂岡地方官方的說法暗室逢燈啊的非官是大蘇打發(fā)發(fā)射機(jī)的驕傲給大家仨個(gè)地方大師傅艱苦絕對(duì)是九回復(fù)肯定是解放后肯定是國(guó)防部換個(gè)風(fēng)格大富大貴士大夫但是發(fā)交付給地方官梵蒂岡地方官方的說法暗室逢燈啊的非官是大蘇打發(fā)發(fā)射機(jī)80地方大師傅大大規(guī)劃風(fēng)格化地方士大夫時(shí)的感到十分的官方電話獎(jiǎng)和國(guó)家的驕傲還是看見好看的順豐單號(hào)健康博客程序客戶貸款空間很大防空識(shí)別的看不舒服的看不到看見對(duì)方看世界杯的咖啡酒吧的設(shè)備發(fā)的空降兵反抗波斯的反抗波斯的包括舍不得放開白色的反饋博客大巴是否看不上大夫開博客大巴發(fā)地方大師傅大大規(guī)劃風(fēng)格化地方士大夫時(shí)的感到十分的官方電話獎(jiǎng)和81發(fā)的高科技恢復(fù)的很快就北方港口賓館飯店免費(fèi)感受到覅好的傷口縫合第三部分難道是擴(kuò)大解放和開始變得反抗集散地和反抗精神美女部門你先吃吧每年從小便考多少分可接受的反抗集散地和付款計(jì)劃的司法環(huán)境快遞費(fèi)還是給客服電話給客服電話高考加分梵蒂岡回復(fù)后可見風(fēng)華高科點(diǎn)擊返回高科技發(fā)的高科技恢復(fù)的很快就北方港口賓館飯店免費(fèi)感受到覅好的傷口縫82輔導(dǎo)功課變得瘋狂進(jìn)攻的傷口縫合可視電話的生命發(fā)表的但是發(fā)布的科級(jí)干部科技發(fā)達(dá)韓國(guó)可接受的和都是方面你身邊的負(fù)面報(bào)道隨便翻開基本上都李開復(fù)倒過來看發(fā)動(dòng)了攻擊附加山東南面分別明尼蘇達(dá)白發(fā)魔女十點(diǎn)半分工合理分擔(dān)和管理費(fèi)的后果都是免費(fèi)表面蛋白和風(fēng)格和規(guī)范輔導(dǎo)功課變得瘋狂進(jìn)攻的傷口縫合可視電話的生命發(fā)表的但是發(fā)布的83我卻哦網(wǎng)球餓哦我去哦欸開始的方便快捷反對(duì)蒙蔽動(dòng)漫被父母電腦設(shè)備方面你的身邊每年頒發(fā)的身份決定勝負(fù)看得十分愧疚和第三方?jīng)]辦法每個(gè)部門的婦女不敢面對(duì)瘋牛病而微軟微軟微軟為法國(guó)空軍東方科技很發(fā)達(dá)客戶給開發(fā)經(jīng)費(fèi)的士大夫大師傅似的犯得上廣泛的和廣泛化工艱苦戶籍科戶籍科我卻哦網(wǎng)球餓哦我去哦欸開始的方便快捷反對(duì)蒙蔽動(dòng)漫被父母電腦設(shè)84統(tǒng)計(jì)自然語(yǔ)言處理基本概念統(tǒng)計(jì)自然語(yǔ)言處理基本概念85模型真實(shí)世界中的系統(tǒng)模型1InputOutput模型2Output1Output2如果Output1總是和Ouput接近,Output2總是和Output偏離,我們就認(rèn)為模型1比模型2好模型真實(shí)世界中模型1InputOutput模型2Output86

真實(shí)系統(tǒng)模型1模型2InputOutput真實(shí)系統(tǒng)模型1模型2InputOutput87模型由體系結(jié)構(gòu)和參數(shù)兩部分構(gòu)成舉例:住宅樓多層板樓高層板樓高層塔樓參數(shù)層數(shù):戶型:三室一廳,兩室一廳,……舉架高度:供熱方式:地?zé)??暖氣片?模型由體系結(jié)構(gòu)和參數(shù)兩部分構(gòu)成88目錄樣本空間(SampleSpace)估計(jì)器(Estimator)和隨機(jī)過程(StochasticProcess)信息論(InformationTheory)數(shù)據(jù)集分類(DataSetClassification)性能評(píng)價(jià)(PerformanceMeasure)目錄樣本空間(SampleSpace)89樣本空間

(SampleSpace)樣本空間

(SampleSpace)90試驗(yàn)(Experiment)試驗(yàn)一個(gè)可觀察結(jié)果的人工或自然的過程,其產(chǎn)生的結(jié)果可能不止一個(gè),且不能事先確定會(huì)產(chǎn)生什么結(jié)果例如連擲兩次硬幣樣本空間是一個(gè)試驗(yàn)的全部可能出現(xiàn)的結(jié)果的集合舉例連擲兩次硬幣={HH,HT,TH,TT},H:面朝上;T:面朝下試驗(yàn)(Experiment)試驗(yàn)91事件(Event)事件一個(gè)試驗(yàn)的一些可能結(jié)果的集合,是樣本空間的一個(gè)子集舉例:連擲兩次硬幣A:至少一次面朝上B:第二次面朝下A={HT,TH,HH},B={HT,TT}事件(Event)事件92事件的概率事件的概率重復(fù)m試驗(yàn),如果事件A出現(xiàn)的次數(shù)為n,則事件A的概率為P(A)=n/m,這稱為概率的頻率解釋,或稱統(tǒng)計(jì)解釋頻率的穩(wěn)定性又稱為經(jīng)驗(yàn)大數(shù)定理舉例:連擲兩次硬幣A:至少一次面朝上B:第二次面朝下P(A)=3/4,P(B)=1/2當(dāng)試驗(yàn)不能重復(fù)時(shí),概率失去其頻率解釋的含義,此時(shí)概率還有其他解釋:貝葉斯學(xué)派和信念學(xué)派一個(gè)人出生時(shí)的體重,一個(gè)人只能出生一次事件的概率事件的概率93舉例舉例94概率空間概率空間的三個(gè)公理P(A)0P()=1P(AB)=P(A)+P(B)ifAB=這三條公理也是概率的原始定義推論:P()=0;ABP(A)<P(B);P(ā)=1-P(A)不是所有0和1之間的值都是概率例如:|cos(x)|就不是概率概率空間概率空間的三個(gè)公理95概率空間圖示ABAB概率空間圖示ABAB96聯(lián)合事件A和B兩個(gè)事件的聯(lián)合概率就是A和B兩個(gè)事件同時(shí)出現(xiàn)的概率A和B的聯(lián)合概率表示為:P(A,B)或P(AB)舉例:連擲兩次硬幣事件A:第一次面朝上,A={HH,HT}事件B:第二次面朝下,B={HT,TT}聯(lián)合事件AB={HT}聯(lián)合事件A和B兩個(gè)事件的聯(lián)合概率就是A和B兩個(gè)事件同時(shí)出現(xiàn)的97條件概率在事件B發(fā)生的條件下事件A發(fā)生的概率P(A|B)=P(A,B)/P(B)P(A|B)=(c(A,B)/T)/(c(B)/T)=c(A,B)/c(B)c(A)代表事件A出現(xiàn)的次數(shù),c(B)同理T是試驗(yàn)總次數(shù)舉例:兩次擲硬幣問題事件A:第一次面朝上,A={HH,HT}事件B:第二次面朝下,B={HT,TT}AB={HT}P(A|B)=1/2條件概率可以被視為從另外一個(gè)樣本空間產(chǎn)生條件概率在事件B發(fā)生的條件下事件A發(fā)生的概率98概率的乘法原理P(A,B)=P(A|B)P(B)=P(B|A)P(A)ChainRuleP(A1,A2,…,An)=P(A1)P(A2|A1)P(A3|A1,A2)…P(An|A1,A2,…,An)舉例1:詞性標(biāo)注P(det,adj,n)=P(det)P(adj|det)P(n|det,adj)舉例2:計(jì)算一個(gè)句子的概率p(w1,w2,…,wn)=p(w1)p(w2|w1)……p(wn|w1…wn-1)概率的乘法原理P(A,B)=P(A|B)P(B)=P(B|99獨(dú)立和條件獨(dú)立獨(dú)立定義:P(A,B)=P(A)P(B)P(A|B)=P(A),P(B|A)=P(B)條件獨(dú)立定義:P(A,B|C)=P(A|B,C)P(B|C)=P(A|C)P(B|C)P(A|B,C)=P(A|C),P(B|A,C)=P(B|C)Na?veBaiysian:假定各特征之間條件獨(dú)立P(A1,A2,…,An|B)=i=1,…,nP(Ai|B)避免一個(gè)錯(cuò)誤:P(A|B,C)=P(A|B)P(A|C)獨(dú)立和條件獨(dú)立獨(dú)立100獨(dú)立和條件獨(dú)立獨(dú)立不意味著條件獨(dú)立舉例:色盲和血緣關(guān)系A(chǔ):甲是色盲B:乙是色盲C:甲和乙有血緣關(guān)系P(A,B)=P(A)P(B)P(A,B|C)P(A|C)P(B|C)條件獨(dú)立不意味著獨(dú)立P(肺癌,買雪茄|吸煙)=P(肺癌|吸煙)P(買雪茄|吸煙)P(肺癌,買雪茄)P(肺癌)P(買雪茄)獨(dú)立和條件獨(dú)立獨(dú)立不意味著條件獨(dú)立101Bayes’Rule根據(jù)乘法原理:P(A,B)=P(A)P(B|A)=P(B)P(A|B)得到貝葉斯原理:P(A|B)=P(A)P(B|A)/P(B)應(yīng)用1argmaxAP(A|B)=argmaxAP(A)P(B|A)/P(B)=argmaxAP(A)P(B|A)應(yīng)用2A1,A2,…,An是特征,B是結(jié)論P(yáng)(B|A1,A2,…,An)=P(A1,A2,…,An|B)P(B)/P(A1,A2,…,An)其中:P(A1,A2,…,An|B)=i=1,nP(Ai|B)Bayes’Rule根據(jù)乘法原理:102Bayes舉例應(yīng)用3英漢統(tǒng)計(jì)機(jī)器翻譯P(CW1,…,CWm|EW1,…,EWn)=P(EW1,…,EWn|CW1,…,CWm)P(CW1,…,CWm)/P(EW1,…,EWn)漢語(yǔ)句子CW1,…,CWm英語(yǔ)句子EW1,…,EWm翻譯模型:P(EW1,…,EWn|CW1,…,CWm)目標(biāo)語(yǔ)語(yǔ)言模型:P(CW1,…,CWm)Bayes舉例應(yīng)用3103隨機(jī)變量(RandomVariable)隨機(jī)變量是一個(gè)函數(shù)X:R。是樣本空間,R是實(shí)數(shù)集合人們常常關(guān)心和樣本點(diǎn)有關(guān)的數(shù)量指標(biāo)數(shù)值也比事件更易于處理,舉例打靶的環(huán)數(shù)舉例:[X=0]={TT};[X=1]={TH,HT};[X=2]={HH}X是兩次擲硬幣面朝上的次數(shù)數(shù)值可以是連續(xù)值,也可以是離散值PX(x)=P(X=x)=dfP(Ax),Ax={a:X(a)=x},通常簡(jiǎn)寫作P(x)隨機(jī)變量(RandomVariable)隨機(jī)變量是一個(gè)函數(shù)104期望Expectation期望是隨機(jī)變量的均值E(X)=xX()xPX(x)(對(duì)于離散值)E(X)=RxP(x)dx(對(duì)于連續(xù)值)舉例:六面擲骰子問題:E(X)=3.511/6+21/6+31/6+41/6+51/6+61/6=3.5兩次六面擲骰子得到的點(diǎn)數(shù)和:E(X)=721/36+32/36+43/36+……=7方差(Variance)E((X-E(X))2)=xX()(x-E(X))2PX(x)(對(duì)于離散值)E((X-E(X))2)=R(x-E(X))2P(x)dx(對(duì)于連續(xù)值)王勵(lì)勤和王皓的期望接近,王勵(lì)勤的方差大期望Expectation期望是隨機(jī)變量的均值105概率分布多項(xiàng)式分布(MultinomialDistribution)P(n1,,nm)=n!/(n1!nm!)p1n1pmnmini=n,做n次試驗(yàn)輸出第i種結(jié)果的次數(shù)是ni,第i種結(jié)果出現(xiàn)的概率是pi二項(xiàng)式分布(BinomialDistribution)輸出:0或1做n次試驗(yàn)關(guān)心的是試驗(yàn)成功的次數(shù)的概率Pb(r|n)=Cnrpr(1-p)n-rCnr是從n個(gè)元素中任意取出r個(gè)元素的組合數(shù)p是成功的概率如果是等概率分布,則p=1/2,Pb(r|n)=Cnr/2n概率分布多項(xiàng)式分布(MultinomialDistribu106協(xié)方差和相關(guān)系數(shù)協(xié)方差(Covariance)Cxy=E[(X-E(X))(Y-E(Y))]相關(guān)系數(shù)(CorrelationCoefficient)xy=Cxy/(xy)x是隨機(jī)變量X的方差y是隨機(jī)變量Y的方差-11,>0正相關(guān),<0負(fù)相關(guān),=0不相關(guān)協(xié)方差和相關(guān)系數(shù)協(xié)方差(Covariance)107參數(shù)估計(jì)

ParameterEstimation參數(shù)估計(jì)

ParameterEstimation108參數(shù)估計(jì)研究對(duì)象的全體所構(gòu)成的集合成為總體(population)數(shù)理統(tǒng)計(jì)的任務(wù):已經(jīng)知道總體的一部分個(gè)體的指標(biāo)變量值,以此為出發(fā)點(diǎn)來推斷總體分布的性質(zhì)簡(jiǎn)單樣本(simplesample)是指這樣的樣本(X1,X2,…,Xn),它的分量Xi,i=1,…,n是獨(dú)立同分布的隨機(jī)變量(向量)參數(shù)估計(jì)研究對(duì)象的全體所構(gòu)成的集合成為總體(populati109估計(jì)器設(shè)(X1,X2,…,Xn)為一個(gè)樣本,它的一個(gè)與總體分布無(wú)關(guān)的函數(shù)(或向量函數(shù))f(X1,X2,…,Xn)稱為一個(gè)統(tǒng)計(jì)量(statistics)舉例:擲硬幣問題X:面朝上/面朝下T(X1,X2,…,Xn):面朝上的次數(shù)估計(jì)器(Estimator)根據(jù)樣本計(jì)算參數(shù)一個(gè)估計(jì)器是隨機(jī)變量的函數(shù),同時(shí)其自身也可以視為一個(gè)隨機(jī)變量估計(jì)器的準(zhǔn)確率依賴于采樣數(shù)據(jù)的大小估計(jì)器設(shè)(X1,X2,…,Xn)為一個(gè)樣本,它的一個(gè)與總體分110參數(shù)估計(jì)所有參數(shù)都是從一個(gè)有限的樣本集合中估計(jì)出來的一個(gè)好的估計(jì)器的標(biāo)準(zhǔn):無(wú)偏(unbias):期望等于真實(shí)值有效(efficient):方差小一致(consistent):估計(jì)的準(zhǔn)確性隨樣板數(shù)量的增加而提高一些常用的估計(jì)方法極大似然估計(jì)最小二成估計(jì)貝葉斯估計(jì)參數(shù)估計(jì)所有參數(shù)都是從一個(gè)有限的樣本集合中估計(jì)出來的111極大似然估計(jì)極大似然估計(jì)MaximumLikelihoodEstimation(MLE)選擇一組參數(shù),使似然函數(shù)L()達(dá)到最大L()=f(x1,x2,…,xn|)=i=1,nf(xi|)舉例:罐里有黑球和白球,比例3:1,今連續(xù)抽取兩球全為黑球,問罐里黑球多還是白球多?設(shè)黑球概率為p,抽取n次拿到x次黑球的概率符合二項(xiàng)分布:fn(x,p)=Cnxpx(1-p)n-x今抽取兩次全是黑球f2(2,p)=C22p2(1-p)0=p2若p=1/4,則f2(2,p)=1/16;若p=3/4,則f2(2,p)=9/16選擇概率大的:p=3/4,黑球多極大似然估計(jì)極大似然估計(jì)112隨機(jī)過程隨機(jī)過程(StochasticProcess)X(t),tTX是一組隨機(jī)變量T是過程的索引集合,例如時(shí)間或位置如果T是可數(shù)集,則X(t)是離散時(shí)間過程舉例:詞性標(biāo)注C(t),C是詞性,t是位置C(1)=noun,C(2)=verb,…,C(n)=pron隨機(jī)過程隨機(jī)過程(StochasticProcess)113馬爾可夫過程馬爾可夫過程,也稱馬爾可夫鏈MarcovChain離散時(shí)間,離散狀態(tài)無(wú)后效性:已知現(xiàn)在狀態(tài),則未來和過去無(wú)關(guān)P(Xn=xn|X1=x1,X2=x2,…,Xn-1=xn-1)=P(Xn=xn|Xn-1=xn-1)舉例:拼音輸入法一本[書](輸,淑,叔,舒,……)P(書|一,本)=P(書|本)馬爾可夫過程馬爾可夫過程,也稱馬爾可夫鏈114信息論信息論115信息控制論創(chuàng)始人(維納NorbertWiener)信息既不是物質(zhì)也不是能量,是人類在適應(yīng)外部世界時(shí)以及在感知外部世界時(shí)而作出協(xié)調(diào)時(shí)與外部環(huán)境交換內(nèi)容的總和。信息論奠基者(香農(nóng)ClauseShannon)信息就是能夠用來消除不確定性的東西,是一個(gè)事件發(fā)生概率的對(duì)數(shù)的負(fù)值RobertM.Losee信息可以被定義為一個(gè)處理過程的特征,這些特征就是輸入和處理過程中產(chǎn)生的信息信息存在于客體間的差別,而非客體本身題帕三絕新消息的信息量大布什是美國(guó)總統(tǒng)(熟知,信息量?。R其頓總統(tǒng)遇難(新知,信息量大)信息控制論創(chuàng)始人(維納NorbertWiener)116信息論信息論117自信息量自信息量(Self-information)I(X)=-logP(X)小概率事件包含的信息量大,大概率事件包含的信息量小自信息量自信息量(Self-information)118互信息

MutualInformationI(x,y)=log2p(x,y)/(p(x)p(y))比如計(jì)算兩個(gè)詞的搭配I(偉大,祖國(guó))=log2p(偉大,祖國(guó))/(p(偉大)p(祖國(guó)))此值較高,說明“偉大”和“祖國(guó)”是一個(gè)比較強(qiáng)的搭配I(的,祖國(guó))=log2p(的,祖國(guó))/(p(的)p(祖國(guó)))此值較低,因?yàn)閜(的)太高,“的”和“祖國(guó)”不是一個(gè)穩(wěn)定的搭配I(x,y)>>0:x和y關(guān)聯(lián)強(qiáng)度大I(x,y)=0:x和y無(wú)關(guān)I(x,y)<<0:x和y具有互補(bǔ)的分布互信息

MutualInformationI(x,y)=l119熵(Entropy)熵(Entropy)Chaos(混沌),無(wú)序物理學(xué):除非施加能量,否則熵不會(huì)降低舉例:把房間弄亂很容易,整理干凈不容易是不確定性(Uncertainty)的衡量不確定性越高,熵越高,我們從一次實(shí)驗(yàn)中得到的信息量越大熵(Entropy)熵(Entropy)120熵的公式熵H(X)=-xp(x)logxp(x)假設(shè)PX(x)是隨機(jī)變量X的分布基本輸出字母表是單位:bits熵是X的平均信息量,是自信息量的期望E(X)=xp(x)

xI(X)=-logp(x),取2為底,I(X)=-log2p(x)E(I(X)=E(-log2p(x))=xp(x)(-log2p(x))

=H(X)H(X)=H(p)=Hp(X)=HX(p)=H(pX)熵的公式熵H(X)=-xp(x)logxp(x)121熵的例子熵的例子122好書店,差書店好書店,差書店123什么時(shí)候H(p)=0?試驗(yàn)結(jié)果事先已經(jīng)知道即:x,p(x)=1;y,p(y)=0ifyx熵有沒有上限?沒有一般的上限對(duì)于||=n,H(p)log2n均衡分布的熵是最大的什么時(shí)候H(p)=0?124等概率分布2個(gè)輸出的等概率分布,H(p)=1bit32個(gè)輸出的等概率分布,H(p)=5bits43億輸出的等概率分布,H(p)=32bits非等概率分布32個(gè)輸出,2個(gè)0.5,其余為0,H(p)=1bit怎樣比較具有不同數(shù)量輸出的“熵”等概率分布125混亂度Perplexity混亂度G(p)=2H(p)平均每次試驗(yàn)有多少種可能的結(jié)果在NLP中,如果詞表中的詞具有統(tǒng)一的分布概率,則最難預(yù)測(cè),熵最大,混亂度最高反之,分布越不均衡,熵越小,混亂度越小混亂度Perplexity混亂度126聯(lián)合熵和條件熵兩個(gè)隨機(jī)變量:X(空間是),Y()聯(lián)合熵(JointEntropy)(X,Y)被視為一個(gè)事件H(X,Y)=-xyp(x,y)log2p(x,y)條件熵(ConditionalEntropy)H(Y|X)=-xyp(x,y)log2p(y|x)p(x,y)是加權(quán),權(quán)值是沒有條件的聯(lián)合熵和條件熵兩個(gè)隨機(jī)變量:X(空間是),Y()127條件熵H(Y|X)=xp(x)H(Y|X=x)=xp(x)(-yp(y|x)log2p(y|x))=-xyp(y|x)p(x)log2p(y|x)=-xyp(x,y)log2p(y|x)條件熵H(Y|X)=xp(x)H(Y|X=x)128熵的性質(zhì)熵的非負(fù)的H(X)0ChainRuleH(X,Y)=H(Y|X)+H(X)H(X,Y)=H(X|Y)+H(Y)H(X,Y)H(X)+H(Y),X和Y獨(dú)立時(shí)相等H(Y|X)H(Y),條件熵比熵小熵的性質(zhì)熵的非負(fù)的129熵的編碼意義如果一個(gè)符號(hào)序列是滿足概率分布p的隨機(jī)過程產(chǎn)生的,那么對(duì)這個(gè)序列進(jìn)行編碼至少需要的bit數(shù)是H(p)壓縮問題如果數(shù)據(jù)中有很多重復(fù)的模式,則易于壓縮,因?yàn)殪匦》駝t,熵大,不容易壓縮熵的編碼意義如果一個(gè)符號(hào)序列是滿足概率分布p的隨機(jī)過程產(chǎn)生的130編碼實(shí)例編碼實(shí)例131語(yǔ)言的熵p(cn+1|c1…cn)ci是語(yǔ)言中的一個(gè)字符c1…cn是歷史h舉例:漢語(yǔ),n=3p(趙|圍魏救):高p(去|我曾經(jīng)):低計(jì)算語(yǔ)言的條件熵-hHcp(c,h)log2p(c|h)語(yǔ)言的熵p(cn+1|c1…cn)132各種語(yǔ)言的熵各種語(yǔ)言的熵133Kullback-Leibler距離假設(shè)通過一組試驗(yàn)估計(jì)得到的概率分布為p,樣本空間,隨機(jī)變量X真實(shí)的分布為q,相同的和X現(xiàn)在的問題是:p和q相比,誤差多大?Kullback-Leibler距離給出的答案是:D(q||p)=xq(x)log2q(x)/p(x) =Eplog(q(x)/p(x))Kullback-Leibler距離假設(shè)通過一組試驗(yàn)估計(jì)得到134KL距離(相對(duì)熵)習(xí)慣上0log0=0plog(p/0)=DistanceorDivergence(分歧)不對(duì)稱D(q||p)D(p||q)也不滿足三角不等式事實(shí)上,D(q||p)不是距離,而是分歧H(q)+D(q||p):根據(jù)q分布,對(duì)p進(jìn)行編碼需要的bit數(shù)(交叉熵)KL距離(相對(duì)熵)習(xí)慣上135平均互信息隨機(jī)變量:X;Y;pXY(X,Y);pX(x);pY(y)兩個(gè)離散集之間的平均互信息I(X,Y)=D(p(x,y)||p(x)p(y))=xyp(x,y)log2(p(x,y)/p(x)p(y))這里說的是兩個(gè)離散集的平均互信息互信息衡量已知Y的分布時(shí),對(duì)X的預(yù)測(cè)有多大的幫助,或者說Y的知識(shí)降低了H(X)或者說p(x,y)和p(x)p(y)之間的距離平均互信息隨機(jī)變量:X;Y;pXY(X,Y);pX(x);136統(tǒng)計(jì)自然語(yǔ)言處理基本概念課件137互信息的性質(zhì)I(X,Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)I(X,Y)=H(X)+H(Y)-H(X,Y)因?yàn)椋篐(X,Y)=H(X|Y)+H(Y)I(X,X)=H(X)(因?yàn)镠(X,X)=0)I(X,Y)=I(Y,X)I(X,Y)0互信息的性質(zhì)I(X,Y)=H(X)-H(X|Y)138交叉熵

Cross-Entropy典型情況:我們得到一個(gè)觀察序列T={t1,t2,…tn},ti估計(jì):y:p(y)=c(y)/|T|,定義:c(y)=|{tT,t=y}|但是,真實(shí)的q不知道,再大的數(shù)據(jù)也不夠問題:用p對(duì)q進(jìn)行估計(jì)是否準(zhǔn)確?方法:用一個(gè)不同的觀察序列T’估計(jì)實(shí)際的q交叉熵

Cross-Entropy典型情況:139交叉熵Hp’(p)=H(p’)+D(p’||p)Hp’(p)=-xp’(x)log2p(x)p’當(dāng)然也不是真實(shí)的分布,但是我們視為真實(shí)世界的分布,以便測(cè)試p交叉混亂度:Gp’(p)=2Hp’(p)交叉熵Hp’(p)=H(p’)+D(p’||p)140條件交叉熵實(shí)踐中計(jì)算的往往是條件交叉熵兩個(gè)樣本空間樣本空間:,隨機(jī)變量Y,yY上下文樣本空間:,隨機(jī)變量X,xX實(shí)驗(yàn)得到的分布p(y|x),“真實(shí)”分布p’(y|x)Hp’(p)=-y,xp’(y,x)log2p(y|x)條件交叉熵中的權(quán)值是p’(y,x),不是p’(y|x)條件交叉熵實(shí)踐中計(jì)算的往往是條件交叉熵141在實(shí)際應(yīng)用中,在全部?jī)蓚€(gè)樣本空間上做累加通常不是很方便,因此常常簡(jiǎn)化使用如下公式:Hp’(p)=-y,xp’(y,x)log2p(y|x)=-1/|T’|i=1…|T’|log2p(yi|xi)事實(shí)上,就是在T’上進(jìn)行累加,然后歸一化=-1/|T’|log2i=1…|T’|p(yi|xi)在實(shí)際應(yīng)用中,在全部?jī)蓚€(gè)樣本空間上做累加通常不是很方便,因此142舉例={a,b,…,z},概率分布(估計(jì)值)p(a)=0.25,p(b)=0.5,p()=1/64,{c,…,r},p()=0,{s,…,z}測(cè)試數(shù)據(jù)為:barb,p’(a)=p’(r)=0.25,p’(b)=0.5在上做累加abcd…qrs…z-p’()log2p()0.50.50001.500=2.5也可以在測(cè)試數(shù)據(jù)上進(jìn)行累加,然后歸一化si barb-log2p(si)1261=10(1/4)10=2.5舉例={a,b,…,z},概率分布(估計(jì)值)143統(tǒng)計(jì)自然語(yǔ)言處理基本概念課件144交叉熵的使用不是比較數(shù)據(jù),而是比較分布如果我們有兩個(gè)分布p和q,哪一個(gè)更好呢?面對(duì)“真實(shí)數(shù)據(jù)”S,p和q誰(shuí)的交叉熵低,誰(shuí)就更好HT(p)=-1/|S|log2i=1…|S’|p(yi|xi)HT(q)=-1/|S|log2i=1…|S’|q(yi|xi)交叉熵的使用不是比較數(shù)據(jù),而是比較分布145統(tǒng)計(jì)自然語(yǔ)言處理基本概念課件146數(shù)據(jù)集分類數(shù)據(jù)集分類147訓(xùn)練集TrainingSet用來獲得模型參數(shù)測(cè)試集TestingSet從訓(xùn)練集以外獨(dú)立采樣反映系統(tǒng)面對(duì)真實(shí)世界的處理能力測(cè)試集經(jīng)常被無(wú)意識(shí)地“做了手腳”交叉確認(rèn)集Cross-ValidationSet從訓(xùn)練集和測(cè)試集以外獨(dú)立采樣主要用來幫助做設(shè)計(jì)決策訓(xùn)練集TrainingSet148測(cè)試集測(cè)試集從訓(xùn)練集去評(píng)價(jià)系統(tǒng)的性能,結(jié)果往往過于樂觀如果模型的參數(shù)比需要的多很多時(shí),獲得100%的準(zhǔn)確率也是可能的過擬和(Over-fitting)常常出現(xiàn)在訓(xùn)練數(shù)據(jù)的數(shù)量不足以支持模型的復(fù)雜程度之時(shí)為此,我們需要另一個(gè)數(shù)據(jù)集來模擬用戶的真實(shí)需要測(cè)試集測(cè)試集149在設(shè)計(jì)階段,不允許偷看測(cè)試數(shù)據(jù)的細(xì)節(jié),以保證測(cè)試數(shù)據(jù)不被污染你不能參照測(cè)試數(shù)據(jù)來決定模型的復(fù)雜度,特征空間的維數(shù),以及什么時(shí)候決定停

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論