版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第三章統(tǒng)計語言模型3.1概述
3.2N-gram模型
3.3平滑技術(shù)
3.3.1加一平滑
1.3.2其他平滑
目錄語言模型(LanguageModel,LM):一種用于計算詞序列(如:短語、句子、段落等)概率分布的模型。模型用于評估詞序列的合理性。3.1概述例
思考:哪個句子更像一個合理的句子?如何量化估計這句話的“合理程度”?3.1概述統(tǒng)計語言模型(StatisticLanguageModel,SLM):通過大規(guī)模文本數(shù)據(jù)的統(tǒng)計分析來描述詞語、語句甚至整個文檔的概率分布,用于評估句子或詞序列是否符合自然語言的規(guī)范。1.主要內(nèi)容:利用大型計算機和大規(guī)模的文本語料庫進行統(tǒng)計建模,分析詞語之間的搭配和出現(xiàn)頻率,從而推導(dǎo)出詞語的概率分布。
2.優(yōu)勢:不依賴于人為定義的語法規(guī)則,從實際語料中學(xué)習(xí)和推斷自然語言的規(guī)律,處理自然語言復(fù)雜性和動態(tài)性。3.2N-gram模型思考1:語言模型的計算復(fù)雜度?
基于N?1階馬爾可夫鏈的統(tǒng)計語言模型:假設(shè)當(dāng)前詞的出現(xiàn)的概率與其前N?1個連續(xù)的詞相關(guān)N元文法(N-gram)模型3.2N-gram模型
當(dāng)N=1時,稱為一元文法(Unigram或Monogram),每個詞出現(xiàn)的概率只與其自身的詞頻相關(guān)當(dāng)N=2時,稱為二元文法(Bigram),其基于1階馬爾可夫鏈構(gòu)造當(dāng)N=3時,稱為三元文法(Trigram),其基于2階馬爾可夫鏈構(gòu)造
對于二元模型,每個詞都與它左邊的最近的一個詞有關(guān)聯(lián),也就是對于P(A,B,C)=P(A)P(B|A)P(C|B)
比如語句:“貓,跳上,椅子”,P(A="貓",B="跳上",C="椅子")=P("貓")P(“跳上”)P("椅子");其中各個詞的數(shù)量數(shù)語料庫M中統(tǒng)計的數(shù)量比如語句:“貓,跳上,椅子”,P(A="貓",B="跳上",C="椅子")=P("貓")P(“跳上”|“貓”)P("椅子"|“跳上”);其中各個詞的數(shù)量數(shù)語料庫M中統(tǒng)計的數(shù)量
依據(jù)這些圖表一和圖表二就可以求出P(A,B,C),也就是這個句子的合理的概率.例3.2N-gram模型給定句子“Marrysingsasong”,計算該句子的概率。利用基于Bigram模型計算上述句子的概率為:上,椅子”,P(A="貓",B="跳上",C="椅子")=P("貓")P(“跳上”)P("椅子");其中各個詞的數(shù)量數(shù)語料庫M中統(tǒng)計的數(shù)量例3.2N-gram模型
根據(jù)上述文本,用極大似然估計計算后驗概率:,椅子”,P(A="貓",B="跳上",C="椅子")=P("貓")P(“跳上”)P("椅子");其中各個詞的數(shù)量數(shù)語料庫M中統(tǒng)計的數(shù)量例3.2N-gram模型“隨著人工智能技術(shù)的不斷發(fā)展,通用人工智能和數(shù)字經(jīng)濟領(lǐng)域的融合與交叉已成為科研和產(chǎn)業(yè)發(fā)展的重要趨勢。通用人工智能與數(shù)字經(jīng)濟創(chuàng)新團隊依托金融智能與金融工程四川省重點實驗室,面向國家“智改數(shù)轉(zhuǎn)”重大戰(zhàn)略需求,聚焦行業(yè)大模型研究,致力于探索大模型技術(shù)在數(shù)字經(jīng)濟領(lǐng)域的應(yīng)用潛力,推動人工智能技術(shù)與數(shù)字經(jīng)濟產(chǎn)業(yè)的創(chuàng)新發(fā)展?!?/p>
數(shù)據(jù)稀疏問題:統(tǒng)計語言模型中,訓(xùn)練數(shù)據(jù)中某些詞或短語可能從未出現(xiàn),或其上下文信息不足,導(dǎo)致模型在估計這些詞序列概率時可能出現(xiàn)零概率問題3.3平滑技術(shù)
在上面的場景中,由于部分單詞對出現(xiàn)的概率為0,導(dǎo)致最終兩句話出現(xiàn)的概率均為0。但實際上,s1=“今天沒有訓(xùn)練營”比s2=“今天訓(xùn)練營沒有”更符合語法習(xí)慣,我們也更希望計算出來的P(s1)大于P(s2)。為了解決上述問題,考慮引入平滑處理的技術(shù),來修正計算過程中的概率值,避免某一項概率為0導(dǎo)致整個句子的概率為0。例平滑技術(shù):為那些在訓(xùn)練數(shù)據(jù)中未出現(xiàn)或出現(xiàn)次數(shù)極少的單詞或短語提供一個非零的概率估計,從而使模型預(yù)測更為合理。主要的平滑技術(shù)加一平滑加K平滑古德-圖靈平滑插值平滑回退平滑絕對值平滑3.3平滑技術(shù)加一平滑(Add-oneSmoothing):通過將每個事件的觀察次數(shù)增加一個小常數(shù)(通常為1)來減小高頻事件的概率估計,然后將結(jié)果分配給低頻事件,以平滑概率估計。例如,對于Unigram,設(shè)w1,w2,w3
三個詞,概率分別為:1/3,0,2/3,加1后情況?引入加一平滑
例如,前面Bigram的例子:3.3平滑技術(shù):加一平滑基本思想:每一種情況出現(xiàn)的次數(shù)加1。加K平滑(Add-KSmoothing):加一平滑的泛化形式。每個統(tǒng)計單元的頻率計數(shù)增加了一個預(yù)定的常數(shù)K,而非單獨增加1。數(shù)學(xué)表達如下:3.3平滑技術(shù):加K平滑加K平滑能夠更靈活地調(diào)整平滑程度以適應(yīng)不同的數(shù)據(jù)分布。具體來說,通過合適地選擇K的值,可以在減少過度平滑與保持數(shù)據(jù)穩(wěn)健性之間達到更好的平衡。Discounting(折扣):通過減少常見事件的估計概率來提高對不常見事件的關(guān)注度Interpolation(插值):將多個語言模型組合在一起,通過分配權(quán)重和組合各個模型的概率來平滑概率估計,以提高語言模型的性能和泛化能力。Back-off(后退):是用于n-gram語言模型的一種平滑技術(shù)。在處理稀疏數(shù)據(jù)時,通過回退到較低階的n-gram來估計概率3.3平滑技術(shù):插值平滑插值平滑(InterpolationSmoothing):利用不同階數(shù)的N-gram模型來估算概率。具體來說,插值平滑將各階數(shù)模型的概率進行線性加權(quán)平均:
Discounting(折扣):通過減少常見事件的估計概率來提高對不常見事件的關(guān)注度Interpolation(插值):將多個語言模型組合在一起,通過分配權(quán)重和組合各個模型的概率來平滑概率估計,以提高語言模型的性能和泛化能力。Back-off(后退):是用于n-gram語言模型的一種平滑技術(shù)。在處理稀疏數(shù)據(jù)時,通過回退到較低階的n-gram來估計概率3.3平滑技術(shù):絕對值平滑絕對值平滑(AbsoluteDiscounting):直接從每個N元文法事件的觀察頻率中減去一個固定的值d,之后將剩余的概率質(zhì)量分配給未見或低頻事件。其
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 渠道開發(fā)合同范本
- 蘇皖簽了協(xié)議書
- 苗木聘請合同范本
- 莆田計生協(xié)議書
- 視頻服務(wù)協(xié)議書
- 認證協(xié)議書模板
- 設(shè)備交接協(xié)議書
- 設(shè)備風(fēng)險協(xié)議書
- 設(shè)計施工協(xié)議書
- 評委聘用協(xié)議書
- 劇組用車合同范本
- 2024年法律職業(yè)資格《客觀題卷一》試題及答案
- 鋼鐵廠勞務(wù)合同范本
- 2025年沈陽華晨專用車有限公司公開招聘筆試考試備考題庫及答案解析
- 職業(yè)技能競賽和技術(shù)比武活動方案
- 《面對挫折我不怕》課件
- 租打碟機合同范本
- 2025-2026學(xué)年上學(xué)期北京小學(xué)數(shù)學(xué)三年級期末典型卷2
- 2025四川成都東方廣益投資有限公司下屬企業(yè)招聘9人備考題庫(含答案詳解)
- 云南特色農(nóng)產(chǎn)品市場需求調(diào)研報告
- 2025課堂懲罰 主題班會:馬達加斯加企鵝課堂懲罰 課件
評論
0/150
提交評論