機(jī)器翻譯原理與方法講義03基于詞統(tǒng)計(jì)_第1頁
機(jī)器翻譯原理與方法講義03基于詞統(tǒng)計(jì)_第2頁
機(jī)器翻譯原理與方法講義03基于詞統(tǒng)計(jì)_第3頁
機(jī)器翻譯原理與方法講義03基于詞統(tǒng)計(jì)_第4頁
機(jī)器翻譯原理與方法講義03基于詞統(tǒng)計(jì)_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余101頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三講基于詞的統(tǒng)計(jì)機(jī)器翻譯方中 計(jì)算技 內(nèi)容提為翻譯建立概率模IBM的信源信道模語言模型翻譯模型詞語對(duì)齊算算Candide系

n元語法模IBM1-Egypt工具包機(jī)器翻譯自動(dòng)評(píng) 為翻譯建立概率模假設(shè)任意一個(gè)英語句子e和一個(gè)法語句 其歸一化條件∑ ∣f e于是將f翻譯成e的問題就變成求解問e=argmax e 內(nèi)容提為翻譯建立概率模IBM的信源信道模語言模型翻譯模型詞語對(duì)齊算算Candide系

n元語法模IBM1-Egypt工具包機(jī)器翻譯自動(dòng)評(píng) 信源信道模型PeterF.Brown,JohnCocke,StephenA.DellaPietra,VincentJ.DellaPietra,FredrickJelinek,JohnD.Lafferty,RobertL.Mercer,PaulS.Roossin,AStatisticalApproachtoMachineTranslation,ComputationalLinguistics,1990 F信源信道模型FEE– 統(tǒng)計(jì)機(jī)器翻譯基本方程E=argmaxPEPE語言模型反映“E像一個(gè)句子”的程度:流F像E” 語言模型與翻譯模 統(tǒng)計(jì)機(jī)器翻譯的三個(gè)問三個(gè)問 內(nèi)容提為翻譯建立概率模IBM的信源信道模語言模型翻譯模型詞語對(duì)齊算算Candide系

n元語法模IBM1-Egypt工具包機(jī)器翻譯自動(dòng)評(píng) 語言模 E=e1e2...

∑ EE 語言模型的類 模型(HMM)(加入詞性標(biāo)記信息概率上下文無關(guān)語法(PCFG)(加入短語結(jié)構(gòu)信息概率鏈語法(ProbabilisticLinkGrammar)(加入鏈語法的結(jié)構(gòu)信 N元語法模型-概念辨所謂N-Gram,指的是由N個(gè)詞組成的串,可NN元詞串”?;贜-GramN元語法模型(N-GramModel)”。N-GrammarN元語法”的時(shí)候,有時(shí)N元組(N-GramN元語法模型(N-GramModel)”,請(qǐng)注意根據(jù)上下文加以辨別。 N元語法模型-定N元語法模型(N-gramModelnPw∏Pwi∣w1w2...wi1n≈∏Pwi∣wi? 1wi?N 2...假設(shè):?jiǎn)卧~wi出現(xiàn)的概率只與其前面 N元語法模型-舉–––相當(dāng)于一個(gè)三維轉(zhuǎn)移矩陣,給出每一個(gè)詞對(duì)兒后面出 二元語法模型-圖P(t-i-p)=P(X1=t)P(X2=i|X1=t)P(X3=p|X2==1.0×0.3×0.6= 袋子模型BagModel用N元語法模型試圖將其還 袋子模型BagModel 語言模型的平滑算 內(nèi)容提為翻譯建立概率模IBM的信源信道模語言模型翻譯模型詞語對(duì)齊算算Candide系

n元語法模IBM1-Egypt工具包機(jī)器翻譯自動(dòng)評(píng) 翻譯模翻譯模型P(F|E)反映的是一個(gè)源語言句 翻譯模型與對(duì)A: =∑ A翻譯概率P(F|E)的計(jì)算轉(zhuǎn)化為對(duì)齊概P(F,A|E)的估 詞語對(duì)齊的表 連 矩陣(見下頁 45給每個(gè)目標(biāo)語言詞標(biāo)記其所有對(duì) 的源語言單 89

個(gè)34997 詞語對(duì)齊的表個(gè) IBMP(F,A|E)的估IBMModel1僅考慮詞對(duì)詞的互譯概IBMModel3加入了一個(gè)詞翻譯成多個(gè)詞IBMModelIBMModel IBMModel1&2推導(dǎo)方式是我—個(gè)是我—個(gè)目標(biāo)語言句子F詞語對(duì)齊A IBMModel1&2推導(dǎo)方式::

F=fm= ... l E=el l A=am= a... ,?i∈{1,...,m},a m

j?1

,f

,m, f∣aj,f

,m,j=1

IBMModel1的推導(dǎo)

PP

1 ,f ,m,E 1P ∣aj,

j?1,m,E=tf IBMModel1的推導(dǎo)m

m j=

fj示為:j j j

m∑...∑

f

a1=1 am=1 j=1句子EF的概率。 IBMModel1的參數(shù)求在IBMModel1ε f∑ f f IBMModel1的參數(shù)求E和F我們要求解一t(f|eP(F|E)最大。為了求解這個(gè)問題,我們需要引入日乘子, IBMModel1的參數(shù)求 j j

m∑...∑

f

∑ f 1 1

=1 am=

j=1 l? = l

l...

f,

m∏ fk= ?? f

1

a1= am=

a

f IBMModel1的參數(shù)求 f∣e

?1 ∑...∑ f, f 1

am

a

k=

t(f|e)t(f|e,利用這個(gè)公式反復(fù)迭代,最后可以t(f|eEM算法。 IBMModel1的參數(shù)求jj∑e f =?1∑eA

,

∑j

j, 對(duì)齊Ae連接f的次E和FAef連m f∣e;F, ,fjj

j= IBMModel1的參數(shù)求 f∣e;F,

,E

,fmj j=1,mj∑ ,faj aj

j= λe,我們得到新的迭代公式e f =?1 e IBMModel1的參數(shù)求這個(gè)新的迭代公式可以理解P(F,A|E);有了每個(gè)詞語對(duì)齊的概率P(F,A|E),我們 (e,f)的詞語對(duì)齊概率之和,并對(duì)e進(jìn)行歸一化。這個(gè)迭代算法就是一個(gè)經(jīng)典的EM算法 IBMModel1的參數(shù)求F1,E F2,E , Fs∑e f∣e ?∑e

s,Es這里λe僅僅起到一個(gè)歸一化因子的作 IBMModel1EM訓(xùn)練示例(ab|xy)和(a只考慮詞語一對(duì)一的情況,不考慮詞語一對(duì)多或者對(duì)齊到空的情對(duì)齊概率計(jì)算的時(shí)候,忽略了詞語長(zhǎng)度和詞語對(duì)齊概率,僅考慮詞翻譯概 IBMModel1EM訓(xùn)練示例E步 M步m f∣e;F, ,fjj

j=∑e f∣e ∑e

s,Es IBMModel1EMP(F,A|E)

P(A|F,E) a1

IBMModel1EMc222122c222122c1=1222224c222124 IBMModel1EMP(F,A|E)

P(A|F,E)PA∣F,E=1/4= ∣F,E ∣F,E

/= /=ay

4

IBMModel1EMc4 344c4 344c1=144 48c4 1148 PA∣F,E PA∣F,E aPA∣F,Ey

Pa∣x IBMModel1前面IBMModel1 m∑...∑∏ fj j

a1=1 am=1

j=1其復(fù)雜度太高:

∑...∑∏ fj∣ea =∏∑ fa1=1 am=1 j=1 j=1i=1 IBMModel1 A

m∏ j=1i

f c(f|e;F,E) f∣e;F, f f

m∑j=1

l j,∑i=1

e, IBMModel2的推導(dǎo) a∣aj?1

,fj?1

,m, a∣j,m, l∑ i= IBMModel2的推導(dǎo) ∑...∑∏ fj∣ea aj∣j,m a1=0 am=0 j= ∏∑ f j=1 i= IBMModel2的參數(shù)求解 e f∣e ?1 f∣e;F,e =?1

f ,f0 f∣e;F, 0j=1i=0

f,

t

f m, i∣j,m,l;F,

f

f f , IBMModel2的參數(shù)求解F1,E F2,E , Fs,E∑∑e f∣e ?e

f∣e;

s,Es =?1

∑ s

s,Eλeμjml僅僅起到歸一化因子的作 IBMModel3&4&5推導(dǎo)方式

繁殖概1翻譯概

調(diào)序概 IBMModel3&4&5推導(dǎo)方式 IBMModel3的推 入的概率分別p1和p0φ0為插入的空單詞NULL的個(gè)設(shè)mm-prime+φ0lm是法語串的長(zhǎng)度;被占用)。任何一個(gè)賦值都被認(rèn)為是等概率的,概率值為1/φ0 M算公式進(jìn)行化簡(jiǎn)(IBMModel1所做的 Viterbi參數(shù)訓(xùn)練算 IBM模型的參數(shù)訓(xùn)練IBMModelIBMModel2~5 IBM模型的參數(shù)訓(xùn)練IBMModel12存在簡(jiǎn)化的迭代公I(xiàn)BMModel345的翻譯模型公式通常采ViterbiE步驟只生成 內(nèi)容提為翻譯建立概率模IBM的信源信道模語言模型翻譯模型詞語對(duì)齊算算Candide系

n元語法模IBM1-Egypt工具包機(jī)器翻譯自動(dòng)評(píng) 詞語對(duì)齊算IBM模型的柱搜索(BeamSearch) 內(nèi)容提為翻譯建立概率模IBM的信源信道模語言模型翻譯模型詞語對(duì)齊算算Candide系

n元語法模IBM1-Egypt工具包機(jī)器翻譯自動(dòng)評(píng) 統(tǒng)計(jì)機(jī)器翻譯FE,使P(E)*P(F|E)最 可以接受的個(gè)NP完全問題[Knight99]經(jīng)典的算單 …機(jī)器翻譯原理與方法(03)基于詞的統(tǒng)計(jì)機(jī)器翻譯方 單 貪 堆棧搜 算法[BrownetalUSPatent1st 2ndEnglish3rd

4th

allsource-Entirecoverage-Entirecoveragevector(sofar)ofsourceEachpartialtranslationhypothesisLastEnglishwordchosen+sourcewordscoveredbyNext-to-lastEnglishword-Languagemodelandtranslationmodelscores(soOch,Ueffing,andNey, 堆棧搜 算法[BrownetalUSPatent

1st 2ndEnglish3rd

4thbest

allsource-Entirecoverage-Entirecoveragevector(sofar)ofsourceEachpartialtranslationhypothesisLastEnglishwordchosen+sourcewordscoveredbyNext-to-lastEnglishword-Languagemodelandtranslationmodelscores(soOch,Ueffing,andNey, 算法–例子我的我的書我I的書the不考 概率(IBM模型1語言模型(略)Beamthebook 算法–例子(hypothesis)I譯文原文位I

算法–例子

Ithep(theIthep(the 算法–例子II 0.3the

0.50.5p(the 堆棧搜 算法–例子IIthep(the

堆棧搜 算法–例子ItheIthe

IIIthemymythebookthebookIIIthemymythebookthebook堆棧搜 算法–例子IIIIIthemy

thethebookmyIthemyIthe 堆棧搜 算法–例子ItheIthemythebookthebook

堆棧搜 算法–例子ItheIthemythebookthebook

mybookthebookIthebookofthebookofthebookmybookthebookIthebookofthebookofthebookofthebookof堆棧搜 算法–例子IIthe

mybookthebookIthebookof

mybookofthebookIofthebookofthebookofmethebookofmythebookofmine

堆棧搜 算法–例子ItheIthemythebookthebookmybookthebookofthebookof

堆棧搜 算法–例子ItheIthemythebookthebookmybookthebookofthebookof

堆棧搜 算法–例子

IthemythebookthebookmybookthebookofIthemythebookthebookmybookthebookofthebookof內(nèi)容提為翻譯建立概率模IBM的信源信道模語言模型翻譯模型詞語對(duì)齊算算Candide系

n元語法模IBM1-Egypt工具包機(jī)器翻譯自動(dòng)評(píng) IBM的Candide基于統(tǒng)計(jì)的機(jī)器翻譯方分析-轉(zhuǎn)換-生 分析(預(yù)處理1短語切分2.形態(tài)分析5. IBM的Candide轉(zhuǎn)換 ):基于統(tǒng)計(jì)的機(jī)器翻分為兩個(gè)階輸出140個(gè)評(píng)分最高的譯EMTrainedIBMModel IBM的Candide系統(tǒng)ARPA Time 內(nèi)容提為翻譯建立概率模IBM的信源信道模語言模型翻譯模型詞語對(duì)齊算算Candide系

n元語法模IBM1-Egypt工具包機(jī)器翻譯自動(dòng)評(píng) JHU1999年夏季研討 EGYPT工具GIZADecoder: Whittle EGYPT工具包的性“當(dāng) 很高興并驚異于其速度和性能。1990年代早期在IBM公司舉行的DARPA機(jī)器翻譯評(píng)價(jià)時(shí),我們?cè)?jīng)預(yù)計(jì)只 一個(gè)能夠在幾秒鐘之內(nèi)對(duì)25個(gè)單詞的句子進(jìn)行 值和約束,如下所述。但是, 這個(gè)方向未來的工作預(yù)示了很好的前景,并肯定了IBM 內(nèi)容提為翻譯建立概率模IBM的信源信道模語言模型翻譯模型詞語對(duì)齊算算Candide系

n元語法模IBM1-Egypt工具包機(jī)器翻譯自動(dòng)評(píng) 機(jī)器翻譯的評(píng)常見的人工評(píng)價(jià)指自動(dòng)評(píng)價(jià)的重要意 基于測(cè)試點(diǎn)的機(jī)器翻譯自動(dòng)評(píng) 基于編輯距離的機(jī)器翻譯自動(dòng)評(píng)Distance,用于計(jì)算兩個(gè)字符串之間的距離WER,PER,mWER, 機(jī)器翻譯自動(dòng)評(píng)價(jià):例Candidate1:ItisaguidetoactionwhichensuresthatmilitaryalwaysobeysthecommandoftheCandidate2:ItistoinsurethetroopsforeverhearingactivityguidebookthatpartyReference1:ItisaguidetoactionthatensuresthatmilitarywillforeverheedpartyReference2:ItistheguidingprinciplewhichguaranteesthemilitaryforcesalwaysbeingunderthecommandofthepartyReference3:Itisthepracticalguideforthearmytoheedthedirectionsoftheparty 簡(jiǎn)單計(jì)數(shù)方n-gram的正確率。unigram的正確率。 改進(jìn)的計(jì)數(shù)方考慮例子Candidate:thethethethethetheReference1:thecatisontheReference2:thereisacatonthe在這個(gè)例子中,如果采用簡(jiǎn)單計(jì)數(shù)方法,候選譯文unigram正確率將是100%,顯然是不合理數(shù)最多只能等于在同一個(gè)參考譯文中該詞出現(xiàn)最多的正確率只2/7。 改進(jìn)的計(jì)數(shù)方再看前面的例子Candidate1:ItisaguidetoactionwhichensuresthatthemilitaryalwaysobeysthecommandofthepartyCandidate2:ItistoinsurethetroopsforeverhearingactivityguidebookthatpartyReference1:ItisaguidetoactionthatensuresthatthemilitarywillforeverheedpartycommandsReference2:ItistheguidingprinciplewhichguaranteesthemilitaryforcesalwaysbeingunderthecommandoftheReference3:Itisthepracticalguideforthearmytoheedthedirectionsoftheparty而Candidate2的Bigram正確率只有 與忠實(shí)度和流利度的關(guān) N-Gram正確率的計(jì)算公 P=C∈{Candidates}n?gram∈ C'∈{Candidates}n?gram'∈C

n?gram'Count(n-gramn-gram在某個(gè)候選譯文中Countclip(n-gramn-gram在某個(gè)候選譯文 新問題 率問題Candidate1:ofReference1:ItisaguidetoactionthatensuresthatthemilitarywillforeverheedpartycommandsReference2:Itistheguidingprinciplewhich

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論