下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第三講基于詞的統(tǒng)計(jì)機(jī)器翻譯方中 計(jì)算技 內(nèi)容提為翻譯建立概率模IBM的信源信道模語言模型翻譯模型詞語對(duì)齊算算Candide系
n元語法模IBM1-Egypt工具包機(jī)器翻譯自動(dòng)評(píng) 為翻譯建立概率模假設(shè)任意一個(gè)英語句子e和一個(gè)法語句 其歸一化條件∑ ∣f e于是將f翻譯成e的問題就變成求解問e=argmax e 內(nèi)容提為翻譯建立概率模IBM的信源信道模語言模型翻譯模型詞語對(duì)齊算算Candide系
n元語法模IBM1-Egypt工具包機(jī)器翻譯自動(dòng)評(píng) 信源信道模型PeterF.Brown,JohnCocke,StephenA.DellaPietra,VincentJ.DellaPietra,FredrickJelinek,JohnD.Lafferty,RobertL.Mercer,PaulS.Roossin,AStatisticalApproachtoMachineTranslation,ComputationalLinguistics,1990 F信源信道模型FEE– 統(tǒng)計(jì)機(jī)器翻譯基本方程E=argmaxPEPE語言模型反映“E像一個(gè)句子”的程度:流F像E” 語言模型與翻譯模 統(tǒng)計(jì)機(jī)器翻譯的三個(gè)問三個(gè)問 內(nèi)容提為翻譯建立概率模IBM的信源信道模語言模型翻譯模型詞語對(duì)齊算算Candide系
n元語法模IBM1-Egypt工具包機(jī)器翻譯自動(dòng)評(píng) 語言模 E=e1e2...
∑ EE 語言模型的類 模型(HMM)(加入詞性標(biāo)記信息概率上下文無關(guān)語法(PCFG)(加入短語結(jié)構(gòu)信息概率鏈語法(ProbabilisticLinkGrammar)(加入鏈語法的結(jié)構(gòu)信 N元語法模型-概念辨所謂N-Gram,指的是由N個(gè)詞組成的串,可NN元詞串”?;贜-GramN元語法模型(N-GramModel)”。N-GrammarN元語法”的時(shí)候,有時(shí)N元組(N-GramN元語法模型(N-GramModel)”,請(qǐng)注意根據(jù)上下文加以辨別。 N元語法模型-定N元語法模型(N-gramModelnPw∏Pwi∣w1w2...wi1n≈∏Pwi∣wi? 1wi?N 2...假設(shè):?jiǎn)卧~wi出現(xiàn)的概率只與其前面 N元語法模型-舉–––相當(dāng)于一個(gè)三維轉(zhuǎn)移矩陣,給出每一個(gè)詞對(duì)兒后面出 二元語法模型-圖P(t-i-p)=P(X1=t)P(X2=i|X1=t)P(X3=p|X2==1.0×0.3×0.6= 袋子模型BagModel用N元語法模型試圖將其還 袋子模型BagModel 語言模型的平滑算 內(nèi)容提為翻譯建立概率模IBM的信源信道模語言模型翻譯模型詞語對(duì)齊算算Candide系
n元語法模IBM1-Egypt工具包機(jī)器翻譯自動(dòng)評(píng) 翻譯模翻譯模型P(F|E)反映的是一個(gè)源語言句 翻譯模型與對(duì)A: =∑ A翻譯概率P(F|E)的計(jì)算轉(zhuǎn)化為對(duì)齊概P(F,A|E)的估 詞語對(duì)齊的表 連 矩陣(見下頁 45給每個(gè)目標(biāo)語言詞標(biāo)記其所有對(duì) 的源語言單 89
個(gè)34997 詞語對(duì)齊的表個(gè) IBMP(F,A|E)的估IBMModel1僅考慮詞對(duì)詞的互譯概IBMModel3加入了一個(gè)詞翻譯成多個(gè)詞IBMModelIBMModel IBMModel1&2推導(dǎo)方式是我—個(gè)是我—個(gè)目標(biāo)語言句子F詞語對(duì)齊A IBMModel1&2推導(dǎo)方式::
F=fm= ... l E=el l A=am= a... ,?i∈{1,...,m},a m
j?1
,f
,m, f∣aj,f
,m,j=1
IBMModel1的推導(dǎo)
PP
1 ,f ,m,E 1P ∣aj,
j?1,m,E=tf IBMModel1的推導(dǎo)m
m j=
fj示為:j j j
m∑...∑
f
a1=1 am=1 j=1句子EF的概率。 IBMModel1的參數(shù)求在IBMModel1ε f∑ f f IBMModel1的參數(shù)求E和F我們要求解一t(f|eP(F|E)最大。為了求解這個(gè)問題,我們需要引入日乘子, IBMModel1的參數(shù)求 j j
m∑...∑
f
∑ f 1 1
=1 am=
j=1 l? = l
l...
f,
m∏ fk= ?? f
1
a1= am=
a
f IBMModel1的參數(shù)求 f∣e
?1 ∑...∑ f, f 1
am
a
k=
t(f|e)t(f|e,利用這個(gè)公式反復(fù)迭代,最后可以t(f|eEM算法。 IBMModel1的參數(shù)求jj∑e f =?1∑eA
,
∑j
j, 對(duì)齊Ae連接f的次E和FAef連m f∣e;F, ,fjj
j= IBMModel1的參數(shù)求 f∣e;F,
,E
,fmj j=1,mj∑ ,faj aj
j= λe,我們得到新的迭代公式e f =?1 e IBMModel1的參數(shù)求這個(gè)新的迭代公式可以理解P(F,A|E);有了每個(gè)詞語對(duì)齊的概率P(F,A|E),我們 (e,f)的詞語對(duì)齊概率之和,并對(duì)e進(jìn)行歸一化。這個(gè)迭代算法就是一個(gè)經(jīng)典的EM算法 IBMModel1的參數(shù)求F1,E F2,E , Fs∑e f∣e ?∑e
s,Es這里λe僅僅起到一個(gè)歸一化因子的作 IBMModel1EM訓(xùn)練示例(ab|xy)和(a只考慮詞語一對(duì)一的情況,不考慮詞語一對(duì)多或者對(duì)齊到空的情對(duì)齊概率計(jì)算的時(shí)候,忽略了詞語長(zhǎng)度和詞語對(duì)齊概率,僅考慮詞翻譯概 IBMModel1EM訓(xùn)練示例E步 M步m f∣e;F, ,fjj
j=∑e f∣e ∑e
s,Es IBMModel1EMP(F,A|E)
P(A|F,E) a1
IBMModel1EMc222122c222122c1=1222224c222124 IBMModel1EMP(F,A|E)
P(A|F,E)PA∣F,E=1/4= ∣F,E ∣F,E
/= /=ay
4
IBMModel1EMc4 344c4 344c1=144 48c4 1148 PA∣F,E PA∣F,E aPA∣F,Ey
Pa∣x IBMModel1前面IBMModel1 m∑...∑∏ fj j
a1=1 am=1
j=1其復(fù)雜度太高:
∑...∑∏ fj∣ea =∏∑ fa1=1 am=1 j=1 j=1i=1 IBMModel1 A
m∏ j=1i
f c(f|e;F,E) f∣e;F, f f
m∑j=1
l j,∑i=1
e, IBMModel2的推導(dǎo) a∣aj?1
,fj?1
,m, a∣j,m, l∑ i= IBMModel2的推導(dǎo) ∑...∑∏ fj∣ea aj∣j,m a1=0 am=0 j= ∏∑ f j=1 i= IBMModel2的參數(shù)求解 e f∣e ?1 f∣e;F,e =?1
f ,f0 f∣e;F, 0j=1i=0
f,
t
f m, i∣j,m,l;F,
f
f f , IBMModel2的參數(shù)求解F1,E F2,E , Fs,E∑∑e f∣e ?e
f∣e;
s,Es =?1
∑ s
s,Eλeμjml僅僅起到歸一化因子的作 IBMModel3&4&5推導(dǎo)方式
繁殖概1翻譯概
調(diào)序概 IBMModel3&4&5推導(dǎo)方式 IBMModel3的推 入的概率分別p1和p0φ0為插入的空單詞NULL的個(gè)設(shè)mm-prime+φ0lm是法語串的長(zhǎng)度;被占用)。任何一個(gè)賦值都被認(rèn)為是等概率的,概率值為1/φ0 M算公式進(jìn)行化簡(jiǎn)(IBMModel1所做的 Viterbi參數(shù)訓(xùn)練算 IBM模型的參數(shù)訓(xùn)練IBMModelIBMModel2~5 IBM模型的參數(shù)訓(xùn)練IBMModel12存在簡(jiǎn)化的迭代公I(xiàn)BMModel345的翻譯模型公式通常采ViterbiE步驟只生成 內(nèi)容提為翻譯建立概率模IBM的信源信道模語言模型翻譯模型詞語對(duì)齊算算Candide系
n元語法模IBM1-Egypt工具包機(jī)器翻譯自動(dòng)評(píng) 詞語對(duì)齊算IBM模型的柱搜索(BeamSearch) 內(nèi)容提為翻譯建立概率模IBM的信源信道模語言模型翻譯模型詞語對(duì)齊算算Candide系
n元語法模IBM1-Egypt工具包機(jī)器翻譯自動(dòng)評(píng) 統(tǒng)計(jì)機(jī)器翻譯FE,使P(E)*P(F|E)最 可以接受的個(gè)NP完全問題[Knight99]經(jīng)典的算單 …機(jī)器翻譯原理與方法(03)基于詞的統(tǒng)計(jì)機(jī)器翻譯方 單 貪 堆棧搜 算法[BrownetalUSPatent1st 2ndEnglish3rd
4th
allsource-Entirecoverage-Entirecoveragevector(sofar)ofsourceEachpartialtranslationhypothesisLastEnglishwordchosen+sourcewordscoveredbyNext-to-lastEnglishword-Languagemodelandtranslationmodelscores(soOch,Ueffing,andNey, 堆棧搜 算法[BrownetalUSPatent
1st 2ndEnglish3rd
4thbest
allsource-Entirecoverage-Entirecoveragevector(sofar)ofsourceEachpartialtranslationhypothesisLastEnglishwordchosen+sourcewordscoveredbyNext-to-lastEnglishword-Languagemodelandtranslationmodelscores(soOch,Ueffing,andNey, 算法–例子我的我的書我I的書the不考 概率(IBM模型1語言模型(略)Beamthebook 算法–例子(hypothesis)I譯文原文位I
算法–例子
Ithep(theIthep(the 算法–例子II 0.3the
0.50.5p(the 堆棧搜 算法–例子IIthep(the
堆棧搜 算法–例子ItheIthe
IIIthemymythebookthebookIIIthemymythebookthebook堆棧搜 算法–例子IIIIIthemy
thethebookmyIthemyIthe 堆棧搜 算法–例子ItheIthemythebookthebook
堆棧搜 算法–例子ItheIthemythebookthebook
mybookthebookIthebookofthebookofthebookmybookthebookIthebookofthebookofthebookofthebookof堆棧搜 算法–例子IIthe
mybookthebookIthebookof
mybookofthebookIofthebookofthebookofmethebookofmythebookofmine
堆棧搜 算法–例子ItheIthemythebookthebookmybookthebookofthebookof
堆棧搜 算法–例子ItheIthemythebookthebookmybookthebookofthebookof
堆棧搜 算法–例子
IthemythebookthebookmybookthebookofIthemythebookthebookmybookthebookofthebookof內(nèi)容提為翻譯建立概率模IBM的信源信道模語言模型翻譯模型詞語對(duì)齊算算Candide系
n元語法模IBM1-Egypt工具包機(jī)器翻譯自動(dòng)評(píng) IBM的Candide基于統(tǒng)計(jì)的機(jī)器翻譯方分析-轉(zhuǎn)換-生 分析(預(yù)處理1短語切分2.形態(tài)分析5. IBM的Candide轉(zhuǎn)換 ):基于統(tǒng)計(jì)的機(jī)器翻分為兩個(gè)階輸出140個(gè)評(píng)分最高的譯EMTrainedIBMModel IBM的Candide系統(tǒng)ARPA Time 內(nèi)容提為翻譯建立概率模IBM的信源信道模語言模型翻譯模型詞語對(duì)齊算算Candide系
n元語法模IBM1-Egypt工具包機(jī)器翻譯自動(dòng)評(píng) JHU1999年夏季研討 EGYPT工具GIZADecoder: Whittle EGYPT工具包的性“當(dāng) 很高興并驚異于其速度和性能。1990年代早期在IBM公司舉行的DARPA機(jī)器翻譯評(píng)價(jià)時(shí),我們?cè)?jīng)預(yù)計(jì)只 一個(gè)能夠在幾秒鐘之內(nèi)對(duì)25個(gè)單詞的句子進(jìn)行 值和約束,如下所述。但是, 這個(gè)方向未來的工作預(yù)示了很好的前景,并肯定了IBM 內(nèi)容提為翻譯建立概率模IBM的信源信道模語言模型翻譯模型詞語對(duì)齊算算Candide系
n元語法模IBM1-Egypt工具包機(jī)器翻譯自動(dòng)評(píng) 機(jī)器翻譯的評(píng)常見的人工評(píng)價(jià)指自動(dòng)評(píng)價(jià)的重要意 基于測(cè)試點(diǎn)的機(jī)器翻譯自動(dòng)評(píng) 基于編輯距離的機(jī)器翻譯自動(dòng)評(píng)Distance,用于計(jì)算兩個(gè)字符串之間的距離WER,PER,mWER, 機(jī)器翻譯自動(dòng)評(píng)價(jià):例Candidate1:ItisaguidetoactionwhichensuresthatmilitaryalwaysobeysthecommandoftheCandidate2:ItistoinsurethetroopsforeverhearingactivityguidebookthatpartyReference1:ItisaguidetoactionthatensuresthatmilitarywillforeverheedpartyReference2:ItistheguidingprinciplewhichguaranteesthemilitaryforcesalwaysbeingunderthecommandofthepartyReference3:Itisthepracticalguideforthearmytoheedthedirectionsoftheparty 簡(jiǎn)單計(jì)數(shù)方n-gram的正確率。unigram的正確率。 改進(jìn)的計(jì)數(shù)方考慮例子Candidate:thethethethethetheReference1:thecatisontheReference2:thereisacatonthe在這個(gè)例子中,如果采用簡(jiǎn)單計(jì)數(shù)方法,候選譯文unigram正確率將是100%,顯然是不合理數(shù)最多只能等于在同一個(gè)參考譯文中該詞出現(xiàn)最多的正確率只2/7。 改進(jìn)的計(jì)數(shù)方再看前面的例子Candidate1:ItisaguidetoactionwhichensuresthatthemilitaryalwaysobeysthecommandofthepartyCandidate2:ItistoinsurethetroopsforeverhearingactivityguidebookthatpartyReference1:ItisaguidetoactionthatensuresthatthemilitarywillforeverheedpartycommandsReference2:ItistheguidingprinciplewhichguaranteesthemilitaryforcesalwaysbeingunderthecommandoftheReference3:Itisthepracticalguideforthearmytoheedthedirectionsoftheparty而Candidate2的Bigram正確率只有 與忠實(shí)度和流利度的關(guān) N-Gram正確率的計(jì)算公 P=C∈{Candidates}n?gram∈ C'∈{Candidates}n?gram'∈C
n?gram'Count(n-gramn-gram在某個(gè)候選譯文中Countclip(n-gramn-gram在某個(gè)候選譯文 新問題 率問題Candidate1:ofReference1:ItisaguidetoactionthatensuresthatthemilitarywillforeverheedpartycommandsReference2:Itistheguidingprinciplewhich
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026內(nèi)蒙古真金種業(yè)科技有限公司招聘7人筆試備考題庫(kù)及答案解析
- 2026上海市事業(yè)單位招聘筆試備考試題及答案解析
- 武漢大學(xué)人民醫(yī)院科研助理招聘7人考試參考題庫(kù)及答案解析
- 2026四川九華光子通信技術(shù)有限公司招聘財(cái)務(wù)會(huì)計(jì)崗1人筆試備考題庫(kù)及答案解析
- 2026年增強(qiáng)現(xiàn)實(shí)行業(yè)解決方案培訓(xùn)
- 2026上半年貴州事業(yè)單位聯(lián)考貴州省民族宗教事務(wù)委員會(huì)招聘4人考試備考題庫(kù)及答案解析
- 2026年黃山祁門縣消防救援大隊(duì)政府專職消防員招聘1名筆試備考試題及答案解析
- 2026年應(yīng)急響應(yīng)處置流程培訓(xùn)
- 2026中國(guó)海峽人才市場(chǎng)南平工作部招聘見習(xí)生筆試參考題庫(kù)及答案解析
- 2026年建筑工程管理中的質(zhì)量控制與優(yōu)化
- hop安全培訓(xùn)課件
- 固井質(zhì)量監(jiān)督制度
- 中華人民共和國(guó)職業(yè)分類大典是(專業(yè)職業(yè)分類明細(xì))
- 2025年中考英語復(fù)習(xí)必背1600課標(biāo)詞匯(30天記背)
- 資產(chǎn)管理部2025年工作總結(jié)與2025年工作計(jì)劃
- 科技成果轉(zhuǎn)化技術(shù)平臺(tái)
- 下腔靜脈濾器置入術(shù)的護(hù)理查房
- 基建人員考核管理辦法
- 2025體育與健康課程標(biāo)準(zhǔn)深度解讀與教學(xué)實(shí)踐
- 礦山救援器材管理制度
- 2025西南民族大學(xué)輔導(dǎo)員考試試題及答案
評(píng)論
0/150
提交評(píng)論