統(tǒng)計(jì)機(jī)器翻譯研究進(jìn)展_第1頁
統(tǒng)計(jì)機(jī)器翻譯研究進(jìn)展_第2頁
統(tǒng)計(jì)機(jī)器翻譯研究進(jìn)展_第3頁
統(tǒng)計(jì)機(jī)器翻譯研究進(jìn)展_第4頁
統(tǒng)計(jì)機(jī)器翻譯研究進(jìn)展_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、統(tǒng)計(jì)機(jī)器翻譯研究進(jìn)展,杜金華,Outline,Overview: SMT at CASIA Baseline System Recent Improvements 目前研究方向 Parsing/Syntax-based SMT 長(zhǎng)句分析/骨干關(guān)聯(lián)分析 中文Base NP的研究 中文命名實(shí)體 總結(jié)與致謝,Baseline System For NIST MT-06 Evaluation,Phrase-based Translation with Variable Template Substitution word align corpus, using GIZA+ and Ochs refin

2、ed method collect phrase pairs consistent with word alignment SRILM language model log-linear model to combine model components beam search decoder,System Components,reordering model language model trigram LM trained using SRILM toolkit phrase translation model f - e phrase translation model e - f w

3、ord translation model f - e word translation model e - f,Examples,Variable Template Substitution 對(duì)數(shù)字,時(shí)間,人名,地名進(jìn)行雙語替換 如: 我 的 房間 號(hào) 是 301 。-我 的 房間 號(hào) 是 _digit 。 My room number is 301 . - My room number is _DIGIT . 短語模板(抽取短語長(zhǎng)度 from _LOCATION to _LOCATION 1.47961e-002 您 將 在 _timep 離開 _location | you ll lea

4、ve _LOCATION at _TIMEP 3.30669e-002,Recent Improvements,更新了漢語分詞與命名實(shí)體識(shí)別模塊,降低了因此而引入的噪音 改進(jìn)了短語抽取與概率計(jì)算模塊 4-Gram language model 最小錯(cuò)誤率參數(shù)訓(xùn)練 根據(jù)Ashish Venugopal的matlab版本改寫 后處理模塊 近期計(jì)劃針對(duì)NIST MT-06任務(wù)使用改進(jìn)的系統(tǒng)進(jìn)行一次評(píng)測(cè)試驗(yàn),目前研究方向,Parsing/Syntax-based SMT 長(zhǎng)句分析/骨干關(guān)聯(lián)分析 中文Base NP的研究 中文命名實(shí)體,Parsing/Syntax-based SMT,基于中文句法分析器

5、的研究 實(shí)現(xiàn)了基于頭驅(qū)動(dòng)的句法分析器 基于骨架依存概念的翻譯 基于英文句法分析器的研究 利用英文Parser構(gòu)造syntax-based SMT系統(tǒng) 基于句法分析的SMT Tree-to-String String-to-Tree,基于骨架依存概念的翻譯,骨架依存概念 刻畫了樹上各個(gè)結(jié)點(diǎn)之間的關(guān)系:一般主要是中心詞與它相鄰結(jié)點(diǎn)的支配與被支配關(guān)系。 基于依存樹的句法分析能為機(jī)器翻譯提供有用的結(jié)構(gòu)信息,骨架依存樹: 目標(biāo)是:僅分析出句子的整體句法結(jié)構(gòu)。 整體句法結(jié)構(gòu)用該句的中心詞及其直接支配成分來表示。 骨架依存樹考慮語句的整體結(jié)構(gòu)信息和詞匯語義信息的同時(shí),避免對(duì)語句進(jìn)行復(fù)雜的分析,基于骨架依存樹

6、的翻譯,我們的設(shè)想 基本思想是一種分層次的翻譯模型,由骨架映射-短語翻譯-詞翻譯的逐層細(xì)化的過程。 我們已經(jīng)能夠進(jìn)行短語及詞一級(jí)的翻譯,現(xiàn)在問題的關(guān)鍵是如何找到子句的骨架,并利用骨架變換來描述兩種語言的結(jié)構(gòu)變換。 將骨架變換形式化為轉(zhuǎn)換規(guī)則(lexical and non-lexical),并統(tǒng)一到概率的框架下。,長(zhǎng)句分析/骨干(Skeleton)關(guān)聯(lián)分析,長(zhǎng)句分析 目前仍無有效的方法對(duì)長(zhǎng)句進(jìn)行Parsing或者翻譯 目前對(duì)長(zhǎng)句的處理只是研究如何將其切分 NIST語料中FBIS中的長(zhǎng)句特點(diǎn) 并列成分多 修飾語過多 語言結(jié)構(gòu)層次多 插入語,Examples,我們堅(jiān)信,有馬列主義、毛澤東 思想和鄧

7、小平理論的指引,有以江澤民同志為核心的黨中央的正確領(lǐng)導(dǎo),有全軍 官兵的團(tuán)結(jié)奮斗,有全國(guó)各族人民的大力支持,我們的目標(biāo)一定能夠達(dá)到。 大亞灣核電站總經(jīng)理劉錫才說,這是高起點(diǎn)起步的結(jié)果,是中央英明決策,決定全面引進(jìn)先進(jìn)而成熟的百萬千瓦級(jí)大型商業(yè)核電技術(shù)和設(shè)備,并按國(guó)際標(biāo)準(zhǔn)建造和管理的結(jié)果,是公司員工堅(jiān)持創(chuàng)新、追求卓越、趕超世界先進(jìn)水平長(zhǎng)期努力的結(jié)果。 美國(guó)新聞署的一份材料承認(rèn):“美國(guó)在其大部分歷史上未能確保許多公民尤其是非洲裔美國(guó)人、土著美國(guó)人和所有婦女的基本人權(quán)?!?骨干關(guān)聯(lián)分析,骨干關(guān)聯(lián)分析 研究目標(biāo):以長(zhǎng)句分析為切入點(diǎn),對(duì)句子骨干關(guān)聯(lián)結(jié)構(gòu)進(jìn)行分析,以服務(wù)于統(tǒng)計(jì)機(jī)器翻譯 研究任務(wù): 句子骨干識(shí)

8、別及之間結(jié)構(gòu)關(guān)聯(lián)分析 雙語骨干映射關(guān)系 基于骨干分析的翻譯,骨干關(guān)聯(lián)分析,骨干(Skeleton)的定義 句子骨干在句法結(jié)構(gòu)上首先是一個(gè)句子成分,可以是并列關(guān)系、從屬關(guān)系或者其他屬性描述關(guān)系,其在意義表示上具有相對(duì)獨(dú)立性,骨干內(nèi)部具有相對(duì)完整的句法結(jié)構(gòu)(隱式或顯式) 其次,句子的不同骨干是由不同的特征集合進(jìn)行區(qū)分,特征的選擇能夠識(shí)別骨干的邊界 雙語骨干關(guān)聯(lián)結(jié)構(gòu)映射 建立雙語骨干對(duì)應(yīng)關(guān)系,為翻譯過程中目標(biāo)語言重排序服務(wù),基于骨干關(guān)聯(lián)分析的翻譯,中文Base NP,Base NP 識(shí)別的作用 自然語言處理的基本任務(wù)之一 Base NP比單個(gè)詞語含有更豐富的語言信息,歧義少;與整句 parsing相

9、比較,工作量小,更具實(shí)際應(yīng)用價(jià)值。 其他自然語言研究的基礎(chǔ) 例:信息檢索系統(tǒng), 機(jī)器翻譯,其他短語識(shí)別,基于文本的生物信息獲取(biology),等等。,什么是Base NP?,基本名詞短語(base noun phrase, base NP),簡(jiǎn)單的,非嵌套的名詞短語,不含有其他的子項(xiàng)短語。 Zhao Jun, Huang Changning, 1998 給出了Base NP 的嚴(yán)格形式化定義 Base NP 的嚴(yán)格形式化定義 Base NP := Base NP + Base NP Base NP := Base NP + 名詞 | 名動(dòng)詞 Base NP := 限定性定詞 + Base

10、NP | 名詞 限定性定詞 := 形容詞 | 區(qū)別詞 | 動(dòng)詞 | 名詞 | 處所詞 | 數(shù)量詞 | 外文字串 Zhao Tiejun et al, 2001 進(jìn)一步對(duì)漢語基本短語進(jìn)行了研究,提出了7種形式的漢語基本短語,中文base NP訓(xùn)練測(cè)試集的建立,在Penn Chinese Treebank 5.0和英文base NP語料庫建立方法基礎(chǔ)上,加入了針對(duì)中文的詞性和句法特征,建立較為完善的大規(guī)模base NP訓(xùn)練測(cè)試語料,約50萬中文詞。,中文Base NP,中文Base NP識(shí)別的的算法 采用兩級(jí)分類器 第一級(jí):采用TBL和CRF兩個(gè)分類器 第二級(jí):采用SVM分類器 算法流程,試驗(yàn)結(jié)果

11、,中文命名實(shí)體,基于WFST(Weighted Finite State Transducer )框架 的命名實(shí)體識(shí)別與翻譯 Finite-State models (FSM) and, in particular, WFST have proven quite successful in many fields of written and spoken language processing. This includes in particular machine translation, large vocabulary continuous speech recognition and

12、 speech synthesis. An interesting feature of FSMs is that they can be automatically built or learned from training data using corpusbased techniques. Compared to more traditional knowledgebased approaches, these techniques are attractive for their potential of much lower development costs. Another i

13、nteresting property of FSMs is their feasibility for implementing or approximating knowledge-based techniques. Different knowledge sources can hence be represented via FSMs, thus allowing the integration of a priori knowledge with inductive techniques in a natural and formally elegant way. This makes the FSM framework an adequate one for language process

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論