CWMT’08統(tǒng)計機器翻譯研討會自動化所技術報告_第1頁
CWMT’08統(tǒng)計機器翻譯研討會自動化所技術報告_第2頁
CWMT’08統(tǒng)計機器翻譯研討會自動化所技術報告_第3頁
CWMT’08統(tǒng)計機器翻譯研討會自動化所技術報告_第4頁
CWMT’08統(tǒng)計機器翻譯研討會自動化所技術報告_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、CWMT08統(tǒng)計機器翻譯研討會自動化所技術報告,何彥青 2008年11月27日,報告提綱,引言 參評系統(tǒng)描述 實驗結果 結論,引 言,自動化所作為參評單位之一參加了所有的四個評測任務,即: 新聞的漢英翻譯評測任務; 新聞的英漢翻譯評測任務; 科技的英漢翻譯評測任務 新聞的漢英融合評測任務。,參評系統(tǒng)描述,在這次評測中我們共有四個系統(tǒng)參加,即: 自主開發(fā)的基于短語的翻譯系統(tǒng)(BPSMT); 開源基于短語的翻譯系統(tǒng)(Moses); 基于中心詞的概率化句法調序系統(tǒng)Bandore; 基于詞語調序的對齊方法融合系統(tǒng)(WRABC)。,BPSMT,模型訓練: 語言模型利用開源Srilm工具包來獲取四元文法概

2、率信息; 翻譯模型主要是根據(jù)開源Moses工具包來獲取翻譯短語表,其中的參數(shù)設置都利用Moses工具包的默認設置; 解碼算法采用Beam-Search進行單調搜索獲取翻譯結果。,Moses,模型訓練: 利用Moses的默認設置來進行訓練解碼 只用到了詞這一個信息作為特征,沒有使用因子模型。,Bandore,作為前端調序處理; 關鍵思想: 基于中心詞的調序,中心詞包括動詞與名詞,調序的候選對象是動詞修飾語以及名詞修飾語;,Bandore,方法概要: 由一個源語言句子得到一棵句法樹; 從句法樹的根開始遞歸地考察每一個動詞短語和名詞短語,并利用最大熵的方法指導訓練中心詞(動詞、名詞)的修飾語是否需調

3、至中心詞的另一側。,WRABC,WRABC (續(xù)),在基于詞的系統(tǒng)融合流程中,詞對齊的質量直接關系到系統(tǒng)融合的性能。 現(xiàn)階段用于系統(tǒng)融合的詞對齊包括基于詞錯誤率 (WER)的詞對齊和基于翻譯錯誤率(TER)的詞對齊;,WRABC (續(xù)),WER詞對齊方法和TER詞對齊方法能較好地對齊詞序相同的翻譯假設。 當對齊的翻譯假設間詞序有很大不同時,WER詞對齊方法完全忽略詞序的不同; TER詞對齊準則雖然理論上解決了這個問題,但是TER詞對齊準則采用的貪心搜索算法,在很多情況下無法實現(xiàn)大范圍的詞語塊的調序。,WRABC (續(xù)),我們使用基于詞語調序的對齊方法(WRA)。 找出待對齊的翻譯假設和參考對齊

4、之間的所有公共的連續(xù)詞語塊; 進行局部對齊; 在局部對齊關系中尋找交叉的詞語塊對; 利用已對齊的局部詞語塊的位置作為參考,對有詞序變化的詞語塊位置進行調整。,WRABC (續(xù)),采用單純形算法調整參數(shù); 在詞對齊時選擇的參考對齊是從所有參與融合系統(tǒng)的top-Best中抽取得到: 依次把每個系統(tǒng)的top-Best用BLEU4打分,打分時參考譯文為其它系統(tǒng)的top-Best,然后用MBR解碼選擇得分最高的top-Best為參考對齊;,操作系統(tǒng)性能,評測實驗及結果,機器翻譯評測 新聞漢英翻譯評測; 新聞英漢翻譯評測; 科技英漢翻譯評測; 系統(tǒng)融合評測 新聞漢英融合評測;,機器翻譯評測,數(shù)據(jù)準備 短語

5、表的獲取 開發(fā)集的獲取 對測試語料的特殊處理 實驗結果,數(shù)據(jù)準備,預處理,對中文數(shù)據(jù)進行的處理: 中文的分詞,ICTCLAS3.0; 全角變半角, 對英文數(shù)據(jù)進行的處理: 大寫轉小寫 標點符號的分離處理。,短語表的獲取,所有機器翻譯參評項目的短語表都是利用Moses工具包進行訓練獲取的,其中的參數(shù)都利用Moses工具包的默認設置。,開發(fā)集的獲取,開發(fā)集的獲取,新聞評測任務 以SSMT07的測試集作為基準 利用相似度從剩余開發(fā)集中過濾一部分開發(fā)集 與SSMT07測試集合并 科技評測任務 開發(fā)集1:以測試集為基準;利用相似度從科技訓練語料中抽取一部分作為開發(fā)集; 開發(fā)集2:利用測試集跟新聞發(fā)布訓練

6、中的英漢開發(fā)集的相似度來進行篩選過濾出來 把這兩個開發(fā)集合并成最終用于科技評測任務的開發(fā)集。,對測試語料的特殊處理,這次評測使用的是時事新聞語料和科技語料 包含大量的命名實體,包括:人名、地名、機構名、時間、數(shù)字及未登陸詞 對測試語料進行特殊處理是很有必要的。,對測試語料的特殊處理,對這些實體詞進行特殊處理并獲得翻譯列表,設置一個較大的概率添加到訓練獲得的翻譯短語對中對測試語料進行解碼。,命名實體識別翻譯,中文命名實體識別 采用Wu,2005開發(fā)的多知識源融合的漢語實體識別系統(tǒng)進行漢語命名實體的識別; 英文命名實體識別 采用公開的Mallet軟件包中的基于條件隨機場模型(Conditional

7、 Random Fields,CRF)的英語實體標注工具進行英語命名實體的識別標注;,命名實體識別翻譯,漢英實體翻譯 對人名和地名:采用字典查詢方式進行翻譯 機構名的翻譯:利用基于語塊的層次翻譯模型; 英漢實體翻譯 對各類實體都采用逐詞查詢字典的方式進行翻譯; 所利用的詞典主要是LDC2005T34實體詞典和LDC2002L27詞典。,時間數(shù)字識別與翻譯,時間數(shù)字識別和翻譯主要是利用規(guī)則方法,將時間數(shù)字細化為六類來進行處理: 1、數(shù)量(Number); 2、序數(shù)詞(Ordinal); 3、號碼(Figure); 4、月份(Month); 5、日期(Date); 6、星期(Week)。,未登陸詞

8、識別與翻譯,采用n元語法進行識別 首先通過對比測試集和訓練集,找出測試集中的一元未登錄詞,并將中文一元未登錄詞周圍的三元詞組都作為未登錄詞,將英文一元未登錄詞周圍的五元未登錄詞組都作為未登錄詞; 未登錄詞的翻譯 主要是依賴LDC2005T34實體詞典和LDC2002L27詞典,后處理,漢語的后處理: 合并空格 英文的后處理: 字母大小寫 標點符號的合并。,實驗結果,新聞漢英評測任務在開發(fā)集上的打分,新聞英漢評測任務在開發(fā)集上的打分,科技評測任務在開發(fā)集上的打分,實驗結果(續(xù)),所有翻譯評測任務在測試集上的翻譯結果,系統(tǒng)融合評測,10家單位的17個系統(tǒng)在開發(fā)集上的BLEU打分,不同方式的系統(tǒng)融合后翻譯結果的BLEU得分(WRABC),系統(tǒng)融合評測(續(xù)),利用不同的詞對齊策略進行系統(tǒng)融合后翻譯結果的BLEU得分,系統(tǒng)融合評測任務在測試集上的翻譯結果,結 論,BPSMT只是使用了單調解碼,因為沒有加入調序模塊,所以翻譯結果并不是十分理想; Bandore系統(tǒng)的調序模型以前主要針對口語語料來做的,這次針對新聞語料只是對測試語料進行了調序,效果上也不太理想,要想取得更好的效果,我們需要對訓練語料以及開發(fā)集都進行調序,以取得訓練與測試集的一致性;,結 論,融合系統(tǒng)采用了目前主流的系統(tǒng)融合方法,并做了部分改進,但是還有很多工作需要進一步

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論