版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
跨語言信息檢索背景供求矛盾供不應求怎么辦?供不應求減少需求增加供應跨語言信息檢索跨語言信息檢索為了消除網(wǎng)絡資源利用中的語言障礙,跨語言信息檢索技術(shù)成為當前信息檢索領(lǐng)域中重要的研究課題。跨語言信息檢索Cross-LanguageInformationRetrieval(CLIR)是指用戶以一種語言提問檢出另一種語言或多種語言描述的相關(guān)信息的方法跨語言檢索=傳統(tǒng)檢索+機器翻譯網(wǎng)頁互聯(lián)網(wǎng)匹配檢索結(jié)果用戶需求網(wǎng)頁采集分析處理機器翻譯建立索引索引庫機器翻譯機器翻譯機器翻譯利用計算機將一種語言翻譯成另一種語言文本翻譯語音翻譯語音識別--->文本翻譯--->語音合成機器翻譯的發(fā)展歷程19401950196019701980199020002010第一次高潮第二次高潮第三次高潮機器翻譯的起源有計算機那天就有機器翻譯的研究。1946年,世界上第一臺計算機問世。同一年,英國的A.Donald.Booth(布斯)和美國的W.Weaver(韋弗)就開始了機器翻譯的研究。19401950196019701980199020002010起源第一次高潮動力計算機的誕生冷戰(zhàn)開始主要方法基于規(guī)則的方法衰退原因計算機處理能力弱對自然語言的認識水平低19401950196019701980199020002010第一次高潮第二次高潮動力計算機處理能力的飛速發(fā)展主要方法基于語料庫的方法衰退原因技術(shù)上矯枉過正目標定位存在問題19401950196019701980199020002010第二次高潮第三次高潮(現(xiàn)在)動力需求的迅速膨脹計算語言學的發(fā)展目標定位的多樣化主要方法多種方法相結(jié)合19401950196019701980199020002010第三次高潮主要的機器翻譯方法基于規(guī)則的方法基于實例的方法基于統(tǒng)計的方法基于規(guī)則的方法(RBMT)分析根據(jù)源語言分析規(guī)則,分析原文結(jié)構(gòu)。轉(zhuǎn)換根據(jù)轉(zhuǎn)換規(guī)則,將原文結(jié)構(gòu)轉(zhuǎn)換成譯文結(jié)構(gòu)生成根據(jù)目標語言生成規(guī)則,利用譯文結(jié)構(gòu)生成譯文。分析源語言結(jié)構(gòu)翻譯:“她把一束花放在桌上?!鞭D(zhuǎn)換成目標語言結(jié)構(gòu)結(jié)構(gòu)調(diào)整生成譯文RBMT的優(yōu)缺點優(yōu)點直觀,能夠直接表達語言學家的知識系統(tǒng)適應性強,不依賴于具體的訓練語料缺點規(guī)則主觀因素重,有時與客觀事實有一定差距規(guī)則的覆蓋性差,特別是細顆粒度的規(guī)則很難總結(jié)得比較全面規(guī)則之間的沖突沒有好的解決辦法(翹翹板現(xiàn)象)規(guī)則一般只局限于某一個具體的系統(tǒng),規(guī)則庫開發(fā)成本太高規(guī)則庫的調(diào)試極其枯燥乏味規(guī)則,唉……詞法分析規(guī)則、句法分析規(guī)則結(jié)構(gòu)轉(zhuǎn)換規(guī)則、詞語轉(zhuǎn)換規(guī)則結(jié)構(gòu)生成規(guī)則、詞語生成規(guī)則……規(guī)則又多又煩,不用行不行?主要的機器翻譯方法基于規(guī)則的方法基于實例的方法基于統(tǒng)計的方法基于實例的方法(EBMT)照貓畫虎RBMT:分析轉(zhuǎn)換生成EBMT:匹配對齊重組基于實例的翻譯舉例吳先生是老師aisWuMr.teacher李先生是老師aisLiMr.teacher待翻譯句子實例翻譯結(jié)果基于實例的翻譯舉例吳先生是老師李先生是老師待翻譯句子實例翻譯結(jié)果先生はさん呉です先生はさん李です基于實例的翻譯舉例吳先生是老師吳小姐是老師待翻譯句子實例翻譯結(jié)果先生はさん呉です先生はさん呉です小姐?基于實例的翻譯舉例吳先生是老師吳小姐是老師待翻譯句子實例翻譯結(jié)果先生はさん呉です先生はさん呉です基于實例的翻譯舉例吳先生是老師吳先生是宇航員待翻譯句子實例翻譯結(jié)果先生はさん呉です宇宙飛行士はさん呉です匹配對齊重組EBMT的核心問題:詞對齊詞對齊aisWuMr.吳先生是老師WordAlignmentteacherEBMT的核心問題:詞對齊詞對齊WordAlignmentType1-1m-n1-nullprogrammeraisHe他是程序設計師WordAlignment詞對齊主要方法LinguisticalApproachesMorphology-BasedDictionary-BasedThesaurus-BasedStatisticalApproachesMorphology-BasedApproachesCognatesisaeffectivelinguisticknowledgeinwordaligning.Thetermcognatedenotes:wordsindifferentlanguagesthataresimilarintheirorthographicorphoneticformandarepossibletranslationsofeachother.Morphology-BasedApproachesThesimilarityisusuallyduetoeitherageneticrelationshipe.g.EnglishnightandGermannachtorborrowingfromonelanguagetoanothere.g.EnglishsprintandJapaneseスプリントInabroadsense,cognatesincludenotonlygeneticallyrelatedwordsandborrowingsbutalsonames,numbers,andpunctuation.Practically,allparallelcorporacontainsomekindofcognates.IdentifyCognatesTherearethreewordsimilaritymeasures:Simard’sconditionDice’scoefficientLongestCommonSubsequenceRatioSimard’sConditionSimardetal.(1992)proposedasimpleconditionfordetectingprobablecognatesinFrench–Englishbitexts:twowordsareconsideredcognatesiftheyareatleastfourcharacterslongandtheirfirstfourcharactersareidentical.Dice’sCoefficientHereDice’scoefficientisdefinedastheratioofthenumberofsharedcharacterbi-gramstothetotalnumberofbi-gramsinbothwords.Forexamplecolourandcouleursharethreebi-gramsco,ou,andursotheirDice’scoefficientis6/11.LCSRTheLongestCommonSubsequenceRatiooftwowordsiscomputedbydividingthelengthoftheirlongestcommonsubsequencebythelengthofthelongerword.Forexample,LCSR(colour,couleur)=5/7astheirlongestcommonsubsequenceis“c-o-l-u-r”.詞對齊主要方法LinguisticalApproachesMorphology-BasedDictionary-BasedThesaurus-BasedStatisticalApproachesDictionary-BasedApproachesEveniftwolanguagesdonotbelongtothesamelanguagefamily,theirlexiconhassemanticsimilarityBecausetheobjectstheywanttodescribearethesameworld.Oneofthebestexamplesaboutsemanticsimilaritybetweentwolanguagesisbilingualdictionary.ExactlyMatchSearchthesourcewordefrombilingualdictionary.PutthetranslationofeinasetnamedDTe.ForeachwordcintargetsentenceIfc∈DTethenaligneandc.ExampleofExactlyMatchIlovemotherland<->我/愛/祖國/1.Searchtranslationsoflovefrombilingualdictionary.DTe 愛情、戀愛、愛、戀念2.Because“愛”inChinesesentence∈DTe3.
love<->愛
alignedExactlyMatchisnotEnoughConflictThelimitationofdictionaryTheflexibilityoftranslationPrecisionishigh,butrecallislowItishelplesstounknownwordSimilarlyMatchSearchthesourcewordefrombilingualdictionary.PutthetranslationofeinasetnamedDTe.ForeachwordcintargetsentenceCalculatesimilarityofeandcasfollow:IfDTSim(e,c)isbigerthanathreshold,thenaligneandc.ExampleofSimilarlyMatchIlovemotherland<->我/熱愛/祖國/1.Searchtranslationsoflovefrombilingualdictionary.DTe 愛情、戀愛、愛、戀念2.ForeachwordcinChinesesentence,calculatesimilarityofloveandcCommentsonDictionary-basedApproachesMeritHighprecisionTheycancontaintheinformationaboutwordsthatappearonlyonceinthecorpus.DemeritLowrecallTheycannotcapturecontext-dependentkeywordsinthecorpus.Theyareweakagainstunknownword(newwordsandincorrectwordsegmentation).詞對齊主要方法LinguisticalApproachesMorphology-BasedDictionary-BasedThesaurus-BasedStatisticalApproachesThesaurus-BasedApproachesSearchthesourcewordefrombilingualdictionary.PutthetranslationofeintoasetnamedDTe.ForeachelementDTegetallthewordsinsameclassfromthesaurus.putthemintoasetnamedDTeClass.ForeachwordcintargetsentenceIfc∈DTeClass,thenaligneandc.ElseifDTSim(e,c)isbigerthanathreshold,thenaligneandc.ExampleofThesaurus-BasedApproachesIlovemotherland<->我/熱愛/祖國/1.Searchtranslationsoflovefrombilingualdictionary.DTe 愛情、戀愛、愛、戀念2.ForeachelementDTegetallthewordsinsameclassfromthesaurus.Class“愛”:喜愛、憐愛、鐘愛、熱愛、愛慕……Class“愛情”:情愛、情意………putthemintoasetnamedDTeClass.3.ForeachwordcinChinesesentence,matchinDTeClass4.Because“熱愛”inChinesesentence∈DTeClass,
love<->熱愛
aligned詞對齊主要方法LinguisticalApproachesStatisticalApproachesHeuristicApproachesRefinedStatisticalApproachesHeuristicApproachesIlovemotherland我0.880.440.22愛0.050.900.56祖國0.120.240.36Co-occurrenceMatrixMeasuretheAssociationThecoreofco-occurrence-basedapproachesisthemethodtomeasuretheassociationbetweensourcewordandtargetword.DiceCoefficientMutualInformationX2……ParametersWillBeUsedN:totalsentencepairsnumberofthecorpusa=freq(s,t)b=freq(s)-freq(s,t)c=freq(t)-freq(s,t)d=N-a-b-ct┐tsab┐scdDiceCoefficientIntargetsentence,choosetwiththelargestDICEscoreasthealignmentofsDICEscorecanbecalculatedfollow:MutualInformationIntargetsentence,choosetwiththelargestMIscoreasthealignmentofsMIscorecanbecalculatedasfollow:X2Intargetsentence,choosetwiththelargestX2scoreasthealignmentofsX2scorecanbecalculatedasfollow:總體結(jié)構(gòu)預處理翻譯記憶層局部模板層全局模板層后處理語言學資源語料庫資源句子模板絕對匹配名詞分析模板相似匹配謂詞驅(qū)動全局模板模板相似匹配短語規(guī)則庫短語庫待譯句子翻譯
流程
簡介自動分詞自動短語分析相似計算模板匹配單詞直譯這是小香蕉這/是/小/香蕉/那(這)是蘋果(小香蕉)that(this)isanapple(smallbanana)NP(this)isNP(ansmallbanana)thisis(small/little)
bananathisisasmallbanana自動詞性標注這/r是/v小/a香蕉/n這是[小/香蕉]翻譯記憶翻譯結(jié)果詞性標注語料句對庫詞對齊庫語言模型模板庫分詞語料翻譯失敗基于實例的方法(EBMT)EBMT拋棄了規(guī)則字典+詞對齊的實例庫不用字典行不行?實例庫不用詞對齊行不行?主要的機器翻譯方法基于規(guī)則的方法基于實例的方法基于統(tǒng)計的方法基于統(tǒng)計的方法(SMT)噪音信道模型Mary到底說了什么?Brown猜的過程就是翻譯的過程。將法語”Jet’aime.”翻譯成英語基于統(tǒng)計的方法(SMT)怎么猜?一開始,肯定猜不出來。說多了,可能就能猜出來了。Brown的方法基于統(tǒng)計的方法(SMT)Brown,1990AStatisticalApproachtoMachineTranslationBrown,1993Themathematicsofstatisticalmachinetranslation-Parameterestimation基于統(tǒng)計的方法Brown認為,法語f:”Jet’aime.”可能翻譯成任何一句英語e1:Howareyou?e2:Iloveyou.e3:Thenoisychannelworkslikethis.……翻譯成這些英文句子的概率是不同的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年特種絲制品項目建議書
- 2025年自動氣體滅火系統(tǒng)項目發(fā)展計劃
- 新進展:腦震蕩的護理研究
- 心臟瓣膜疾病的護理倫理與實踐
- 急診急救護理實踐指南
- 機器人基礎與實踐 課件 第9、10章 機器人路徑規(guī)劃、機器人控制基礎與實踐
- 基礎護理感染控制的效果評價
- 溫暖守護:護理的溫度與責任
- 血液透析患者的血管通路并發(fā)癥
- 啟蒙主義文學課件
- 貴州省生態(tài)文明教育讀本(高年級) -教案(教學設計)
- 《財務會計-學習指導習題與實訓》全書參考答案
- 2021大慶讓胡路萬達廣場商業(yè)購物中心開業(yè)活動策劃方案預算-67P
- 2022年福建翔安區(qū)社區(qū)專職工作者招聘考試真題
- 2023年考研考博-考博英語-湖南師范大學考試歷年真題摘選含答案解析
- 英語電影的藝術(shù)與科學智慧樹知到答案章節(jié)測試2023年中國海洋大學
- 2023-2024學年新疆維吾爾自治區(qū)烏魯木齊市小學數(shù)學六年級上冊期末??紲y試題
- GB/T 15814.1-1995煙花爆竹藥劑成分定性測定
- GB/T 11446.7-2013電子級水中痕量陰離子的離子色譜測試方法
- 中國地質(zhì)大學武漢軟件工程專業(yè)學位研究生實踐手冊
- 《民法》全冊精講課件
評論
0/150
提交評論