機器翻譯基礎(chǔ)ppt課件_第1頁
機器翻譯基礎(chǔ)ppt課件_第2頁
機器翻譯基礎(chǔ)ppt課件_第3頁
機器翻譯基礎(chǔ)ppt課件_第4頁
機器翻譯基礎(chǔ)ppt課件_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、.,1.2 機器翻譯的歷史,.,1.2.1 什么是機器翻譯?,機器翻譯(machine translation),又稱機譯(MT),是利用計算機把一種自然語言轉(zhuǎn)變成另一種自然語言的過程。用以完成這一過程的軟件叫做機器翻譯系統(tǒng)。 文本機器翻譯 語音機器翻譯,.,1.2.1 什么是機器翻譯?,機器輔助翻譯(Machine Aided Translation或Computer Aided Translation,簡稱MAT或CAT) 翻譯記憶體(Translation Memory,簡稱TM) 雙語對照的文本編輯 .,.,1.2.2 現(xiàn)代語言學(xué)的崛起,語言是一個民族相互交際的最重要工具,進(jìn)入20世紀(jì)

2、20年代以后,語言學(xué)成為一門新興的學(xué)科。到了50年代,新的利用計算機研究語言的學(xué)科-計算語言學(xué)誕生了。 計算語言學(xué)的研究起始于機器翻譯,機器翻譯又稱自動化翻譯,是一種高級的人工智能技術(shù),它是計算機科學(xué)、數(shù)學(xué)和語言學(xué)等多學(xué)科共同參與研制的結(jié)晶。機器翻譯之所以成為可能,一是因為兩種語言之間存在著可譯性,二是因為人的翻譯過程具有可模擬性。,.,(1)機器翻譯的萌芽(1966年以前) 1947,Warren Weavers memo 1954,第一個公開展示的俄英MT原型系統(tǒng) 1966,美國科學(xué)院的ALPAC報告宣告機器翻譯走入低谷 剛剛興起的機器翻譯研究很快就遇到了困難,翻譯質(zhì)量的低劣引起了人們無休

3、止的抱怨。其中,Bar Hillel作為當(dāng)時最早參加研究的的專家,對機器翻譯提出了批判,指出“自動翻譯系統(tǒng)需要機器完全理解句子的意思后才能實現(xiàn)高質(zhì)量的翻譯,而機器不可能做到這些,因此不可能實現(xiàn)高質(zhì)量的自動翻譯系統(tǒng)”。,1.2.3 機器翻譯的發(fā)展歷史,.,(1)機器翻譯的萌芽,受Bar Hillel的影響,美國國立科學(xué)院于1964年成立自動語言處理咨詢委員會(Automatic Language Processing Advisory Committee,簡稱ALPAC),對這10年的研究成果進(jìn)行評價。2年后,該委員會發(fā)表了一個否定機器翻譯系統(tǒng)實用性的調(diào)查報告,即被后人稱之為ALPAC報告,并中

4、止機器翻譯項目的研究經(jīng)費。從此機器翻譯的研究跌入低谷。,.,ALPAC報告,ALPAC報告核心內(nèi)容:經(jīng)過調(diào)查,機器翻譯速度慢,準(zhǔn)確率很差,比人工翻譯費用高得多,在近期或可以預(yù)見的未來,開發(fā)出實用的機器翻譯系統(tǒng)的可能性不大。 這個報告后來雖曾受到許多嚴(yán)肅的批評,認(rèn)為它是帶有嚴(yán)重偏見的,但它對機器翻譯研究造成了很大的損害。,.,(2)機器翻譯的第二階段,20世紀(jì)70年代中期,因ALPAC委員會發(fā)表的調(diào)查報告而跌入低谷的機器翻譯研究開始在世界范圍內(nèi)復(fù)蘇并日趨走向興旺。這一階段主要以歐洲為中心,確立了現(xiàn)代語言學(xué)理論在機器翻譯中的地位。 標(biāo)志之一 語言學(xué)家N.Chomsky于1957年提出的句法結(jié)構(gòu)(S

5、yntatic structure)等形式語言理論被廣泛地應(yīng)用于自然語言的自動句法分析中,并成為計算語言學(xué)的基礎(chǔ)理論之一。 標(biāo)志之二 誕生了許多句法分析算法,如上下文無關(guān)文法解析流派中的CKY算法、Earley算法、Woods的ATN-Parser、LR-Parser、LINGOL等。在語義自動分析方面,有C.J.Fillmore提出的格文法理論、Schank的概念依存(Conceptual Dpendency)理論、Montague語法理論及Wilks的優(yōu)選語義學(xué)(Preference Semantics)等。,.,(2)機器翻譯的第二階段(特征),這一代機器翻譯技術(shù)主要采用句法結(jié)構(gòu)變換和中

6、間語言方式,也稱間接型機器翻譯。具有實用價值的機器翻譯系統(tǒng)取代了過去的實驗系統(tǒng),機器翻譯由實驗研究走向?qū)嵱醚芯?,并實現(xiàn)商品化,如加拿大蒙特利爾大學(xué)的氣象預(yù)報機器翻譯系統(tǒng)TAUM-METEO10(英法)、法國格勒諾布爾大學(xué)的ARIANE機器翻譯系統(tǒng)等。這一時期機器翻譯系統(tǒng)所采用的方法也被稱為理性主義方法,.,(3)機器翻譯第三階段,20世紀(jì)年代,機器翻譯由面向句法、基于規(guī)則的理性主義方法過渡到語義處理階段,誕生了基于實例(Example-Based Machine Translation)和基于統(tǒng)計(Statistical Based Machine Translation)的機器翻譯方法,被稱

7、之為經(jīng)驗主義方法主導(dǎo)的機器翻譯系統(tǒng)。 這一期間,日本掀起了機器翻譯的熱潮,以形態(tài)素解析技術(shù)為主的語言處理技術(shù)得到空前發(fā)展,構(gòu)文解析技術(shù)及格文法解析技術(shù)也成為研究熱點。實現(xiàn)了大規(guī)模的日英、英日機器翻譯系統(tǒng),并開始了亞洲各國語言間的機器翻譯研究(ODA)。 以Chomsky早年提出的形式語言理論為基礎(chǔ),語言學(xué)家針對自然語言處理的特點,又提出了眾多新的語言學(xué)理論,如廣義短語結(jié)構(gòu)語法(GPSG) 、詞匯功能語法(LFG) 、合一語法(UG)、功能合一語法(FUG)、中心詞驅(qū)動的短語結(jié)構(gòu)語法(HPSG) 等,.,(4)機器翻譯第四階段,顯著特點 語料庫語言學(xué)成為語言研究的主流,為滿足實際應(yīng)用的需要,基于

8、大規(guī)模語料庫的統(tǒng)計方法在自然語言處理領(lǐng)域中逐漸占據(jù)了主導(dǎo)地位19; 20世紀(jì)80年代提出的新的語言理論在實際系統(tǒng)中得到廣泛應(yīng)用,并與大規(guī)模語料庫的統(tǒng)計方法結(jié)合,建立了具有實用性的新一代機器翻譯系統(tǒng);開始了新的機器翻譯應(yīng)用研究,如基于對話的機器翻譯。 以統(tǒng)計方法為主的統(tǒng)計機器翻譯橫行霸道!,.,1.2.4 中國機器翻譯的發(fā)展,機器翻譯的研究開始于1956年,并從一開始就得到了國家的高度重視,機器翻譯后來曾被列為“六五”、“七五”及“863”等重大科研項目。20世紀(jì)70年代中期,中國的機器翻譯研究從停滯走向了復(fù)蘇,80年代中期到90年代初期是我國機器翻譯研究復(fù)蘇以來比較活躍的時期。 研究開發(fā)出兩個

9、在實用化系統(tǒng):軍事科學(xué)院的KY-1英漢機譯系統(tǒng)(“譯星”前身)及中科院計算所研制的863-IMT英漢機器翻譯系統(tǒng)。在這一時期,中國還參加了由日本發(fā)起的亞洲五國機器翻譯研發(fā)的合作項目(ODA),國內(nèi)近10個科研院校參加了這一長達(dá)7年的國際項目。,.,1.2.4 中國機器翻譯的發(fā)展,1990年代至今,中國的機器翻譯進(jìn)入了快速發(fā)展的時期,研制出了許多機器翻譯系統(tǒng)。新一代機器翻譯系統(tǒng)一般配有大規(guī)模的專業(yè)詞典,并能在網(wǎng)上運行。此外,新的應(yīng)用領(lǐng)域的機器翻譯研究如對話翻譯系統(tǒng)的研究也已開始。 在中日機器翻譯方面,清華大學(xué)、南京大學(xué)、中軟先后開展了實用機譯系統(tǒng)的研究與開發(fā),大連理工大學(xué)于1990年開始日中機器

10、翻譯的研發(fā),1994年開始中日機器翻譯的研究,并先后開發(fā)出PC版的SWK日中機器翻譯系統(tǒng)和SWK中日機器翻譯系統(tǒng)。,.,1.2.5 機器翻譯的現(xiàn)狀,經(jīng)過60年的發(fā)展,機器翻譯對于許多人來說已經(jīng)不是很陌生的了。今天我們可以在軟件商店買到形形色色的PC機譯軟件,有各種語言間的機器翻譯軟件,如英文到中文的,中文到英文的,或者日文到中文的,甚至也有英文到日文的等等,還有家庭版的、專業(yè)版的,配帶各種不同專業(yè)詞典可供選擇的等等。據(jù)估計,世界上目前市場上有1000多種不同的機器翻譯軟件在銷售,我國具有一定規(guī)模的PC機器翻譯軟件也有近20種。在世界范圍內(nèi)PC機譯軟件的價格都不貴,而且價格還在不斷地下降?,F(xiàn)在可

11、以在網(wǎng)上免費享用翻譯系統(tǒng)的服務(wù)。,.,1.2.5 機器翻譯的現(xiàn)狀,機器翻譯現(xiàn)狀可概括為: 發(fā)展很快,實用化翻譯軟件產(chǎn)品逐漸增多 譯文質(zhì)量普遍很低,可讀性較差 理想與現(xiàn)實之間差距很大:用戶期望值很大,而翻譯軟件能力很低,極度“弱智” 機器翻譯的理論研究沒有取得重大突破,但機器翻譯的性能在逐漸提高。,.,1.2.6 機器翻譯的未來,機器翻譯的未來可以概括為: 前途光明,道路曲折 沒有最好,只有更好 路漫漫兮,其修遠(yuǎn)兮,.,1.3 機器翻譯路在何方?,危機 機器翻譯比起10年前,可以說相當(dāng)繁榮了。但是在這繁榮的后面,卻存在著危機。前面說到的ALPAC報告曾給機器翻譯帶來的創(chuàng)傷如今似乎已被撫平了。但實

12、際上它的陰影始終會時不時地再出現(xiàn)在機譯研究者的頭上。如今隨著有越來越多的機譯系統(tǒng)走向市場,政府部門感到在這種情況下如果還要投資攻關(guān)似乎有點名不正言不順了。而商家則只是想現(xiàn)在該是把現(xiàn)成的技術(shù)包裝包裝就可以賺錢的時候了。,.,1.3 機器翻譯路在何方?,研究者的尷尬: “你估計開發(fā)出產(chǎn)品要多長時間?你的系統(tǒng)正確率如何?”. 如何回答?“正確率大約在百分之五十左右”?,.,1.3 機器翻譯路在何方?,挑剔者的挖苦與諷刺: MT?不是machine translation,而是mad translation (瘋子的翻譯) 滿篇英文難不住,滿篇中文看不懂,.,1.3 機器翻譯路在何方?-問題的癥結(jié),譯

13、文質(zhì)量至今并沒有取得實質(zhì)性的進(jìn)展,很多50年前未解決的問題如今依然存在。 研究人員認(rèn)識上的危機:“在現(xiàn)有的技術(shù)條件下,機譯譯文質(zhì)量也只能這樣了”。 這樣一來,出現(xiàn)的情況將是投資者和研制者都在以較低水平的系統(tǒng)忙于行銷賺錢,而不再有足夠的經(jīng)費和技術(shù)投入。機器翻譯無論在理論上或是技術(shù)上都還未成熟?,F(xiàn)在只是由于人們對于克服語言交流的障礙有著很強烈的需求,尤其是因特網(wǎng)的出現(xiàn)這種需求更顯突出,機器翻譯才獲得了以較低的譯文質(zhì)量滿足這種需求的機會,并利用這一機會來求得進(jìn)一步的發(fā)展。,.,1.3.1 機器翻譯與人工翻譯的區(qū)別,機譯過程: 一句一句處理,處理第一句時不知道第二句的內(nèi)容是什么,處理第二句時,也不再去

14、參考第一句的內(nèi)容了; 對源語言的分析只是求解句法關(guān)系,完全不是意義上的理解; 它的開發(fā)者要求它幾乎是萬能的,它似乎什么領(lǐng)域都能應(yīng)付,從計算機到醫(yī)學(xué),從化工到法律,似乎只要換一部專業(yè)詞典就可以了; 它的譯文轉(zhuǎn)換是基于源語言的句法結(jié)構(gòu)的,受源語言的句法結(jié)構(gòu)的束縛; 它的翻譯只是句法結(jié)構(gòu)的和詞匯的機械對應(yīng)。,.,人工翻譯: 一般會先通讀全文,他會前后照應(yīng); 對源語言求得意義上的理解; 只有專業(yè)翻譯人員,沒有一個是可以包打天下的萬能翻譯人員; 他的譯文是基于他對源語言的理解,不受源語言的句法結(jié)構(gòu)的束縛; 他的翻譯是一個再創(chuàng)造的過程。,1.3.1 機器翻譯與人工翻譯的區(qū)別,.,1.3.2 機器翻譯的取舍

15、,誤區(qū) 很多人對機器翻譯有誤解,他們認(rèn)為機器翻譯偏差大,不能幫人們?nèi)魏谓鉀Q問題。事實上,機器翻譯出現(xiàn)誤差在所難免。原因在于,機器翻譯運用語言學(xué)原理,機器自動識別語法,調(diào)用存儲的詞庫,自動進(jìn)行對應(yīng)翻譯,但是因語法、詞法、句法發(fā)生變化或者不規(guī)則,出現(xiàn)錯誤是難免的。,.,比如大話西游中“給我一個殺你的理由,先”之類狀語后置的句子。另外,機器翻譯不適宜翻譯帶有復(fù)雜感情的文字。如果你拿著詩經(jīng)中“所謂伊人,在水一方所謂伊人,在水之湄”等去翻譯,其結(jié)果一定好不了。機器畢竟是機器,沒有人對語言的特殊感情。畢竟?jié)h語因其詞法、語法、句法的變化及其語境的更換,其意思大相徑庭,就連很多國人都是丈二和尚摸不著頭腦,就別

16、說機器了。,1.3.2 機器翻譯的取舍,.,機器翻譯的作用 在為機器翻譯不精準(zhǔn)開脫的同時,我們?nèi)匀徊徽J(rèn)為著機器翻譯無用武之地,相反針對機器翻譯可以大批量的做資料翻譯的特點,可被用作日常事務(wù)、日常信息、日常交流往來等方面的翻譯手段。隨著經(jīng)濟發(fā)展,貿(mào)易、交流等各種事務(wù)跨越國界,信息交流量也在加快、加大,尤其是在網(wǎng)絡(luò)不斷普及的時候,人們需要迅速獲取資訊,卻苦于沒有充足的多專業(yè)人員去翻譯。今天,人們的閱讀不再像古人那樣字句點逗都要清清楚楚?,F(xiàn)代人需要的是在爆炸式增長的信息中迅速獲取自己所需的信息。,1.3.2 機器翻譯的取舍,.,現(xiàn)實問題 以華盛頓郵報為例,如果一百多版的華盛頓郵報需要細(xì)讀的話,那每天

17、看報的時間都不夠。所以,在實際生活中,絕大部分人閱讀的第一步只是了解大概,因此,在這樣的要求下,采用機器翻譯可以做到了“多、快、好、省”,而“信”、“達(dá)”、“雅”卻費用高昂的人工翻譯并非人人都需要。,1.3.2 機器翻譯的取舍,.,1.3.3 在線翻譯:機器翻譯重頭戲,鑒于機器翻譯仍具相當(dāng)市場,國內(nèi)涉足這一領(lǐng)域的廠商也不一而足。目前,國內(nèi)市場上的翻譯軟件產(chǎn)品可以劃分為四大類: 全文翻譯(專業(yè)翻譯) 在線翻譯 漢化軟件 電子詞典,.,外因:Internet網(wǎng)絡(luò)的發(fā)展,“網(wǎng)民”數(shù)量高速增長;語言信息的交流更加頻繁。 內(nèi)因:基于服務(wù)器詞庫托管的翻譯產(chǎn)品,服務(wù)器端的詞庫由廠商實時更新,詞匯更加豐富,其

18、中包括各類專業(yè)的詞匯;在基于服務(wù)器詞庫翻譯基礎(chǔ)之上提供人工翻譯服務(wù),經(jīng)過機器翻譯后采取人工校對、潤色,從而達(dá)到了“信”、“達(dá)”、“雅”的翻譯標(biāo)準(zhǔn)。,1.3.3 在線翻譯:機器翻譯重頭戲,.,1.4 機器翻譯的發(fā)展趨勢,從單句處理走向句群處理 Sorry I cant go with you, I am going to the bank(銀行,岸等). Ill get a money order for the Immigration Office. 新的知識系統(tǒng) 一是語言知識,二是常識和專業(yè)知識 領(lǐng)域的專業(yè)化 現(xiàn)有的大型機譯系統(tǒng)一般都包含多部專業(yè)技術(shù)詞典,雖然其它部分都是共有的,卻號稱可以翻譯多種專業(yè)領(lǐng)域的文本,只是不同的領(lǐng)域采用不同的專業(yè)詞典而已。是不得已而為之的產(chǎn)物,絕非人們理想的產(chǎn)品。未來這種系統(tǒng)將會讓位給真正的專業(yè)化系統(tǒng),例如汽車專業(yè)機譯系統(tǒng),航空專業(yè)機譯系統(tǒng),(醫(yī)學(xué))外科專業(yè)機譯系統(tǒng)等等。專業(yè)化系統(tǒng)不僅包含專業(yè)詞典,而且它會有相應(yīng)的本專業(yè)的其它知識庫,其形式可能是規(guī)則庫,也可能是強大的雙語語料庫,或兩者兼有之。,.,應(yīng)用的多樣化 信息社會的到來 使克服語言障礙的需求變得更加迫切。不斷推出了各種具有翻譯功能的瀏覽器和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論