版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
計(jì)算機(jī)協(xié)助翻譯系統(tǒng)漫談陳群秀清華高校計(jì)算機(jī)科學(xué)與技術(shù)系智能技術(shù)與系統(tǒng)國(guó)家試驗(yàn)室北京100084cqx@摘要本文首先簡(jiǎn)潔介紹機(jī)器翻譯探討發(fā)展簡(jiǎn)史和探討動(dòng)向。然后本文闡述機(jī)器翻譯系統(tǒng)的分類及特點(diǎn):機(jī)器翻譯系統(tǒng)從系統(tǒng)研制的方法分為基于規(guī)則的機(jī)器翻譯系統(tǒng)和基于語料庫的機(jī)器翻譯系統(tǒng),后者又分為基于統(tǒng)計(jì)的機(jī)器翻譯系統(tǒng)、基于實(shí)例的機(jī)器翻譯系統(tǒng)和翻譯記憶系統(tǒng);從自動(dòng)化程度分為全自動(dòng)機(jī)器翻譯系統(tǒng)、人助機(jī)譯系統(tǒng)和機(jī)助人譯系統(tǒng),后兩種合稱為計(jì)算機(jī)協(xié)助翻譯系統(tǒng);從翻譯轉(zhuǎn)換方式分為直譯式系統(tǒng)、基于轉(zhuǎn)換方式的翻譯系統(tǒng)和基于中間語言(樞軸式)的翻譯系統(tǒng);從翻譯用戶的需求分為為閱讀者研制、為修訂者研制、為翻譯者研制和為寫作者研制的系統(tǒng)等四種類型。進(jìn)而本文提出機(jī)器協(xié)助翻譯系統(tǒng)最好同時(shí)包含基于翻譯記憶技術(shù)和基于實(shí)例模式翻譯這兩種翻譯功能并且這兩種翻譯方法和翻譯過程最好分階段進(jìn)行。最終本文對(duì)基于翻譯記憶技術(shù)的協(xié)助翻譯有關(guān)技術(shù)和基于實(shí)例模式翻譯的有關(guān)技術(shù)進(jìn)行了探討。關(guān)鍵詞計(jì)算機(jī)協(xié)助翻譯系統(tǒng);機(jī)器翻譯系統(tǒng)的分類及特點(diǎn);基于翻譯記憶技術(shù)的協(xié)助翻譯有關(guān)技術(shù);基于實(shí)例模式翻譯的有關(guān)技機(jī)器翻譯探討發(fā)展簡(jiǎn)史和探討動(dòng)向隨著因特網(wǎng)的日益普及應(yīng)用和全球一體化日益進(jìn)展,不同語種間人們溝通的語言障礙日益顯得更為突出。為解決這一難題而進(jìn)行的機(jī)器翻譯探討是一個(gè)涉及語言學(xué)、計(jì)算機(jī)科學(xué)、認(rèn)知科學(xué)等多學(xué)科的綜合性探討領(lǐng)域。目前,機(jī)器翻譯探討是國(guó)際上激烈競(jìng)爭(zhēng)的高科技探討領(lǐng)域之一,也是信息處理的好用學(xué)科。機(jī)器翻譯探討是1946年計(jì)算機(jī)產(chǎn)生后的第一個(gè)應(yīng)用。機(jī)器翻譯探討自1947年美國(guó)洛克菲勒基金會(huì)自然科學(xué)部主任華倫·韋弗提出用現(xiàn)代電子計(jì)算機(jī)進(jìn)行語言翻譯的設(shè)想至今,已有五十多年近六十年的歷史,它的發(fā)展歷史波波折折、起起復(fù)復(fù)。它經(jīng)驗(yàn)過最初近二十年的初創(chuàng)期和第一個(gè)興盛期,但由于當(dāng)時(shí)人們對(duì)機(jī)器翻譯的期望值過高,而機(jī)器翻譯當(dāng)時(shí)的探討水平和技術(shù)的歷史局限,也因?yàn)楫?dāng)時(shí)的高??迫斯ぶ悄芴接憶]抓住本質(zhì)而又頭腦發(fā)熱盲目樂觀,致使人工智能和機(jī)器翻譯的探討進(jìn)入了低谷期,即機(jī)器翻譯自1966年美國(guó)發(fā)表了ALPAC報(bào)告(黑皮書)后經(jīng)驗(yàn)了1966年~1976年長(zhǎng)達(dá)十年的蕭條低迷期。到二十世紀(jì)七十年頭中期機(jī)器翻譯探討才起先漸漸復(fù)蘇并進(jìn)入了其次個(gè)興盛期。特殊是八十年頭以來,機(jī)器翻譯探討得到了長(zhǎng)足的發(fā)展,進(jìn)入了發(fā)展的黃金時(shí)代。這個(gè)時(shí)代有四個(gè)顯著特點(diǎn):(1)機(jī)器翻譯探討走出試驗(yàn)室起先進(jìn)入好用階段。這個(gè)階段相繼出現(xiàn)了一些好用型的機(jī)器翻譯系統(tǒng),例如美國(guó)的SYSTRAN系統(tǒng)(1975年)、加拿大蒙特利爾高校的TAUM-METEO系統(tǒng)(1976年)、日本富士通公司的ATLAS系統(tǒng)、法國(guó)紡織探討所的TITUS-IV系統(tǒng)(翻譯編織專業(yè)文摘)等。機(jī)器翻譯探討面對(duì)應(yīng)用、走向應(yīng)用、邁向商品化,同時(shí)又以應(yīng)用推動(dòng)更高層次的探討,是這一時(shí)代最主要的特點(diǎn)。(2)電子和軟件產(chǎn)業(yè)部門干脆卷入機(jī)器翻譯探討是這個(gè)時(shí)代的其次個(gè)特點(diǎn)。產(chǎn)業(yè)部門的干脆卷入對(duì)機(jī)器翻譯探討發(fā)展產(chǎn)生深遠(yuǎn)的影響。(3)國(guó)際間的溝通與合作特別活躍是這個(gè)時(shí)代的又一特點(diǎn)。國(guó)家政府間的合作、民間組織間的合作形式都有。國(guó)家間的合作主要有歐洲共同體EUROTRA支配和亞洲由日本政府支持的ODA支配。EUROTRA支配起先于1978年,主要目的在于開發(fā)一個(gè)能處理歐洲共同體成員國(guó)語言的機(jī)器翻譯系統(tǒng),當(dāng)時(shí)就投入4000萬美元,參與的國(guó)家有法國(guó)、德國(guó)、比利時(shí)、丹麥、荷蘭、希臘、愛爾蘭、意大利、盧森保和美國(guó),大約有100多名的探討人員。ODA支配是由日本通產(chǎn)省發(fā)起和資助、由日本國(guó)際情報(bào)協(xié)力中心CICC組織、有中國(guó)、泰國(guó)、馬來西亞和印度尼西亞參與的機(jī)譯合作支配,起先于1987年,預(yù)定1992年完成(實(shí)際1993年結(jié)束),政府投資60億日元,翻譯策略為中間語言表示和概念詞典。(4)加速吸取和接受新理論和新技術(shù)是這個(gè)時(shí)代的第四個(gè)特點(diǎn)。機(jī)器翻譯探討雖然進(jìn)入了全面發(fā)展的黃金時(shí)代,但仍舊面臨著重重的困難,困難歸困難,但因機(jī)器翻譯的市場(chǎng)是巨大的,前景也是遠(yuǎn)大的,因此各個(gè)國(guó)家對(duì)機(jī)器翻譯探討的愛好正在持續(xù)增長(zhǎng),特殊是日本,熱忱有增無減。全世界從事機(jī)器翻譯的探討人員有幾千人,其中日本就將近占了一半。機(jī)器翻譯面臨一些嚴(yán)峻問題,例如,機(jī)器翻譯系統(tǒng)的譯準(zhǔn)率長(zhǎng)期徘徊在70%左右(大規(guī)模真實(shí)語料文本下更低),譯文的可讀性、系統(tǒng)對(duì)語言現(xiàn)象的覆蓋面、系統(tǒng)的魯棒性尤其是開放性都不盡人意。社會(huì)迫切須要對(duì)真實(shí)文本(尤其是網(wǎng)上海量文本)進(jìn)行大規(guī)模的處理,而機(jī)器翻譯系統(tǒng)同當(dāng)今社會(huì)對(duì)大規(guī)模真實(shí)文本處理的期望相差甚遠(yuǎn)。機(jī)器翻譯系統(tǒng)的譯準(zhǔn)率和譯文可讀性(可理解度,可懂度)之所以不盡人意是因?yàn)樵诜g過程中存在著下列問題:①源文句子分析時(shí)語法結(jié)構(gòu)和語義結(jié)構(gòu)存在歧義;②多義詞在不同語境中存在譯詞選擇問題;③譯文生成時(shí)存在介詞、助詞的多義選擇問題;④譯文生成時(shí)還存在性、數(shù)、格一樣性問題、時(shí)態(tài)、語態(tài)、語氣、尊稱選擇問題和符合母語語言習(xí)慣、語序選擇問題;⑤代詞指代問題、相關(guān)詞照應(yīng)問題、省略成分復(fù)原問題,等等。目前,機(jī)器翻譯探討領(lǐng)域有幾個(gè)探討動(dòng)向值得留意:(1)為解決機(jī)器翻譯系統(tǒng)面臨的重重困難,接受多種翻譯分析策略、多種翻譯方法的結(jié)合是當(dāng)前機(jī)器翻譯探討的動(dòng)向和前沿性探討;現(xiàn)有基于規(guī)則的翻譯技術(shù)和基于語料統(tǒng)計(jì)的翻譯技術(shù)各有其不足之處,考慮到語言的規(guī)律性和重復(fù)性,一些探討者又提出了一種基于翻譯記憶技術(shù)的機(jī)器翻譯方法,即利用先驗(yàn)的或者人機(jī)交互過程中生成的翻譯記憶,實(shí)現(xiàn)對(duì)輸入文本的翻譯,例如歐共體(德國(guó)TRADOS公司)開發(fā)的“TradosTranslator’sworkbench”系統(tǒng)、美國(guó)的CMU高校探討開發(fā)的Pangloss系統(tǒng)等,并已取得了很好的效果。不過由于它們是基于例子的完全匹配,有下面三方面的問題:一方面這種例子庫無法包涵全部的現(xiàn)實(shí)自然語言句子;另一方面由于例子的適應(yīng)性不強(qiáng),如要使這種例子庫具有確定的語言現(xiàn)象覆蓋面的話,勢(shì)必會(huì)使例子庫特別浩大,并且微小差別不能夠有效泛化,冗余度很大;第三方面是例子庫的譯文構(gòu)造基本局限在模式匹配的語言處理層次上,譯文近似構(gòu)造實(shí)力很低。但是基于實(shí)例模式庫的基于實(shí)例的翻譯方法則能克服以上問題,是對(duì)基于簡(jiǎn)潔翻譯記憶方法的改造和完善。事實(shí)上現(xiàn)在很多機(jī)器翻譯系統(tǒng)或探討基本上都是接受基于規(guī)則翻譯方法和基于語料庫翻譯方法相結(jié)合,形成一種探討的潮流和動(dòng)向。(2)在機(jī)器翻譯系統(tǒng)中實(shí)現(xiàn)參數(shù)化,這也是現(xiàn)在機(jī)器翻譯系統(tǒng)的一個(gè)發(fā)展方向和新動(dòng)向。為了提高機(jī)器翻譯的譯文質(zhì)量,有效的方法是將通用的機(jī)器翻譯系統(tǒng)進(jìn)行專一領(lǐng)域化(可在很大程度上提高機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量),而專一領(lǐng)域化又必需對(duì)每一個(gè)領(lǐng)域構(gòu)造不同的專業(yè)領(lǐng)域詞典加上通用詞典,這就必需花費(fèi)巨大的人力、物力和時(shí)間。為了既能對(duì)機(jī)器翻譯系統(tǒng)實(shí)現(xiàn)專一領(lǐng)域化而又不必對(duì)每一個(gè)領(lǐng)域構(gòu)造不同的專業(yè)領(lǐng)域詞典,對(duì)機(jī)器翻譯系統(tǒng)實(shí)現(xiàn)參數(shù)化是一種解決方法。參數(shù)化的機(jī)器翻譯系統(tǒng)有一個(gè)翻譯核心,而且只有一套詞典和一套語法規(guī)則,但在模型的建立中設(shè)置了很多的參數(shù)。對(duì)于不同領(lǐng)域的需求,參數(shù)化的機(jī)器翻譯系統(tǒng)接受自動(dòng)學(xué)習(xí)的方法來調(diào)整參數(shù)的設(shè)置,以達(dá)到符合這個(gè)領(lǐng)域的要求。臺(tái)灣清華高校的蘇克毅教授與英群公司研制的英漢機(jī)器翻譯系統(tǒng)ARCHTRAN(接受ATN、RULE、統(tǒng)計(jì)方法三結(jié)合),1989年5月完成,始終為IBM、HP、SUN等公司翻譯手冊(cè)。蘇克毅教授的英漢機(jī)器翻譯系統(tǒng)中實(shí)現(xiàn)了參數(shù)化。國(guó)內(nèi)翻譯軟件市場(chǎng)上的商業(yè)軟件主要有詞典類軟件和翻譯類軟件兩種。前者包括金山詞霸、東方快車、華建詞海等產(chǎn)品,后者包括華建網(wǎng)上通系列、銘泰公司的東方快譯系列、金山公司的金山快譯、IBM的翻譯家和中軟公司的譯星系列等全文翻譯軟件。華建機(jī)器翻譯有限公司的IAT系統(tǒng)(單板版和局域網(wǎng)絡(luò)版)、德國(guó)TRADOS公司的TRADOS系統(tǒng)(在英語類國(guó)家中市場(chǎng)占有明顯領(lǐng)先地位,有60多個(gè)國(guó)家)、北京雅信誠軟件公司的雅信CAT系統(tǒng)(按設(shè)定的匹配率給出參考譯文)則是協(xié)助翻譯類的產(chǎn)品代表。2.機(jī)器翻譯系統(tǒng)的分類及特點(diǎn)
從機(jī)器翻譯系統(tǒng)研制的方法來分,機(jī)器翻譯系統(tǒng)可以分為如下類型:(1)基于規(guī)則的機(jī)器翻譯系統(tǒng)(Rule-BasedMTsystem,簡(jiǎn)稱RBMTS):它是依據(jù)專家的學(xué)問歸納的語言的規(guī)則設(shè)計(jì)的機(jī)器翻譯系統(tǒng)。基于規(guī)則翻譯方法在機(jī)器翻譯界始終占有主導(dǎo)地位,直到今日仍發(fā)揮著重要作用,現(xiàn)在有影響的MTS都是基于規(guī)則的。(2)基于語料庫的機(jī)器翻譯系統(tǒng)(Corpus-BasedMTsystem,簡(jiǎn)稱CBMTS):它是依據(jù)從語料庫中獲得的統(tǒng)計(jì)數(shù)據(jù)或者語言實(shí)例來設(shè)計(jì)的機(jī)器翻譯系統(tǒng)。基于語料庫方法的MTS通常稱為第三代MTS?;谡Z料庫的機(jī)器翻譯系統(tǒng)還可以進(jìn)一步再分類,分為如下三種類型:a.基于統(tǒng)計(jì)的機(jī)器翻譯系統(tǒng)(Statistic-BasedMTsystem,簡(jiǎn)稱SBMTS):它是依據(jù)從語料庫中獲得的統(tǒng)計(jì)數(shù)據(jù)來設(shè)計(jì)的機(jī)器翻譯系統(tǒng)。統(tǒng)計(jì)機(jī)器翻譯的數(shù)學(xué)模型是由IBM公司的Brown等人提出的(1990,1993),它包括語言模型和困難程度遞增的5種翻譯模型(數(shù)學(xué)模型),簡(jiǎn)稱IBMModel1~5。IBM公司的英法機(jī)譯系統(tǒng)Candide在統(tǒng)計(jì)機(jī)器翻譯方法上做出了有益嘗試。b.基于實(shí)例的機(jī)器翻譯系統(tǒng)(Example-BasedMTsystem,簡(jiǎn)稱EBMTS):它是依據(jù)從語料庫中獲得的語言實(shí)例來設(shè)計(jì)的機(jī)器翻譯系統(tǒng)。基于實(shí)例翻譯方法最早是由日本著名的機(jī)器翻譯專家長(zhǎng)尾真1984年提出的,其基本設(shè)想是不通過深層的分析,僅僅利用已有的翻譯閱歷學(xué)問,通過類比原理進(jìn)行翻譯。日本京都高校的英日試驗(yàn)系統(tǒng)MBT2在基于實(shí)例翻譯方法上做出了有益嘗試。c.翻譯記憶系統(tǒng)(TranslationMemoryMTsystem,簡(jiǎn)稱TMMTS):它是能夠保存和重復(fù)運(yùn)用翻譯工作者已經(jīng)翻譯好的譯文的翻譯系統(tǒng)。翻譯記憶軟件在內(nèi)容修訂和更新的全過程中能保存和重復(fù)運(yùn)用譯文。假如有新的資料須要翻譯,可以運(yùn)用原來存儲(chǔ)在翻譯記憶中的譯文,重復(fù)運(yùn)用原來的譯文。關(guān)于翻譯記憶機(jī)制的設(shè)想,最早提出這一想法的是PeterArthern(1978)。他指出:假如能在線檢索已有的、相像文檔的譯文,翻譯人員就能從中獲得很大的幫助。他還主見開發(fā)一個(gè)程序,讓系統(tǒng)記住已經(jīng)翻譯過的文本,新文本輸入后系統(tǒng)檢查“記憶庫”,找到相像的文本并輸出其譯文。翻譯記憶技術(shù)系統(tǒng)產(chǎn)品包括Transit(STAR)、TranslationManager(IBM)、Optimizer(Eurolang)、Translator’sWorkbench(Trados)、TransPro(TranPro)、WorldLingo等。從機(jī)器翻譯系統(tǒng)的自動(dòng)化程度來分,機(jī)器翻譯系統(tǒng)可以分為如下類型:(1)全自動(dòng)機(jī)器翻譯系統(tǒng)(FullAutomaticMTsystem,簡(jiǎn)稱FAMTS):它是由計(jì)算機(jī)全部自動(dòng)地進(jìn)行翻譯的機(jī)器翻譯系統(tǒng)。(2)人助機(jī)譯機(jī)器翻譯系統(tǒng)(Human-AssistedMTsystem,簡(jiǎn)稱HAMTS):它是由人來協(xié)助計(jì)算機(jī)進(jìn)行翻譯的機(jī)器翻譯系統(tǒng)??梢酝ㄟ^譯前編輯對(duì)于要翻譯的原文進(jìn)行加工,使之適合機(jī)器翻譯系統(tǒng)的要求,或者通過譯后編輯對(duì)于翻譯好的譯文進(jìn)行修改,使之滿足用戶的須要。(3)機(jī)助人譯機(jī)器翻譯系統(tǒng)(Machine-AssistedMTsystem,簡(jiǎn)稱MAMTS):它是由計(jì)算機(jī)協(xié)助人來進(jìn)行翻譯的機(jī)器翻譯系統(tǒng)。例如,人可以運(yùn)用計(jì)算機(jī)來查詢?cè)~典,修改譯文錯(cuò)誤等。這后兩種翻譯系統(tǒng)合稱計(jì)算機(jī)協(xié)助翻譯系統(tǒng)。從翻譯轉(zhuǎn)換方式和翻譯過程來分,機(jī)器翻譯系統(tǒng)又可以分為以下三種類型:(1)直譯方式和直譯式系統(tǒng)(DriectTranslationMTS,簡(jiǎn)稱DTMTS):它是以干脆翻譯方法為基礎(chǔ)的第一代機(jī)器翻譯系統(tǒng)。直譯法的基本原則是把原語的詞或句子替換成相應(yīng)的譯語的詞或句子,必要時(shí)對(duì)譯文詞序進(jìn)行適當(dāng)?shù)恼{(diào)整。早期的MTS主要接受直譯式的翻譯模式。(2)基于轉(zhuǎn)換翻譯方式和基于轉(zhuǎn)換方式的機(jī)器翻譯系統(tǒng)(TransferBasedMTS,簡(jiǎn)稱TBMTS):它包括源語言分析、源語言到目標(biāo)語言的轉(zhuǎn)換和目標(biāo)語言生成三個(gè)階段。轉(zhuǎn)換方法保留了較多的源語句型信息和源語到目標(biāo)語的結(jié)構(gòu)轉(zhuǎn)換信息,同時(shí)也較依靠雙語詞典來供應(yīng)轉(zhuǎn)換時(shí)所需的源語到目標(biāo)語的結(jié)構(gòu)轉(zhuǎn)換信息。轉(zhuǎn)換可以在詞法、句法或語義等不同的層次上進(jìn)行,即一類系統(tǒng)僅有句法轉(zhuǎn)換,另一類則超越了表層結(jié)構(gòu)加入了語義分析?;谵D(zhuǎn)換翻譯方式其中的很多方法和技術(shù)相對(duì)比較成熟,直到今日仍被沿用。有些基于轉(zhuǎn)換策略的MTS接受了在源語和譯語之間能表現(xiàn)句法關(guān)系并在確定程度上表現(xiàn)語義關(guān)系的中間表達(dá)式(例如句法結(jié)構(gòu)樹、語義網(wǎng)絡(luò)等)。在翻譯過程中先把源語句子分析結(jié)果轉(zhuǎn)化為中間表達(dá)式,再由中間表達(dá)式轉(zhuǎn)換生成譯文。其次代MTS以基于轉(zhuǎn)換的方法為代表,普遍接受以句法分析為主、語義分析為輔的基于規(guī)則方法、接受由抽象的轉(zhuǎn)換表示的分層次實(shí)現(xiàn)策略。比如著名的有加拿大蒙特利爾高校的TAUM-METEO系統(tǒng),法國(guó)Grenoble高校的英法機(jī)器翻譯系統(tǒng)GETA系統(tǒng)和TITUS系統(tǒng),美國(guó)Texas高校的德英機(jī)器翻譯系統(tǒng)METAL系統(tǒng)和LOGOS系統(tǒng)、德國(guó)Saar高校的德俄英法多語機(jī)器翻譯系統(tǒng)SUSY系統(tǒng)和日本FUJITSU公司的日英機(jī)器翻譯系統(tǒng)ATLAS-I、ATLAS-II。(3)基于中間語言(中介語)方式和基于中間語言(樞軸式)的機(jī)器翻譯系統(tǒng)(Interlingua-BasedMTS,簡(jiǎn)稱IBMTS):它將語義表達(dá)推至極限,試圖創(chuàng)建一個(gè)獨(dú)立于各種自然語言同時(shí)又能表達(dá)各種自然語言的無歧義人工語言作為中間語言。中間語言方法的基本論點(diǎn)是:雖然各種語言的表層結(jié)構(gòu)(句法結(jié)構(gòu))差異比較大,但卻有相同的深層結(jié)構(gòu)表達(dá)式,這些表達(dá)式可以看作通用的語義表達(dá)式。源語經(jīng)過各個(gè)層次的分析由表層結(jié)構(gòu)到達(dá)深層結(jié)構(gòu),而目標(biāo)語的生成也是從深層結(jié)構(gòu)經(jīng)過各個(gè)層次最終到達(dá)表層結(jié)構(gòu)。其特點(diǎn)是對(duì)多語翻譯系統(tǒng)特別經(jīng)濟(jì)合算,將n(n-1)個(gè)雙語有向系統(tǒng)變?yōu)?n個(gè)語言分析模塊和生成模塊。法國(guó)Grenoble高校的俄法系統(tǒng)CETA和美國(guó)Texas高校的德英機(jī)器翻譯系統(tǒng)METAL在基于中間語言翻譯方法上都做出了有益嘗試。歐共體的EUROTRA支配包括多種語言互譯,向多種語言間全自動(dòng)翻譯這一艱難目標(biāo)邁出實(shí)實(shí)在在的步伐。由日本政府(日本國(guó)際情報(bào)化合作中心CICC)資助的ODA支配從1987年至1992年(事實(shí)上是1993年)有日本、中國(guó)、泰國(guó)、馬來西亞、印度尼西亞等五個(gè)亞洲國(guó)家參與,投資六十億日元,對(duì)中間語言翻譯方法進(jìn)行了探究。從機(jī)器翻譯用戶的需求來分,機(jī)器翻譯系統(tǒng)可以分為如下四種類型:(1)為閱讀者研制的機(jī)器翻譯(MTfortheWatcher,簡(jiǎn)稱MT-W,或MTfortheBrowser,簡(jiǎn)稱MT-B):其目的是幫助閱讀者查閱外文資料,對(duì)于譯文質(zhì)量要求不高,閱讀者可以接受粗糙的譯文。(2)為修訂者研制的機(jī)器翻譯(MTfortheReviser,簡(jiǎn)稱MT-R):其目的是幫助用戶修訂粗糙的譯文,粗糙的譯文經(jīng)過修訂之后,質(zhì)量應(yīng)當(dāng)比為閱讀者研制的機(jī)器翻譯的譯文有所提高。(3)為翻譯者研制的機(jī)器翻譯(MTfortheTranslator,簡(jiǎn)稱MT-T):其目的是幫助用戶進(jìn)行在線機(jī)器翻譯,用戶在翻譯時(shí)可以運(yùn)用在線機(jī)器詞典、翻譯實(shí)例庫等,因此,對(duì)于譯文質(zhì)量的要求比較高。(4)為寫作者研制的機(jī)器翻譯(MTfortheAuthor,簡(jiǎn)稱MT-A):其目的在于幫助用戶進(jìn)行翻譯或?qū)懽?,要盡量避開翻譯中的歧義,因此,對(duì)于譯文質(zhì)量要求更高。3.機(jī)器協(xié)助翻譯系統(tǒng)前面已經(jīng)講過,機(jī)器翻譯系統(tǒng)(全自動(dòng)翻譯)的譯準(zhǔn)率長(zhǎng)期徘徊在70%左右,譯文的可讀性、系統(tǒng)對(duì)語言現(xiàn)象的覆蓋面、系統(tǒng)的魯棒性尤其是開放性都不盡人意。社會(huì)迫切須要對(duì)真實(shí)文本(尤其是網(wǎng)上海量文本)進(jìn)行大規(guī)模的處理,而機(jī)器翻譯系統(tǒng)同當(dāng)今社會(huì)對(duì)大規(guī)模真實(shí)文本處理的期望相差甚遠(yuǎn)。機(jī)器協(xié)助翻譯(ComputerAidedTranslation,簡(jiǎn)稱CAT)的思想就是在這樣的背景下產(chǎn)生的。與全自動(dòng)機(jī)器翻譯系統(tǒng)相比較,機(jī)器協(xié)助翻譯系統(tǒng)是一種人機(jī)交互式系統(tǒng)。在這種翻譯模式中,計(jì)算機(jī)負(fù)責(zé)協(xié)助翻譯人員的任務(wù),不僅給翻譯人員供應(yīng)一些詞匯、術(shù)語、短語、慣用語翻譯的學(xué)問,而且從已翻譯過文本中查找相同或相像語句的譯文,使翻譯人員避開不必要的重復(fù)勞動(dòng),進(jìn)行高效率的翻譯工作。計(jì)算機(jī)協(xié)助翻譯的重要思想(包括基于翻譯記憶技術(shù)和基于實(shí)例模式的翻譯技術(shù))是在翻譯記憶庫(雙語對(duì)齊庫)和實(shí)例模式庫中搜尋相同或相像的句子或短語,給出參考譯文。翻譯人員充分利用已有的翻譯資源,盡量避開重復(fù)勞動(dòng)。這種協(xié)助翻譯機(jī)制特殊適合于科技專著、科技文獻(xiàn)、產(chǎn)品說明書、用戶手冊(cè)、產(chǎn)品的幫助文件、聯(lián)合國(guó)文件等這種篇幅長(zhǎng)、重復(fù)語言現(xiàn)象較多的文本類型的翻譯,能幫助翻譯人員消退重復(fù)的翻譯勞動(dòng),只需專注于新內(nèi)容的翻譯。機(jī)器協(xié)助翻譯系統(tǒng)有不同層次的系統(tǒng),最早最低級(jí)的是各種雙語電子詞典,其次層是單純的翻譯記憶系統(tǒng)(如德國(guó)Trados公司的Translator’sWorkbench),第三層是同時(shí)含有翻譯記憶功能、基于實(shí)例模式翻譯功能、甚至包括規(guī)則翻譯功能的系統(tǒng),例如國(guó)內(nèi)的華建公司的基于多策略的交互式智能協(xié)助翻譯平臺(tái)華建智能協(xié)助翻譯系統(tǒng)HJ-IAT。智能化的機(jī)器協(xié)助翻譯系統(tǒng)至少應(yīng)當(dāng)包括譯前編輯、譯后編輯、翻譯記憶和檢索、基于實(shí)例模式翻譯、項(xiàng)目工程管理等功能。在基于實(shí)例模式翻譯和基于翻譯記憶技術(shù)翻譯的翻譯流程設(shè)計(jì)上,有幾種做法:(1)第一種做法是僅僅包含基于翻譯記憶技術(shù)功能或僅僅包含基于實(shí)例模式翻譯功能;(2)其次種做法是同時(shí)包含基于翻譯記憶技術(shù)功能和基于實(shí)例模式翻譯功能,但兩種翻譯方法和兩種翻譯過程混合在一起;(3)第三種做法是同時(shí)包含基于翻譯記憶技術(shù)功能和基于實(shí)例模式翻譯功能,而且兩種翻譯方法和翻譯過程分階段進(jìn)行。這第一種做法的兩種都不夠全面,功能也不全,一般不應(yīng)取這種做法。其次種做法能比第一種做法功能要強(qiáng)要全面,但是兩種方法和兩種過程混合在一起,技術(shù)難度要大,過程也不好限制。我自己的機(jī)器翻譯系統(tǒng)探討閱歷和體會(huì)是第三種做法總體上最好,兩種方法和兩種過程的各自目標(biāo)清晰明確,兩種方法可以將自己的優(yōu)勢(shì)發(fā)揮到極致,過程也好限制。4.基于翻譯記憶技術(shù)的協(xié)助翻譯的有關(guān)技術(shù)前面提到關(guān)于翻譯記憶機(jī)制的設(shè)想是PeterArthern(1978)最早提出的。1980年前后一些探討人員紛紛起先收集和保存翻譯樣例,希望能將已有的翻譯資源重新利用并資源共享。但當(dāng)時(shí)計(jì)算機(jī)硬件限制(儲(chǔ)存空間有限),建設(shè)雙語語料庫的費(fèi)用高,雙語語料對(duì)齊的算法不成熟,因此翻譯記憶技術(shù)始終處于探究階段。到1990年左右才有事實(shí)上的翻譯記憶系統(tǒng)在市場(chǎng)上出現(xiàn),如Sadler&Vendelman(1990)的“BilingualKnowledgeBank”。之后支持翻譯記憶的翻譯工作站首次上市,產(chǎn)品包括Transit(STAR)、TranslationManager(IBM)、Optimizer(Eurolang)、Translator’sWorkbench(Trados)、TransPro(TransPro)、WorldLingo等。而且隨著計(jì)算機(jī)存儲(chǔ)空間擴(kuò)大、處理速度加快、大量文本數(shù)據(jù)數(shù)字化又相當(dāng)簡(jiǎn)潔,翻譯記憶系統(tǒng)越來越得到翻譯人員的關(guān)注和重視(JohnHutchins,1998)。目前翻譯記憶機(jī)制不僅是絕大多數(shù)機(jī)器協(xié)助翻譯系統(tǒng)的核心甚至已經(jīng)成為機(jī)器協(xié)助翻譯的代名詞,而且已經(jīng)成為一些多種翻譯策略的機(jī)器翻譯系統(tǒng)的組成部分,成為基于規(guī)則翻譯方法和基于統(tǒng)計(jì)方法的協(xié)助手段和提高翻譯效率的手段。近幾年各種機(jī)器協(xié)助翻譯軟件在國(guó)內(nèi)外不斷面世,它們的應(yīng)用在國(guó)外翻譯界較為普遍,如歐盟、德國(guó)大眾、西門子、聯(lián)合國(guó)、Microsoft、Cisco、Intel、HP等企業(yè)和國(guó)際組織運(yùn)用“塔多思專業(yè)協(xié)助翻譯軟件(TradosTranslator’sWorkbench)”來進(jìn)行大量科技文獻(xiàn)的翻譯?!癟ranslator’sWorkbench”是由德國(guó)Trados公司開發(fā)的面對(duì)企業(yè)及個(gè)人的互動(dòng)式翻譯系統(tǒng),該系統(tǒng)干脆和微軟的Word集成,界面友好,此外還有強(qiáng)大的網(wǎng)絡(luò)共享、術(shù)語管理、翻譯項(xiàng)目管理,為專業(yè)翻譯領(lǐng)域供應(yīng)了一整套的解決方案。塔多思基本壟斷了國(guó)際大型翻譯和本地化公司以及全球四萬多企業(yè)和國(guó)際組織,市場(chǎng)占有率達(dá)70%以上。中國(guó)對(duì)外翻譯出版公司運(yùn)用英國(guó)著名的翻譯系統(tǒng)SDLX進(jìn)行大量的專業(yè)文本的翻譯。中國(guó)國(guó)內(nèi)主要產(chǎn)品有雅信CAT和華建智能協(xié)助翻譯系統(tǒng)HJ-IAT,這兩個(gè)系統(tǒng)都支持漢英、英漢雙向翻譯?;诜g記憶技術(shù)的協(xié)助翻譯的研制牽涉到雙語語料庫的庫構(gòu)造、語料管理和語料對(duì)齊技術(shù)、協(xié)助翻譯平臺(tái)的翻譯句對(duì)檢索算法、項(xiàng)目工程管理有關(guān)技術(shù),其中最重要的是雙語語料庫的規(guī)模、語料加工深度、加工質(zhì)量、對(duì)齊描述的對(duì)齊信息描述內(nèi)容和對(duì)齊技術(shù)以及對(duì)齊工具的開發(fā)。雙語對(duì)齊可在篇章級(jí)、段落級(jí)、句子級(jí)、子句級(jí)、短語級(jí)、詞匯級(jí)多種級(jí)別進(jìn)行。目前比較好用的、技術(shù)比較成熟的是句子級(jí)的對(duì)齊。句子對(duì)齊現(xiàn)有方法基本上有三種:①基于長(zhǎng)度的方法:依據(jù)的是兩種語言譯文的長(zhǎng)度滿足確定比例關(guān)系。②基于雙語詞典的方法:依據(jù)雙語單詞對(duì)譯的分布信息和詞典翻譯模型進(jìn)行句子對(duì)齊。③基于雙語詞典和基于長(zhǎng)度的混合方法:基于長(zhǎng)度的對(duì)齊方法模型簡(jiǎn)潔,獨(dú)立于語言學(xué)問和其他外部資源,對(duì)齊效率高,但簡(jiǎn)潔造成錯(cuò)誤擴(kuò)散。基于雙語詞典對(duì)齊方法相對(duì)牢靠精確,但計(jì)算相當(dāng)困難并且詞典譯文覆蓋領(lǐng)先對(duì)較低。將這兩種方法結(jié)合起來進(jìn)行句子對(duì)齊,有互補(bǔ)優(yōu)勢(shì),可提高對(duì)齊的召回率和正確率。句子對(duì)齊模式可能存在多種模式,例如1:1,1:n,n:1,m:n,甚至0:1或1:0模式。同句子對(duì)齊相比,短語對(duì)齊或詞匯對(duì)齊可以供應(yīng)更細(xì)粒度的對(duì)譯信息,能有效地提高譯文精確度和可讀性,因此對(duì)它的探討具有重要意義。就詞匯級(jí)對(duì)齊技術(shù)而言,目前有基于統(tǒng)計(jì)的和基于詞典的兩類主要方法。統(tǒng)計(jì)方
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年江西工業(yè)工程職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能考試備考試題帶答案解析
- 2026 年高職音樂表演(合唱指揮)試題及答案
- 早期人類逐漸演化成現(xiàn)代人課件-濟(jì)南版生物八年級(jí)下冊(cè)
- 2026 年高職醫(yī)學(xué)影像技術(shù)(超聲診斷學(xué))試題及答案
- 惠州特靈空調(diào)維修協(xié)議書
- 婦科護(hù)理患者安全管理
- 野生動(dòng)物疫病防治工創(chuàng)新思維強(qiáng)化考核試卷含答案
- 如何開滑板培訓(xùn)班課件
- 郵件發(fā)送接收的協(xié)議書
- 學(xué)校繳費(fèi)協(xié)議書注意事項(xiàng)
- 國(guó)家開放大學(xué)電大本科《流通概論》復(fù)習(xí)題庫
- 2025年高職物流管理(物流倉儲(chǔ)管理實(shí)務(wù))試題及答案
- 2025-2026學(xué)年統(tǒng)編版二年級(jí)語文上冊(cè)期末質(zhì)量檢測(cè)卷(含答案)
- 2025年學(xué)法減分試題及答案
- 2025年德州樂陵市市屬國(guó)有企業(yè)公開招聘工作人員(6人)參考筆試題庫及答案解析
- 2025年特種作業(yè)人員考試題庫及答案
- 邢臺(tái)課件教學(xué)課件
- 醫(yī)防融合視角下家庭醫(yī)生簽約慢病管理策略
- 2025年新能源市場(chǎng)開發(fā)年度總結(jié)與戰(zhàn)略展望
- 中職歷史期末考試及答案
- 從指南看慢性乙型病毒性肝炎的防治策略
評(píng)論
0/150
提交評(píng)論