版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、機(jī)器翻譯原理與方法 第二講 機(jī)器翻譯方法概述,中國(guó)科學(xué)院計(jì)算技術(shù)研究所2009年秋季課程,劉群 中國(guó)科學(xué)院計(jì)算技術(shù)研究所 liuqun,2,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,內(nèi)容提要,機(jī)器翻譯方法(按轉(zhuǎn)換層面劃分) 直接翻譯方法 句法轉(zhuǎn)換方法 語義轉(zhuǎn)換方法 中間語言方法 機(jī)器翻譯方法(按知識(shí)表示形式劃分) 基于規(guī)則的方法 基于實(shí)例的方法(含模板方法、翻譯記憶方法) 統(tǒng)計(jì)方法,3,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,按轉(zhuǎn)換層面劃分的機(jī)器翻譯方法,4,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,內(nèi)容提要,機(jī)器翻譯方法(按轉(zhuǎn)換層面劃分) 直接翻譯方法 句法轉(zhuǎn)換方法 語義轉(zhuǎn)換方
2、法 中間語言方法 機(jī)器翻譯方法(按知識(shí)表示形式劃分) 基于規(guī)則的方法 基于實(shí)例的方法(含模板方法、翻譯記憶方法) 統(tǒng)計(jì)方法,5,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,直接翻譯方法,通過詞語翻譯、插入、刪除和局部的詞序調(diào)整來實(shí)現(xiàn)翻譯,不進(jìn)行深層次的句法和語義的分析,但可以采用一些統(tǒng)計(jì)方法對(duì)詞語和詞類序列進(jìn)行分析 早期機(jī)器翻譯系統(tǒng)常用的方法,后來IBM提出的統(tǒng)計(jì)機(jī)器翻譯模型也可以認(rèn)為是采用了這一范式 著名的機(jī)器翻譯系統(tǒng)Systran早期也是采用這種方法,后來逐步引入了一些句法和語義分析,6,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,內(nèi)容提要,機(jī)器翻譯方法(按轉(zhuǎn)換層面劃分) 直接翻譯方法
3、 句法轉(zhuǎn)換方法 語義轉(zhuǎn)換方法 中間語言方法 機(jī)器翻譯方法(按知識(shí)表示形式劃分) 基于規(guī)則的方法 基于實(shí)例的方法(含模板方法、翻譯記憶方法) 統(tǒng)計(jì)方法,7,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,轉(zhuǎn)換方法 (1),整個(gè)翻譯過程分為“分析”、“轉(zhuǎn)換”、“生成”三個(gè)階段; 分析:源語言句子源語言深層結(jié)構(gòu) 相關(guān)分析:分析時(shí)考慮目標(biāo)語言的特點(diǎn) 獨(dú)立分析:分析過程與目標(biāo)語言無關(guān) 轉(zhuǎn)換:源語言深層結(jié)構(gòu)目標(biāo)語言深層結(jié)構(gòu) 生成:目標(biāo)語言深層結(jié)構(gòu)目標(biāo)語言句子 相關(guān)生成:生成時(shí)考慮源語言的特點(diǎn) 獨(dú)立生成:生成過程與源語言無關(guān),8,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,轉(zhuǎn)換方法 (2),理想的轉(zhuǎn)換方法應(yīng)
4、該做到獨(dú)立分析和獨(dú)立生成,這樣在進(jìn)行多語言機(jī)器翻譯的時(shí)候可以大大減少分析和生成的工作量; 轉(zhuǎn)換方法根據(jù)深層結(jié)構(gòu)所處的層面可分為: 句法層轉(zhuǎn)換:深層結(jié)構(gòu)主要是句法信息 語義層轉(zhuǎn)換:深層結(jié)構(gòu)主要是語義信息 分析深度的權(quán)衡 分析的層次越深,歧義排除就越充分 分析的層次越深,錯(cuò)誤率也越高,9,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,轉(zhuǎn)換方法 (3),10,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,句法層面的轉(zhuǎn)換方法 (1),她把一束花放在桌上。,She put a bunch of flowers on the table.,她/r 把/p-q-v-n 一/m-d 束/q 花/n-v-a 放
5、/v 在/p-d-v 桌/n 上/f-v 。/w,她/r 把/p 一/m-d 束/q 花/n 放/v 在/p-v 桌/n 上/f-v 。/w,切分標(biāo)注,標(biāo)注排歧,11,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,句法層面的轉(zhuǎn)換方法 (2),句法分析,她/r 把/p 一/m-d 束/q 花/n 放/v 在/p-v 桌/n 上/f-v 。/w,12,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,句法層面的轉(zhuǎn)換方法 (3),句法結(jié)構(gòu)轉(zhuǎn)換,13,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,句法層面的轉(zhuǎn)換方法 (4),句法結(jié)構(gòu)生成,14,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,句法層面的轉(zhuǎn)換方
6、法 (5),She puts a bunch of flowers on table .,N/她,NP/np,SS/zj,CS/dj,VP/vp,VP/vp,V/放,W/。,NP/pp,#/p,NP/np,NP/mp,P/#,NP/np,T/一,N/束,of,N/花,PP/pp,#/p,PP/sp,P/上,N/桌,詞語轉(zhuǎn)換與 詞語 生成,15,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,內(nèi)容提要,機(jī)器翻譯方法(按轉(zhuǎn)換層面劃分) 直接翻譯方法 句法轉(zhuǎn)換方法 語義轉(zhuǎn)換方法 中間語言方法 機(jī)器翻譯方法(按知識(shí)表示形式劃分) 基于規(guī)則的方法 基于實(shí)例的方法(含模板方法、翻譯記憶方法) 統(tǒng)計(jì)方法,16
7、,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,中間語言方法 (1),利用一種中間語言(interlingua)作為翻譯的中介表示形式; 整個(gè)翻譯的過程分為“分析”和“生成”兩個(gè)階段 分析:源語言中間語言 生成:中間語言目標(biāo)語言 分析過程只與源語言有關(guān),與目標(biāo)語言無關(guān) 生成過程只與目標(biāo)語言有關(guān),與源語言無關(guān),17,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,中間語言方法 (2),中間語言方法的優(yōu)點(diǎn)在于進(jìn)行多語種翻譯的時(shí)候,只需要對(duì)每種語言分別開發(fā)一個(gè)分析模塊和一個(gè)生成模塊,模塊總數(shù)為2*n,相比之下,如果采用轉(zhuǎn)換方法就需要對(duì)每?jī)煞N語言之間都開發(fā)一個(gè)轉(zhuǎn)換模塊,模塊總數(shù)為n*(n-1),18,機(jī)
8、器翻譯原理與方法(02) 機(jī)器翻譯方法概述,中間語言方法 (3),語言1,語言2,語言4,語言3,中間,語言,中間語言方法,語言1,語言2,語言4,語言3,轉(zhuǎn)換方法,19,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,中間語言方法 (4),中間語言的類型 自然語言:如英語、漢語 人工語言:如世界語 某種知識(shí)表示形式:如語義網(wǎng)絡(luò) 以某種知識(shí)表示形式作為中間語言的機(jī)器翻譯方法有時(shí)也稱為基于知識(shí)的機(jī)器翻譯方法,20,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,中間語言方法 (5),Makoto Nagao (Kyoto University) said: “. when the pivot lan
9、guage i.e. interlingua is used, the results of the analytic stage must be in a form which can be utilized by all of the different languages into which translation is to take place. This level of subtlety is a practical impossibility.” (Machine Translation, Oxford, 1989) Patel-Schneider (METAL system
10、) said: ”METAL employs a modified transfer approach rather than an interlingua. If a meta-language an interlingua were to be used for translation purposes, it would need to incorporate all possible features of many languages. That would not only be an endless task but probably a fruitless one as wel
11、l. Such a system would soon become unmanageable and perhaps collapse under its own weight.” (A four-valued semantics for terminological reasoning, Artificial Intelligence, 38, 1989),21,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,中間語言方法 (6),基于中間語言方法一般都用于多語言的機(jī)器翻譯系統(tǒng)中; 從實(shí)踐看,采用某種人工定義的知識(shí)表示形式作為中間語言進(jìn)行多語言機(jī)器翻譯都不太成功,如日本主持的亞洲五國(guó)語言機(jī)器
12、翻譯系統(tǒng),總體上是失敗的; 在CSTAR多國(guó)語口語機(jī)器翻譯系統(tǒng)中,曾經(jīng)采用了一種中間語言方法,其中間語言是一種語義表示形式,由于語音翻譯都限制在非常狹窄的領(lǐng)域中(如機(jī)票預(yù)定),語義描述可以做到比較精確,因此采用中間語言方法有一定的合理性。 在統(tǒng)計(jì)機(jī)器翻譯中,很多研究人員開始采用某種自然語言作為中間語言(這時(shí)又稱“樞紐語言”,或Pivot Language),樞紐語言目前以英語為主,主要原因是英語到其他語言的雙語語料庫(kù)比較容易獲得,而其他語言直接的雙語語料庫(kù)很難獲得。,22,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,中間語言示例語義網(wǎng)絡(luò),英語:He bought a book on phys
13、ics. 漢語:他買了一本關(guān)于物理學(xué)的書。,說明:這里#后面表示的是概念,而不是英語詞。,23,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,中間語言示例語義網(wǎng)絡(luò),英語:He bought a book on physics. 漢語:他買了一本關(guān)于物理學(xué)的書。,說明:這里#后面表示的是概念,而不是英語詞。,24,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,中間語言示例概念詞典,25,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,內(nèi)容提要,機(jī)器翻譯方法(按轉(zhuǎn)換層面劃分) 直接翻譯方法 句法轉(zhuǎn)換方法 語義轉(zhuǎn)換方法 中間語言方法 機(jī)器翻譯方法(按知識(shí)表示形式劃分) 基于規(guī)則的方法 基于實(shí)例的方法(
14、含模板方法、翻譯記憶方法) 統(tǒng)計(jì)方法,26,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,按知識(shí)表示劃分的機(jī)器翻譯方法,基于規(guī)則的機(jī)器翻譯方法 基于實(shí)例的機(jī)器翻譯方法 基于翻譯記憶的機(jī)器翻譯方法 基于模板(模式)的機(jī)器翻譯方法 基于統(tǒng)計(jì)的機(jī)器翻譯方法,27,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,內(nèi)容提要,機(jī)器翻譯方法(按轉(zhuǎn)換層面劃分) 直接翻譯方法 句法轉(zhuǎn)換方法 語義轉(zhuǎn)換方法 中間語言方法 機(jī)器翻譯方法(按知識(shí)表示形式劃分) 基于規(guī)則的方法 基于實(shí)例的方法(含模板方法、翻譯記憶方法) 統(tǒng)計(jì)方法,28,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于規(guī)則的方法 (1),采用規(guī)則作為知識(shí)
15、表示形式 重疊詞規(guī)則 切分規(guī)則 標(biāo)注規(guī)則 句法分析規(guī)則 語義分析規(guī)則 結(jié)構(gòu)轉(zhuǎn)換規(guī)則(產(chǎn)生譯文句法語義結(jié)構(gòu)) 詞語轉(zhuǎn)換規(guī)則(譯詞選擇) 結(jié)構(gòu)生成規(guī)則(譯文結(jié)構(gòu)調(diào)整) 詞語生成規(guī)則(譯文詞形生成),29,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于規(guī)則的方法 (2),優(yōu)點(diǎn) 直觀,能夠直接表達(dá)語言學(xué)家的知識(shí) 規(guī)則的顆粒度具有很大的可伸縮性 大顆粒度的規(guī)則具有很強(qiáng)的概括能力 小顆粒度的規(guī)則具有精細(xì)的描述能力 便于處理復(fù)雜的結(jié)構(gòu)和進(jìn)行深層次的理解,如解決長(zhǎng)距離依賴問題 系統(tǒng)適應(yīng)性強(qiáng),不依賴于具體的訓(xùn)練語料,30,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于規(guī)則的方法 (3),缺點(diǎn) 規(guī)則主觀因
16、素重,有時(shí)與客觀事實(shí)有一定差距 規(guī)則的覆蓋性差,特別是細(xì)顆粒度的規(guī)則很難總結(jié)得比較全面 規(guī)則之間的沖突沒有好的解決辦法(翹翹板現(xiàn)象) 規(guī)則一般只局限于某一個(gè)具體的系統(tǒng),規(guī)則庫(kù)開發(fā)成本太高 規(guī)則庫(kù)的調(diào)試極其枯燥乏味,31,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于規(guī)則的方法譯詞選擇,$ 開 *v v $= | $.主體=是,$.主體.語義類=植物 V $= | $.客體=是,$.客體.漢字=燈|機(jī)|器 V( !V D ) $= | $.客體=是,$.客體.語義類=交通工具 = V $= | OTHERWISE = V $=,32,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于規(guī)則的方
17、法結(jié)構(gòu)轉(zhuǎn)換,& mp7 mp-r !mp : $.內(nèi)部結(jié)構(gòu)=組合定中, | %mp.定語.內(nèi)部結(jié)構(gòu)=單詞, %mp.定語.yx=一,%mp.量詞子類=集體|種類|容量|時(shí)量|度量|成形 = NP(T/r !NP/mp) %T.TNNUM=%NP.NNUM /*這一年*/ | %mp.定語.內(nèi)部結(jié)構(gòu)=單詞, ,%mp.定語.yx=一,%mp.量詞子類=個(gè)體 = T(T/r M) /*這一個(gè) 哪一個(gè)*/ | %r.yx=這|那, IF %mp.定語.內(nèi)部結(jié)構(gòu)=單詞,%mp.定語.yx=一 FALSE = NP(T/r !M/mp) %T.TNNUM=PLUR,$.NNUM=PLUR /*這兩張*/
18、 = NP(T/r !NP/mp) %T.TNNUM=PLUR,$.NNUM=PLUR | %r.yx=這那,IF %mp.定語.內(nèi)部結(jié)構(gòu)=單詞,%mp.定語.yx=一 FALSE = NP(T/r !M/mp) $.NNUM=%M.NNUM = NP(T/r !NP/mp) %T.TNSUB=%NP.NSUBC,33,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于規(guī)則的方法結(jié)構(gòu)生成,# NPMP1 NP(T !NP(T !N) = NP(T/T !NP/NP(!N/N) /* this a kind = this kind */ # NPATN1 NP(AP(!A) !NP(T !N)
19、= P(T/T !NP/NP(AP/AP(!A/A) !N/N) /* red this book = this red book */,34,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,內(nèi)容提要,機(jī)器翻譯方法(按轉(zhuǎn)換層面劃分) 直接翻譯方法 句法轉(zhuǎn)換方法 語義轉(zhuǎn)換方法 中間語言方法 機(jī)器翻譯方法(按知識(shí)表示形式劃分) 基于規(guī)則的方法 基于實(shí)例的方法(含模板方法、翻譯記憶方法) 統(tǒng)計(jì)方法,35,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于語料庫(kù)的機(jī)器翻譯方法,機(jī)器翻譯的實(shí)例方法和統(tǒng)計(jì)方法都是基于語料庫(kù)的機(jī)器翻譯方法 優(yōu)點(diǎn) 使用語料庫(kù)作為翻譯知識(shí)來源,無需人工編寫規(guī)則,系統(tǒng)開發(fā)成本低,速
20、度快 從語料庫(kù)中學(xué)習(xí)到的知識(shí)比較客觀 從語料庫(kù)中學(xué)習(xí)到的知識(shí)覆蓋性比較好 缺點(diǎn) 系統(tǒng)性能依賴于語料庫(kù) 數(shù)據(jù)稀疏問題嚴(yán)重 語料庫(kù)中不容易獲得大顆粒度的高概括性知識(shí),36,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于實(shí)例的機(jī)器翻譯 (1),長(zhǎng)尾真(Makoto Nagao)在1984年發(fā)表了采用類比原則進(jìn)行日-英機(jī)器翻譯的一個(gè)框架一文,探討日本人初學(xué)英語時(shí)翻譯句子的基本過程,長(zhǎng)尾真認(rèn)為,初學(xué)英語的日本人總是記住一些最基本的英語句子以及一些相對(duì)應(yīng)的日語句子,他們要對(duì)比不同的英語句子和相對(duì)應(yīng)的日語句子,并由此推論出句子的結(jié)構(gòu)。參照這個(gè)學(xué)習(xí)過程,在機(jī)器翻譯中,如果我們給出一些英語句子的實(shí)例以及相對(duì)
21、應(yīng)的日語句子,機(jī)器翻譯系統(tǒng)來識(shí)別和比較這些實(shí)例及其譯文的相似之處和相差之處,從而挑選出正確的譯文。 長(zhǎng)尾真指出,人類并不通過做深層的語言學(xué)分析來進(jìn)行翻譯,人類的翻譯過程是:首先把輸入的句子正確地分解為一些短語碎片,接著把這些短語碎片翻譯成其它語言的短語碎片,最后再把這些短語碎片構(gòu)成完整的句子,每個(gè)短語碎片的翻譯是通過類比的原則來實(shí)現(xiàn)的。 因此,我們應(yīng)該在計(jì)算機(jī)中存儲(chǔ)一些實(shí)例,并建立由給定的句子找尋類似例句的機(jī)制,這是一種由實(shí)例引導(dǎo)推理的機(jī)器翻譯方法,也就是基于實(shí)例的機(jī)器翻譯。,37,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于實(shí)例的機(jī)器翻譯 (2),在基于實(shí)例的機(jī)器翻譯系統(tǒng)中,系統(tǒng)的主要
22、知識(shí)源是雙語對(duì)照的翻譯實(shí)例庫(kù),實(shí)例庫(kù)主要有兩個(gè)字段,一個(gè)字段保存源語言句子,另一個(gè)字段保存與之對(duì)應(yīng)的譯文,每輸入一個(gè)源語言的句子時(shí),系統(tǒng)把這個(gè)句子同實(shí)例庫(kù)中的源語言句子字段進(jìn)行比較,找出與這個(gè)句子最為相似的句子,并模擬與這個(gè)句子相對(duì)應(yīng)的譯文,最后輸出譯文。 基于實(shí)例的機(jī)器翻譯系統(tǒng)中,翻譯知識(shí)以實(shí)例和義類詞典的形式來表示,易于增加或刪除,系統(tǒng)的維護(hù)簡(jiǎn)單易行,如果利用了較大的翻譯實(shí)例庫(kù)并進(jìn)行精確的對(duì)比,有可能產(chǎn)生高質(zhì)量譯文,而且避免了基于規(guī)則的那些傳統(tǒng)的機(jī)器翻譯方法必須進(jìn)行深層語言學(xué)分析的難點(diǎn)。在翻譯策略上是很有吸引力的。,38,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于實(shí)例的機(jī)器翻譯 (
23、3),優(yōu)點(diǎn) 直接使用對(duì)齊的語料庫(kù)作為知識(shí)表示形式,知識(shí)庫(kù)的擴(kuò)充非常簡(jiǎn)單 不需要進(jìn)行深層次的語言分析,也可以產(chǎn)生高質(zhì)量的譯文 缺點(diǎn) 覆蓋率低,實(shí)用的系統(tǒng)需要的語料庫(kù)規(guī)模極大(百萬句對(duì)以上),39,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于實(shí)例的機(jī)器翻譯系統(tǒng)結(jié)構(gòu),源語實(shí)例片段,源語言文本,目標(biāo)語言文本,對(duì)齊的雙語語料庫(kù),匹配,組合,目標(biāo)語言實(shí)例,源語言實(shí)例,對(duì)齊,譯語實(shí)例片段,雙語詞典,轉(zhuǎn)換,40,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于實(shí)例的機(jī)器翻譯舉例,要翻譯句子: (E1) He bought a book on physics. 在語料庫(kù)中查到相似英語句子及其漢語譯文是:
24、 (E2) He wrote a book on history. (C2) 他寫了一本關(guān)于歷史的書。 比較(E1)和(E2)兩個(gè)句子,我們得到變換式: (T1) replace(wrote, bought) and replace(history, physics) 將這個(gè)變換式中的單詞都換成漢語就變成: (T2) replace(寫,買) and replace(歷史,物理) 將(T2)作用于(C2) (C1)他買了一本關(guān)于物理學(xué)的書。,41,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于實(shí)例的機(jī)器翻譯舉例,Sato & Nagao 1990的方法: 將實(shí)例按照詞語依存樹配對(duì)的形式進(jìn)行
25、存儲(chǔ),同時(shí)保存結(jié)點(diǎn)對(duì)應(yīng)關(guān)系鏈接的集合,He eats vegetables. e(e1,eat,v, e2,he,pron, e3,vegetable,n).,Kare ha yasai wo taberu. e(j1,taberu,v, j2,ha,p, j3,kare,pron, j4,wo,p, j5,yasai,n).,clinks(e1, j1, e2, j3, e3, j5).,42,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于實(shí)例的機(jī)器翻譯舉例,Sato & Nagao 1990的方法: 在翻譯的過程中,每一個(gè)輸入句子都被表示為一個(gè)或多個(gè)匹配表達(dá)式。 每一個(gè)匹配表達(dá)式表示在
26、實(shí)例庫(kù)中找到的某個(gè)依存子樹的特定結(jié)點(diǎn)上所進(jìn)行的某種操作(即插入、刪除和替換)。 利用這些操作,可以通過數(shù)據(jù)庫(kù)中找到的實(shí)例片段來組合得到輸入的句子。,輸入英語句子:“He eats mashed potatoes.” 匹配表達(dá)式為: e1, r, e3, ex 這里r表示替換,整個(gè)表達(dá)式的意思是 “在實(shí)例e1中,用結(jié)點(diǎn)ex替換結(jié)點(diǎn)e3”,43,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于實(shí)例的機(jī)器翻譯 需要研究的問題 (1/2),雙語自動(dòng)對(duì)齊(alignment):在實(shí)例庫(kù)中要能準(zhǔn)確地由源語言實(shí)例和實(shí)例片段找到相應(yīng)的目標(biāo)語言實(shí)例和實(shí)例片段,在基于實(shí)例的機(jī)器翻譯系統(tǒng)的具體實(shí)現(xiàn)中,不僅要求句子
27、一級(jí)的對(duì)齊,而且還要求詞匯一級(jí)甚至短語或句子結(jié)構(gòu)一級(jí)的對(duì)齊。 實(shí)例片段的定義:實(shí)例片段可以定義在句子級(jí)別、子句級(jí)別、短語級(jí)別,或者定義為某種句法結(jié)構(gòu)的片段。很多研究者認(rèn)為,基于實(shí)例的機(jī)器翻譯的潛力在于充分利用短語一級(jí)的實(shí)例碎片,也就是在短語一級(jí)進(jìn)行對(duì)齊,但是,利用的實(shí)例碎片越小,碎片的邊界越難于確定,歧義情況越多,從而又會(huì)導(dǎo)致翻譯質(zhì)量的下降。需要在二者之間取得平衡。,44,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于實(shí)例的機(jī)器翻譯 需要研究的問題 (2/2),實(shí)例匹配檢索:由于實(shí)例庫(kù)規(guī)模巨大,為了在實(shí)例庫(kù)中迅速找到與要翻譯的句子匹配的實(shí)例或者實(shí)例片段,需要建立高效的檢索機(jī)制。另外,實(shí)例和
28、實(shí)例片段的匹配通常都不是精確匹配,而是模糊匹配,為此,要建立一套相似度準(zhǔn)則(similarity metric),以便確定兩個(gè)句子或者短語碎片是否相似。 譯文片段的選擇:對(duì)于一個(gè)源文片段,可能有多個(gè)譯文片段與其對(duì)應(yīng),為此需要選擇恰當(dāng)?shù)淖g文片段。這實(shí)際上也是一個(gè)排歧問題。 實(shí)例片段的組合:得到實(shí)例片段的譯文后,需要將實(shí)例片段重新組合成目標(biāo)語言句子。這里通常涉及詞序調(diào)整問題。,45,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,雙語自動(dòng)對(duì)齊,自動(dòng)對(duì)齊技術(shù)簡(jiǎn)介 句子對(duì)齊 詞語對(duì)齊,46,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,平行語料庫(kù)的對(duì)齊,實(shí)例庫(kù)又稱雙語語料庫(kù)(Bilingual Corp
29、us)或 平行語料庫(kù)(Parallel Corpus) 雙語語料庫(kù)對(duì)齊的級(jí)別 篇章對(duì)齊 段落對(duì)齊 句子對(duì)齊 詞語對(duì)齊 短語塊對(duì)齊 句法結(jié)構(gòu)對(duì)齊 基于實(shí)例的機(jī)器翻譯中實(shí)例庫(kù)必須至少做到句子級(jí)別的對(duì)齊,47,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,不同對(duì)齊級(jí)別的差異,段落對(duì)齊和句子對(duì)齊 要求保持順序(允許局部順序的調(diào)整) 只有一個(gè)層次 詞語對(duì)齊和短語塊對(duì)齊 不要求保持順序 只有一個(gè)層次 句法結(jié)構(gòu)對(duì)齊 不要求保持順序 多層次對(duì)齊,48,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,句子對(duì)齊 (1),49,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,句子對(duì)齊 (2),對(duì)于篇章對(duì)齊(或者段落對(duì)齊
30、)的一對(duì)文本(S,T):,定義其對(duì)齊為A=A1,Ak,其中Ai稱為一個(gè)句珠(Bead):,整個(gè)對(duì)齊的概率為:,50,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于長(zhǎng)度的句子對(duì)齊 (1),基本思想:源語言和目標(biāo)語言的句子長(zhǎng)度存在一定的比例關(guān)系 用兩個(gè)因素來估計(jì)一個(gè)句珠的概率 源語言和目標(biāo)語言中句子的長(zhǎng)度 源語言和目標(biāo)語言中的句子數(shù)(對(duì)齊模式),51,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于長(zhǎng)度的句子對(duì)齊 (2),根據(jù)統(tǒng)計(jì),隨機(jī)變量X=lTi/lSi服從正態(tài)分布,52,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于長(zhǎng)度的句子對(duì)齊 (3),設(shè)通過語料庫(kù)統(tǒng)計(jì)得到X的期望為c,方差為v
31、2,那么隨機(jī)變量將服從0,1正態(tài)分布:,根據(jù)正態(tài)分布公式可以計(jì)算出(直接查表):,53,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于長(zhǎng)度的句子對(duì)齊 (4),對(duì)齊模式的概率p(mS,mT)可以通過對(duì)語料庫(kù)的統(tǒng)計(jì)得到。 下面是Gale & Church根據(jù)UBS語料庫(kù)的統(tǒng)計(jì)結(jié)果:,54,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,句子對(duì)齊搜索算法,最優(yōu)路徑的搜索:采用動(dòng)態(tài)規(guī)劃算法 定義:score(i, j)=logP(s1si, t1tj),最優(yōu)對(duì)齊為P(m,n)所對(duì)應(yīng)的路徑,上面假設(shè)一個(gè)句珠中最多只有k個(gè)句子, (si-x+1si, tj-y+1tj)為一個(gè)句珠,55,機(jī)器翻譯原理與方
32、法(02) 機(jī)器翻譯方法概述,句子對(duì)齊搜索算法,i,j,56,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,句子對(duì)齊搜索算法,y,x,i,j,57,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于長(zhǎng)度的句子對(duì)齊 (5),優(yōu)點(diǎn) 不依賴于具體的語言; 速度快; 效果好 缺點(diǎn) 由于沒有考慮詞語信息,有時(shí)會(huì)產(chǎn)生一些明顯的錯(cuò)誤 討論 長(zhǎng)度計(jì)算可以采用詞數(shù)或者字節(jié)數(shù),沒有明顯的優(yōu)劣之分,58,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于詞的句子對(duì)齊 (1),基本思想:互為翻譯的句子對(duì)中,含有互為翻譯的詞語對(duì)的概率,大大高于隨機(jī)的句子對(duì) 用兩個(gè)因素來估計(jì)一個(gè)句珠的概率 源語言和目標(biāo)語言中互譯詞語的個(gè)
33、數(shù) 源語言和目標(biāo)語言中的句子數(shù)(對(duì)齊模式),59,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于詞的句子對(duì)齊 (2),優(yōu)點(diǎn) 可以充分利用詞語互譯信息,提高正確率 缺點(diǎn) 單獨(dú)使用時(shí),正確率有時(shí)低于基于長(zhǎng)度的方法(取決于詞典的規(guī)模質(zhì)量等) 時(shí)空開銷大 討論 對(duì)于同源的語言(英語和法語,漢語和日語)可以利用詞語同源信息而不使用詞典,60,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,句子對(duì)齊小結(jié),句子對(duì)齊的語料庫(kù)是基于語料庫(kù)的機(jī)器翻譯的基礎(chǔ); 綜合采用基于長(zhǎng)度的方法和基于詞匯的方法可以取得較好的效果; 句子對(duì)齊可以取得很高的正確率,已經(jīng)達(dá)到實(shí)用水平。,61,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方
34、法概述,詞語對(duì)齊 (1),I packed him a little food so that he would not get hungry .,我 給 他 包 了 點(diǎn)兒 食品 , 免得 他 挨餓 。,特點(diǎn): 保序性不再滿足 對(duì)齊模式復(fù)雜:一對(duì)多、多對(duì)一、多對(duì)多都非常普遍,62,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,詞語對(duì)齊 (2),困難: 翻譯歧義:一個(gè)詞出現(xiàn)兩個(gè)以上的譯詞 雙語詞典覆蓋率有限:非常普遍的現(xiàn)象 位置歧義:出現(xiàn)兩個(gè)以上相同的詞 漢語詞語切分問題 虛詞問題:虛詞的翻譯非常靈活,或沒有對(duì)譯詞 意譯問題:根本找不到對(duì)譯的詞,63,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述
35、,詞語對(duì)齊 (3),一般而言,一個(gè)單詞對(duì)齊的模型可以表述為兩個(gè)模型的乘積: 詞語相似度模型(word similarity model) 兩個(gè)詞語的意義越相似,對(duì)齊的可能性越大 位置扭曲模型(word distortion model) 詞語語序變化越小,對(duì)齊的可能性越大 用公式表示如下:,64,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,雙語詞語相似度計(jì)算,基于雙語詞典的方法 基于雙語句子對(duì)齊語料庫(kù)的方法,65,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于詞典的雙語詞語相似度計(jì)算,Sim(*,*)為詞語相似度 E、E為英文詞,C、C為中文詞 dict(E,C)表示雙語詞典中存在條目(
36、E,C) 上述公式可以利用一部雙語詞典,將雙語詞語的相似度計(jì)算轉(zhuǎn)換為單語詞語的相似度計(jì)算,66,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,單語詞語相似度計(jì)算,基于字面相似度的方法 基于同義詞詞典(Thesaurus)的方法,67,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于字面相似度的 單語詞語相似度計(jì)算,戴斯系數(shù)(dice coefficient) 設(shè)S1和S2分別是兩個(gè)集合,則這兩個(gè)集合的戴斯系數(shù)可以通過如下公式計(jì)算,把漢語詞理解為漢字的集合,戴斯系數(shù)就是兩個(gè)詞中相同的漢字占兩個(gè)詞漢字總數(shù)的比例??紤]到漢字表意性,這種方法在計(jì)算漢語詞相似度時(shí)有較好的效果 英語詞語相似度也可以用戴
37、斯系數(shù)來計(jì)算,不過計(jì)算的時(shí)候兩個(gè)詞的交集應(yīng)只考慮前綴相同的部分 某些雙語詞語相似度也可以直接利用戴斯系數(shù)進(jìn)行計(jì)算,如漢語和日語、英語和法語等,68,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,同義詞詞典(Thesaurus)通常將所有詞語根據(jù)語義的相似性組織成一棵樹的形式,這種形式通常稱為一個(gè)概念層次體系或者一個(gè)知識(shí)本體(Ontology) 在一個(gè)概念層次體系中,兩個(gè)詞的距離遠(yuǎn)近,可以刻畫對(duì)兩個(gè)詞語義相似程度,同一結(jié)點(diǎn)上的兩個(gè)詞為同義詞,距離越遠(yuǎn),相似度越低 常見的同義詞詞典 Wordnet(原始版本為英語,很多語言有對(duì)應(yīng)版本) Hownet(中英文) 同義詞詞林(中文) Rogets Th
38、esaurus(英語),基于同義詞詞典的 單語詞語相似度計(jì)算 (1/3),69,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,同義詞詞林的五層概念層次體系:,基于同義詞詞典的 單語詞語相似度計(jì)算 (2/3),70,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,將詞語距離轉(zhuǎn)化為相似度:,其中d是概念p1、p2之間的距離,一般用概念層次體系中兩個(gè)結(jié)點(diǎn)之間的距離來計(jì)算 是一個(gè)可調(diào)節(jié)的參數(shù),基于同義詞詞典的 單語詞語相似度計(jì)算 (3/3),71,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,利用一部句子對(duì)齊的雙語語料庫(kù) 如果一對(duì)詞語總是出現(xiàn)在對(duì)齊的雙語句子中,我們就傾向于認(rèn)為該對(duì)詞語相似度較高,基于語
39、料庫(kù)的 雙語詞語相似度計(jì)算 (1/5),72,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,戴斯系數(shù)(dice coefficient) 設(shè)S1和S2分別是兩個(gè)集合,則這兩個(gè)集合的戴斯系數(shù)可以通過如下公式計(jì)算,給定中文詞C和英文詞E 假設(shè)C和E在句子對(duì)齊的語料庫(kù)中出現(xiàn)的句子對(duì)集合分別是SC和SE 可以用SC和SE的戴斯系數(shù)來估計(jì)詞語C和E的相似度,基于語料庫(kù)的 雙語詞語相似度計(jì)算 (2/5),73,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,互信息(mutual information) 通過兩個(gè)事件X和Y各自出現(xiàn)的概率為p(X)和p(Y),他們聯(lián)合出現(xiàn)的概率為p(X,Y),這兩個(gè)事件之間共
40、同的互信息量定義為:,當(dāng)兩個(gè)事件相互獨(dú)立時(shí),互信息量為0; 當(dāng)兩個(gè)事件傾向于同時(shí)出現(xiàn)時(shí),互信息量為正; 當(dāng)兩個(gè)事件傾向于互相排斥時(shí),互信息量為負(fù); 利用互信息作詞語相似度計(jì)算效果較差。,基于語料庫(kù)的 雙語詞語相似度計(jì)算 (3/5),74,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,2 (chi-square)方法 利用聯(lián)立表(contingency table),2方法的效果比較好,基于語料庫(kù)的 雙語詞語相似度計(jì)算 (4/5),75,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,對(duì)數(shù)似然比( Log Likelihood Ratio,LLR ),其中:,對(duì)數(shù)似然比在使用中比較有效,在訓(xùn)練語料
41、庫(kù)規(guī)模較小時(shí)尤為明顯,基于語料庫(kù)的 雙語詞語相似度計(jì)算 (5/5),76,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,位置扭曲模型 (1/3),相對(duì)偏移模型:,si是源語言ei單詞的位置 tj是目標(biāo)語言單詞cj的位置 si跟tj對(duì)齊 si-1是si左側(cè)最近的一個(gè)對(duì)齊的單詞 si+1是si右側(cè)最近的一個(gè)對(duì)齊的單詞 tj-1是跟si-1對(duì)齊的單詞 tj+1是跟si+1對(duì)齊的單詞,77,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,位置扭曲模型 (2/3),Si,Si-1,Si+1,ti,ti+1,ti-1,根據(jù)左右兩側(cè)相鄰詞的位置計(jì)算扭曲值 取其中較小的值,78,機(jī)器翻譯原理與方法(02) 機(jī)器
42、翻譯方法概述,位置扭曲模型 (3/3),Si,Si-1,ti,ti-1,Si,Si-1,ti,ti-1,Si,Si-1,ti,ti-1,Si,Si-1,ti,ti-1,dis(i,j)=0,dis(i,j)=1,79,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,詞語對(duì)齊的搜索算法,貪心法 定義對(duì)齊評(píng)價(jià)函數(shù) 把兩種語言單詞集合的笛卡兒積作為候選集合 計(jì)算所有候選詞對(duì)的評(píng)價(jià)函數(shù) 找出最好的對(duì)齊詞對(duì),使得對(duì)齊總體評(píng)分最高 從候選集合中刪除剛找出的詞對(duì) 刪除與剛找出的詞對(duì)沖突的詞對(duì) 重復(fù)以上36,直到對(duì)齊總評(píng)分不再增加,80,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,詞語對(duì)齊小結(jié),詞語對(duì)齊比句子
43、對(duì)齊困難得多 詞語對(duì)齊主要使用一個(gè)詞語相似度模型和一個(gè)位置扭曲模型 詞語對(duì)齊算法:最直接的方法:貪心法 詞語對(duì)齊的副產(chǎn)品:雙語詞典抽取,81,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,實(shí)例片段的定義,實(shí)例庫(kù)中的句子往往太長(zhǎng),直接匹配成功率太低,為了提高實(shí)例的重用性,需要將實(shí)例庫(kù)中的句子分解為片段 幾種通常的做法: 按標(biāo)點(diǎn)符號(hào)分解 任意分解 通過組塊分析進(jìn)行分解 通過句法結(jié)構(gòu)進(jìn)行分解,82,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,實(shí)例庫(kù)的匹配,實(shí)例匹配的目的是將輸入句子分解成語料庫(kù)中實(shí)例片斷的組合,這是基于實(shí)例的機(jī)器翻譯的關(guān)鍵問題之一,實(shí)例匹配的各種方法有很大的差異,還沒有那種做法顯示
44、出明顯的優(yōu)勢(shì); 實(shí)例庫(kù)匹配的效率問題:由于實(shí)例庫(kù)規(guī)模較大,通常需要建立倒排索引; 實(shí)例庫(kù)匹配的相似度計(jì)算:,83,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,譯文片段的選擇與組合?,由于語料庫(kù)中一個(gè)片斷可能有多種翻譯方法,因此存在片斷譯文的選擇問題; 常用的方法: 根據(jù)片斷上下文進(jìn)行排歧; 根據(jù)譯文的語言模型選擇概率最大的譯文片斷組合 一個(gè)被翻譯的句子,往往可以通過各種不同的實(shí)例片斷進(jìn)行組合,如何選擇一個(gè)最好的組合? 簡(jiǎn)單的做法: 最大匹配 最大概率法:選擇概率乘積最大的片斷組合 有點(diǎn)像漢語詞語切分問題?,84,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于實(shí)例的機(jī)器翻譯系統(tǒng),MBT1和
45、MBT2系統(tǒng):由日本京都大學(xué)長(zhǎng)尾真和佐藤研制。該系統(tǒng)的翻譯過程分為分解(decomposition)、轉(zhuǎn)換(transfer)、合成(composition)三步。在分解階段,系統(tǒng)根據(jù)提交的源語言詞匯依存樹檢索實(shí)例庫(kù),并利用檢索到的實(shí)例碎片來表示該源語言句子的依存樹,形成源匹配表達(dá)式;在轉(zhuǎn)換階段,系統(tǒng)利用實(shí)例庫(kù)中的對(duì)齊信息將源匹配表達(dá)式轉(zhuǎn)換成目標(biāo)匹配表達(dá)式;在合成階段,將目標(biāo)匹配表達(dá)式展開成為目標(biāo)語言詞匯依存樹,輸出譯文。 PANGLOSS系統(tǒng):由美國(guó)卡內(nèi)基-梅隆大學(xué)研制,這是一個(gè)多引擎機(jī)器翻譯系統(tǒng)(Multi-engine Machine Translation)。這個(gè)系統(tǒng)的主要引擎是基于知
46、識(shí)的機(jī)器翻譯系統(tǒng),基于實(shí)例的機(jī)器翻譯系統(tǒng)只是它的一個(gè)引擎,為整個(gè)多引擎機(jī)器系統(tǒng)提供候選結(jié)果。 ETOC和EBMT系統(tǒng):由日本口語翻譯通信研究實(shí)驗(yàn)室 ATR研制。 ETOC系統(tǒng)能夠檢索出與給定的源語言句子相似的實(shí)例,EBMT系統(tǒng)能夠利用實(shí)例庫(kù)來消解歧義,這兩個(gè)基于實(shí)例的機(jī)器翻譯系統(tǒng)還不完整。 我國(guó)清華大學(xué)計(jì)算機(jī)系的基于實(shí)例的日漢機(jī)器翻譯系統(tǒng)。,85,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,翻譯記憶方法 (1),翻譯記憶方法(Translation Memory)是基于實(shí)例方法的特例; 也可以把基于實(shí)例的方法理解為廣義的翻譯記憶方法; 翻譯記憶的基本思想: 把已經(jīng)翻譯過的句子保存起來 翻譯新
47、句子時(shí),直接到語料庫(kù)中去查找 如果發(fā)現(xiàn)相同的句子,直接輸出譯文 否則交給人去翻譯,但可以提供相似的句子的參考譯文,86,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,翻譯記憶方法 (2),翻譯記憶方法主要被應(yīng)用于計(jì)算機(jī)輔助翻譯(CAT)軟件中 翻譯記憶方法的優(yōu)缺點(diǎn) 翻譯質(zhì)量有保證 隨著使用時(shí)間的增加匹配成功率逐步提高 特別適用于重復(fù)率高的文本翻譯,例如公司的產(chǎn)品說明書的新版本翻譯 與語言無關(guān),適用于各種語言對(duì) 缺點(diǎn)是匹配成功率不高,特別是剛開始使用時(shí),87,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,翻譯記憶方法 (3),計(jì)算機(jī)輔助翻譯(CAT)軟件已經(jīng)形成了比較成熟的產(chǎn)業(yè) TRADOS 號(hào)
48、稱占有國(guó)際CAT市場(chǎng)的70% Microsoft、Siemens、SAP等國(guó)際大公司和一些著名的國(guó)際組織都是其用戶 雅信CAT 適合中國(guó)人的習(xí)慣 產(chǎn)品已比較成熟 國(guó)際組織: LISA(Localisation Industry Standards Association) 面向用戶:專業(yè)翻譯人員 數(shù)據(jù)交換:LISA制定了TMX(Translation Memory eXchange)標(biāo)準(zhǔn)。,88,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,翻譯記憶方法 (4),完整的計(jì)算機(jī)輔助翻譯軟件除了包括翻譯記憶功能以外,還應(yīng)該包括以下功能 多種文件格式的分解與合成 術(shù)語庫(kù)管理功能 語料庫(kù)的句子對(duì)齊(歷
49、史資料的重復(fù)利用) 項(xiàng)目管理: 翻譯任務(wù)的分解與合并 翻譯工作量的估計(jì) 數(shù)據(jù)共享和數(shù)據(jù)交換,89,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,翻譯記憶方法 (5),90,機(jī)器翻譯原理與方法(02) 機(jī)器翻譯方法概述,基于模板(模式)的機(jī)器翻譯方法(1),基于模板(Template)或者模式(Pattern)的機(jī)器翻譯方法通常也被看做基于實(shí)例的機(jī)器翻譯方法的一種延伸 所謂“翻譯模板”或者“翻譯模式”可以認(rèn)為是一種顆粒度介于“翻譯規(guī)則”和“翻譯實(shí)例”之間的翻譯知識(shí)表示形式 翻譯規(guī)則:顆粒度大,匹配可能性大,但過于抽象,容易出錯(cuò) 翻譯實(shí)例:顆粒度小,不易出錯(cuò),但過于具體,匹配可能性小 翻譯模板(模式):介于二者之間,是一種比較合適的知識(shí)表示形式 一般而言,單語模板(或模式)是一個(gè)常量和變量組成的字符串,翻譯模板(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 江西省南昌市2025-2026學(xué)年上學(xué)期期末八年級(jí)數(shù)學(xué)試卷(含答案)
- 文綜試卷及答案
- 微積分試題及答案
- 地產(chǎn)委托物業(yè)前期介入相關(guān)工作作業(yè)指導(dǎo)書
- 腹腔鏡培訓(xùn)班理論考試試題
- 達(dá)人介紹教學(xué)
- 一年級(jí)數(shù)學(xué)上冊(cè)期中試卷及答案真題(三套)
- 解析卷-滬粵版八年級(jí)物理上冊(cè)第四章物質(zhì)的形態(tài)及其變化章節(jié)測(cè)評(píng)試卷(含答案詳解版)
- 大壩混凝土施工技術(shù)操作要領(lǐng)
- 2026屆北京市石景山區(qū)高三上學(xué)期期末考試歷史試題(含答案)
- DB50∕T 1604-2024 地質(zhì)災(zāi)害防治邊坡工程結(jié)構(gòu)可靠性設(shè)計(jì)規(guī)范
- 非現(xiàn)場(chǎng)執(zhí)法培訓(xùn)課件
- 中國(guó)電氣裝備資產(chǎn)管理有限公司招聘筆試題庫(kù)2025
- 糖尿病足的護(hù)理常規(guī)講課件
- 2025年高考英語復(fù)習(xí)難題速遞之語法填空(2025年4月)
- 2025外籍工作人員勞動(dòng)合同范本
- 退化林地生態(tài)修復(fù)-深度研究
- 湖北省武漢市江岸區(qū)2024-2025學(xué)年九年級(jí)上學(xué)期期末數(shù)學(xué)試題(原卷版+解析版)
- 2025年《新課程標(biāo)準(zhǔn)解讀》標(biāo)準(zhǔn)課件
- 2024-2025學(xué)年同步試題 語文(統(tǒng)編版選擇性必修中冊(cè))8.2小二黑結(jié)婚
- 2024年1月國(guó)家開放大學(xué)漢語言本科《古代小說戲曲專題》期末紙質(zhì)考試試題及答案
評(píng)論
0/150
提交評(píng)論