已閱讀5頁(yè),還剩45頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
中文摘要 互聯(lián)網(wǎng)上存在大量的多語(yǔ)語(yǔ)料資源。如何通過(guò)w e b 挖掘和信息抽取的相關(guān)技 術(shù),從非平行可比較或部分平行語(yǔ)料中抽取出術(shù)語(yǔ)的正確翻譯,是當(dāng)前研究者廣 為關(guān)注同時(shí)又極具挑戰(zhàn)性的問(wèn)題。 本文首先對(duì)目前的術(shù)語(yǔ)翻譯技術(shù)進(jìn)行了比較分析,總結(jié)了其各自的優(yōu)缺點(diǎn)。 然后針對(duì)中英術(shù)語(yǔ)翻譯,分析了w e b 上部分平行語(yǔ)料的存在性和可用性,并實(shí)現(xiàn) 了一個(gè)自動(dòng)術(shù)語(yǔ)翻譯系統(tǒng)。該系統(tǒng)利用一對(duì)源術(shù)語(yǔ)e 及其正確翻譯f 作為輸入, 基于搜索引擎的查詢(xún)結(jié)果來(lái)獲取匹配模式,并以模式出現(xiàn)頻率作為其評(píng)分。在候 選答案的選擇方面,確定了三條層次規(guī)則,依據(jù)這三條規(guī)則,建立候選答案的評(píng) 分函數(shù)。實(shí)驗(yàn)結(jié)果表明,相對(duì)于已有的系統(tǒng),本文系統(tǒng)可以有效地從w e b 上自動(dòng) 挖掘出術(shù)語(yǔ)的合理翻譯。 在w e b 上還蘊(yùn)含著大量包含術(shù)語(yǔ)的頁(yè)面,如何自動(dòng)發(fā)現(xiàn)此類(lèi)頁(yè)面并將其中的 術(shù)語(yǔ)對(duì)抽取出來(lái)也是一個(gè)很有意義的研究課題。本文利用已有術(shù)語(yǔ)對(duì)( 術(shù)語(yǔ)表或 詞典中的術(shù)語(yǔ)) 作為“種子”詞語(yǔ),并以查詢(xún)條件的形式提交給搜索引擎,而后 采用簡(jiǎn)單的判斷原則,對(duì)返回結(jié)果的s n i p p e t s 進(jìn)行分析,自動(dòng)發(fā)現(xiàn)包含大量術(shù)語(yǔ) 的網(wǎng)頁(yè)。接著,利用正則表達(dá)式,將這些網(wǎng)頁(yè)中的術(shù)語(yǔ)以規(guī)定的格式抽取出來(lái), 并添加到本地詞庫(kù)中,從而實(shí)現(xiàn)了本地詞庫(kù)的不斷擴(kuò)充。 最后本文給出了基于w e b 的自動(dòng)術(shù)語(yǔ)翻譯的一些建議,對(duì)今后的研究工作進(jìn) 行了展望,提出了若干值得研究的問(wèn)題。 關(guān)鍵詞:自動(dòng)術(shù)語(yǔ)翻譯,信息抽取,搜索引擎,正則表達(dá)式 a bs t r a c t t h e r ei sag r e a ta m o u n to fm u i t i l i n g u a ic o r p u so nt h ei n t e r a c t h o wt oe x t r a c t t h e r i g h tt r a n s l a t i o no fat e r m i n o l o g yf r o mn o n p a r a l l e l ,c o m p a r a b l e o rp a r t i a lp a r a l l e l c o r p u sb yw e bm i n i n ga n di n f o r m a t i o ne x t r a c t i o nt e c h n o l o g yi s ac h a l l e n g i n gw o r k w i d e l yc o n c e r n e db yr e s e a r c h e r s t h i s p a p e rf i r s ta n a l y z e sc u r r e n tt e r m i n o l o g y t r a n s l a t i o nt e c h n o l o g i e sa n d s u m m a r i z e st h e i ra d v a n t a g e sa n dd i s a d v a n t a g e s s e c o n d ,i nv i e wo fc h i n e s e e n g l i s h t r a n s l a t i o n ,w ea n a l y z et h ep r e s e n c ea n da v a i l a b i l i t yo fp a r t i a lp a r a l l e lc o r p u so nw e b , a n di m p l e m e n ta l la u t o m a t i ct e r m i n o l o g yt r a n s l a t i o ns y s t e m i ts u b m i t sap a i r o f s o u r c et e r m i n o l o g yea n di t st r a n s l a t i o nft oas e a r c he n g i n e ,e x t r a c t st h em a t c h i n g p a t t e r n s f r o mr e t u r n e ds u m m a r i e s ,a n ds c o r e st h ep a t t e r n sb yt h e i ro c c u l t e n c e f r e q u e n c y o ns e l e c t i n gt r a n s l a t i o nc a n d i d a t e s ,w ef i n df o u rh e u r i s t i cr u l e s ,a n d a l l e m p i r i c a lf o r m u l at og c o r et h ec a n d i d a t e s t h ee x p e r i m e n t si n d i c a t et h a tc o m p a r e d w i t ho t h e re x i s t i n gs y s t e m ,o u rs y s t e mc a l le x t r a c tr e a s o n a b l et r a n s l a t i o no fag i v e n t e r m i n o l o g yf r o mw e ba u t o m a t i c a l l ya n de f f e c t i v e l y m a n yw e bp a g e si n c l u d eag r e a td e a lo ft e r m i n o l o g i e s h o wt of i n dt h e s ep a g e s a n dt oe x t r a c tt e r m i n o l o g yp a i r sf r o mt h e mi sa l s oa l li n t e r e s t i n gw o r k i nt h i sp a p e r w eu s ee x i s t i n gt e r m i n o l o g yp a i r s ( t e r m i n o l o g i e si ng l o s s a r yo rd i c t i o n a r y ) a s “s e e d w o r d s ,s u b m i tt h e mi n t os e a r c he n g i n e ,a n dt h e na d o p tf o u rr u l e st oa n a l y z et h e s n i p p e t sf r o mr e t u r n e d s u m m a r i e sa n df i n dw e bp a g e si n c l u d i n gag r e a td e a lo f t e r m i n o l o g i e sa u t o m a t i c a l l y n e x t ,w ee x t r a c tt h e s et e r m i n o l o g i e sa c c o r d i n gt o t h e s p e c i f i e df o r m a tb yu s i n gr e g u l a re x p r e s s i o n s ,a n dp u tt h e mi n t ol o c a ld i c t i o n a r yf o r t h ec o n t i n u o u s l ye x p a n s i o no ft h el o c a ld i c t i o n a r y t h i sp a p e ra l s og i v e ss o m es u g g e s t i o n st oa u t o m a t i ct e r m i n o l o g yt r a n s l a t i o n b a s e do nw e b ,m a k e se x p e c t a t i o nt ot h ef u t u r ew o r k ,a n dp r o p o s e ss o m ep r o b l e m s w o r t h yo fs t u d y k e yw o r d s :a u t o m a t i ct e r m i n o l o g yt r a n s l a t i o n ,i n f o r m a t i o ne x t r a c t i o n ,s e a r c he n g i n e , r e g u l a re x p r e s s i o n 獨(dú)創(chuàng)性聲明 本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作和取得的 研究成果,除了文中特別加以標(biāo)注和致謝之處外,論文中不包含其他人已經(jīng)發(fā)表 或撰寫(xiě)過(guò)的研究成果,也不包含為獲得墨空苤堂或其他教育機(jī)構(gòu)的學(xué)位或證 書(shū)而使用過(guò)的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均己在論文中 作了明確的說(shuō)明并表示了謝意。 學(xué)位論文作者簽名:閹坼施& 簽字日期: 。7 年9 月,。日 學(xué)位論文版權(quán)使用授權(quán)書(shū) 本學(xué)位論文作者完全了解苤鲞叁鱟有關(guān)保留、使用學(xué)位論文的規(guī)定。 特授權(quán)苤鲞盤(pán)堂可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢 索,并采用影印、縮印或掃描等復(fù)制手段保存、匯編以供查閱和借閱。同意學(xué)校 向國(guó)家有關(guān)部門(mén)或機(jī)構(gòu)送交論文的復(fù)印件和磁盤(pán)。 ( 保密的學(xué)位論文在解密后適用本授權(quán)說(shuō)明) 學(xué)位論文作者簽名:同珞戈泉 導(dǎo)師簽名:而z , ,j 一 簽字日期:d 夕年可月f d 日 簽字日期:d _ 7 年q 月7o 日 第一章緒論 1 1 課題研究背景 第一章緒論 人們一般會(huì)認(rèn)為機(jī)器翻譯系統(tǒng)是最理想的解決自動(dòng)翻譯的系統(tǒng),但是機(jī)器翻 譯發(fā)展到現(xiàn)在,翻譯的結(jié)果卻遠(yuǎn)不能令人滿意,因此我們需要?jiǎng)e的手段來(lái)輔助或 補(bǔ)充機(jī)器翻譯系統(tǒng)。利用雙語(yǔ)語(yǔ)料進(jìn)行機(jī)器輔助翻譯是現(xiàn)在計(jì)算語(yǔ)言學(xué)上的一個(gè) 很強(qiáng)的趨勢(shì),而其中的術(shù)語(yǔ)對(duì)抽取也可以成為一些應(yīng)用中輔助機(jī)器翻譯的一種手 段。 術(shù)語(yǔ)對(duì)( t e r mp a i r ) 簡(jiǎn)稱(chēng)t p ,是指互為翻譯的源語(yǔ)言和目標(biāo)語(yǔ)言片段構(gòu)成 的二元組。理論上說(shuō)這個(gè)片斷可以是詞匯、短語(yǔ)、句子,甚至篇章。本文將重點(diǎn) 考慮的是專(zhuān)業(yè)術(shù)語(yǔ)對(duì)。比如說(shuō)“搜索引擎”和“s e a r c he n g i n e ”、“機(jī)器學(xué)習(xí)” 和“m a c h i n el e a r n i n g ”等。從雙語(yǔ)語(yǔ)料庫(kù)中抽取t p 就是從雙語(yǔ)語(yǔ)料庫(kù)中抽取互 為翻譯的源語(yǔ)言與目標(biāo)語(yǔ)言片段。 術(shù)語(yǔ)對(duì)抽取根據(jù)所采用的雙語(yǔ)語(yǔ)料庫(kù)是否對(duì)齊分為兩種:一種是從已經(jīng)做到 句子甚至更細(xì)對(duì)齊的雙語(yǔ)語(yǔ)料庫(kù)中抽取t p ;另一種是從未對(duì)齊的也可以說(shuō)是全 文對(duì)齊的雙語(yǔ)語(yǔ)料庫(kù)中抽取t p 。由于真正做到句子對(duì)齊或者更細(xì)對(duì)齊的雙語(yǔ)語(yǔ) 料少之又少,相對(duì)而言未對(duì)齊的雙語(yǔ)對(duì)照語(yǔ)料卻多的多,因此從未對(duì)齊的雙語(yǔ)語(yǔ) 料中進(jìn)行t p 抽取是一個(gè)有趣而又現(xiàn)實(shí)的問(wèn)題。 自從關(guān)于雙語(yǔ)言詞典編輯和統(tǒng)計(jì)機(jī)器翻譯模型的早期研究出現(xiàn)以來(lái) 1 1 , 1 8 , 1 9 , 2 0 ,人們將很多的精力和時(shí)間放在用于抽取術(shù)語(yǔ)對(duì)的平行語(yǔ)料的收集上。 但是可用的雙語(yǔ)平行語(yǔ)料來(lái)源非常有限,局限于特定應(yīng)用場(chǎng)合比如聯(lián)合國(guó)的文 件、宗教的文獻(xiàn)、某種產(chǎn)品的多語(yǔ)種介紹手冊(cè)等等,使用者很難獲得各種領(lǐng)域的 平行語(yǔ)料庫(kù)。而且,平行語(yǔ)料庫(kù)收集和整理是一件很耗時(shí)耗力的工作,如同其他 一些語(yǔ)言研究資源一樣,使用具備一定規(guī)模的平行語(yǔ)料還需付費(fèi),這為基于平行 語(yǔ)料的研究帶來(lái)了障礙。 隨著計(jì)算機(jī)和互聯(lián)網(wǎng)的普及,人們?cè)絹?lái)越習(xí)慣于通過(guò)互聯(lián)網(wǎng)來(lái)獲取和傳播信 息。同時(shí),由于國(guó)際化的需要,越來(lái)越多的文檔、網(wǎng)頁(yè)采用多種語(yǔ)言的形式在互 聯(lián)網(wǎng)上傳播?;ヂ?lián)網(wǎng)是一個(gè)取之不盡、日益增長(zhǎng)的信息源,而且是一個(gè)潛在的巨 大的多語(yǔ)種語(yǔ)料庫(kù)。用戶可以通過(guò)自動(dòng)工具從互聯(lián)網(wǎng)上下載大量語(yǔ)料,例如,可 以下載一張術(shù)語(yǔ)對(duì)照表:或者輸入關(guān)鍵字,通過(guò)搜索引擎下載特定領(lǐng)域的詳細(xì)的 單語(yǔ)種語(yǔ)料,然后就可以利用這些語(yǔ)料來(lái)抽取某個(gè)領(lǐng)域的詳細(xì)術(shù)語(yǔ)。同時(shí),在互 聯(lián)網(wǎng)上還存在大量網(wǎng)站,為我們提供了許多對(duì)齊或者非對(duì)齊的語(yǔ)料。這都為我們 基于互聯(lián)網(wǎng)抽取多語(yǔ)種術(shù)語(yǔ)對(duì)提供了有利條件,而這種研究思路也己成為目前自 第一章緒論 然語(yǔ)言處理和信息獲取的一個(gè)研究趨勢(shì)1 2 j 。 在各個(gè)行業(yè)中,不斷涌現(xiàn)出的新術(shù)語(yǔ)往往首先是展現(xiàn)在網(wǎng)絡(luò)上。本文基于 w e b 挖掘和信息抽取技術(shù)而實(shí)現(xiàn)的自動(dòng)術(shù)語(yǔ)翻譯系統(tǒng),模擬用戶基于搜索引擎查 找術(shù)語(yǔ)翻譯的情形,將其過(guò)程自動(dòng)化,大大節(jié)省了用戶的查找時(shí)間。同時(shí),該系 統(tǒng)對(duì)于挖掘、抽取大量術(shù)語(yǔ)對(duì),實(shí)現(xiàn)專(zhuān)業(yè)領(lǐng)域的自動(dòng)詞典編撰,也可以起到良好 的輔助作用。最后,本研究所實(shí)現(xiàn)的算法也可以用于跨語(yǔ)言信息檢索中查詢(xún)條件 的自動(dòng)翻譯和擴(kuò)展上。 1 2 自動(dòng)術(shù)語(yǔ)翻譯的研究現(xiàn)狀 最初的詞典編撰方式是依靠專(zhuān)家來(lái)收集領(lǐng)域的相關(guān)術(shù)語(yǔ),這必然造成很大的 人力、物力和財(cái)力的開(kāi)銷(xiāo)。同時(shí),隨著社會(huì)的發(fā)展,專(zhuān)業(yè)領(lǐng)域的新詞也不斷涌現(xiàn), 僅僅依靠人工維護(hù)的方式已經(jīng)無(wú)法滿足現(xiàn)實(shí)用戶的需求。 在這個(gè)領(lǐng)域取得的最初突破進(jìn)展是借助于干凈、平行的語(yǔ)料,并利用詞語(yǔ)特 征的統(tǒng)計(jì)信息實(shí)現(xiàn)術(shù)語(yǔ)的自動(dòng)翻譯p 4 5 6 7 8 】。這里所謂的“干凈”,指的是平行語(yǔ) 料通常都經(jīng)過(guò)人工預(yù)先處理,以消除其中噪聲的影響。所謂“平行”,指韻是一 種文件以?xún)煞N或多種語(yǔ)言表達(dá)、以句子或段落為單位互相對(duì)應(yīng)的語(yǔ)料。這里最常 用的詞語(yǔ)特征是在平行語(yǔ)料中詞語(yǔ)的共現(xiàn)頻率,對(duì)共現(xiàn)頻率接近或相等的術(shù)語(yǔ) 對(duì),以一定的關(guān)系度量算法抽取出來(lái)。從平行語(yǔ)料抽取術(shù)語(yǔ)的方法實(shí)現(xiàn)簡(jiǎn)單,準(zhǔn) 確率較高,但同時(shí),這種方法至少有以下兩個(gè)局限性:一是可用的平行語(yǔ)料的規(guī) 模是有限的:二是對(duì)語(yǔ)料噪聲的限制過(guò)于嚴(yán)格。 我們注意到,在真實(shí)世界數(shù)據(jù)中,尤其是在w e b 上,可比較的非平行語(yǔ)料或 部分平行語(yǔ)料相對(duì)于平行語(yǔ)料而言占有絕對(duì)的數(shù)量?jī)?yōu)勢(shì)。如何從這些豐富的數(shù)據(jù) 資源中自動(dòng)挖掘出術(shù)語(yǔ)的合理翻譯,已成為目前研究者廣為關(guān)注同時(shí)又極具挑戰(zhàn) 性的問(wèn)題。 在基于可比較非平行語(yǔ)料的術(shù)語(yǔ)翻譯中,一個(gè)顯著的特點(diǎn)是不要求兩種類(lèi)型 的語(yǔ)料規(guī)模是一致或接近的l9 1 ,其大小可能會(huì)相差一個(gè)或多個(gè)數(shù)量級(jí)。在這個(gè)領(lǐng) 域的早期研究主要是基于這樣的一種假設(shè),即不同語(yǔ)言中具有相同含義的詞語(yǔ)具 有類(lèi)似的上下文分布,通過(guò)構(gòu)造詞語(yǔ)的上下文向量,有希望挖掘出合理的術(shù)語(yǔ)配 對(duì)?;谶@種假設(shè),人們提出了許多相關(guān)的算法來(lái)解決此類(lèi)語(yǔ)料的術(shù)語(yǔ)抽取 1 1 , 1 2 , 1 3 , 1 4 】。這些工作側(cè)重解決如下三個(gè)問(wèn)題:( 1 ) 如何構(gòu)建源術(shù)語(yǔ)和目標(biāo)術(shù)語(yǔ)的 上下文向量:( 2 ) 如何實(shí)現(xiàn)向量轉(zhuǎn)換;( 3 ) 如何選擇候選答案。例如,可以通過(guò) 一個(gè)t f i d f 向型】,來(lái)表示術(shù)語(yǔ)的上下文,其中的每個(gè)元素對(duì)應(yīng)于上下文中的 一個(gè)詞語(yǔ),而在候選答案選擇時(shí),則選擇向量相似度最高的目標(biāo)術(shù)語(yǔ)作為答案。 第一章緒論 但是,源術(shù)語(yǔ)和目標(biāo)術(shù)語(yǔ)的上下文中的詞語(yǔ)是一個(gè)多對(duì)多的映射關(guān)系,因此,在 進(jìn)行相似度計(jì)算之前,必須將源語(yǔ)言向量精確轉(zhuǎn)換到目標(biāo)語(yǔ)言向量,而其工作只 是采用了這樣一個(gè)簡(jiǎn)單的假設(shè):特定領(lǐng)域的兩種語(yǔ)言之間的詞語(yǔ)是一對(duì)的映射 關(guān)系。顯而易見(jiàn),這種假設(shè)并不嚴(yán)格。對(duì)此,微軟亞洲研究院的c a o 和l i 等提出 了基于e m 算法的改進(jìn)思路,將這種映射關(guān)系擴(kuò)充到多對(duì)多的形式,但同時(shí)也岡 此而損失了過(guò)多的上下文信劇 】。c h i a o 等在其工作中1 1 4 】,加入了一個(gè)“逆向翻 譯”的過(guò)程,即按照與前三步相同的算法,將候選答案逆向翻譯為源語(yǔ)言術(shù)語(yǔ), 并通過(guò)計(jì)算調(diào)和平均數(shù)而重新對(duì)候選答案進(jìn)行排r 芋。在醫(yī)學(xué)領(lǐng)域語(yǔ)料上的測(cè)試表 明,該方法具有一定積極效果,但作者所選取的語(yǔ)料是固定的,而并非基于w e b 的開(kāi)放域語(yǔ)料,由此限定了算法的應(yīng)用范圍;同時(shí),在進(jìn)行向量轉(zhuǎn)換時(shí),只是選 擇上下文在詞典中的第一翻譯,因而向量的構(gòu)造比較粗略,難免會(huì)影響到后續(xù)操 作的有效性。 在基于w e b 的術(shù)語(yǔ)翻譯研究中,還有一種基于部分平行文本的新思路。所謂 “部分平行”,指的是在一個(gè)單語(yǔ)語(yǔ)料中,蘊(yùn)含著部分雙語(yǔ)資源。例如,m a s a a k i n a g a t a 等人提出一種利用部分平行文本中雙語(yǔ)單詞之間的距離信息抽取術(shù)語(yǔ)對(duì) 的方法【1 6 1 。其基本思路是:將源術(shù)語(yǔ)c 提交給搜索引擎,從結(jié)果集中挑選出部 分蘊(yùn)含部分雙語(yǔ)的文檔集d ,對(duì)d 中的每個(gè)文檔d 中的每個(gè)目標(biāo)語(yǔ)單詞,計(jì) 算其與c 之間的相關(guān)度,而后依據(jù)相關(guān)度高低排序候選翻譯。其中,相關(guān)度計(jì) 算主要依據(jù)二者在文檔中出現(xiàn)的距離信息給出。其方法的缺點(diǎn)是評(píng)分模式過(guò)于簡(jiǎn) 單,容易產(chǎn)生過(guò)多的噪聲結(jié)果。w u 、l i n 和c h a n g 貝1 j 指出源術(shù)語(yǔ)和目標(biāo)術(shù)語(yǔ)之間 的字符串距離與翻譯的可靠性具有很大關(guān)系。他們認(rèn)為,不同的字符串代表不同 的匹配模式,并基于模式發(fā)現(xiàn),提供了一個(gè)“t e r m m i n e ”系統(tǒng)【1 7 j 。但在其工作 中存在兩個(gè)主要缺陷:( 1 ) 模式的數(shù)量和可靠性受訓(xùn)練集限制;( 2 ) 對(duì)候選答案 的評(píng)分方式過(guò)于簡(jiǎn)單。 綜上所述,目前的自動(dòng)術(shù)語(yǔ)翻譯主要是基于三種語(yǔ)料,即純粹的平行語(yǔ)料、 非平行可比較語(yǔ)料以及介于二者之間的部分平行語(yǔ)料。基于三種語(yǔ)料的研究方法 各有其優(yōu)缺點(diǎn)。在本文第二章將會(huì)對(duì)其做詳細(xì)說(shuō)明。 1 3 本文主要研究工作和創(chuàng)新之處 本文的主要目標(biāo)是建立一個(gè)基于w e b 的自動(dòng)術(shù)語(yǔ)翻譯系統(tǒng),具有如下主要功 能:( 1 ) 基于w e b 的自動(dòng)術(shù)語(yǔ)翻譯;( 2 ) 大規(guī)模w e b 術(shù)語(yǔ)的挖掘、收集與加工。 所實(shí)現(xiàn)系統(tǒng)至少應(yīng)滿足以下的設(shè)計(jì)目標(biāo):( 1 ) 由于提供的是一個(gè)在線杏詢(xún)系統(tǒng), 因此系統(tǒng)應(yīng)能及時(shí)響應(yīng)用戶查詢(xún),在較短的時(shí)間內(nèi)給出術(shù)語(yǔ)的翻譯答案;( 2 ) 候 第一章緒論 選翻譯應(yīng)滿足一定的準(zhǔn)確率?;谏鲜龅墓δ芤蠛驮O(shè)計(jì)目標(biāo),本文主要研究了 如下內(nèi)容: 1 術(shù)語(yǔ)翻譯的模式獲取和評(píng)分 基于非平行語(yǔ)料抽取術(shù)語(yǔ)對(duì)的方法涉及術(shù)語(yǔ)上下文構(gòu)建、向量轉(zhuǎn)換等諸多文 本處理過(guò)程,由此可能造成較大的時(shí)間開(kāi)銷(xiāo),不適宜開(kāi)發(fā)在線式的術(shù)語(yǔ)查詢(xún)系統(tǒng)。 我們注意到,在w e b 上也存在大量的部分平行語(yǔ)料,這樣的語(yǔ)料易于獲得、易于 處理,因此,本文基于信息抽取的相關(guān)技術(shù),從此類(lèi)語(yǔ)料中實(shí)現(xiàn)術(shù)語(yǔ)對(duì)的自動(dòng)獲 取。其中一個(gè)關(guān)鍵之處在于如何獲得術(shù)語(yǔ)對(duì)的匹配模式。傳統(tǒng)方法是借助于一定 的已有語(yǔ)料,通過(guò)文本挖掘之類(lèi)的技術(shù)預(yù)先抽取出有關(guān)的模式,并對(duì)其進(jìn)行評(píng)分, 因而其模式數(shù)量有限,且評(píng)分固定,不適于動(dòng)態(tài)調(diào)整。本文利用一對(duì)源術(shù)語(yǔ)e 及 其正確翻譯f 作為輸入,基于搜索引擎的查詢(xún)結(jié)果,來(lái)獲取匹配模式,并以模式 出現(xiàn)頻率作為其評(píng)分。該方法簡(jiǎn)單有效,并可通過(guò)調(diào)整輸入術(shù)語(yǔ)對(duì)的數(shù)量,來(lái)不 斷獲取有效的模式和調(diào)整模式評(píng)分。 2 待翻譯術(shù)語(yǔ)的候選答案評(píng)分 在本研究中,初步確定了三條層次規(guī)則,以實(shí)現(xiàn)候選答案的合理評(píng)分,包括: ( 1 ) 具有高出現(xiàn)頻率的候選答案應(yīng)比低頻率的答案更為可靠:( 2 ) 在多個(gè)模式 中出現(xiàn)的候選鑲案應(yīng)比僅在少數(shù)模式中出現(xiàn)的答案更為可靠;( 3 ) 在具有高分值 匹配模式( 關(guān)鍵模式) 中出現(xiàn)的候選答案應(yīng)比在具有低分值模式中出現(xiàn)的答案更 為可靠。可以依據(jù)這三條規(guī)則,建立候選答案的評(píng)分函數(shù)。 3 大規(guī)模w e b 術(shù)語(yǔ)的挖掘、收集與加工 本文利用詞典的種子術(shù)語(yǔ),采用若干判斷原則,實(shí)現(xiàn)了大規(guī)模術(shù)語(yǔ)網(wǎng)頁(yè)的發(fā) 現(xiàn),并利用正則表達(dá)式的方法,將其中的術(shù)語(yǔ)自動(dòng)抽取出來(lái)添加到本地詞庫(kù),從 而實(shí)現(xiàn)了本地詞庫(kù)的不斷擴(kuò)充。 1 4 本文的組織結(jié)構(gòu) 第一章即本章,主要介紹了課題的研究背景和研究意義,以及自動(dòng)術(shù)語(yǔ)的相 關(guān)研究工作,并列出了本文的核心工作。 第二章綜述基于大規(guī)模語(yǔ)料實(shí)現(xiàn)自動(dòng)術(shù)語(yǔ)翻譯的相關(guān)技術(shù),包括基于平行語(yǔ) 料、非平行語(yǔ)料和部分平行語(yǔ)料實(shí)現(xiàn)術(shù)語(yǔ)翻譯的各自特點(diǎn)、成熟算法,各自的優(yōu) 缺點(diǎn)分析等。 第三章實(shí)現(xiàn)了一個(gè)基于w e b 挖掘和模式匹配的自動(dòng)術(shù)語(yǔ)翻譯系統(tǒng),詳細(xì)說(shuō)明 了系統(tǒng)的架構(gòu)、實(shí)現(xiàn)算法以及實(shí)現(xiàn)界面,并隨后給出實(shí)驗(yàn)結(jié)果證明系統(tǒng)的有效性。 第四章介紹了如何基于詞典發(fā)現(xiàn)包含大量術(shù)語(yǔ)的網(wǎng)頁(yè),以及如何基于規(guī)則方 第一章緒論 法實(shí)現(xiàn)網(wǎng)頁(yè)術(shù)語(yǔ)的自動(dòng)抓取,并將其擴(kuò)充到本地詞庫(kù)中,從而實(shí)現(xiàn)本地詞庫(kù)隨用 戶檢索而不斷擴(kuò)充。 第五章總結(jié)本文的研究工作,對(duì)今后的研究工作進(jìn)行了展望,提出了若干值 得研究的問(wèn)題。 第二章術(shù)語(yǔ)對(duì)抽取技術(shù)的研究現(xiàn)狀 第二章術(shù)語(yǔ)對(duì)抽取技術(shù)的研究現(xiàn)狀 2 1 基于平行語(yǔ)料的術(shù)語(yǔ)對(duì)抽取 所謂“平行語(yǔ)料”,指的是一種文件以?xún)煞N或多種語(yǔ)言表達(dá)、以句子或段 落為單位互相對(duì)應(yīng)的語(yǔ)料。利用平行雙語(yǔ)語(yǔ)料庫(kù)自動(dòng)獲取詞匯對(duì)應(yīng)關(guān)系的研究可 以追溯到2 0 世紀(jì)8 0 年代。最初的嘗試是使用經(jīng)過(guò)句對(duì)齊加工,由一百多萬(wàn)句對(duì)組 成的英一法對(duì)譯語(yǔ)料庫(kù)自動(dòng)計(jì)算英法詞匯的翻譯概率。隨后,研究人員不斷嘗試 各種方法試圖從不同雙語(yǔ)語(yǔ)料庫(kù)中找到對(duì)應(yīng)的詞對(duì) 2 1 ,z 2 j 。 目前,基于句對(duì)齊雙語(yǔ)語(yǔ)料庫(kù)的術(shù)語(yǔ)對(duì)抽取方法主要分為兩類(lèi):基于統(tǒng)計(jì)的 方法和基于詞典的方法。統(tǒng)計(jì)方法是主流方法,其主要思想是通過(guò)大規(guī)模雙語(yǔ)語(yǔ) 料的統(tǒng)計(jì)訓(xùn)練,獲得雙語(yǔ)對(duì)譯詞的翻譯概率,從而得到最佳的翻譯對(duì):基于詞典 的方法,其主要思想是充分利用現(xiàn)有的機(jī)讀詞典資源,通過(guò)詞典譯文檢索或義類(lèi) 匹配得到雙語(yǔ)術(shù)語(yǔ)對(duì)。由于這兩種方法仍然存在缺陷,研究人員還提出了一種基 于雙語(yǔ)語(yǔ)料庫(kù)的最小求交詞對(duì)齊方法。下面對(duì)以上方法作簡(jiǎn)單的介紹。 基于統(tǒng)計(jì)的方法 基于統(tǒng)計(jì)的方法基本可以分為兩大類(lèi):?jiǎn)l(fā)式方法,即基于假設(shè)一檢驗(yàn)的方 法,代表性的有g(shù) a l e 和f e n g 的工作【1 8 4 1 :基于統(tǒng)計(jì)機(jī)器翻譯模型的方法,代表性 的是b r o w n 和w u 的工作i7 ,2 6 1 。 1 啟發(fā)式方法 啟發(fā)式方法比較簡(jiǎn)單易行,分析源語(yǔ)言和目標(biāo)語(yǔ)言中術(shù)語(yǔ)的關(guān)聯(lián)強(qiáng)度從而建 立術(shù)語(yǔ)對(duì)譯關(guān)系,因而在實(shí)際工作中經(jīng)常使用。其工作原理主要基于下面的事實(shí): 互為翻譯的一對(duì)單詞要比不互為翻譯的一對(duì)單詞更有可能出現(xiàn)在同一個(gè)對(duì)齊的 句子對(duì)中。 工作過(guò)程主要由兩個(gè)階段構(gòu)成:假設(shè)階段和檢驗(yàn)階段。假設(shè)階段生成所有候 選的翻譯等價(jià)術(shù)語(yǔ)對(duì),而檢驗(yàn)階段則根據(jù)統(tǒng)計(jì)關(guān)聯(lián)度量手段選出統(tǒng)計(jì)意義上較為 可靠的翻譯等價(jià)術(shù)語(yǔ)對(duì)。其中第二階段是該方法中最為關(guān)鍵的一步。 目前存在各種各樣的統(tǒng)計(jì)關(guān)聯(lián)度度量辦法,大部分是基于詞的共現(xiàn)頻率計(jì)算 出任意兩個(gè)詞的關(guān)聯(lián)強(qiáng)度( 對(duì)譯強(qiáng)度) 。其中d i c e 系數(shù)( d i c ec o e f f i c i e n t ) ,互信 息( m u t u a li n f o r m a t i o n ) t 2 4 1 ,聯(lián)列表( c o n t i n g e n c yt a b l e ) 1 1 8 3 1 ,3 2 】和對(duì)數(shù)似然比( l o g l i k e l i h o o dr a t i o ) 是經(jīng)常使用的4 種計(jì)算關(guān)聯(lián)度的統(tǒng)計(jì)模型。d i c e 系數(shù)的值在【0 , ill - _ ,數(shù)值越入,表示二者共現(xiàn)頻率越大,越有可能成為對(duì)譯詞匯【2 - r j 。k a y l 2 8 】在 估計(jì)詞匯對(duì)譯可能性時(shí)使用t d i c e 系數(shù),m a d j a l 2 9 ,3 0 1 在搭配抽取實(shí)驗(yàn)中證明d i c e 第二章術(shù)語(yǔ)對(duì)抽取技術(shù)的研究現(xiàn)狀 系數(shù)在描述詞匯同現(xiàn)概率時(shí)效果好于互信息。 啟發(fā)式( 假設(shè)一檢驗(yàn)) 方法的優(yōu)點(diǎn)是簡(jiǎn)單,而且很容易實(shí)施和理解。但其缺點(diǎn) 也是很明顯的:( 1 ) 它大多基于詞乳:對(duì)應(yīng)的一對(duì)一假設(shè)1 3 引,然而事實(shí)是,在英 漢翻譯中存在大量的一對(duì)多、多對(duì)一和多對(duì)多詞匯對(duì)應(yīng)。如: “h a r dd i s k ”對(duì)應(yīng) “硬盤(pán)”,“p r o f i l e ”對(duì)應(yīng)“配置文件”,“o p e r a t i n gs y s t e m ”對(duì)應(yīng)“操作系 統(tǒng)”等等,英漢翻譯中約有1 5 是多詞對(duì)應(yīng)關(guān)系。( 2 ) 由于單語(yǔ)中詞i 1 :的固定搭 配、復(fù)合詞等的影響,使得一些并非直接對(duì)應(yīng)的雙語(yǔ)詞匯具有很高的共現(xiàn)頻率, 這種現(xiàn)象稱(chēng)為“間接相關(guān)”1 3 3 , 3 4 l 。如:“6 l e ”的正確翻譯為“文件”,“s y s t e m ” 的正確翻譯為“系統(tǒng)”,然而“f i l es y s t e m ”和“文件系統(tǒng)”在單語(yǔ)中有很強(qiáng)的 搭配關(guān)系,使得“f i l e ”和“系統(tǒng)”,“s y s t e m ”和“文件”也有很高的共現(xiàn)頻率 而被作為翻譯對(duì)抽取出來(lái)。“間接相關(guān)”大大降低了翻譯對(duì)獲取的正確率。針對(duì) 以上問(wèn)題,一些學(xué)者【”1 提出了使用了一種基于n g r a m 模型來(lái)提取多詞候選翻譯 單元,用基于貪心策略的迭代算法來(lái)解決“間接相關(guān)”問(wèn)題。 2 基于統(tǒng)計(jì)機(jī)器翻譯模型的方法 b r o w n 等人提出了基于統(tǒng)計(jì)的機(jī)器翻譯模型f 7j ,把源文s 到譯文丁的翻譯看 成是丁經(jīng)過(guò)某個(gè)噪聲信道畸變成s ,然后通過(guò)s 恢復(fù)丁的過(guò)程。對(duì)于給定源文s , 其最可能的譯文即是求解具有最大概率p ( 丁is ) 的譯文丁,根據(jù)b a y e s i a n _ 論,這個(gè) 概率值表示為: p ( 丁l s ) = 只( slr ) 只( r ) 只( s ) ( 2 1 ) 由于分母只( s ) 與該式的最大值無(wú)關(guān),因此得到: t = a r g m a x 只( ts ) = a r g m a x ( e r ( si 丁) p r ( 丁) ) ( 2 - 2 ) 其中,只( r ) 稱(chēng)為語(yǔ)言模型,只( sl 丁) 稱(chēng)為翻譯模型,可以通過(guò)訓(xùn)練分別得 到這兩個(gè)模型的參數(shù)。 對(duì)于翻譯模型p ( sf 丁) ,b r o w n 提出了5 個(gè)基于詞匯對(duì)齊的模型。這幾個(gè)模 型可以總結(jié)為:翻譯模型p ( slr ) 實(shí)際上是7 中的一個(gè)詞到s 中的零個(gè)、一個(gè)或 多個(gè)詞的翻譯概率的聯(lián)結(jié)過(guò)程,而這種詞到詞的翻譯概率又取決于以下三種概率 ( 不同模型取決于不同概率的組合) : 直譯概率( t r a n s l a t i o np r o b a b i l i t y ) 只( s ,iz ) :表示詞z 直接翻譯成s ,的概 率。 繁殖概率( f e r t i l i t yp r o b a b i l i t y ) p ( 三( s ,) f ( z ) ) :表示z 中詞的個(gè)數(shù)三( 7 :) 繁 殖成s 中詞的個(gè)數(shù)l ( s ,) 的概率。在b r o w n 的模型中,只考慮丁中的一個(gè)詞的繁 殖概率。 形變概率( d i s t o r t i o np r o b a b i l i t y ) p ( i ,) :表示位置上的詞翻譯到位置, 上的概率。 第二章術(shù)語(yǔ)對(duì)抽取技術(shù)的研究現(xiàn)狀 這些概率就是模型的參數(shù),可以通過(guò)對(duì)已經(jīng)做到句子級(jí)別對(duì)齊的句對(duì)使用 e m 算法迭代訓(xùn)練得到( b r o w n 等人使用了3 百萬(wàn)英法旬對(duì)進(jìn)行訓(xùn)練) 。在已知這 些參數(shù)的情況下,詞匯對(duì)齊的過(guò)程就是一個(gè)求最大概率值的搜索過(guò)程。b r o w n 等 利用該模型實(shí)現(xiàn)了統(tǒng)計(jì)機(jī)器翻譯,但是沒(méi)有具體給出詞匯對(duì)齊的正確率。d a g a n i j 6 j 等人使用改進(jìn)的b r o w n 模型對(duì)含有6 5 0 0 0 個(gè)詞的英法噪聲文本進(jìn)行詞匯對(duì)齊,其 中6 0 5 的詞獲得了正確的對(duì)齊。 由于參數(shù)空間的巨大以及對(duì)已經(jīng)對(duì)齊的語(yǔ)料庫(kù)的要求,模型參數(shù)的訓(xùn)練是 一個(gè)相當(dāng)復(fù)雜困難的過(guò)程1 1 8 j :首先,由于它使用e m 算法進(jìn)行迭代,在運(yùn)行時(shí)所 需內(nèi)存空間非常大。另外,e m 算法本身缺乏魯棒性,b r o w n 等人也曾提到過(guò)這 一點(diǎn)。e m 算法只能夠收斂到局部最優(yōu)解,并且它的迭代結(jié)果很大程度上依賴(lài)于 參數(shù)初始值的選擇。 基于統(tǒng)計(jì)的方法的優(yōu)點(diǎn)是不依賴(lài)于具體語(yǔ)言和特定的語(yǔ)言學(xué)資源,完全通 過(guò)雙語(yǔ)語(yǔ)料庫(kù)本身即可獲得雙語(yǔ)詞匯的對(duì)應(yīng)關(guān)系,因此具有較好的通用性。但是 該方法需要極大規(guī)模的雙語(yǔ)語(yǔ)料庫(kù)作為訓(xùn)練基礎(chǔ),對(duì)于很難獲得較大規(guī)模雙語(yǔ)語(yǔ) 料庫(kù)的語(yǔ)言對(duì)來(lái)說(shuō),統(tǒng)計(jì)方法不可避免存在數(shù)據(jù)稀疏問(wèn)題。 基于詞典的方法 近年來(lái),基于詞典的詞匯對(duì)齊方法逐漸受到人們重視,其主要思想是充分利 用現(xiàn)有的機(jī)讀詞典資源,通過(guò)詞典譯文檢索或義類(lèi)匹配實(shí)現(xiàn)雙語(yǔ)詞匯對(duì)齊。 以英一漢雙語(yǔ)詞匯對(duì)齊為例,首先對(duì)英語(yǔ)句子進(jìn)行短語(yǔ)識(shí)別和形態(tài)還原處理, 對(duì)漢語(yǔ)句子進(jìn)行分詞處理,對(duì)于英語(yǔ)句子中每個(gè)單詞或短語(yǔ)根據(jù)詞典譯文在漢語(yǔ) 句子中進(jìn)行搜索匹配,如果存在與譯文相同的漢語(yǔ)詞匯,則確定為一個(gè)候選對(duì)齊。 完全基于詞典來(lái)對(duì)齊非空詞匯具有很高的正確率,但由于真實(shí)翻譯中上下文 的多樣性和翻譯的靈活性,根據(jù)詞典譯文的詞匯對(duì)齊覆蓋率相對(duì)較低。為了提高 詞典譯文的覆蓋率,引入了基于譯文的相似度和基于語(yǔ)義的詞匯對(duì)齊方法川。 1 基于譯文的相似度的方法 雖然有些對(duì)齊詞的譯文在詞典中并沒(méi)有給出,但在很多情況下對(duì)應(yīng)譯文和詞 典的譯文包含一些相同的字。 漢語(yǔ)詞c l 和c 2 的模糊匹配相似度定義為: s m ( c ) :型塵竺型 ( 2 3 ) lc 1l + jc 2i 其中ic ln c 2l 為c l 和c 2 所含的公共字的個(gè)數(shù),lc ll 和fc 21 分別為c l 和f 2 所含 字?jǐn)?shù),在此基礎(chǔ)上,英語(yǔ)詞e 和漢語(yǔ)詞c 的匹配相似度為: d t s i m ( e ,c ) = m a xs i m ( d ,c ) + ( c o,c ) 扛) 一1 ) x 0 () j ,u f n p t ( s i m ( d 1 2-4dedt(e)de 第二章術(shù)語(yǔ)對(duì)抽取技術(shù)的研究現(xiàn)狀 其中d t ( e ) 為e 的所有譯文,豇為相似度的閾值,c o u n t ( ) 函數(shù)用于統(tǒng)計(jì)相 似度大于閾值的譯文個(gè)數(shù),在譯文相似度最大值基礎(chǔ)上,每增加一個(gè)相似度大于 閾值的譯文,則增加0 1 的經(jīng)驗(yàn)權(quán)值。 基于譯文的相似度的方法,在對(duì)齊正確率下降不大的情況下,召回率有了顯 著的提高。 2 基于語(yǔ)義相似度的方法 翻譯中常常會(huì)有利用同義詞代替翻譯詞的現(xiàn)象。k e r 【3 8 1 和王斌例在詞匯對(duì)齊 中都曾引用語(yǔ)義作為雙語(yǔ)詞典對(duì)齊的補(bǔ)充,可以采用譯類(lèi)詞典,如同義詞詞林 作為語(yǔ)義相似度評(píng)價(jià)詞典,它所收詞全部按語(yǔ)義分類(lèi)編排,通過(guò)計(jì)算兩詞義s l 和 s 2 之間的語(yǔ)義距離s e n s e d i s t ( s l ,s 2 ) 可以得到s l 和s 2 的語(yǔ)義相似度,從而實(shí)現(xiàn)詞 匯對(duì)齊。 利用語(yǔ)義相似度的方法,可以彌補(bǔ)雙語(yǔ)詞典譯文覆蓋的不足。 最小求交詞對(duì)齊方法 利用雙語(yǔ)語(yǔ)料庫(kù)中源語(yǔ)言詞匯和目標(biāo)語(yǔ)言詞匯的共現(xiàn)信息,計(jì)算共現(xiàn)頻率的 方法,通常只能對(duì)齊高頻單詞,而無(wú)法對(duì)齊低頻單詞。使用雙語(yǔ)詞典對(duì)齊方法, 在處理靈活翻譯的真實(shí)文本時(shí),由于單詞的譯文不局限于詞典的解釋?zhuān)瑢?duì)齊的效 果并不理想。而且一些術(shù)語(yǔ)和未登錄詞也無(wú)法使用雙語(yǔ)詞典對(duì)齊。因此吳宏林等 人【4 0 l 提出了一種基于雙語(yǔ)語(yǔ)料庫(kù)的最小求交詞對(duì)齊方法,它把自然語(yǔ)言的句子形 式化地表示為單詞的集合,通過(guò)最小求交模型即若干中一英文句對(duì)的交集來(lái)進(jìn)行 詞對(duì)齊,使用倒排索引表和集合運(yùn)算實(shí)現(xiàn)了高效的最小求交算法。與傳統(tǒng)方法相 比,該方法的優(yōu)點(diǎn)是能對(duì)齊低頻單詞和未登錄詞,無(wú)需構(gòu)造龐大的雙語(yǔ)詞典。實(shí) 驗(yàn)證明這是一種行之有效的方法,其中用到的一些方法和技術(shù)會(huì)對(duì)其他層次的對(duì) 齊提供幫助或啟發(fā)。 2 2 基于非平行語(yǔ)料的術(shù)語(yǔ)對(duì)抽取 2 2 1 從平行語(yǔ)料到非平行語(yǔ)料 盡管在平行語(yǔ)料基礎(chǔ)上抽取雙語(yǔ)術(shù)語(yǔ)對(duì)的結(jié)果比較好,但是,平行語(yǔ)料,特 別是經(jīng)過(guò)人工對(duì)齊的高質(zhì)量的平行語(yǔ)料是比較稀少的,無(wú)法及時(shí)滿足雙語(yǔ)詞典編 纂的需求。同時(shí),一些新的詞語(yǔ),尤其是專(zhuān)業(yè)領(lǐng)域的新術(shù)語(yǔ),具有很強(qiáng)的時(shí)效性, 此類(lèi)術(shù)語(yǔ)的收集必然要以語(yǔ)料資源的及時(shí)提供為先決條件。幸運(yùn)的是,在w e b 上每日都新增了很多最新的多語(yǔ)語(yǔ)料,而這些語(yǔ)料通過(guò)適當(dāng)?shù)能浖ぞ呖梢暂p易 獲取。因此,人們開(kāi)始把目光轉(zhuǎn)移到非平行語(yǔ)料上,試圖從其中抽取術(shù)語(yǔ)對(duì)。 第二章術(shù)語(yǔ)對(duì)抽取技術(shù)的研究現(xiàn)狀 與平行語(yǔ)料不同 4 4 , 4 5 , 4 6 , 4 7 , 4 8 】,非平行語(yǔ)料的形式可謂包羅萬(wàn)象,其非平行性 主要體現(xiàn)在以下幾個(gè)方面: 1 文本的作者可能不同。由于這些文本是由使用不同語(yǔ)言的人分別寫(xiě)成 的,作者的行文風(fēng)格不同。 2 文本的領(lǐng)域可能不同。每種語(yǔ)言基本上都有描述不同領(lǐng)域內(nèi)容的文字。 3 相同領(lǐng)域的文本的主題也可以從完全相同到部分重疊。 4 文本的時(shí)問(wèn)跨度可能是變化的,比如報(bào)紙上的新聞,這也會(huì)導(dǎo)致主題的 變化。 大部分的文本語(yǔ)料在以上幾個(gè)方面都是不平行的。語(yǔ)料的非平行性越高,從 其中抽取雙語(yǔ)信息的難度越大。因此一個(gè)比較可行的方法是適當(dāng)降低語(yǔ)料的非平 行性程度,比如選擇同一時(shí)間范圍內(nèi)的文本,或同一作者的文本,或同一領(lǐng)域的 文本。 基于非平行語(yǔ)料的術(shù)語(yǔ)對(duì)抽取大都基于以下假設(shè)4 3 】:在單語(yǔ)語(yǔ)料中,盡管一 個(gè)單詞出現(xiàn)在不同文本中,但是與之共現(xiàn)的單詞集合( 即其上下文) 是穩(wěn)定的, 這說(shuō)明單詞共現(xiàn)關(guān)系具有一定的穩(wěn)定性。這種規(guī)律性可推廣到多語(yǔ)言語(yǔ)料中,并 有如下更為詳細(xì)的假設(shè): 1 如果某一單詞w l 與另一單詞w 2 在源語(yǔ)言語(yǔ)料l l 中非常相關(guān),則它 們?cè)谀繕?biāo)語(yǔ)言語(yǔ)料l 2 中對(duì)應(yīng)的單詞w 1 與w 2 也會(huì)非常相關(guān); 2 給定一個(gè)大的單詞集合b = ( b l ,b 2 ,b n ) ,單詞w l 僅與其中的一個(gè)子 集a c b 非常相關(guān); 3 如果單詞w 。與一組單詞b l ,b 2 ,b n 以不同的程度相關(guān),則w l 與b l , b 2 ,b i 也以相似的程度相關(guān)。 其中,l l 代表源語(yǔ)言,l 2 代表目標(biāo)語(yǔ)言,w l ,w 2 ,b l ,b 2 ,b 1 1 為源語(yǔ)言 單詞,w l ,w 2 ,b l ,b 2 ,b n 為目標(biāo)語(yǔ)言單詞,w i ,w 2 分別為w l ,w 2 在 目標(biāo)語(yǔ)言中的翻譯。這樣每個(gè)單詞的共現(xiàn)單詞子集及其相關(guān)程度就可以作為該單 詞區(qū)別于其他單詞的特征。 2 2 2 基于非平行語(yǔ)料的術(shù)語(yǔ)對(duì)抽取技術(shù)及分析 共現(xiàn)單詞子集構(gòu)成了某一詞語(yǔ)的上下文,對(duì)其中的每個(gè)單詞進(jìn)行定量化處 理,即可構(gòu)成該詞語(yǔ)的上下文向量,基于此可實(shí)現(xiàn)多語(yǔ)術(shù)語(yǔ)對(duì)的抽取。其通常步 驟是:( 1 ) 對(duì)不同語(yǔ)料的各個(gè)詞語(yǔ)分別構(gòu)建上下文向量。通常是選擇一個(gè)詞語(yǔ)前 后的若干詞語(yǔ)作為上下文,因此可定義不同大小的上下文窗口。較小窗口有助于 識(shí)別固定表達(dá)和如句法依存之類(lèi)的關(guān)系,而較大窗口則可突顯出語(yǔ)義概念即詞語(yǔ) 較大范圍內(nèi)保持的其它關(guān)系l m l ;( 2 ) 根據(jù)主導(dǎo)詞進(jìn)行上下文向量轉(zhuǎn)換,即將源語(yǔ) 第二章術(shù)語(yǔ)對(duì)抽取技術(shù)的研究現(xiàn)狀 言向量轉(zhuǎn)換為目標(biāo)語(yǔ)言向量。在向量轉(zhuǎn)換時(shí),需要對(duì)待翻譯術(shù)語(yǔ)的上下文進(jìn)行翻 譯,這通常需要借助于詞典,但上下文難免會(huì)有多種翻譯,由此可能產(chǎn)生復(fù)雜的 向量組合,為此通常是選擇上下文中的主導(dǎo)詞,即詞典中包含的詞語(yǔ)來(lái)構(gòu)成向量; ( 3 ) 計(jì)算轉(zhuǎn)換向量與目標(biāo)語(yǔ)言中的各個(gè)向量的相似度,并依相似度高低對(duì)候選 答案進(jìn)行排序。 下面對(duì)幾種典型的基于非平行語(yǔ)料的術(shù)語(yǔ)對(duì)抽取技術(shù)進(jìn)行詳細(xì)介紹,并做具 體分析。 k 向量法和d k - v e e 法 p a s c a l ef u n g 提出了兩種從非平行的雙語(yǔ)語(yǔ)料庫(kù)中提取術(shù)語(yǔ)對(duì)的方法,第一 種方法稱(chēng)為k 向量法1 4 。其思路相當(dāng)簡(jiǎn)單,即將每個(gè)單詞語(yǔ)料庫(kù)按長(zhǎng)度分為k 段, 單詞w 是否在第i 段出現(xiàn)記為l 和0 。于是每個(gè)單詞都可以用k 維布爾向量來(lái)表示。 通過(guò)計(jì)算源語(yǔ)言單詞和目標(biāo)單詞的向量相似性,便可以抽取出相似度很大的源語(yǔ) 言和目標(biāo)語(yǔ)言詞對(duì)。該方法可以快速粗略的抽取翻譯詞對(duì),但是它的明顯缺點(diǎn)是 假定源文件與目標(biāo)文件長(zhǎng)度之間存在很好的線性關(guān)系。于是如果分成k 段,可能 會(huì)對(duì)諸如漢一英這樣的長(zhǎng)度線性關(guān)系并不十分顯著的語(yǔ)言對(duì)不太合適,況且文本 中的任何插入刪除都會(huì)進(jìn)一步加劇文本長(zhǎng)度之間的非線性度,從而影響計(jì)算結(jié)果 的準(zhǔn)確性。 考慮到上述方法的缺陷,p a s c a l ef u n g 又提出了基于詞對(duì)特征匹配的稱(chēng)為 d k v e c 的方法1 4 引。通過(guò)考察,p a s c a l ef u n g 提取了一種稱(chēng)為“詞間隔向量”的 特征。具體說(shuō)就是假定某個(gè)詞w 在文本中出現(xiàn)n 次( n 1 ) ,它的每次出現(xiàn)所 在的字節(jié)偏移為o f f s e t i ,o f f s e t 2 o f f s e t ,則它的分布間隔向量為 。統(tǒng)計(jì)發(fā)現(xiàn)互為翻譯的高頻詞 的出現(xiàn)間隔向量常常表現(xiàn)出很強(qiáng)的相似性,而不互為翻譯的詞對(duì)的出現(xiàn)的間隔向 量卻往往相似性不強(qiáng)。于是,通過(guò)比較源語(yǔ)言和目標(biāo)語(yǔ)言詞對(duì)的出現(xiàn)的間隔向量 的相似度同樣可以達(dá)到抽取翻譯詞對(duì)的目的。由于任意兩個(gè)詞分布的間隔向量的 維數(shù)可能不同,通過(guò)d t w ( d y n a m i ct i m ew a r p i n g ,動(dòng)態(tài)時(shí)間規(guī)整) 的動(dòng)態(tài)規(guī)劃 算法來(lái)實(shí)現(xiàn)兩個(gè)不同維數(shù)向量之間的比較。 p a s c a l ef u n g 的第二種方法克服了的一種方法的缺點(diǎn),只需要通過(guò)比較詞的 分布信息就可以抽取到可能的翻譯詞對(duì)。即使文本中存在定的插入和刪除章節(jié) 也不會(huì)對(duì)結(jié)果造成多大的影響。但是通?;榉g的源語(yǔ)言文件和目標(biāo)語(yǔ)言文件 的長(zhǎng)度是不同的,特別是對(duì)于印歐一非印歐語(yǔ)言對(duì)( 如英漢) ,這種長(zhǎng)度上的差 別更加明顯。長(zhǎng)度差異的情況下進(jìn)行距離差值的直接運(yùn)算,可以認(rèn)為是在不同的 數(shù)量級(jí)上進(jìn)行計(jì)算,這在意義上也不成立。所以有人引進(jìn)了歸一化岡子,它的值 為源語(yǔ)言與目標(biāo)語(yǔ)言文本長(zhǎng)度的比值。 第二章術(shù)語(yǔ)對(duì)抽取技術(shù)的研究現(xiàn)狀 利用雙語(yǔ)詞典作為種子詞庫(kù)實(shí)現(xiàn)源術(shù)語(yǔ)上下文翻譯1 其研究工作主要涉及上述步驟( 1 ) 和步驟( 2 ) 。為找到個(gè)術(shù)語(yǔ)的可能候 選翻譯,首先統(tǒng)計(jì)出現(xiàn)在它們的上下文的公共詞語(yǔ)。在雙語(yǔ)語(yǔ)料里,公共詞語(yǔ)實(shí) 際上就是雙語(yǔ)詞對(duì)。利用m t 系統(tǒng)的詞典來(lái)找到所有的雙語(yǔ)詞對(duì),這些詞語(yǔ)對(duì)被 當(dāng)作種子單詞。第二個(gè)步驟就是列出上下文詞語(yǔ)出現(xiàn)的頻率。比方說(shuō),如果在某 一個(gè)中文術(shù)語(yǔ)的上下文中,多個(gè)種子詞語(yǔ)的出現(xiàn)頻率所構(gòu)成的向量與某個(gè)英語(yǔ)術(shù) 語(yǔ)的類(lèi)似上下文向量足夠相似,則可認(rèn)為該中文術(shù)語(yǔ)和英文術(shù)語(yǔ)是一個(gè)可能匹配 的術(shù)語(yǔ)對(duì)。 在這種利用雙語(yǔ)種子詞語(yǔ)作為“橋梁”的雙語(yǔ)翻譯中,詞典的質(zhì)量將很自然 地影響到系統(tǒng)的輸出結(jié)果。以歐洲的語(yǔ)言對(duì)( 如法英) 為例,我們可以預(yù)見(jiàn)到通 過(guò)利用它們共有的同詞源信息作為“橋梁”。最重要的是,可以假定法文和英文 的單詞之間的分界是很相似的。然而英文和中文的情況卻要糟糕的多。首先,在 獲取中文術(shù)語(yǔ)的上下文時(shí),需要對(duì)上下文相關(guān)句子進(jìn)行分詞,這本身會(huì)引入一些 切分誤差( 如歧義等) 。這兩種語(yǔ)言無(wú)論在詞干的特征上還是在詞的排列順序上 都有很大的不同,這樣就導(dǎo)致了一個(gè)英文單詞將可能對(duì)應(yīng)很多的中文詞語(yǔ),反之 亦然。在文獻(xiàn)【1 1 】的工作中,為解決這個(gè)問(wèn)題,對(duì)作為種子詞語(yǔ)的每個(gè)詞對(duì)引入 了一個(gè)“信任權(quán)重”,即如果一個(gè)英文詞語(yǔ)i 。是一個(gè)中文詞語(yǔ)i 。的第k 個(gè)候 選翻譯,則將其在上下文向量中的對(duì)應(yīng)權(quán)重乘以一個(gè)常數(shù)。顯然這是一種比較粗 糙的處理方式。實(shí)際上,對(duì)于基于上下文向量來(lái)實(shí)現(xiàn)術(shù)語(yǔ)抽取的相關(guān)研究而言, 上述情形都是有待解決的問(wèn)題,而這些問(wèn)題也恰恰是限制結(jié)果可靠性的重要因 素。 上下文特征法 h a n gl i 等人提出了另外一種基于w e b 實(shí)現(xiàn)術(shù)語(yǔ)翻譯的方法,這種方法主要 根據(jù)雙語(yǔ)詞條的上下文特征來(lái)判另u - - - 者之間的相關(guān)度1 2 5 , 1 5 1 。具體來(lái)說(shuō),其方法分 為兩步。第一步:對(duì)給定的源語(yǔ)詞條,首先交給搜索引擎在目標(biāo)語(yǔ)的頁(yè)而中查找, 在找出的頁(yè)面中尋找正好位于源語(yǔ)詞條前面的目標(biāo)語(yǔ)詞條,并統(tǒng)計(jì)其頻率,然后 給出該源語(yǔ)詞條對(duì)應(yīng)的目標(biāo)語(yǔ)詞條候選列表。第二步:對(duì)于在第一步中無(wú)法找到 結(jié)果的源語(yǔ)詞條,可采用上下文特征距離法。 上下文特征距離法的具體步驟如下: 1 生成候選目標(biāo)語(yǔ)詞條集 a ) 對(duì)源語(yǔ)詞條中的每個(gè)詞在源語(yǔ)一目標(biāo)語(yǔ)詞典中查詢(xún)對(duì)應(yīng)的譯項(xiàng): b ) 將每個(gè)譯項(xiàng)按順序拼湊成多個(gè)目標(biāo)語(yǔ)詞條: c ) 在目標(biāo)語(yǔ)語(yǔ)料中搜索上一步中生成的目標(biāo)語(yǔ)詞條,并統(tǒng)計(jì)其出現(xiàn)頻率: 第二章術(shù)語(yǔ)對(duì)抽取技術(shù)的研究現(xiàn)狀 d ) 濾掉那些頻率值為零的目標(biāo)語(yǔ)詞條,并按頻率排序,產(chǎn)生候選目標(biāo)語(yǔ)詞 條集。 2 選擇能成為源語(yǔ)詞譯項(xiàng)的目標(biāo)語(yǔ)詞 a ) 在源語(yǔ)語(yǔ)料中搜索源語(yǔ)詞,在結(jié)果文檔集中選出那些與源語(yǔ)詞共同出現(xiàn) 的上下文詞,并統(tǒng)計(jì)其頻率,形成源語(yǔ)言上下文詞向量; b ) 在目標(biāo)語(yǔ)語(yǔ)料中搜索目標(biāo)語(yǔ)詞,在結(jié)果文檔集中選出那些與目標(biāo)語(yǔ)詞共 同出現(xiàn)的上下文詞,并統(tǒng)計(jì)其頻率,形成目標(biāo)語(yǔ)上下文詞向量; c ) 選擇那些在源語(yǔ)言上下文詞向量與目標(biāo)語(yǔ)上下文詞向量中互為翻譯的詞 條,重構(gòu)源語(yǔ)言上下文詞向量與目標(biāo)語(yǔ)上下文詞向量,并在互為翻譯的詞條間建 立聯(lián)系; d ) 計(jì)算源語(yǔ)言上下文詞向量與目標(biāo)語(yǔ)言上下文詞向量之間的相關(guān)度; e ) 對(duì)候選目標(biāo)語(yǔ)詞集中的每個(gè)候選目標(biāo)語(yǔ)詞重復(fù)b ) 至d ) 步; f ) 挑選相關(guān)度較高的若干個(gè)目標(biāo)語(yǔ)詞作為源語(yǔ)詞條的譯項(xiàng)。 這種方法適合于詞組的翻譯的發(fā)現(xiàn),但其存在的問(wèn)題是: ( 1 ) 基于詞典翻 譯而獲得的目標(biāo)短語(yǔ)未必就包含正確的候選答案。如“a i r c r a f tc a r r i e r ”這個(gè)詞語(yǔ), 其所實(shí)現(xiàn)的系統(tǒng)最終翻譯為“飛機(jī)承運(yùn)人”( 正確翻譯應(yīng)為“航空母艦”) 。這 個(gè)翻譯的產(chǎn)生過(guò)程為:從詞典中找出“a i r c r a f t ”的翻譯為“飛機(jī)”,而“c a r r i e r 則翻譯為“承運(yùn)人”,但是這種組合并非正確答案;( 2 ) 如果源短語(yǔ)的每個(gè)詞 語(yǔ)包含多種翻譯,則可能產(chǎn)生過(guò)多的組合,導(dǎo)致向搜索引擎的多次提交和計(jì)算, 由此影響系統(tǒng)的響應(yīng)速度;( 3 ) 在論文所列舉的實(shí)例中,候選答案的統(tǒng)計(jì)量區(qū) 分已經(jīng)非常明顯。一般而言,正確和非正確的候選答案在搜索引擎的返回結(jié)果中, 其統(tǒng)計(jì)量的差距在很大程度上都是比較大的。由此自然產(chǎn)生的疑問(wèn)是“如果僅僅 依賴(lài)于這個(gè)頻率數(shù)據(jù),而不必依靠文中所提復(fù)雜算法,是否也可生成按一定標(biāo)準(zhǔn) 排序的候選答案呢? ”。 2 3 基于部分平行語(yǔ)料的術(shù)語(yǔ)對(duì)抽取 在w e b 上還存在大量的部分平行語(yǔ)料,即在單語(yǔ)文本中蘊(yùn)含著部分的雙語(yǔ)資 源,這些資源也可用來(lái)幫助實(shí)現(xiàn)術(shù)語(yǔ)的自動(dòng)翻譯。這個(gè)領(lǐng)域的相關(guān)研究工作比較 少見(jiàn),最典型的研究是m a s a a k in a g a t a 提出的距離信息法和w u ,l i n 和c h a n g 提出的模式匹配法。 距離信息法 根據(jù)對(duì)互聯(lián)網(wǎng)上各種部分平行雙語(yǔ)文檔的分析,m a s a a k in a g a t a 提出了一 第二章
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 環(huán)境治理及保護(hù)預(yù)案
- 2026中鐵裝配式建筑科技有限公司招聘136備考題庫(kù)帶答案詳解
- 2026廣東佛山市順德區(qū)杏壇中心小學(xué)臨聘教師招聘9人備考題庫(kù)附答案詳解ab卷
- 2026上半年海南事業(yè)單位聯(lián)考白沙黎族自治縣招聘77人備考題庫(kù)(第1號(hào))附參考答案詳解(預(yù)熱題)
- 2026上半年貴州事業(yè)單位聯(lián)考黔西南州招聘1085人備考題庫(kù)帶答案詳解(考試直接用)
- 2026北京市平谷區(qū)農(nóng)業(yè)中關(guān)村發(fā)展中心招聘2人備考題庫(kù)附答案詳解(輕巧奪冠)
- 2026廣東東莞市石碣鎮(zhèn)招聘編外聘用人員5人備考題庫(kù)附參考答案詳解(考試直接用)
- 2026上半年貴州事業(yè)單位聯(lián)考貴州省紅十字會(huì)招聘1人備考題庫(kù)帶答案詳解(黃金題型)
- 2026廣東廣州市荔灣區(qū)逢源街公益性崗位招聘2人備考題庫(kù)備考題庫(kù)附答案詳解(a卷)
- 2026四川省紅十字基金會(huì)招聘工作人員1人備考題庫(kù)帶答案詳解(a卷)
- 中醫(yī)中藥科普宣傳工作方案
- 玻璃幕墻施工專(zhuān)項(xiàng)方案
- 醫(yī)院患者風(fēng)險(xiǎn)評(píng)估表及管理流程
- 龍湖物業(yè)質(zhì)量管理標(biāo)準(zhǔn)操作手冊(cè)
- 《腹部手術(shù)圍手術(shù)期疼痛管理指南(2025版)》解讀
- 采購(gòu)辦公家具知識(shí)培訓(xùn)課件
- 2025年醫(yī)療器械經(jīng)營(yíng)自查報(bào)告
- 船員崗前培訓(xùn)考試題及答案解析
- 2025年醫(yī)師定期考核必考題庫(kù)及答案
- DB11-T 2451-2025 中藥飲片再加工服務(wù)規(guī)范
- 七大浪費(fèi)考試試卷及答案
評(píng)論
0/150
提交評(píng)論