基于深度可分離卷積的漢越神經(jīng)機器翻譯方法_第1頁
基于深度可分離卷積的漢越神經(jīng)機器翻譯方法_第2頁
基于深度可分離卷積的漢越神經(jīng)機器翻譯方法_第3頁
基于深度可分離卷積的漢越神經(jīng)機器翻譯方法_第4頁
全文預(yù)覽已結(jié)束

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

基于深度可分離卷積的漢越神經(jīng)機器翻譯方法

近年來,神經(jīng)裝置的翻譯。在漢越神經(jīng)機器翻譯模型中,可以對越南語這種拼音文字進行切分,使用切分后的語料進行模型訓(xùn)練,以降低翻譯中的數(shù)據(jù)稀疏問題,這種方法已在英、法等西方拼音文字的翻譯問題中被證明是十分有效的.越南語可以切分為多種不同粒度,除了詞、字符等常見粒度切分外,越南語還存在音節(jié)粒度,每一個音節(jié)常常是一個有意義的單位,可以獨立使用,這些單位又可作為構(gòu)成多音節(jié)詞的基礎(chǔ),如同漢語拼音一樣,每一個音節(jié)可視為一個獨立的“字”.根據(jù)不同粒度切分后的序列中包含了許多局部特征信息,這些信息對于NMT而言是十分有用的,而卷積神經(jīng)網(wǎng)絡(luò)的特點就是能夠提取局部特征向量,同時還能保留特征之間的相對位置.相比傳統(tǒng)卷積,深度可分離卷積是一種執(zhí)行卷積運算更高效的方法,需要的參數(shù)更少,計算量也更小,往往可以使用更少的數(shù)據(jù)學(xué)到更好的表示,從而得到性能更好的模型.本文提出一種基于深度可分離卷積的漢越NMT方法.該方法首先根據(jù)越南語的語言特點,將越南語切分為詞、音節(jié)、字符、子詞4種不同粒度,通過切分降低低頻詞的數(shù)量.其次利用深度可分離卷積改進Vaswani等1局部特征,數(shù)據(jù)稀疏在NMT任務(wù)中,對語料進行切分是預(yù)處理過程中非常重要的一個步驟.語料中一個句子所包含的特征是由多個局部特征共同組成.在語料預(yù)處理階段,句子切分的粒度越大,切分結(jié)果越能夠保存更加完整的局部特征,但同時會加重數(shù)據(jù)稀疏的問題;句子切分的粒度越小,所包含局部特征越少,數(shù)據(jù)稀疏的問題卻會得到一定程度的緩解.尤其在雙語資源相對匱乏的漢越機器翻譯任務(wù)中,切分粒度的把控就顯得十分重要.越南語和漢語屬于同一種孤立語言.在漢語中,單詞不用空格區(qū)分,句子包括一系列連續(xù)的字符(包括標(biāo)點符號).在越南語中,相鄰拼寫的單詞(音節(jié))用空格隔開,標(biāo)點符號位于拼寫單詞之后.同時越南語還是一種拼音文字,一些適用于西方文字的粒度切分同樣適用于越南語.結(jié)合以上語言特點,本研究對越南語選取了詞、音節(jié)、字符、子詞4種不同的粒度切分來進行實驗,各粒度切分示例如表1所示.1.1越南語分詞處理現(xiàn)有的大多數(shù)NMT都以詞為基本翻譯單元,基于詞的研究取得了全方位的發(fā)展,分詞模型也變得更加簡單有效,準(zhǔn)確性很高.本研究采用已有的越南語分詞工具包對越南語進行分詞處理.1.2gang、區(qū)域音的對應(yīng)關(guān)系越南語音節(jié)包括聲母、韻母和聲調(diào)3個部分.聲母由23個輔音承擔(dān),韻母由介音(元音u)、主音(元音)和尾音(輔音韻尾)組成.聲調(diào)包括平聲(Thanhngang)、銳聲(Thanhs越南語一共有11個單元音、23個雙元音、12個三元音、25個輔音.如表2所示,根據(jù)韻母部分中元音的數(shù)量來稱呼韻母類型為:單元音、二合元音、三合元音、單元音后附輔音、二合元音后附輔音、三合元音后附輔音,再由這些元音、輔音、聲調(diào)組成音節(jié),進而構(gòu)成詞.越南語中音節(jié)組合數(shù)量眾多,大約有2500個音節(jié),但書寫時使用空格隔開每一個音節(jié),因此本研究利用空格對越南語音節(jié)進行切分處理,處理好的越南語音節(jié)就類似于漢語中的一個“字”.1.3兩個獨立詞典BPEBPE算法有兩種應(yīng)用方法:一是獨立BPE,即構(gòu)建源語言詞典和目標(biāo)語言詞典這兩個獨立詞典;二是兩種語言共同生成一個詞典的聯(lián)合BPE.理論上后者效果好一點,可以保證源語言和目標(biāo)語言分割的一致性.但是考慮到漢語和越南語并不屬于擁有共享字母表的兩種語言,所以本文采用獨立BPE的方法,分別生成漢語詞典和越南語詞典.1.4改進的三級層次結(jié)構(gòu),和uk符號等5級層次結(jié)構(gòu),學(xué)生uk、或重音通常語言學(xué)上把詞作為基本意義單位,因此在自然語言處理中常使用詞作為基本的翻譯單元,但使用字符作為翻譯的基本單元有其獨特的優(yōu)勢.字符可以加深語言間的層次結(jié)構(gòu),將詞和句子的兩級層次結(jié)構(gòu)加深到字符、詞和句子的3級層次結(jié)構(gòu).另外,使用字符切分粒度可以解決翻譯中存在UNK符號的問題.越南語構(gòu)詞復(fù)雜,包括單音節(jié)詞、復(fù)合詞、重音疊韻詞、偶合詞、派生詞等.NMT模型無法覆蓋訓(xùn)練所有的詞,所以UNK符號的問題一直存在于詞級翻譯模型中,但基本的越南語字符數(shù)量有限,而且任意越南語的詞都是由字符序列組合而成.將字符粒度用于漢越NMT中,字符間的組合規(guī)則都由NMT模型自動學(xué)習(xí),為翻譯模型學(xué)習(xí)這種語言間的組合關(guān)系提供了經(jīng)驗數(shù)據(jù).2nmt可根據(jù)深度分離2.1基于征抽樣和特征融合的方法深度可分離卷積傳統(tǒng)卷積的計算量為D常規(guī)的卷積層中,需要同時進行特征抽取和特征融合的工作,參數(shù)的使用效率低且效果不理想.相反,深度可分離卷積把兩步分離開來,先進行特征抽取,再進行特征融合,這樣做可以充分利用模型參數(shù)進行表示學(xué)習(xí),使用更少的參數(shù),取得更好的效果.2.2nmt模型是用深度分離積累的本研究以Vaswani等模型所有的子層以及嵌入層的輸出維度都是d3結(jié)果與分析3.1.雙語語料中的加標(biāo)算法驗證實驗中訓(xùn)練的漢越雙語語料規(guī)模為12萬句對,其中測試集1500對雙語句對,驗證集1200對雙語句對.在訓(xùn)練之前對雙語語料做了人工校對處理,去除語料中存在的重復(fù)、空格和不規(guī)則符號.3.2實驗數(shù)據(jù)及模型實驗中漢語僅使用結(jié)巴分詞工具做分詞處理,越南語按上述4種粒度切分.實驗分為漢語-越南語(漢越)、越南語-漢語(越漢)兩個翻譯方向.選取目前效果較好的兩個深度學(xué)習(xí)翻譯框架———卷積神經(jīng)網(wǎng)絡(luò)(CNN)實驗中使用的詞表大小為32000.CNN模型由5層編碼器(每層核寬度為3)和9層解碼器(每層核寬度為3,每一層均配備一個注意力機制)構(gòu)成,批大小為128.Transformer模型編碼器和解碼器層數(shù)為6層,詞向量和隱層單元數(shù)為512,批大小為1024.基于深度可分離卷積的漢越神經(jīng)機器翻譯模型卷積核大小為3×3,每層核寬度為3,編碼器和解碼器層數(shù)為6,批大小為1024.所有實驗均使用雙語互譯評估(BLEU)值作為翻譯效果的評測指標(biāo).3.3字符粒度變化表3為不同翻譯模型采用不同越南語切分粒度進行翻譯時的BLEU值對比.可以看出:1)本文模型相對于CNN與Transformer在4種不同粒度下的越南語切分方法均取得了最佳效果.例如,在子詞粒度下,相比于CNN,本文模型的BLEU值在漢越和越漢翻譯方向上分類提升了4.25和4.16個百分點;相比于Transformer,其BLEU值在漢越和越漢翻譯方向上分別提升了1.62和1.48個百分點.在字符粒度下,相比CNN,本文模型其BLEU值在漢越和越漢翻譯方向上分別提升了4.29和4.05個百分點;相比Transformer,其BLEU值在漢越和越漢翻譯方向上分別提升了1.70個和1.64個百分點.2)無論是CNN和Transformer,還是本文方法,漢越翻譯方向的翻譯效果都要優(yōu)于越漢方向的翻譯效果,BLEU值平均約高出0.88個百分點.分析可能的原因為漢語構(gòu)詞復(fù)雜,在計算能力有限的情況下訓(xùn)練過程中涉及到的詞數(shù)量有限,造成BLEU值偏低.3)在所有模型中子詞粒度的效果最好,這是因為子詞粒度切分可以將低頻詞切分成高頻詞片段,緩解語料匱乏帶來的數(shù)據(jù)稀疏問題.而在所有模型中字符粒度效果較差的原因是越南語句子切分為字符后,雖然降低了數(shù)據(jù)稀疏問題,但是句子長度大大增加,增加了長距離依賴學(xué)習(xí)的難度.本文還將傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型和深度可分離卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練時間進行了對比.二者在12萬的漢越雙語語料上,分別約為18和16h,相比之下,深度可分離卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練時間減少了11%,在一定程度上提高了模型的計算效率.然而,在實際的訓(xùn)練過程中,模型的收斂速度取決于多重因素,因此該數(shù)據(jù)只能作為本文實驗條件下的粗略估計.4優(yōu)化了翻譯效果本文提出

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論