2026年課件-融入預訓練語言模型的中-越神經(jīng)機器翻譯方法研究-新版_第1頁
2026年課件-融入預訓練語言模型的中-越神經(jīng)機器翻譯方法研究-新版_第2頁
2026年課件-融入預訓練語言模型的中-越神經(jīng)機器翻譯方法研究-新版_第3頁
2026年課件-融入預訓練語言模型的中-越神經(jīng)機器翻譯方法研究-新版_第4頁
2026年課件-融入預訓練語言模型的中-越神經(jīng)機器翻譯方法研究-新版_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

學研論起學研論起昆明理工大學專業(yè)學位碩士學位論文融入預訓練語言模型的中一越神經(jīng)機器翻譯方法研究指導教師姓名、職稱科科究文止作期_ 神經(jīng)機器翻譯是一種依靠數(shù)據(jù)驅(qū)動的機器翻譯方語的雙語平行語料不足,導致中文-越南語的機器翻譯有限的數(shù)據(jù)中挖掘出更多的語言信息來提升機器翻譯模型性能是針對低資源機器翻譯的熱門研究方向。當下各研究機構(gòu)針對單語大(1)基于多重注意力機制約束的中越平行句對抽取方法:對于神經(jīng)機器翻譯這一任務,主流做法仍是基于大量雙語平行句對的監(jiān)督學習,從篇章中抽取出可用于神經(jīng)機器翻譯模型訓練的雙語平行語料是訓練神經(jīng)機器翻譯前重前置任務。利用中文預訓練語言模型以及越種語言文本分別進行編碼后獲得兩種語言的語義信息表征向量,利用注意力機制將兩種語言的表征向量進行融合后得到該句對的表征向量,對該表征向量進(2)融入BERT與詞嵌入雙重表征的中越機器翻譯方法:針對中越神經(jīng)機器翻譯對源語言的編碼表征能力不足問題,本文提出一種融合源語言BERT預訓練語言模型與詞嵌入雙重表征的低資源神經(jīng)模型和詞嵌入分別對源語言序列進行表示學習,通過注意力機制建立兩種表征之間的聯(lián)系后進行拼接操作得到雙重表征向量,再經(jīng)過線性變換和自注意力機制,使詞嵌入表征和預訓練語言模型表征完全自適應融合在一起,得到對輸入(3)基于預訓練指導推敲生成的中越神經(jīng)機器翻譯方法:針對中越神經(jīng)機器翻譯解碼譯文質(zhì)量不佳問題,本文提出一種基于預神經(jīng)機器翻譯方法。由于目標端文本在訓練期間無法譯文,使用預訓練語言模型約束指導第二段解碼器對粗略譯文的推敲優(yōu)化過Ⅱ(4)中越神經(jīng)機器翻譯原型系統(tǒng):本文設(shè)計并實現(xiàn)了一個基于神經(jīng)機器翻框架搭建,服務器端采用Python語言Flask框架搭建,數(shù)據(jù)存儲于Sqlite輕量級數(shù)據(jù)庫,模型訓練基于Python語言Fairseq框架。系統(tǒng)實現(xiàn)在線平行句對判推敲網(wǎng)絡(luò) ⅢcontextoftheBeltanddrivenmachinetranslationmethod,itperformswellinlanguageswithsufficientbilingualparallelcorpora,butVietnameseisalow-resourcelanguage,andthebilingualinotherlanguagesandTheperformanceofneuralmachinetranslationforVietnameseisnotideal.However,atpresent,variousresearchinstitutionshavedesignedpre-trainedlanguagemodelsformonolinguallarge-scalecorpora.Thepre-trainedcanfullylearnthelanguageinfortraining.Howtousethelanguordertoimprovetheperformanceoflow-resVietnamese,ithasthevalueofin-depthresearch.Howtousepre-modelstoimprovetheperformanceofChinese-Vietnamesemachinetranslation,(1)ChineseVietnamesepaattentionmechanismconstraints:forthetaskofneuralmachinetranslatimainstreamapproachisstillsupervisparallelsentencepairs.Extractingbilingualparallelcorpusfromtextsthatcanbeusedforneuralmachinetranslneuralmachinetranslation.Tpretraininglanguagemodelareusedtoencodethetwpairrespectivelytoobtainthesemanticinformationlanguages.Therepresentationvectrepresentationvectorsofthetwolanguagesusingtheattentionmechanism.The(2)Chinese-VietnamesemachinetransrepresentationofBertandwordembeddirepresentationabilityofSinoVilanguage,thispaperproposesalowresourceneuralmachinetranslationmethodintegratingthedualrepresentatioembeddingtorepresentandlearnthesourcelanguagesequenconnectionbetweenthetworepresentatThen,throughthelineartransformationandselfatteembeddingrepresentationandthepretraininglanguagemodelrepresentationarefadaptivelyintegratedtoobtimprovetheperformanceoftheneuralmachinetranslationmodel.(3)Chinese-Vietnameseneuralmachineguidanceanddeliberation:AimingatthepoorqualityofSinoVietnameseneuralmachinetranslationdecodingtranslation,thispaperproposmachinetranslationmethodbthetargettextcannotbeknowndurimachinetranslationmodelinthewayofdeliberativenetwork,whichisadualstructure.Thefirstdecodergeneratesaprocessoftheroughtranslation,soastoimprovethequalityofthefinaltranslation.(4)Chinese-Vietnameseneuralmachinetrdesignsandimplementsaprototypesystembasedonneuralmachitechnology.ThesystemisbasedonB/Sarchitecture.ThewebclJavaScriptlanguageVueframework,andtheserverisbuiltwithPysentencepairjudgmentfunctionandonlinemachinetranslationfunction.Keywords:neuralmachinetranslation;pretrainedlanguageVietnamese;attentionmechanism;deliberationnetw I V 1 11.2國內(nèi)外研究現(xiàn)狀 1 1 4 7 8 2.1引言 2.2相關(guān)研究 2.3數(shù)據(jù)收集 2.4基于多重注意力機制約束的中越雙語平行句對抽取方法 2.4.1文本預訓練模型特征提取 2.4.2文本表征交叉注意力機制約束 2.4.3文本表征自注意力機制約束 2.4.4分類 2.5.2實驗設(shè)置 2.5.3實驗評價標準 2.5.4中越平行句對抽取對比實驗 2.5.5表征融合消融實驗 2.5.6實例展示 2.6本章小結(jié) 3.1引言 213.2相關(guān)研究 23.3融合BERT與詞嵌入雙重表征的中越南語神經(jīng)機器翻譯方法 23.3.1詞嵌入模塊 3.3.4編碼器模塊 3.3.5解碼器模塊 3.4實驗結(jié)果與分析 3.4.1實驗數(shù)據(jù) 3.4.2實驗設(shè)置 3.4.3評價標準 3.4.4中越神經(jīng)機器翻譯對比實驗 3.4.5不同數(shù)據(jù)量對比實驗 3.4.6編碼多層融入預訓練語言模型消融實驗 3.4.7解碼階段融入預訓練語言模型消融實驗 3.4.8英越神經(jīng)機器翻譯對比實驗 3.4.9實例展示 3.5本章小結(jié) 4.1引言 334.2相關(guān)研究 34.3推敲網(wǎng)絡(luò) 344.4基于預訓練指導推敲生成的中越神經(jīng)機器翻譯方法 354.4.1編碼器 4.4.2第一段解碼器 4.4.4損失計算 4.5實驗結(jié)果與分析 4.5.2實驗設(shè)置 4.5.3評價標準 目錄4.5.4中越神經(jīng)機器翻譯對比實驗 4.5.5融入預訓練語言模型消融實驗 4.5.6英越神經(jīng)機器翻譯對比實驗 4.5.7實例展示 4.6本章小結(jié) 415.1引言 42 5.4系統(tǒng)功能實現(xiàn) 5.4.1線上雙語句對平行判別模塊 5.4.2雙語句對存儲模塊 5.4.3數(shù)據(jù)預處理模塊 5.5功能測試 455.6系統(tǒng)展示 5.7本章小結(jié) 6.1論文總結(jié) 6.2展望 51 59附錄B攻讀碩士學位期間發(fā)表專利 61附錄C攻讀碩士學位期間參與項目 1第一章緒論機器翻譯的訓練依靠于大量的雙語平行句對數(shù)據(jù),在雙語平行語料充足的語種間表現(xiàn)優(yōu)異,但越南語屬于低資源語言,中文等語言與越南語的雙語平行語料不足,導致其中文-越南語的神經(jīng)機器翻譯的性能并不理想,因此,如何提升中文-越南語這類低資源語言的神經(jīng)機器翻譯性能是當今的研究熱點問題且具有較高的應用價值。在機器翻譯研究領(lǐng)域,近年來推出了許多優(yōu)秀的模型設(shè)計,在中文-英語、英語-德語這類常見翻譯語言方向已經(jīng)達到較為優(yōu)秀的程度,谷歌公司推出的神經(jīng)機器翻譯系統(tǒng)在中文-英文的測評中已經(jīng)達到大學生六級水準,足以滿足日常領(lǐng)域的使用,但在低資源翻譯方向的翻譯系統(tǒng)效果卻還存在較大提升空間,這是由于神經(jīng)機器翻譯模型需通過大量雙語數(shù)據(jù)訓練學習到翻譯知識,但在中文-越南語這類翻譯任務中,現(xiàn)有的雙語數(shù)據(jù)與中文-英文這類翻譯數(shù)據(jù)存在量級上的差距,這極大限制了機器翻譯的性能,在中越機器翻譯研究中,為了克服由于雙語句對語料不足這一缺陷,許多學者們在將外部知識融入中越機器翻譯方向開展研究,且取得了一定程度的提升,之前的工作主要融入的知識為實體信息、語法結(jié)構(gòu)這類顯式可觀察的語言信息。預訓練語言模型在多項NLP任務中取得了成績證明其對于語言理解的能力有著較大潛力,但如何將預訓練語言模型作為外部知識融入中越神機器翻譯模型中暫未有相關(guān)工作。預訓練語言模型中的語言信息表示在其對文本的表征向量中,這和之前可觀察的顯式語法信息不同,如何對機器翻譯模型建模將包含語言信息表征向量利用到機器翻譯中,已達到提升翻譯性能的目的,該研究對提升中越機器翻譯性能具有較大意義。隨著深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn)以及發(fā)展,深度神經(jīng)網(wǎng)絡(luò)技術(shù)逐漸在機器翻2譯領(lǐng)域普及而開,2013年Kalchbrenner等人↓提出了神經(jīng)機器翻譯這一概念,機器翻譯逐漸從基于統(tǒng)計的方法[2-9過渡到基于神經(jīng)網(wǎng)絡(luò)的方法。神經(jīng)機器翻譯(NeuralMachineTranslation,NMT)主要目標為使用神經(jīng)網(wǎng)絡(luò)對整個翻譯過程進行建模,使用一種語言文本生成另外一種語言文本。2014年Sutskeve等人10]提出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)的機器翻譯模型,設(shè)計了一種自回歸的編碼器-解碼器模型架構(gòu),通過編碼器對源語言文本進行編碼表征,得到該文本在語義空間中的詞嵌入向量作為語言信息的表示,之后將該表征輸入到設(shè)計好的編碼器網(wǎng)絡(luò),編碼器接收到該表征后利用編碼器信息進行迭代生成的過程,逐字生成出目標文本,當解碼到終止符號時停止,該模型架構(gòu)至今仍是神經(jīng)機器翻譯主流架構(gòu)。為使神經(jīng)機器翻譯性能進一步得到提升,Bahdanau等人11在2015年提出將注意力機制(attention)[12-16加入到編碼器-解碼器架構(gòu)中,通過注意力機制,解碼器部分獲得了對編碼信息挑選過濾的能力,在解碼過程中,對編碼信息各部分進行了區(qū)別處理,提升了神經(jīng)機器翻譯模型性能,使得基于神經(jīng)網(wǎng)絡(luò)的機器翻譯方法徹底超以及卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)[20-24]設(shè)計了多種神經(jīng)機器翻譯模型來對機器翻譯進行建模,使得神經(jīng)機器翻譯方法的性能不斷提升,神經(jīng)機器翻譯的熱度也逐步提高。2017年Vaswani等人該模型編碼時采用并行編碼的機制,一次性編碼整個文本序列,同時為了使得模型能夠感知序列中各詞的位置信息引入了位置嵌入(PositionEmbedding)這一機制來表示序列中的位置信息,在一定程度上解決在循環(huán)神經(jīng)網(wǎng)絡(luò)中長距離信息丟失問題,依靠自注意力機制(Self-Attention)極大增強了編碼器對上下文信息的捕獲能力,這一機制的誕生使得神經(jīng)機器翻譯模型有能力關(guān)注到編碼特征中的重要信息,其性能得到了極大的提升。除在機器翻譯任務中,Transformer模型在文本分類、文本抽取等NLP任務中也取得了優(yōu)異的成績,說明該模型相較于早期的循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)在編碼時能夠更好的獲取到語言信息,具有更加優(yōu)秀的語言理解能力,該模型當前仍是神經(jīng)機器翻譯、摘要生成等序列生成任務的主要基線模型。3以上為近年來神經(jīng)機器翻譯的相關(guān)研究進展,針對低資源的神經(jīng)機器翻譯任務,國內(nèi)外學者主要從以下方面開展研究工作:(1)平行句對資源獲?。合拗频唾Y源神經(jīng)機器翻譯的主要問題為雙語平行句對資源不足,平行句對抽取任務是一個擴充訓練資源的有效方方法,但該方法存在大量噪聲影響最終抽取數(shù)據(jù)質(zhì)量難以直接用于機器端連續(xù)性的判斷,極大提升了抽取數(shù)據(jù)的質(zhì)量。除句對抽取外,偽平行將大量單語數(shù)據(jù)通過機器翻譯技術(shù)翻譯為源語言,生成大量偽平行數(shù)據(jù),但該方法使用的翻譯模型性能交叉,偽平行數(shù)據(jù)中存在大量的錯誤,可能對機器翻譯模型造成負面影響。Imankulov想進行回憶,極大提高了回譯語料的質(zhì)量。對源數(shù)據(jù)進行一定的替換,得到新的數(shù)據(jù)也為解決數(shù)據(jù)不足的一項有效方法,其中Fadaee等人[30]針對數(shù)據(jù)中的稀有詞進行替換擴充了數(shù)據(jù)規(guī)模,Gao等人31提出基于軟上下文的數(shù)據(jù)增強方法,基于相近詞之間的線性關(guān)系進行替換。(2)遷移學習:相較于低資源機器翻譯任務而言,存在中英、中德這類數(shù)據(jù)規(guī)模較大的機器翻譯任務,研究者們考慮到是否能夠利用到這類大規(guī)模數(shù)據(jù)的翻譯任務中學習到的知識來提升低資源翻譯的性能,即將資源豐富的翻譯任務中的語言知識遷移到低資源翻譯中。具體做法為將資源豐富的翻譯任務模型作為父模型,該模型訓練完成后得到的模型參數(shù)作為低資源翻譯任務的初始化模型,低資源翻譯模型基于該父模型參數(shù)進行訓練,得到新的翻譯模型。在該方向,由Zoph等人首次嘗試將遷移學習的思想用于機器翻譯,在多個低資源的翻譯任務中領(lǐng)先于基線(3)先驗知識增強:為彌補神經(jīng)網(wǎng)絡(luò)學習語言知識的缺陷,許多學者致力于將人工翻譯中的相關(guān)經(jīng)驗引入到神經(jīng)機器翻譯模型中,在模型器的解碼過程中添加約束信息,實現(xiàn)外部信息的融入。Tang等人[33提出神經(jīng)網(wǎng)絡(luò)進行設(shè)計的Tree-LSTM模型實現(xiàn)利用語法信息來指導機器翻譯4過程。任務中,語料規(guī)模是限制性能的重要因素。隨著機器翻譯方法相關(guān)研究的發(fā)展,國內(nèi)與國際上相關(guān)領(lǐng)域研究機構(gòu)組織了許多機器翻譯領(lǐng)域的評測比賽,發(fā)布了許多大規(guī)模的雙語平行句對數(shù)據(jù)集用以測評神經(jīng)機器翻譯的性能,較為著名的有國際口語機器翻譯測評(IWSLT)、國際機器翻譯比賽(WMT)和全國機器翻譯大會(CCMT),其中國際口語機器翻譯測評與國際機器翻譯比賽主要針對的是英語、德語及中文等語種,其中也包括部分歐洲小語種數(shù)據(jù),當前國內(nèi)與國際上機器翻譯研究方向主要是針對以上語種進行研究,對神經(jīng)機器翻譯模型的性能判定也主要基于在以上語種數(shù)據(jù)上的表現(xiàn)。而全國機器翻譯大會則主要針對的是中文、英語及國內(nèi)各少數(shù)民族語言,國內(nèi)許多學者也在以上語種方向發(fā)表了許多不錯的研究成果。但是對于東南亞區(qū)域內(nèi)的越南、緬甸、柬埔寨、老撾及泰國等國家的機器翻譯數(shù)據(jù)集暫無大規(guī)模的可用數(shù)據(jù)。并且越南語屬于澳亞語系越孟語族,與中文差距較大,導致當下中越神經(jīng)機器翻譯的性能表現(xiàn)遠不如英中、英法、英德等機器翻譯系統(tǒng)。針對資源稀缺的中文-越南語機器翻譯,機器翻譯領(lǐng)域的學者們發(fā)表了許多優(yōu)秀的研究成果。在基礎(chǔ)數(shù)據(jù)獲取方面,Trinh等人341為解決中文-越南題,提出了在中文-越南語雙語網(wǎng)站提取雙語對齊文本的方法,通過該方法在中文-越南語網(wǎng)站中可以獲取到用于訓練翻譯模型的雙語平行句對,為中文-越南語神經(jīng)機器翻譯方法的研究提供了數(shù)據(jù)基礎(chǔ)。在語言信息融合方面,近年來有相關(guān)研究工作將外部語言信息融入神經(jīng)機器翻譯系統(tǒng)開展了中-越雙語分詞方法額研究,加強了中借助中文與越南語兩種語言之間拼音的相似性,提出融合發(fā)音特征的中以拼音的粒度來進行中-越機器翻譯模型的訓練,并在解碼結(jié)果中進行還原操作,從而使譯文獲得更好的效果;在詞級別的翻充分使用了統(tǒng)計規(guī)則,分析了字符級翻譯和詞級翻譯的優(yōu)點,在一定程5關(guān)系的命名實體的翻譯方法來解決中文-越南語機器翻譯中的未登錄詞性提出了一種融合詞根位置特征的中-越機器翻譯方法,該方法通過定語位置、狀語位置和修飾語排序信息定義排序塊,使用排序塊對譯文重新進行排序,得到越南語語法結(jié)構(gòu)表現(xiàn)更加優(yōu)異的譯文。EncoderRepresentationfromTransformers),該模型發(fā)布后再11項NLP任務上取得了SOTA的結(jié)果,該模型通過大量單語數(shù)據(jù)進行自監(jiān)督學習訓練,從大量單語語料中學習語言知識。目前,BERT預訓練語言模型在句法分析、文本分類等NLP任務中取得優(yōu)異成績,證明該語言模型的文本表征可充分表示出文本中的語言信息,這些語言信息包含在編碼后得fused算法實現(xiàn)BERT語言模型編碼輸出的隱狀態(tài)隨機融入Transformer模型編碼器和解碼器結(jié)構(gòu)中,將BERT預訓練語言模型輸出的隱狀態(tài)向量和詞嵌入層輸出隱狀態(tài)向量通過一個隨機權(quán)重相乘之后相加,以此生成包含預訓練語言模型內(nèi)語言信息和詞嵌入層語言信息的隱狀態(tài),實現(xiàn)將BERT預訓練語言模型中包含的語言信息用于神經(jīng)機器翻譯,該方法在多項公開數(shù)據(jù)集的翻譯任務上相較于Transformer模型取得了較大的提升,證明BERT預訓練語言模型作為外部知識庫融入神經(jīng)機器翻譯模型的可行性。但這種加權(quán)融合的方式在低資源中越神經(jīng)機器翻譯任務中,所帶來的性能提升有限。以上針對中越神經(jīng)機器翻譯的研究工作在一定程度上提升了中越神經(jīng)機器翻譯方法的性能,但還存在較大可提升的空間。由于雙語平行語料規(guī)模依舊稀缺,翻譯模型對文本的理解能力不足,最終表現(xiàn)結(jié)果差強人意。因此,在有限的數(shù)據(jù)規(guī)模下,設(shè)計神經(jīng)網(wǎng)絡(luò)模型充分理解文本信息尤為重要。為擴充訓練語料的規(guī)模,利用深度神經(jīng)網(wǎng)絡(luò)技術(shù)在可比語料庫中篩選出雙語平行句對,然后將預訓練語言模型分別融入編碼器和解碼器中,在編碼階段和解碼階段提升翻譯模型的文本理解能力,達到提升中越神經(jīng)機器翻譯性能的效果。61.3面臨的關(guān)鍵問題如何對解碼過程進行建模,達到提升中越機器翻譯模型性能的目的尚需深入研究。翻譯數(shù)據(jù)獲取訓練翻譯模型需要一定量的雙語平行如何對解碼過程進行建模,達到提升中越機器翻譯模型性能的目的尚需深入研究。翻譯數(shù)據(jù)獲取解碼質(zhì)量優(yōu)化問題源語言理解解碼質(zhì)量優(yōu)化問題由于數(shù)據(jù)規(guī)模不足,源語言編碼存在數(shù)據(jù)稀疏與學習不充分的問題。由于當前可獲得的中越雙語平行句對語料數(shù)量有限,難以構(gòu)建大規(guī)模平行語料庫,導致當前中越神經(jīng)機器翻譯性能不足。國內(nèi)外許多學者為提升中越神經(jīng)機器翻譯性能提出了許多優(yōu)秀的研究成果,極大推進了漢越神經(jīng)機器翻譯的發(fā)展,但相較于資源豐富的機器翻譯任務而言,中越神經(jīng)機器翻譯還存在較大的發(fā)展空間。針對當下研究工作的調(diào)研,當前中越神經(jīng)機器翻譯方法還存在著以下幾個重要問題亟待解決:(1)翻譯基礎(chǔ)數(shù)據(jù)獲取問題:訓練翻譯模型仍需要一定量的雙語平行語料,在互聯(lián)網(wǎng)中存在大量的中越雙語維基百科文本以及雙語新聞頁面,對這些數(shù)據(jù)如何進行獲取以及解析提取出可供神經(jīng)機器翻譯使用的中越雙語平行語料是研究難點,如何計算跨語言文本相似度,存在雙語語法差異、語言理解及相關(guān)事件分析等方面的難點問題,目前沒有成熟的解決方案,尚需深入開展研究;(2)源語言理解能力不足問題:小規(guī)模語料訓練神經(jīng)機器翻譯由于數(shù)據(jù)規(guī)模不足,存在數(shù)據(jù)稀疏與學習不充分的問題,神經(jīng)機器翻譯模型對源語言的理解能力不足,編碼得到的表征向量對語言信息沒有一個很好的體現(xiàn),融入預訓練語言模型作為外部知識來提升模型對源語言的理解能力是一個很好的解決思路。如何有效將預訓練語言模型融入到編碼過程中來提升中越機器翻譯模型性能尚需深入研究;(3)解碼質(zhì)量優(yōu)化問題:在當下編碼器-解碼器架構(gòu)下的神經(jīng)機器翻譯模型中,當下研究往往在編碼端添加各類約束條件以提升編碼器的語言理解能力,對于如何優(yōu)化解碼端來生成更加優(yōu)質(zhì)的譯文研究工作較少。采用推敲網(wǎng)絡(luò)這種兩段解碼器的序列生成模型架構(gòu)并在添加預訓練語言模型來指導解碼過程是一個很好的解決思路。如何對該過程進行建模,達到提升中越機器翻譯模型性能的目的尚需深入研究?;诙嘀刈⒁饬C制約束的中越平行特征融合機制基于多重注意力機制約柬的中越平行融合預訓練語言模型的中越神經(jīng)機路翻譯原型系統(tǒng)基于多重注意力機制約束的中越平行句對抽取方法雙語句對數(shù)據(jù)如圖1.2所示,本文圍繞中越雙語平行句規(guī)模的擴充、提升中越神經(jīng)機器翻譯模型源語言理解表征能力、提升中越神經(jīng)機器翻譯模型譯文生成質(zhì)量以及開發(fā)搭建中越神經(jīng)機器翻譯原型系統(tǒng)等方向開展了深入研究,具體研究內(nèi)容如下:(1)基于多重注意力機制約束的中越雙語平行句對抽取方法:由于當下還沒有大量開放且有用的中越雙語平行句對數(shù)據(jù)集用來培訓機器翻8譯模型,而網(wǎng)絡(luò)中有著大量的中文和越南語單語言數(shù)據(jù)。因此利用以上的單語言數(shù)據(jù)可以訓練出完全涵蓋單語言信息的單語預訓練言模型,同時利用預訓練語言模型中強大的語義表征能力,可以在中越雙語句對抽取任務中較為精確的測算出雙語句對相似概率,以提高中越雙語句對抽取任務效果,從而擴充出更多優(yōu)質(zhì)的機器翻譯中越雙語句對數(shù)據(jù),解決低資源翻譯數(shù)據(jù)不足的問題。(2)融合BERT與詞嵌入雙重表征的中越神經(jīng)機器翻譯方法:當下低資源的機器翻譯任務中,由于數(shù)據(jù)規(guī)模過小而對語言的理解能力不足,而預訓練語言模型經(jīng)過大量數(shù)據(jù)進行訓練,具有很強的文本表征能力,將源語言預訓練語言模型的語言表征能力融入機器翻譯模型的編碼器中,提升機器翻譯模型編碼器的編碼能力,達到提升機器翻譯模型性能的目(3)基于預訓練指導推敲生成的中越神經(jīng)機器翻譯方法:在編碼端融入外部知識能夠提升低資源機器翻譯的性能,但在解碼部分融入外部知識則相關(guān)研究工作較少,由于解碼端信息在預測訓練時未知,所以在解碼端融入相關(guān)外部知識的機器翻譯建模較為困難。而推敲網(wǎng)絡(luò)這一兩段解碼的架構(gòu)中,在最終解碼前可得知一個粗略的上下文信息,在對該粗略譯文進行推敲過程中,引入預訓練語言模型對該過程進行指導約束,提升譯文質(zhì)量,達到提升機器翻譯模型性能的目的。(4)中越神經(jīng)機器翻譯原型系統(tǒng):基于多重注意力機制約束的中越雙語平行句對抽取方法、融合BERT與詞嵌入雙重表征的中越神經(jīng)機器翻譯方法和基于預訓練指導推敲生成的中越神經(jīng)機器翻譯方法,設(shè)計并實現(xiàn)一個中越神經(jīng)機器翻譯原型系統(tǒng),該系統(tǒng)為B/S架構(gòu),其中Web前端部分基于Javascript語言Vue框架進行開發(fā),服務端采用Python語言Flask框架開發(fā)服務器,神經(jīng)機器翻譯模型基于Python語言Fairseq框架下進行訓練調(diào)整,為用戶提供在線中越神經(jīng)機器翻譯服務。本文一共有六章內(nèi)容,每一章的內(nèi)容介紹如下:9第一章:首先介紹了中越機器翻譯的研究背景及意義;然后總結(jié)了中越機器翻譯的國內(nèi)外研究現(xiàn)狀;最后介紹了當下中越機器翻譯領(lǐng)域面臨的關(guān)鍵問題、論文的研究內(nèi)容以及論文的組織結(jié)構(gòu)。第二章:首先介紹了引言和句對抽取工作相關(guān)技術(shù)部分;然后介紹了篇章級中越對齊數(shù)據(jù)的獲取方法;最后介紹了基于多重注意力機制約束的中越雙語平行句對抽取方法以及本章小節(jié)部分。第三章:首先介紹了引言部分以及之前在中越機器翻譯外部知識融入的相關(guān)研究;然后介紹了融合BERT與詞嵌入雙重表征的中越神經(jīng)機器翻譯方法,最后介紹了實驗與分析和本章小節(jié)部分。第四章:首先介紹了引言部分以及之前在解碼端進行建模研究的相關(guān)工作;然后介紹了基于預訓練指導推敲生成的中越神經(jīng)機器翻譯方法,包括特征融合、推敲網(wǎng)絡(luò)等部分;最后介紹了實驗與分析和本章小節(jié)部分。第五章:首先介紹了引言和機器翻譯系統(tǒng)架構(gòu)設(shè)計部分;然后介紹了系統(tǒng)功能實現(xiàn)部分,包括線上句對判別功能、線上翻譯功能和數(shù)據(jù)預處理等;最后介紹了本章小結(jié)部分。第六章:介紹了論文總結(jié)和工作展望部分,總結(jié)了本文的研究成果,分析了本文的不足之處,對今后的研究工作進行了展望。 第二章基于多重注意力機制約束的中越雙語平行句對抽取方法第二章基于多重注意力機制約束的中越雙語平行句對抽取方法神經(jīng)機器翻譯模型經(jīng)過訓練后,在雙語平行句對中學習到兩種語言之間的的語法及語義信息。在中越神經(jīng)機器翻譯這類低資源的翻譯任規(guī)模不足,極大限制了翻譯表現(xiàn)。中越雙語平行句對語料在互聯(lián)網(wǎng)中獲取難度較大,通過平行句對抽取模型將網(wǎng)絡(luò)爬蟲在互聯(lián)網(wǎng)中選抽取,是解決當下低資源機器翻譯任務數(shù)據(jù)不足問題的有效方法。因此,可構(gòu)建可比語料庫,再通過神經(jīng)網(wǎng)絡(luò)技術(shù)在可比語料庫中抽取可用的雙語對齊語料對訓練數(shù)據(jù)進行擴充,通過該方法能夠構(gòu)建出一定規(guī)模的高質(zhì)量中越雙語平因此,為增強中越平行句對抽取模型的性能,考慮到預訓練模型的強大表征能力且當下網(wǎng)絡(luò)中存在可用的開源中語預訓模型,將預訓練語言模型的強大語言表征能力融入到中越雙語平行句對抽取任務中可能能夠提中越雙語平行句對抽取模型性能語言模型與越南語預訓練語言模型對雙語句對編碼,使兩種語言的表征相互約束,建立句對表征間聯(lián)系,再使用自注意力機制計算提升融合后表征內(nèi)部聯(lián)系,通過此種多注意力融合針對平行句對抽取這一任務,研究者們主要聚焦于統(tǒng)計規(guī)則的方法或基于神經(jīng)網(wǎng)絡(luò)的方法對出通過使用信號激勵處理的方法對雙語句對進行分析判斷雙語句對的相似性,實現(xiàn)對雙語平行句對的篩選?;诮y(tǒng)計規(guī)則的方法主要依賴于人工設(shè)置的統(tǒng)計規(guī)則,雖然可篩選出一定的數(shù)據(jù),但最終性能表現(xiàn)較較于使用統(tǒng)計規(guī)則的方法,通過基于神經(jīng)網(wǎng)絡(luò)的方法不依賴于人工制定統(tǒng)計規(guī)則,神經(jīng)網(wǎng)絡(luò)模型能夠自主的在訓練數(shù)據(jù)中學習網(wǎng)絡(luò)模型對句對進行編碼學習,得到句對的詞嵌入表征向量,利用該表征計算在語義空間句對的相似性來對雙語句對進行篩選,獲得可用的雙語平行句對。在2017年,Gregoire等人44首次提出使用神經(jīng)網(wǎng)采用Bi-LSTM模型對句對進行編碼,得到句對在語義空間中的詞嵌入表征向量,,在英法雙語平行句對抽取任務中取得較好的效果。而Grover等人45]在2017年提出雙語詞嵌入的方法,使得詞嵌入語義空間包含兩種語言的語言信息,獲得雙語詞嵌入表征,以此計算雙語平行句對的相似度,實現(xiàn)對雙語平行句對的篩選抽取。上述方法都是基于自訓練的詞嵌入表征來計算句對的相似度,然而詞嵌入的訓練依賴于數(shù)據(jù)規(guī)模,當數(shù)據(jù)規(guī)模不表征能力存在欠缺。因此,引入BERT對文本進行表征;同時在雙語信息融合的部分,引入注意力機制,使得融合之后的雙語表征能夠自適應做出調(diào)整,提平行句對抽取任務能夠從可比語料庫中抽取出可用首先需要構(gòu)建一個包含中越雙語數(shù)據(jù)得可比模的雙語數(shù)據(jù),除此之外可利用網(wǎng)絡(luò)爬蟲技術(shù)數(shù)據(jù)爬取在互聯(lián)網(wǎng)中的中越可比篇章數(shù)據(jù),主要工作為使用Python語言官方庫Requests開模擬HTTP/HTTPSLanguage,HTML)。使用第三方BeautifulSoup庫對HTML文本進行解析,得到樹形結(jié)構(gòu)BeautifulSoup類實例,通過BeautufulSoup類中標簽選擇方法獲得到包含目標文本標簽,從該標簽中提取出目標文本,處理為JSON格式數(shù)據(jù)進夠被計算機很好的理解,任何編程語言都可將JSON文本序列化后得到該編程語言鍵值對的數(shù)據(jù)結(jié)構(gòu),例如在Python中可將標準的JSON文本轉(zhuǎn)換為字典結(jié)構(gòu),從HTML中獲取到的鍵值對結(jié)構(gòu)后再由數(shù)據(jù)處理腳本對提取出的文本進行 第二章基于多重注意力機制約束的中越雙語平行句對抽取方法該爬蟲主要針對越南《人民報》、越南《青年報》、越南快三個媒體網(wǎng)站進行爬取,以上三個網(wǎng)站均由專業(yè)人員量的中文越南語雙語版本頁面。通過分析,雙語頁面語頁面的HTML的結(jié)構(gòu)極為類似,使用Python爬蟲并行爬取雙語頁面,能夠得到雙語對應的HTML結(jié)構(gòu),由于兩種語言的網(wǎng)頁中相同內(nèi)容標簽的Class名等HTML屬性相近,通過相同的Class選擇器能夠得到對應的雙語可比數(shù)據(jù),本洗步驟后能夠得到雙語可比語料,處理后的標準數(shù)據(jù)存入Sqlite數(shù)據(jù)庫中,該數(shù)2.4基于多重注意力機制約束的中越雙語平行句對抽取方法通過交叉注意力機制與自注意力機制使得兩種語言體結(jié)構(gòu)如圖2.2所示。包含語言信息的詞嵌入向量。該模型中文編碼器部分選用谷歌發(fā)布的Evi-ben。2.4.2文本表征交叉注意力機制約束Ezh-ben=softmax(Ewi-benEzh-ben1√dzh-ber)Ezh-ben(2.1)Evi-ben=sofmax(Ezh-benEi-ben1√di-ben)Ewi分類層分類層拼接交叉注意力機制圖2.2基于多重注意力機制約束的中越雙語平行句對抽取模型結(jié)構(gòu)圖2.4.3文本表征自注意力機制約束交叉注意力之后進行拼接得到包含雙語相互約束的表征E?h,但拼接操作并不能使得兩種語言表征之間獲得聯(lián)系,因此采用自注意力機制使該拼接得到的表征建立內(nèi)部聯(lián)系得到表征向量Eh-。在自注意力機制后添加全連接前饋網(wǎng)絡(luò)層。該部分為線性網(wǎng)絡(luò)、激活函數(shù)、線性網(wǎng)絡(luò)組成,最終得到進行分類的最Ezh-vi=sofmax(Ezh-viEzh-i1√dzh-vi)Ezh-viX=FNN(Ew)X'=GLUE(X)通過表征融合部分,雙語句對信息已經(jīng)映射到同一語義空間,能夠得到包含雙語信息的表征向量,針對該表征向量做二分類任務,得到分類結(jié)果,具體計算2.5實驗結(jié)果與分析2.5.1實驗數(shù)據(jù)由于中越的開源數(shù)據(jù)集較少。我們從中越雙語新聞網(wǎng)站中收集了大量語料,在該語料數(shù)據(jù)中進行篩選,并進行人工進行標注,為增強抽取模型的魯棒性,防止模型出現(xiàn)過擬合,標注正負樣本比例為1:5,正樣本標簽為1,負樣本標簽為0,最終數(shù)據(jù)格式為三元組格式,每條數(shù)據(jù)存在中文、越南語、標簽這三種元素,最終用于訓練的數(shù)據(jù)規(guī)模為80k。為便于訓練時觀察模型收斂情況,選取1k數(shù)據(jù)作為實驗驗證集。為判斷最終模型性能,選取1k數(shù)據(jù)作為測試集。最終實驗數(shù)據(jù)規(guī)模如表2.1所示:表2.1中越平行語料規(guī)模數(shù)據(jù)類型數(shù)據(jù)量(k)112.5.2實驗設(shè)置本章方法使用單張Nvidia2080Ti顯卡進行實驗,實驗數(shù)據(jù)批次大小為32,初始學習率為2e-5,Droupout設(shè)置為0.2,隱狀態(tài)向量大小為256,輸出詞向量大小為512,當指標連續(xù)5輪無增長時停止訓練。2.5.3實驗評價標準為判斷抽取模型的性能,采用精確率(Precision)、召回率(Recall)以及F1值作為評價指標,通過測試集中的數(shù)據(jù)結(jié)果構(gòu)建混淆矩陣計算以上三個指標,通過三個指標對各個模型的性能進行評判。精確率如式所示,表示抽取標簽為1的數(shù)據(jù)N占所有是數(shù)據(jù)N中的百分比。召回率如式所示,表示真正抽取的平行句子對與數(shù)據(jù)集中所有平行句子對的比例,F(xiàn)值是精確度和召回率的調(diào)和平均值。具體如以下公式所示:2.5.4中越平行句對抽取對比實驗為驗證文章提出的抽取方法在中越數(shù)據(jù)上的有效性,進行了如下幾個方法的對比實驗:(1)SVM:基于SVM的中越平行句對抽取方法(2)BiLSTM:基于BiLSTM的中越平行句對抽取方法(3)Multi-BERT:基于多語言預訓練語言模型平行句對抽取方法(4)Ours:本章方法以上方法在實驗中均使用相同的訓練集、測試集以及驗證集,實驗結(jié)果見表2.2所示:表2.2對比實驗結(jié)果表召回率從該實驗結(jié)果可見,基于深度神經(jīng)網(wǎng)絡(luò)的平行句對抽取方法性能遠高于傳統(tǒng) 第二章基于多重注意力機制約束的中越雙語平行句對抽取方法一個進行平行句判別的語義空間進行分類判別能夠有效的判斷句對是否為平行句對,且在其他NLP任務中表現(xiàn)更優(yōu)異的深度神經(jīng)網(wǎng)絡(luò)模型在句對抽取任務中較于使用Transformer性能提升幅度并不明顯,但本章方法中使用各自語言的預為驗證本章提出方法的表征融合方式的有效(1)BiLSTM:基于BiLSTM的中越平行句對抽取方法(2)Only-BERT:基于預訓練語言模型表征拼接的平行句對抽取方法(3)Multi-BERT:基于多語言預訓練語言模型平行句對抽取方法(4)Ours:本章方法表2.3消融實驗結(jié)果表召回率從該實驗結(jié)果可見,在各個指標上均體現(xiàn)出統(tǒng)的LSTM模型,且使用多語言預訓練語言模型能夠在一定程度上消除兩種語交叉注意力機制使得兩種語言之間的表征相互進行約束自適應的找到兩種語言能夠更好的包括句對內(nèi)的語言信息。對可比語料庫中的數(shù)據(jù)進行計算,將計算結(jié)果和雙語文本共同存儲到Sqlite庫中作為后期機器翻譯模型訓練的基礎(chǔ)數(shù)據(jù),其中部分實例結(jié)果展示如表2.4中文結(jié)果中華人民共和國越南社會主義共和國Vi?tNam經(jīng)過廣泛的研究和測試,如橡膠,我意識到它太厚了,不適合在腳的底部戴著,我決定打印一個具有導電性的壓敏油墨顆粒的薄膜傳感當人們在正確的環(huán)境下工作時,群體模型比個體模型要好得多。議的創(chuàng)始成員。所以細胞是生命最基本的果。想象一下,如果這是你收到 第二章基于多重注意力機制約束的中越雙語平行句對抽取方法本章針對中越雙語平行句對規(guī)模不足的問題,提方法取得了一定性能的提升。共構(gòu)建出130k訓練集、2k驗證集以及2k測試集 第三章融合BERT與詞嵌入雙重表征的中越神經(jīng)機器翻譯方法第三章融合BERT與詞嵌入雙重表征的中越神經(jīng)機器翻譯3.1引言由于神經(jīng)機器翻譯是一種依靠數(shù)據(jù)驅(qū)動的機器翻譯方法,在雙語平行語料充足的語種間表現(xiàn)優(yōu)異,但越南語屬于低資源語言,中文等語言與越南語的雙語平行語料不足,導致中文-越南語這類低資源語言的神經(jīng)機器翻譯的性能不足,因此,如何提升中文-越南語這類低資源語言的神經(jīng)機器翻譯性能是當今的研究熱目前主流的機器翻譯方法是神經(jīng)機器翻譯,主要為編碼器-解碼器架構(gòu),編碼器將源語言序列的詞表id向量進行編碼,生成包含源語言信息的隱狀態(tài)向量表征,解碼器接收該隱狀態(tài)向量,在該向量傳遞過程中通常會使用到注意力機制(AttentionMechanism)加強解碼器對編碼器輸出隱狀態(tài)向量的理解,再將處理后的隱狀態(tài)向量解碼成目標語言序列。目前神經(jīng)機器翻譯模型主要有基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)、基于卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)以及基于Transformer的神經(jīng)機器翻譯模型。針對低資源神經(jīng)機器翻譯任務,目前主要方法有數(shù)據(jù)增強(DataAugmentation)?6-501、元學習(MetaLearning)[51-52、遷移學習(TransferLearning)[2-58以及基于樞軸的方法(Pivot-神經(jīng)機器翻譯模型依賴大量平行語料內(nèi)的語義信息對模型參數(shù)進行優(yōu)化,在雙語平行語料規(guī)模較小的情況下,神經(jīng)機器翻譯模型缺乏足夠數(shù)據(jù)進行訓練,對語言信息理解能力有限,影響神經(jīng)機器翻譯最終效果。針對這個問題,我們考慮到單語語料相對于雙語平行語料更容易獲得,如果使用BERT預訓練語言模型對大量單語數(shù)據(jù)進行訓練,將BERT在單語數(shù)據(jù)重學習到的語言信息融入低資源神經(jīng)機器翻譯模型中,提升模型對源語言表示學習能力,提高翻譯模型的性能,因此提出了融合BERT與詞嵌入雙重表征的中越神經(jīng)機器翻譯方法。該方法將BERT預訓練模型作為額外編碼器對源語言序列進行特征提取,得到輸入文本的BERT表征向量,BERT表征向量與經(jīng)過詞嵌入層得到的詞嵌入表征向量通過注意力機制自適應相融合得到一個包含詞嵌入層和預訓練語言模型內(nèi)語言信息的表征向量,輸入翻譯模型進行訓練,實現(xiàn)融合BERT與詞嵌入雙重表征的中越神經(jīng)機器翻譯方法。實驗表明,通過將源語言文本序列進行雙重表征并融合,增強模型的質(zhì)量。在中-越語言對上的翻譯實驗表明,相比基準系統(tǒng),在127k規(guī)模的中-越訓練數(shù)據(jù)中該方法獲得了1.99個BLEU值的提升,在70k規(guī)模的中-越訓練數(shù)據(jù)中該方法獲得了4.34個BLEU值的提升,證明融合BERT預訓練語言模的表征向量中,無法進行直接觀察,因此Zhu等人[6BERT語言模型編碼輸出的隱狀態(tài)隨機融入Tran構(gòu)中,將BERT預訓練語言模型輸出的隱狀態(tài)向量和詞嵌入層輸出隱狀態(tài)向量入層語言信息的隱狀態(tài),實現(xiàn)將BERT預訓練語言模型中包含的語言信息用于神經(jīng)機器翻譯,該方法在多項公開數(shù)據(jù)集的翻譯任務上相較于Transformer模型取得了較大的提升,證明BERT預訓練語言模型作為外部知識庫融入神經(jīng)機器因此,針對如何在低資源神經(jīng)機器翻譯中有效融入BERT預訓練語言模型內(nèi)語言信息方向開展研究工作,提出融合BERT與詞嵌入雙重表征的中越神經(jīng)機模型結(jié)構(gòu)更為簡單,且Zhu等人的方法依賴于預訓練的機器翻譯模型做參3.3融合BERT與詞嵌入雙重表征的中越南語神經(jīng)機器翻譯方法融合BERT與詞嵌入雙重表征的中越南語神經(jīng)機器翻譯方法,基于Transformer,為編碼器-解碼器架構(gòu)。模型對源語言序列分別進行BERT預訓練 第三章融合BERT與詞嵌入雙重表征的中越神經(jīng)機器翻譯方法種表征之間簡單的動態(tài)融合,得到包含兩部分信息的新表征向量做為編碼器的輸入,經(jīng)過編碼器內(nèi)自注意力機制模塊后,中兩種來源的信息進行深層動態(tài)融合,最后利用BERT與詞嵌入雙重表征進行神經(jīng)機器翻譯模型的訓練。該方法整體模型結(jié)構(gòu)如圖3.1所示。SelfSelf編碼器解碼器詞嵌入模塊使用Transformer模型詞嵌入部分,該部分不做額外設(shè)計,將輸入文本根據(jù)詞嵌入詞典分詞后輸入詞嵌入模塊,得到輸入文本的詞嵌入表征Eembedding。BERT是一個通過大量語料進行自監(jiān)督學習方法訓練得到的語言模型,通過大量語料學習后能夠給詞一個較好的特征表示,使用該特征表示向量參與訓練能夠?qū)崿F(xiàn)將大量語料中學習到的語言信息遷移到指定任務中。該語言模型使用的網(wǎng)絡(luò)架構(gòu)為多層Transformer結(jié)構(gòu),相較于RNN和CNN網(wǎng)絡(luò)在編碼過程中能夠基于左右兩側(cè)所有上下文信息進行表征。由于BERT預訓練語言模型的訓練需要大量的單語語料以及大量的計算資源,因此本章方法使用谷歌公開的中文BERT預訓練語言模型,該預訓練語言模型多項中文NLP任務中取得優(yōu)異表現(xiàn),證明該模型對中文序列有較強的編碼能力。將輸入文本根據(jù)BERT詞典分詞后得到輸入序列x=(x,K,xn),將輸入序列輸入到BERT預訓練模型后,在該模型的每一層都將輸出一個隱狀態(tài)向量,本章方法使用Eben-ou和詞嵌入表征Eembeding進行交叉注意力機制計算,將詞嵌入部分輸出Eembeding做為Query、Eben-ou作為Key計算注意力權(quán)重,將Ebert-ou做為Value和注意力權(quán)重相乘,使BERT預訓練模型表征受到詞嵌入表征建立起聯(lián)受到Eembeding約束后,得到新的表征的Eben-ou。Ebert-ou=Attention(Query,Ke進行自注意力機制計算進行表征加強,計算過程如式(3.5)(3.6)所示。將Eben-ou和Eembeding進行拼接后經(jīng)過線性變換維度后得到新的文本序列3.3.4編碼器模塊BERT與詞嵌入表征融合模塊得到包含Eben-ou和Eembeding信息的表征向量行一次自注意力機制計算,使得兩部分原本獨立的部分建立起聯(lián)系,得到Eber-embeding計算過程如式(3.9)(3.10)所示。融合,Ebert-embeding經(jīng)過前饋神經(jīng)網(wǎng)絡(luò)得到編碼器第一層的輸出H?,再經(jīng)過多層編碼層后最終得到編碼器最終輸出,計算過程如式(3.11)(3.12)(3.13)所示。3.3.5解碼器模塊解碼器接受編碼器輸出的隱狀態(tài)向量H作為輸入,我們嘗試了使用本章提出的表征融合方法在解碼器端將Ebert-ou和H進行動態(tài)融合的結(jié)構(gòu)設(shè)計,最終翻譯性能出現(xiàn)了下降,該結(jié)果可見于表3.5,因此本章方法在模型解碼器不做額外設(shè)3.4.1實驗數(shù)據(jù)為驗證融合BERT與詞嵌入雙重表征的中越神經(jīng)機器翻譯方法在低資源情況下有效性,運用爬蟲技術(shù)在互聯(lián)網(wǎng)收集了大量中越平行句以及通過平行句對抽取技術(shù)獲取句對數(shù)據(jù),將得到的數(shù)據(jù)進行了清洗以及Tokenize處理后構(gòu)建了中越雙語平行句對數(shù)據(jù)集作為實驗訓練、測試、驗證數(shù)據(jù),中越神經(jīng)機器翻譯實驗語料具體如表3.1所示。數(shù)據(jù)類型平行句對(k)223.4.2實驗設(shè)置訓練語言模型為Google公司發(fā)布的BERT-Base(Chinese)模型。(1)在RNNsearch實驗中,網(wǎng)絡(luò)結(jié)構(gòu)為6層編碼器以及6層解碼器結(jié)構(gòu),所使用的詞嵌入表征維度為512,隱狀態(tài)向量維度為256,dropout參數(shù)值為0.2。(2)在基于卷積神經(jīng)網(wǎng)絡(luò)的實驗中,隱狀態(tài)向量維度設(shè)置為768維。編碼器為15層卷積神經(jīng)網(wǎng)絡(luò)卷積核大小為5,解碼器為LSTM網(wǎng)絡(luò)結(jié)構(gòu)。Dropout參數(shù)值為0.1。(3)在Transformer實驗中,模型使用6層編碼器與解碼器網(wǎng)絡(luò),每層注意力頭數(shù)為4,每層單元數(shù)量為512,批次大小采用動態(tài)調(diào)整機制,序列最大長度設(shè)置為4096,dropout值為0.3,優(yōu)化算法為Adam算法,超參數(shù)betal為0.9,beta2為0.98。(4)在BERT-fused實驗中,在Transformer實驗中,模型使用6解碼器網(wǎng)絡(luò),每層注意力頭數(shù)為4,每層單元數(shù)量為512,批次大小采用動態(tài)調(diào)整機制,序列最大長度設(shè)置為4096,dropout值為0.3,BERT表征維度為768,優(yōu)化算法為Adam算法,超參數(shù)betal為0.9,beta2為0.98。。(5)在本章方法實驗中使用參數(shù)與BERT-fused參數(shù)一致。3.4.3評價標準在機器翻譯中,我們對翻譯結(jié)果通過特有的評價指標我們對BLEU進行簡單說明。語言翻譯成另外一種語言的質(zhì)量的分數(shù)。如果翻譯結(jié)果與人工翻譯結(jié)果相近,則BLEU值就會高。衡量這種接近的程度稱為精確度(Precision)。首先通過翻譯結(jié)果和參考譯文的n元語法匹配的計算其個數(shù)。計算如公式(3.14)所示:然后對精確度進行計算如公式(3.15)所示:其中C表示翻譯結(jié)果,Count(n-gram)表示翻譯系統(tǒng)譯文中n-gram出現(xiàn)的總次數(shù)。同時需要長度懲罰因子(brevitypenaltyfactor)對句長控制如公式其中c表示得到的翻譯結(jié)果的長度,r表示與之對應的參考譯文有效長度。最終的BLEU值計算公式如公式(3.17)所示:3.4.4中越神經(jīng)機器翻譯對比實驗為驗證融合BERT與詞嵌入雙重表征的中越神經(jīng)機器翻譯的有效性,我們在相同訓練集及測試集數(shù)據(jù)下,進行如下5個中越神經(jīng)機器翻譯方法在翻譯性能上的比較實驗:(1)RNNSearch:基于循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的神經(jīng)機器翻譯方法(2)CNN:基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的神經(jīng)機器翻譯方法(3)Transformer:基于Transformer網(wǎng)絡(luò)結(jié)構(gòu)的神經(jīng)機器翻譯方法(4)BERT-fused:在Transformer編碼器以及解碼器融入BERT的神經(jīng)機器翻譯方法(5)Ours:融合BERT與詞嵌入雙重表征的神經(jīng)機器翻譯方法 實驗結(jié)果見表3.2。表3.2中越神經(jīng)機器翻譯對比實驗結(jié)果從表3.2實驗結(jié)果中可見,本章提出的方法將源語言序列進行BERT與詞嵌入雙重表征融合后相較于Transformer模型在中越數(shù)據(jù)上獲得了1.98個BLEU方法相較于BERT-fused方法有在中越數(shù)據(jù)集上獲得了1.26個BLEU值的提升,說明本章方法在低資源的中越神經(jīng)機器翻譯任務中相較于BERT-fused方法能夠更加有效的利用到BERT預訓練語言模3.4.5不同數(shù)據(jù)量對比實驗為驗證本章方法在不同數(shù)據(jù)量低資源神經(jīng)機器翻譯的效果,我們設(shè)計了3組不同數(shù)據(jù)量下ours方法相對于Transformer方法的BLEU值提升幅度的對比實(1)127.4k中越數(shù)據(jù)作為訓練數(shù)據(jù),對比兩種方法間的BLEU值變化幅度(2)隨機抽取100k中越數(shù)據(jù)作為訓練數(shù)據(jù),對比兩種方法BLEU值變化(3)隨機抽取70k中越數(shù)據(jù)作為訓練數(shù)據(jù),對比兩種方法BLEU值變化訓練語言模型,實驗結(jié)果見表3.3。表3.3中越不同數(shù)據(jù)量對比實驗結(jié)果中越平行句對提升幅度從表3.3實驗結(jié)果中可見,在70k、100k、127.4k中越數(shù)據(jù)實驗中,本章方 第三章融合BERT與詞嵌入雙重表征的中越神經(jīng)機器翻譯方法法相對于Transformer的BLEU值提升幅度分別為4.34、2.12、1.99,呈現(xiàn)逐步下降趨勢。該變化趨勢說明本章方法相對于Transformer模型在BLEU值上的提升隨著訓練數(shù)據(jù)的增大提升幅度不斷下降。證明本章方法在訓練數(shù)據(jù)越少時BERT預訓練語言模型對神經(jīng)機器翻譯模型為探究在使用本章提出的表征融合方式在編碼器中引入預訓練語言模型對翻譯模型的影響,我們設(shè)計了以下3組消融實驗:(1)僅融合BERT與詞嵌入雙重表征做為編碼器第一層的輸入(2)在編碼器前三層的輸入中融入BERT(3)在編碼器全部層的輸入中融入BERT三組實驗中使用相同的127.4k中越數(shù)據(jù)做為訓練集,使用的驗證集、測試集、模型超參數(shù)以及中文BERT預訓練語言模型相同,實驗結(jié)果見表3.4。有著較好的補充能力,說明本章提出的表征融合方法在Transformer編為探究使用本章方法在解碼階段融入預訓練語言模型信息對翻譯模型性能(1)BERT僅與編碼器輸出隱狀態(tài)向量融合做為解碼器輸入(2)BERT僅與詞嵌入融合做為編碼器輸入輸出的隱狀態(tài)向量融合做為解碼器輸入三組實驗中使用相同的127.4k中越數(shù)據(jù)做為訓練集,使用的驗證集、測試集、模型超參數(shù)以及中文BERT預訓練語言模型相同,實驗結(jié)果見表3.5。表3.5解碼階段融入預訓練語言模型消融實驗結(jié)果從表3.5實驗結(jié)果中可見,使用本章方法在解碼階段融入BERT對神經(jīng)機器翻譯模型性能造成了負影響。僅在解碼階段融入BERT,導致神經(jīng)機器翻譯性能低于基準模型Transformer,在編碼階段和解碼階段同時融入BERT表現(xiàn)也低于僅在編碼階段融入BERT,說明在解碼階段使用本章提出的表征融合方法融入3.4.8英越神經(jīng)機器翻譯對比實驗據(jù)集上進行了實驗,該數(shù)據(jù)集數(shù)據(jù)規(guī)模如表3.6所示。數(shù)據(jù)類型平行句對(k)方法的對比實驗,實驗結(jié)果見表3.7。從表3.7實驗結(jié)果中可見,本章提出的融合BERT與詞嵌入雙重表征的中越神經(jīng)機器翻譯方法相較于Transformer模型在英越數(shù)據(jù)上獲得了1.56個BLEU值的性能提升,相較于BERT-fused方法獲得了0.41個BLEU值的提升,說明該 第三章融合BERT與詞嵌入雙重表征的中越神經(jīng)機器翻譯方法方法不僅適用于中越神經(jīng)機器翻譯,在其他低資源神經(jīng)機器翻譯任務中使用源語言的預訓練語言模型和詞嵌入進行雙重表征能夠提升神經(jīng)機器翻譯模型性能。本章提出的中越神經(jīng)機器翻譯翻譯模型在中越翻譯任務中實例結(jié)果展示如表3.8所示:中文越南文中華人民共和國n??cc?ngh越南社會主義共和國越南境內(nèi)在遠古時代已有人類活動的痕跡。西、云南接壤,中越陸地邊界線長1347公里;西與老撾、柬埔寨交界;東和東南瀕臨南中國海。陸地面積32.9萬平方公里。越南屬東7時區(qū)。首都河內(nèi)時間比北京時間晚1個小時。越南國旗旗地為紅色,旗中心為一枚五角金星。紅色象征革命和勝利,五角金星象征越南共產(chǎn)黨對國家的領(lǐng)導,五星的五個角分別代表工人、農(nóng)民、士兵、知識分子和青年。越南民間把蓮花作為國花,以它作為力量、吉祥、平安、光明的象征,還把蓮花比喻英雄和神佛。總之,一切美好的越南國體為馬克思列寧主義社會主義共和制人民共和國。越南是發(fā)展中國家,1986年開始實行革練模型表征與詞嵌入表征的自適應動態(tài)融合,能夠有效將BERT內(nèi)語言信息融入神經(jīng)機器翻譯模型,有效提升了中文-越南語神 第四章基于預訓練指導推敲生成的中越神經(jīng)機器翻譯方法中證明能夠有效提升神經(jīng)機器翻譯性能。由于源語言作為模型的輸入是已知的,能夠?qū)υ凑Z言進行分析得到語言信息,將該語言信息加入神經(jīng)機器翻譯模型中,步驟,設(shè)計第二個解碼器,利用其對第一個生成器中生成的序列進行推敲打磨,該思路方法,在基于Transformer模型的神經(jīng)機器翻譯模型中設(shè)計添加推敲網(wǎng)絡(luò)2014年Sutskever等人提出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的機器翻譯模型,使得編碼器-解碼器這一架構(gòu)廣泛應用于序列生成任務中,該架構(gòu)在解碼部分,依的編碼器-解碼器架構(gòu)模型在生成的時候是不符合人類行為習慣的,為讓序列生成過程更加貼近人類行為,在2017年提出了推敲網(wǎng)絡(luò),用于序列生成任務,推2019年,Li等人[63將推敲網(wǎng)絡(luò)應用于基于文檔的對話生成這一任務中,利用利用推敲網(wǎng)絡(luò)兩段解碼結(jié)構(gòu),在第二段解碼部分姜文檔結(jié)構(gòu)信息融入模型,實驗證明在第二段解碼部分融入外部信息知識能夠提升模型性能??紤]到在人類閱讀翻譯過程中,存在結(jié)合上下文進行打磨這一過程,但僅僅使用兩段解碼并不能完全模擬實現(xiàn)該過程,人類閱讀翻譯過程中,存在先驗知識的指導,當結(jié)合上下文理解猜測未知詞的意思時往往是結(jié)合過往學習的語言知識,如果先驗知識不充分時,也難以正確理解猜測出未知詞的意思,使得打磨過程出現(xiàn)錯誤。因此提出利用目標語言預訓練語言模型內(nèi)的語言知識作為外部先驗知識對推敲過程進行指導。在中-越語言對上的翻譯實驗表明,相比基準系統(tǒng),在100k規(guī)模的中一越訓練數(shù)據(jù)中該方法獲得了0.87個BLEU值的提升,在70k規(guī)模的中一越訓練數(shù)據(jù)中該方法獲得了1.13個BLEU值的提升,證明利用推敲網(wǎng)絡(luò)將目標語言預訓練語言模型作為先驗知識融入神經(jīng)機器翻譯模型能夠提升翻譯性推敲網(wǎng)絡(luò)是Xia等人于2017年提出的一種序列生成任務模型,基于Sutskever等人提出的編碼器-解碼器架構(gòu),目的是模擬人類閱讀翻譯及書寫草稿后優(yōu)化行為來設(shè)計深度神經(jīng)網(wǎng)絡(luò)模型來完成序列生成這一任務。推敲網(wǎng)絡(luò)在傳統(tǒng)編碼器-解碼器架構(gòu)上添加第二段解碼器,在第一段解碼后可得到較為粗糙的譯文,引入第二段解碼器針對前一次解碼的粗糙譯文結(jié)合源語言編碼信息對譯文再次進行解碼,得到更為流程的高質(zhì)量譯文,其架構(gòu)如圖4.1所示。Encoder 第四章基于預訓練指導推敲生成的中越神經(jīng)機器翻譯方法推敲網(wǎng)絡(luò)基于人類的感知行為,但人類的感知行為二段解碼過程進行指導,當下序列生成任務的主流模該方法整體模型結(jié)構(gòu)如圖4.2所示。輸出輸出dVi-Embeddingd圖4.2基于預訓練指導推敲生成的中越神經(jīng)機器翻譯方法模型結(jié)構(gòu)圖4.4.1編碼器本章提出的基于預訓練指導推敲生成的中越神經(jīng)機器翻譯方法主要工作為在解碼端開展設(shè)計,編碼段使用Transformer模型編碼器,該編碼器為六層結(jié)構(gòu),每一層由多頭自注意力(MultiHead)機制模塊、DropOut模塊、層歸一化模塊、前饋網(wǎng)絡(luò)組成,輸入為源語言序列的詞嵌入表征E,輸出文本序列隱狀態(tài)表征向量H,該表征向量作為第一段解碼器和第二段解碼4.4.2第一段解碼器第一段解碼器僅需生成粗略的譯文,采用標準的自過編碼器編碼后的隱狀態(tài)表征向量H,輸出目標語言在詞典中的概率Pfirs,通過該概率可獲得粗略的譯文文本sfins。4.4.3第二段解碼器將第一段解碼器生成的粗略譯文sis輸入預訓練語言模型進行編碼得到表征量E1e,使用交叉注意力機制使得Ere受到Einr-ber的約束得到表征向量4.4.4損失計算4.5.1實驗數(shù)據(jù)為驗證本章提出的基于預訓練推敲指導生成的中越神經(jīng)機器翻譯方法有效選取了以下規(guī)模的數(shù)據(jù)進行實驗,中越神經(jīng)機器翻譯實驗數(shù)據(jù)集如表4.1所示。 第四章基于預訓練指導推敲生成的中越神經(jīng)機器翻譯方法數(shù)據(jù)類型平行句對(k)224.5.2實驗設(shè)置置為4096,dropout值為0.3,優(yōu)化算法為Adam算法,超參數(shù)betal為0.9,beta2為0.98。(4)基于Transformer的推敲網(wǎng)絡(luò)實驗中,模型參數(shù)與Transformer的方法一致。4.5.3評價標準4.5.4中越神經(jīng)機器翻譯對比實驗(3)Ours:基于預訓練指導推敲生成的中越神經(jīng)機器翻譯方法以上方法在實驗中使用相同的訓練集、測試集以及驗證集,實驗結(jié)果見表4.2。從表4.2實驗結(jié)果中可見,推敲網(wǎng)絡(luò)相對于基線模型能夠?qū)Ψg結(jié)果做出優(yōu)于Transformer模型在中越數(shù)據(jù)上獲得了0.87個BLEU值的性能提升,說明使為探究預訓練語言模型在推敲網(wǎng)絡(luò)的推敲過計了以下3組消融實驗:(1)RNN-Deliberation:基于RNN的推敲網(wǎng)絡(luò)神(2)Transformer-Deliberation:基于Transformer的推敲網(wǎng)絡(luò)神經(jīng)機器翻譯方法(3)Ours:基于預訓練指導推敲生成的中越神經(jīng)機器翻譯方法模型超參數(shù),實驗結(jié)果見表4.3。從該實驗結(jié)果中可見,引入目標語言預訓練0.36個BLEU值的提升,表明在推敲網(wǎng)絡(luò)中引入目標語言預訓練語言模型作為為驗證本張方法在其它語種翻譯任務上有效性,我們還在IWSLT15英越翻譯數(shù)據(jù)集上進行了實驗,從該數(shù)據(jù)集中抽取了100K數(shù)據(jù)作為實驗數(shù)據(jù),該數(shù)據(jù)集數(shù)據(jù)規(guī)模如表4.4所示。 數(shù)據(jù)類型平行句對(k)Deliberation方法和Ours方法的對比實驗,實驗結(jié)果見表4.5。表4.5英越神經(jīng)機器翻譯對比實驗結(jié)果從表4.5實驗結(jié)果中可見,本章提出的神經(jīng)機器翻譯方法相較于Transformer模型在英越數(shù)據(jù)上獲得了1.28個BLEU值的性能提升,相較于Transformer-Deliberation方法獲得了0.52個BLEU值的提升,說明該方法不僅適用于中越神經(jīng)機器翻譯,在其他語言方向神經(jīng)機器翻譯任務中利用推敲網(wǎng)絡(luò)引入目標語言預訓練語言模型同樣能夠提升神經(jīng)機器翻譯模型性能。本章提出的中越神經(jīng)機器翻譯翻譯模型在中越翻譯任務中實例結(jié)果展示如表4.6所示:中文越南文越南社會主義共和國和主要民族語言。地之前一直是官方文字。本章針對中越機器翻譯中譯文質(zhì)量不足的問題,使得模型參數(shù)相較于Transformer有了成倍的增長,計算資源消耗較大,未來的 第五章融合預訓練語言模型的中越神經(jīng)機器翻譯原型系統(tǒng)中越機器翻譯能夠在一定程度上消除中越兩國間語言不同的問題,極大推動中越兩國在政經(jīng)、文化各方向的深度交流合作。尤其在文化輸出方面,包括越南在內(nèi)的東南亞各國人民對于中國的文學、影視及音樂等抱有極大興趣,但中文是一門歷史悠久的語言,東南亞各國人民學習中文成本過高,這使得中文文化輸出受到限制,但機器翻譯系統(tǒng)能夠?qū)崿F(xiàn)自動將中文翻譯至越南文,譯文經(jīng)過簡單的調(diào)整后便可讓受眾們流暢的理解,所以搭建一個有效的中越神經(jīng)機器翻譯系統(tǒng)具有極高的實用價值。本章對之前的工作進行整合,構(gòu)建了融合預訓練語言模型的中越機器翻譯模型,該系統(tǒng)主要包含平行句對判別及中越機器翻譯這兩大功能。平行句對判別功能主要實現(xiàn)收集雙語平行中越句對,用戶根據(jù)系統(tǒng)給出的判別結(jié)果加上自身判斷理解決定是否將該句對納入訓練庫,給后期機器翻譯模型訓練提供基礎(chǔ)語料數(shù)據(jù)。中越機器翻譯功能則根據(jù)收集到的雙語平行句對進行訓練,模型收斂后保存模型參數(shù),最終將模型參數(shù)部署到線上服務中,系統(tǒng)提供HTTP接口,在模型參數(shù)部署后,用戶根據(jù)接口規(guī)范提交相應參數(shù),系統(tǒng)即可對參數(shù)中文本進行翻譯,返回翻譯接口。融合預訓練語言模型的中越神經(jīng)機器翻譯原型系統(tǒng)整體架構(gòu)如圖5.1所示。融合預訓練語言模型的中越神經(jīng)機器翻譯原型系統(tǒng)融合預訓練語言模型的中越神經(jīng)機器翻譯原型系統(tǒng)融合預訓練語言模型的中越神經(jīng)機器翻譯原型系統(tǒng)主要由雙語句對平行判別模塊、雙語句對存儲模塊、數(shù)據(jù)預處理模塊、翻譯模型訓練模塊、線上翻譯服5.3.1基礎(chǔ)開源工具針對機器翻譯這一任務,有許多學者和工程師開發(fā)訓練語言模型的中越神經(jīng)機器翻譯原型系統(tǒng)主要涉及到的基礎(chǔ)開源工具如下所(1)Pytorch框架,該框架由FaceBook公司開發(fā),基于Python

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論