版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
機(jī)器翻譯自然語(yǔ)言處理:理論與實(shí)踐機(jī)器翻譯主要方法機(jī)器翻譯質(zhì)量評(píng)價(jià)機(jī)器翻譯質(zhì)量估計(jì)機(jī)器翻譯概況參考文獻(xiàn)與思考題目錄機(jī)器翻譯開源工具與技術(shù)評(píng)測(cè)機(jī)器翻譯概況——概念機(jī)器翻譯(MachineTranslation,MT)是利用計(jì)算機(jī)將一種自然語(yǔ)言(源語(yǔ)言,SourceLanguage)自動(dòng)翻譯到另一種自然語(yǔ)言(目標(biāo)語(yǔ)言,TargetLanguage)的技術(shù),是自然語(yǔ)言處理與人工智能領(lǐng)域的重要研究方向之一。機(jī)器翻譯通常包括語(yǔ)音翻譯以及文本翻譯。機(jī)器翻譯概況——發(fā)展歷史開創(chuàng)期機(jī)器翻譯思想始于上世紀(jì)三四十年代。20世紀(jì)30年代,利用計(jì)算模型進(jìn)行自動(dòng)翻譯的思想開始出現(xiàn)萌芽。1946年,世界上第一臺(tái)通用電子數(shù)字計(jì)算機(jī)ENIAC研制成功。美國(guó)科學(xué)家瓦倫·韋弗(WarrenWeaver)于1949年發(fā)表了題為《翻譯》的備忘錄,正式提出了機(jī)器翻譯的思想,韋弗也被稱為“機(jī)器翻譯之父”。1954年,美國(guó)Georgetown大學(xué)在IBM協(xié)助下,實(shí)現(xiàn)了世界上第一個(gè)俄-英MT系統(tǒng),拉開了全球機(jī)器翻譯的大幕。
機(jī)器翻譯概況——發(fā)展歷史受挫期1966年,美國(guó)語(yǔ)言自動(dòng)處理咨詢委員會(huì)(ALPAC)發(fā)布了題為《語(yǔ)言與機(jī)器》的ALPAC報(bào)告。報(bào)告對(duì)機(jī)器翻譯采取全面否定的態(tài)度。此后,機(jī)器翻譯研究受到了嚴(yán)重的打擊。
機(jī)器翻譯概況——發(fā)展歷史復(fù)蘇期20世紀(jì)70年代中后期開始,數(shù)據(jù)驅(qū)動(dòng)和統(tǒng)計(jì)方法的發(fā)展為機(jī)器翻譯研究提供了新的思路,機(jī)器翻譯開始從受挫中復(fù)蘇。20世紀(jì)80年代后,基于統(tǒng)計(jì)方法的機(jī)器翻譯發(fā)展迅速。以Google翻譯等為代表的一系列商用產(chǎn)品開始出現(xiàn)。繁榮期2013年以來(lái),神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯開始出現(xiàn)并成為主流,翻譯技術(shù)飛速發(fā)展,翻譯產(chǎn)品和服務(wù)不斷增加,并與不同應(yīng)用領(lǐng)域和場(chǎng)景深度結(jié)合。機(jī)器翻譯主要方法機(jī)器翻譯質(zhì)量評(píng)價(jià)機(jī)器翻譯質(zhì)量估計(jì)機(jī)器翻譯概況參考文獻(xiàn)與思考題目錄機(jī)器翻譯開源工具與技術(shù)評(píng)測(cè)機(jī)器翻譯主要方法基于規(guī)則(rule-based)的方法主要依靠語(yǔ)言學(xué)家等根據(jù)語(yǔ)言現(xiàn)象和語(yǔ)言特點(diǎn),人工總結(jié)和編寫機(jī)器可讀的形式化規(guī)則和雙語(yǔ)詞典,在規(guī)則的干預(yù)下,實(shí)現(xiàn)機(jī)器翻譯。主要包括分析、轉(zhuǎn)換和生成三個(gè)主要階段。
基于規(guī)則的專利機(jī)器翻譯示例分析:(0)[一種]+(f){(1)[的]}+(2)[NP]LC_TREE(NP,
0,2)轉(zhuǎn)換:
(0)[一種]+(f){(1)[的]}+(2)[方法]|[裝置](0)[a]
+
(1)[method]|[equipment]+for+…(0)[當(dāng)]+…+(1)[時(shí)]&END%(0)[when]+DELETE(1)[時(shí)]+…生成雙語(yǔ)翻譯詞典:本發(fā)明-->
this
invention;提供-->
provide;
……本發(fā)明提供了[一種用于專利交易的[推薦方法和裝置]],當(dāng)所述專利權(quán)人信息滿足第一預(yù)定條件時(shí),將所述第一專利發(fā)送給第一企業(yè)。Thisinventionprovides[arecommendationmethodandequipment
forpatenttransactions],andwhenthepatenteeinformationmeetsafirstpredeterminedcondition,thefirstpatentissenttoafirstenterprise.規(guī)則翻譯方法的特點(diǎn)優(yōu)勢(shì)特定領(lǐng)域針對(duì)性強(qiáng)人工制定規(guī)則,保證較好的翻譯結(jié)構(gòu)較準(zhǔn)確的翻譯結(jié)果不足領(lǐng)域遷移性差人工工作量大,主觀性強(qiáng),系統(tǒng)開發(fā)周期長(zhǎng)規(guī)則沖突問(wèn)題,形成惡性循環(huán)機(jī)器翻譯主要方法語(yǔ)言模型翻譯模型SMT翻譯框架解碼器我周日在圖書館看書翻譯模型P(S|T)語(yǔ)言模型P(T)我去圖書館。I
went
to
the
library.會(huì)議將在周日舉行.
The
meeting
will
be
held
on
Sunday.他在書店看書。He
reads
books
in
the
book
store.……我I
0.5我me
0.2看書read
book
0.9在周日on
Sunday
0.8……I
work
in
BIT.I
went
to
the
library.The
meeting
will
be
held
on
Sunday.He
reads
books
in
the
book
store.……read
a
->book
0.5read
a
->
TV
0.02……單語(yǔ)目標(biāo)語(yǔ)語(yǔ)料I
read
books
in
the
library
on
Sunday.argmax
P(T)P(S|T)SMT發(fā)展SMT特點(diǎn)優(yōu)勢(shì)翻譯速度快,人工干預(yù)少,更省時(shí)省力適用于不同語(yǔ)言對(duì)翻譯質(zhì)量有很大改善不足高度依賴雙語(yǔ)平行語(yǔ)料的質(zhì)量和規(guī)模對(duì)語(yǔ)言的分析不夠深入一些特殊問(wèn)題難以解決機(jī)器翻譯主要方法基于神經(jīng)網(wǎng)絡(luò)(Neural-based
)的方法2013年開始出現(xiàn),迅速成為了當(dāng)前的主流方法。NMT的主要思想是,首先使用神經(jīng)網(wǎng)絡(luò)模型通過(guò)分布式表示(DistributedRepresentation)的方式將源語(yǔ)言語(yǔ)句轉(zhuǎn)換成低維的實(shí)數(shù)向量,映射到向量空間中,然后再利用神經(jīng)網(wǎng)絡(luò)模型將實(shí)數(shù)向量轉(zhuǎn)換為目標(biāo)語(yǔ)言語(yǔ)句。北京是中國(guó)的首都實(shí)數(shù)向量0.020.140.330.56……BeijingistheCapitalofChina神經(jīng)網(wǎng)絡(luò)編碼器(encoder)神經(jīng)網(wǎng)絡(luò)解碼器(decoder)NMT方法框架的發(fā)展端到端(end-to-end)框架采用編碼器-解碼器實(shí)現(xiàn)。容易出現(xiàn)“梯度消失”和“梯度爆炸”
注意力(Attention)機(jī)制實(shí)時(shí)計(jì)算動(dòng)態(tài)變化的上下文向量發(fā)展出多種注意力變體模型
循環(huán)神經(jīng)網(wǎng)絡(luò)框架LSTM任意長(zhǎng)度的句子都被編碼為固定維度向量翻譯性能有限Transformer框架多頭注意力機(jī)制顯性位置編碼信息
目前的主流方法和最先進(jìn)技術(shù)NMT特點(diǎn)優(yōu)勢(shì)目前的主流方法領(lǐng)域遷移性強(qiáng)在特定領(lǐng)域的譯文句法可讀性和翻譯質(zhì)量更好不足嚴(yán)重依賴數(shù)據(jù)資源和算力資源可解釋性差模型巨大訓(xùn)練耗時(shí)低資源語(yǔ)言翻譯仍不理想機(jī)器翻譯主要方法機(jī)器翻譯質(zhì)量評(píng)價(jià)機(jī)器翻譯質(zhì)量估計(jì)機(jī)器翻譯概況參考文獻(xiàn)與思考題目錄機(jī)器翻譯開源工具與技術(shù)評(píng)測(cè)機(jī)器翻譯自動(dòng)評(píng)價(jià)BLEU(BilingualEvaluationUnderstudy
)使用最廣泛、最具代表性的自動(dòng)評(píng)價(jià)方式之一比較系統(tǒng)譯文和參考譯文中的任意n--gram字符串的相似程度,判斷譯文的質(zhì)量。相似程度越高,譯文質(zhì)量就越好。指標(biāo)范圍為0-1,常采用百分比形式表示,越接近1,說(shuō)明譯文質(zhì)量越好。
機(jī)器翻譯主要方法機(jī)器翻譯質(zhì)量評(píng)價(jià)機(jī)器翻譯質(zhì)量估計(jì)機(jī)器翻譯概況參考文獻(xiàn)與思考題目錄機(jī)器翻譯開源工具與技術(shù)評(píng)測(cè)機(jī)器翻譯質(zhì)量估計(jì)質(zhì)量估計(jì)(Quality
Estimation,QE)不同于BLEU,QE無(wú)需參考譯文可從詞語(yǔ)、句子和文檔等不同級(jí)別對(duì)譯文的翻譯質(zhì)量進(jìn)行估計(jì)多用于譯后編輯等重要場(chǎng)景,作為BLEU評(píng)價(jià)的補(bǔ)充機(jī)器翻譯主要方法機(jī)器翻譯質(zhì)量評(píng)價(jià)機(jī)器翻譯質(zhì)量估計(jì)機(jī)器翻譯概況參考文獻(xiàn)與思考題目錄機(jī)器翻譯開源工具與技術(shù)評(píng)測(cè)機(jī)器翻譯開源工具統(tǒng)計(jì)機(jī)器翻譯MosesJoshuaNiuTrans-SMT神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯Tensor2Tensor
Fairseq
NematusOpenNMTTHUMTNiuTrans-NMT機(jī)器翻譯技術(shù)評(píng)測(cè)WMT
(ConferenceonMachineTranslation)國(guó)際公認(rèn)的頂級(jí)機(jī)器翻譯比賽,每年舉辦IWSLT(InternationalConferenceonSpokenLanguageTranslation
)口語(yǔ)相關(guān)的機(jī)器翻譯任務(wù),每年舉辦WAT(WorkshoponAsianTranslation)重點(diǎn)關(guān)注亞洲語(yǔ)言翻譯,每年舉辦CCMT(ChinaConferenceonMachineTranslation)全國(guó)機(jī)器翻譯大會(huì),每?jī)赡昱e辦參考文獻(xiàn)(部分)KalchbrennerN,BlunsomP.Recurrentcontinuoustranslationmodels[C]//Proceedingsofthe2013ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.2013:1700-1709.SutskeverI,VinyalsO,LeQV.Sequencetosequencelearningwithneuralnetworks[C]//ProceedingsofAdvancesinNeuralInformationProcessingSystems.2014:3104-3112.BahdanauD,ChoK,BengioY.Neuralmachinetranslationbyjointlylearningtoalignandtranslate[EB/OL].[2020-08-05].arXivpreprintarXiv:1409.0473.VaswaniA,ShazeerN,ParmarN,etal.Attentionisallyouneed[C]//ProceedingsofAdvancesinNeuralInformationProcessingSystems.2017:5998-6008.KishorePapineni,SalimRoukos,ToddWard,andWei-JingZhu.BLEU:aMethodforAutomaticEvaluationofMachineTranslation[C]//Proceedingsofthe40thAnnualMeetingoftheAssociationforComputationalLinguistics(ACL),311-318.MattPost.ACallforClarityinReportingBLEUScores[C]//ProceedingsoftheThirdConferenceonMachineTranslation(WMT),2018,186–191.Tillmann,C.,S.Vogel,H.Ney,H.Sawaf,andA.Zubiaga.AcceleratedDPbasedSearchforStatisticalTranslation[C]//Proceedingsofthe5thEuropeanConferenceonSpeechCommunicationandTechnology,1997.MatthewSnover,BonnieDorr,RichardSchwartz,LinneaMicciulla,andJohnMakhoul.AStudyofTranslationEditRatewithTargetedHumanAnnotation[C]//Proceedingsofthe
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中學(xué)教學(xué)質(zhì)量監(jiān)控制度
- 養(yǎng)老院入住老人醫(yī)療保健制度
- 紀(jì)法知識(shí)講解課件
- 企業(yè)內(nèi)部控制與合規(guī)制度
- 2026年及未來(lái)5年市場(chǎng)數(shù)據(jù)中國(guó)澳洲龍蝦行業(yè)發(fā)展全景監(jiān)測(cè)及投資方向研究報(bào)告
- 交通標(biāo)志標(biāo)線設(shè)置標(biāo)準(zhǔn)制度
- 2026湖南長(zhǎng)沙市一中株洲實(shí)驗(yàn)學(xué)校公開招聘編外合同制教師備考題庫(kù)附答案
- 2026福建兆佳貿(mào)易有限公司招聘9人備考題庫(kù)附答案
- 2026福建省面向復(fù)旦大學(xué)選調(diào)生選拔工作參考題庫(kù)附答案
- 2026福建龍巖市連城縣招聘緊缺學(xué)科中學(xué)教師90人備考題庫(kù)附答案
- 貨車司機(jī)外包合同協(xié)議
- 酒店店助年終總結(jié)
- 2023民用建筑鋼結(jié)構(gòu)檢測(cè)技術(shù)規(guī)程
- 游戲推廣合作協(xié)議書范本
- 江蘇省淮安市2024-2025學(xué)年七年級(jí)上學(xué)期期末地理試卷(含答案)
- 導(dǎo)管水密試驗(yàn)流程
- 房地產(chǎn)企業(yè)分紅權(quán)激勵(lì)方案
- 車輛維修安全培訓(xùn)
- 2025版國(guó)家開放大學(xué)法學(xué)本科《知識(shí)產(chǎn)權(quán)法》期末紙質(zhì)考試總題庫(kù)
- 《保障農(nóng)民工工資支付條例》五項(xiàng)制度特別解讀
- 高校校園超市運(yùn)營(yíng)管理方案
評(píng)論
0/150
提交評(píng)論