版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
|機(jī)器翻譯在跨境電商的應(yīng)用與研究目錄CONTENT01阿里翻譯技術(shù)平臺概覽0203翻譯在跨境電商中的應(yīng)用最新技術(shù)探索||阿里翻譯技術(shù)平臺概覽01阿里翻譯技術(shù)平臺概覽|5阿里翻譯技術(shù)平臺概覽論文&專利???發(fā)表60+
CCF
A/B類會議/期刊論文100+項專利ACL2022
Outstanding
Paper
Award國際評測?
WMT
21國際頂級機(jī)器翻譯評測?
Quality
Estimation
Task
9個語向第?
Metrics
Task
5個語向第一?
術(shù)語翻譯任務(wù)
英中第一?
2021年CommonGen文本生成大賽5月登頂LeaderBoard?
WMT
18國際頂級機(jī)器翻譯評測?
翻譯任務(wù)
5語向第一獎項?
工信部新一代人工智能重點(diǎn)任務(wù)揭榜計劃、第一期人工智能產(chǎn)業(yè)創(chuàng)新“多語言智能翻譯平臺”揭榜優(yōu)勝單位(僅3家)?
“面向全球電子商務(wù)的多語言處理技術(shù)與平臺”獲得浙江省科學(xué)技術(shù)進(jìn)步二等獎|6|翻譯在跨境電商中的應(yīng)用02翻譯在跨境電商中的應(yīng)用-商品內(nèi)容展示英語版俄語版阿語版標(biāo)題單位UI框架|8翻譯在跨境電商中的應(yīng)用-商品內(nèi)容展示英語版俄語版阿語版尺碼詳情描述|9翻譯在跨境電商中的應(yīng)用-商品內(nèi)容展示英語版俄語版阿語版評論|10翻譯在跨境電商中的應(yīng)用-商品內(nèi)容展示英語版俄語版阿語版問大家|11翻譯在跨境電商中的應(yīng)用-更多的跨語言場景買賣家溝通商品搜索|12翻譯在跨境電商中的應(yīng)用-多模態(tài)場景圖片翻譯|13翻譯在跨境電商中的應(yīng)用-多模態(tài)場景直播/視頻翻譯|14|最新技術(shù)探索03最新技術(shù)探索模型改進(jìn)連續(xù)語義增強(qiáng)(ICLR21、ACL22)UniTE(ACL22)質(zhì)量評估領(lǐng)域適應(yīng)知識融合個性化翻譯領(lǐng)域適配器(NeurIPS20、EMNLP20、TASLP
21)KNN-MT(ACL21、EMNLP21、ACL22)多粒度表示遷移(ACL21)個性化機(jī)器翻譯(ACL21,ACL22,NAACL22)|16模型改進(jìn):連續(xù)語義增強(qiáng)(ACL
22OutstandingPaper)問題:回譯等離散表示數(shù)據(jù)增強(qiáng)方法,數(shù)據(jù)多樣性差、利用效率低,且易產(chǎn)生語義偏移解決方法:連續(xù)語義空間擴(kuò)充訓(xùn)練樣本的數(shù)據(jù)分布,結(jié)合鄰域風(fēng)險最小化策略優(yōu)化翻譯模型|17質(zhì)量評估:融合不同類型的標(biāo)注數(shù)據(jù)的UniTE
(ACL22)問題:三種評估場景(原文,譯文)、(譯文,參考譯文)、(原文,譯文,參考答案)采用的技術(shù)、語料均不相同,標(biāo)注資源不能得到充分利用解決方法:基于區(qū)塊化Attention掩碼的模型結(jié)構(gòu),利用跨語言預(yù)訓(xùn)練和多任務(wù)聯(lián)合訓(xùn)練,實(shí)現(xiàn)不同類型標(biāo)注資源的知識遷移單一模型(WMT
2019
所有語向)超越三個評估場景的SOTA模型WMT21
Metrics比賽第一|18領(lǐng)域適應(yīng):輕量訓(xùn)練的Adapter(NeurIPS20,EMNLP20,TASLP
21)問題:訓(xùn)練好的翻譯模型如何快速遷移至新領(lǐng)域?Finetuning有災(zāi)難性遺忘問題,需要調(diào)整全部參數(shù),部署代價大解法:引入Adapter,固定訓(xùn)練好模型的參數(shù),僅調(diào)整Adapter參數(shù)以適配新領(lǐng)域AdaptiveLayerDecoder
OutputAdaptiveLayer特點(diǎn):TransformerUpProjection??不影響譯訓(xùn)練好模型的性能部署代價小,每個領(lǐng)域僅增加Adaper參數(shù)ReLUDownProjectionAdaptiveLayerFeed
ForwardSelf-AttentionFeed
ForwardCross-AttentionSelf-Attention中英
BLEUBaseline領(lǐng)域內(nèi)35.2836.9845.47領(lǐng)域外48.8749.0543.72均值42.0843.0244.60×
M×
NBaseline
+
FinetuneBaseline
+
AdapterEmbeddingEmbeddingXY|19領(lǐng)域適應(yīng):無需訓(xùn)練的KNN-MT(ACL
21,
EMNLP21,AAAI22,
ACL
22)問題:finetuning、Adapter都需要訓(xùn)練,應(yīng)用代價大,能否在不訓(xùn)練情況下,實(shí)現(xiàn)領(lǐng)域適配?解決方法:尋找最相似句子,利用譯文動態(tài)干預(yù)解碼過程特點(diǎn):?無需訓(xùn)練,僅需更新新領(lǐng)域的索引領(lǐng)域適應(yīng)ITKoranLawBase22.9927.4736.2838.7310.1618.4425.9829.0133.3639.2349.0752.14Base
+
KNN-MTAdapter自動學(xué)習(xí)k與lambda關(guān)系A(chǔ)dapter
+
kNN-MT|20領(lǐng)域適應(yīng):子詞知識遷移(ACL
21)問題:不同分詞粒度的模型如何進(jìn)行知識遷移?解決方法:引入Embedding
Generator??根據(jù)字詞與父詞組合,使用一個Embedding生成器來遷移詞表Embedding
Generator的訓(xùn)練:在上游任務(wù)中,模型將隨機(jī)拆分長單詞并組合短單詞,使用Embedding
Generator生成這些未見過token的embeddin過程中受到上游任務(wù)目標(biāo)和蒸餾目標(biāo)監(jiān)督。|21個性化翻譯:用戶行為引導(dǎo)的機(jī)器翻譯(ACL21)問題:??語言具有多樣性,好的翻譯應(yīng)該擬合說話人的表達(dá)習(xí)慣,以及知識水平單一翻譯結(jié)果可能只能滿足大多數(shù)用戶,不能滿足每個用戶的需求解法:個性化翻譯??根據(jù)tf-idf分?jǐn)?shù)提取用戶歷史關(guān)鍵詞,使用編碼器建模用戶表征。提出對比學(xué)習(xí)策略,拉近相似用戶譯文,推遠(yuǎn)不相似用戶譯文,實(shí)現(xiàn)半監(jiān)督訓(xùn)練,解決數(shù)據(jù)稀疏,缺少用戶標(biāo)注樣本的問題。模型準(zhǔn)確性(BLEU)27.52翻譯差異性0.00%傳統(tǒng)翻譯個性化翻譯|2232.3531.68%個性化翻譯:無監(jiān)督多樣性翻譯(NAACL22)問題:語言具有多樣性,然而現(xiàn)有單reference訓(xùn)練使得模型趨向于生成相近的表達(dá),個性化翻譯也需要翻譯能夠產(chǎn)生更多樣的表達(dá)為前提。解法:多樣性翻譯,模型訓(xùn)練過程中多個生成結(jié)果定義DiversityRewards以及QualityRewards,使用最小風(fēng)險訓(xùn)練進(jìn)行優(yōu)化。?特點(diǎn):簡單、易復(fù)用、不需要修改模型架構(gòu)。原文
依
巴拉
告訴
今日
新聞
電視臺
說
,「
這是
一
個
恐怖
夜晚
」Ibarratoldtoday'snewstelevisionstation,"Thisisaterroristevening."Ibarratoldtoday'snewstelevisionstation,"Thisisaterribleevening."普通模型Ibarratoldtoday'snewstelevisionstationthat"Thisisaterroristevening.ThisisaterriblenightaccordingtoIbarratoldtoday’snewsTVstation.Ibarratoldtoday’snewstelevisionstation,“Thisisaterriblenight.”SpeakingtonewsTVtoday,Ibarrasaid,"Thisisaterriblenight.”多樣性模型|23個性化翻譯:用戶行為引導(dǎo)的語種識別(ACL22)問題:語種識別是翻譯的第一步,面臨用戶輸入不
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 貨檢值班員崗前持續(xù)改進(jìn)考核試卷含答案
- 燈用化學(xué)配料工崗前工作改進(jìn)考核試卷含答案
- 洗衣機(jī)零部件制作工QC管理模擬考核試卷含答案
- 甲基叔丁基醚丁烯-1裝置操作工風(fēng)險評估與管理水平考核試卷含答案
- 老年人合法權(quán)益保護(hù)制度
- 酒店客房服務(wù)禮儀制度
- 蟲害鼠害控制制度
- 采購信息網(wǎng)絡(luò)安全與保密制度
- 濟(jì)南國網(wǎng)培訓(xùn)
- 消防產(chǎn)品性能檢測實(shí)驗室項目環(huán)境影響報告表
- 危險化學(xué)品安全法解讀
- GB/T 7714-2025信息與文獻(xiàn)參考文獻(xiàn)著錄規(guī)則
- 信訪工作課件
- 110kV旗潘線π接入社旗陌陂110kV輸電線路施工方案(OPGW光纜)解析
- 第5章 PowerPoint 2016演示文稿制作軟件
- 基坑支護(hù)降水施工組織設(shè)計
- 預(yù)拌商品混凝土(砂漿)企業(yè)安全生產(chǎn)檢查表
- 焊接結(jié)構(gòu)焊接應(yīng)力與變形及其控制
- 中石油管道局燃?xì)夤艿朗┕そM織設(shè)計
- YY/T 1872-2022負(fù)壓引流海綿
- GB/T 17766-1999固體礦產(chǎn)資源/儲量分類
評論
0/150
提交評論