深度學(xué)習(xí)在自然語言處理中的應(yīng)用2課件_第1頁
深度學(xué)習(xí)在自然語言處理中的應(yīng)用2課件_第2頁
深度學(xué)習(xí)在自然語言處理中的應(yīng)用2課件_第3頁
深度學(xué)習(xí)在自然語言處理中的應(yīng)用2課件_第4頁
深度學(xué)習(xí)在自然語言處理中的應(yīng)用2課件_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

深度學(xué)習(xí)在自然語言處理中的應(yīng)用技術(shù)創(chuàng)新,變革未來深度學(xué)習(xí)在自然語言處理中的應(yīng)用技術(shù)創(chuàng)新,變革未來1目錄1自然語言處理深度學(xué)習(xí)23 深度學(xué)習(xí)在自然語言處理中的應(yīng)用目錄1自然語言處理深度學(xué)習(xí)23 深度學(xué)習(xí)在自然語言處理中的應(yīng)2自然語言處理NaturalLanguage

Processing自然語言處理3自然語言的概念什么是自然語言語言是人類交際的工具,是人類思維的載體人造語言:編程語言,包括C++, BASIC等自然語言:形式:口語、書面語、手語語種:漢語、英語、日語、法語…語言學(xué)是研究語言規(guī)律的科學(xué)自然語言的概念什么是自然語言4深度學(xué)習(xí)在自然語言處理中的應(yīng)用2課件5NLP應(yīng)用前景據(jù)統(tǒng)計(jì),日常工作中80%的信息來源于語言,處理文本的需求在不斷增長(zhǎng)文本是人類知識(shí)最大的存儲(chǔ)源,并且文本的數(shù)量在不停地增長(zhǎng)電子郵件、新聞、網(wǎng)頁、科技論文、用戶抱怨信NLP典型應(yīng)用智能搜索引擎、自動(dòng)問答、信息獲取、語義網(wǎng)語音識(shí)別,文字識(shí)別、輸入法機(jī)器翻譯,自動(dòng)文摘,跨語言檢索文本分類、文本聚類、文本分析(結(jié)構(gòu)、內(nèi)容、情感)、文本挖掘(主題跟蹤:人物跟蹤,企業(yè)跟蹤)、文本過濾NLP

的應(yīng)用NLP應(yīng)用前景NLP的應(yīng)用6語音分析:從語音流中區(qū)分出一個(gè)一個(gè)聲音單元----音素詞法分析:從句子中切分出單詞、找出詞匯的各個(gè)詞素,確定單詞的詞性、詞義等。句法分析:對(duì)句子和短語的結(jié)構(gòu)進(jìn)行分析,找出詞、短語等的相互關(guān)系及在句子中的作用等。語義分析:識(shí)別一句話所表達(dá)的實(shí)際意義。語用分析:研究語言所在的外界環(huán)境對(duì)語言使用所產(chǎn)生的影響。自然語言處理的層次語音分析:自然語言處理的層次7同一詞語在不同的“語境”中具有不同“語義”例如:中國奧運(yùn)史上十大女杰的精彩 “轉(zhuǎn)身”病毒計(jì)算機(jī)領(lǐng)域:計(jì)算機(jī)病毒醫(yī)學(xué)領(lǐng)域:生物學(xué)病毒語義與語用同一詞語在不同的“語境”中具有不同“語義”語義與語用8中文英文學(xué)生們都來了Allthestudentsare

here.李教授都來了EvenProf.Liis

here.編輯工作很難Editingisvery

difficult.怎樣成為一個(gè)好的編輯Howtobeagood

editor?形態(tài)豐富的語言(inflecting language):處理難形態(tài)不豐富的語言(analytic

language):處理更難內(nèi)容層的信息處理中文英文學(xué)生們都來了Allthestudentsare9可以,但有難度!什么是理解?結(jié)構(gòu)主義:機(jī)器的理解機(jī)制與人相同(白盒)問題:人類語言理解機(jī)理尚未清楚功能主義:機(jī)器的表現(xiàn)與人相同即可(黑盒)圖靈測(cè)試如果通過自然語言的問答,一個(gè)人無法識(shí)別和他對(duì)話的是人還是機(jī)器,那么就應(yīng)該承認(rèn)機(jī)器具有智能機(jī)器能夠理解人的語言嗎?可以,但有難度!機(jī)器能夠理解人的語言嗎?10給計(jì)算機(jī)輸入一段自然語言文本,計(jì)算機(jī)能問答(question-answering)機(jī)器能正確地回答輸入文 本中的有關(guān)問題;文摘生成(summarizing)機(jī)器有能力產(chǎn)生輸入文本的 摘要;復(fù)述(paraphrase)機(jī)器用不同的詞語和語句復(fù)述輸入文本;翻譯(translation)機(jī)器把一種語言(源語言)翻譯為另一種語言(目標(biāo)語言)理解自然語言的準(zhǔn)則給計(jì)算機(jī)輸入一段自然語言文本,計(jì)算機(jī)能理解自然語言的準(zhǔn)則11弱人工智能目標(biāo):建立一個(gè)足夠精確的語言數(shù)學(xué)模型使計(jì)算機(jī)通過編程來完成自然語言的相關(guān)任務(wù)。如:聽、讀、寫、說,釋義,翻譯,回答問題等;強(qiáng)人工智能目標(biāo):讓用戶能通過自然語言與計(jì)算機(jī)自由對(duì)話;自然語言處理的研究目標(biāo)弱人工智能目標(biāo):自然語言處理的研究目標(biāo)12深度學(xué)習(xí)在自然語言處理中的應(yīng)用2課件13[應(yīng)用系統(tǒng)]數(shù)字圖書館、電子商務(wù)、電子政務(wù)、遠(yuǎn)程教育、語言學(xué)習(xí)[基礎(chǔ)研究]分詞、詞性標(biāo)注、短語切分、句法分析、語義分析、篇章理解等[應(yīng)用技術(shù)研究]自動(dòng)問答、機(jī)器翻譯、信息檢索、文本挖掘、自動(dòng)校對(duì)、信息抽取[資源建設(shè)]語料庫資源建設(shè)語言學(xué)知識(shí)庫建設(shè)語言學(xué)家NLP研究者軟件企業(yè)NLP研究?jī)?nèi)容[應(yīng)用系統(tǒng)][基礎(chǔ)研究][應(yīng)用技術(shù)研究][資源建設(shè)]語言學(xué)家14主要分詞算法:1.基于詞表的分詞-最大匹配即“長(zhǎng)詞優(yōu)先”原則,來進(jìn)行分詞2.基于統(tǒng)計(jì)的分詞分詞的難點(diǎn)歧義字段處理未登入詞處理:

人名識(shí)別,

地名識(shí)別,

譯名識(shí)別,

新詞識(shí)別自動(dòng)分詞主要分詞算法:自動(dòng)分詞15例:南京市長(zhǎng)江大橋南京|市長(zhǎng)|江大橋南京市|長(zhǎng)江|大橋例:我們研究所有東西我們--研究所--有--東西(交叉歧義)我們--研究--所有--東西把手放在桌上把--手--放在--桌上(組合歧義)把手--放在--桌上分詞歧義例:南京市長(zhǎng)江大橋南京|市長(zhǎng)|江大橋南京市|長(zhǎng)江|大橋分16新詞名詞:斑竹、大蝦、面瓜、菜鳥、美眉、陶吧、911、白骨精動(dòng)詞:打的、埋單、買單、給力形容詞:酷、小資、爽命名實(shí)體時(shí)間、地名、人名、組織機(jī)構(gòu)名商標(biāo)、公司名、電話號(hào)碼、電子郵件地址等等合成詞,簡(jiǎn)稱,派生詞三個(gè)代表、十六大牛市、熊市微博分詞歧義新詞分詞歧義17機(jī)器翻譯中最難的問題之一是詞義的二義性(歧義性)問題。比如

Bush

一詞可以是美國總統(tǒng)的名字,也可以是灌木叢。一個(gè)實(shí)用的方法是使用互信息。互信息(Mutual

Information)是信息論里一種有用的信息度量,它是指兩個(gè)事件集合之間的相關(guān)性首先從大量文本中找出和總統(tǒng)布什一起出現(xiàn)的互信息最大的一些詞,比如總統(tǒng)、美國、國會(huì)、華盛頓等等,當(dāng)然,再用同樣的方法找出和灌木叢一起出現(xiàn)的互信息最大的詞,比如土壤、植物、野生等等。有了這兩組詞,在翻譯

Bush

時(shí),看看上下文中哪類相關(guān)的詞多就可以了。詞義消歧機(jī)器翻譯中最難的問題之一是詞義的二義性(歧義性)問題。詞義消18深度學(xué)習(xí)Deep

Learning深度學(xué)習(xí)19深度學(xué)習(xí):一種基于無監(jiān)督特征學(xué)習(xí)和特征層次結(jié)構(gòu)的學(xué)習(xí)方法。本質(zhì):通過構(gòu)建多隱層的模型和海量訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測(cè)的準(zhǔn)確性。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。什么是深度學(xué)習(xí)?深度學(xué)習(xí):什么是深度學(xué)習(xí)?20真實(shí)神經(jīng)元

VS

人工神經(jīng)元真實(shí)神經(jīng)元VS人工神經(jīng)元21傳統(tǒng)神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)是模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來解釋數(shù)據(jù),處理數(shù)據(jù)。深度神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)

VS

深度學(xué)習(xí)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)是模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)深度神221986,BP

,NatureRumelhart,Hinton,Williams2006DBNScienceG.E.Hinton2011PhDcandidateof

Hinton,MSR2012

DNNImageNetClassification2015Deeper

NetworkImageNetClassificationSpeech深度學(xué)習(xí)發(fā)展歷程1986,BP,200620112012DNN2015深23深度學(xué)習(xí)–2013年十大突破性技術(shù)之首500億美元的市場(chǎng)規(guī)模深度學(xué)習(xí)–2013年十大突破性技術(shù)之首500億美元的市場(chǎng)24過擬合(Overfitting)合適的擬合 過擬合過擬合往往源自特征空間分布過于復(fù)雜,使得模型的復(fù)雜度提高,泛化能力較差。傳統(tǒng)學(xué)習(xí)方法的缺點(diǎn)過擬合(Overfitting)合適的擬合 過擬合傳統(tǒng)學(xué)習(xí)方25深度學(xué)習(xí)優(yōu)點(diǎn)深度學(xué)習(xí)優(yōu)點(diǎn)26olutional

Neural

Networks)深度卷積神DCNN(Deep

Conv經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)在自然語言處理olutionalNeuralNetworks)深度卷積27“Tank”“Car”“Automobile”??1維度高Timeconsuming2一詞多意和多詞一意Mis--‐classification3缺乏詞和詞之間的相關(guān)性Poorperformance向量空間模型Vector

space

model“Tank”“Car”“Automobile”?123向量空28One

HotOneHot2930詞向量:?jiǎn)卧~的分布向量表示(Distributional Representation)Similarity(dog,cat)>Similarity(dog,the)Similarity(“thedogsmiles.”,“onecat

cries.”)詞向量表征了單詞使用上下文中的句法語義特征One-Hot的字面匹配到DR的語義匹配Word

Embedding30詞向量:?jiǎn)卧~的分布向量表示(Distributional30word2vec原理word2vec原理31訓(xùn)練數(shù)據(jù)集:經(jīng)過分詞后的新聞數(shù)據(jù),大小184MB查看“中國”,

“釣魚島",

"旅游","蘋果"幾個(gè)詞語的相似詞語如下所示word2vec實(shí)戰(zhàn)訓(xùn)練數(shù)據(jù)集:經(jīng)過分詞后的新聞數(shù)據(jù),大小184MBword2v32向量加減法"中國+北京-日本","中國+北京-法國","家庭+孩子-學(xué)校"word2vec原理向量加減法word2vec原理33適用于大數(shù)據(jù),由于網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,小數(shù)據(jù)集往往會(huì)造成訓(xùn)練結(jié)果過擬合。可解釋性不強(qiáng),即便是一流的學(xué)者也很難對(duì)效果超群的深度學(xué)習(xí)算法在具體問題上給出具體解釋。這有可能成為產(chǎn)品迭代過程中的阻礙。理論尚不完善,大多數(shù)研究仍集中在調(diào)整參數(shù)和結(jié)構(gòu)。計(jì)算量大,算法調(diào)整費(fèi)勁。深度學(xué)習(xí)的局限適用于大數(shù)據(jù),由于網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,小數(shù)據(jù)集往往會(huì)造成訓(xùn)練結(jié)果過34深度學(xué)習(xí)在自然語言處理中的應(yīng)用深度學(xué)習(xí)在自然語言處理中的應(yīng)用35最常見的通用模型:Encoder-Decoder

ModelDecoder語義向量Encoder機(jī)器翻譯(通用模型)最常見的通用模型:Encoder-DecoderModel36網(wǎng)絡(luò)結(jié)構(gòu)語言模型翻譯模型機(jī)器翻譯(Encoder-Decoder具體例子)網(wǎng)絡(luò)結(jié)構(gòu)語言模型翻譯模型機(jī)器翻譯(Encoder-Decod37單詞對(duì)齊短語對(duì)齊短語重排序語言模型翻譯模型聯(lián)合模型翻譯結(jié)果重排序……………單詞對(duì)齊機(jī)器翻譯-很多地方可以運(yùn)用到深度學(xué)習(xí)單詞對(duì)齊短語對(duì)齊短語重排序語言模型翻譯模型聯(lián)合模型38人工客服or智能客服

?高成本不能全時(shí)段覆蓋無法數(shù)據(jù)分析響應(yīng)慢無法控制時(shí)長(zhǎng)知識(shí)培訓(xùn)頻繁易出錯(cuò)高峰期排隊(duì)低效率回復(fù)口徑不一人員流失率大人工客服智能客服1

100用戶極速響應(yīng)高智商高情商智能知識(shí)庫管理頂級(jí)語義分析7*24小時(shí)工作大數(shù)據(jù)分析提升客服價(jià)值多平臺(tái)支持人工客服or智能客服?高成本不能全時(shí)段覆蓋無法數(shù)據(jù)分析響應(yīng)39人工客服&智能客服傳統(tǒng)客服業(yè)務(wù)流程大量業(yè)務(wù)數(shù)據(jù)復(fù)雜的業(yè)務(wù)知識(shí)培訓(xùn)學(xué)習(xí)人工錄入問答人工提問 用戶客服客服客服Teddy用戶Data智能客服業(yè)務(wù)流程智能客服人工客服工單用戶提問智能應(yīng)答知識(shí)庫管理語義模型人工服務(wù)知識(shí)庫更新智能檢索經(jīng)驗(yàn)積累知識(shí)查詢——秒級(jí)響應(yīng)智能客服——處理85~90%的問題——準(zhǔn)確率超過85%——成本80%

人工客服&智能客服大量業(yè)務(wù)數(shù)據(jù)復(fù)雜的業(yè)務(wù)知識(shí)培訓(xùn)學(xué)習(xí)人工錄入40深度學(xué)習(xí)中文分詞命名實(shí)體識(shí)別用戶意圖識(shí)別自動(dòng)問答深度學(xué)習(xí)在客服機(jī)器人上的應(yīng)用流程深度學(xué)習(xí)中文分詞用戶意圖識(shí)別自動(dòng)問答深度學(xué)習(xí)在客服機(jī)器人上的41深度學(xué)習(xí)用于中文分詞深度學(xué)習(xí)用于中文分詞42中文分詞思路:基于字的Word

Embedding

+

三層神經(jīng)網(wǎng)絡(luò)

+

BMES標(biāo)記序列分類類似思路同樣可以套用到POS/NER/Parser等場(chǎng)景這是利用Word

Embedding解決NLP問題最直觀的NLP應(yīng)用思路深度學(xué)習(xí)用于中文分詞中文分詞思路:深度學(xué)習(xí)用于中文分詞43命名實(shí)體識(shí)別文本命名實(shí)體識(shí)別命名實(shí)體識(shí)別后的文本人名地名商品名……機(jī)構(gòu)名對(duì)用戶的輸入進(jìn)行識(shí)別對(duì)識(shí)別后的命名實(shí)體進(jìn)行抽取更好地理解用戶語言和意圖命名實(shí)體識(shí)別文本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論