版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
第6章自然語言處理——趙克玲本章目標了解自然語言處理的概念理解自然語言處理的基本技術(shù)原理掌握自然語言處理的應用場景自然語言處理導入創(chuàng)造智能的主要發(fā)展方向:運算能力、感知能力和認知能力。比爾蓋茨說過“語言理解是人工智能皇冠上的明珠。”隨著人工智能的快速發(fā)展,自然語言處理技術(shù)的應用越來越廣泛。另外,如何通過計算機科學和統(tǒng)計方法作為手段,研究自然語言理解和生成也是人工智能領域的重要挑戰(zhàn)之一。自然語言處理的定義自然語言處理(NaturalLanguageProcessing,NLP)是計算機科學領域與人工智能領域中一個重要的發(fā)展方向,研究的是人與計算機之間用自然語言進行有效通信的各種理論與方法,所以這里提到的自然語言處理是一門融語言學、計算機科學、數(shù)學于一體的科學。常見的自然語言處理語音助手翻譯軟件評論歸納技術(shù):語音識別、問答系統(tǒng)技術(shù):Seq2Seq、Encoder-Decoder技術(shù):主題模型、情感分析自然語言處理的基本任務通常自然語言處理會用到以下基本任務:(1)分詞:將句子分割成單詞(2)詞性標注:標注每個單詞的詞性,比如主語、謂語、賓語、動詞等等(3)命名實體識別:在文本中識別出某類詞是識別句子中的實體,一般識別這個實體我們經(jīng)常會用到語料庫,通常用來識別人名、地名、機構(gòu)名這三類實體(4)去除停止詞與低頻詞:去掉一些諸如“的”“了”“也”等詞語,這些詞語對于區(qū)分分檔毫無幫助,不攜帶任何主題信息,低頻詞是出現(xiàn)次數(shù)較低的詞語,比如一片采訪稿的受訪者名字,不能代表某一類主題。自然語言處理的基本任務分類任務(1)文本分類:是指計算機將載有信息的一篇文檔映射到預先給定的某一類別或者某幾個類別主題的過程。(2)文本主題:提取出能夠體現(xiàn)文本內(nèi)容主題的一些關(guān)鍵詞,給出一段文本,確定出文本內(nèi)容的主題,比如新聞,娛樂,體育等等。(3)情感分析:判斷文本表達的情感,情感分析的任務涉及到的主題比較多時,一般利用自然語言處理技術(shù)識別,比如客戶評論中正向或者負向的情感,或者是通過語音分析、寫作分析得到情緒判別的結(jié)果。判斷子句關(guān)系1.問答系統(tǒng):問答機器人問答機器人的工作步驟:(1)針對提出的問題采用分類的機器學習算法判斷問題類型,用于鎖定問題的精準范圍;(2)針對問題提取關(guān)鍵詞,基于關(guān)鍵詞的搜索既可以直接采用基于TF-IDF算法搜索,也可基于word2vec轉(zhuǎn)變空間向量使用相似詞進行搜索。(3)結(jié)合文檔的主題等信息對侯選集的答案進行打分,最終返回得分最高的TopN侯選答案。判斷子句關(guān)系2.自然語言推理:根據(jù)文本內(nèi)容,推理出合理的信息文本間的推理關(guān)系,又稱文本蘊含關(guān)系(TextualEntailment),作為一種基本的文本間語義聯(lián)系,廣泛存在于自然語言文本中。簡單的來說文本蘊含關(guān)系描述的是兩個文本之間的推理關(guān)系,其中一個文本作為前提(premise),另一個文本作為假設(hypothesis),如果根據(jù)前提P能推理得出假設H,那么就說P蘊含H,記作P->H,這跟一階邏輯中的蘊含關(guān)系是類似的。自然語言推理案例
IDsentencelabelPremise
AdogjumpingforaFrisbeeinthesnow.
HypothesisExample1Ananimalisoutsideinthecoldweather,playingwithaplastictoy.entailmentExample2Acatwashedhisfaceandwhiskerswithhisfrontpaw.contradictionExample3Apetisenjoyingagameoffetchwithhisowner.neutral生成任務1.機器翻譯機器翻譯表示將文本翻譯成另一種語言的文本,即利用計算機將一種自然語言轉(zhuǎn)換為另外一種自然語言的過程,它是計算語言學的分支,是人工智能的終極目標之一,具有重要的科學研究價值。機器翻譯:基于規(guī)則的翻譯方法與人類類似,這種方法會先分析句子中的詞性,將每個詞翻譯成目標語言,再根據(jù)相應的語法規(guī)則進行調(diào)整,來輸出結(jié)果,顯然這種翻譯方法效果并不好,因為語言表達方法是非常靈活的,有限的語法和規(guī)則無法覆蓋所有的語言現(xiàn)象。怎么How老old是are你You?機器翻譯:基于統(tǒng)計的翻譯方法第二個階段是基于統(tǒng)計的翻譯方法(SMT)。即根據(jù)詞或短語找到所有可能的結(jié)果,再在龐大的語料庫中進行搜索,統(tǒng)計每種結(jié)果出現(xiàn)的概率,將概率最高的結(jié)果進行輸出。規(guī)則方法效率有很大提升,不過對語料庫的依賴較大。不錯的美好的Nice來伴隨to遇見集會meet你你You?機器翻譯:基于神經(jīng)網(wǎng)絡的翻譯方法第三個階段是基于神經(jīng)網(wǎng)絡的翻譯方法(NMT)。通過學習大量的語料,比如平行語料庫讓神經(jīng)網(wǎng)絡自己學習語言的一些特征,找到輸入和輸出的關(guān)系,端到端的輸出翻譯結(jié)果,取得了不錯的效果。機器翻譯從基于詞到基于短語再到基于句子從使用大規(guī)模平行語料庫,到可以使用單語語料庫,到實現(xiàn)零數(shù)據(jù)翻譯零數(shù)據(jù)翻譯指的就是參數(shù)共享,系統(tǒng)可以把翻譯知識從一個語言遷移到其他語言,比如系統(tǒng)從來沒有學習過日語和韓語的互譯,但是會英語和日語以及英語和韓語的翻譯,通過在句子前加入人工標記(token)來明確目標語言,零數(shù)據(jù)翻譯模型將可以實現(xiàn)通過單一模型來翻譯多種語言,而不需要增加新的參數(shù),并且能夠進一步提升翻譯質(zhì)量。自然語言處理技術(shù)發(fā)展1.N—gram基于統(tǒng)計的語言模型估計所有單詞出現(xiàn)的聯(lián)合概率對文本看成N元組的集合對所有元組的出現(xiàn)頻數(shù)進行統(tǒng)計,構(gòu)成特征向量N=1,詞袋模型自然語言處理技術(shù)發(fā)展2.詞向量:Word2Vec、Doc2Vec將詞向量嵌入成密集的向量,詞嵌入是將詞匯、短語、句子乃至篇章的表達在大規(guī)模語料進行訓練,得到一個多維語義空間上的表達,使得詞匯、短語、句子乃至篇章之間的語義距離可以計算。自然語言處理技術(shù)發(fā)展3.神經(jīng)網(wǎng)絡:GNN、RNN、LSTM、Transform(1)RNN循環(huán)神經(jīng)網(wǎng)絡,擅長處理時間序列,循環(huán)神經(jīng)網(wǎng)絡可以對一個不定長的句子進行編碼,描述句子的信息。(2)LSTM:使用了不同的函數(shù)去計算隱含層的狀態(tài)。(3)GNN:卷積神經(jīng)網(wǎng)絡,它可以進行特征提取,N-gram是采用統(tǒng)計的方式,而CNN是用特征提取的方式,通常我們會將詞向量拼接后使用CNN,在關(guān)系提取中有很多應用都采用CNN。對于語言模型這部分,采用語言模型預測,它是基于神經(jīng)網(wǎng)絡訓練的語言模型,可以更加準確地預測下一個詞或者是下一個句子的出現(xiàn)概率。語言模型預測自然語言處理技術(shù)發(fā)展4.編碼-解碼(Sequence2Sequence)Sequence2Sequence,即序列映射到另一個序列,以及Encoder-Decoder架構(gòu),它本身用于聊天機器人、機器翻譯或者是一些問答系統(tǒng)中,Encoder-Decoder表示的是提取特征轉(zhuǎn)換到另一個空間,可以實現(xiàn)一個句子到另一個句子的變換,這個技術(shù)就是機器翻譯、對話生成、問答、轉(zhuǎn)述的核心技術(shù)。編碼-解碼從文本中挖掘主題從文本中挖掘潛在主題,也就是語義分析。對于自然語言處理,借助于潛在的語義分析技術(shù),計算機就可以從海量的數(shù)據(jù)中自動發(fā)掘出潛在的主題,進而完成對文本的內(nèi)容概括和提煉。1.語義分析文本特征詞袋模型是用于描述文本的一個簡單的數(shù)學模型,也是常用的一種文本特征提取方式,詞袋模型將一篇文檔看作是一個“裝有若干詞語的袋子”,只考慮在文檔中出現(xiàn)的次數(shù),而忽略詞語的順序以及句子的結(jié)構(gòu)。銘銘喜歡打籃球,也喜歡打乒乓球文本特征我們可以將其表示為一個形如(詞語:出現(xiàn)次數(shù))的二元組組成的集合,這個集合就是這段文本對應的“詞袋”,詞袋模型對文檔進行了很大程度的簡化,但一定程度上仍然保留了文檔的主題信息。{(銘銘:1)(喜歡:2)(打:2)(籃球:1)(也:1)(乒乓球:1)}文本特征有了詞袋之后,我們可以構(gòu)造一個包含若干詞語的詞典,并借助這個詞典將詞袋轉(zhuǎn)換為特征向量。序號123456詞語銘銘喜歡打籃球也乒乓球
文本特征
序號1234詞語銘銘喜歡籃球乒乓球文本特征在實際應用中,我們會使用一個公共的詞典對語料庫中的所有文檔進行詞頻統(tǒng)計,我們以一個包含三篇文檔的語料庫為例:文檔1:銘銘喜歡打籃球,也喜歡打乒乓球。文檔2:銘銘去公園放風箏。文檔3:銘銘的學校開設了人工智能課程。文本特征首先,我們從語料庫中提取所有出現(xiàn)過的詞語,并形成一個詞典:序號1234詞語銘銘喜歡打籃球序號5678詞語也乒乓球去公園序號9101112詞語放風箏的學校序號13131516詞語開設了人工智能課程文本特征接下來,我們統(tǒng)計每篇文檔中每個詞語出現(xiàn)的次數(shù)。
銘銘喜歡打籃球也乒乓球去公園放風箏的學校開設了人工智能課程銘銘喜歡打籃球,也喜歡打乒乓球。1221100000000000銘銘去公園放風箏。1000001111000000銘銘的學校開設了人工智能課程1000000000111111統(tǒng)計結(jié)果即是三篇文檔的詞計數(shù)向量n1=(1,2,2,1,1,1,0,0,0,0,0,0,0,0,0,0)n2=(1,0,0,0,0,0,1,1,1,1,0,0,0,0,0,0)n3=(1,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1)文本特征利用詞袋模型構(gòu)造文本特征的基本流程。文本特征中文分詞我們首先需要將句子中的詞語分開,才能構(gòu)建詞袋模型,這個過程對于英語來講比較容易,但對于中文而言,所有的詞語連接在一起,計算機不知道一個字應該與其前后的字連成詞語,還是自己形成一個詞語,因此需要進行中文分詞,大多基于匹配和統(tǒng)計學方法。去除停止詞與低頻詞去除停止詞和低頻詞,即去掉一些諸如“的”“了”“也”等詞語,這些詞語對于區(qū)分分檔毫無幫助,不攜帶任何主題信息,低頻詞是出現(xiàn)次數(shù)較低的詞語,比如一片采訪稿的受訪者的名字,不能代表某一類主題。詞頻率和逆文檔頻率詞頻率與逆文檔頻率是反映一個詞語對于一篇文檔重要性的兩個指標。(1)詞頻率:一個詞語在一篇文檔中出現(xiàn)的頻率,它等于這個詞語在這段文本中出現(xiàn)的次數(shù)與這段文本詞語中的總數(shù)的商。(2)逆文檔頻率:文檔頻率(documentfrequency)為語料庫中出現(xiàn)過這個詞語的文檔總數(shù)與語料庫中所有文本的總數(shù)的商,那么第i個詞語的文檔頻率即為dfi=Di/D。而這個詞語的逆文檔頻率即為文檔頻率的負對數(shù),即idfi=log(D/(1+Di))。逆文檔頻率同樣刻畫了詞語在文本中的重要性,其值越高,重要性越大。自然語言
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 交通安全設施工安全操作考核試卷含答案
- 貴金屬首飾與寶玉石檢測員創(chuàng)新意識考核試卷含答案
- 鹽斤收放保管工創(chuàng)新方法能力考核試卷含答案
- 加氣混凝土切割工誠信知識考核試卷含答案
- 綜合能源運維員操作規(guī)范考核試卷含答案
- 井下作業(yè)設備操作維修工崗前合規(guī)考核試卷含答案
- 加工中心操作工操作規(guī)范能力考核試卷含答案
- 粉筆公安課件思維導圖
- 技術(shù)許可協(xié)議合同
- 公司終止合同協(xié)議
- 醫(yī)院收費員述職報告
- 2024年國開電大人文英語3專項測試全
- 六年級下冊語文《默寫小紙條》
- 2025年中國鐵路青藏集團有限公司招聘筆試參考題庫含答案解析
- 發(fā)電機日常巡查表(完整版)
- 2024屆湖南省長沙市高三上學期新高考適應性考試歷史試卷(解析版)
- 經(jīng)營權(quán)承包合同例文2025年
- 《電工電子技術(shù)》課件-第7章
- 品管圈PDCA改善案例-降低住院患者跌倒發(fā)生率
- 茶葉招標文件熱銷版
- DB32T 3129-2016 適合機械化作業(yè)的單體鋼架塑料大棚技術(shù)規(guī)范
評論
0/150
提交評論