下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
聊天機(jī)器人的相關(guān)技術(shù)介紹綜述目錄TOC\o"1-3"\h\u25380聊天機(jī)器人的相關(guān)技術(shù)介紹綜述 1115571.1聊天機(jī)器人的關(guān)鍵技術(shù) 193801.2中文處理相關(guān)技術(shù) 2258151.2.1中文分詞 2313891.2.2句法分析 258491.2.3計(jì)算短文本相似度 3182811.2.4詞義消岐 531021.2.5停用詞的刪除與結(jié)構(gòu)性詞語 61.1聊天機(jī)器人的關(guān)鍵技術(shù)聊天機(jī)器人系統(tǒng)結(jié)構(gòu)如圖1.1所示,共有四個(gè)模塊語音模塊、語言理解模塊、對(duì)話模塊、語言生成模塊。圖2-1chatbot的系統(tǒng)框架語音合成模塊和語音識(shí)別模塊這兩個(gè)模塊不在本文討論的范圍內(nèi),這里就不再詳述了。借助自NLP技術(shù),自然語言處理模塊獲取到用戶的想法后,通過數(shù)據(jù)的方式表達(dá)出來,轉(zhuǎn)化為具體的語義數(shù)據(jù),然后交給下一個(gè)對(duì)話管理模塊。由于多個(gè)模塊之間可能存在作業(yè)沖突,操作會(huì)話管理模塊必須提前做好準(zhǔn)備,并保留會(huì)話管理模塊來負(fù)責(zé)用戶和聊天機(jī)器人之間的聊天過程。[7]本文研究的重點(diǎn)是自然語言生成模塊,該模塊利用多種自然語言生成技術(shù)對(duì)自然語言進(jìn)行響應(yīng)。目前,檢索對(duì)話和生成對(duì)話是兩種主要模式。以下部分將深入討論自然語言解釋、對(duì)話控制和自然語言生成模塊。(1)自然語言理解模塊將用戶的意思以數(shù)據(jù)的形式轉(zhuǎn)換為具體的語義數(shù)據(jù)。自然語言理解模塊最關(guān)鍵的目的是將用戶的語言轉(zhuǎn)換成計(jì)算機(jī)可以理解的數(shù)據(jù)[8]。(2)對(duì)話管理模塊負(fù)責(zé)組織自然語言解釋和生成模塊的工作,其關(guān)鍵技術(shù)有對(duì)話補(bǔ)償、強(qiáng)化學(xué)習(xí)和對(duì)話狀態(tài)識(shí)別等。(3)自然語言生成模塊主要負(fù)責(zé)生成用戶回復(fù)。聊天機(jī)器人通常使用生成方法或基于檢索的方法部署。生成模型可以引起更合適的反應(yīng),否則在語料庫中會(huì)被忽略。當(dāng)前Seq2Seq對(duì)話系統(tǒng)的一個(gè)最困難的問題是,它們經(jīng)常生成不相關(guān)或不清楚的、通用的、幾乎無用的答案。這些回答通常包括一些無意義的短語,比如“我不知道”或“我很好”。另一方面,檢索模型有大量的數(shù)據(jù)和平滑的響應(yīng)。消息-響應(yīng)匹配是高級(jí)檢索過程的秘密,匹配算法必須在消息和應(yīng)答之間架起語義距離的橋梁。各種深度學(xué)習(xí)模型的應(yīng)用,如RNN模型、LSTM模型、注意力模型等,是新一代技術(shù)的核心。1.2中文處理相關(guān)技術(shù)1.2.1中文分詞中文分詞是將中文文本序列分割為若干獨(dú)立詞語的技術(shù)。把多個(gè)獨(dú)立的字序列按一定規(guī)則分成一組的過程稱為分詞過程[9]。當(dāng)前較為成熟的分詞技術(shù)主要有三種,下面對(duì)這三種分詞技術(shù)進(jìn)行詳細(xì)介紹。(1)基于字符串匹配的分詞技術(shù)也稱為機(jī)械分詞技術(shù),它根據(jù)某些規(guī)則將用戶輸入的待處理文本與一個(gè)通常規(guī)模很大的字典進(jìn)行對(duì)比,假設(shè)在字典中找到了與字典相同的文本,那么就可以根據(jù)此規(guī)則對(duì)該文本進(jìn)行分詞。(2)語法和語義子系統(tǒng)以及分詞子系統(tǒng)構(gòu)成了基于理解的分詞框架?;诰C合的分詞方案的目的是消除歧義,利用原語料庫文本中的語法和語義知識(shí)解釋句法,即模擬人腦思維。然而,中文信息有些復(fù)雜和難以理解,它不能完美地翻譯成機(jī)器的數(shù)據(jù)格式[10]。(3)利用統(tǒng)計(jì)分詞系統(tǒng),利用訓(xùn)練模型和學(xué)習(xí)原理實(shí)現(xiàn)漢語不規(guī)則序列的分詞。如最大似然分詞和最大熵分詞是目前應(yīng)用最廣泛的兩種分詞技術(shù)[11]。隨著漢語語料庫的建立和深度學(xué)習(xí)的研究和發(fā)展,越來越多的學(xué)者選擇基于統(tǒng)計(jì)的漢語分詞方法。1.2.2句法分析句子分析是與自然語言處理相關(guān)的核心基礎(chǔ)技術(shù)之一,句子分析可分為句法結(jié)構(gòu)分析和依賴分析兩種[12]。在對(duì)句子進(jìn)行句法分析時(shí),確定同時(shí)劃分句子中的“主謂賓定狀補(bǔ)”,如下圖1.2所示,確定每兩個(gè)詞之間進(jìn)行語法關(guān)系。從圖1.2里面可以看出,“吃”與“粉”形成動(dòng)態(tài)關(guān)系,其中吃是v(動(dòng)詞)表示動(dòng)作,粉是n(名詞),“一”是表示數(shù)量的量詞,ATT表示動(dòng)態(tài)關(guān)系,在對(duì)句子進(jìn)行分析之后,可以回答諸如“我吃了什么?”,“我吃了多少碗粉?”這樣的問題,讓聊天機(jī)器人能夠更聰明地與人交談。把句法結(jié)構(gòu)分析和依賴分析結(jié)合起來,可以理解用戶輸入語句的依賴關(guān)系和語義[13]。一是讓電腦能夠理解句子的意思,從而找到到最完美的答案,第二個(gè)是如果互相依賴在此之前已經(jīng)生成,分析它們的語義,還可以通過可信度匹配也能生成聊天回答。
圖2-2句子依存關(guān)系圖句子結(jié)構(gòu)分析的目的在于判斷一篇文章是否符合相應(yīng)語言的語法要求,然后根據(jù)語法規(guī)范來分析一篇文章,首先要判斷一篇文章是否屬于某一語言范疇,其次,進(jìn)行詞義消歧。第三,分析文章的句法結(jié)構(gòu)、語境和句法關(guān)系。作為一種強(qiáng)大的句法分析工具,它通常需要解決兩個(gè)問題:一是句法形式的表達(dá),二是詞條信息的描述[14]。由于通用依賴樹的出現(xiàn),依賴解析的研究重點(diǎn)已經(jīng)從通用依賴樹轉(zhuǎn)向更復(fù)雜的數(shù)據(jù)集標(biāo)注。數(shù)據(jù)集的標(biāo)注結(jié)果可用于體態(tài)識(shí)別或詞性標(biāo)注,并可作為不同任務(wù)的評(píng)價(jià)數(shù)據(jù),因此得到廣泛應(yīng)用;第二,句法結(jié)構(gòu)分析的語法集由固定語法集和僵化語法集組成,固定語法集和僵化語法集比較多;第三,依賴解析樹易于標(biāo)注,具有較高的解析精度?,F(xiàn)有的依賴分析方法主要有PCFG、詞法PCFG、基于轉(zhuǎn)換的依賴分析等主流的依賴分析方法(基于貪婪決策行為的裝配語法樹)。1.2.3計(jì)算短文本相似度就當(dāng)前而言,短文本相似度計(jì)算是NLP技術(shù)中的核心技術(shù),即如何表達(dá)兩個(gè)或多個(gè)短文本之間的相似度,即短文本之間有很高的相似度。語篇之間語義和語法結(jié)構(gòu)的相似性越高,反之就越低[15]。目前,短文本相似度計(jì)算主要采用三種算法,第一是基于語料庫的TF-IDF算法、第二是最小編輯距離算法,第三是短文本相似度計(jì)算算法。目前業(yè)界研究語料庫的短文本相似度時(shí),多數(shù)都是選用上下文的統(tǒng)計(jì)描述方法,因?yàn)樯舷挛目梢蕴峁┏浞值恼Z義信息更好的為詞語的定義。詞向量空間模型(VSM)是一種廣泛應(yīng)用的基于統(tǒng)計(jì)的詞相似度計(jì)算方法。算法復(fù)雜度較低,模型易于實(shí)現(xiàn)。(1)VSM提前選取一組特征詞,然后計(jì)算特征詞集和每個(gè)詞之間的關(guān)聯(lián)(通常是根據(jù)在實(shí)際大型語料庫中上下文中出現(xiàn)的頻率來衡量)。所以每一個(gè)詞都有一個(gè)相同的詞向量的維度,然后多個(gè)詞之間的相似度就由這個(gè)公式得到,如公式(2-1)所示。(2-1)NDG的中文翻譯為,谷歌的標(biāo)準(zhǔn)距離越大代表越相似,范圍從0到1。在這些詞中,(x)、(y)(分別表示含有單詞x,y的網(wǎng)頁數(shù)量)、((x,y)、(n,y)(同時(shí)包含單詞x,y)和(N,google引用的網(wǎng)頁總數(shù))。距離法用于計(jì)算文本序列的相似性,其原理如下:目前有兩個(gè)短文本序列A和B,其中B是參考序列,執(zhí)行以下步驟:序列A刪除單詞;序列A增加單詞;序列A替換單詞。循環(huán)執(zhí)行,序列A完全轉(zhuǎn)換為序列B,且中間的操作次數(shù)記為E-D(A,B)。一個(gè)二維數(shù)組E-D[i][j]是表示轉(zhuǎn)換為短文本序列B的前j個(gè)字符由短文本序列A的前i個(gè)單詞轉(zhuǎn)換而成所需要的最小操作數(shù)。因此,E-D[i][j]的遞推式如下:(2-2)(2-3)編輯距離越小,得到更加相似的兩個(gè)字符串。相反,它越不一樣。(3)詞頻-反向文件頻率,即(TermFrequency-InverseDocumentFrequency)。termFrequency指的是某個(gè)單詞的詞頻[16]。與此同時(shí),為了避免對(duì)長文檔的傾斜,最后的數(shù)字通常會(huì)歸一化,也就是說,最后的數(shù)字在0到1之間。在公式1.4中,TF-IDF算法解決了哪一個(gè)詞最具代表性的問題,并給出了計(jì)算公式。(2-4)Tw表示文件中的總字?jǐn)?shù),s
(2-5)c指文集中的文件數(shù),c指含有w詞語的文件數(shù)量。在中文里經(jīng)常使用回復(fù),如“收到”、“嗨”等,每一篇文章中都可能含有他們,而且更經(jīng)常出現(xiàn)在每一篇文章中,這時(shí)TF-IDF就變小了。所以,TF-IDF會(huì)刪除掉常用詞,留下具有更高重要性的詞。TF?IDF=TF?IDF(2-6)1.2.4詞義消岐在NLP技術(shù)中,消除詞語的歧義是一個(gè)需要解決的重要問題。與其他語言相比,一詞多義是漢語難以理解的原因之一。由于漢語言傳承了中華文明上下500]多年,詞義可以是經(jīng)常變化的。隨著時(shí)間的推移,單詞在不同的上下文中會(huì)有不同的含義[17]。例如,在漢語中,“負(fù)擔(dān)”這個(gè)詞根據(jù)上下文有不同的含義。目前使用的深度學(xué)習(xí)消歧算法有兩種:有監(jiān)督的詞義消歧和無監(jiān)督的詞義消歧。下面的部分將深入討論這兩種算法。(1)有一些技術(shù)用于監(jiān)督詞義消歧。利用共享知識(shí)的詞義消歧過程,可以將兩種語言關(guān)聯(lián)起來,并采用基于大量雙語語料庫的教學(xué)模式進(jìn)行詞義消歧。基于貝葉斯分類器的消歧工具。下面的語境與條件機(jī)會(huì)、語境和一些多義解釋有關(guān)。兩者都基于一個(gè)前提,即一個(gè)隨機(jī)變量持有另一個(gè)隨機(jī)變量的信息。假設(shè)兩個(gè)隨機(jī)變量Y和X的概率分別為p(Y),P(X),聯(lián)合分布概率的代數(shù)式為p(X,Y),那么計(jì)算公式為:Ix;y不斷重復(fù)迭代訓(xùn)練的語料中,I(X;Y)繼續(xù)減少,而I(X;Y)不再減少小時(shí)結(jié)束訓(xùn)練的次數(shù)。在機(jī)器翻譯系統(tǒng)中,基于互信息的詞義消歧是最有效的方法。不管是兩種不同語言語料的局限性,還是多種語言語料能夠識(shí)別歧義的情況,都是有限的。采用Bayes分類器詞義消岐方法的主要思想是,在詞義消岐的應(yīng)用中,所有多義詞的語義都與其所處的環(huán)境和所處的語境有關(guān),貝葉斯定理用于估計(jì)某些情況下發(fā)生事件的可能性。語境和意義一般都是實(shí)現(xiàn)詞義歧義的環(huán)境和語境。其根本原因在于中文多義詞的意義都與該詞所處的環(huán)境和所處的語境有關(guān)[18]。多義語義確定方法是根據(jù)詞義語料庫計(jì)算該多義語料庫在當(dāng)前環(huán)境和當(dāng)前語境下的所有語義項(xiàng)目的概率,將概率最高的語義項(xiàng)目視為該多義語料庫在當(dāng)前環(huán)境和當(dāng)前語境下的意義,假設(shè)語境記c,語義記s,多義詞記w,而多義詞記w在語境c下具有語義s概率p(s|c)。psc在p(s|c)中,語義的最大似然是S,而P(c)是定值的,此計(jì)算只需要考慮分子的最大值,因?yàn)樯舷挛腸由幾個(gè)詞v組成,所以可以將p(c|s)視為一個(gè)p(v|s),也就是說,要求最大的p(s|c),即求一個(gè)p(v|s)的最大值,而當(dāng)文本數(shù)據(jù)很多時(shí),常采用極大似然概率法來求p(s)。(2)無請(qǐng)注意解讀單詞含義的技巧。無監(jiān)督詞義識(shí)別是可行的,因?yàn)闊o監(jiān)督詞義消歧困難,且詞義不需要標(biāo)注。貝葉斯分類器常用于無監(jiān)督詞義消歧。然而,與基于貝葉斯的監(jiān)督詞義消歧方法不同的是,該方法只對(duì)訓(xùn)練語料的一部分進(jìn)行標(biāo)注。參數(shù)在訓(xùn)練過程中隨機(jī)初始化,然后對(duì)參數(shù)所用的概率值進(jìn)行重新估計(jì),常用的算法是最大期望法,這里的參數(shù)估計(jì)不是基于有標(biāo)注的訓(xùn)練預(yù)料,而是先隨機(jī)初始化參數(shù)p(v|s),然后重新估計(jì)這個(gè)概率值,也就是對(duì)w的每一個(gè)上下文c計(jì)算p(c|s),這樣可以得到真實(shí)數(shù)據(jù)的似然值,回過來再重新估計(jì)p(v
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年興安職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試題庫附答案解析
- 2025年烏海職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試模擬測試卷附答案解析
- 2025年安徽水利水電職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)考試模擬測試卷附答案解析
- 2025年四川現(xiàn)代職業(yè)學(xué)院單招職業(yè)傾向性考試題庫附答案解析
- 2025年四川長江職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫附答案解析
- 2025年包頭職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試模擬測試卷附答案解析
- 2023年焦作師范高等??茖W(xué)校單招職業(yè)適應(yīng)性考試題庫附答案解析
- 2025年湖北省荊門市單招職業(yè)適應(yīng)性考試模擬測試卷附答案解析
- 2025年中國計(jì)量大學(xué)單招職業(yè)技能測試題庫附答案解析
- 2023年臺(tái)州科技職業(yè)學(xué)院單招職業(yè)技能考試模擬測試卷附答案解析
- 【數(shù) 學(xué)】2025-2026學(xué)年北師大版數(shù)學(xué)七年級(jí)上冊(cè)期末練習(xí)(一)
- (一診)成都市2023級(jí)高三高中畢業(yè)班第一次診斷性檢測英語試卷(含官方答案)
- 月子會(huì)所的禮儀培訓(xùn)課件
- 國家開放大學(xué)行管??啤缎姓M織學(xué)》期末紙質(zhì)考試總題庫(2025春期版)
- 中國慢性冠脈綜合征患者診斷及管理指南2024版解讀
- iso28000-2022供應(yīng)鏈安全管理手冊(cè)程序文件表單一整套
- 吟誦古詩課程設(shè)計(jì)
- 2024年保安員證考試題庫及答案(共130題)
- 2024年中國紅芪市場調(diào)查研究報(bào)告
- NB-T42167-2018預(yù)制艙式二次組合設(shè)備技術(shù)要求
- 中國法律史-第二次平時(shí)作業(yè)-國開-參考資料
評(píng)論
0/150
提交評(píng)論