中文問(wèn)答系統(tǒng)中答案抽取的研究與實(shí)現(xiàn)課件_第1頁(yè)
中文問(wèn)答系統(tǒng)中答案抽取的研究與實(shí)現(xiàn)課件_第2頁(yè)
中文問(wèn)答系統(tǒng)中答案抽取的研究與實(shí)現(xiàn)課件_第3頁(yè)
中文問(wèn)答系統(tǒng)中答案抽取的研究與實(shí)現(xiàn)課件_第4頁(yè)
中文問(wèn)答系統(tǒng)中答案抽取的研究與實(shí)現(xiàn)課件_第5頁(yè)
已閱讀5頁(yè),還剩45頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

--吉林大學(xué)2010年碩士論文中文問(wèn)答系統(tǒng)中答案抽取的研究與實(shí)現(xiàn)--吉林大學(xué)2010年碩士論文中文問(wèn)答系統(tǒng)中答案抽取的目錄目錄提要

在答案抽取的研究中,本文采納了一種基于規(guī)則改進(jìn)的問(wèn)題分類(lèi)方法,而后提出了一種基于依存樹(shù)的語(yǔ)義匹配相似度算法,對(duì)問(wèn)題句與候選答案句進(jìn)行相似度計(jì)算,根據(jù)相似度的高低對(duì)答案進(jìn)行抽取,最后通過(guò)具體的實(shí)驗(yàn)實(shí)現(xiàn)了答案抽取的全過(guò)程。

實(shí)驗(yàn)結(jié)果表明,在保證問(wèn)題分析模塊問(wèn)題分類(lèi)準(zhǔn)確的情況下,得到用戶(hù)所需答案的準(zhǔn)確率可以達(dá)到92%以上,相比其它算法有效地提高了答案抽取的準(zhǔn)確度。提要在答案抽取的研究中,本文采納了一種基于規(guī)則改進(jìn)的問(wèn)人們期待更快速準(zhǔn)確的搜索技術(shù)出現(xiàn);據(jù)統(tǒng)計(jì),人們花費(fèi)在答案抽取的時(shí)間很長(zhǎng);傳統(tǒng)的搜索引擎有很多弊端;問(wèn)答系統(tǒng)因此產(chǎn)生。緒論—背景與意義人們期待更快速準(zhǔn)確的搜索技術(shù)出現(xiàn);緒論—背景與意義

問(wèn)答系統(tǒng)主要包括問(wèn)題分析、信息檢索和答案抽取3個(gè)主要模塊。

問(wèn)題分析模塊的主要工作包括對(duì)問(wèn)題進(jìn)行分類(lèi)、抽取問(wèn)題的關(guān)鍵詞、對(duì)關(guān)鍵詞進(jìn)行擴(kuò)展等;信息檢索模塊的主要任務(wù)是對(duì)文檔庫(kù)或網(wǎng)絡(luò)搜索引擎進(jìn)行檢索,返回一些與問(wèn)題相關(guān)的文檔或網(wǎng)頁(yè);

答案抽取模塊的主要任務(wù)則是對(duì)信息檢索模塊得到的候選文檔或網(wǎng)頁(yè)進(jìn)行處理,得到問(wèn)題的候選答案集,并通過(guò)一定的算法從候選答案集中抽取出正確答案。緒論—背景與意義問(wèn)答系統(tǒng)主要包括問(wèn)題分析、信息檢索和答案抽取3個(gè)主要模塊答案抽取的基本步驟一般如下:①把從信息檢索模塊得到的候選文檔或網(wǎng)頁(yè)進(jìn)行處理,切分成單個(gè)句子,作為候選答案集。②根據(jù)問(wèn)題的類(lèi)型,對(duì)候選答案集進(jìn)一步處理,排除兀余的句子,減少候選答案的空間。③應(yīng)用相似度計(jì)算算法,計(jì)算候選答案句與問(wèn)題句的相似度。④根據(jù)相似度的高低對(duì)候選答案進(jìn)行排序,返回相似高的句子。對(duì)于答案為一個(gè)詞的問(wèn)題,根據(jù)問(wèn)題的類(lèi)型,采用相應(yīng)的抽取策略,對(duì)返回的答案句進(jìn)行分析,可能需要進(jìn)行命名實(shí)體的識(shí)別工作,來(lái)返回精確的答案。緒論—簡(jiǎn)介答案抽取的基本步驟一般如下:緒論—簡(jiǎn)介本文所要做的具體工作:1.問(wèn)題分析模塊的處理:通過(guò)改進(jìn)規(guī)則對(duì)問(wèn)題進(jìn)行分類(lèi),通過(guò)對(duì)問(wèn)句進(jìn)行詞法分析和句法分析,抽取和擴(kuò)展問(wèn)題關(guān)鍵詞,必要時(shí)對(duì)重寫(xiě)問(wèn)句,為答案抽取的研究做好準(zhǔn)備工作。

2.信息檢索模塊的處理:將擴(kuò)展后的關(guān)鍵詞提交給Google搜索引擎,返回與問(wèn)題相關(guān)的文檔和網(wǎng)頁(yè)。

3.答案抽取模塊的處理:對(duì)返回的相關(guān)文檔和網(wǎng)頁(yè)進(jìn)行處理,形成問(wèn)題的候選答案集,對(duì)問(wèn)題句和候選答案句進(jìn)行句法分析,計(jì)算問(wèn)題句和候選答案句的相似度,以相似度的高低排序候選答案,根據(jù)相應(yīng)的答案抽取策略,返回問(wèn)題的答案。緒論—本文的工作本文所要做的具體工作:緒論—本文的工作問(wèn)答系統(tǒng)包含三個(gè)核心模塊:問(wèn)題分析、信息檢索和答案抽取。模塊之間的關(guān)系如圖所示:緒論—問(wèn)答系統(tǒng)問(wèn)答系統(tǒng)包含三個(gè)核心模塊:問(wèn)題分析、信息檢索和答案抽取。模塊答案抽取模塊的工作流程如下:①把從信息檢索模塊得到的候選文檔或網(wǎng)頁(yè)切分成句子,作為候選答案集。②根據(jù)問(wèn)題的類(lèi)型,對(duì)候選答案集進(jìn)一步處理,排除冗余的句子,減少候選答案的空間。③應(yīng)用相似度計(jì)算算法,計(jì)算候選答案句與問(wèn)題句的相似度。④根據(jù)相似度的高低對(duì)候選答案進(jìn)行排序,返回相似高的句子。⑤對(duì)相似度高的句子進(jìn)行重新分析,根據(jù)問(wèn)題的類(lèi)型所對(duì)應(yīng)的抽取策略,返回給用戶(hù)需要的答案?;诰浞ǚ治龅拇鸢赋槿∷惴ù鸢赋槿∧K的工作流程如下:基于句法分析的答案抽取算法在第③步中進(jìn)行相似度計(jì)算時(shí),需要進(jìn)行如下考慮:為了使相似度的計(jì)算更加準(zhǔn)確,需要對(duì)句子進(jìn)行句法分析,得到句子中的關(guān)鍵詞,和關(guān)鍵詞有相同語(yǔ)義的詞語(yǔ),有時(shí)還需要考慮詞語(yǔ)之間的順序,以及各個(gè)詞語(yǔ)之間的相互依存關(guān)系,根據(jù)詞語(yǔ)的重要程度,為不同的詞語(yǔ)設(shè)置不同的權(quán)重?;诰浞ǚ治龅拇鸢赋槿∷惴ㄔ诘冖鄄街羞M(jìn)行相似度計(jì)算時(shí),需要進(jìn)行如下考慮:比較典型的算法有以下幾種:(1)基于模式匹配的算法原理是:根據(jù)問(wèn)題的類(lèi)型,制定不同類(lèi)型問(wèn)題的答案模板。由于答案模板的覆蓋率是有限的,因此這種算法的匹配程度不是很高。(2)基于信息檢索和信息抽取的算法此算法主要是基于關(guān)鍵詞來(lái)進(jìn)行檢索,它只考慮離散的詞語(yǔ),沒(méi)有對(duì)句子的句法進(jìn)行更深層次的分析,沒(méi)有考慮詞語(yǔ)與詞語(yǔ)之間的順序以及各個(gè)詞語(yǔ)之間的相互依存關(guān)系,僅使用了匹配詞與候選答案詞的距離這一個(gè)特征,注定抽取出來(lái)的結(jié)果不會(huì)是很精確的答案。答案抽取算法介紹比較典型的算法有以下幾種:答案抽取算法介紹比較典型的算法有以下幾種:(3)基于統(tǒng)計(jì)學(xué)習(xí)的算法基于統(tǒng)計(jì)的方法主要對(duì)測(cè)試集進(jìn)行訓(xùn)練,來(lái)構(gòu)建隱馬爾可夫模型或支持向量空間模型的方法,通過(guò)分析問(wèn)句與答案句的各種相關(guān)特征,計(jì)算句子作為正確答案的概率。(4)基于自然語(yǔ)言處理的算法此算法主要是在對(duì)句子進(jìn)行處理后,把每個(gè)句子表示成一個(gè)向量,通過(guò)對(duì)問(wèn)題句與答案句進(jìn)行相似度計(jì)算,返回相似度高的句子,然后再把返回的句子,根據(jù)問(wèn)題的類(lèi)型進(jìn)行處理,返回給用戶(hù)所需要的答案。答案抽取算法介紹比較典型的算法有以下幾種:答案抽取算法介紹每種答案抽取算法都有一定的弊端,現(xiàn)在所研究的答案抽取算法基本都是對(duì)句子進(jìn)行句法分析處理基礎(chǔ)之上的,得到的準(zhǔn)確率是非常高的,因此本文提出了基于依存樹(shù)的語(yǔ)義匹配相似度算法。答案抽取算法介紹每種答案抽取算法都有一定的弊端,現(xiàn)在所研究的答案抽

在進(jìn)行相似度計(jì)算對(duì)答案抽取之前,首先要對(duì)句子做更深層的處理,對(duì)句子進(jìn)行句法和語(yǔ)義分析。通過(guò)詞與詞之間的相互依賴(lài)關(guān)系對(duì)句子進(jìn)行句法分析是目前研究句子結(jié)構(gòu)和語(yǔ)義的主要方法之一。

在進(jìn)行相似度計(jì)算時(shí),盡量先對(duì)句子進(jìn)行預(yù)處理,去除一些不必要的修飾詞,得到兩個(gè)意思相同的句子。句法依存結(jié)構(gòu)分析在進(jìn)行相似度計(jì)算對(duì)答案抽取之前,首先要對(duì)句子做更

相似度是一個(gè)0、1之間的浮點(diǎn)數(shù),兩個(gè)句子經(jīng)過(guò)相似度計(jì)算得到的結(jié)果越大,則表示兩者之間的匹配程度越高,例如:“我喜歡吃土豆”“我愛(ài)吃馬鈴薯”在經(jīng)過(guò)語(yǔ)義分析之后,計(jì)算兩者的相似度得到的結(jié)果為1,這樣得出結(jié)論兩者的語(yǔ)義是完全相同的。中文句子相似度計(jì)算相似度是一個(gè)0、1之間的浮點(diǎn)數(shù),兩個(gè)句子經(jīng)過(guò)相似度的計(jì)算方法分為以下幾種:(1)基于關(guān)鍵詞的相似度計(jì)算這種計(jì)算方法對(duì)句子進(jìn)行分詞處理后,把句子看成詞的線性序列,只是根據(jù)句子中的單詞出現(xiàn)的頻率等相關(guān)信息來(lái)計(jì)算句子的相似度。

把兩個(gè)句子之間相互匹配的問(wèn)題轉(zhuǎn)化為向量空間中兩個(gè)向量之間相互匹配的問(wèn)題,兩個(gè)句子的相似度可以用兩個(gè)空間向量之間的夾角來(lái)衡量,夾角越小相似度越高。有一定的局限性中文句子相似度計(jì)算相似度的計(jì)算方法分為以下幾種:中文句子相似度計(jì)算(2)基于語(yǔ)義的相似度計(jì)算采用基于語(yǔ)義詞典進(jìn)行計(jì)算。首先要計(jì)算句子中各個(gè)詞語(yǔ)之間的相似度,然后通過(guò)詞語(yǔ)之間的相似度再去計(jì)算句子的相似度。對(duì)句子進(jìn)行分詞和去除冗余信息處理后,在《同義詞詞林》中查找這些關(guān)鍵詞的語(yǔ)義編碼,通過(guò)對(duì)編碼進(jìn)行分析來(lái)計(jì)算詞與詞之間的語(yǔ)義距離。

評(píng)價(jià):這種方法需要一定的語(yǔ)義資源作為基礎(chǔ),而且沒(méi)有考慮詞語(yǔ)在句子中的權(quán)重,實(shí)用性是不很高。但由于語(yǔ)義資源的統(tǒng)計(jì)還不是很全面,也沒(méi)有考慮到句子的成分以及各詞語(yǔ)之間的依存關(guān)系,因此相似度的計(jì)算還是有一定的誤差。中文句子相似度計(jì)算(2)基于語(yǔ)義的相似度計(jì)算中文句子相似度計(jì)算(3)基于句法的搭配詞對(duì)的相似度的計(jì)算舉例說(shuō)明:句子1:許多優(yōu)秀的人才都被送往國(guó)外學(xué)習(xí)。

句子2:越來(lái)越多的人才都被送到了國(guó)外。經(jīng)過(guò)對(duì)依存關(guān)系的分析和一些詞語(yǔ)的處理后,得到句子S1中有效詞搭配對(duì):送往-人才,送往-國(guó)外,送往-學(xué)習(xí)。句子S2中有效詞搭配對(duì):送到-人才,送到-國(guó)外。有效搭配詞對(duì)匹配權(quán)重加入同義詞的處理,相似度有了一定程度的提高。中文句子相似度計(jì)算(3)基于句法的搭配詞對(duì)的相似度的計(jì)算中文句子相似度計(jì)算(4)基于依存樹(shù)的語(yǔ)義匹配相似度算法在本算法中,重新生成一個(gè)依存樹(shù),該依存樹(shù)的根節(jié)點(diǎn)為核心詞,孩子結(jié)點(diǎn)為那些依附于核心詞的詞語(yǔ),這樣得到一個(gè)高度為s的依存樹(shù),然后分層來(lái)計(jì)算依存樹(shù)的語(yǔ)義距離和相似度,只考慮依存樹(shù)的前兩層。

中文句子相似度計(jì)算(4)基于依存樹(shù)的語(yǔ)義匹配相似度算法中文句子相似度計(jì)算(4)基于依存樹(shù)的語(yǔ)義匹配相似度算法假設(shè)第一個(gè)依存樹(shù)的第二層有m個(gè)孩子結(jié)點(diǎn),第二個(gè)依存樹(shù)的第二層有n個(gè)孩子結(jié)點(diǎn),分別計(jì)算依存樹(shù)S1到依存樹(shù)S2的第二層之間的相似度,同理計(jì)算出依存樹(shù)S2到依存樹(shù)S1的第二層之間的相似度,兩者取平均值得到兩棵依存樹(shù)第二層之間的相似度,然后對(duì)每一層設(shè)置一定的權(quán)重,綜合每層的相似度得到兩個(gè)句子的之間相似度。中文句子相似度計(jì)算(4)基于依存樹(shù)的語(yǔ)義匹配相似度算法中文句子相似度計(jì)算基本步驟如下:Step1:首先對(duì)問(wèn)題進(jìn)行分析,對(duì)問(wèn)句進(jìn)行分詞和詞性標(biāo)注處理。Step2:對(duì)問(wèn)題進(jìn)行分類(lèi),制定相應(yīng)的答案抽取策略。Step3:抽取進(jìn)行查詢(xún)的關(guān)鍵詞。Step4:利用《同義詞詞林》,擴(kuò)展關(guān)鍵詞。Step5:進(jìn)行信息抽取模塊的處理,把第3步和第4步得到的問(wèn)題關(guān)鍵詞輸入到Google網(wǎng)絡(luò)搜索引擎中,得到一些與問(wèn)題相關(guān)文檔信息。Step6:對(duì)搜索出的前五個(gè)相關(guān)文檔進(jìn)行處理,得到一些以問(wèn)題相關(guān)的獨(dú)立的句子,即為測(cè)試的答案候選集,用于后面進(jìn)行相似度的計(jì)算。Step7:利用相似度算法,計(jì)算問(wèn)句與候選答案句的之間的相似度。Step8:根據(jù)相似度的高低,對(duì)候選答案句進(jìn)行排序,返回相似度高的答案句作為問(wèn)題的答案。Step9:根據(jù)問(wèn)題類(lèi)型,形成答案。實(shí)驗(yàn)方法與步驟基本步驟如下:實(shí)驗(yàn)方法與步驟(1)問(wèn)題分類(lèi)實(shí)驗(yàn)分析(2)相似度計(jì)算算法實(shí)驗(yàn)分析選取問(wèn)題集中的437個(gè)問(wèn)題計(jì)算最高相似度的平均值實(shí)驗(yàn)結(jié)果分析(1)問(wèn)題分類(lèi)實(shí)驗(yàn)分析實(shí)驗(yàn)結(jié)果分析(2)相似度計(jì)算算法實(shí)驗(yàn)分析本文對(duì)語(yǔ)義樹(shù)的層次進(jìn)行分析,對(duì)于每個(gè)層次給出不同的權(quán)值,權(quán)值的確定是在實(shí)驗(yàn)的過(guò)程中所確定的,在實(shí)驗(yàn)中設(shè)置幾組權(quán)值a、b的值,然后分別計(jì)算出語(yǔ)句的相似度,然后計(jì)算出平均相似度。實(shí)驗(yàn)結(jié)果分析(2)相似度計(jì)算算法實(shí)驗(yàn)分析實(shí)驗(yàn)結(jié)果分析在今后中文問(wèn)答系統(tǒng)研究中,還有很多工作要做:(1)問(wèn)題分析模塊中分詞和詞性標(biāo)注準(zhǔn)確度的提高(2)問(wèn)題分類(lèi)算法的研究(3)答案抽取算法的研究句法分析研究需要深入答案抽取算法改進(jìn)展望在今后中文問(wèn)答系統(tǒng)研究中,還有很多工作要做:展望ThankYou!謝謝聆聽(tīng)ThankYou!謝謝聆聽(tīng)--吉林大學(xué)2010年碩士論文中文問(wèn)答系統(tǒng)中答案抽取的研究與實(shí)現(xiàn)--吉林大學(xué)2010年碩士論文中文問(wèn)答系統(tǒng)中答案抽取的目錄目錄提要

在答案抽取的研究中,本文采納了一種基于規(guī)則改進(jìn)的問(wèn)題分類(lèi)方法,而后提出了一種基于依存樹(shù)的語(yǔ)義匹配相似度算法,對(duì)問(wèn)題句與候選答案句進(jìn)行相似度計(jì)算,根據(jù)相似度的高低對(duì)答案進(jìn)行抽取,最后通過(guò)具體的實(shí)驗(yàn)實(shí)現(xiàn)了答案抽取的全過(guò)程。

實(shí)驗(yàn)結(jié)果表明,在保證問(wèn)題分析模塊問(wèn)題分類(lèi)準(zhǔn)確的情況下,得到用戶(hù)所需答案的準(zhǔn)確率可以達(dá)到92%以上,相比其它算法有效地提高了答案抽取的準(zhǔn)確度。提要在答案抽取的研究中,本文采納了一種基于規(guī)則改進(jìn)的問(wèn)人們期待更快速準(zhǔn)確的搜索技術(shù)出現(xiàn);據(jù)統(tǒng)計(jì),人們花費(fèi)在答案抽取的時(shí)間很長(zhǎng);傳統(tǒng)的搜索引擎有很多弊端;問(wèn)答系統(tǒng)因此產(chǎn)生。緒論—背景與意義人們期待更快速準(zhǔn)確的搜索技術(shù)出現(xiàn);緒論—背景與意義

問(wèn)答系統(tǒng)主要包括問(wèn)題分析、信息檢索和答案抽取3個(gè)主要模塊。

問(wèn)題分析模塊的主要工作包括對(duì)問(wèn)題進(jìn)行分類(lèi)、抽取問(wèn)題的關(guān)鍵詞、對(duì)關(guān)鍵詞進(jìn)行擴(kuò)展等;信息檢索模塊的主要任務(wù)是對(duì)文檔庫(kù)或網(wǎng)絡(luò)搜索引擎進(jìn)行檢索,返回一些與問(wèn)題相關(guān)的文檔或網(wǎng)頁(yè);

答案抽取模塊的主要任務(wù)則是對(duì)信息檢索模塊得到的候選文檔或網(wǎng)頁(yè)進(jìn)行處理,得到問(wèn)題的候選答案集,并通過(guò)一定的算法從候選答案集中抽取出正確答案。緒論—背景與意義問(wèn)答系統(tǒng)主要包括問(wèn)題分析、信息檢索和答案抽取3個(gè)主要模塊答案抽取的基本步驟一般如下:①把從信息檢索模塊得到的候選文檔或網(wǎng)頁(yè)進(jìn)行處理,切分成單個(gè)句子,作為候選答案集。②根據(jù)問(wèn)題的類(lèi)型,對(duì)候選答案集進(jìn)一步處理,排除兀余的句子,減少候選答案的空間。③應(yīng)用相似度計(jì)算算法,計(jì)算候選答案句與問(wèn)題句的相似度。④根據(jù)相似度的高低對(duì)候選答案進(jìn)行排序,返回相似高的句子。對(duì)于答案為一個(gè)詞的問(wèn)題,根據(jù)問(wèn)題的類(lèi)型,采用相應(yīng)的抽取策略,對(duì)返回的答案句進(jìn)行分析,可能需要進(jìn)行命名實(shí)體的識(shí)別工作,來(lái)返回精確的答案。緒論—簡(jiǎn)介答案抽取的基本步驟一般如下:緒論—簡(jiǎn)介本文所要做的具體工作:1.問(wèn)題分析模塊的處理:通過(guò)改進(jìn)規(guī)則對(duì)問(wèn)題進(jìn)行分類(lèi),通過(guò)對(duì)問(wèn)句進(jìn)行詞法分析和句法分析,抽取和擴(kuò)展問(wèn)題關(guān)鍵詞,必要時(shí)對(duì)重寫(xiě)問(wèn)句,為答案抽取的研究做好準(zhǔn)備工作。

2.信息檢索模塊的處理:將擴(kuò)展后的關(guān)鍵詞提交給Google搜索引擎,返回與問(wèn)題相關(guān)的文檔和網(wǎng)頁(yè)。

3.答案抽取模塊的處理:對(duì)返回的相關(guān)文檔和網(wǎng)頁(yè)進(jìn)行處理,形成問(wèn)題的候選答案集,對(duì)問(wèn)題句和候選答案句進(jìn)行句法分析,計(jì)算問(wèn)題句和候選答案句的相似度,以相似度的高低排序候選答案,根據(jù)相應(yīng)的答案抽取策略,返回問(wèn)題的答案。緒論—本文的工作本文所要做的具體工作:緒論—本文的工作問(wèn)答系統(tǒng)包含三個(gè)核心模塊:問(wèn)題分析、信息檢索和答案抽取。模塊之間的關(guān)系如圖所示:緒論—問(wèn)答系統(tǒng)問(wèn)答系統(tǒng)包含三個(gè)核心模塊:問(wèn)題分析、信息檢索和答案抽取。模塊答案抽取模塊的工作流程如下:①把從信息檢索模塊得到的候選文檔或網(wǎng)頁(yè)切分成句子,作為候選答案集。②根據(jù)問(wèn)題的類(lèi)型,對(duì)候選答案集進(jìn)一步處理,排除冗余的句子,減少候選答案的空間。③應(yīng)用相似度計(jì)算算法,計(jì)算候選答案句與問(wèn)題句的相似度。④根據(jù)相似度的高低對(duì)候選答案進(jìn)行排序,返回相似高的句子。⑤對(duì)相似度高的句子進(jìn)行重新分析,根據(jù)問(wèn)題的類(lèi)型所對(duì)應(yīng)的抽取策略,返回給用戶(hù)需要的答案。基于句法分析的答案抽取算法答案抽取模塊的工作流程如下:基于句法分析的答案抽取算法在第③步中進(jìn)行相似度計(jì)算時(shí),需要進(jìn)行如下考慮:為了使相似度的計(jì)算更加準(zhǔn)確,需要對(duì)句子進(jìn)行句法分析,得到句子中的關(guān)鍵詞,和關(guān)鍵詞有相同語(yǔ)義的詞語(yǔ),有時(shí)還需要考慮詞語(yǔ)之間的順序,以及各個(gè)詞語(yǔ)之間的相互依存關(guān)系,根據(jù)詞語(yǔ)的重要程度,為不同的詞語(yǔ)設(shè)置不同的權(quán)重。基于句法分析的答案抽取算法在第③步中進(jìn)行相似度計(jì)算時(shí),需要進(jìn)行如下考慮:比較典型的算法有以下幾種:(1)基于模式匹配的算法原理是:根據(jù)問(wèn)題的類(lèi)型,制定不同類(lèi)型問(wèn)題的答案模板。由于答案模板的覆蓋率是有限的,因此這種算法的匹配程度不是很高。(2)基于信息檢索和信息抽取的算法此算法主要是基于關(guān)鍵詞來(lái)進(jìn)行檢索,它只考慮離散的詞語(yǔ),沒(méi)有對(duì)句子的句法進(jìn)行更深層次的分析,沒(méi)有考慮詞語(yǔ)與詞語(yǔ)之間的順序以及各個(gè)詞語(yǔ)之間的相互依存關(guān)系,僅使用了匹配詞與候選答案詞的距離這一個(gè)特征,注定抽取出來(lái)的結(jié)果不會(huì)是很精確的答案。答案抽取算法介紹比較典型的算法有以下幾種:答案抽取算法介紹比較典型的算法有以下幾種:(3)基于統(tǒng)計(jì)學(xué)習(xí)的算法基于統(tǒng)計(jì)的方法主要對(duì)測(cè)試集進(jìn)行訓(xùn)練,來(lái)構(gòu)建隱馬爾可夫模型或支持向量空間模型的方法,通過(guò)分析問(wèn)句與答案句的各種相關(guān)特征,計(jì)算句子作為正確答案的概率。(4)基于自然語(yǔ)言處理的算法此算法主要是在對(duì)句子進(jìn)行處理后,把每個(gè)句子表示成一個(gè)向量,通過(guò)對(duì)問(wèn)題句與答案句進(jìn)行相似度計(jì)算,返回相似度高的句子,然后再把返回的句子,根據(jù)問(wèn)題的類(lèi)型進(jìn)行處理,返回給用戶(hù)所需要的答案。答案抽取算法介紹比較典型的算法有以下幾種:答案抽取算法介紹每種答案抽取算法都有一定的弊端,現(xiàn)在所研究的答案抽取算法基本都是對(duì)句子進(jìn)行句法分析處理基礎(chǔ)之上的,得到的準(zhǔn)確率是非常高的,因此本文提出了基于依存樹(shù)的語(yǔ)義匹配相似度算法。答案抽取算法介紹每種答案抽取算法都有一定的弊端,現(xiàn)在所研究的答案抽

在進(jìn)行相似度計(jì)算對(duì)答案抽取之前,首先要對(duì)句子做更深層的處理,對(duì)句子進(jìn)行句法和語(yǔ)義分析。通過(guò)詞與詞之間的相互依賴(lài)關(guān)系對(duì)句子進(jìn)行句法分析是目前研究句子結(jié)構(gòu)和語(yǔ)義的主要方法之一。

在進(jìn)行相似度計(jì)算時(shí),盡量先對(duì)句子進(jìn)行預(yù)處理,去除一些不必要的修飾詞,得到兩個(gè)意思相同的句子。句法依存結(jié)構(gòu)分析在進(jìn)行相似度計(jì)算對(duì)答案抽取之前,首先要對(duì)句子做更

相似度是一個(gè)0、1之間的浮點(diǎn)數(shù),兩個(gè)句子經(jīng)過(guò)相似度計(jì)算得到的結(jié)果越大,則表示兩者之間的匹配程度越高,例如:“我喜歡吃土豆”“我愛(ài)吃馬鈴薯”在經(jīng)過(guò)語(yǔ)義分析之后,計(jì)算兩者的相似度得到的結(jié)果為1,這樣得出結(jié)論兩者的語(yǔ)義是完全相同的。中文句子相似度計(jì)算相似度是一個(gè)0、1之間的浮點(diǎn)數(shù),兩個(gè)句子經(jīng)過(guò)相似度的計(jì)算方法分為以下幾種:(1)基于關(guān)鍵詞的相似度計(jì)算這種計(jì)算方法對(duì)句子進(jìn)行分詞處理后,把句子看成詞的線性序列,只是根據(jù)句子中的單詞出現(xiàn)的頻率等相關(guān)信息來(lái)計(jì)算句子的相似度。

把兩個(gè)句子之間相互匹配的問(wèn)題轉(zhuǎn)化為向量空間中兩個(gè)向量之間相互匹配的問(wèn)題,兩個(gè)句子的相似度可以用兩個(gè)空間向量之間的夾角來(lái)衡量,夾角越小相似度越高。有一定的局限性中文句子相似度計(jì)算相似度的計(jì)算方法分為以下幾種:中文句子相似度計(jì)算(2)基于語(yǔ)義的相似度計(jì)算采用基于語(yǔ)義詞典進(jìn)行計(jì)算。首先要計(jì)算句子中各個(gè)詞語(yǔ)之間的相似度,然后通過(guò)詞語(yǔ)之間的相似度再去計(jì)算句子的相似度。對(duì)句子進(jìn)行分詞和去除冗余信息處理后,在《同義詞詞林》中查找這些關(guān)鍵詞的語(yǔ)義編碼,通過(guò)對(duì)編碼進(jìn)行分析來(lái)計(jì)算詞與詞之間的語(yǔ)義距離。

評(píng)價(jià):這種方法需要一定的語(yǔ)義資源作為基礎(chǔ),而且沒(méi)有考慮詞語(yǔ)在句子中的權(quán)重,實(shí)用性是不很高。但由于語(yǔ)義資源的統(tǒng)計(jì)還不是很全面,也沒(méi)有考慮到句子的成分以及各詞語(yǔ)之間的依存關(guān)系,因此相似度的計(jì)算還是有一定的誤差。中文句子相似度計(jì)算(2)基于語(yǔ)義的相似度計(jì)算中文句子相似度計(jì)算(3)基于句法的搭配詞對(duì)的相似度的計(jì)算舉例說(shuō)明:句子1:許多優(yōu)秀的人才都被送往國(guó)外學(xué)習(xí)。

句子2:越來(lái)越多的人才都被送到了國(guó)外。經(jīng)過(guò)對(duì)依存關(guān)系的分析和一些詞語(yǔ)的處理后,得到句子S1中有效詞搭配對(duì):送往-人才,送往-國(guó)外,送往-學(xué)習(xí)。句子S2中有效詞搭配對(duì):送到-人才,送到-國(guó)外。有效搭配詞對(duì)匹配權(quán)重加入同義詞的處理,相似度有了一定程度的提高。中文句子相似度計(jì)算(3)基于句法的搭配詞對(duì)的相似度的計(jì)算中文句子相似度計(jì)算(4)基于依存樹(shù)的語(yǔ)義匹配相似度算法在本算法中,重新生成一個(gè)依存樹(shù),該依存樹(shù)的根節(jié)點(diǎn)為核心詞,孩子結(jié)點(diǎn)為那些依附于核心詞的詞語(yǔ),這樣得到一個(gè)高度為s的依存樹(shù),然后分層來(lái)計(jì)算依存樹(shù)的語(yǔ)義距離和相似度,只考慮依存樹(shù)的前兩層。

中文句子相似度計(jì)算(4)基于依存樹(shù)的語(yǔ)義匹配相似度算法中文句子相似度計(jì)算(4)基于依存樹(shù)的語(yǔ)義匹配相似度算法假設(shè)第一個(gè)依存樹(shù)的第二層有m個(gè)孩子結(jié)點(diǎn),第二個(gè)依存樹(shù)的第二層有n個(gè)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論