智能答疑系統(tǒng)的設(shè)計與實現(xiàn)_第1頁
智能答疑系統(tǒng)的設(shè)計與實現(xiàn)_第2頁
智能答疑系統(tǒng)的設(shè)計與實現(xiàn)_第3頁
智能答疑系統(tǒng)的設(shè)計與實現(xiàn)_第4頁
智能答疑系統(tǒng)的設(shè)計與實現(xiàn)_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

PAGE1文檔分享平臺智能答疑系統(tǒng)的設(shè)計與實現(xiàn)柳泉波、黃榮懷、何克抗北京師范大學(xué)現(xiàn)代教育技術(shù)研究所(100875)一、問題的提出對于網(wǎng)上學(xué)習(xí),由與教師和學(xué)生在地理位置上的分離,沒有了教師面對面的解釋和演繹,學(xué)習(xí)者必須進行自主學(xué)習(xí)。它要求學(xué)習(xí)者從聽眾變成索求者,進行深入的思考,但到了百思不得其解時,及時的答疑和幫助則成了必不可少的內(nèi)容。這就要求網(wǎng)上教學(xué)系統(tǒng)能夠及時解答學(xué)生的疑難問題,消除學(xué)生的學(xué)習(xí)障礙。因此,答疑系統(tǒng)是網(wǎng)上教育平臺的重要組成部分之一,它在加強教師和學(xué)生的交流,幫助學(xué)生明確問題的所在和獲得自己真正需要的答案信息方面具有不可或缺的作用。根據(jù)目前國內(nèi)的具有代表性的遠程教育系統(tǒng)中有關(guān)答疑部分的特點,可以將之分為以下幾類:沒有專門的答疑部件。此類系統(tǒng)中教師與學(xué)生的信息交流方式僅局限于電子郵件直接聯(lián)系,或者利用系統(tǒng)留言版發(fā)布公告信息。如北京郵電大學(xué)現(xiàn)代遠程教育系統(tǒng),華南理工大學(xué)遠程教育中心,浙江大學(xué)現(xiàn)代遠程教育中心等研制的系統(tǒng)和大部分的面向中小學(xué)的遠程教育系統(tǒng)等均屬于這一類。具有初步的答疑部件。此類系統(tǒng)的特點是提供了WEBBBS的討論方式,也可以進行教師主持下的WEB實時聊天討論。屬于這類系統(tǒng)如清華大學(xué)遠程教育系統(tǒng)和湖南大學(xué)多媒體信息教育學(xué)院的遠程教育系統(tǒng)。具備了自動答疑功能的答疑部件。此類系統(tǒng)的典型代表是上海交通大學(xué)的遠程教育設(shè)計中心設(shè)計開發(fā)的AnswerWeb自動答疑系統(tǒng)。AnswerWeb自動答疑系統(tǒng)是一個動態(tài)的問題及答案的數(shù)據(jù)庫。用戶可以輸入關(guān)鍵詞在系統(tǒng)的已有的問題和答案數(shù)據(jù)庫中查找相關(guān)的材料。新的提問和答案將被增加到系統(tǒng)庫中。如果沒有找到答案,則會自動轉(zhuǎn)發(fā)給專家請求幫助解答。從上面的分析可以看出,上述的遠程答疑系統(tǒng)還存在種種不足:系統(tǒng)的智能性不夠:以AnswerWeb系統(tǒng)為例,用戶提問時,只能采取純文本的關(guān)鍵詞的邏輯組合的形式。這不僅要求用戶具有一定的抽取關(guān)鍵詞的能力,而且還要組成一定的邏輯組合。這無疑給對計算機不很熟悉的用戶造成困難。同時,系統(tǒng)缺乏用戶可以對系統(tǒng)提供的答案進行評價的渠道,從而也就無法對于答案進行進一步的加工。答疑手段單一:上述的各種答疑系統(tǒng),或者使用討論或者使用搜索匹配的方式來解答疑問,而沒有將二者很好的結(jié)合起來。而實際上,這兩種方式對于很好的解答用戶的疑問都具有不可或缺的作用。另外用戶提問或者參加討論的方式基本上以同步的WWW瀏覽方式為主,缺乏對于異步提問和討論的支持,這無疑是不全面的。答案結(jié)構(gòu)不良,呈現(xiàn)方式不夠豐富:無論是討論為主的答疑系統(tǒng),還是AnswerWeb這種通過搜索匹配方式工作的答疑系統(tǒng),其內(nèi)部的作為答案的材料組織并非結(jié)構(gòu)良好的。換句話說,沒有將之轉(zhuǎn)換成結(jié)構(gòu)良好的知識。而答案的呈現(xiàn)形式基本是純文本的形式,缺乏多媒體支持。要解決上面的不足,必須從問題的表示,解決問題的手段,答案的表示以及對最常見的Internet使用方式的支持四個方面加以考慮。由此提出要設(shè)計與開發(fā)智能答疑系統(tǒng)。其含義是:從問題的表示來看,用戶不僅可以輸入關(guān)鍵詞的邏輯組合來尋求問題的答案,更可以輸入自然語言描述的問題。除了問題本身,用戶還可以對于答案材料的性質(zhì)如作者、大小和修改時間等作出限制。這也是智能答疑系統(tǒng)的智能性的主要體現(xiàn)。從解決問題的手段來看,系統(tǒng)提供了提問(即在系統(tǒng)答案材料庫中搜索與問題相關(guān)的答案的過程)和討論兩種手段。討論利用了系統(tǒng)用戶之間的協(xié)作來解答問題,是對系統(tǒng)現(xiàn)有的答疑能力的充分補充。提問和討論是一個統(tǒng)一的整體,這體現(xiàn)在提問沒有得到相關(guān)的答案材料,系統(tǒng)將自動將問題轉(zhuǎn)貼在討論區(qū)域;而討論的材料也可以當作答案材料被提問所搜索。答案的呈現(xiàn)是多媒體方式的,并且答案之間的結(jié)構(gòu)是良好的。要達到這一要求,采用HTML文件格式比較好。在有些情況下,還需要將答案將練習(xí)相結(jié)合,幫助用戶加深對問題的理解。目前用戶使用Internet的最常見的方式是WWW瀏覽和電子郵件,智能答疑系統(tǒng)應(yīng)該具有對于它們的支持。也就是要將WWW瀏覽方式(使用瀏覽器)和電子郵件方式無縫的整合在一起。另外,系統(tǒng)還是開放性的。任何一個答疑系統(tǒng)的領(lǐng)域知識再全面,也不可能覆蓋該領(lǐng)域的所有方面,更不可能包含用戶潛在的所有問題的答案。所以答疑系統(tǒng)必須是開放性的。系統(tǒng)的維護人員可以方便的進行領(lǐng)域知識的增加、刪除和修改,而仍然保持答案知識的結(jié)構(gòu)良好性。二、智能答疑系統(tǒng)的系統(tǒng)模型智能答疑系統(tǒng)的典型用戶有三類,一是使用系統(tǒng)請求解答自己疑問的普通用戶;二是答疑系統(tǒng)所涉及的領(lǐng)域的專家用戶;三是系統(tǒng)工程師。三者的作用是不相同的。普通用戶是系統(tǒng)服務(wù)的目標,他們使用系統(tǒng)解答自己的疑問,并對系統(tǒng)給出的答案進行評價,使系統(tǒng)的工作質(zhì)量得到提高。專家用戶的作用非常關(guān)鍵,他們要負責(zé)系統(tǒng)初始的領(lǐng)域知識庫的構(gòu)建,并負責(zé)解答系統(tǒng)暫時不能解答的問題。系統(tǒng)工程師熟悉計算機技術(shù),他們與專家用戶一道,開發(fā)并維護系統(tǒng)。特別需要指出的是,領(lǐng)域知識庫中的知識的質(zhì)量,在很大程度上決定了系統(tǒng)的有效性。在強調(diào)系統(tǒng)的智能性的同時,絕不能忽視了領(lǐng)域知識庫本身的質(zhì)量,只有二者相得益彰,智能答疑系統(tǒng)才能取得理想的效果。根據(jù)智能答疑系統(tǒng)的設(shè)計目標和特點以及三種典型用戶的分析,可以得到圖1所表示的系統(tǒng)模型:圖1智能答疑系統(tǒng)的模型在上面的系統(tǒng)模型中,智能答疑系統(tǒng)包括下面幾個部件:1.提問部件普通用戶可以使用提問部件來尋求問題的答案,這是使用系統(tǒng)的基本手段之一。它主要包括預(yù)處理子部件,加權(quán)分詞子部件和全文搜索子部件。預(yù)處理子部件的作用有兩個:一是如果用戶的問題是使用電子郵件方式提問的,那么系統(tǒng)的郵件處理引擎首先將郵件中的問題分解出來,形成與同步提交的HTML表單形式相同的文本,以便統(tǒng)一處理;二是對于問題文本進行第一次分解處理,主要是將自然語言的問題文本,根據(jù)標點符號、西文字符等分解一系列的子串。加權(quán)分詞子部件的作用則主要是在預(yù)處理子部件的基礎(chǔ)上,將問題文本的系列子串進一步分解成與系統(tǒng)有關(guān)的加權(quán)的關(guān)鍵詞的組合。加權(quán)關(guān)鍵詞的組合與前面的問題的限制條件相結(jié)合就形成了搜索答案的條件。全文搜索子部件則根據(jù)生成的搜索條件,在系統(tǒng)的領(lǐng)域知識庫中以及討論形成的材料中搜索與問題相關(guān)的材料,并按照相關(guān)程度返回結(jié)果。2.討論部件討論部件是普通用戶使用智能答疑系統(tǒng)的另外一種基本手段。用戶可以參加新聞組方式的異步討論和Web方式的同步討論(如WebBBS和實時聊天等等)。另外,用戶提問的沒有得到系統(tǒng)的滿意的解答的問題,除了被系統(tǒng)自動轉(zhuǎn)發(fā)給專家用戶來請求解答外,還可以被自動轉(zhuǎn)發(fā)給討論部件,請求系統(tǒng)別的普通用戶幫助解答。3.系統(tǒng)管理部件系統(tǒng)管理部件主要是針對系統(tǒng)答案材料的存儲——包括系統(tǒng)領(lǐng)域知識庫、新聞組的材料和Web討論部件的材料的管理,主要有增加、刪除和修改等基本操作。值得注意的是答案材料的增刪改都必須考慮到整個系統(tǒng)結(jié)構(gòu)不被破壞,保持完整性。4.服務(wù)邏輯綜上所述,智能答疑系統(tǒng)基本上由三個部件(提問部件、討論部件和系統(tǒng)管理部件)以及三個庫(領(lǐng)域知識庫、新聞組的郵件和Web討論部件的結(jié)果庫)組成。在智能答疑系統(tǒng)的三種典型用戶中,普通用戶是系統(tǒng)服務(wù)的對象。所以下面主要是從普通用戶的視圖出發(fā),描述系統(tǒng)典型的工作流程。普通用戶使用智能答疑系統(tǒng)解答自己的疑問時,首先要確定答疑的手段是提問方式還是討論方式,并決定是實時進行還是異步進行。首先來看一下選擇提問方式時的系統(tǒng)工作的情況。如果用戶采用同步的Web瀏覽的方式來對系統(tǒng)提問,那么用戶首先在瀏覽器的地址欄中輸入填寫問題的表單所在的網(wǎng)頁的網(wǎng)址,并按照要求填寫表單,其中的問題項可使用自然語言描述;如果是選擇異步方式的提問,則應(yīng)該向系統(tǒng)指定的郵件地址發(fā)送一封提問郵件,郵件的內(nèi)容與表單的內(nèi)容等同。也就是說,無論采取哪種方式,用戶除了提出問題本身,還可以對于答案材料做出進一步的限制,如答案材料的作者、大小、修改時間等,也可以對于要返回的答案材料的數(shù)量做出限制。系統(tǒng)接下來對問題文本進行預(yù)處理,把郵件中的內(nèi)容分析成表單形式的結(jié)構(gòu),并對構(gòu)成問題的自然語言文本進行第一步分詞,同時也要記錄相關(guān)的限制條件以備后用。然后系統(tǒng)的加權(quán)分詞部件對上一步得到的問題子串進行加權(quán)分詞抽取關(guān)鍵詞,每個關(guān)鍵詞的權(quán)值代表了可能與系統(tǒng)的答案材料的相關(guān)程度。加權(quán)關(guān)鍵詞的組合以及前面的限制條件一起,構(gòu)成了在系統(tǒng)的答案材料庫中全文搜索與該問題相關(guān)的答案的搜索條件。最后則由全文搜索部件根據(jù)上面的搜索條件進行搜索,將搜索到的答案按照與用戶問題的相關(guān)程度返回(如果用戶是使用電子郵件方式提問則系統(tǒng)自動將搜索到的結(jié)果以電子郵件的方式發(fā)送給用戶)。如果全文搜索子部件沒有搜索到與之相關(guān)的答案材料,則系統(tǒng)將把用戶的問題自動轉(zhuǎn)發(fā)給系統(tǒng)的專家用戶請求解答,同時還可選擇是否張貼到討論部件的討論區(qū)域。專家用戶可以使用專用的電子郵件客戶端或者使用系統(tǒng)提供的WebMail的功能來回答轉(zhuǎn)發(fā)的問題,其解答將同時轉(zhuǎn)發(fā)給提出問題的用戶和系統(tǒng)本身的領(lǐng)域知識庫。如果用戶決定采用討論的方式來解決自己的問題,那么用戶可以瀏覽Web討論部件的網(wǎng)址(主要包括WebBBS和聊天兩種形式)?;蛘哔N出自己的問題請求解答,或者與別的用戶進行討論來獲得答案。這屬于同步的方式。用戶也可以使用普通的郵件客戶端(如OutlookExpress、FoxMail等)登錄到系統(tǒng)的新聞組服務(wù)器來參加討論。而對于系統(tǒng)的專家用戶,除了解答系統(tǒng)轉(zhuǎn)發(fā)的問題,最重要的是在系統(tǒng)工程師的協(xié)助下,根據(jù)自己的專業(yè)知識和用戶對問題答案的反饋,設(shè)計、整理已有的答案材料和討論結(jié)果,為后來的問題提供更全面準確的答案。三、關(guān)鍵技術(shù)的實現(xiàn)智能答疑系統(tǒng)的首先需要解決的問題就是漢語的分詞,如何從自然語言文本中抽取出能夠代表問題的關(guān)鍵詞是系統(tǒng)的首要目標。全文搜索的目的是提供與問題相關(guān)的答案。全文索引的建立、壓縮和搜索是要解決好的基本問題。為了使系統(tǒng)最好的為用戶服務(wù),必須提供對于Internet的兩種最基本方式的支持——Web瀏覽方式和電子郵件方式。如何將二者無縫的整合在一起,也是系統(tǒng)必須考慮的問題。對于有些領(lǐng)域,還應(yīng)該提供練習(xí)功用戶在獲得答案后做測試,加深對于答案的理解。1.漢語分詞漢語自動分詞是漢語自動文本分析的前提。目前的漢語分詞主要有三類算法:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。在漢語分詞的三種算法中,基于理解(或者說知識)的分詞方法由于其系統(tǒng)的復(fù)雜性而對于智能答疑系統(tǒng)并不實用?;谧址ヅ涞乃惴▌t在處理未登錄詞方面無能為力。所以采取的方案是將串頻統(tǒng)計和串匹配結(jié)合起來,先使用使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統(tǒng)計方法來識別一些新的詞。智能答疑系統(tǒng)的分詞包括對于答案材料的分詞和對問題文本的分詞,其中對答案材料進行分詞包括兩個過程——分詞和加權(quán)。(1)對答案材料進行分詞分詞預(yù)處理:首先,智能答疑系統(tǒng)的答案材料是以HTML文件的格式存儲的。所以要先把文檔中的文本抽取出來,包括HTML文件的BODY中的正文文本、TITLE標記的標題文本和在HTML文件的頭部中的以META標記的Keywords屬性指定的關(guān)鍵詞序列。對于后面兩者的文本還要做特殊標記,作為加權(quán)時的一個權(quán)值確定依據(jù)。接著對得到的文本序列進行初始的子串切分。也就是利用顯式的切分標記(標點、數(shù)字、西文以及其它非漢字符號)將文本切分成漢字短串的序列。串頻統(tǒng)計:串頻統(tǒng)計的目的在于利用統(tǒng)計的方法來獲得系統(tǒng)中的一些新詞,這些詞被稱為臨時詞庫,它們將與系統(tǒng)本身的常用詞詞庫一起作為切分時的依據(jù)。臨時詞庫中的詞的優(yōu)先級高于系統(tǒng)本身的常用詞庫的詞的優(yōu)先級。統(tǒng)計的思路是計算各漢字短字符串的所有子串(長度大于1)在全文中出現(xiàn)的次數(shù),并根據(jù)串頻和子串的長度對每個子串進行加權(quán)進行計算。加權(quán)函數(shù)為W=F×(F為子串在全文中出現(xiàn)的次數(shù);L為子串的長度,即漢字子串中包含的漢字個數(shù))。權(quán)值超過給定的閾值的子串作為系統(tǒng)自動識別出來的詞條存入臨時詞庫中。注意:這里之所以選擇全文作為統(tǒng)計子串出現(xiàn)次數(shù)的范圍,而不是傳統(tǒng)的在局部上下文中(如200字左右)統(tǒng)計,是因為這里的分詞是為后面的問題文本分詞提供詞庫的,因而對分詞的速度的要求并不高。同時擴大統(tǒng)計范圍到全文,也提高了子串頻率統(tǒng)計的精度。為了快速的計算出漢字短串的各個子串在全文中出現(xiàn)的次數(shù),需要將文本轉(zhuǎn)換成漢字的Hash表的形式。由于微軟公司自Windows95簡體中文版始,系統(tǒng)采用的是GBK(《漢字內(nèi)碼擴展規(guī)范》)代碼。而在GBK代碼中,采用雙字節(jié)編碼,總體編碼范圍為8140-FEFE,首字節(jié)在81-FE之間,尾字節(jié)在40-FE之間。剔除xx7F一條線,總計23940個碼位。共包括21886個漢字和圖形符號,其中漢字(包括部首和構(gòu)件)21003個,圖形符號883個。所以選擇的Hash函數(shù)值就是漢字的內(nèi)碼的首字節(jié)。對于可能引起的Hash沖突(也就是出現(xiàn)了在同一區(qū)的漢字),采取鏈地址的方法來解決??梢远xHash表的數(shù)據(jù)結(jié)構(gòu)如下所示:TYPEpostp=RECORDseqno:integer;//當前的字所在的字符串排在第幾個字符串charno:integer;//當前的字在所在的字符串中的位置next:^postp;//當前字的下一個位置END;TYPEtailtp=RECORDtailbyte:0x40..0xFE;//當前的字的內(nèi)碼的尾字節(jié)的值pos:^postp;//當前的字在全文中出現(xiàn)的位置列表next:^tailtp//指向在本文中出現(xiàn)的內(nèi)碼在同一區(qū)的漢字的有關(guān)信息END;TYPEhashtable=RECORDElem:ARRAY[0x81..0xFE]OFtailtp//全文所有的漢字的Hash表,索引值就是漢字內(nèi)碼的首字節(jié)END;從上面的數(shù)據(jù)結(jié)構(gòu)可以看出,漢字的位置信息是一個序?qū)Γù?,字號),串號是該字所在的短串在全文的系列字符串中的序號,字號則是該字在所在的字符串中排在第幾個字。設(shè)計這樣的Hash表,可以滿足既可快速查找到某個漢字在全文中所有的位置,又避免了采用雙字節(jié)為索引時對空間的巨大占用。當想計算某個漢字串的頻度時,不必將該漢字串與所有的短串逐個匹配,只需要計算串中各個漢字的位置鏈表的鄰接位置序列的個數(shù)即可。比如:漢字“中”的位置(可以根據(jù)其內(nèi)碼迅速在Hash表中找到)是(4,2)→(12,8)→(22,9),而“國”字的位置鏈表是(5,1)→(12,9)→(22,10),則字符串“中國”在全文中出現(xiàn)的次數(shù)就是2。對于統(tǒng)計出來的字符組合以及其出現(xiàn)的頻率,還要按照權(quán)值計算函數(shù)W=F×進行覆蓋性檢查。對于獲得漢字組合,如果其權(quán)值大于了指定的某個閾值(比如50),則將該漢字組合放進臨時詞庫中。臨時詞庫中的詞的優(yōu)先級高,且在使用完了之后被自動清除。切分過程:切分時依據(jù)的詞典按照優(yōu)先級順序排列是針對本文的關(guān)鍵詞詞典(由答案材料的提供者在HTML文件中用META標記的Keywords屬性來指定)、串頻統(tǒng)計得到的臨時詞典和系統(tǒng)使用的常用詞詞典。順序掃描待切分的文本序列,利用上面的三個詞典對文本進行逆向最大匹配分詞。(2)對于答案材料的分詞結(jié)果進行加權(quán)答案材料的分詞結(jié)果中關(guān)鍵詞對描述答案材料的語義的作用是不同的,用其相應(yīng)的隸屬度來表示。加權(quán)的目的就是確定各個關(guān)鍵詞對于答案材料的隸屬度。當然,根據(jù)語義來抽取可近似表示答案材料語義的關(guān)鍵詞是一個需要高度智能的問題。除了要求能正確理解材料的語義,還要比較高的概括能力和較深的領(lǐng)域知識,才能解決這個問題。這是現(xiàn)有的計算機所難以完成的。所以采取的是使用統(tǒng)計的方法來計算隸屬度。計算的方法是從分詞的結(jié)果開始逐詞順序往下掃描,并按下列方法來統(tǒng)計:每個詞在其第一次出現(xiàn)時設(shè)置一個相應(yīng)的計數(shù)器,并設(shè)置成1,此后該詞每出現(xiàn)一次就在其相應(yīng)的計數(shù)器中加1。在TITLE標記中出現(xiàn)的詞,除同步驟1一樣處理外,再在相應(yīng)的計數(shù)器中外加一個整數(shù)T。如果出現(xiàn)的詞屬于在META標記的Keywords的屬性中指定的詞之一,則除同步驟1的處理外,再在相應(yīng)的計數(shù)器中外加一個整數(shù)K。歸一化:將所有詞的計數(shù)器的計分相加得到總和S,然后將每個計數(shù)器的值除以S得到其隸屬值。進行λ濾波:設(shè)定閾值λ(λ屬于[0,1]區(qū)間的一個小數(shù)),進行λ濾波。也就是將隸屬值小于λ的關(guān)鍵詞去掉。僅選取那些隸屬值大于閾值的詞作為關(guān)鍵詞。將經(jīng)過上述步驟得到的關(guān)鍵詞以及其權(quán)值(針對某篇答案材料的),存入系統(tǒng)的加權(quán)關(guān)鍵詞庫中,用于問題文本的分詞。在后面的分析中可以看到,對答案材料分詞加權(quán)的過程不僅為系統(tǒng)對問題文本的分詞提供了詞庫,更是對答案材料庫的全文建立基于詞的全文索引的過程。而對于問題文本進行分詞,實際上也是根據(jù)答案材料庫的基于詞的全文索引對答案材料進行搜索的過程。它包含兩個階段:一是對于問題文本根據(jù)系統(tǒng)的加權(quán)關(guān)鍵詞詞庫進行逆向最大匹配分詞;二是根據(jù)加權(quán)關(guān)鍵詞庫(實際上也是系統(tǒng)的基于詞的全文索引庫)各個詞的權(quán)值計算分詞結(jié)果中的各個詞在同一篇文檔中的權(quán)值和,權(quán)值和超過某個閾值的文檔將被按照權(quán)值和的大小依次返回。2.全文搜索全文搜索技術(shù)是一項被廣泛采用的搜索技術(shù)。包括兩方面的核心技術(shù),一是如何建立和維護全文索引庫,另外一個是提供快速有效的全文檢索機制。全文搜索技術(shù)最重要的一點就是將原始文檔中所有的基本元素的位置信息記錄在索引庫中。在漢語中,可選擇的基本元素可以是字,也可以是詞。從而形成了兩種索引庫結(jié)構(gòu),基于字表的索引庫和基于詞表的索引庫。字表法是將原始文檔中的每個字的位置信息記錄在索引庫中;而詞表法則是以詞為單位將其位置信息記錄在索引庫中。字表法和詞表法各有自己的優(yōu)缺點。詞表法需要使用切分詞典,因而適用用于特定領(lǐng)域中內(nèi)容相對固定的文檔的全文搜索。其優(yōu)點是索引庫比較小,檢索速度快。缺點則是不能適應(yīng)跨領(lǐng)域的文檔處理要求,因為此時的詞典將急劇膨脹,難以使用。另外歧義的消除也是比較大的問題。而字表法采用對每個字的出現(xiàn)位置進行統(tǒng)計,不需要任何詞典,適用范圍強。當然,采用字表法的檢索精度沒有采用詞表法那么高。對于智能答疑系統(tǒng)來說,其答疑內(nèi)容基本上是針對某個學(xué)科或者專有領(lǐng)域的。因此本文采取詞表法來組織全文索引。對答案材料庫建立全文索引的方法,已經(jīng)在上面的對答案材料進行分詞的部分詳細描述了。下面主要討論詞表的組織和檢索的策略。(1)詞表的組織詞表法的全文索引庫的主要部分是每個關(guān)鍵詞的詞表。索引庫中的詞表結(jié)構(gòu)如下表所示。表1詞表結(jié)構(gòu)示意圖……詞語i文檔j的ID權(quán)值位置序列……其中的詞語i就是被索引的能夠代表目標文檔j的文本特征的關(guān)鍵詞。這樣的關(guān)鍵詞可能不只在某一個文檔中是關(guān)鍵詞,所以后面的文檔選項則記錄了對應(yīng)的目標的文檔j的ID號,通過ID號,可以在答案文檔庫中查找文檔j的屬性信息。權(quán)值則是詞語i在文檔j中的權(quán)值,計算方法已經(jīng)在答案材料的分詞中詳細說明。位置序列則是詞語i在文檔j中出現(xiàn)的位置的數(shù)組,位置使用詞語i在文檔j中的偏移字節(jié)數(shù)。由于使用詞表法建立對答案材料的全文索引,所以檢索策略很簡單。對輸入的問題文本,以索引庫中的詞條集合作為詞典,使用逆向最大匹配算法來進行分詞,并針對每個目標文檔,進行關(guān)鍵詞權(quán)值和的計算。權(quán)值和超過系統(tǒng)指定的閾值的文檔將被返回。文檔返回的順序按照權(quán)值和的大小降序排列?;谠~的全文索引存儲在大型商業(yè)數(shù)據(jù)庫中,這樣可以利用商業(yè)數(shù)據(jù)庫的強大的存儲和搜索性能,特別是可以利用SQL語句來指定條件進行搜索。(2)高級檢索功能的實現(xiàn)對自然語言表示的問題文本先分詞后根據(jù)詞表法表示的索引庫進行搜索,其實質(zhì)就是關(guān)鍵詞的邏輯與組合進行搜索。除了這種使用方式,智能答疑系統(tǒng)還應(yīng)該支持直接的關(guān)鍵詞邏輯組合、通過通配符進行模糊檢索等高級檢索功能。關(guān)鍵詞的邏輯組合檢索,也就是布爾檢索,是指多個關(guān)鍵詞之間按照一定的邏輯運算關(guān)系組合在一起形成的組合檢索。支持的基

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論