付費(fèi)下載
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
農(nóng)業(yè)知識(shí)庫(kù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
0構(gòu)建立體網(wǎng)絡(luò),實(shí)現(xiàn)資源共享農(nóng)村科技信息綜合服務(wù)平臺(tái)整合了農(nóng)村科學(xué)信息(12396)和遠(yuǎn)程互聯(lián)網(wǎng)技術(shù)工作網(wǎng)絡(luò),實(shí)現(xiàn)了信息交流,避免了重復(fù)建設(shè),實(shí)現(xiàn)了信息資源共享的目的。構(gòu)建了農(nóng)村信息三維網(wǎng)絡(luò)服務(wù)體系,即“電話和電子郵件、電視和廣播、網(wǎng)絡(luò)互動(dòng)、現(xiàn)場(chǎng)回答”。該平臺(tái)由互動(dòng)式呼叫中心、農(nóng)業(yè)知識(shí)庫(kù)、遠(yuǎn)程信息服務(wù)終端組成。農(nóng)業(yè)知識(shí)庫(kù)是此平臺(tái)3個(gè)子系統(tǒng)之一。為此,將以實(shí)用性出發(fā),重點(diǎn)討論系統(tǒng)構(gòu)造的關(guān)鍵技術(shù),主要包括系統(tǒng)的架構(gòu),農(nóng)業(yè)知識(shí)庫(kù),農(nóng)業(yè)中文分詞器和查重器的設(shè)計(jì)。1系統(tǒng)的解決技術(shù)在系統(tǒng)架構(gòu)設(shè)計(jì)中,綜合考慮穩(wěn)定性、可靠性以及可維護(hù)性,主要采用模塊化設(shè)計(jì)思想和分層結(jié)構(gòu)體系。分層結(jié)構(gòu)可以將子系統(tǒng)從邏輯上劃分成許多集合,而層間關(guān)系的形成需遵循一定的規(guī)則。這種結(jié)構(gòu)能夠有效減少子系統(tǒng)之間的依賴關(guān)系,使系統(tǒng)的耦合方式更加松散,達(dá)到易于維護(hù)的目的。系統(tǒng)結(jié)構(gòu)如圖1所示。本系統(tǒng)主要解決以下的技術(shù)難點(diǎn):1)關(guān)鍵詞的提取由于農(nóng)業(yè)詞匯過于生僻,普通的中文詞典很少收集這類詞匯,因此在中文分詞過程中,難以精準(zhǔn)提取農(nóng)業(yè)關(guān)鍵詞。2)方言詞匯的處理。湖南省是一個(gè)方言較多的省份,必須考慮方言詞匯的處理。在分詞時(shí),需快速、準(zhǔn)確地對(duì)方言詞進(jìn)行切分和翻譯。3)查重及檢索速率。在查重和檢索過程中,必須要對(duì)農(nóng)業(yè)知識(shí)庫(kù)中相關(guān)條目進(jìn)行比較,或者通過計(jì)算得到相關(guān)度。這是一個(gè)相當(dāng)復(fù)雜的過程,且時(shí)間復(fù)雜度非常大。4)查重器。數(shù)據(jù)錄入時(shí),需要對(duì)知識(shí)庫(kù)的知識(shí)查重,減少數(shù)據(jù)冗余。2主表組合設(shè)計(jì)農(nóng)業(yè)知識(shí)庫(kù)主要包括水稻、油料等10個(gè)數(shù)據(jù)庫(kù)。每個(gè)數(shù)據(jù)庫(kù)根據(jù)常見的類型分為兩個(gè)表:特色類型表和加工類型表。另外,還增加了綜合管理數(shù)據(jù)庫(kù)、農(nóng)產(chǎn)品實(shí)時(shí)價(jià)格數(shù)據(jù)庫(kù)及農(nóng)民工就業(yè)信息數(shù)據(jù)庫(kù)等。農(nóng)業(yè)知識(shí)庫(kù)中的每條記錄由知識(shí)組成,而知識(shí)的信息主要包括問題的標(biāo)題、標(biāo)題分詞組、關(guān)鍵詞、方言關(guān)鍵詞和成因等20個(gè)字段。構(gòu)建農(nóng)業(yè)知識(shí)庫(kù)時(shí),需綜合考慮知識(shí)的可拓展以及數(shù)據(jù)的安全和負(fù)載均衡。因此,應(yīng)遵循以下規(guī)則:1)對(duì)每個(gè)產(chǎn)業(yè),需構(gòu)建知識(shí)問答、產(chǎn)業(yè)專家以及方言詞匯轉(zhuǎn)換等6大基本數(shù)據(jù)庫(kù)。若該產(chǎn)業(yè)需要拓展6個(gè)數(shù)據(jù)庫(kù)以外的信息,則可以增加一個(gè)該產(chǎn)業(yè)的子數(shù)據(jù)庫(kù)。2)在知識(shí)庫(kù)中,不同產(chǎn)業(yè)中內(nèi)容相同的主表應(yīng)能合并成一個(gè)總表。因此,在設(shè)計(jì)這些主表時(shí),具有相同意義的字段,必須有相同的字段名、類型以及大小;且合并時(shí),需滿足約束規(guī)則。3)為了使每個(gè)產(chǎn)業(yè)都有唯一的編號(hào),必須設(shè)立一個(gè)產(chǎn)業(yè)類型的總表,且在產(chǎn)業(yè)數(shù)據(jù)庫(kù)中的每條知識(shí)均有相應(yīng)的字段對(duì)應(yīng)其所在產(chǎn)業(yè)的編號(hào)。4)對(duì)問答知識(shí)定位時(shí),采用知識(shí)樹結(jié)構(gòu)。這樣可以有效地確保知識(shí)庫(kù)中每條記錄有一個(gè)字段記錄該知識(shí)樹的編碼。5)在數(shù)據(jù)庫(kù)的設(shè)計(jì)和使用時(shí),需建立視圖來確保數(shù)據(jù)庫(kù)使用的高效性。3分詞器準(zhǔn)確性檢查分詞器的目的是提取關(guān)鍵詞,比較準(zhǔn)確地提取關(guān)鍵詞對(duì)提高本系統(tǒng)檢索和查重的準(zhǔn)確性十分重要。對(duì)生僻的農(nóng)業(yè)專業(yè)詞匯和農(nóng)業(yè)方言詞匯,用一般的農(nóng)業(yè)詞典無法準(zhǔn)確地切分,分詞器準(zhǔn)確率也很低。因此,本系統(tǒng)專門設(shè)計(jì)了農(nóng)業(yè)專業(yè)分詞器。3.1改進(jìn)詞典的設(shè)計(jì)檢索和查重時(shí),考慮到分詞器對(duì)詞典的頻繁操作,以及增、刪、改操作對(duì)于詞典設(shè)計(jì)的重要性,應(yīng)采用漢字GB碼來設(shè)計(jì)詞典。將GB碼中6763個(gè)區(qū)位與6763個(gè)漢字的開頭建立一一對(duì)應(yīng)的關(guān)系。因?yàn)榉窖砸确g成書面語(yǔ),所以在數(shù)據(jù)庫(kù)里要建立方言詞和農(nóng)業(yè)專業(yè)詞一對(duì)多的對(duì)應(yīng)關(guān)系。3.2hish算法介紹哈希是查找算法中比較高效的方法之一,其核心思想是通過地址與值之間的映射關(guān)系來進(jìn)行數(shù)據(jù)的定位。本文自行設(shè)計(jì)了一個(gè)哈希函數(shù)。其設(shè)計(jì)過程是:假設(shè)有一個(gè)詞條word,如去掉首字后還剩n個(gè)字,用I[j]和I[j]分別表示第j個(gè)字的GB碼高位和低位,于是Hash函數(shù)表示為Hash(Value)=∑j=1n(I[j]?1000+I[j])(Value)=∑j=1n(Ι[j]?1000+Ι[j])與其他查找算法相比,Hash算法最有優(yōu)勢(shì)。詞典結(jié)構(gòu)主要考慮空間復(fù)雜度、查找的時(shí)間復(fù)雜度以及方言詞翻譯的時(shí)間復(fù)雜度。詞典結(jié)構(gòu)如圖2所示。這種方法可以節(jié)約存儲(chǔ)空間50%以上。本詞典來源于互聯(lián)網(wǎng)免費(fèi)詞典,有12萬左右的詞條,含少量的農(nóng)業(yè)專業(yè)詞匯,滿足本系統(tǒng)的要求。3.3算法的時(shí)間復(fù)雜度本系統(tǒng)實(shí)現(xiàn)了數(shù)組、鏈表以及AVL樹等分詞方式,并將其與農(nóng)業(yè)分詞算法與其通過查找、插入、刪除3個(gè)方面的時(shí)間復(fù)雜度和操作速率比上進(jìn)行比較。通過比較表明:本文算法在以上3個(gè)方面的時(shí)間復(fù)雜度均為O(1),其它算法為O(n)或O(n)·O(logn)。操作速率比如圖3所示。4知識(shí)管理模塊在系統(tǒng)中,知識(shí)庫(kù)負(fù)責(zé)整個(gè)平臺(tái)的咽喉—知識(shí)的“出”和“進(jìn)”,是其核心部分。在知識(shí)庫(kù)系統(tǒng)中,為了減少知識(shí)庫(kù)的知識(shí)冗余,控制知識(shí)的入口至關(guān)重要。如果想錄入知識(shí),系統(tǒng)會(huì)對(duì)知識(shí)庫(kù)內(nèi)容查重。通過與庫(kù)中相關(guān)記錄的相似度比較,高于某閾值時(shí),該知識(shí)將被系統(tǒng)拒絕入庫(kù)。4.1分詞特征的生成因?yàn)楸鞠到y(tǒng)所述的知識(shí)是以問題的形式存在的,所以將數(shù)據(jù)庫(kù)中數(shù)據(jù)定義為詞集。問題通過分詞后得到一個(gè)結(jié)果詞集,成為“問題詞集”,用C表示。詞集C主要由詞和短語(yǔ)元素構(gòu)成,每個(gè)元素成為特征項(xiàng),用tk(1≤k≤n)表示,則詞集C可表示為C(t1,t2,…,tn)。數(shù)據(jù)庫(kù)的記錄在入庫(kù)之前,通過分詞后得到的是“問題詞集”;入庫(kù)后,將該“問題詞集”稱為“記錄詞集”,用D表示。同樣,D可以D(t1,t2,…,tn)形式表示,其中tk(1≤k≤n)為特征項(xiàng)。TF-IDF是統(tǒng)計(jì)方法,具有一定的局限性。一般來說,某個(gè)特征項(xiàng)tk出現(xiàn)的次數(shù)越多,該特征項(xiàng)可能越代表主題。同樣,包含tk的文檔越少,可能tk越代表主題。但是,從詞性詞和匯屬性上講,這可能有些片面。因?yàn)槊~比動(dòng)詞(包括其他詞性詞)更能代表主題,關(guān)鍵詞(包括方言詞)比普通詞更能代表主題。根據(jù)詞tk的詞性和詞匯屬性兩個(gè)特征,將其賦予不同的權(quán)重,這樣可有效地提高算法準(zhǔn)確度,增加算法的可操作性。本文詞匯tk的TF-IDF值為TF?IDF(tk)=Q×fkAk×log(SkIk)2ΤF-ΙDF(tk)=Q×fkAk×log(SkΙk)2其中,Q表示詞匯的加權(quán)值,fk表示特征項(xiàng)tk知識(shí)庫(kù)記錄中出現(xiàn)的次數(shù),Ak代表知識(shí)庫(kù)記錄的總詞匯數(shù),Sk表示知識(shí)庫(kù)中總記錄數(shù),Ik表示包含tk的總記錄數(shù)。4.2問題特征項(xiàng)個(gè)數(shù)和匹配度問句的問題與知識(shí)庫(kù)記錄的標(biāo)題是否匹配是至關(guān)重要的,所以應(yīng)先定義正向和反向匹配度。正向匹配度:設(shè)NC為問題詞集中特征項(xiàng)個(gè)數(shù),N表示問題詞集與記錄詞集相匹配的特征項(xiàng)個(gè)數(shù),則PC=N/NC成為問題詞集的正向匹配度。反向匹配度:設(shè)ND為記錄詞集中的特征項(xiàng)個(gè)數(shù),則PD=N/ND成為記錄詞集的匹配度。而匹配度為P=aPC+bPD。其中,a+b=1,a≥0,b≥0。最后,通過歸一化算法,其問題與記錄的相關(guān)度計(jì)算公式為SC=αP+βTF?IDF(termk)=α∑k=0nQ×FkAk×(logSkIk)2+β(aNNC+bNND)SC=αΡ+βΤF-ΙDF(termk)=α∑k=0nQ×FkAk×(logSkΙk)2+β(aΝΝC+bΝΝD)α+β=1,α≥0,β≥04.3駁回率的查重本節(jié)對(duì)查重算法的準(zhǔn)確率和召回率進(jìn)行了評(píng)估。在錄入知識(shí)時(shí),從知識(shí)庫(kù)中快速查找數(shù)據(jù)的準(zhǔn)確程度成為準(zhǔn)確率;從知識(shí)庫(kù)中檢索到的記錄個(gè)數(shù)與庫(kù)中已有相關(guān)記錄總個(gè)數(shù)的比率稱為召回率。系統(tǒng)用現(xiàn)有柑橘常見問題數(shù)據(jù)庫(kù)進(jìn)行查重,結(jié)果為向量空間模型:準(zhǔn)確率≥0.79,召回率≥0.092歸一化查重:準(zhǔn)確率≥0.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026河南開封順河回族區(qū)消防救援大隊(duì)政府專職消防員招聘3人備考題庫(kù)參考答案詳解
- 曲速航行醫(yī)療協(xié)議
- 新生兒安全管理制度
- 土方開挖回填施工方案
- 新能源充電樁施工方案
- 2025年干掛石材施工方案完整版
- 2025年茶藝師(高級(jí))考試題庫(kù)及茶藝師(高級(jí))模擬考試系統(tǒng)附答案
- (2025年)售前客服與管理試題(附答案)
- 2025年山東省臨沂市中小學(xué)美術(shù)教師招聘考試真題附答案
- 2025年度四川省公共營(yíng)養(yǎng)師之四級(jí)營(yíng)養(yǎng)師題庫(kù)附答案
- 液化氣站觸電傷害事故現(xiàn)場(chǎng)處置方案演練方案
- 輸血科學(xué)科發(fā)展規(guī)劃
- 急性呼吸窘迫綜合征(ARDS)的病理生理與護(hù)理措施
- 金融機(jī)構(gòu)反洗錢合規(guī)管理文件模板
- 眼科糖尿病性視網(wǎng)膜病變?cè)\療指南
- 2025年蘇州初中物理真題及答案
- 新版《煤礦安全規(guī)程》煤礦地質(zhì)防治水部分學(xué)習(xí)
- 消防設(shè)施故障維修制度及操作流程
- 船舶設(shè)計(jì)合同(標(biāo)準(zhǔn)版)
- 高壓氧艙拆除施工方案
- 產(chǎn)品創(chuàng)新及創(chuàng)意設(shè)計(jì)評(píng)估工作坊方案
評(píng)論
0/150
提交評(píng)論