下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于瑤湖論壇的關(guān)鍵字搜索的應(yīng)用與研究基于瑤湖論壇的關(guān)鍵字搜索的應(yīng)用與研究1.引言隨著科技的開展,計(jì)算機(jī)技術(shù)的應(yīng)用也越來越普及,中文分詞、文本分類,信息檢索等各項(xiàng)技術(shù)在各大搜索引擎公司都得到了很好的應(yīng)用,但是商業(yè)引擎的處理信息量大,處理文本的信息各種各樣,它們有很強(qiáng)的通用性,但對(duì)于特定的領(lǐng)域或者特定信息空間的處理確有很大的提升空間1。本文基于瑤湖論壇,根據(jù)論壇的特點(diǎn),在文本的分詞、文本的向量模型表示、文本分類算法的選擇等方面都因地制宜的進(jìn)展了改動(dòng),以期望到達(dá)更好的效果。2.文本的分詞與關(guān)鍵字權(quán)重的計(jì)算2.1文本內(nèi)容的選取提取計(jì)算帖子中關(guān)鍵字對(duì)帖子內(nèi)容而言所承載的信息量,和建立帖子空間向量模型的第
2、一步是對(duì)帖子文本內(nèi)容進(jìn)展分詞。在文本內(nèi)容的選取上,充分考慮到論壇中帖子的語言表達(dá)方式基于學(xué)生生活用語,并且帖子的文本篇幅長(zhǎng)度較短,同時(shí)對(duì)于帖子的回帖,其內(nèi)容較為固定和單一,帖子之間的區(qū)分度不高,噪聲較大。所以只將帖子的標(biāo)題和帖子的內(nèi)容作為帖子的文本信息進(jìn)展分詞。2.2分詞工具的選擇我們將IKAnalyzer作為分詞工具對(duì)獲得的文本信息進(jìn)展處理,IKAnalyzer是一個(gè)開源的,基于java語言開發(fā)的輕量級(jí)的中文分詞工具包。從2022年12月推出1.0版開場(chǎng),IKAnalyzer已經(jīng)推出了4個(gè)大版本。最初,它是以開源工程Luene為應(yīng)用主體的,結(jié)合詞典分詞和文法分析算法的中文分詞組件。從3.0版
3、本開場(chǎng),IKAnalyzer開展為面向Java的公用分詞組件,獨(dú)立于Luene工程,同時(shí)提供了對(duì)Luene的默認(rèn)優(yōu)化實(shí)現(xiàn)。在2022版本中,IKAnalyzer實(shí)現(xiàn)了簡(jiǎn)單的分詞歧義排除算法,采用了特有的正向迭代最細(xì)粒度切分算法,支持細(xì)粒度和智能分詞兩種切分形式,詞典支持中文、英文、數(shù)字混合詞語。2.3關(guān)鍵字權(quán)重的計(jì)算查詢中每一個(gè)關(guān)鍵字的權(quán)本文由論文聯(lián)盟.LL.搜集整理重應(yīng)該反映這個(gè)詞對(duì)于查詢來講提供了多少信息,搜索關(guān)鍵字權(quán)重的科學(xué)度量是TF-IDF。其主要思想是:假如某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),那么認(rèn)為此詞或者短語具有很好的類別區(qū)分才能,合適用來分類。T
4、F-IDF實(shí)際上是:TFIDF,TF詞頻TerFrequeny,IDF逆向文件頻率InverseDuentFrequeny。TF表示詞條在文檔d中出現(xiàn)的頻率。IDF的主要思想是:假如包含詞條t的文檔越少,也就是n越小,IDF越大,那么說明詞條t具有很好的類別區(qū)分才能。一篇帖子中關(guān)鍵字的權(quán)重公式如公式1所示。1其中|D|為語料庫(kù)中的文件總數(shù),表示包含詞語ti的文件數(shù)目即的文件數(shù)目假如該詞語不在語料庫(kù)中,就會(huì)導(dǎo)致被除數(shù)為零,因此一般情況下使用都會(huì)加上1。并且由于文本長(zhǎng)度的不同進(jìn)展了歸一化處理。2.4分詞與關(guān)鍵字權(quán)重中的人工干預(yù)由于中文特殊的語言語境形式,雖然中文分詞已經(jīng)獲得很大的開展,但是但無論按
5、照人的智力標(biāo)準(zhǔn),還是同實(shí)用的需要相比擬,差距還很大。為了彌補(bǔ)機(jī)器分詞的缺乏,我們先將文本內(nèi)容進(jìn)展分詞并計(jì)算出每個(gè)詞語的IDF值,將IDF值大于一定閾值的設(shè)為關(guān)鍵字,存入關(guān)鍵字表,將IDF值小于一定閾值的設(shè)為停頓詞,這些詞大局部是沒有意義的虛詞。并且提供了可以通過的導(dǎo)入關(guān)鍵字詞典和停頓詞典及修改詞典的方式來輔助分詞器在分詞時(shí)判斷哪些詞可以作為關(guān)鍵字,并且將停頓詞典中的詞語作為無意義的詞而忽略掉。其后臺(tái)處理界面如圖1所示。圖1后臺(tái)處理界面3.文本向量空間模型的建立與分類3.1文本向量空間模型的建立最常用的文本表示模型是G.Saltn在1975年提出的向量空間模型VetrSpaedel,其根本思想是
6、把文本d看作向量空間中的一個(gè)n維向量1,2,3.n,其中1,2,.n為表示該文本的n個(gè)特征所對(duì)應(yīng)的權(quán)重,一般取為詞頻的函數(shù)。文本分類的第一步是對(duì)文本集進(jìn)展基于詞典的分詞處理。由于通用的的詞典收錄詞條數(shù)共有116921,假如把每個(gè)帖子表示成一個(gè)116921維的向量,由于帖子文本內(nèi)容較少且語言較為生活化,所以很多詞語都不會(huì)在帖子中出現(xiàn),導(dǎo)致生成的向量極為稀疏,浪費(fèi)的存儲(chǔ)空間,影響了分類時(shí)的計(jì)算效率和分類精度,所以要進(jìn)展文本的特征選擇2。常用的文本特征選擇的方法有很多,如信息增益、期望穿插熵、互信息、文檔頻率3,其核心都是基于信息論,根本思想都是對(duì)每一個(gè)特征中文詞,計(jì)算某種統(tǒng)計(jì)度量值,然后設(shè)定一個(gè)閾
7、值T,把度量值小于T的那些特征過濾掉,剩下的即認(rèn)為是有效特征。我們第二小節(jié)已經(jīng)做了相關(guān)的工作4,通過設(shè)置停頓詞典的方式,在分詞時(shí)忽略了很多沒有意義的虛詞,有效的降低了文本向量的維度。將帖子文本的結(jié)果按照關(guān)鍵字=tfidf值的形式表示成空間向量存入SQLServer數(shù)據(jù)庫(kù)中。局部數(shù)據(jù)如圖2所示。圖2帖子的向量空間模型的存儲(chǔ)3.2帖子文本的聚類將主題內(nèi)容相似的帖子分成一類,實(shí)現(xiàn)上認(rèn)為同一類的帖子含有的一樣的關(guān)鍵字就較多。以此思想對(duì)帖子進(jìn)展分類。帖子的相似度就表示為兩個(gè)帖子的余弦值,既有:2圖3帖子之間的余弦值通過對(duì)論壇的一定帖子之間余弦值的計(jì)算和前期人工類別的核實(shí)發(fā)現(xiàn)當(dāng)閾值大于0.18時(shí),帖子之間
8、表現(xiàn)出了一定的相關(guān)性。局部數(shù)據(jù)如圖3所示。文本分類是事先定義好類別,類別數(shù)不變。分類器需要由人工標(biāo)注的分類訓(xùn)練語料訓(xùn)練得到,由于論壇中帖子的文本內(nèi)容隨意且文本長(zhǎng)度較短,單一類型的特征向量難以確定,類別數(shù)也不好判斷,所以我們使用聚類的方法來處理,將比擬相似的文章或文本信息歸為同一組。文本的聚類算法采用K-eans算法,是很典型的基于間隔 的聚類算法,采用間隔 作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的間隔 越近,其相似度就越大5。算法過程如下:1從n個(gè)數(shù)據(jù)對(duì)象任意選擇k個(gè)對(duì)象作為初始聚類中心。2根據(jù)每個(gè)聚類對(duì)象的均值中心對(duì)象,計(jì)算每個(gè)對(duì)象與這些中心對(duì)象的間隔 ;并根據(jù)最小間隔 重新對(duì)相應(yīng)對(duì)象進(jìn)展劃分。3重新計(jì)算每個(gè)有變化聚類的均值中心對(duì)象。4循環(huán)2到3直到每個(gè)聚類不再發(fā)生變化為止。根據(jù)上面的理論根底,在NetBeans平臺(tái)下用java實(shí)現(xiàn)了該系統(tǒng)的的相關(guān)功能,界面截圖如圖4所示。圖4關(guān)鍵字搜索界面4.完畢語本文的應(yīng)用是基于特定的論壇,在系統(tǒng)施行的每個(gè)方面如文本的分詞、關(guān)鍵字權(quán)重的計(jì)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 安徽省2025年蚌埠高新區(qū)天河社區(qū)行政事務(wù)管理中心招聘編外人員5人筆試歷年參考題庫(kù)典型考點(diǎn)附帶答案詳解(3卷合一)
- 寧夏2025年寧夏醫(yī)科大學(xué)公開招聘高層次人才60人筆試歷年參考題庫(kù)典型考點(diǎn)附帶答案詳解(3卷合一)
- 大連市2025遼寧大連工業(yè)大學(xué)赴北京體育大學(xué)東北師范大學(xué)北京師范大學(xué)招聘事業(yè)筆試歷年參考題庫(kù)典型考點(diǎn)附帶答案詳解(3卷合一)
- 廣東安全員考試及答案
- 放射證考試題目及答案
- 炊事班職業(yè)生涯規(guī)劃書
- 2025安徽阜陽(yáng)職業(yè)技術(shù)學(xué)院博士后科研工作站博士后研究人員招聘2人備考筆試題庫(kù)及答案解析
- 2026年昌吉學(xué)院“銀齡教師”招募(54人)備考考試題庫(kù)及答案解析
- 砼結(jié)構(gòu)構(gòu)件項(xiàng)目技術(shù)方案
- 鉬礦地下開采建設(shè)項(xiàng)目運(yùn)營(yíng)管理方案
- 馬克思主義民族理論和民族政策講義
- 初中英語寫作教學(xué)專題講座課件
- 有心圓錐曲線的焦點(diǎn)四邊形的十大結(jié)論(解析版)
- 路肩質(zhì)量檢驗(yàn)評(píng)定表格
- MAM860螺桿式空壓機(jī)控制器
- 高質(zhì)量SCI論文入門必備從選題到發(fā)表全套課件
- 常見異常心電圖的識(shí)別課件
- 中國(guó)醫(yī)院質(zhì)量安全管理 第4-2部分:醫(yī)療管理 護(hù)理質(zhì)量管理 T∕CHAS 10-4-2-2019
- 手動(dòng)星三角降壓?jiǎn)?dòng)
- 5000t液壓控制柜說明書
- AC800MPLC指令集
評(píng)論
0/150
提交評(píng)論