下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
文本分類和聚類算法研究
1.數(shù)字地形分析中的文本挖掘技術(shù)從大量結(jié)構(gòu)性信息中提取或挖掘信息和知識的方法和方法,即挖掘挖掘技術(shù)現(xiàn)在相當成熟。隨著互聯(lián)網(wǎng)的發(fā)展,大量自由、非結(jié)構(gòu)性或半結(jié)構(gòu)性信息的信息出現(xiàn)在數(shù)字信息中。例如,新聞文章、web頁面、電子郵件等。幾乎沒有手工操作。因此,文本中檢測知識是不可避免的。文本挖掘是解決這一問題的一種dt方法。2.文本搜索2.1文本搜索定義2.2文本搜索過程文本挖掘的主要處理過程是對大量文檔集合的內(nèi)容進行特征集的建立、特征集的縮減、學(xué)習(xí)和知識模式的提取、模式質(zhì)量評價等。2.2.1從文本中提取特征由于處理的是非結(jié)構(gòu)化的文本,使得現(xiàn)有的數(shù)據(jù)挖掘技術(shù)無法直接應(yīng)用,因此要從文本中提取適當?shù)拇砥涮卣鞯脑獢?shù)據(jù)(特征項),將這些特征用結(jié)構(gòu)化的形式保存起來,從而實現(xiàn)對非結(jié)構(gòu)化的文本處理。2.2.2高維特征特征自然語言文本集中往往包含大量的詞匯,如果把這些詞都作為特征,其特征維數(shù)會相當高,這些特征對將要進行的分類學(xué)習(xí)未必全是重要、有益的,而且高維的特征會大大增加機器學(xué)習(xí)的時間,因此需要去掉一些冗余詞匯,以降低維數(shù)。2.2.3學(xué)習(xí)和知識模式的提取在進行完特征集的縮減后,就可以利用機器學(xué)習(xí)的各種方法來實現(xiàn)面向特定應(yīng)用目的的知識模式,通常是進行文本分類或文本的聚類等。2.2.4準確性recarlo為了客觀地評價文本挖掘的效果,經(jīng)研究提出了很多評測方法,比較常用的有準確率(P-Precision)、召回率(R-Recall)。準確率是所有判斷的文本中與人工分類結(jié)果吻合的文本所占的比率。查全率是人工分類結(jié)果應(yīng)有的文本中分類系統(tǒng)吻合的文本所占的比率。3.關(guān)鍵文本研究文本挖掘的過程中,文本分類、聚類是挖掘工作最重要的部分,下面的篇幅本文主要研究分類和聚類算法。3.1類別與預(yù)定義類別不匹配文本分類是一種有指導(dǎo)機器學(xué)習(xí)問題,它需要事先定義一些主題類別,然后根據(jù)文本的內(nèi)容自動將每篇文檔歸入其中的一個類別,這樣用戶即可以根據(jù)自己的所需來選擇信息。從數(shù)學(xué)角度來看,文本分類其實就是一個映射的過程,它將未標明類別的文本映射到已有的一個或多個類別中。分類系統(tǒng)一般分為訓(xùn)練和分類兩個階段,具體過程如下:訓(xùn)練階段:首先需要確定類別的集合C,這些類別可以是層次式的,也可以是并列式的,再選擇適量具有代表性的文檔組成訓(xùn)練文檔集合S,確定訓(xùn)練文檔集S中的每個訓(xùn)練文檔sj所屬的類別ci,然后抽取訓(xùn)練文檔sj的特征,得到特征向量V(sj),最后,統(tǒng)計訓(xùn)練文檔集S中所有的文檔特征向量V(sj),以此確定代表C中每個類別的特征矢量V(ci);分類階段:對于測試文檔集合T中的每個待分類文檔dk,計算特征矢量V(dk)與每個V(cj)之間的相似度sim(dk,ci),然后選取相似度最大的類別作為dk的類別,如dk與這些類別之間的相似度超過某個預(yù)定的閥值,也可以為dk指定多個類別,如果dk與所有類別的相似度均低于閥值,可將該文檔放在一邊,由用戶來做最終決定。對于類別與預(yù)定義類別不匹配的文檔而言,這是合理的,也是必須的,但是如果這種情況經(jīng)常發(fā)生,就需要修改預(yù)定義類別,并重新進行訓(xùn)練與分類過程。分類算法很多,主要有樸素貝葉斯分類(NativeBayes)、向量空間模型、決策樹、支持向量機、后向傳播分類、遺傳算法、基于案例的推理、K-最臨近、基于中心點的分類方法、粗糙集、模糊集以及線性最小二乘(LinearLeastSquareFit,LLSF)等。3.2基于層次聚類法的聚類算法與文本分類不同的是:文本聚類不需要預(yù)先定義主題的類別,由聚類學(xué)習(xí)算法來自動確定其類別,是一種無指導(dǎo)的機器學(xué)習(xí)過程。它將文檔集合分成若干個簇,要求同一簇內(nèi)文檔內(nèi)容的相似度盡可能地大,而不同簇間的相似度盡可能地小。常用的聚類方法有兩種類型:以G-Hac為代表的層次凝聚法(又分為聚合聚類和分裂聚類)和以K-means為代表的平面劃分法。其中層次凝聚法是最為常用的聚類方法,其過程如下:對于給定的文檔集合D={d1,…di,…dn}中的每個文檔di看作是一個聚類中心ci={di},由這些類構(gòu)成D的一個聚類集合C,然后選取C中具有最大相似度的聚類對(ci,cj)|max(sim(ci,cj))合并為一個新的類ck,同時合并ci和cj的特征矢量,從而構(gòu)成了D的一個新的聚類C={c1,…,ck,…,cn-1},重復(fù)以上過程,根據(jù)所要產(chǎn)生聚類的數(shù)目和相似度閥值限制,得到最終聚類結(jié)果。層次聚類過程構(gòu)造出一棵生成樹,其中包含了類的層次信息以及所有類內(nèi)和類間的相似度,但在每兩個類合并時,需要全局地比較所有類之間的相似度,確定適當?shù)南嗨贫乳y值,選出最佳的兩個類,因此運行速度較慢,不適合于大量文檔的集合。4.webmining的應(yīng)用前景Internet上豐富的非結(jié)構(gòu)化文檔資源已經(jīng)成為了文本挖掘的重要的目標,由于其大量的信息具有巨大的潛在商業(yè)價值,于是WebMining成為近年來的研究熱點。WebMining未來的研究方向很多,比如在數(shù)據(jù)預(yù)處理方面,數(shù)據(jù)的收集機制與技術(shù)開發(fā);基于Web挖掘和信息檢索的、高效的、具有自動導(dǎo)航功能的智能搜索引擎相關(guān)技術(shù)的研
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中職農(nóng)業(yè)技術(shù)(農(nóng)業(yè)技術(shù)應(yīng)用)試題及答案
- 2025年大學(xué)一年級(醫(yī)學(xué)檢驗技術(shù))臨床微生物檢驗試題及答案
- 2025年中職農(nóng)業(yè)經(jīng)濟管理(農(nóng)村經(jīng)濟核算)試題及答案
- 2025年高職第二學(xué)年(制冷與空調(diào)技術(shù))制冷系統(tǒng)設(shè)計專項測試卷
- 2025年大學(xué)第四學(xué)年(生物技術(shù))基因工程綜合測試試題及答案
- 2025年大學(xué)編輯出版學(xué)(編輯校對基礎(chǔ))試題及答案
- 2025年大學(xué)(口腔醫(yī)學(xué))口腔醫(yī)學(xué)心理學(xué)試題及答案
- 2025年大學(xué)護理技能綜合訓(xùn)練(護理綜合技能)試題及答案
- 2025年高職新能源汽車檢測與維修(汽車減排管理)試題及答案
- 2025年中職西式烹飪工藝(海鮮烹飪)試題及答案
- 2022年-2024年青島衛(wèi)健委事業(yè)編中醫(yī)筆試真題
- JJG(交通) 070-2006 混凝土超聲檢測儀
- 合作銷售礦石協(xié)議書
- 2025上海初三各區(qū)一模、二模作文題、主題歸納及審題分析指導(dǎo)
- 圍手術(shù)期心肌梗塞的護理
- 2025-2026學(xué)年蘇教版(2024)小學(xué)科學(xué)二年級上冊期末測試卷附答案(共三套)
- 垃圾清運補充合同范本
- 2026屆湖南省長沙市長郡集團九年級物理第一學(xué)期期末預(yù)測試題含解析
- 生日主題宴會設(shè)計方案
- 《JJG 1081.1-2024鐵路機車車輛輪徑量具檢定規(guī)程 第1部分:輪徑尺》 解讀
- 《基坑圍護結(jié)構(gòu)滲漏檢測技術(shù)標準》
評論
0/150
提交評論