已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
精品文檔 1歡迎下載 北京郵電大學(xué)北京郵電大學(xué) 學(xué)年第學(xué)年第 1 1 學(xué)期實(shí)驗(yàn)報(bào)告學(xué)期實(shí)驗(yàn)報(bào)告 課程名稱 課程名稱 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 實(shí)驗(yàn)名稱 實(shí)驗(yàn)名稱 文本的分類文本的分類 實(shí)驗(yàn)完成人 實(shí)驗(yàn)完成人 姓名 姓名 學(xué)號(hào) 學(xué)號(hào) 支持向量樣本集具有一定的魯棒性 有些成功的應(yīng)用中 SVM 方法對(duì)核的選取不敏感 4 44 4 性能評(píng)估方法性能評(píng)估方法 在性能評(píng)估中 我們采用的是計(jì)算分類器對(duì)于不同分類的準(zhǔn)確 率和召回率 4 4 14 4 1 準(zhǔn)確率準(zhǔn)確率 Precision Precision 準(zhǔn)確率 指的是在所有被判斷為正確的文檔中 有多大比例是 確實(shí)正確的 例如 我們把文件分類這樣四類 精品文檔 8歡迎下載 A 系統(tǒng)檢測到的相關(guān)的文檔 B 系統(tǒng)檢測到的不相關(guān)的文檔 C 系統(tǒng)沒有檢測到的相關(guān)的文檔 D 系統(tǒng)沒有檢測到的不相關(guān)的文檔 那么我們的計(jì)算公式為 P AAB 準(zhǔn)確率 4 4 24 4 2 召回率召回率 Recall Recall 召回率 指的是在所有確實(shí)正確的文檔中 有多大比例被我們 判斷為正確 例如 我們繼續(xù)參照上述的例子 那么我們的計(jì)算公式為 AAC 召回率R 根據(jù)上述的兩個(gè)公式 我們計(jì)算出每一類的準(zhǔn)確率和召回率 進(jìn)行比較 今兒對(duì)分類器的分類效果進(jìn)行評(píng)估 5 5 實(shí)驗(yàn)過程 實(shí)驗(yàn)過程 5 15 1 文本分類語料庫的采集文本分類語料庫的采集 我們直接使用搜狗語料庫的新聞?lì)A(yù)料 共有十個(gè)類別 每個(gè)類別取 精品文檔 9歡迎下載 2000 篇作為訓(xùn)練集 另取 2000 篇作為測試集 這樣我們就獲得了 20000 篇的訓(xùn)練集和 20000 篇的測試集 5 25 2 數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理 5 2 15 2 1 文本格式預(yù)處理文本格式預(yù)處理 原始的新聞按文件夾劃分類別 同一個(gè)類別在同一個(gè)文件夾下 每篇新聞?wù)家粋€(gè)文件 首先我們把所有文章整理到一個(gè)文件中 并 標(biāo)上類型號(hào) 這樣便于后期處理 5 2 25 2 2 分詞和去停用詞處理分詞和去停用詞處理 對(duì)語料庫進(jìn)行分詞處理階段 我們采用中科院研發(fā)的漢語分詞 軟件 NLPIR 我們?yōu)榱藢?duì)大量的文本進(jìn)行分詞 在 NLPIR 中又添加了一個(gè)批 處理函數(shù) 對(duì) NLPIR 進(jìn)行調(diào)用 對(duì)大量文本進(jìn)行分詞處理 通過更 改 NLPIR 的參數(shù) 我們獲取了帶有詞性標(biāo)注的大量分詞后的文本文 件 然后我們利用模式匹配的方法把所有分名詞過濾掉 然后根據(jù) 停用詞表除去停用詞 5 35 3 特征提取和表達(dá)特征提取和表達(dá) 5 3 15 3 1 特征詞提取特征詞提取 本次實(shí)驗(yàn)我們采用信息增益法進(jìn)行特征詞提取 提取特征詞 精品文檔 10歡迎下載 1000 個(gè) 將分詞 取名詞 去停用詞后的每篇文章統(tǒng)一整理到一篇文本 中 每篇文章作為一行記錄出現(xiàn) 這樣便于采用信息增益法計(jì)算每 個(gè)單詞的信息增益值 它是一個(gè)基于嫡的評(píng)價(jià)方法 涉及較多的數(shù) 學(xué)理論和復(fù)雜的嫡理論公式 定義為某特征在文檔中出現(xiàn)前后的信 息嫡之差 根據(jù)訓(xùn)練數(shù)據(jù) 計(jì)算出各個(gè)單詞的信息增益 刪除信息 增益很小的詞 其余的按照信息增益從大到小排序 信息增益評(píng)估函數(shù)被定義為 IG t P t P Ci t log P Ci t P Ci P tn P Ci tn logP Ci t P i 式中 P Ci t 表示文本中出現(xiàn)特征 t 時(shí) 文本屬于 Ci 類的概 率 P Ci tn 表示文本中不出現(xiàn)單詞 t 時(shí) 文本屬于 Ci 類 的概率 P Ci 表示類別出現(xiàn)的概率 P t 表示 t 在整個(gè)文本訓(xùn)練集中出 現(xiàn)的概率 計(jì)算完每個(gè)單詞的信息增益值后 采用堆排序方法選取前 5000 個(gè)單詞作為特征詞 即詞典 5 3 25 3 2 建立文本向量建立文本向量 根據(jù)提取的特征詞采用 TF IDF 法建立文本向量 TF IDF 是一種加權(quán)技術(shù) 它通過統(tǒng)計(jì)的方法來計(jì)算和表達(dá)某個(gè) 精品文檔 11歡迎下載 關(guān)鍵詞在文本中的重要程度 TF IDF 是由兩部分組成 一部分是 TF Token Frequency 表示一個(gè)詞在文檔中出現(xiàn)的次數(shù) 即詞頻 另一部分是 IDF Inverse Document Frequency 表示某個(gè)詞出現(xiàn) 在多少個(gè)文本中 或者解釋為有多少個(gè)文本包含了這個(gè)詞 即逆向 文檔頻率 通常由公式 IDFt log 1 D Dt 其中 D 表示文 檔總數(shù) Dt 表示包含關(guān)鍵詞 t 的文檔數(shù)量 根據(jù)上述原理 我們把訓(xùn)練集轉(zhuǎn)化為 libsvm 所支持的向量格式 LIBSVM 的訓(xùn)練集格式如下 lable1 index1 featureValue1 index2 featureValue2 index3 featureValue3 lable2 index1 featureValue1 index2 featureValue2 index3 featureValue3 對(duì)應(yīng)到文本分類上就是 類別 ID 特征序號(hào) 特征值 TFIDF 值 5 45 4 訓(xùn)練過程訓(xùn)練過程 我們利用 libsvm 提供的 grid py 工具對(duì)訓(xùn)練集進(jìn)行參數(shù)尋優(yōu) 并得 到參數(shù) c 128 0 g 3 0517578125e 05 然后利用這組參數(shù)對(duì)訓(xùn) 精品文檔 12歡迎下載 練集進(jìn)行訓(xùn)練 得到模型文件 5 55 5 測試過程測試過程 我們對(duì)測試集進(jìn)行同樣的分詞與去停用詞等操作 然后根據(jù)訓(xùn) 練得到的模型文件 對(duì)其進(jìn)行預(yù)測 然后 分析預(yù)測輸出文件和初 始的測試文件 得到相關(guān)統(tǒng)計(jì)數(shù)據(jù) 5 65 6 實(shí)驗(yàn)結(jié)果和性能評(píng)估實(shí)驗(yàn)結(jié)果和性能評(píng)估 訓(xùn)練集 20000 篇 測試集 20000 篇 特征提取后字典大小 1000 詞 訓(xùn)練時(shí)間 92 7s 測試時(shí)間 80s 平均準(zhǔn)確率 83 具體準(zhǔn)確率與召回率如圖 5 1 所示 精品文檔 13歡迎下載 軍事文化教育經(jīng)濟(jì)女性體育汽車娛樂軍事IT 0 0 1 0 2 0 3 0 4 0 5 0 6 0 7 0 8 0 9 1 準(zhǔn)確率 召回率 圖 5 1 預(yù)測結(jié)果準(zhǔn)確率與召回率 預(yù)測結(jié)果混淆矩陣如圖 5 2 所示 軍事文化教育經(jīng)濟(jì)女性體育汽車娛樂軍事 IT 軍事 0352185000182411 文化 440192338365694518 教育 2333016253323836 經(jīng)濟(jì) 11160202433 女性 48564420033162818 體育 345517401970 汽車 28141571021017 娛樂 17701722927019 軍事 26681915616225013 IT173870152012337120 精品文檔 14歡迎下載 6 6 實(shí)驗(yàn)總結(jié)實(shí)驗(yàn)總結(jié) 通過這次實(shí)驗(yàn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 新版藥品GMP總則精要
- 公開課教學(xué)藝術(shù)
- 《GBT 34998-2017 移動(dòng)終端瀏覽器軟件技術(shù)要求》專題研究報(bào)告
- 《寵物鑒賞》課件-犬展的起源與歷史
- Tiamo-basical-database參考資料說明
- 元宇宙展會(huì)信息策劃服務(wù)協(xié)議
- 智能檢測行業(yè)機(jī)器視覺檢測工程師崗位招聘考試試卷及答案
- 種子行業(yè)雜交種子研發(fā)工程師崗位招聘考試試卷及答案
- 2026年護(hù)理工作計(jì)劃3篇
- 2026學(xué)年教師培訓(xùn)工作計(jì)劃(3篇)
- 術(shù)后疲勞綜合征的炎癥反應(yīng)抑制策略
- 2026年安徽水利水電職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫帶答案詳解
- 2025年廣西繼續(xù)教育公需科目考試試題和答案
- 醫(yī)院治安防范措施課件
- 俄烏之戰(zhàn)課件
- 2026年鐵嶺衛(wèi)生職業(yè)學(xué)院單招職業(yè)傾向性考試題庫及參考答案詳解一套
- 2025年山東政府采購評(píng)審專家考試經(jīng)典試題及答案
- 2025年廚房燃?xì)鈭?bào)警器安裝合同
- 環(huán)孢素的臨床應(yīng)用
- 國開電大《11837行政法與行政訴訟法》期末答題庫(機(jī)考字紙考)排序版 - 稻殼閱讀器2025年12月13日12時(shí)58分54秒
- 2025河北廊坊市工會(huì)社會(huì)工作公開招聘崗位服務(wù)人員19名考試筆試備考試題及答案解析
評(píng)論
0/150
提交評(píng)論