下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、文本空間向量模型的主要思想是:將每一個(gè)文本表示為向量空間的一個(gè)向量,并以每一個(gè)不同的特征項(xiàng)(詞條)對(duì)應(yīng)為向量空間中的一個(gè)維度,而每一個(gè)維的值就是對(duì)應(yīng)的特征項(xiàng)在文本中的權(quán)重。向量空間模型就是將文本表示成為一個(gè)特征向量:其中為文檔d中的特征項(xiàng)為的權(quán)重,一般取為詞頻的函數(shù)。一般選取詞作為文檔向量的特征項(xiàng),最初的向量表示完全是0,1的形式,即如果文本中出現(xiàn)了該詞,那么文本向量的該維為1,否則為0。這種方法無法體現(xiàn)這個(gè)詞在文本中的作用程度,所以逐漸0、1被更精確的詞頻代替,詞頻分為絕對(duì)詞頻和相對(duì)詞頻,絕對(duì)詞頻,使用詞在文本中出現(xiàn)的頻率表示文本,相對(duì)詞頻為歸一化的詞頻,其計(jì)算方法主要運(yùn)用TF-IDF公式,
2、目前存在多種形式的TF-IDF公式。在向量空間模型中,兩個(gè)文本和之間的相關(guān)程度可以用它們之間的相似度來度量。當(dāng)文本被表示為向量空間模型中的向量時(shí),我們可以借助于向量之間的某種距離來表示文本之間的相似度,通常用向量之間的內(nèi)積或者用夾角余弦值來表示。根據(jù)以上理論的指導(dǎo),我做了如下實(shí)驗(yàn)。選取詞作為文本向量的特征項(xiàng)(預(yù)先把中文詞匯的停止詞去掉,比如標(biāo)點(diǎn)符號(hào),啊,阿,哎,哎呀等)。文本向量權(quán)重的選取為特征詞在文本中出現(xiàn)的次數(shù)。兩個(gè)文本間的相似度用夾角的余弦值表示。比如連個(gè)文本=iphone5s, 16G,文本=iphone5s, 16G, 電信版,文本=iphone5s, 16G, 移動(dòng)版?,F(xiàn)在計(jì)算和之
3、間的相似度。步驟一:得到兩個(gè)文本特征項(xiàng)集合的并集iphone5s, 16G, 電信版步驟二:的向量表示1,1,0步驟三:的向量表示1,1,1步驟四:根據(jù)向量余弦夾角公式計(jì)算兩個(gè)文本的相似度。步驟五:保存結(jié)果。實(shí)驗(yàn)結(jié)果,的相似度為0.8164965809277259,和的相似度為0.6666666666666667。主程序流程圖:結(jié)束計(jì)算所有文本間的相似度用特征向量表示各個(gè)文本用特征項(xiàng)表示各個(gè)文本統(tǒng)計(jì)特征項(xiàng)類從文件中加載文本集合從文件中加載停止詞開始這個(gè)程序還比較簡陋,里面還存在一些問題,只是一個(gè)入門程序,現(xiàn)在正在研究TF-IDF公式。TF是詞頻,不同類別的文檔,在特征項(xiàng)的出現(xiàn)頻率上有很大差異,
4、因此特征項(xiàng)頻率信息是文本分類的重要參考之一,一般TF較大的特征項(xiàng)在該類文檔中具有較高的權(quán)重,也就是說如果一個(gè)詞有某類文檔中經(jīng)常出現(xiàn),那么說明這個(gè)詞對(duì)該類文檔具有代表性,TF越大,表示這個(gè)詞對(duì)文檔越重要。如“計(jì)算機(jī)”這個(gè)詞在計(jì)算機(jī)類的文檔中出現(xiàn)的頻率顯然要高于政治類的文檔。但是只是詞頻不足以表示一個(gè)詞對(duì)文檔的有用程度,為了消減幾乎存在于所有文檔中的高頻詞匯的影響,比較合理的辦法是使用反比文檔頻率。DF是文檔頻率,就是文檔集合中出現(xiàn)某個(gè)特征項(xiàng)的文檔數(shù)目;IDF是反比文檔頻率,IDF越大,此特征項(xiàng)在文檔中的分布越集中,說明他在區(qū)分該文檔內(nèi)容屬性方面的能力越強(qiáng)。反文檔頻率是特征項(xiàng)在文檔集分布情況的量化。IDF應(yīng)用時(shí)經(jīng)常采用對(duì)數(shù)形式。IDF算法能夠弱化一些在大多數(shù)文檔中出現(xiàn)的高頻特征項(xiàng)的重要度,同時(shí)增強(qiáng)一些在小部分文檔中出現(xiàn)的低頻特征項(xiàng)的重要度。特征權(quán)重計(jì)算唯一的準(zhǔn)則就是要最大限度的區(qū)分不同文檔。因此特征項(xiàng)頻率TF與反比文檔頻率IDF通常是聯(lián)合使用的,也就是TF-IDF權(quán)重。參考文獻(xiàn):1蘇力華.基于向量空間模型的文本分類技術(shù)研究D.西安電子科技大學(xué),2006.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年大數(shù)據(jù)在金融市場的應(yīng)用與風(fēng)險(xiǎn)控制策略題
- 2026年房地產(chǎn)估價(jià)師專業(yè)筆試模擬卷
- 2026年旅游目的地文化與安全知識(shí)測試題
- 2026年娛樂活動(dòng)室音樂及運(yùn)動(dòng)器材修復(fù)方法試題
- 2026年傳統(tǒng)文化與藝術(shù)鑒賞試題庫
- 2026年職業(yè)教師教育理念與教學(xué)方法考核題目
- 燃?xì)夤こ虦贤▍f(xié)調(diào)方案
- 舊房翻新家居風(fēng)格協(xié)調(diào)方案
- 施工現(xiàn)場環(huán)境保護(hù)措施
- 生態(tài)景觀設(shè)計(jì)與施工方案
- 既有建筑幕墻安全性鑒定技術(shù)規(guī)程(征求意見稿)
- 施工總平面布置圖范本
- 嬰幼兒輔食添加及食譜制作
- 安全生產(chǎn)標(biāo)準(zhǔn)化對(duì)企業(yè)的影響安全生產(chǎn)
- 關(guān)于若干歷史問題的決議(1945年)
- 隨訪管理系統(tǒng)功能參數(shù)
- SH/T 0362-1996抗氨汽輪機(jī)油
- GB/T 23280-2009開式壓力機(jī)精度
- GB/T 17213.4-2015工業(yè)過程控制閥第4部分:檢驗(yàn)和例行試驗(yàn)
- FZ/T 73009-2021山羊絨針織品
- GB∕T 5900.2-2022 機(jī)床 主軸端部與卡盤連接尺寸 第2部分:凸輪鎖緊型
評(píng)論
0/150
提交評(píng)論