已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
面向 BBS 短文本的特征提取研究張柱山,葉允明,許鉞(哈爾濱工業(yè)大學(xué)深圳研究生院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)科部 廣東省 深圳市 518055)摘要: 作為發(fā)表自由言論、表達(dá)民意的重要信息平臺,BBS 在網(wǎng)絡(luò)信息流中的地位日益突出,對于其內(nèi)容的話題檢測與跟蹤有著十分重要的意義。然而,BBS 短文本固有的關(guān)鍵詞詞頻低、存在大量同音詞、同義詞及新詞等特點(diǎn),使得難以直接使用現(xiàn)有面向長文本的聚類算法。本文通過分析 BBS 其文本組織形式及其短文本的內(nèi)在特性,提出一種 BSDFS(BBS Short Document Feature Selection)特征提取算法。實(shí)驗(yàn)結(jié)果表明,相對于傳統(tǒng)的特征提取方法如 TF*IDF,本文的算法能夠得到更好的 BBS 短文本聚類效果。關(guān)鍵詞: 網(wǎng)絡(luò)論壇;短文本; 文本聚類; 特征提取中圖分類號:TP3190 引言隨著網(wǎng)絡(luò)的迅速發(fā)展,互聯(lián)網(wǎng)已成為海量信息的載體,尤其用戶創(chuàng)建的內(nèi)容正成為互聯(lián)網(wǎng)上的一個重要數(shù)據(jù)源。作為一種典型的用戶創(chuàng)建內(nèi)容的應(yīng)用,網(wǎng)絡(luò)論壇(Web Forum,又稱為公告板、討論板或BBS 1)在全世界非常流行。2009年6月底BBS論壇網(wǎng)民規(guī)模已達(dá)10,275萬,使用率達(dá)30.7%,增長率12.9% 2,是互聯(lián)網(wǎng)中非?;钴S的一部分。每天有無數(shù)個針對能夠想象到的所有話題或問題的帖子被互聯(lián)網(wǎng)用戶創(chuàng)建,論壇數(shù)據(jù)儼然成為了一個巨大的匯聚了人類知識的數(shù)據(jù)集。為了及時(shí)掌握各個時(shí)期民眾關(guān)心的熱點(diǎn)話題,對BBS進(jìn)行輿情監(jiān)控是十分迫切。BBS熱點(diǎn)話題檢測, 它涉及到針對其文本內(nèi)容的采集、信息抽取、文本與處理、聚類等關(guān)鍵技術(shù)。其中,聚類是實(shí)現(xiàn)話題檢測的一個主要手段。傳統(tǒng)的文本挖掘處理的文本通常是長文本,在形式上顯然與BBS 短文本不同,因此,現(xiàn)有數(shù)據(jù)挖掘領(lǐng)域已取得較大的文本聚類算法還難以直接引用。 BBS短文本聚類面臨的主要難點(diǎn)有:1)關(guān)鍵詞詞頻過低,這一方面導(dǎo)致無法使用現(xiàn)有文本處理中常用的特征提取算法(如TF*IDF)來計(jì)算特征詞權(quán)重;2)存在大量同音詞、同義詞,這一方面導(dǎo)致BBS短文本的表示不夠準(zhǔn)確,影響聚類結(jié)果。本文給出一種面向BBS文本的特征表示方法 , 提出一種BSDFS(BBS Short Document Feature Selection)特征提取算法,采用增量聚類進(jìn)行 BBS 的話題檢測。使用該話題檢測系統(tǒng),以BBS的文本信息(帖子標(biāo)題、首貼內(nèi)容)作為處理對象 ,具有數(shù)據(jù)量大、數(shù)據(jù)源多、各數(shù)據(jù)源流量不均衡、短文篇幅小等特點(diǎn) ,通過系統(tǒng)能找出最近一段時(shí)間的熱門話題。1. 相關(guān)研究1.1 BBS文本數(shù)據(jù)特性BBS站點(diǎn)中通常包含了這樣一些元素: 3論壇版塊:通常是BBS的入口,包含各個子版塊(特定內(nèi)容討論區(qū)域)的入口;帖子線索:通常由主帖和相應(yīng)回帖組成,所有這些帖子基本上都是在討論同一個話題。帖子線索的結(jié)構(gòu)可以看作是樹結(jié)構(gòu),其主帖是根,回帖都是相應(yīng)帖子的子節(jié)點(diǎn);帖子:帖子是作者對于某主題發(fā)表的內(nèi)容,分為主帖和回帖。主帖指該帖子線索的第一個帖子,由帖子作者發(fā)出;回帖指帖子線索中相應(yīng)帖子(主帖或回帖)的回應(yīng);作者:發(fā)布帖子的人;讀者:閱讀帖子的人,可以是會員或者游客。本文的研究目的是從BBS的內(nèi)容中檢測出話題,在話題特征提取過程中,選取了帖子線索的標(biāo)題和主帖作為特征。1.2 文本表示模型向量空間模型(VSM)是最簡便有效的文本表示模型之一,向量空間模型是由Salton及其學(xué)生在六十年代末到七十年代初期提出并發(fā)展起來的4。其基本思想:將給定的文本(文章、查詢、或文章中的一段等)轉(zhuǎn)換成一個維數(shù)很高的向量。它的最大特點(diǎn)是可以方便地計(jì)算出任意兩個向量的近似程度,即向量所對應(yīng)的文本間的相似性。如果兩個向量是相近的,則其對應(yīng)的文本是語義相關(guān)的。在向量空間模型中,每一個文檔被表示特征空間的一個向量。目前常用的辦法是將所有文本文件中出現(xiàn)的 m 個詞語做為特征,每個文檔 dj 包含 m 維,每一個測試文檔同樣被表示成由以上 m 個詞語作為特征的特征向量。如式 1-1 所示。(1-1)=1,2,3,1.3 特征權(quán)重的表示方法在向量空間模型中,常通過特征項(xiàng)的權(quán)重綜合反映該特征項(xiàng)對標(biāo)識文本內(nèi)容的貢獻(xiàn)度和文本之間的區(qū)分能力。下面介紹計(jì)算權(quán)重的常見方法:TFIDF 方法是目前廣泛采用的權(quán)重計(jì)算公式之一,是由 Salton 在 1988 年提出的 5。主要思想是:如果一個特征在一個文檔中出現(xiàn)次數(shù)很多,那么應(yīng)該給該特征分配較高的權(quán)值;如果一個特征在訓(xùn)練集其他的文檔中出現(xiàn)的次數(shù)也很多,那么應(yīng)該給該特征分配較小的權(quán)值。詞 i 在文檔 j 中的 TF*IDF 值計(jì)算公式如式 2-2 所示。(1-2)(,)=(,)(,)=(,)log()式中,w(i,j)代表詞 i 在文檔 j 中的權(quán)重,tf(i,j)代表詞 i 在文檔 j 中的詞頻,idf(i,j)是詞 i 的逆文檔頻數(shù)。n 是文檔集合的大小,n(i)是詞 i 的文檔頻數(shù)??梢娫~ i 在文檔 j 中的 TF*IDF 值,與它在文檔 j 中出現(xiàn)的詞頻成正比,與它的文檔頻度成反比。TF*IDF 算法適用于具備恰當(dāng)?shù)幕厮肺募?、單信源、對識別和檢測的實(shí)時(shí)性要求較高的系統(tǒng)。某些用于話題提取系統(tǒng)中使用了TF * PDF ( Term Frequency * Proportional Document Frequency) 算法 6 ,7 計(jì)算詞匯權(quán)重,該算法兼顧考慮了詞出現(xiàn)的頻率和詞來源的廣泛性。在TF * PDF 算法中不需要構(gòu)造特定的回朔文集,它適用于信源數(shù)量眾多、信源重要性相等的系統(tǒng)。對TF * PDF 算法的具體討論參見文獻(xiàn) 8。本文的詞頻權(quán)值計(jì)算以TF*PDF算法為基礎(chǔ),根據(jù)BBS文本組織形式進(jìn)行了改進(jìn)。2. BBS特征提取算法設(shè)計(jì)與實(shí)現(xiàn)2.1 BBS熱點(diǎn)話題檢測總體結(jié)構(gòu)根據(jù)話題檢測系統(tǒng)的功能需求,將 BBS 話題檢測系統(tǒng)分為數(shù)據(jù)庫交互模塊、BBS 爬蟲采集模塊、文本預(yù)處理模塊、話題檢測模塊、話題熱度評分等五個部分。BBS 話題檢測系統(tǒng)的架構(gòu)如圖 2-1 所示: 數(shù) 據(jù) 預(yù) 處 理模 塊B B S 數(shù) 據(jù) 倉 庫數(shù) 據(jù) 庫 交 互模 塊話 題 檢 測模 塊話 題 熱 度 評 分模 塊爬 蟲 采 集 及 信 息 抽 取模 塊圖 2-1 BBS 話題檢測系統(tǒng)架構(gòu)各個模塊的功能及相互關(guān)系描述如下:數(shù)據(jù)庫交互模塊:對數(shù)據(jù)庫相關(guān)表進(jìn)行各項(xiàng)操作。系統(tǒng)運(yùn)行初期從帖子表中讀取數(shù)據(jù),本系統(tǒng)為基于內(nèi)容分析,所以選取帖子的標(biāo)題字段和主帖字段為原始數(shù)據(jù)。系統(tǒng)運(yùn)行后期,將話題檢測模塊的運(yùn)行結(jié)果插入數(shù)據(jù)庫的話題表(Topic)。爬蟲采集及信息抽取模塊:通過本實(shí)驗(yàn)室開發(fā)的 BBS 爬蟲對種子論壇站點(diǎn)進(jìn)行帖子頁面爬取并保存在本地文件目錄中,接著抽取帖子相關(guān)信息存入 BBS 數(shù)據(jù)倉庫。數(shù)據(jù)預(yù)處理模塊:在程序運(yùn)行前期,對從數(shù)據(jù)庫帖子表中讀出的原始數(shù)據(jù)進(jìn)行預(yù)處理,即對帖子標(biāo)題和主帖內(nèi)容進(jìn)行分詞和去中文停用詞。輸入數(shù)據(jù)為文本形式的文檔,輸出數(shù)據(jù)為向量形式的文檔。話題檢測模塊:從數(shù)據(jù)預(yù)處理模塊得到輸入數(shù)據(jù),經(jīng)過話題檢測算法之后,形成若干個文本集合,每一個集合對應(yīng)一個話題。話題熱度評分模塊:綜合話題包含的各項(xiàng)信息,對相應(yīng)的話題進(jìn)行熱度評分,最后輸出得分最高的若干個話題,即為熱點(diǎn)話題。2.2 BBS 文本的特征表示數(shù)據(jù)預(yù)處理模塊主要完成針對 BBS 文本數(shù)據(jù)的預(yù)處理工作,包括對文本的中文分詞、去除中文停用詞以及詞權(quán)重計(jì)算等。中文分詞功能采用自然語言處理中常見的前項(xiàng)最大匹配(FMM)分詞方法。取出中文停用詞以中文停用詞詞典為依據(jù)取出分詞結(jié)果中的停用詞。詞權(quán)重計(jì)算模塊采用特征選擇算法。預(yù)處理后的的文檔為 VSM 形式,作為后續(xù) BBS 話題檢測模塊的輸入數(shù)據(jù)形式。 數(shù)據(jù)預(yù)處理模塊內(nèi)部流程圖如圖 2-2 所示。中文分詞模塊權(quán)重計(jì)算模塊B B S 數(shù)據(jù)B B S 話題檢測模塊去停用詞模塊圖 2-2 數(shù)據(jù)預(yù)處理模塊流程圖本文在研究 TF*PDF 的基礎(chǔ)上,結(jié)合 BBS 文本內(nèi)容的組織形式,提出了 BSDFS(BBS Short Document Feature Selection)來進(jìn)行帖子文本特征提取。由于我們的 BBS 數(shù)據(jù)來源于各大論壇,而且每個論壇所討論的熱點(diǎn)話題可能也不一致,因此,這些數(shù)據(jù)具有數(shù)據(jù)源多且流量不均衡的特點(diǎn)。TF*PDF 算法傾向于給在各數(shù)據(jù)源均有出現(xiàn)的特征詞賦予更高的權(quán)重。同時(shí),針對 BBS 帖子線索中,發(fā)帖人表達(dá)的語言具有一定的隨意性,導(dǎo)致出現(xiàn)一些同音詞、同義詞。針對這些特點(diǎn),BSDFS 算法考慮了詞匯語義相關(guān)度對詞匯權(quán)重的因素。最后,我們根據(jù) BBS 短文本的特性給出了增益函數(shù) f ( t , d)來增加特征項(xiàng)在文檔中的權(quán)重。按照前面敘述的算法設(shè)計(jì)思想,設(shè)計(jì) BSDFS 算法如公式(1) 、(2) 、(3) 所示:(1)1exp()cDjcjjnWFN(2)211*(,)*(,)ckKjcjc kcftdSimjF(3)(,)(,)*(,)*(,)ftdOcurentdpostCuntdplacet其中 為詞 j 的權(quán)值, 為數(shù)據(jù)源 C 中包含詞 j 的短文數(shù), 為數(shù)據(jù)源 C 的jWjc cN短文總數(shù), c 為數(shù)據(jù)源的數(shù)目, 為詞 j 在數(shù)據(jù)源 c 中未考慮詞匯語義相似度的權(quán)重; jF為數(shù)據(jù)源 C 中相異詞的總數(shù), 為詞 k 在數(shù)據(jù)源 C 中未考慮詞匯語義相似度的權(quán)cK kc重, 是詞 k 和詞 j 的相似度; 是 BBS 文本內(nèi)容的增益因子。()Simj (,)ftd為特征項(xiàng) t 在帖子線索 d 中的出現(xiàn)次數(shù) ; 為 d 中包含,Ocurentd (,)postuntt 的帖子數(shù)目 ; 對應(yīng)于 t 在 d 中的出現(xiàn)位置 ,在標(biāo)題出現(xiàn)過的詞對應(yīng)的值為(,)place3; 通過公式(1) 可以看出,詞 j 的權(quán)重是在所有信源中詞 j 權(quán)重的和, 它說明在大多數(shù)信源中出現(xiàn)的詞將被賦予更高的權(quán)重。詞 j 在信源 C 中的權(quán)重與信源 C 中包含詞 j 的文檔在信源 C 中所占的比例成指數(shù)關(guān)系,也就是說出現(xiàn)在更多文檔中的詞擁有更高的權(quán)重。為了加強(qiáng)這種趨勢,算法使詞的權(quán)重以指數(shù)的速度增長。這體現(xiàn)所抽取的特征次具有廣泛代表性。通過公式(2)可以看出,算法 BSDFS 在計(jì)算某個信源中詞的權(quán)重時(shí),考慮了同義詞和近義詞的影響。如果沒有加入詞匯語義相似度的考慮,在計(jì)算權(quán)重時(shí)同義詞或同音詞將作為相互正交的詞進(jìn)行處理,這樣處理顯然準(zhǔn)確性不高。這保證聚類結(jié)果不被 BBS 文本的不規(guī)范影響。通過公式(3)可以看出,算法 BSDFS 考慮了 BBS 帖子組織結(jié)構(gòu)的特性,把標(biāo)題、主帖和回帖的因素都考慮在內(nèi)。這有助于提高特征詞代表文本的特征準(zhǔn)確性。2.3 話題檢測模塊BBS 話題檢測模塊的主要功能是處理文本向量集合,基于增量聚類算法對預(yù)處理之后的文本向量進(jìn)行聚類,產(chǎn)生若干個文檔集合,每一個文檔集合代表一個話題。BBS 增量聚類模塊的主要流程包括:(1)依次讀取預(yù)處理后的帖子文本; (2)如果這是第一個帖子,則直接將此帖子當(dāng)作第一個話題;(3)與已經(jīng)生成的話題質(zhì)心依次計(jì)算相似度;(4)取最大相似度與閾值相比較;(5)如果大于等于閾值,則把這個帖子加入相應(yīng)話題的文檔集合,并更新相應(yīng)話題的質(zhì)心;(6)如果小于閾值,則把這個帖子當(dāng)作新話題的質(zhì)心;(7)結(jié)果插入數(shù)據(jù)庫。其中,從 BBS 數(shù)據(jù)倉庫中讀出的帖子,經(jīng)過預(yù)處理模塊得到預(yù)處理后的文檔。經(jīng)過文本過濾和權(quán)重計(jì)算,得到文檔的詞和詞權(quán)重向量。進(jìn)入增量聚類流程。增量聚類的結(jié)果得到若干個文檔簇,對文檔簇的規(guī)模進(jìn)行判別,選擇出可以代表話題的文檔簇。最終形成了話題文檔簇集合。BBS 話題檢測模塊系統(tǒng)框架圖如圖 2-3 所示。增量聚類話題文檔簇集合預(yù)處理后的文檔標(biāo)題詞加權(quán)詞權(quán)重計(jì)算B B S 數(shù)據(jù)倉庫帖子文本過濾話題篩選圖 2-3 BBS 話題檢測模塊框架圖3. 實(shí)驗(yàn)結(jié)果3.1 數(shù)據(jù)集為了驗(yàn)證 BSDFS 算法的有效性,本文選擇 深圳論壇和奧一論壇作為 BBS 實(shí)例,通過本實(shí)驗(yàn)室開發(fā)的 BBS 爬蟲采集帖子數(shù)據(jù)進(jìn)行話題檢測實(shí)驗(yàn)。抽取 2010 年 3 月 25 日至 3 月 31 日論壇帖子 2660 篇。通過對文檔集進(jìn)行預(yù)處理,包括帖子內(nèi)容信息抽取、去停用詞、分詞等,得到有效實(shí)驗(yàn)帖子數(shù) 2568 篇。本實(shí)驗(yàn)采用 2.3 節(jié)中提到的 Single-Pass 增量聚類算法,相似度閥值設(shè)為 0.10,最小帖子數(shù)為 10。通過聚類,共產(chǎn)生 21 個話題,我們抽取其中三個話題作為實(shí)驗(yàn)比較。3.2 實(shí)驗(yàn)結(jié)果及分析在第一組實(shí)驗(yàn)中,采用標(biāo)準(zhǔn) TF*IDF 算法計(jì)算詞匯權(quán)重。在標(biāo)準(zhǔn) TF*IDF 算法中,沒有對短文篇幅小的特點(diǎn)進(jìn)行優(yōu)化,沒有考慮 BBS 帖子文本結(jié)構(gòu)的特點(diǎn),實(shí)驗(yàn)結(jié)果如表 1 所示:表一-采用標(biāo)準(zhǔn) TF*IDF 算法計(jì)算詞匯權(quán)重話題 相關(guān)帖子 關(guān)鍵詞及權(quán)重奧一論壇-有話問市長_p_1547_深圳市李峰副市長接見參戰(zhàn)老兵代表并重視老兵訴求奧一論壇-有話問市長_p_1451_讓我們參戰(zhàn)退役老兵生活更有尊嚴(yán)奧一論壇-有話問市長_p_1853_請給深圳的優(yōu)撫對象免費(fèi)乘坐公交等最實(shí)際的關(guān)懷讓我們參戰(zhàn)退役老兵生活得更有尊嚴(yán)!退役: 14.08 老兵: 14.39 優(yōu)撫對象: 14.08 參戰(zhàn): 15.13退役軍人: 14.38 撫恤: 13.73 下崗: 11.90 優(yōu)撫: 12.96優(yōu)待: 12.28 傷病: 10.30深圳市委: 10.57 副市長: 10.72保衛(wèi)邊疆: 12.28 戰(zhàn)友: 11.88奧一論壇-深圳視點(diǎn)_p_2087_房價(jià)不降,房架降啦。哈哈奧一論壇-有話問市長_p_1465_深圳樓盤沉降12厘米政府竟然稱質(zhì)量沒問題奧一論壇-深圳視點(diǎn)_p_2077_深圳填海區(qū)豪宅沉降最高深達(dá)12厘米深圳填海區(qū)豪宅沉降最高深達(dá) 12 厘米建筑質(zhì)量: 12.62 沉降: 16.64 地表: 13.16 地磚: 13.10 下陷: 10.30 海岸: 12.26西岸: 12.65 填海: 12.28波浪: 12.08 西側(cè): 12.01塌陷: 12.08 羅田: 13.68厘米: 12.94深圳論壇-第一現(xiàn)場_p_1_公車門房某回應(yīng):周末開公車是去辦公事我們的目的是:迫使政府建立新的公車管理制度 深圳論壇-第一現(xiàn)場_p_2302_深圳街道辦副主任房艷公車周末帶上哥哥和侄仔仨人去公干調(diào)查組: 10.54 機(jī)動車輛: 10.92 調(diào)查結(jié)果 : 10.19 公干: 12.65政府制定: 10.30 政府建立: 13.68所屬部門: 10.30 調(diào)度: 12.87 基層官員: 10.92公務(wù)用車: 11.24 外出辦公: 深圳論壇-第一現(xiàn)場_p_214_我們的目的是:迫使政府建立新的公車管理制度10.92公車管理: 12.65 在第二組實(shí)驗(yàn)中,采用本文提出的 BSDFS 算法計(jì)算詞匯權(quán)重。在該算法中,對 BBS 短文篇幅小的特點(diǎn)進(jìn)行優(yōu)化,考慮多數(shù)據(jù)源、帖子文本結(jié)構(gòu)的特點(diǎn),實(shí)驗(yàn)結(jié)果如表 2 所示: 表二-采用本文提出的 BSDFS 算法計(jì)算詞匯權(quán)重話題 相關(guān)帖子 關(guān)鍵詞及權(quán)重奧一論壇-有話問市長_p_1547_深圳市李峰副市長接見參戰(zhàn)老兵代表并重視老兵訴求深圳論壇-第一現(xiàn)場_p_186_讓我們參戰(zhàn)退役老兵生活得更有尊嚴(yán)奧一論壇-有話問市長_p_1853_請給深圳的優(yōu)撫對象免費(fèi)乘坐公交等最實(shí)際的關(guān)懷讓我們參戰(zhàn)退役老兵生活得更有尊嚴(yán)!退役: 14.51 老兵: 21.88 優(yōu)撫對象: 14.88 參戰(zhàn): 15.67退役軍人: 14.38 撫恤: 13.73 下崗: 11.90 優(yōu)撫對象: 14.08 優(yōu)待: 12.28 傷病: 10.30深圳: 20.57 副市長: 11.92保衛(wèi)邊疆: 12.28 戰(zhàn)友: 11.88奧一論壇-深圳視點(diǎn)_p_2087_房價(jià)不降,房架降啦。哈哈深圳論壇-第一現(xiàn)場_p_1734_第一現(xiàn)場100407播出:后海填海區(qū)路面是波浪欄桿在扭腰奧一論壇-深圳視點(diǎn)_p_2077_深圳填海區(qū)豪宅沉降最高深達(dá)12厘米深圳填海區(qū)豪宅沉降最高深達(dá) 12 厘米后海:18.26 填海區(qū):17.56 沉降: 19.99 豪宅:13.21塌陷: 12.08 海景: 10.92 中心區(qū): 11.72 地磚: 13.10 建筑質(zhì)量: 12.62 地表: 13.16 波浪: 12.08 最深處: 14.34 地面下陷: 10.92 樓盤:11.45 厘米: 13.45 深圳論壇-第一現(xiàn)場_p_1_公車門房某回應(yīng):周末開公車是去辦公事奧一論壇-深圳視點(diǎn)_p_1877_公車門調(diào)查組死豬不怕開水燙奧一論壇-深圳視點(diǎn)_p_1966_疑偏袒公車門官員,深圳網(wǎng)民上監(jiān)察局討說法疑偏袒公車門官員,深圳網(wǎng)民上監(jiān)察局討說法調(diào)查組: 11.26 機(jī)動車輛: 10.92調(diào)查結(jié)果: 10.19 公干: 12.65政府制定: 10.30 迫使: 13.48 政府建立: 16.10 調(diào)度: 12.87 所屬部門: 10.30 公車:22.14 基層官員: 10.92 公務(wù)用車:11.24 外出辦公:10.92 公車管理:14.88 死豬不怕開水燙: 17.23通過實(shí)驗(yàn)結(jié)果對比,我們可以發(fā)現(xiàn)同樣的話題,其相關(guān)帖子以及關(guān)鍵詞的權(quán)重都發(fā)生了變化。由于 BSDFS 算法考慮了來自不同數(shù)據(jù)源的影響,出現(xiàn)在不同數(shù)據(jù)源的關(guān)鍵詞的權(quán)重將指數(shù)級增長,因此,來自不同數(shù)據(jù)源的帖子更容易地聚到同一個話題。同時(shí),出現(xiàn)在帖子標(biāo)題的關(guān)鍵詞權(quán)重也得到提高,其對聚類結(jié)果的影響也相應(yīng)提高。實(shí)驗(yàn)表明,通過 BSDFS 算法進(jìn)行特征提取,BBS 話題檢測聚類結(jié)果更加準(zhǔn)確、更加有效。4. 結(jié)束語本文從分析 BBS 熱點(diǎn)話題檢測入手,針對 BBS 短文本特征提取進(jìn)行了深入細(xì)致的探討和研究。在基于 TF*PDF 的基礎(chǔ)上,我們提出 BSDFS(BBS Short Document Feature Selection)算法,它適用于多數(shù)據(jù)源、短文篇幅小、文本內(nèi)容不規(guī)范的 BBS 短文本特征提取。實(shí)驗(yàn)結(jié)果表明,該算法可以有效挖掘 BBS 上的熱點(diǎn)話題。通過有效地提取特征形成有效代表帖子的文本向量,在 BBS 熱點(diǎn)話題檢測的精度與效率方面有較大提高。然而系統(tǒng)中各聚類算法、參數(shù)和閾值的選擇仍是值得研究的問題。參考文獻(xiàn):1 Internet Forum Software. /wiki/category:internet_forum_software2 中國互聯(lián)網(wǎng)信息中心.第 24 次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告3 YOU Lan , DU Yong2ping , GE Jia2yin , et al . BBS based hot topic ret rieval using back2propagation neural network CP P Proceedings of the 1st International Symposium on Natural Language Processing ( IJCNL P 04 ) . Hainan, China :LNAI 3248 , 2004 :139 21484 Kobayashi N, Iida R, Inui K et a1. Opinion mining as extraction of attribute-value relations. New Frontiers in Artificial Intelligence, 2006, 4012: 4704815 Zhang Y, Li Z, Ren F et a1. Semi-automatic emotion recognition from textual input based on the constructed emotion thesaurus. IEEE, 2005: 5715766 YANG Y, PEDERSEN JP. Feature Selection in Statistical Learning of Text CategorizationA . The 14th Inc Conf ,On Machine learning ,1997. 412 - 420.7 JOACHIM T. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text CategorizationA . Processing of ICML297 ,14th Interna2 tional Conference on Machine LearningC ,1996. 143 1518 龐劍鋒,卜東波 ,白碩.基于向量空間模型的文本自動分類系統(tǒng)的研究與實(shí)現(xiàn)J . 計(jì)算機(jī)應(yīng)用研究,2001 ,18 (9) :23 - 26BBS Short Document
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《GB-T 39003.1-2020工業(yè)自動化系統(tǒng)工程用工程數(shù)據(jù)交換格式 自動化標(biāo)識語言 第1部分:架構(gòu)和通 用要求》專題研究報(bào)告
- 《GB-T 11322.1-2013射頻電纜 第0部分:詳細(xì)規(guī)范設(shè)計(jì)指南 第1篇 同軸電纜》專題研究報(bào)告
- 《GB-T 31181-2014假肢 踝足裝置和足部組件 要求和試驗(yàn)方法》專題研究報(bào)告
- 《GB-T 38842-2020實(shí) 用超導(dǎo)線的分類和檢測方法 一般特性和指南》專題研究報(bào)告
- 《GBT 34475-2017 尿素級奧氏體不銹鋼棒》專題研究報(bào)告
- 《GB-T 7268-2015電力系統(tǒng)保護(hù)及其自動化裝置用插箱及插件面板基本尺寸系列》專題研究報(bào)告
- Tiamo-basical-method-1參考資料說明
- 《幼兒文學(xué)》課件-6.2幼兒圖畫故事特點(diǎn)
- 種子行業(yè)種子銷售經(jīng)理崗位招聘考試試卷及答案
- 2026年消防安全工作計(jì)劃(2篇)
- 特種作業(yè)安全工作培訓(xùn)課件
- 住宅電梯更新項(xiàng)目可行性研究報(bào)告
- 廣東省廣州市天河區(qū)2023-2024學(xué)年七年級上學(xué)期期末道德與法治試題(含答案)
- 2024-2025學(xué)年塔里木職業(yè)技術(shù)學(xué)院單招《英語》考前沖刺練習(xí)試題附答案詳解【培優(yōu)B卷】
- 手榴彈使用課件
- 《新聞學(xué)概論》試卷及答案
- 工會勞動爭議調(diào)解會議記錄范本
- 2025年數(shù)字化營銷顧問職業(yè)素養(yǎng)測評試卷及答案解析
- 2025年保密試題問答題及答案
- 建設(shè)工程工程量清單計(jì)價(jià)標(biāo)準(zhǔn)(2024版)
- 代建項(xiàng)目管理流程與責(zé)任分工
評論
0/150
提交評論