版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
文本表示模型及聚類算法介紹綜述目錄TOC\o"1-2"\h\u28598文本表示模型及聚類算法介紹綜述 1147331.1文本表示模型 1181741.1.1向量空間模型 1197711.1.2布爾模型 283221.1.3概率模型 2244841.2情感特征提取 3303491.1.1文檔頻率法 3305521.1.2信息增益法 374421.1.3互信息法 424301.1.4情感詞典匹配法 4270381.3文本聚類算法 4241971.3.1基于層次的聚類算法 5285841.3.2基于劃分的聚類算法 575921.3.3基于密度的聚類算法 573251.3.4基于網(wǎng)格的聚類算法 5近年來,隨著網(wǎng)絡(luò)科技的發(fā)展,網(wǎng)民的數(shù)量越來越多,數(shù)據(jù)的爆發(fā)式增長加大了傳統(tǒng)獲取熱門信息情感極性的難度。熱點(diǎn)話題情感分析是一項綜合性的研究,屬于自然語言處理的分支,需要用到一系列的文本處理技術(shù),包括中文分詞、去除停用詞、文本向量表示、文本聚類以及文本情感極性判斷等。本章主要對所用到的技術(shù)的相關(guān)理論做了詳細(xì)介紹,并對本文使用的Hadoop平臺做了介紹。1.1文本表示模型微博話題情感分析系統(tǒng)需要借助計算機(jī)來利用情感話題進(jìn)行情感分析,而計算機(jī)并不能直接識別文字并對文本進(jìn)行處理,需要將分詞處理后的文本按照一定規(guī)則進(jìn)行處理,目前較為常用的文本表示模型有如下三種。1.1.1向量空間模型向量空間模型[41](VectorSpaceModel,VSM)是將文本映射成向量矩陣,該算法的基本思想是:將文本集量化成一個高維空間向量,向量中的每個特征都是文本集中出現(xiàn)的詞。在向量空間模型進(jìn)行文本表示時,為了提高計算效率需要降低向量維度,無價值和權(quán)值低的詞會被過濾。常用的模型權(quán)值計算方法為詞頻統(tǒng)計法、根號函數(shù)法和詞頻-逆文檔頻率(TermFrequency-InverseDocumentFrequency,TF-IDF)。(1)詞頻統(tǒng)計法特征詞在某條文本中出現(xiàn)的次數(shù)作為該詞的特征項的權(quán)值,計算過程如公式(2-1)所示: (2-1)式中,表示特征詞,表示文本,表示文本中特征詞出現(xiàn)的次數(shù),表示所有特征詞的數(shù)目之和,表示特征詞的詞頻。(2)根號函數(shù)法根號函數(shù)法求權(quán)值,就是得到特征項頻率后對其進(jìn)行開方,計算過程如公式(2-2)所示: (2-2)(3)詞頻-逆文檔頻率詞頻-逆文檔頻率為詞頻和逆文檔頻率之積。特征詞在文本中出現(xiàn)的次數(shù)表示為TF,計算公式如公式(2-1)。IDF為逆文檔頻率,表示總文本數(shù)量和含有特征詞的文本數(shù)量的比值的對數(shù),計算過程如公式(2-3)所示: (2-3)式中,表示數(shù)量,為計算的文本中存在特征詞的文本數(shù),引入0.01是為了防止文本中沒有特征詞,導(dǎo)致分母為零無法計算的情況出現(xiàn),則TF-IDF的計算過程如公式(2-4)所示: (2-4)因此,TF-IDF值與特征詞在同一文本中出現(xiàn)的頻率呈正相關(guān),在需要計算的總文本中出現(xiàn)的頻率呈負(fù)相關(guān),從而有效的將權(quán)值高的關(guān)鍵特征詞篩選出來。1.1.2布爾模型布爾模型是一種最簡單的文本表示模型,該模型通過利用二值變量集合的方法對文本進(jìn)行表示。變量集合由文本中的詞條特征項組成,二值表示了文本中的特征項是否出現(xiàn),如果出現(xiàn)則將相應(yīng)權(quán)值賦值為“1”,如果不出現(xiàn)則將相應(yīng)權(quán)值用“0”表示。盡管布爾模型的文本表示方法容易實(shí)現(xiàn),處理速度快,但是對文本特征的表示能力較差,二值變量只能表示特征項是否在文本中出現(xiàn),并不能表示特征項的重要程度。1.1.3概率模型概率模型(Probabilisticmodels)是一種基于數(shù)學(xué)原理中概率排隊理論的文本表示模型。在概率模型的構(gòu)建中綜合考慮了詞語、文檔出現(xiàn)的次數(shù)等原因?qū)ξ谋绢悇e的影響。該模型將詞語與詞語的相關(guān)性作為對文本關(guān)系進(jìn)行判斷的依據(jù),而不是簡單的取0或1。在文本表示中,該模型的建立利用數(shù)學(xué)基礎(chǔ)知識計算文本的相關(guān)性來進(jìn)行排序,雖然可以按照相關(guān)頻率減少的規(guī)則進(jìn)行排序,但是需要根據(jù)相關(guān)性將文本數(shù)據(jù)分為兩部分,不僅增大了操作難度,而且精度不高。1.2情感特征提取文本表示的基本單元被稱為特征,特征項必須滿足條件:(1)和文本內(nèi)容密切相關(guān);(2)具有高可辨度,可以使目標(biāo)文本和其他文本分類;(3)滿足辨識性的同時數(shù)目也不能很多;(4)容易進(jìn)行特征提取[42]。特征選取的目的在于通過刪除無關(guān)特征以及盡量保留文本的基本信息,提高分類的性能。本文主要是以微博中的熱點(diǎn)事件為基礎(chǔ)進(jìn)行研究,由于微博平臺的獨(dú)特性,網(wǎng)民可以在微博發(fā)表各式各樣的言論來表達(dá)自己的觀點(diǎn),既可以只包含文字,也可以在內(nèi)容中添加自定義圖片等。在對微博進(jìn)行情感分析的時候,特征項的提取是至關(guān)重要的。首先由于微博內(nèi)容的多樣化,文本中會含有大量對提取主題沒有幫助的信息,因此要在特征提取階段進(jìn)行無關(guān)信息過濾;其次,文本中除了基礎(chǔ)情感詞,還存在其他詞語影響情感極性,如否定詞等,因此需要對特征項的提取方法進(jìn)行選擇。常見的特征提取方法有基于文檔頻率的特征提取法、信息增益法,互信息法以及情感詞典匹配法等。1.1.1文檔頻率法文檔頻率(DocumentFrequency,DF)是指對存在特性項的文檔數(shù)量進(jìn)行統(tǒng)計,然后計算占據(jù)總文檔數(shù)量的比例。首先設(shè)置好一個閾值,統(tǒng)計包含目標(biāo)特征詞的文檔數(shù)目,然后計算出現(xiàn)的頻率,再將計算得到的頻率和預(yù)先設(shè)置好的閾值相比較。若頻率比閾值小,則認(rèn)為特征詞在文檔中出現(xiàn)的次數(shù)并不能滿足要求,不能作為標(biāo)識類別信息,需要將其作為噪聲特征刪除。但另一方面,如果在某一類別出現(xiàn)的頻率大于預(yù)設(shè)閾值,在其他的類別中出現(xiàn)的頻率也大于預(yù)設(shè)閾值,則設(shè)為該特征詞并不具備很好的類別區(qū)分能力,也需要將該特征詞。剩下的滿足要求的特征詞按照頻率進(jìn)行排序,頻率高的特征詞將被保留下來構(gòu)建特征向量。在采用基于文檔頻率的特征提取方法時,該方法算法復(fù)雜度低,而且會自動過濾部分噪聲特征,但是也可能會過濾掉一些信息量較大但出現(xiàn)頻率不滿足閾值要求的特征。1.1.2信息增益法在文本特征提取中,信息增益法(InformationGain,IG)利用特征項所攜帶的信息量大小來進(jìn)行特征提取,通常具有代表性的特征項信息量都很大,滿足文本分析的需要。如果一個特征項在文本中具有很強(qiáng)的區(qū)分性,則認(rèn)為該特征項相對文本而言比較重要,包含的信息量也較大。在文本特征提取中,信息增益的熵是有特征項文本和無特征項文本的信息量差值,是衡量文本混亂或復(fù)雜的指標(biāo),特征項在某類文本中出現(xiàn)的不確定性越高,熵值越高。反之,不確定性越低,熵值越低。表示文檔類別,表示文本中的特征項,具體定義公式(2-5): (2-5)式中,表示特征項存在某條文本的概率,表示文本特征屬于類的條件概率,表示文本中并不存在,表示類別數(shù)。特征選取的可能性隨值的增大而增大。信息增益考慮了特征項未出現(xiàn)的情況,但是會存在數(shù)據(jù)稀疏的問題。1.1.3互信息法兩個變量之間所包含共享的信息量越大,則二者之間的相關(guān)性越高?;バ畔⒎ǎ∕utualInformation,MI)獲取最優(yōu)特征的方式即是通過計算特征項和類別二者之間的信息量的大小。A為特征項和文檔同時出現(xiàn)的次數(shù),為存在而不存在的次數(shù),為存在而不存在的次數(shù),為所有需要計算的總文檔數(shù),隨兩者相關(guān)性的增大而增大,如果與無關(guān),則。對于多個類,每個特征項都會有多個值,取它們的平均值,然后選取平均值大的特征作為特征抽取的特征項?;バ畔⒎ǖ挠嬎氵^程如公式(2-6)所示。 (2-6)1.1.4情感詞典匹配法情感詞典以具有明確情感傾向的情感詞為基礎(chǔ)。判斷文本情感極性時,情感特征的提取即可以減少噪聲詞語的干擾,又可以降低處理向量維數(shù),因此有效提高情感算法的處理速度和精度。微博雖然是以文本形式發(fā)表的,但網(wǎng)絡(luò)言論的自由性和互動性使得微博文本偏向于口語化,用戶經(jīng)常會使用一些常用口語表達(dá)對事件的看法并抒發(fā)自己內(nèi)心的真實(shí)感受。利用情感詞典實(shí)現(xiàn)特征提取的原理簡單,首先將目標(biāo)詞語與情感詞典的進(jìn)行對比提取,然后制定相應(yīng)規(guī)則進(jìn)行計算。在進(jìn)行情感分析操作時,文本的特征詞主要是表達(dá)情緒的情感詞,本文即是選用情感詞典進(jìn)行特征詞提取。1.3文本聚類算法文本聚類是在進(jìn)行信息篩選中的常用方法。該方法需要將文本信息映射為可計算的特征數(shù)據(jù),這樣形成高維特征數(shù)據(jù)之后,還需要計算特征數(shù)據(jù)之間的相似程度,之后按照相似程度(距離)將文本劃分為若干個簇,簇內(nèi)相似程度高,簇間相似程度低。目前常用的聚類算法主要從層次、劃分、密度和網(wǎng)絡(luò)幾方面進(jìn)行研究[43]。1.3.1基于層次的聚類算法層次聚類方法是將文本數(shù)據(jù)對象根據(jù)距離方法進(jìn)行層次分解,當(dāng)符合預(yù)設(shè)條件時結(jié)束?;趯哟蔚木垲愃惴〞纬梢粋€樹形結(jié)構(gòu),根據(jù)樹方向的不同可以分為凝聚式(自底向上)和分裂式(自頂向下)兩種方法。凝聚式的層次聚類在進(jìn)行聚類時認(rèn)為每個對象相對獨(dú)立,由此得到若干個簇,然后對簇進(jìn)行合并,符合終止條件則合并結(jié)束。和凝聚式不同,分裂式的層次聚類首先將所有數(shù)據(jù)樣本作為一個總簇,自頂向下層層細(xì)分成若干個小簇,符合終止條件則結(jié)束。該算法在進(jìn)行聚類操作中不能對凝聚或分裂的操作結(jié)果進(jìn)行修改,即存在不可逆性。常用的層次聚類算法有BIRCH(BalancedIterativeReducingandClusteringUsingHierachies)算法[44]、ROCK算法[45]和Chameleon算法[46]等。1.3.2基于劃分的聚類算法基于劃分的聚類算法不需要層次結(jié)構(gòu),通過對給定的數(shù)據(jù)集構(gòu)造劃分的迭代過程,將數(shù)據(jù)集細(xì)分成若干數(shù)目的子集,這些子集彼此并不相交,結(jié)果得到的子集也被稱為聚類算法的簇。K-means算法[47]和FCM算法[48]是常用的兩種經(jīng)典劃分算法。K-means算法是J.MacQueen在1967年首次提出的,算法原理是首先輸入預(yù)期聚類得到的簇的數(shù)目K,然后根據(jù)該值隨機(jī)選取相同個數(shù)的數(shù)據(jù)點(diǎn),將這些數(shù)據(jù)點(diǎn)作為初始聚類中心構(gòu)造計算過程進(jìn)行迭代,保證簇內(nèi)數(shù)據(jù)相似度高,簇間相似程度低。1.3.3基于密度的聚類算法基于密度的聚類方法又被稱為局部聚類,該算法可以根據(jù)稀疏區(qū)域?qū)θ我庑螤畹目臻g型數(shù)據(jù)進(jìn)行聚類處理,并在一定程度上過濾噪聲和孤立點(diǎn)數(shù)據(jù)。算法原理是根據(jù)樣本數(shù)據(jù)分布的緊密程度對數(shù)據(jù)進(jìn)行處理,當(dāng)某一區(qū)域的樣本密度大于閾值就將其分到相近類別中?;诿芏鹊慕?jīng)典聚類算法有DBSCAN(Density-BasedApatialClusteringofApplicationswithNoise)算法[49]和OPTICS(OrderingPointstoIndentifytheClusteringStructure)算法[50]等。1.3.4基于網(wǎng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025韓國化妝品市場調(diào)研與發(fā)展規(guī)劃報告
- 2025鞋類制造業(yè)市場競爭格局品牌發(fā)展投資趨勢分析研究報告
- 2025鞋服行業(yè)消費(fèi)趨勢動態(tài)分析及市場發(fā)展方向規(guī)劃研究報告書
- 2025鞋服制造業(yè)產(chǎn)能過剩與品牌國際化發(fā)展研究分析報告
- 烷基苯裝置操作工創(chuàng)新應(yīng)用能力考核試卷含答案
- 2025廣東深圳市龍崗區(qū)企業(yè)服務(wù)中心招聘特聘崗聘員5人考試筆試模擬試題及答案解析
- 發(fā)酵過程中糖類代謝與風(fēng)味形成的關(guān)系-洞察及研究
- 2025郵政快遞行業(yè)市場供需結(jié)構(gòu)及電商包裹配送評估分析研究報告
- 2025西安高新區(qū)第九初級中學(xué)招聘教師考試筆試備考試題及答案解析
- 2025郵政快遞分揀設(shè)備市場分析供需動態(tài)評估投資風(fēng)險評估發(fā)展策略報告
- 機(jī)電產(chǎn)品三維設(shè)計 課件 項目4.14.2.1~3扭尾機(jī)械手
- 2025考評員培訓(xùn)考試題(含答案)
- 醫(yī)院黨建與醫(yī)療質(zhì)量提升的融合策略
- 2025年聊城交運(yùn)集團(tuán)汽車站招聘工作人員(3人)參考筆試試題及答案解析
- 2025西部機(jī)場集團(tuán)航空物流有限公司招聘參考考點(diǎn)題庫及答案解析
- 2025海南三亞市直屬學(xué)校赴高校面向2026年應(yīng)屆畢業(yè)生招聘教師111人(第5號)考試筆試參考題庫附答案解析
- 2025中央廣播電視總臺招聘144人(公共基礎(chǔ)知識)綜合能力測試題附答案解析
- 嚴(yán)格執(zhí)行管理制度(3篇)
- 支氣管哮喘常見癥狀及護(hù)理技術(shù)培訓(xùn)
- 2025年廣東省常用非金屬材料檢測技術(shù)培訓(xùn)考核考前沖刺必會500題-含答案
- 2025年德語游戲客服面試題庫及答案
評論
0/150
提交評論