《微博熱點話題情感分析的算法設(shè)計3800字》_第1頁
《微博熱點話題情感分析的算法設(shè)計3800字》_第2頁
《微博熱點話題情感分析的算法設(shè)計3800字》_第3頁
《微博熱點話題情感分析的算法設(shè)計3800字》_第4頁
《微博熱點話題情感分析的算法設(shè)計3800字》_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

微博熱點話題情感分析的算法設(shè)計綜述目錄TOC\o"1-2"\h\u6315微博熱點話題情感分析的算法設(shè)計綜述 1157661.1熱點話題情感分析算法流程 1214211.2構(gòu)建微博基礎(chǔ)情感詞典 272481.3構(gòu)建修飾詞詞典 354681.3.1否定詞詞典 357071.3.2程度副詞詞典 3246951.4語義規(guī)則分析 4101061.1.1詞語多元組 4318841.1.2句型規(guī)則 4284041.1.3句間規(guī)則 5130751.5話題情感計算 5如何判別文本的情感極性在自然語言處理領(lǐng)域中是一個復(fù)雜的研究問題,其中情感詞的正負傾向是情感極性很重要的判斷依據(jù)。傳統(tǒng)基于情感詞典的方法分析文本時,最常用的方法是將文本中出現(xiàn)的詞語和情感詞典進行對比,若在情感詞典中出現(xiàn)則標(biāo)注情感詞的極性并賦予權(quán)值,之后利用文本中情感詞的累加計算文本極性。基于情感詞典的方法簡單快速,但是單一的只考慮情感詞而忽略文本語義,不能根據(jù)語境進行判斷,誤差很大,并不能滿足如今對微博文本情感分析的準(zhǔn)確度要求。1.1熱點話題情感分析算法流程為了盡可能全面的考慮對微博情感的影響因素,本文對能夠影響微博情感的修飾詞和句型結(jié)構(gòu)也進行分析。對于情感詞,本文將能夠改變情感詞極性和強度的否定詞、程度副詞等進行分析,根據(jù)修飾詞和否定詞之間的搭配構(gòu)建詞語多元組。對于微博的句型結(jié)構(gòu),微博文本可以根據(jù)標(biāo)點符號劃分為若干個復(fù)句,復(fù)句又可以劃分為若干個分句,本文分別分析了復(fù)句的句型規(guī)則和分句的句間規(guī)則對微博文本情感的影響,從情感詞和語義規(guī)則兩方面對微博文本的情感極性進行研究,算法設(shè)計流程圖如4-1所示:圖4-1情感分析算法的流程圖Fig.4-1FlowChartofSentimentAnalysisAlgorithm1.2構(gòu)建微博基礎(chǔ)情感詞典文本中的情感詞是情感分析處理的基礎(chǔ),通常情感詞和整條文本的情感極性密切相關(guān),因此需要在文本中提取。在文本分詞之后,可以將待定詞和情感詞典的逐詞對比進行獲取。對于微博的情感分析研究,情感詞典的完備性和情感特征提取準(zhǔn)確性是正相關(guān)的,情感特征提取的質(zhì)量會直接對實驗結(jié)果造成影響。國外的情感分析取得了很多成果,和國外研究進展相比,我國情感分析起步較晚,加上中西方表達方式存在的巨大差異,國外研究學(xué)者的成果并不能直接套用,因此需要針對中文來進行定向研究。雖然近些年研究人員在情感詞典的構(gòu)造上取得了一些成果,但并沒有一部完備性高且適用于各個領(lǐng)域的情感詞典適用于極性分析,因此結(jié)合微博語料的文本特點,需要構(gòu)建微博情感詞典來進行文本情感極性研究?;A(chǔ)情感詞典適用于多領(lǐng)域。根據(jù)國內(nèi)的情感詞典取得的研究成果,在知網(wǎng)HowNet情感詞典為基礎(chǔ)上,將常用情感詞典進行整合去重、手工過濾歧義詞等處理,得到一個相對完備且較通用的情感詞典,然后將情感詞典中的情感詞按照極性分別設(shè)為1和-1,作為本文研究的基礎(chǔ)情感詞典,如表4-1所示。表4-1基礎(chǔ)情感詞典的組成Tab.4-1CompositionofBasicSentimentDictionary序號詞典名稱正向負向1知網(wǎng)HowNet詞典456643702NTUSD詞典281082763大連理工詞典庫186107044中文褒貶義詞典556744695褒義詞詞典507606貶義詞詞典034957學(xué)生褒貶義詞典7289428本文詞典488962551.3構(gòu)建修飾詞詞典1.3.1否定詞詞典否定詞本身沒有情感傾向,但如果文本中存在否定詞,情感傾向就不能僅僅依靠基礎(chǔ)情感詞典,因此本文在情感基礎(chǔ)詞典的基礎(chǔ)上引入了否定詞詞典。依據(jù)否定詞一般左鄰情感詞的特性,本文只考慮否定詞對緊跟的首個情感詞的影響。情感詞的極性經(jīng)過否定詞的修飾后可能會發(fā)生改變,不僅如此,還需要考慮否定詞的存在的數(shù)目,如果為奇數(shù),則極性反轉(zhuǎn);如果為偶數(shù),不考慮極性變化,則計算的情感權(quán)值與情感詞典中匹配到的詞語情感極性相同,具體計算公式如式(4-1)。 (4-1)其中,為否定詞的個數(shù)。本文整理出否定詞詞典并賦予權(quán)值,示例如表4-2所示。表4-2否定詞詞典示例Tab.4-2NegativeDictionaryExample否定詞權(quán)值個數(shù)不、沒、無、非、莫、弗、毋、勿、未、否、別、無、休、不曾、未必、沒有、不要、難以、未曾-1191.3.2程度副詞詞典在文本情感分析中,程度副詞本身沒有情感傾向,考慮到實際微博文本情感的計算過程中,情感詞不僅有極性判別的要求,還需要考慮到話題情感強度。文本的情感詞經(jīng)過程度副詞的修飾后,雖然情感極性不發(fā)生改變,但是情感強度會由于程度副詞的影響而增強或減弱。因此本文引入程度副詞詞典對基礎(chǔ)情感詞典加以補充。在文本中存在一個程度副詞修飾多個情感詞或多個程度副詞修飾一個情感詞的情況,按照修飾詞左鄰情感詞的特性,本文只考慮對緊跟的首個情感詞的影響。本文根據(jù)知網(wǎng)程度副詞詞庫構(gòu)建了一個程度副詞詞典,根據(jù)藺璜等[64]人的理論,按照強度分為極量、高量、中量和低量的分級,對其賦上了相應(yīng)的權(quán)值,示例如表4-3所示。表4-3程度副詞詞典示例Tab.4-3ExampleAdverbDictionary等級權(quán)值個數(shù)程度詞詞典示例極量299最、無比、卓絕、過分、極度、絕對、完全高量1.542很、大為、非常、格外、分外、相當(dāng)、實在中量1.237較、比較、較為、愈發(fā)、越、還要、越來越低量0.841稍、不太、略加、一點、有些、有點、稍許1.4語義規(guī)則分析1.1.1詞語多元組在分析詞語的粒度中,修飾詞都位于情感詞之前且距離接近,本文將修飾詞和情感詞最大距離設(shè)置為3,這些修飾詞不同程度的影響著文本的情感極性和情感值。因此本文根據(jù)基礎(chǔ)情感詞、程度副詞和否定詞的搭配關(guān)系構(gòu)造詞語多元組,利用權(quán)值累乘的規(guī)則來進行詞語多元組的值計算。詞語多元組存在四種組合形式:(1)只有情感詞;(2)含有一個或多個否定詞和情感詞;(3)含有一個或多個程度副詞和情感詞;(4)含有程度副詞、否定詞和情感詞。1.1.2句型規(guī)則微博文本的句型規(guī)則分析的是復(fù)句的句型結(jié)構(gòu)對整條微博情感極性的影響。若一條微博文本可以根據(jù)標(biāo)點符號劃分為若干個復(fù)句,其中為微博文本的復(fù)句,其權(quán)值為。根據(jù)對微博數(shù)據(jù)的統(tǒng)計,用戶在發(fā)布微博時常用的句型句式主要有四種,即陳述事實或看法的陳述句、表達感慨含義的感嘆句以及蘊含疑問語氣的疑問句和反問句。(1)感嘆句一般以感嘆號結(jié)尾,表達的是用戶對某人或事物的感嘆,具有加強語氣的作用,因此本文將設(shè)為2;(2)反問句一般以問號結(jié)尾且句尾有“嗎”之類的反問標(biāo)志詞,表達用戶強烈的質(zhì)疑情緒,能夠?qū)⒄麄€復(fù)句的情感極性發(fā)生反轉(zhuǎn),因此本文將反問句的設(shè)為-1.5;(3)疑問句結(jié)尾的標(biāo)點符號與反問句相同,但是句尾不存在反問標(biāo)志詞,只是單純的表達用戶的疑問,對復(fù)句的情感強度和情感極性沒有影響,因此本文將疑問句的設(shè)為0;(4)陳述句一般以句號或除上述符號之外的其他標(biāo)點符號結(jié)尾,是微博文本中最常見的一種句式表達,對情感的強度和極性影響不大,因此本文將設(shè)為1。1.1.3句間規(guī)則一條復(fù)句可以劃分為若干個分句,分句的句間規(guī)則分析的是分句之間的關(guān)系,微博文本最常見的句間關(guān)系主要有三種,分別為轉(zhuǎn)折語句、遞進語句和假設(shè)語句。分句用集合表示為,表示微博文本中的句間語義規(guī)則對微博分句的分句權(quán)值。(1)轉(zhuǎn)折轉(zhuǎn)折語句中的轉(zhuǎn)折詞會導(dǎo)致文本的極性發(fā)生反轉(zhuǎn),如“雖然……但是”等,因此需要對轉(zhuǎn)折詞進行研究。轉(zhuǎn)折前接詞(如“雖然”)是為了強調(diào)轉(zhuǎn)折后的文本,轉(zhuǎn)折后接詞(如“但是”)之后的情感才是用戶真實的情感表達。當(dāng)復(fù)句中不存在轉(zhuǎn)折前接詞,只存在轉(zhuǎn)折后接詞,則包含轉(zhuǎn)折詞的分句前的權(quán)值皆是0,及之后的權(quán)值皆是1;當(dāng)復(fù)句只存在轉(zhuǎn)折前接詞,后面不存在后接詞進行強調(diào),則包含轉(zhuǎn)折詞的分句的權(quán)值是1,之后的分句皆是0;當(dāng)一個復(fù)句中包含了成對的轉(zhuǎn)折詞,則包含轉(zhuǎn)折后接詞的分句后的關(guān)系權(quán)值皆是1,之前的分句權(quán)值是0。(2)遞進句間規(guī)則在進行文本情感分析時,遞進語句表達的是情感上的遞進,如“甚至”、“更加”等,是對情感的加強,并不會對文本情感的極性產(chǎn)生影響。當(dāng)復(fù)句中存在遞進詞,則遞進詞所在分句之前的所有分句權(quán)值都設(shè)為1,之后的分句權(quán)值都設(shè)為1.5。(3)假設(shè)句間規(guī)則微博用戶使用假設(shè)句是表達對某一事物或看法的一種假設(shè),如“倘若……那么”等,強調(diào)的主要部分集中在文本的前半分句,后半分句的情感強度會相對較弱。若復(fù)句中不存在假設(shè)前接詞(如“倘若”),則假設(shè)后接詞(如“那么”)所在的分句之前的分句權(quán)值都設(shè)為1,之后的分句權(quán)值設(shè)為0.5。若復(fù)句中出現(xiàn)表示否定的假設(shè)連接詞(如“倘若不”),則假設(shè)后接詞所在分句之前的分句權(quán)值都設(shè)為-1,之后的分句權(quán)值都設(shè)為-0.5。1.5話題情感計算本文將常見情感詞典進行整合構(gòu)建了基礎(chǔ)情感詞典,為了盡可能全面的獲取微博情感特征,之后又新增了否定詞詞典和程度副詞詞典對其進行補充,根據(jù)搭配構(gòu)造了詞語多元組。之后通過語義規(guī)則對基于情感詞典的方法進行改進,分析了文本的句型規(guī)則和句間規(guī)則。若用表示用戶在微博上發(fā)布的一條微博文本,表示根據(jù)標(biāo)點符號切分出的復(fù)句,為其的權(quán)值,表示句間語義對分句的分句權(quán)值,表示文本中的詞語多元組,為情感詞在基礎(chǔ)情感詞典中的情感權(quán)值,則微博文本極性可以從詞語、分句、復(fù)句三種粒度進行分析。(1)在詞語級別,根據(jù)基礎(chǔ)情感詞、程度副詞和否定詞的搭配關(guān)系構(gòu)造詞語多元組,以權(quán)值累乘的規(guī)則計算詞語多元組情感值,多元組的計算過程如公式(4-2)所示。 (4-2)其中,表示程度副詞的權(quán)值,表示否定詞的權(quán)值。(2)在分句級別,根據(jù)句間的語義規(guī)則,分句情感值的計算過程如公式(4-3)所示。 (4-3)(3)在復(fù)句級別,首先累加所有分句的情感值,然后將該累加值與句型關(guān)系權(quán)值相乘,得到的結(jié)果即為該復(fù)句的情感權(quán)值,計算過程如公式(4-4)所示。 (4-4)(4)整條微博文本數(shù)據(jù)的情感權(quán)值為各復(fù)句的累加,計

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論