版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第3章互聯(lián)網(wǎng)+用戶情感的識(shí)別與計(jì)算3.1基于詞典的情感分類詞表構(gòu)建3.2基于待分析微博語(yǔ)料的情感詞擴(kuò)展3.3基于統(tǒng)計(jì)的微博表情詞典的構(gòu)建3.4單條微博文本情感計(jì)算
主要構(gòu)建流程如下:
(1)收集現(xiàn)有情感詞表形成目標(biāo)詞匯庫(kù);
(2)以“和頤酒店女生遇襲”事件的相關(guān)微博數(shù)據(jù)作為待分析語(yǔ)料庫(kù),對(duì)情感詞匯進(jìn)行擴(kuò)展,形成擴(kuò)展詞庫(kù);
(3)將目標(biāo)詞庫(kù)和擴(kuò)展詞庫(kù)中的情感詞進(jìn)行匯總,對(duì)所有情感詞的詞性、詞義、強(qiáng)度、極性和情感類型等進(jìn)行標(biāo)注和描述;
(4)對(duì)情感特征進(jìn)行分類,最終形成情感分類詞表。
情感分類詞表構(gòu)建的基本流程圖如圖3-1所示。
圖3-1情感分類詞表構(gòu)建流程
3.1基于詞典的情感分類詞表構(gòu)建
3.1.1目標(biāo)詞匯來(lái)源
1.知網(wǎng)HowNet情感分析中文詞表
知網(wǎng)HowNet情感分析中文詞表(2007版)包含了836個(gè)正面情感詞匯和1254個(gè)負(fù)面情感詞匯,以及3730個(gè)正面評(píng)價(jià)詞和3116個(gè)負(fù)面評(píng)價(jià)詞,將所有情感詞合并,刪除正面詞匯重復(fù)項(xiàng)38個(gè)、負(fù)面詞匯重復(fù)項(xiàng)50個(gè)后共得到8448個(gè)情感詞匯,其中正面詞匯4528個(gè),負(fù)面詞匯4320個(gè)。
2.臺(tái)灣大學(xué)NTUSD
臺(tái)灣大學(xué)NTUSD中包含了2810個(gè)正面情感詞,8274個(gè)負(fù)面情感詞。
3.大連理工大學(xué)中文情感詞匯本體庫(kù)
大連理工大學(xué)信息檢索研究室中文情感詞匯本體庫(kù)共包含了27466個(gè)情感詞,并對(duì)中文詞匯或短語(yǔ)進(jìn)行了不同角度的描述,如詞語(yǔ)的詞性種類、情感強(qiáng)度、情感極性和情感類別等。
4.清華大學(xué)中文褒貶義詞典
清華大學(xué)中文褒貶義詞典由清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室發(fā)布,共包含褒義詞5567個(gè),貶義詞4469個(gè)。
本節(jié)對(duì)知網(wǎng)HowNet、臺(tái)灣大學(xué)NTUSD、大連理工大學(xué)中文情感詞匯本體庫(kù)以及清華大學(xué)中文褒貶義詞典這四個(gè)來(lái)源詞典(各詞典情感詞數(shù)量如表3-1所示)進(jìn)行合并去重。
3.1.2基于HowNet的義項(xiàng)標(biāo)注
HowNet知識(shí)庫(kù)是由中國(guó)科學(xué)院計(jì)算機(jī)語(yǔ)言信息工程研究中心董振東教授編制的。HowNet知識(shí)庫(kù)編制的思想就是試圖用一系列“義原”來(lái)描述每一個(gè)概念。HowNet中的詞由不同的概念或義項(xiàng)表示,每一個(gè)義項(xiàng)又由一個(gè)或多個(gè)義原組成,義原是表示知識(shí)的最小單位。
Yan和Bracewell等人通過(guò)整理HowNet用于描述情感的義原,通過(guò)義原表達(dá)的語(yǔ)義特征對(duì)這些義原的上下級(jí)關(guān)系進(jìn)行表示,通過(guò)情感義原提取HowNet中的情感詞,通過(guò)義原的上下級(jí)關(guān)系來(lái)定義情感詞的等級(jí)關(guān)系,形成情感詞本體??梢?jiàn),HowNet對(duì)詞的標(biāo)注方式不但可以很好地定義詞的情感信息,還可以通過(guò)義原對(duì)詞匯的情感進(jìn)行等級(jí)劃分。本書(shū)將按照HowNet對(duì)詞的定義方式利用義原對(duì)已經(jīng)形成的14404個(gè)目標(biāo)詞進(jìn)行描述。如表3-2所示為目標(biāo)詞標(biāo)注示例,其中高興、討厭、粗心、粗魯和羞恥為所要標(biāo)注的目標(biāo)詞。
3.1.3目標(biāo)詞分類方法
本書(shū)在第2章已對(duì)現(xiàn)有情感詞典構(gòu)建的研究進(jìn)行了介紹,情感詞典的構(gòu)建主要有基于現(xiàn)有詞典和基于語(yǔ)料庫(kù)兩種方法。這兩種方法均需要首先根據(jù)人類知識(shí)構(gòu)建分類框架,然后為每一個(gè)分類建立一系列標(biāo)準(zhǔn)詞匯,最后通過(guò)語(yǔ)義相似度計(jì)算方法計(jì)算目標(biāo)詞與標(biāo)準(zhǔn)詞之間的相似度,將目標(biāo)詞歸屬于語(yǔ)義相似度總和高的類。
總體來(lái)說(shuō),基于HowNet
或PMI的相似度計(jì)算均存在各自的缺陷,PMI方法需要依托完善的語(yǔ)料庫(kù),基于HowNet等詞典的相似度計(jì)算依托于詞典的準(zhǔn)確性和算法的完備性,并且目前兩種方法均無(wú)法實(shí)現(xiàn)自動(dòng)準(zhǔn)確的情感分類和極性判斷。
3.1.4情緒分類詞表構(gòu)建
1.情緒義原分類體系
目前心理學(xué)中對(duì)情緒分類的研究很多,形成了多種情緒維度理論。依據(jù)情緒是源自或是激發(fā)了自我關(guān)注還是他人關(guān)注,情緒可以被分為自我指向的情緒和他人指向情緒兩類。自我指向情緒,如高興、驕傲、生氣、挫敗都涉及個(gè)體內(nèi)部的體驗(yàn)(包括動(dòng)機(jī)、需求和能力等);相對(duì)應(yīng)的,平和、同情、悲傷、愧疚等他人指向的情緒,涉及個(gè)體與外界他人的交互性,在這類情緒體驗(yàn)中,個(gè)體注重他人的感受,內(nèi)在的自我體驗(yàn)在與外在他人交互的過(guò)程中才會(huì)獲得平衡。
在情緒類型的劃分上,存在多種分類方式。傳統(tǒng)的情緒維度理論認(rèn)為人類的情緒可以通過(guò)幾個(gè)維度進(jìn)行區(qū)分,目前較為常用的方法是“效價(jià)—喚醒度”的劃分方法:依據(jù)效價(jià)將情緒分為正、負(fù)兩極,位于正極的為積極情緒,通常帶來(lái)愉悅感受,位于負(fù)極的為消極情緒,通常產(chǎn)生不愉悅感受;同時(shí)依據(jù)喚醒度區(qū)分情緒的強(qiáng)弱,喚醒度越大,所產(chǎn)生的情緒就越強(qiáng)烈。
馮特提出的三維理論認(rèn)為:情緒是由三個(gè)維度組成的,即愉快——不愉快;激動(dòng)——平靜;緊張——松弛。每一種具體情緒分布在三個(gè)維度的兩極之間不同的位置上。他的這種看法為情緒的維度理論奠定了基礎(chǔ)。
通過(guò)上述心理學(xué)中對(duì)情緒的研究和分類,可以建立情緒維度的基本認(rèn)知,然后將統(tǒng)計(jì)出的2357個(gè)
HowNet
義原中的情緒義原進(jìn)行逐一挑選歸類。最終根據(jù)情緒義原的歸類將情緒分為12個(gè)大類(一級(jí)類)和32個(gè)小類(二級(jí)類),類別劃分及各類別所包含的主要情緒義原如表3-3所示。
2.情緒詞匯編碼描述
本文最終的情緒詞表中的每一個(gè)情緒詞都將由如下三元組進(jìn)行表示:
Wi
為情緒詞;Ci為該情緒詞包含的情緒義原和相應(yīng)POS信息的集合,Ci={(P1,A1),(P2,A2),…,(Pn,An)},P為情緒詞Wi
的POS詞性信息,A為情緒詞Wi
所包含的情緒義原編號(hào);Fi為情緒詞Wi
所歸屬的情緒類信息,F(Wi
)=(E,D),E為情緒詞Wi
最終所歸屬的情緒類編碼集合,D為情緒詞的極性強(qiáng)度;Wi
為情緒詞Wi
自身的編號(hào)ID。
C
值可以通過(guò)本節(jié)第二部分基于
HowNet
的標(biāo)注結(jié)果來(lái)獲得,如“高興”和“羞恥”一詞的標(biāo)注結(jié)果為表3-4所示,那么C(高興)=[(V,
A1010),(V,
B13123)]。
情緒詞編碼中最后一個(gè)數(shù)字為該詞在詞表中的編號(hào)。通過(guò)上述步驟,不僅可以對(duì)目標(biāo)詞中的情緒詞進(jìn)行識(shí)別,而且對(duì)每一個(gè)情緒詞均用三元組WordEmo(W)進(jìn)行了標(biāo)識(shí),可以很清晰地識(shí)別每一個(gè)情緒詞所表示的情緒類型和詞語(yǔ)的極性強(qiáng)度。通過(guò)統(tǒng)計(jì)共識(shí)別了3081個(gè)情緒詞。每一種情緒類所包含的情緒詞的個(gè)數(shù)如表3-5所示,表中也給出了各類別中有代表性的詞匯。
3.1.5評(píng)價(jià)分類詞表構(gòu)建
1.評(píng)價(jià)義原分類體系
HowNet
對(duì)評(píng)價(jià)詞的標(biāo)注大多以屬性值的方式來(lái)表示,如表3-6所示
評(píng)價(jià)義原的分類和編碼如表3-7所示。
除表3-7中的100個(gè)屬性類型義原,還有331個(gè)描述評(píng)價(jià)屬性值的義原,本節(jié)也將其用相應(yīng)編碼表示。部分評(píng)價(jià)屬性值義原及其編碼如表3-8所示。
2.評(píng)價(jià)詞極性強(qiáng)度確定及詞匯描述
與情緒詞分類過(guò)程類似,本文最終的評(píng)價(jià)分類詞表中每一個(gè)詞都將由如下四元組進(jìn)行表示:
Wj為評(píng)價(jià)詞,與情緒詞的描述不同,評(píng)價(jià)詞描述的三元組中Cj的每一項(xiàng)由三部分組成,分別為POS信息P、評(píng)價(jià)屬性類型義原編碼A和評(píng)價(jià)值義原編碼V。Cj={(P1,A1,V1),(P2,A2,V2),…,(Pn,An,Vn)},例如“漂亮”一詞的
HowNet
標(biāo)注信息如表3-9所示。
關(guān)于評(píng)價(jià)詞的極性強(qiáng)度Gj
,目前的方法主要是通過(guò)計(jì)算目標(biāo)評(píng)價(jià)詞與詞語(yǔ)“好”和“壞”或其他基準(zhǔn)詞匯的語(yǔ)義相似度或互信息值來(lái)確定,這種方法需要大量的語(yǔ)料庫(kù)來(lái)實(shí)現(xiàn)。本節(jié)所收集的目標(biāo)詞全部已根據(jù)
HowNet
的描述規(guī)則進(jìn)行了標(biāo)注。針對(duì)于評(píng)價(jià)屬性類型,有兩個(gè)特殊義原,即“desired|良”和“undesired|莠”,這兩個(gè)義原用來(lái)描述詞語(yǔ)的極性。但是通過(guò)這兩個(gè)義原只能判斷詞語(yǔ)的極性,對(duì)于詞語(yǔ)的極性強(qiáng)度卻無(wú)法直觀判斷,而且對(duì)于一些極性不顯著的詞語(yǔ),標(biāo)注時(shí)并沒(méi)有包含這兩個(gè)義原。
為了解決這一問(wèn)題,本節(jié)采用共現(xiàn)的方法首先確定331個(gè)評(píng)價(jià)屬性值義原的極性強(qiáng)度,再將對(duì)評(píng)價(jià)詞進(jìn)行標(biāo)注的所有屬性值義原極性強(qiáng)度求平均,得到評(píng)價(jià)詞的極性強(qiáng)度。這種方法只能粗略確定評(píng)價(jià)詞的極性強(qiáng)度,對(duì)于使用同樣義原標(biāo)注的不同評(píng)價(jià)詞的強(qiáng)度無(wú)法再進(jìn)一步區(qū)分。屬性值義原的極性強(qiáng)度的詳細(xì)計(jì)算方法如下:
通過(guò)上述方法可以確定每一個(gè)屬性值義原的極性強(qiáng)度,部分屬性值義原和計(jì)算后的極性強(qiáng)度如表3-10所示。
對(duì)331個(gè)屬性值義原的極性強(qiáng)度進(jìn)行計(jì)算后,包含這些義原的評(píng)價(jià)詞的極性就可以通過(guò)義原的極性強(qiáng)度來(lái)確定。除331個(gè)屬性值義原以外,342個(gè)動(dòng)詞義原和35個(gè)名詞義原將由人工定義極性強(qiáng)度。表3-11為部分動(dòng)詞義原的ID編碼和極性強(qiáng)度。
定義評(píng)價(jià)詞的極性強(qiáng)度等于其包含的極性強(qiáng)度不為0的義原極性強(qiáng)度的平均值。屬性評(píng)價(jià)詞W的極性強(qiáng)度為
對(duì)目標(biāo)詞按照四元組的方式進(jìn)行標(biāo)注,提取出含有評(píng)價(jià)義原的詞,形成最終評(píng)價(jià)詞10520個(gè)。對(duì)標(biāo)注結(jié)果進(jìn)行統(tǒng)計(jì),各類別評(píng)價(jià)詞個(gè)數(shù)和詞匯舉例情況如表3-12所示。
3.2基于待分析微博語(yǔ)料的情感詞擴(kuò)展
3.2.1分詞技術(shù)
分詞,顧名思義就是將一整段文本分為一個(gè)一個(gè)能表達(dá)具體意思的詞,第2章提到過(guò),詞語(yǔ)的分析是觀點(diǎn)挖掘的基礎(chǔ),這里就是要將文本分成單個(gè)的詞來(lái)進(jìn)行研究。
目前最常用的兩種分詞方法是基于字符串匹配和基于統(tǒng)計(jì)的方法。
1.基于字符串匹配分詞
這種方法需要一個(gè)比較完備的詞典,在分詞時(shí),將待分詞文本與詞典中的詞進(jìn)行匹配,如果能夠匹配成功,則該詞被識(shí)別出來(lái)。按照匹配長(zhǎng)度的不同,可以分為最短匹配分詞和最長(zhǎng)匹配分詞,最短匹配分詞即將詞典中最短的詞語(yǔ)長(zhǎng)度作為匹配單元長(zhǎng)度,一旦匹配成功一個(gè)詞語(yǔ),則視為該詞被識(shí)別出來(lái),如“葡萄牙”按照最短匹配,識(shí)別出“葡萄”,而最長(zhǎng)匹配則是按照詞典中最長(zhǎng)的詞語(yǔ)長(zhǎng)度作為匹配單元長(zhǎng)度,如“葡萄牙”可以匹配為“葡萄牙”。按照掃描方向的不同可以分為正向最大匹配和反向最大匹配。
2.基于統(tǒng)計(jì)分詞
這種方法基于這樣一種假設(shè)——“如果相鄰的若干字共同出現(xiàn)的次數(shù)越多,那么它們就越有可能構(gòu)成一個(gè)詞”。漢字共同出現(xiàn)的次數(shù)體現(xiàn)了漢字之間聯(lián)系的緊密程度。通過(guò)對(duì)文本中共同出現(xiàn)的漢字組合的頻度進(jìn)行統(tǒng)計(jì),可以計(jì)算出它們的共現(xiàn)頻度。當(dāng)共現(xiàn)頻度高于設(shè)定的閾值時(shí),就判定這些漢字構(gòu)成了一個(gè)詞。這種方法的優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單,不需要復(fù)雜的語(yǔ)言知識(shí)和詞典,但是這種方法僅僅使用了統(tǒng)計(jì)信息,有一定的局限性,抽取出來(lái)的很多都是共現(xiàn)度高的字組而不是常用詞語(yǔ)。
3.2.2停用詞過(guò)濾
在文本中,有一些未能表達(dá)實(shí)際意義的詞即停用詞,又叫做功能詞。停用詞一般多為數(shù)詞、量詞、介詞、連詞等,這些詞在文本中出現(xiàn)的頻度很高,它們對(duì)傾向度分析沒(méi)有任何實(shí)際意義,但是如果不處理這些詞,會(huì)大大增加文本處理工作的工作量,使用機(jī)器學(xué)習(xí)方法的時(shí)候也會(huì)大大增加向量空間的維度。
3.2.3詞性標(biāo)注
詞性標(biāo)注顧名思義就是給文本中劃分的每個(gè)詞標(biāo)注它的詞性,詞性大致可以分為名詞、動(dòng)詞、連詞、形容詞等,經(jīng)過(guò)標(biāo)注之后的文本是特征提取的基礎(chǔ),現(xiàn)有的中文分詞軟件通常都包含分詞和詞性標(biāo)注兩種基本功能。上文提到的ICTCLAS可以將詞語(yǔ)標(biāo)注成名詞、動(dòng)詞、形容詞、代詞、副詞、介詞等20種細(xì)分的詞性。
3.2.4文本表示方法
使用自然語(yǔ)言表達(dá)的文本對(duì)于人類本身來(lái)說(shuō)是易于理解和分類的,但是情感分析是使用計(jì)算機(jī)來(lái)分析處理海量數(shù)據(jù),計(jì)算機(jī)并不具有人類的能力,計(jì)算機(jī)處理的是類似于數(shù)據(jù)庫(kù)中的數(shù)據(jù)或者XML這種結(jié)構(gòu)化的數(shù)據(jù),所以在使用基于機(jī)器學(xué)習(xí)的方法對(duì)文本進(jìn)行分類之前,必須要使用適當(dāng)?shù)奈谋颈硎灸P蛠?lái)表示文本。將文本從無(wú)結(jié)構(gòu)的自然語(yǔ)言表達(dá)轉(zhuǎn)化為計(jì)算機(jī)能夠理解并且操作的結(jié)構(gòu)化形式。
1.向量空間模型
向量空間模型是由Salton等人于20世紀(jì)70年代提出的,并成功應(yīng)用于著名的SMART文本檢索系統(tǒng)。它是用一個(gè)向量表示一篇文檔,該向量的長(zhǎng)度等于特征數(shù)(特征通常指的是對(duì)文本類別判斷有幫助的字詞或者短語(yǔ)),向量的每個(gè)分量對(duì)應(yīng)某個(gè)特征,不過(guò)不是記錄特征的文本內(nèi)容,而是特征的權(quán)值,這樣表示之后,每個(gè)文本d就可以表示成(w1,w2,…,wn),而整個(gè)文本集可以看作一個(gè)n維空間,每個(gè)文檔就對(duì)應(yīng)這個(gè)文檔空間中的一個(gè)點(diǎn),(w1,w2,…,wn)就是該文本的坐標(biāo)值,通過(guò)這種方法把文本表示成向量空間模型,方便計(jì)算機(jī)的處理。文本中各個(gè)元素與向量空間模型中元素的對(duì)應(yīng)關(guān)系如圖3-2所示。
圖3-2向量空間模型各元素的對(duì)應(yīng)關(guān)系
2.布爾模型
布爾模型是一種非常簡(jiǎn)單的模型,與向量空間模型原理一樣,但是文檔中每個(gè)分量不是記錄特征的權(quán)重,而是記錄該特征是否出現(xiàn),出現(xiàn)則為1否則為0。
3.LDA模型
LDA模型是Blei等人在2003年提出的,這種模型是一個(gè)三層貝葉斯模型。假設(shè)文本集包含若干個(gè)主題,每個(gè)文檔可以屬于任意一個(gè)主題,則文檔有一個(gè)關(guān)于主題的概率分布。
3.2.5特征提取
用各種模型表示文本的時(shí)候,需要考慮特征提取,經(jīng)過(guò)分詞和詞性標(biāo)注的文本是一個(gè)一個(gè)的片段。特征提取
并沒(méi)有改變?cè)瓉?lái)的文本空間的性質(zhì),經(jīng)過(guò)特征提取之后的文本空間可以看成原來(lái)特征空間的一個(gè)子集,并且提取出來(lái)的特征項(xiàng)都是對(duì)文本貢獻(xiàn)度大的特征,所以采用適當(dāng)?shù)姆椒▉?lái)對(duì)特征進(jìn)行選擇以便降低文本向量空間的維度,排除對(duì)文本不重要的信息,提取最能代表該類文本的特征是有必要的。
1.信息增益
信息增益,它是指某一個(gè)特定的特征T,在文本中出現(xiàn)或者不出現(xiàn)的情況下對(duì)于文本分類所帶來(lái)的信息量的大小。這里用到了信息論中熵的概念,由香農(nóng)提出,信息增益可以用不考慮特定特征T與考慮特定特征T的熵的差值來(lái)計(jì)算,具體如下所示:
2.文檔頻率
文檔頻率是最簡(jiǎn)單的特征選擇方法,預(yù)先給定一個(gè)閾值t,然后計(jì)算特征詞w出現(xiàn)在某個(gè)訓(xùn)練集中的數(shù)目n,如果詞頻n大于閾值t,則保留下來(lái)作為特征詞,如若詞頻小于閾值,則刪除掉,有時(shí)候也會(huì)設(shè)置另外一個(gè)閾值來(lái)過(guò)濾超高頻率的詞匯,這種方法能夠很快降低文本空間的維度。這種方法只考慮統(tǒng)計(jì)學(xué)信息、不考慮語(yǔ)義等,所以實(shí)現(xiàn)起來(lái)最簡(jiǎn)單,對(duì)于大規(guī)模的訓(xùn)練語(yǔ)料集來(lái)說(shuō),這種方法處理效率非常高,但是準(zhǔn)確率相比其他方法是最低的。
3.互信息
互信息是信息論中的一個(gè)信息度量,表示一個(gè)隨機(jī)變量中包含的關(guān)于另外一個(gè)隨機(jī)變量的信息量。在文本分類中可以理解為特征t和文本類別的共現(xiàn)關(guān)系。它是通過(guò)互信息公式計(jì)算特征和文本類別的互信息值,互信息值越大說(shuō)明特征和該類文本的共現(xiàn)度越高,該特征就越重要,互信息計(jì)算公式如下所示:
4.TF-IDF算法
TF-IDF算法是一種用于信息檢索與信息挖掘的常用加權(quán)方法,這種方法的計(jì)算結(jié)果除了可以用于特征選擇,更多的時(shí)候是構(gòu)造文本向量空間時(shí)對(duì)特征進(jìn)行加權(quán),以便構(gòu)造分類器。它是一種基于統(tǒng)計(jì)的方法,用來(lái)計(jì)算一個(gè)詞對(duì)于一個(gè)語(yǔ)料集或者文檔的重要程度,重要程度隨著該詞在文檔中出現(xiàn)的頻率的增加而增加,但是會(huì)隨著它在語(yǔ)料集中出現(xiàn)的次數(shù)的增加而下降。這種方法分為兩個(gè)部分,TF(特征頻率)和IDF(反文檔頻率)。
TF的計(jì)算公式如下所示:
其中ni
表示特征詞i出現(xiàn)的次數(shù),分母表示所有特征詞出現(xiàn)的總次數(shù)。IDF的計(jì)算公式如式(3-4)所示:
3.3基于統(tǒng)計(jì)的微博表情詞典的構(gòu)建
微博作為一種新興的社交網(wǎng)絡(luò)平臺(tái),與傳統(tǒng)的博客、新聞相比,其具有更加豐富的表達(dá)形式,用戶在情感表達(dá)上具有更大的自主性和隨意性,能夠通過(guò)文本、圖片、表情符號(hào)、收藏、轉(zhuǎn)發(fā)、點(diǎn)贊等多種方式來(lái)發(fā)布自己的觀點(diǎn)和看法。在這些表達(dá)方式中,表情符號(hào)作為社交網(wǎng)絡(luò)中的重要元素,已不再是單純的某個(gè)圖案,而是代表了用戶的情感信息,讓人們的對(duì)話更加形象和直觀。
3.3.1表情符號(hào)與微博文本的關(guān)系
1.二者的特征介紹
微博中表情符號(hào)的表現(xiàn)形式通常是圖片動(dòng)畫(huà),較微博文本能夠更加直觀地表達(dá)用戶的情感態(tài)度,可以彌補(bǔ)通過(guò)文字傳遞情感的局限,因此這種顯而易見(jiàn)的形式可以替代本來(lái)由多個(gè)文字才能表達(dá)的情感態(tài)度,所以被用戶越來(lái)越廣泛地利用。同時(shí)表情符號(hào)相較微博中的圖片能夠更加方便地使用計(jì)算機(jī)計(jì)算其情感值,所以也同微博文本一樣,得到一些情感分析研究者的關(guān)注。
表情符號(hào)的特征主要包括以下三點(diǎn):
(1)數(shù)量與形式豐富。
(2)為網(wǎng)絡(luò)交際提供了真實(shí)性保障。
(3)輔助語(yǔ)言文字進(jìn)行情感表達(dá)。
微博文本的特征主要包括以下兩點(diǎn):
(1)特定的微博創(chuàng)作方式。
(2)
流暢的閱讀體驗(yàn),由于微博文本的精練,所以微博用戶在閱讀時(shí)可以更快更好地理解微博文本所要表達(dá)的內(nèi)容與情感態(tài)度。
2.二者的關(guān)系介紹
通過(guò)二者的特征與微博用戶的使用情況,可以發(fā)現(xiàn)表情符號(hào)與微博文本間的關(guān)系主要表現(xiàn)為以下三點(diǎn):
(1)表情符號(hào)與微博文本相互提升彼此的豐富性。
(2)表情符號(hào)使微博文本擁有更強(qiáng)的真實(shí)感。
(3)表情符號(hào)使微博文本的創(chuàng)作更加簡(jiǎn)便。
3.3.2表情符號(hào)對(duì)文本情感傾向的影響
當(dāng)一條微博中既包含微博文本又包含表情符號(hào)時(shí),其自身的情感傾向就不能僅憑其中某一種情感元素來(lái)衡量,而是需要結(jié)合二者來(lái)判斷。表情符號(hào)本身具有情感傾向,但由于其情感傾向不能很好地通過(guò)經(jīng)驗(yàn)和觀察判斷出客觀結(jié)果,而表情符號(hào)的情感值可以通過(guò)構(gòu)建數(shù)學(xué)模型量化得出比較明確的結(jié)果,因此可以通過(guò)計(jì)算得出的情感值結(jié)果來(lái)確定表情符號(hào)的情感傾向。同樣,微博文本也可以通過(guò)文本情感分析系統(tǒng)得到精確的情感值來(lái)判斷其情感傾向。
所謂強(qiáng)化影響,即一條微博中表情符號(hào)的情感值和微博文本的情感值正負(fù)同號(hào),或同為正或同為負(fù),即微博文本的情感值的絕對(duì)值在考慮了表情符號(hào)對(duì)其影響后是增加的,微博整體的情感傾向較原來(lái)更加強(qiáng)烈;而弱化影響則相反,表情符號(hào)的情感值與微博文本的情感值正負(fù)異號(hào),而微博文本的情感值的絕對(duì)值在考慮了表情符號(hào)對(duì)其影響后是減少的,微博整體的情感傾向較原來(lái)更加微弱。
無(wú)論是表情符號(hào)對(duì)微博文本產(chǎn)生了強(qiáng)化影響或弱化影響,都會(huì)改變僅憑微博文本情感值判定得來(lái)的微博整體情感傾向,這兩種影響對(duì)微博整體情感分析的意義在于以下三點(diǎn):
(1)重新定義了微博整體情感分析的方式。
(2)提高了微博整體情感分析的準(zhǔn)確性。
(3)為基于微博的輿情分析提供指導(dǎo)。
3.3.3表情符號(hào)詞典構(gòu)建的算法流程
微博表情符號(hào)詞典構(gòu)建的具體算法流程如圖3-3所示。
圖3-3微博表情符號(hào)詞典構(gòu)建的算法流程
數(shù)據(jù)預(yù)處理主要是對(duì)微博數(shù)據(jù)去除垃圾字符、分句、分詞和剔除停用詞等操作。具體流程如下:
(1)對(duì)微博數(shù)據(jù)去噪。
(2)抽取微博中所包含的表情符號(hào),將微博表示成mb=(d,ce),其中d為微博jmb中的文本,ce為微博所包含的表情符號(hào)。
(3)利用中科院的ICTCLAS分詞系統(tǒng)來(lái)對(duì)微博進(jìn)行處理,主要是對(duì)微博中的文本d進(jìn)行分句、分詞和剔除停用詞等操作,最后得到文本mb=(d,ce)。
3.3.4構(gòu)建微博表情符號(hào)集
現(xiàn)在各大微博網(wǎng)站準(zhǔn)備了大量的表情符號(hào)供用戶使用,我們可以在網(wǎng)站直接下載這些表情符號(hào),然而用戶除了使用微博網(wǎng)站提供的表情符號(hào)之外,還在微博中經(jīng)常使用一些常見(jiàn)的表情符號(hào)進(jìn)行情感表達(dá)。
具體流程如下:
3.3.5表情符號(hào)情感判定及詞典的構(gòu)建
為獲取微博表情符號(hào)的情感傾向,我們首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,然后根據(jù)表情符號(hào)在情感表達(dá)上的相關(guān)特征,對(duì)與其相鄰文本進(jìn)行傾向性分析,從而獲取其具有的情感傾向,完成表情符號(hào)詞典的構(gòu)建。
針對(duì)程度副詞,我們通過(guò)人工收集,并分析其在微博語(yǔ)料中出現(xiàn)的頻次,共發(fā)現(xiàn)和收集到58個(gè)程度副詞,然后根據(jù)它們的語(yǔ)氣強(qiáng)度,將其分為6個(gè)等級(jí),強(qiáng)度取值區(qū)間為0-2,表示為,其中adv表示程度副詞詞匯,level表示其具有的語(yǔ)氣強(qiáng)度,具體分布如表3-13所示。
對(duì)語(yǔ)料中的數(shù)據(jù)以句子s為單位對(duì)其進(jìn)行傾向性分析,對(duì)于句子中包含的情感詞w,其情感傾向性是t,若w包含在正面情感詞表中,則t=1;反之若其包含在負(fù)面情感詞表中,則t=-1。如果在句子中情感詞前面有k個(gè)程度副詞adv,則根據(jù)已構(gòu)建的程度副詞表來(lái)獲得其語(yǔ)氣強(qiáng)度level,那么情感詞w的情感傾向Ow如下所示:
3.4單條微博文本情感計(jì)算3.4.1微博文本情感計(jì)算規(guī)則
在否定詞、程度詞和句型三個(gè)特征中,否定詞對(duì)情感計(jì)算的結(jié)果影響最大,是否考慮否定詞可能會(huì)計(jì)算出兩種相反的句子極性。對(duì)句子情感計(jì)算影響較大的是句型,疑問(wèn)句和假設(shè)句可以極大地弱化情感強(qiáng)度,例如“她很漂亮?!薄八芷羻??”和“假設(shè)她很漂亮?!边@三個(gè)句子如果單純通過(guò)情感詞的提取來(lái)判斷的話結(jié)果都為積極的,但實(shí)際上所表達(dá)的情感極性強(qiáng)度大不相同,所以通過(guò)情感詞的匯總對(duì)句子進(jìn)行情感判斷以后,還需考慮句子的句型。
1.詞語(yǔ)情感配價(jià)規(guī)則
目前句子情感計(jì)算中否定詞的配價(jià)規(guī)則有多種。第一種方法是以整個(gè)句子作為計(jì)算單位,先通過(guò)句子中的情感詞計(jì)算整個(gè)句子的情感極性,再計(jì)算整個(gè)句子的否定詞的個(gè)數(shù),如果否定詞的個(gè)數(shù)為奇數(shù),則整個(gè)句子的情感極性乘以-1,如果為偶數(shù),則乘以1。第二種方法是以單個(gè)情感詞為計(jì)算單位,考慮與情感詞相鄰或相近的詞中是否含有否定詞,如果含有,則所判斷的情感詞的極性發(fā)生相應(yīng)變化,然后通過(guò)變化后的情感詞極性再計(jì)算整個(gè)句子的極性。
顯然第二種方法比第一種方法更加科學(xué)一些,因?yàn)榛谇楦性~典進(jìn)行情感計(jì)算很難保證詞典的完全全
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中共蓬安縣委組織部中共蓬安縣委社會(huì)工作部公開(kāi)招聘蓬安縣新興領(lǐng)域黨建工作專員的備考題庫(kù)及一套參考答案詳解
- 內(nèi)江市公安局高新技術(shù)開(kāi)發(fā)區(qū)分局2025年第三次招聘警務(wù)輔助人員備考題庫(kù)及完整答案詳解一套
- 2025年哈爾濱銀行七臺(tái)河分行招聘外包員工5人備考題庫(kù)及參考答案詳解1套
- 搭棚購(gòu)銷合同范本
- 改造裝飾合同范本
- 方鋼供貨合同范本
- 圈舍建設(shè)合同范本
- 2025年智能識(shí)別系統(tǒng)研發(fā)項(xiàng)目可行性研究報(bào)告
- 商場(chǎng)裁出協(xié)議合同
- 就業(yè)簽約協(xié)議書(shū)
- 農(nóng)商行數(shù)據(jù)安全管理辦法
- 造價(jià)咨詢項(xiàng)目工作實(shí)施方案
- 不合格食品管理制度
- QGDW10384-2023輸電線路鋼管塔加工技術(shù)規(guī)程
- 咖啡店5s管理制度
- 供電營(yíng)業(yè)規(guī)則(2024版)
- T/SSBME 1-2024醫(yī)療器械上市后研究和風(fēng)險(xiǎn)管控計(jì)劃編寫(xiě)指南
- 鋼筋棚拆除合同范本
- 斷絕親子協(xié)議書(shū)
- 【MOOC答案】《光纖光學(xué)》(華中科技大學(xué))章節(jié)作業(yè)期末慕課答案
- 小學(xué)生班級(jí)管理交流課件
評(píng)論
0/150
提交評(píng)論