版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
手游評論情感詞典構(gòu)建案例分析目錄TOC\o"1-3"\h\u4979手游評論情感詞典構(gòu)建案例分析 1326441.1情感詞典相關(guān)介紹 165181.1.1情感詞典概述 1166771.1.2情感詞典分類 2311551.2武俠手游專屬情感詞典 3206421.2.1建立武俠手游專屬情感詞典的意義 3234851.2.2SO-PMI算法 355461.2.3基于Laplace平滑的改進SO-PMI算法[39] 5300391.2.4基于Good-Turing平滑的改進SO-PMI算法[40] 641921.2.5情感詞典構(gòu)建 71.1情感詞典相關(guān)介紹1.1.1情感詞典概述情感是人類對某一事物所持態(tài)度和反應(yīng),是檢驗?zāi)骋皇挛锏拇嬖诤褪录陌l(fā)生是否符合人類預(yù)期及價值觀時而產(chǎn)生的態(tài)度體驗。[37]情感分析是為了找出說話者或作者在某一話題或針對某一文本的帶有情感傾向觀點和態(tài)度。對于評論而言,用戶通過對某一話題、產(chǎn)品或事件發(fā)表自己的意見、觀點、立場等,來表達內(nèi)心的情感傾向[38]。情感傾向是人類對于某一事物的主觀存在的內(nèi)心喜惡和內(nèi)在評價的傾向,由兩方面衡量,即情感傾向方向和情感傾向度。情感傾向方向又稱為情感極性,通常表現(xiàn)為正面情感、中性情感和負(fù)面情感。如“喜歡”和“好看”表示贊揚,是正面情感;“討厭”和“難看”表示否定,是負(fù)面情感;而類似于“看過這部電影”和“去過這個地方”等難以判斷情感傾向的詞匯和語句則劃分為中性情感。情感傾向度是指主體對客體表達正面情感或負(fù)面情感的強弱程度,通常表達為不同的情感詞或是修飾副詞。比如,“喜歡”和“深愛”雖都表示正面情感,但“深愛”比“喜歡”在情感程度上更為強烈。又比如,“一般好看”和“非常好看”對比時,“非?!北取耙话恪钡男揎棾潭雀訌娏?。情感詞表示包含情感傾向的詞匯,分為正面情感詞,即積極詞,和負(fù)面情感詞,即消極詞,具有較為濃烈的情感色彩。情感詞典則是情感詞的集合,分為包含正面情感詞的積極情感詞典和包含負(fù)面情感詞的消極情感詞典。1.1.2情感詞典分類1.1.2.1基礎(chǔ)情感詞典(1)知網(wǎng)HowNet情感詞典HowNet是中國科學(xué)計算機研究所的研究成果。根據(jù)德克薩斯大學(xué)計算機系知識系統(tǒng)研究小組的評價,HowNet是用于自然語言處理的在線的常識知識庫,包含中文詞典中概念與概念間的關(guān)系,概念的屬性與屬性間的關(guān)系,中文對應(yīng)的英文概念以及概念的屬性間的關(guān)系。(2)臺灣大學(xué)簡體中文情感極性詞典NTUSD臺灣大學(xué)NTUSD中文情感極性詞典是基于二元劃分法的一個中文詞庫,共計11086個詞語,即2810個積極詞語和8276個消極詞語。(3)其他情感詞典清華大學(xué)李軍中文褒貶義詞典共包含5568個褒義詞和4470個貶義詞。大連理工情感詞典將情感分為樂、好、怒、哀、懼、惡、驚七大類和21個小類,并將情感詞分為正向、中性和負(fù)向三個極性,并具有0到10不同的情感程度。1.1.2.2網(wǎng)絡(luò)情感詞典伴隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)世界逐漸呈現(xiàn)出年輕化,而網(wǎng)絡(luò)用語也隨之流行。雖然相比于書面語,網(wǎng)絡(luò)用語更加口語化且表達形式多種多樣,但同樣多帶有感情色彩。有的詞可能是現(xiàn)有可在基礎(chǔ)詞典中找到的詞語的縮寫,如“yygq(陰陽怪氣)”;有的是外文音譯來的,如“瑞思拜(respect,尊重)”;有的則是獨立創(chuàng)作的不限于漢字表述的用語組成,如“就這”、“666”、“永遠滴神”。上述舉例的網(wǎng)絡(luò)用語都帶有較為強烈的情感傾向,如“yygq”表示說話譏諷,帶有貶義和批評的情感,“就這”表示對實力的失望和不滿,也是帶有否定情感;而“瑞思拜”表示對某人的尊敬和崇拜,“666”則是對某人行為舉止的夸贊和表揚,“永遠滴神”表示對某人或某物的高度贊揚,都具有正面情感。網(wǎng)絡(luò)評論大多為口語化表達,因此針對網(wǎng)絡(luò)評論來建立網(wǎng)絡(luò)情感詞典尤為重要。本文通過網(wǎng)絡(luò)搜索總結(jié),與現(xiàn)有基礎(chǔ)情感詞典結(jié)合,形成評論基礎(chǔ)情感詞典。其中基礎(chǔ)詞典包含《知網(wǎng)HowNet詞典》、《臺灣大學(xué)NTUSD情感極性詞典》、《清華大學(xué)李軍中文褒貶義詞典》和《大連理工情感詞典》。表5-1基礎(chǔ)情感詞典Table3-1Basicemotiondictionary基礎(chǔ)詞典名稱褒義詞/個貶義詞/個知網(wǎng)HowNet詞典45664370臺灣大學(xué)NTUSD情感極性詞典28108276清華大學(xué)李軍中文褒貶義詞典55684470大連理工情感詞典1355113916對結(jié)合后的詞典進行去重后,得到21595個正面情感詞和24831個負(fù)面情感詞。1.2武俠手游專屬情感詞典1.2.1建立武俠手游專屬情感詞典的意義基礎(chǔ)情感詞典包含的情感詞都較為書面,不能體現(xiàn)現(xiàn)代中文千奇百怪的表達方式。一些本來不包含情感傾向的詞語出現(xiàn)在特定領(lǐng)域則會帶有一定的感情色彩,比如“開掛”這個詞,表示采取不正當(dāng)手段修改游戲客戶端來使自己游戲獲得更多利益,多帶有批評和嘲諷意味。收集這樣的特定情感詞形成專屬情感詞典,對更準(zhǔn)確地判斷評論情感傾向有著重要的影響。本文使用的建立武俠手游專屬情感詞典的方法是先通過TextRank法收集情感種子詞,再利用《同義詞詞林》的方法對情感種子詞進行擴展,再以擴展后的情感種子詞作為基準(zhǔn),利用基于改進的SO-PMI算法選取擴充詞,構(gòu)建專屬情感詞典。1.2.2SO-PMI算法SO-PMI(SemanticOrientationPointwiseMutualInformation)算法全稱為情感傾向點互信息算法,其由SO-PMI和PMI兩部分組成。1.2.2.1PMI算法[39]點互信息算法,又稱PMI算法,是用來判斷某一詞與基準(zhǔn)詞出現(xiàn)的概率。其表達式為:,(5-1)其中為和共現(xiàn)的概率,為出現(xiàn)的概率,為出現(xiàn)的概率,若和相互獨立,則,即。則PMI的結(jié)果分析如下:(5-2)為了方便編程計算,,,可以表示為(5-3)(5-4)(5-5)其中,為文檔總數(shù),為和共現(xiàn)的次數(shù),為出現(xiàn)的次數(shù),為出現(xiàn)的次數(shù)。則帶入后得:(5-6)1.2.2.2SO-PMI算法[16]SO-PMI算法的基本思想是:判斷某一未知詞匯與種子詞的關(guān)聯(lián)程度。若其與積極種子詞的關(guān)聯(lián)程度較大,則判定其為積極詞;若其與消極種子詞的關(guān)聯(lián)程度較大,則判定其為消極詞;若其與積極種子詞和消極種子詞的關(guān)聯(lián)程度相同,則判定其為中性詞。SO-PMI的算法表達式如下:(5-7)其中,表示未知詞匯和第個積極種子詞的關(guān)聯(lián)程度,表示積極種子詞的個數(shù),表示未知詞匯和第個消極種子詞的關(guān)聯(lián)程度,表示消極種子詞的個數(shù)。則SO-PMI的分析結(jié)果如下:(5-8)利用SO-PMI算法可以將文本中的未知詞匯判斷分為積極詞或消極詞,并加入相應(yīng)的情感詞典中。1.2.3基于Laplace平滑的改進SO-PMI算法[39]由SO-PMI的表達式我們可以得知,若某詞并未在文檔中出現(xiàn),即,則會出現(xiàn)分母為0的情況;且當(dāng)分子為0時,通過python應(yīng)用程序進行分析時可能會報錯。為了解決上述問題,杜銳、朱艷輝等人(2015)提出在《基于平滑SO-PMI算法的微博情感詞典構(gòu)建方法研究》中提出基于Laplace平滑的SO-PMI算法。Laplace平滑又稱加一平滑(add-onesmoothing),由法國科學(xué)家拉普拉斯最早提出。在訓(xùn)練集很大的情況下,在避免零概率問題出現(xiàn)的同時,其每個分量的計數(shù)加1對結(jié)果造成的概率變化可以忽略不計。其表達式為:(5-9)其中,表示所有可能的不同的種子詞數(shù)量。帶入到上述公式中得:(5-10)則PMI值可表示為:。(5-11)SO-PMI可表示為:(5-12)其中,。(5-13)由于在某個固定的待研究文本中,其積極詞個數(shù)和消極詞個數(shù)是既定的,即(5-14)故可看做是某一常數(shù)。當(dāng)未知詞與積極種子詞和消極種子詞共現(xiàn)的次數(shù)相同,即(5-15)則未知詞為中性詞,即(5-16)基于Laplace平滑的改進SO-PMI的表達式變?yōu)?5-17)當(dāng)消極種子詞個數(shù)小于積極種子詞個數(shù),即,其SO-PMI值小于0,未知詞匯被誤判為消極詞;當(dāng)消極詞個數(shù)大于積極詞個數(shù),即,其SO-PMI值大于0,未知詞匯被誤判為積極詞。為了避免帶來的判斷誤差,故將賦予固定值,令。(5-18)則基于Laplace平滑的改進SO-PMI的表達式為:(5-19)1.2.4基于Good-Turing平滑的改進SO-PMI算法[40]Good-Turing平滑又稱為圖靈估計,用來平滑不常見的詞組。其基本思想是通過判斷計數(shù)的高低,利用出現(xiàn)次數(shù)較多的詞組去調(diào)整出現(xiàn)次數(shù)低于他的詞組的估計量。其平滑計數(shù)為:,(5-20)其中,表示某詞組出現(xiàn)的次數(shù),表示出現(xiàn)次數(shù)為的詞組的個數(shù)。姜伶伶、何中市等(2018)在《基于Good-Turing平滑SO-PMI算法構(gòu)建微博情感詞典方法的研究》中,將其引入到SO-PMI算法中,則(5-21)其中,為Good-Turing的平滑計數(shù)。(5-22)其中,表示文檔中發(fā)生次的未知詞匯的個數(shù),表示文檔中發(fā)生次的未知詞匯的個數(shù)。則PMI可表示為:(5-23)SO-PMI的表達式為:(5-24)其中,。(5-25)將賦值為1,原因見3.2.3。則基于Laplace平滑的改進SO-PMI的表達式為:。(5-26)1.2.5情感詞典構(gòu)建1.2.1.1評價指標(biāo)[40]本文使用準(zhǔn)確率(Precision)、召回率(Recall)和F1值作為評價指標(biāo)。表達式如下:,(5-27),(5-28)。(5-29)其中,準(zhǔn)確率precision表示被判為正類()中,被正確識別為正類()所占的比例;召回率recall表示所有真正為正類()中,被識別為正類()所占的比例;F1綜合考慮了準(zhǔn)確率和召回率,當(dāng)F1較高時,方法越有效。1.2.1.2數(shù)據(jù)選擇本文通過構(gòu)建由兩款游戲評論組合,隨機抽取1000條進行分詞等規(guī)范化處理后作為測試集,再利用Textrank法選取出60個積極種子詞和60個消極種子詞作為構(gòu)建領(lǐng)域情感詞典的基準(zhǔn)詞。1.2.1.2實驗過程與結(jié)果本文分別使用SO-PMI算法、基于Laplace平滑的改進SO-PMI算法和基于Good-Turing平滑的改進SO-PMI算法進行領(lǐng)域情感詞的識別。其基本步驟流程圖如下:圖5-1領(lǐng)域情感詞典構(gòu)建示意圖Fig5-1Thepictureofbuildingfieldemotiondictionary第一步:利用jieba分詞對評論語料進行分詞處理。第二步:通過算法提取文本中的候選詞,將候選詞與已建立的基礎(chǔ)情感詞典進行匹配,若為已有情感詞則忽略,若為未知情感詞則保留。第三步:將候選詞與積極種子詞和消極種子詞進行三種SO-PMI算法的計算,獲得相應(yīng)的SO-PMI值,再根據(jù)得到的值分析其情感傾向。第四步:根據(jù)情感傾向的不同將候選詞分入不同的極性情感詞典,即情感傾向為積極,則分入積極詞典;若情感傾向為消極,則分入消極詞典;情感傾向為中性則舍棄[16]。部分輸出結(jié)果展示見附錄Ⅱ。通過SO-PMI算法和兩種改進的SO-PMI算法對比,即對比三種方法的準(zhǔn)確率(Precision)、召回率(Recall)和F1值。PosP、PosR、PosF1分別表示積極準(zhǔn)確率、積極召回率和積極F1值,NegP、NegR、NegF1分別表示消極準(zhǔn)確率、消極召回率和消極F1值。對比結(jié)果如下所示。表5-1三種SO-PMI算法評價指標(biāo)Table5-1TheevaluationindicatorsThreealgorithms方法PosPPosRPosF1NegPNegRNegF1SO-PMI58.9%71.1%64.4%70.3%57.5%63.3%Laplace-SO-PMI61.4%78.6%71.4%76.4%67.2%71.5%GoodTuring-SO-PMI79.7%81.3%82.4%78.6%84.2%81.3%圖5-2積極詞評價指標(biāo)折線圖Fig5-2Thelinechartofevaluationindicatorsofpositivewords圖5-3消極詞評價指標(biāo)折線圖Fig5-2Thelinechart
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 水仙花記錄植物生長過程寫物7篇
- 小動物的童話童話作文4篇范文
- 2025年商務(wù)談判技巧與服務(wù)指南
- 酒店籌建實務(wù)-加減分制度
- 2025中咨工程有限公司社會招聘筆試參考題庫附帶答案詳解(3卷)
- (12月67日)貴州郵政校招筆試歷年典型考題及考點剖析附帶答案詳解
- 浙江銀行招聘2025恒豐銀行杭州分行社會招聘21人(二)筆試歷年典型考題及考點剖析附帶答案詳解
- 節(jié)能減排目標(biāo)實現(xiàn)環(huán)保責(zé)任承諾書6篇范文
- 中國煙草總公司合肥設(shè)計院2026年校園招聘備考題庫帶答案詳解
- 會議議程規(guī)劃模板助力高效溝通與決策
- 教學(xué)第九章-人體寄生蟲概述課件
- 2020年華為采購物料環(huán)保規(guī)范?V4
- 綠化養(yǎng)護、保潔服務(wù)重點難點分析及解決措施
- 企業(yè)管理GoldenSample管理辦法
- 最新版?zhèn)€人征信報告(可編輯+帶水印)
- 湖北大學(xué)教職工登記表
- 2020年注冊會計師(CPA)16第十六章收入、費用和利潤(2020新教材版)課件
- 隧道穿越大型活動斷裂帶的技術(shù)對策
- 匯川伺服追剪控制指導(dǎo)說明完整版
- GB∕T 5273-2016 高壓電器端子尺寸標(biāo)準(zhǔn)化(高清版)
- GB 190-2009 危險貨物包裝標(biāo)志(高清版)
評論
0/150
提交評論