數(shù)據(jù)挖掘2020上半年上課課件2classification h opinion_第1頁
數(shù)據(jù)挖掘2020上半年上課課件2classification h opinion_第2頁
數(shù)據(jù)挖掘2020上半年上課課件2classification h opinion_第3頁
數(shù)據(jù)挖掘2020上半年上課課件2classification h opinion_第4頁
數(shù)據(jù)挖掘2020上半年上課課件2classification h opinion_第5頁
已閱讀5頁,還剩113頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

情感分析和觀點挖掘隨著微博、微信、博客、各類論壇等新社交網(wǎng)絡(luò)以及亞馬遜、京東、天貓等電子商務(wù)平臺的興起,越來越多的用戶在網(wǎng)絡(luò)上發(fā)布并傳播的信息量爆炸性增長這些海量文本中有很大部分表達(dá)了用戶對于某個實體或事物的某種情感傾向和觀點,例如支持、反對、喜歡、討厭等情感分析和觀點挖掘情感分析(也叫觀點挖掘),指通過文本來挖掘人們對于產(chǎn)品、服務(wù)、組織、個人、事件等事物的觀點、情感傾向、態(tài)度等類似的數(shù)據(jù)挖掘任務(wù)有時候也被稱作觀點抽取、情感挖掘、主觀性分析、效果分析、情緒分析、評論挖掘等情感分析的概念現(xiàn)在,大家基本上達(dá)成共識,將其統(tǒng)稱為情感分析或者觀點挖掘在工業(yè)界,情感分析用的多一些;而在學(xué)術(shù)界,情感分析和觀點挖掘這兩個概念都在被頻繁使用。本PPT中,不對其加以區(qū)分。為了描述方便,將更多地使用觀點來代表人們對事物的各種主觀感受和看法。情感分析的概念情感分析的應(yīng)用十分廣泛例如,個人網(wǎng)購時,可以先查看其他用戶對該商品的評價,通過對比不同用戶對不同商品的評價,最后決定買不買該類商品,要買的話,買哪個牌子的對商家或服務(wù)提供商而言,通過對用戶評價研究,可以進(jìn)一步改進(jìn)商品的缺陷,提高服務(wù)質(zhì)量情感分析的應(yīng)用手動查看評論雖然可以做,但是,由于網(wǎng)絡(luò)上的評論信息多且雜,做起來并不容易,一般用戶很難在短時間內(nèi)找到自己所需要的信息這也正是自動化的觀點抽取和挖掘技術(shù)出現(xiàn)的最主要的動因情感分析的應(yīng)用情感分析的研究領(lǐng)域情感分析是一個涉及多學(xué)科交叉的研究領(lǐng)域,涉及的領(lǐng)域包括自然語言處理、信息檢索、機器學(xué)習(xí)、人工智能等。自上世紀(jì)90年代開始,情感分析在國外開始研究,到本世紀(jì)初,情感分析方面的研究開始增多,受到普遍關(guān)注,并迅速發(fā)展起來。情感分析的研究領(lǐng)域國外研究最多的是對英語的觀點挖掘,而對于中文的觀點挖掘由于語言障礙且國內(nèi)相關(guān)領(lǐng)域研究起步較晚,目前所做的研究工作較少SA:Afascinatingproblem!Intellectuallychallenging&manyapplications.ApopularresearchareainNLP,anddatamining(Shanahan,Qu,andWiebe,2006(editedbook);Surveys-PangandLee2008;Liu,2006,2012,and2015)spreadfromCStomanagementandsocialsciences(Hu,Pavlou,Zhang,2006;Archak,Ghose,Ipeirotis,2007;LiuY,etal2007;Park,Lee,Han,2007;Dellarocas,Zhang,Awad,2007;Chen&Xie2007).Alargenumberofcompaniesinthespaceglobally>300intheUSalone.IttoucheseveryaspectofNLP&alsoisconfined.A“simple”semanticanalysisproblem.AmajortechnologyfromNLP.Butitishard.情感分析的粒度文檔級別句子級別方面級別文檔級情感分析將整個文檔看作一個整體進(jìn)行情感分類,判斷該文檔表達(dá)的是一個正面的、中立的、或者負(fù)面的情感例如,給定一個產(chǎn)品評論,判斷它整體上表達(dá)了對產(chǎn)品的正面的還是負(fù)面的看法這個粒度的情感分析假設(shè)每個文檔只對單個實體發(fā)表評論。因此,它不適用于評估或比較多個實體句子級情感分析以句子為單位進(jìn)行分類。判斷一個句子所表達(dá)的情感是正面的、中立的、還是負(fù)面的句子級別的情感分析和句子的主客觀判別具有非常大的聯(lián)系情感分析的粒度句子的主客觀判別的目的是區(qū)分主觀句和客觀句??陀^句表達(dá)事實,如“這個顯示器是15英寸的”主觀句則表達(dá)觀點或者看法,如“我特別喜歡吃中餐”。但,并非只有主觀句才帶有情感色彩。客觀句有時也隱藏著情感在里面,如“上個月剛買的電視機,圖像就不清晰了”。實際上隱含著對電視機顯示器的不滿。情感分析的粒度文檔級和句子級情感分析只是籠統(tǒng)地知道人們喜歡或者不喜歡某物,但并不知道到底喜歡的是哪些方面,不喜歡的又是哪些方面方面級情感分析方面級情感分析早期也叫做特征級情感分析,它首先識別出觀點的目標(biāo)(通常是一個實體),然后將其分成幾個方面,挖掘出人們在不同方面對該實體的情感喜好比如,“盡管這款手機很貴,我還是很喜歡”,這個句子整體上對這款手機持肯定意見,但如果細(xì)分的話,實際上它喜歡這款手機,但是不喜歡它的價格情感分析的粒度在許多應(yīng)用中,觀點通常描述的是一個實體,或者是實體的幾個不同方面因此,實體(方面)級情感分析的目的是針對一個實體(或者該實體的幾個方面)判斷人們的情感喜好例如,“蘋果手機通話質(zhì)量好,但是電池壽命短”情感分析的粒度基于方面級的情感分析,可以生成一個關(guān)于實體的結(jié)構(gòu)化的摘要,從而將非結(jié)構(gòu)化文本數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),用于各種定性和定量分析情感分析的粒度另外,人們常說的還有兩種類型的情感分析,一種稱之為普通觀點挖掘,另一種稱之為比較觀點挖掘。普通觀點挖掘只對某個實體或者實體的某個方面表達(dá)喜好,如“A餐館的牛排很好吃”,表示對A餐館牛排的正面意見比較觀點挖掘則針對多個實體的共同方面進(jìn)行比較分析,如“A餐館的牛排比B餐館的牛排好吃”,比較了A餐館的牛排和B餐館的牛排,并表達(dá)了對A餐館牛排的偏好觀點的定義很難對觀點給出一個精確的定義。一般來說,一個觀點可以從以下5個方面進(jìn)行表述:1)觀點的目標(biāo)實體2)觀點目標(biāo)實體的某個方面3)觀點的情感傾向4)觀點的持有者5)觀點的上下文觀點的目標(biāo)實體目標(biāo)實體說明該觀點是關(guān)于什么的,可以是某個人、某個產(chǎn)品、某項政策等,也可以是另外的人所發(fā)表的觀點觀點目標(biāo)實體的某個方面觀點目標(biāo)實體的某個方面,即對某個實體的某個方面發(fā)表看法。當(dāng)把實體作為一個整體而不針對某個具體的方面發(fā)表看法時,可以用一個特殊詞“ALL”來代替,“ALL”可以看作是一個特殊的方面觀點的情感傾向觀點的情感傾向主要有正面、負(fù)面、中立等,或以不同的評分來表示如大多數(shù)網(wǎng)絡(luò)評論使用1到5顆星來表示喜歡的程度觀點的持有者和上下文觀點的持有者可以是個人,也可以是群體,如某委員會、某國人民等觀點的上下文主要指觀點提出時的背景信息,簡單的如時間或者地點,復(fù)雜的如某個正在討論的話題的背景信息等觀點的定義觀點的定義提供了將非結(jié)構(gòu)化文本轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的一個框架每個觀點可以用一個五元組來表示,即<Ei,Aij,Sijkl,Hk,Cl>,其中:Ei是觀點目標(biāo)實體的名稱Aij是Ei的一個方面Sijkl是該觀點對實體Ei在Aij方面的情感傾向Hk是觀點持有者,表明觀點是由Hk表達(dá)的而Cl是提出觀點的上下文觀點的定義在這里,Ei和Aij一起表示觀點的目標(biāo)。這個五元組可以看作是一個數(shù)據(jù)庫模式,基于此,提取的觀點信息可以存放在數(shù)據(jù)庫表中,然后使用數(shù)據(jù)庫管理系統(tǒng)或者各種聯(lián)機分析處理工具對其進(jìn)行定性、定量和趨勢分析OurexamplebloginquintuplesId:Abc123on5-1-2008“IboughtaniPhone

afewdaysago.Itissuchanicephone.Thetouchscreenisreallycool.Thevoicequalityisgreattoo.ItismuchbetterthanmyoldBlackberry,whichwasaterriblephoneandsodifficulttotypewithitstinykeys.However,

mymotherwasmadwithmeasIdidnottellherbeforeIboughtthephone.Shealsothoughtthephonewastooexpensive,…”Inquintuples

(iPhone,GENERAL,+,Abc123,5-1-2008) (iPhone,touch_screen,+,Abc123,5-1-2008)

….情感分析的任務(wù)任務(wù)1:觀點目標(biāo)實體的抽取任務(wù)2:觀點目標(biāo)方面的抽取任務(wù)3:觀點持有者的抽取任務(wù)4:觀點上下文抽取任務(wù)5:觀點情感傾向分析觀點目標(biāo)實體的抽取也就是要從文檔d中抽取出所有的命名實體Ei。類似于信息抽取中的命名實體識別技術(shù)命名實體識別的目標(biāo)是從文本中識別出命名實體并將其歸類為預(yù)定義的類別中觀點目標(biāo)實體的抽取目前主流的命名實體識別算法都是基于語言特征的,它們中的大部分將命名實體識別轉(zhuǎn)化為一個序列標(biāo)記的問題,然后運用各種機器學(xué)習(xí)算法來聯(lián)合確定各個詞組的命名實體標(biāo)簽,使得預(yù)定義的評分函數(shù)達(dá)到最大化觀點目標(biāo)實體的抽取其中用到的機器學(xué)習(xí)算法包括支持向量機、最大信息熵模型、隱馬爾科夫模型和條件隨機場等所利用的學(xué)習(xí)特征基本上都是基于語言信息的,比如大小寫、數(shù)字信息、分隔符、POS標(biāo)簽等等觀點目標(biāo)方面的抽取也就是要從文檔d中抽取出觀點目標(biāo)實體Ei的各個方面類似于目標(biāo)實體的抽取。例如,“這款手機的屏幕很大、通話質(zhì)量很好、照片也不錯,就是太貴”在這個評論中,屏幕、通話質(zhì)量、照片等名詞可以很明顯地看出是手機的幾個方面除此之外,還包含了對“價格”方面的評論,“價格”隱含在“太貴”這個形容詞短語中觀點目標(biāo)方面的抽取因此,在對觀點目標(biāo)的各個方面進(jìn)行抽取的過程中,除了抽取顯式的方面,也要把隱式的方面抽取出來有些隱式的方面在文本中表示的非常隱蔽,比如,“這款手機很難放進(jìn)口袋里”意味著尺寸有點大觀點持有者的抽取也就是要從文檔d中抽取出實體Hk并將其歸類到預(yù)定義的類別中類似于任務(wù)1和任務(wù)2觀點上下文抽取也就是要從文檔d中抽取出觀點的上下文Cl類似于任務(wù)1和任務(wù)2觀點情感傾向分析確定文檔d中所表達(dá)的針對實體Ei的方面Aij的觀點是正面的、負(fù)面的或中性的,或分配一個評分來代表所表達(dá)的情感的等級程度從微博中抽取觀點

基于觀點五元組框架的情緒分析(或觀點挖掘)往往被稱為基于方面的或基于特征的情感分析(或觀點挖掘)。下面來看一個具體的從微博中抽取觀點的例子從微博中抽取觀點發(fā)帖人:山青水秀發(fā)帖時間:2017年4月8日發(fā)帖內(nèi)容:(1)我們?nèi)覄倓偠燃倩貋?,我們住在一個叫“海濱陽光”的賓館里。(2)孩子們特別開心,因為到海灘距離很近,一大早就跑去撿貝殼。(3)我覺得賓館整體還不錯,環(huán)境好,設(shè)施很新。(4)可我先生覺得賓館的服務(wù)很差,離機場也有點遠(yuǎn)該評論可以得到如下6個觀點五元組:(海濱陽光,距海距離,正面,山青水秀的孩子們,2017年4月8日)(海濱陽光,整體,正面,山青水秀,2017年4月8日)(海濱陽光,環(huán)境,正面,山青水秀,2017年4月8日)(海濱陽光,設(shè)施,正面,山青水秀,2017年4月8日)(海濱陽光,服務(wù),負(fù)面,山青水秀的先生,2017年4月8日)(海濱陽光,距機場距離,負(fù)面,山青水秀的先生,2017年4月8日)從微博中抽取觀點可以看出,情感分析的5個任務(wù)涉及兩大類核心技術(shù),分別是:命名實體識別(任務(wù)1-4)情感傾向分析(任務(wù)5)文檔級情感分析:問題定義給定一個針對某實體e進(jìn)行評論的文檔d,識別出d所表達(dá)的針對e的情感s換句話說,希望根據(jù)文檔d來確定如下觀點五元租〈_,ALL,s,_,_〉其中的ALL指所有方面,表示將實體e看作一個整體進(jìn)行評論該五元租中的三個下劃線分別代表實體e、觀點持有者h(yuǎn)和觀點上下文c。之所以用下劃線來代替,表示這里它們要么是已知的,要么是無關(guān)緊要的文檔級情感分析:問題定義根據(jù)觀點五元租〈_,ALL,s,_,_〉中情感s的取值,可以將文檔級情感分析問題分別影射為分類問題或者回歸問題如果s的取值是離散型的,如正面的、負(fù)面的等,則屬于分類問題如果s的取值是數(shù)值型的或者序數(shù)型的(如從1到5),則屬于回歸問題文檔級情感分析:問題定義這里再強調(diào)一下,文檔級情感分析假定整篇文檔只對一個實體發(fā)表了看法,而且發(fā)表看法的人只有一個,也就是觀點持有者只有一個如果文檔針對多個實體發(fā)表看法,如對實體A的看法是正面的,而對實體B的看法是負(fù)面的,在這樣情況下,對整個文檔做一個統(tǒng)一的情感判定是無意義的同樣,如果有多個人在同一篇文檔里發(fā)表了看法,也無法對其進(jìn)行整體的情感判斷。因為不同人發(fā)表的看法情感可能是不同的文檔級情感分析:問題定義有監(jiān)督的情感分析無監(jiān)督的情感分析有監(jiān)督的情感分析文檔級情感分析通常被看作是一個二元分類問題:正面的和負(fù)面的。用到的訓(xùn)練集和測試集通常都是產(chǎn)品評論(單人單觀點)由于在線評論通常會采用5級評分法(從1到5),一種最簡單的方法是根據(jù)評分來進(jìn)行情感判別。比如,4-5分的評論可看作具有正面的情感,而1-2分的評論可看作具有負(fù)面的情感有監(jiān)督的情感分析在文檔這個級別,為簡單起見,人們通常不考慮中立這個類別實際上考慮中立,將二分類問題變成三分類問題也是可以的比如,可以將所有的3分的評論看作是中立的有監(jiān)督的情感分析文檔級情感分類本質(zhì)上是一個文本分類問題。因此,傳統(tǒng)的文本分類方法如樸素貝葉斯、支持向量機等都可以使用不同的是,傳統(tǒng)的文本分類將文檔分成不同的話題,如運動、政治、科學(xué)、娛樂等,在分類的過程中,話題相關(guān)的詞非常重要而在情感分類中,表達(dá)正面或負(fù)面看法的情感詞更重要,如好的、壞的、完美的、優(yōu)秀的、最差的等等。有監(jiān)督的情感分析既然說文檔級情感分類的本質(zhì)是文本分類問題,和其他有監(jiān)督學(xué)習(xí)問題一樣,特征工程是最重要的雖說傳統(tǒng)的文本分類所使用的特征同樣也可以應(yīng)用于情感分類,但分類效果會比較差有監(jiān)督的情感分析情感分類需要提取更多更高級的特征,這些特征應(yīng)該更適合于情感分類例如,可以使用如下的一些特征來進(jìn)行情感分類:詞及其頻率詞性(part-of-speech,POS)情感詞和情感短語詞及其頻率可以是單個詞或者短語,以及這些詞或短語出現(xiàn)的頻率計數(shù)這些特征在傳統(tǒng)的基于話題的文本分類中也經(jīng)常使用在某些情況下,詞或短語的位置也可以作為特征也可以使用TF-IDF作為特征和傳統(tǒng)的文本分類類似,這些特征對情感分類非常有效詞性(Part-of-Speech,POS)具有不同詞性的詞,作為特征的重要程度不同例如,形容詞通常包含情感更多一點,被認(rèn)為是最重要的情感特征也可以使用所有的詞性標(biāo)簽及短語作為特征常用的詞性標(biāo)簽列表標(biāo)簽描述標(biāo)簽描述CC并列連接詞PRP$所有格代詞CD基數(shù)RB副詞DT限定詞RBR副詞比較級EX存在句RBS副詞最高級FW外來詞RP小品詞IN介詞或從屬連詞SYM符號JJ形容詞TO介詞或不定式標(biāo)記JJR形容詞比較級UH感嘆詞JJS形容詞最高級VB動詞原形LS列表標(biāo)識VBD動詞過去式MD情態(tài)助動詞VBG動名詞或現(xiàn)在分詞NN單數(shù)名詞VBN過去分詞NNS復(fù)數(shù)名詞VBP動詞非第三人稱單數(shù)NNP單數(shù)專有名詞VBZ動詞第三人稱單數(shù)NNPS復(fù)數(shù)專有名詞WDTWH-限定詞PDT前位限定詞WPWH-代詞POS所有格標(biāo)記WP$WH-所有格代詞PRP人稱代詞WRBWH-副詞情感詞和情感短語指那些帶有正面或負(fù)面情感的單詞。例如:好的,美妙的,驚人的,都是正面的情感詞壞的,貧窮的,可怕的,都是負(fù)面的情感詞大多數(shù)情感詞是形容詞和副詞,但部分名詞(如:垃圾)和動詞(如:恨)也可以用來表達(dá)情感除了單個的詞之外,有些短語也可以用來表達(dá)正面或負(fù)面的情感無監(jiān)督的情感分析情感詞是情感分析中最重要的因素,利用情感詞或者情感短語會對無監(jiān)督的情感分析問題有極大幫助一種方法是基于某些固定的句法格式對文本進(jìn)行觀點挖掘。人們總結(jié)出來的一些句法格式如下表:第一個單詞詞性第二個單詞詞性第三個單詞詞性(不會被提?。?JJNN或者NNS任意詞性2RB,RBR或者RBSJJ不是NN或者NNS3JJJJ不是NN或者NNS4NN或者NNSJJ不是NN或者NNS5RB,RBR或者RBSVB,VBD,VBN或者VBG任意詞性無監(jiān)督的情感分析這些格式之所以這樣構(gòu)建,是因為形容詞、副詞及其比較級和最高級通常都會表達(dá)某種觀點和情感并且這些形容詞和副詞會依據(jù)不同的名詞和動詞表達(dá)不同的情感,因為名詞和動詞會構(gòu)成不同的上下文內(nèi)容例如,形容詞“超級”,出現(xiàn)在短語“超級演員”中,可能表示為積極情感;但是如果出現(xiàn)在短語“超級騙子”中,則可能表示成一種消極情感。無監(jiān)督的情感分析情感分析算法可分為以下三步:第一步,如果兩個連續(xù)的單詞的詞性標(biāo)簽符合上表中給出的某個模式,那么就可以將這兩個連續(xù)的單詞提取出來比如句子:“今天是個好天氣”中的“好天氣”就會被提取出來,因為它滿足表中的模式1(JJ+NN,表示形容詞+名詞)無監(jiān)督的情感分析第二步,采用點互信息(PMI)對所提取的短語進(jìn)行情感傾向估計:

所提取的短語的感情傾向SO是基于它與正向情感詞“好的”和消極情感詞“壞的”的相關(guān)性計算,即:

SO(短語)=PMI(短語,“好的”)-PMI(短語,“壞的”)

其中具體概率的計算方法是通過在搜索引擎中對這些短語或詞進(jìn)行查詢并且記錄命中數(shù),用命中數(shù)代替詞的概率。命中數(shù)是指,對于每個查詢,搜索引擎都會返回查詢的相關(guān)文檔,命中數(shù)就是所返回的相關(guān)文檔的數(shù)量。因此,通過對要計算相關(guān)性的兩個詞或短語,進(jìn)行單獨查詢和同時查詢,就能夠算出PMI中的概率。無監(jiān)督的情感分析第三步,對于一個給定的評論文檔,按第一步的方法提取出文檔中所有的短語,計算它們的情感傾向SO的平均值,如果平均值傾向于正向情感,則此評論文檔視為表示正向積極情感,否則表示負(fù)向消極情感。句子級情感分析文檔級情感分析的粒度對大多數(shù)應(yīng)用來說可能太粗。有時需要以句子為單位,對每個句子所表達(dá)的情感進(jìn)行分析但是,句子級情感分析和文檔級情感分析之間無根本區(qū)別,因為句子可以被看作是短文檔研究人員經(jīng)常對句子分析做的一個假設(shè)是:一句話通常只包含一條意見(盡管很多時候并非如此)。而一個文檔通常包含多條意見句子級情感分析可以把句子級情感分析看成一個三元分類問題或者二元分類問題如果看作二元分類問題,則分類之前首先需要判斷一個句子是否包含觀點,然后再將包含觀點的句子分成正面句或者負(fù)面句判斷一個句子是否包含觀點通常被認(rèn)為是主觀性分類問題。一般認(rèn)為客觀的句子不包含情感或觀點,事實上客觀的句子也有可能隱含著觀點。例如“電視昨天壞了”,這個句子雖然只是一個客觀的描述,但是隱含著關(guān)于電視的負(fù)面的情感句子級情感分析主觀性分類句子情感分類處理特殊句處理諷刺句主觀性分類:將句子分為主觀句和客觀句客觀句通常包含一些事實信息而主觀句則通常表達(dá)了個人的觀點和意見事實上,主觀句可以表示很多類型的信息,例如觀點,情感,懷疑,判斷,評估等等早期的研究將句子主觀性分類作為單一的問題來研究,主要用于情感分類后來將主觀性分類作為情感分類的第一步,用來過濾沒有表達(dá)出情感的客觀句很多主觀性分類的方法基于有監(jiān)督學(xué)習(xí)例如,可以使用樸素貝葉斯方法進(jìn)行主觀性分類,先抽取一些二元特征(例如在句子中是否出現(xiàn)一些特定名詞、形容詞、數(shù)字等等),再建立分類器協(xié)助判斷句子的主客觀性這種方法的關(guān)鍵在于如何選取特征和如何構(gòu)建分類器主觀性分類:將句子分為主觀句和客觀句還有一些方法著重從一些特殊的特征角度考察句子的主客觀性,如:從標(biāo)點符號的角度從人稱代詞的角度從數(shù)字的角度主觀性分類:將句子分為主觀句和客觀句句子情感分類如果一個句子已經(jīng)被確定為主觀句,則需要進(jìn)一步確定它的情感傾向目前主要有兩種方法:基于情感詞典的方法。依靠一些已有的情感詞典或領(lǐng)域詞典,以及主觀文本中帶有情感極性的短語來判斷句子的情感基于機器學(xué)習(xí)的方法。使用機器學(xué)習(xí)的方法,通過選取有效的特征來完成分類任務(wù)句子情感分類:基于情感詞典的方法首先分析句子中的情感詞或短語的情感傾向,然后進(jìn)行加權(quán)求和。方法如下:其中,正負(fù)面情感詞的確定從人工標(biāo)注的情感詞典中確定可以看出,基于情感詞典的方法是一種無監(jiān)督的方法,情感分類器的構(gòu)建無需使用任何標(biāo)注文本。其難點在于如何抽取情感詞或短語以及如何判斷它們的情感傾向相比基于機器學(xué)習(xí)的方法,基于情感詞典的方法比較簡單且符合直覺句子情感分類:基于機器學(xué)習(xí)的方法將情感傾向分析看做是一個有監(jiān)督的分類問題。這類方法使用情感詞、表情符號、標(biāo)點符號等多種特征進(jìn)行分類,例如可以使用如下特征進(jìn)行分類基于機器學(xué)習(xí)方法的研究重點在于如何發(fā)現(xiàn)有效的特征,以及如何進(jìn)行特征選擇和特征融合特征描述特征描述1正向情感詞個數(shù)5特殊標(biāo)點符號是否出現(xiàn)(0或1)2負(fù)向情感詞個數(shù)6程度副詞個數(shù)3正向表情符號個數(shù)7否定詞個數(shù)4負(fù)向表情符號個數(shù)8連詞個數(shù)處理特殊句很多現(xiàn)有的對句子級的主觀性分類和情感分析方法主要適用于普通句但實際應(yīng)用中存在很多特殊句,如條件句、疑問句等由于不同類型的句子使用不同的方法表達(dá)情感,所以不存在一個可以適用于所有類型句子的情感分析方法處理特殊句:條件句包含兩個子句:條件子句和結(jié)果子句子句的關(guān)系對整句的觀點極性有很大影響。簡單根據(jù)情感詞無法判斷出句子的情感例如“如果你買的甲牌子的手機不好,那么就買乙牌子的吧”。這句話沒有明確表達(dá)對甲牌子手機的特定情感,但隱含著對乙牌子的手機積極的評價將對非條件句的情感分析方法用于條件句并不適合。為解決這個問題,可以使用一些語言特征進(jìn)行有監(jiān)督學(xué)習(xí)。這些語言特征包括情感詞以及它們的位置,情感詞的詞性標(biāo)簽,時態(tài),條件連接詞等處理特殊句:疑問句例如,“誰能告訴我在哪里可以買到一個好的甲牌子的手機?”。很明顯,講這句話的人沒有明確地表示出對甲牌子手機的積極或消極的情感。然而,“誰能告訴我如何修好這個討厭的甲牌子手機?”,表示出了講話人對甲牌子手機的消極的情感因此如果要更精確地進(jìn)行情感分析,需要處理更多不同類型的句子處理諷刺句諷刺是一種復(fù)雜的語言行為,通常與文字表面所表述的含義相反在情感分析中,它意味著一個評論者雖然表面給出積極評價但實際上卻在表達(dá)他的消極態(tài)度根據(jù)已有經(jīng)驗,在評論商品或服務(wù)時很少采用諷刺這種手法,而在網(wǎng)上政治討論和評論中這種手法非常常見處理諷刺句可以使用類似于半監(jiān)督學(xué)習(xí)的方法來識別諷刺通常來講,諷刺性的句子經(jīng)常與其他諷刺性的句子一起出現(xiàn)在文本中,因此可以使用一組事先標(biāo)記好的句子作為種子,然后通過網(wǎng)絡(luò)搜索自動擴展種子集,從而將其它的諷刺句找出來方面級情感分析方面級情感分析挖掘出人們在不同方面對某實體的情感喜好。比如有兩個關(guān)于同一個旅館的評論。每個評論者都打了5星。如果僅僅觀察整體評分,并不能清晰的知道旅館獲得高分是因為它的地理位置優(yōu)越還是它的服務(wù)質(zhì)量好。同時也不容易發(fā)現(xiàn)評論者為什么喜歡這個旅館的。方面級情感分析要做的就是把這個整體評分分解到不同的方面如價格、空間、地理位置、服務(wù)等。如果可以將整體評分分解成對不同方面的評分,就可以對評分者的評論有更詳盡的理解方面評分分析方法方面評分分析方法的目標(biāo)是使用用戶的評論和整體評分來生成不同方面的評分及其權(quán)重。這些結(jié)果可以應(yīng)用到很多地方,比如,可以生成某個實體基于方面的摘要,也可以分析評論者們的偏好等,而這些信息可以用于個性化的產(chǎn)品推薦更確切地說,是使用一組相關(guān)主題的評論文本和整體評分生成以下三個結(jié)果:第一,評論主要針對的是哪些方面;第二,每個方面的評分是多少;第三,每個評論者對每個方面賦予的權(quán)重是多少方面評分分析方法:LARA方法第一步,將評論文本及其整體評分作為輸入。將評論文本分割為若干部分,每一部分談?wù)摰膬?nèi)容大致類似。從評論中選出那些談?wù)摰乩砦恢玫年P(guān)鍵詞,談?wù)摲块g情況的關(guān)鍵詞等,并得到每個部分中每個關(guān)鍵詞的頻率計數(shù)即使用地理位置、空間、價格等作為種子檢索每個部分的方面標(biāo)簽,從而獲得我們需要的計數(shù)在每個部分中可以進(jìn)一步的挖掘與種子關(guān)鍵詞相關(guān)的詞,從而可以將文本分為討論不同方面的幾個部分。方面評分分析方法:LARA方法第二步,使用在不同方面中的關(guān)鍵詞和它們的頻率計數(shù)來生成整體的評分。首先,使用在每個方面中的關(guān)鍵詞的權(quán)重預(yù)測對應(yīng)方面的評分。例如,如果在涉及地理位置的那些關(guān)鍵詞中,如果發(fā)現(xiàn)“驚喜”這個詞被提及了很多次,那么這個詞將會有很高的權(quán)重。這個高權(quán)重提高了地理位置的評分。對于“遠(yuǎn)”這個詞,如果這個詞也被提及了好多次,那么地理位置方面的評分將會降低。每個方面的評分假設(shè)等于詞頻率的加權(quán)組合,其中權(quán)重是詞的情感權(quán)重。其次,假設(shè)整體評分等于不同方面評分的加權(quán)組合。由于這個方法假定整體的評分只是簡單地將各個方面評分加權(quán)平均,從而可以通過觀察到的關(guān)鍵詞的頻率計數(shù)來預(yù)測整體的評分。這是一個典型的生成模型的實例,其中各個方面的評分及其權(quán)重都是隱變量。接下來,在給定的關(guān)鍵詞下為整體評分構(gòu)建生成概率并通過調(diào)整參數(shù)使生成給定文本的整體評分的概率最大方面評分分析應(yīng)用昂貴的酒店便宜的酒店5星3星5星3星價格0.1340.1480.1710.093房間0.0980.1620.1260.121位置0.1710.0740.1610.082整潔0.0810.1630.1160.294服務(wù)0.2510.1010.1010.049左邊是喜歡昂貴的酒店的評論者的權(quán)重。他們給價格昂貴的酒店打5星,并且在服務(wù)上賦予很大的權(quán)重。這就表明這些人喜歡昂貴酒店是因為看重這些酒店周到的服務(wù),這并不奇怪。同時也可以從另一方面檢驗根據(jù)模型推斷出的權(quán)重是否合理右邊的五星評價屬于那些喜歡便宜酒店的評論者。和預(yù)期一樣,他們給酒店價格賦予很高的權(quán)重。對于那些更便宜的酒店,他們傾向于在房間的整潔程度方面賦予較大的權(quán)重。圖中顯示的是不同組的評論者賦予不同方面的平均權(quán)重。情感回歸如前所述,如果觀點五元租〈_,ALL,s,_,_〉中情感s的取值是數(shù)值型的或者序數(shù)型的(如從1到k),則屬于回歸問題當(dāng)然,由于1到k個情感等級是離散而非連續(xù)的,如果不考慮它們之間的序數(shù)關(guān)系,也可以把這個問題看作是一個多元分類問題情感回歸這里考慮情感等級之間的序數(shù)關(guān)系,介紹一種稱之為有序邏輯回歸的方法該方法能夠預(yù)測出給定文本文檔d的情感等級具體地說,當(dāng)將一個固定的文本文檔d作為輸入時,該方法能夠得到1到k之間的某個值作為輸出情感回歸先考慮k=2的情況,回顧一下如何用邏輯回歸的方法來區(qū)分出文檔所表達(dá)的情感是正面的還是負(fù)面的這里,X表示輸入特征向量,則由下面的式子可以得到輸出的評分:

Y=情感回歸這里共有M個特征,這些特征代表了一個文本文檔Y是一個可取0或1的變量,Y取1時表示正面情感,取0時則相反這是一個標(biāo)準(zhǔn)的二元分類問題,因此可以使用邏輯回歸來解決它情感回歸在k>2的情況下,則需要將上述的方法進(jìn)行適應(yīng)性轉(zhuǎn)換和修改,來解決多層的評分預(yù)測問題其基本思想是,采用多個二元分類器來解決情感回歸具體來說,對于輸入X,每個分類器都需要預(yù)測出它的最后評分是否大于等于j所以,當(dāng)Yj=1時,表示評分大于等于j,取0時表示等級小于j因此,如果要預(yù)測范圍在1到k的一個評分的話,需要先用一個分類器來預(yù)測出評分是否大于等于k。如果小于k的話,用另一個分類器預(yù)測出評分是否大于等于k-1。依此類推,總共需要k-1個分類器就能預(yù)測出1到k的范圍內(nèi)的一個評分等級情感回歸通過這種轉(zhuǎn)換和修改,每個分類器需要一套不同的參數(shù)集,總體上參數(shù)個數(shù)就會增加很多如圖所示,位于不通層級的分類器用它所在的層號j來表示,這樣我們從高到低就有了第k個分類器,第k-1個分類器,…,第2個分類器。總共有k-1個分類器對于這k-1個分類器,每個分類器都有自己的參數(shù)集。如圖所示,采用這樣的方法,就可以預(yù)測出不同的評分等級。情感回歸情感回歸當(dāng)獨立地訓(xùn)練完k-1個邏輯回歸分類器后,對于一個新的實例,就可以順序地調(diào)用這些分類器來預(yù)測出最后結(jié)果:首先,選取與評分等級k對應(yīng)的分類器,這個分類器會預(yù)測出新的實例對象是否是評分等級k。依據(jù)邏輯回歸可知,如果分類器預(yù)測結(jié)果大于0.5,則結(jié)論就是它是評分等級k,否則調(diào)用下一個與評分等級k-1所對應(yīng)的分類器,在此得到結(jié)論是否是評分等級k-1。以此類推,一直調(diào)用相對應(yīng)的分類器,直到得出最后的分類結(jié)果。情感回歸但是這種方法不是解決此問題的最優(yōu)方法,其中有兩個問題:第一個問題是這種方法會帶來很多的參數(shù)。對于k-1個分類器,每個分類器都有M+1個參數(shù),所以總共會有(k-1)*(M+1)個參數(shù)。通常參數(shù)多的情況下,需要更多的訓(xùn)練數(shù)據(jù)來優(yōu)化參數(shù)并調(diào)優(yōu)模型第二個問題是這k-1個分類器并不是真正獨立的。通常情況下,具有正面情感的詞會使任意一個分類器的評分等級偏高。在分類時應(yīng)該充分利用這一特點,這也正是有序邏輯回歸的基本思想。有序邏輯回歸有序邏輯回歸是k-1個獨立的邏輯回歸分類器的改進(jìn)和提升版本。改進(jìn)的方法就是對于參數(shù)β,假定對所有k-1個分類器,β的值都是相同的這也符合我們的直觀感受,正面情感的詞更可能會得到更高的評分等級有序邏輯回歸這種改進(jìn)也會有兩個好處:一個就是大大減少了分類器中參數(shù)的數(shù)量另一個則是可以共享訓(xùn)練數(shù)據(jù)集,因為所有的分類器的參數(shù)都相同。由此就可以在更多的數(shù)據(jù)情況下,能更好地訓(xùn)練和調(diào)優(yōu)參數(shù)β的值。深度學(xué)習(xí)情感分析Word2Vector是google在2013年推出的一個NLP工具,它的特點是將所有的詞向量化,這樣詞與詞之間就可以定量的去度量他們之間的關(guān)系,挖掘詞之間的聯(lián)系。One-hot表示使用是詞向量維度大小為整個詞匯表的大小,對于每個具體的詞匯表中的詞,將對應(yīng)的位置置為1缺點:維度太高,詞匯表的大小詞與詞之間是正交的,沒有任何相似性。但實際上詞之間有相似性,比如近義詞10000man00100womanWord2Vector能否找到一種詞的表示方法,能夠表示詞之間的相似性,同時維度又不太高?滿足:維度低,能表示近義詞,[king]-[man]+[woman]=[queen]如何得到?PLSA、LDA:時間復(fù)雜度太高另一種方法:上下文表示法,出現(xiàn)在相同的上下文中的詞是近似的,比如,面條和饅頭經(jīng)常出現(xiàn)在相同的上下文中,?是相似的。而黑板和饅頭不經(jīng)常出現(xiàn)在一起,故不相似。man0.880.100.010.01woman0.920.020.050.01king0.960.010.010.01queen0.98

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論