版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
文本情感分析1情感分析的常用方法目錄情感分析簡介2任務(wù):基于詞典的情感分析3任務(wù):基于文本分類的情感分析4任務(wù):基于LDA模型的情感分析5文本情感分析是指用NLP、文本挖掘和計(jì)算機(jī)語言學(xué)等方法對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程。情感分析的發(fā)展和快速起步得益于網(wǎng)絡(luò)上的社交媒體,例如產(chǎn)品評(píng)論、論壇討論、微博、微信的快速發(fā)展。自2000年初以來,情感分析已經(jīng)成長為自然語言處理(NLP)中最活躍的研究領(lǐng)域之一,也在數(shù)據(jù)挖掘、Web挖掘、文本挖掘和信息檢索方面有廣泛的應(yīng)用與研究。情感分析簡介情感分析的主要內(nèi)容包括:主客觀分類、情感分類、情感極性判斷等。主客觀性文本:指用戶對(duì)某一件事件、產(chǎn)品、事物的觀點(diǎn)和看法,情感分析的對(duì)象是主觀性文本,文本的主客觀分類是情感分析的基礎(chǔ)性工作。情感分類:指將一段文本、句子、詞語分為喜、怒、哀、樂等類別。情感極性判斷:指分析一段文章的總體態(tài)度是肯定還是否定,褒義或貶義。情感分析的主要內(nèi)容情感分析的前提是將文本中主觀與客觀句子進(jìn)行分類。主觀性文本是相對(duì)于客觀性文本而言的一種文本表達(dá)形式,主要描述作者對(duì)事物、人物、事件等想法或看法。識(shí)別出有主觀情感的句子之后,才能對(duì)主觀句子進(jìn)行極性判斷,判斷為褒義或貶義。句子的主客觀分類能夠有效提高文本情感分析的準(zhǔn)確度,目前主要通過句子中是否出現(xiàn)情感詞或短語模式簡單地判斷句子的主客觀性,客觀句子的識(shí)別準(zhǔn)確率一般為80%左右,而主觀句子的識(shí)別準(zhǔn)確率只有60%左右。情感分析的主要內(nèi)容1.主客觀分類文本分類是指按照預(yù)先定義的類別決定一篇文本的歸屬的過程。情感分類主要用于判別自然語言文字中表達(dá)的觀點(diǎn)、喜好以及與感受和態(tài)度等相關(guān)的信息。目前情感分類的研究主要有兩種方法?;谇楦性~典的情感分析:利用己有語義詞典資源構(gòu)建領(lǐng)域詞典,再通過比對(duì)情感文本中所包含的正向情感詞、負(fù)向情感詞,標(biāo)記為正、負(fù)整數(shù)值作為情感值,同時(shí)考慮一些特殊的詞性規(guī)則、句法結(jié)構(gòu)對(duì)情感判斷的影響,如否定句、遞進(jìn)句、轉(zhuǎn)折句等。這種方法需要規(guī)模較大的情感詞典作為分析的基礎(chǔ)。情感分析的主要內(nèi)容2.情感分類基于機(jī)器學(xué)習(xí)的情感分類:其關(guān)鍵在于特征選擇、特征權(quán)重量化、分類器模型這3個(gè)要素。特征選擇主要有基于信息增益、基于卡方統(tǒng)計(jì)、基于文檔頻率等方法。常見的特征權(quán)重量化方式包括布爾權(quán)重、詞頻(TF)、逆文檔頻率(IDF)、TF-IDF、熵權(quán)重等。分類器模型包括樸素貝葉斯、支持向量機(jī)、K近鄰、神經(jīng)網(wǎng)絡(luò)、決策樹、邏輯回歸等。情感分析的主要內(nèi)容情感極性判斷就是判斷文本內(nèi)容所反映的正面或負(fù)面、肯定或否定、褒義或貶義的色彩。相對(duì)于情感分類,情感極性判斷是二分類問題,而前者屬于多分類問題。極性判斷主要包括基于情感詞典的方法和基于機(jī)器學(xué)習(xí)的方法。情感極性判斷主要集中于情感的詞語極性判斷和情感文本極性判斷兩個(gè)方面。情感詞語極性判斷主要有兩種研究方向?;谡Z義詞典進(jìn)行判斷?;诖笠?guī)模語料庫進(jìn)行判斷。情感分析的主要內(nèi)容3.情感極性判斷情感分析在信息檢索、社交網(wǎng)絡(luò)、輿情監(jiān)控、語音識(shí)別、機(jī)器翻譯、推薦系統(tǒng)中有著廣泛的應(yīng)用,以下以商品評(píng)論、輿情分析和信息預(yù)測(cè)為例進(jìn)行介紹。商品評(píng)論分析網(wǎng)上購物的興起,使帶有主觀色彩的商品評(píng)論文本數(shù)量迅速增加,其蘊(yùn)含著大量有商業(yè)價(jià)值的用戶偏好信息,利用對(duì)互聯(lián)網(wǎng)上商品主觀性評(píng)論信息的挖掘與分析結(jié)果,從中提取產(chǎn)品的特征或?qū)傩?。消費(fèi)者可以了解人們對(duì)某種商品的態(tài)度傾向分布,優(yōu)化購買決策。生產(chǎn)商和銷售商可以了解消費(fèi)者對(duì)其商品和服務(wù)的反饋信息,以及消費(fèi)者對(duì)自己和對(duì)競(jìng)爭對(duì)手的評(píng)價(jià),從而改進(jìn)產(chǎn)品,改善服務(wù),贏得競(jìng)爭優(yōu)勢(shì)。情感分析的常見應(yīng)用輿情分析輿情分析主要是分析民眾對(duì)熱點(diǎn)事件或新聞事件的看法。最具代表性的輿情平臺(tái)就是微博、微信。這些在線表述的內(nèi)容對(duì)于了解民眾對(duì)新聞人物和新聞事件的總體評(píng)價(jià),掌握當(dāng)前的輿情信息,特別是熱點(diǎn)事件的輿情信息有著重要作用。當(dāng)前網(wǎng)絡(luò)輿情對(duì)社會(huì)的直接影響越來越大,直接關(guān)系到網(wǎng)絡(luò)的信息安全。通過人工手段難以處理網(wǎng)絡(luò)中出現(xiàn)的海量信息,因此自動(dòng)化的情感分析技術(shù)在該領(lǐng)域的應(yīng)用非常有實(shí)用價(jià)值。情感分析的常見應(yīng)用信息預(yù)測(cè)信息預(yù)測(cè)是指根據(jù)過去和現(xiàn)在已經(jīng)掌握的有關(guān)某一事物的信息,運(yùn)用科學(xué)的理論和技術(shù),從已知信息推出未知信息,從現(xiàn)有信息導(dǎo)出未來信息,從而對(duì)事物的未來發(fā)展作出科學(xué)預(yù)測(cè)的方法。一個(gè)新事件的發(fā)生或者網(wǎng)絡(luò)上對(duì)某個(gè)事件的熱議都在很大程度上左右著人們的思維和行動(dòng)。如在總統(tǒng)或議員大選的時(shí)候,很多參選者希望通過匯總選民的網(wǎng)絡(luò)言論來預(yù)測(cè)自己是否能夠獲選。情感分析技術(shù)可以幫助用戶通過對(duì)互聯(lián)網(wǎng)上的新聞、帖子等信息源進(jìn)行分析,預(yù)測(cè)某一事件的未來狀況。情感分析的常見應(yīng)用1情感分析的常用方法目錄情感分析簡介2任務(wù):基于詞典的情感分析3任務(wù):基于文本分類的情感分析4任務(wù):基于LDA模型的情感分析5情感分析技術(shù)的核心問題是情感分類,判斷一段文本中的情感取向,是一種分類問題。一般可以分為兩種,一種是正面、負(fù)面二分類或正面、中立、負(fù)面三分類,另一種是多元分類,是指具有4種以上分類,如四分類有悲傷、憂愁、快樂和興奮,七分類有高興、悲傷、喜歡、生氣、厭惡、恐懼和驚訝,可以根據(jù)實(shí)際需要?jiǎng)澐智楦蟹N類和情感詞。情感分析常用方法有3種。基于情感詞典的方法?;谖谋痉诸惖姆椒ā;贚DA模型的方法。情感分析的常用方法基于情感詞典的方法是在文本中查找相應(yīng)的情感詞、否定詞和程度副詞,結(jié)合情感詞典中情感詞的得分情況、是否否定和程度級(jí)別進(jìn)行相應(yīng)的打分,最后得分的總和即為文本的情感分。該方法較大程度上依賴于情感詞典的內(nèi)容,因此,詞典的準(zhǔn)確性和靈活度對(duì)結(jié)果會(huì)產(chǎn)生較大的影響。情感詞:是指主體對(duì)某一個(gè)客體表達(dá)帶有強(qiáng)烈情感色彩的評(píng)價(jià)詞語。其有兩種屬性如下。極性:指情感詞表達(dá)出的褒貶詞義,即正負(fù)面情感。強(qiáng)度:指情感的強(qiáng)弱?;谇楦性~典的方法情感詞典有很多種不同的版本,可以根據(jù)自己的需求選擇相應(yīng)的情感詞典。本節(jié)使用的是基于微博、新聞、論壇等數(shù)據(jù)來源構(gòu)建的BosonNLP情感詞典,其詞典部分內(nèi)容如表所示?;谇楦性~典的方法情感詞情感分值疼愛1.86843297836眉毛1.86903161791和睦相處1.86909683411小清新1.87585892189程度副詞:是對(duì)一個(gè)形容詞或者副詞在程度上加以限定或修飾的副詞。程度副詞本身沒有任何的情感傾向性,但能夠進(jìn)一步的增強(qiáng)或者減弱情感強(qiáng)度。程度副詞不一定能改變情感傾向性的結(jié)果,但一定能改變結(jié)果的情感傾向程度。否定詞:是用來否認(rèn)一個(gè)事實(shí)的成立、存在或真實(shí)性的?;谇楦性~典的方法基于情感詞典的情感分析流程如下。對(duì)文本進(jìn)行分詞和去停用詞,去除跟情感詞無關(guān)的詞語。對(duì)分詞結(jié)果進(jìn)行分類,找出其中的情感詞、程度副詞和否定詞。計(jì)算情感詞的得分,得分函數(shù)如式所示。其中
為權(quán)重,默認(rèn)為1,s(i)
為情感詞得分,p(i)
為情感詞對(duì)應(yīng)的程度副詞和否定詞的乘積,程度副詞和否定詞默認(rèn)為1?;谇楦性~典的方法基于文本分類是采用標(biāo)注好情感類別的文本進(jìn)行訓(xùn)練,獲得情感分類器,最后對(duì)情感分類器進(jìn)行測(cè)試,輸出結(jié)果為多個(gè)概率值,選擇概率最高的情感傾向?yàn)榉诸惤Y(jié)果。基于文本分類的情感分析流程如下。特征提?。壕褪欠诸悓?duì)象所展現(xiàn)的部分特點(diǎn),是實(shí)現(xiàn)分類的依據(jù)。文本轉(zhuǎn)化為特征向量:機(jī)器學(xué)習(xí)無法直接將中文文本作為輸入數(shù)據(jù),在進(jìn)行分類算法時(shí),需要進(jìn)行轉(zhuǎn)換。劃分訓(xùn)練集與測(cè)試集:訓(xùn)練集用于訓(xùn)練文本,測(cè)試集用于測(cè)試分類算法的效果。構(gòu)建分類器:構(gòu)建分類器是運(yùn)用機(jī)器學(xué)習(xí)的算法訓(xùn)練數(shù)據(jù)集,得出分類器。驗(yàn)證分類器:使用測(cè)試數(shù)據(jù)集對(duì)分類器進(jìn)行測(cè)試,通過比對(duì)測(cè)試結(jié)果,獲得測(cè)試數(shù)據(jù)的準(zhǔn)確率,分析測(cè)試結(jié)果,給出改進(jìn)建議?;谖谋痉诸惖姆椒ɑ谥黝}的文本情感分析主要是通過挖掘用戶評(píng)論所蘊(yùn)含的主題,以及用戶對(duì)這些主題的情感偏好,從而提高文本情感分析的性能?;谥黝}模型的情感分析流程如下。評(píng)論信息采集與預(yù)處理(如網(wǎng)頁爬取、中文分詞、停用詞處理等)。主題抽取、情感詞抽取(可能涉及到情感詞典構(gòu)建)。主題的情感分類或評(píng)分。主題情感摘要生成(方便用戶直接了解主題)。系統(tǒng)評(píng)測(cè)?;贚DA模型的方法1情感分析的常用方法目錄情感分析簡介2任務(wù):基于詞典的情感分析3任務(wù):基于文本分類的情感分析4任務(wù):基于LDA模型的情感分析5基于情感詞典的情感分析是最簡單的一種情感分析方法。首先對(duì)文檔分詞,找出文檔中的情感詞、否定詞和程度副詞。然后判斷每個(gè)情感詞的前面是否存在否定詞及程度副詞,將它之前的否定詞和程度副詞劃分為一個(gè)組。如果有否定詞那么將情感詞的情感權(quán)值乘以-1,如果有程度副詞那么乘以程度副詞的程度值。最后對(duì)所有組的得分求和,大于0的歸于正向,小于0的歸于負(fù)向。任務(wù):基于詞典的情感分析1情感分析的常用方法目錄情感分析簡介2任務(wù):基于詞典的情感分析3任務(wù):基于文本分類的情感分析4任務(wù):基于LDA模型的情感分析5基于文本分類的情感分析步驟如下。將文本轉(zhuǎn)換為特征以及特征提取,讀取積極和消極文本數(shù)據(jù),并進(jìn)行分詞,對(duì)積極詞與消極詞賦予標(biāo)簽作為特征。劃分80%數(shù)據(jù)作為訓(xùn)練集,剩余20%作為測(cè)試集。構(gòu)建樸素貝葉斯分類器,使用訓(xùn)練集進(jìn)行訓(xùn)練、使用測(cè)試集進(jìn)行測(cè)試并驗(yàn)證其準(zhǔn)確率,輸出信息量較大的10個(gè)特征。輸入評(píng)論數(shù)據(jù)對(duì)分類器進(jìn)行驗(yàn)證?;跇闼刎惾~斯分類的情感分析由于語料是來自于只對(duì)某個(gè)產(chǎn)品的評(píng)價(jià),適用的范圍也限制于相關(guān)內(nèi)容的文本。如果采用書評(píng)評(píng)論進(jìn)行測(cè)試,判斷正負(fù)面情緒可能發(fā)生錯(cuò)判,這也是基于機(jī)器學(xué)習(xí)的缺點(diǎn)。由于機(jī)器學(xué)習(xí)的方法依賴于語料庫,因此,訓(xùn)練數(shù)據(jù)盡量使用較為全面的語料庫?;跇闼刎惾~斯分類的情感分析SnowNLP是一個(gè)Python寫的類庫,可以方便的處理中文文本內(nèi)容,并且自帶了一些訓(xùn)練好的字典。SnowNLP主要可以進(jìn)行以下內(nèi)容的操作。中文分詞、詞性標(biāo)注。情感分析、文本分類。轉(zhuǎn)換拼音、繁體轉(zhuǎn)簡體。提取文本關(guān)鍵詞、提取摘要。分割句子、文本相似?;赟nownlp的情感分析Snownlp中的情感分析選用的語料是購物類的評(píng)論數(shù)據(jù),對(duì)于購物類評(píng)論的情感分析準(zhǔn)確率較高。也可以自己構(gòu)建相關(guān)領(lǐng)域的語料庫去替換Snownlp中原來的語料庫。Snownlp中分類器算法是選用了樸素貝葉斯算法?;赟nownlp的情感分析1情感分析的常用方法目錄情感分析簡介2任務(wù):基于詞典的情感分析3任務(wù):基于文本分類的情感分析4任務(wù):基于LDA模型的情感分析5在獲取數(shù)據(jù)后,需要對(duì)數(shù)據(jù)進(jìn)行如下處理。文本去重。語料壓縮。短句刪除。數(shù)據(jù)處理LDA可以直接對(duì)文本做主題分析,但是文本的正面評(píng)價(jià)和負(fù)面評(píng)價(jià)會(huì)混淆在一起,并且由于分詞粒度的影響(否定詞或程度副詞等),可能在一個(gè)主題下生成一些令人迷惑的詞語。因此,將文本分為正面評(píng)價(jià)和負(fù)面評(píng)價(jià)兩個(gè)數(shù)據(jù)集,再分別進(jìn)行LDA主題分析。分別對(duì)兩個(gè)數(shù)據(jù)集進(jìn)行分詞處理,去停用詞后作為LDA主題分析的輸入數(shù)據(jù)。在利用LDA模型進(jìn)行情感分析中,首先對(duì)語句進(jìn)行SnowNLP情感分析,劃分語句的正負(fù)面情感傾向。劃分正負(fù)面情感后,接著對(duì)句子分別進(jìn)行分詞、去除停用詞的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026中國地質(zhì)調(diào)查局局屬單位招聘159人備考題庫(第一批)及1套完整答案詳解
- 2026年南昌大學(xué)附屬康復(fù)醫(yī)院(第四附屬醫(yī)院)高層次人才招聘?jìng)淇伎荚囋囶}及答案解析
- 2026云南昆明市石林彝族自治縣第一期城鎮(zhèn)公益性崗位招聘6人備考題庫含答案詳解
- 2026四川成都市金牛區(qū)城市管理局招聘編外聘用工作人員2人備考題庫有完整答案詳解
- 【上半年聯(lián)考】2026年三亞市營商環(huán)境建設(shè)局下屬事業(yè)單位招聘4人參考考試題庫及答案解析
- 2026北京興賓通人力資源管理有限公司面向社會(huì)招聘勞務(wù)派遣人員1人備考題庫完整參考答案詳解
- 2026年濱州博興縣事業(yè)單位公開招聘人員備考題庫(34人)及答案詳解一套
- 2026云南昆明海貝中學(xué)部教師招聘32人備考題庫及完整答案詳解一套
- 2026中國科大微尺度物質(zhì)科學(xué)國家研究中心勞務(wù)派遣崗位招聘3人備考考試試題及答案解析
- 2026和田縣公益性崗位公開招聘(第一批130人)備考考試試題及答案解析
- 福建省寧德市2025-2026學(xué)年高三上學(xué)期期末考試語文試題(含答案)
- 建筑施工行業(yè)2026年春節(jié)節(jié)前全員安全教育培訓(xùn)
- 食品生產(chǎn)余料管理制度
- 2026年浦發(fā)銀行社會(huì)招聘?jìng)淇碱}庫必考題
- 新人教部編版一年級(jí)下冊(cè)生字表全冊(cè)描紅字帖可打印
- 脫碳塔CO2脫氣塔設(shè)計(jì)計(jì)算
- 產(chǎn)品報(bào)價(jià)單貨物報(bào)價(jià)表(通用版)
- 皰疹性咽峽炎臨床路徑
- 中學(xué)保安工作管理制度
- 內(nèi)蒙古品味自然農(nóng)牧業(yè)公司VI設(shè)計(jì)理念
- 上腔靜脈綜合征的護(hù)理
評(píng)論
0/150
提交評(píng)論