版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、互聯(lián)網(wǎng)輿情挖掘研究述略,2.3.3文本傾向性分析:,以下分別從對文本傾向性分析的內(nèi)容,意義,原則,用到的一些思想,技術(shù),和一個可供參考的具體的算法這一個程序來對文本定向性分析進行具體介紹,內(nèi)容:,通過以上互聯(lián)網(wǎng)輿情信息預(yù)處理這一環(huán)節(jié),我們需要再對這些已經(jīng)初步加工和處理了的信息資源,進行深入分析,來準(zhǔn)確了解網(wǎng)民們的思想動態(tài),政治態(tài)度,我們要對這些信息進行分析和總結(jié),得出有用的數(shù)據(jù)結(jié)論,進行輿情報告或者輿情預(yù)警,為領(lǐng)導(dǎo)者提供科學(xué)的參考依據(jù)。,意義:,通過傾向性分析可以明確網(wǎng)絡(luò)傳播者的真正意圖和目的,它是互聯(lián)網(wǎng)輿情挖掘研究過程中極其重要的必不可少的一個環(huán)節(jié),通過文本傾向性分析,為領(lǐng)導(dǎo)者提供一些科學(xué)數(shù)
2、據(jù)和一些事實結(jié)論,方便領(lǐng)導(dǎo)者做出決策,以及改善領(lǐng)導(dǎo)者的工作體制,提高管理效率,這對塑造政府形象,及時解決民眾的利益問題,以及推動民眾參政議政和豐富人民當(dāng)家作主的民主形式,正確引導(dǎo)網(wǎng)絡(luò)輿論,維護社會穩(wěn)定和人心安定,都具有重要的現(xiàn)實意義。,文本定向分析過程中應(yīng)遵守的原則:,1. 在進行文本定向性分析的過程中,一切結(jié)論必須要有科學(xué)依據(jù),絕不能憑空亂說。 2. 通過文本的定向性分析,一定要得出有價值的一些結(jié)論或者數(shù)據(jù)資源。 3. 進行分本定向性分析要全面。 這主要是要得出全面的結(jié)論,我們通過針對文本定向性的分析,得出當(dāng)時網(wǎng)民們的思想動態(tài),或者政治態(tài)度,以及客觀社會現(xiàn)實,在此我們還需要分析在這個時間段之
3、前的網(wǎng)民們的思想動態(tài)或者他們的政治態(tài)度,以及所反映的客觀社會現(xiàn)實,同時我們通過對這兩個階段的分析研究來預(yù)測未來的網(wǎng)民們的思想和行動以及社會上一些事物的發(fā)展動向,從而得出各個方面的相應(yīng)的結(jié)論。,文本定向性分析過程中需要的一些思想或者一些實踐技術(shù):,1. 為了實現(xiàn)對文本信息的準(zhǔn)確提取,不僅要考慮該文本的影響強度,同時還要對文本的感情取向有一個正確把握,我們可以采用加權(quán)值的手段要標(biāo)出輿情的影響大小,而且標(biāo)出正負(fù)號,反映出輿情的褒貶性。 2. 對語義傾向分類結(jié)果再進一步按照語義傾向強度進行細(xì)分的方法。 3. 利用框架技術(shù)對報道的描述進行不同側(cè)面的敏感要素抽取,構(gòu)成敏感要素集,作為一種分類體系,在報道中
4、找出包括這些要素的關(guān)鍵句,并根據(jù)分句提供的信息結(jié)構(gòu)立場概念庫等進行傾向性計算。 4. 主題相關(guān)度計算常用且效果最好的是基于向量空間模型的主題匹配算法,即將主題和待比較的URL轉(zhuǎn)化成向量后通過余弦夾角公式計算其相似度。,5. 現(xiàn)有的采集技術(shù)基本上都是被動的數(shù)據(jù)采集,只有在某個話題成為熱點話題后才去采集,無法保證輿情的時效性,可以通過Agent,主題制導(dǎo)等技術(shù)的研究,并結(jié)合互聯(lián)網(wǎng)信息交流的特性,為輿情信息的主動采集提供技術(shù)支持。 6. 重點關(guān)注謠言,虛假信息的輿情分析技術(shù)??梢岳弥悄苄畔⑻幚砑夹g(shù),機器學(xué)習(xí)等研究成果相互融合對網(wǎng)頁格式和用詞模式做進一步的深入分析,為準(zhǔn)確區(qū)分謠言、虛假信息提供可靠的
5、語言模型,或者提出一種新的輿情分析指標(biāo),可以嘗試研究模糊理論中的模糊推理和模糊綜合評判方法來辨別輿情信息的真?zhèn)巍?7. 關(guān)注在網(wǎng)絡(luò)環(huán)境下情感傾向特征詞的特點和深層分析,并進行語氣詞類型判別和標(biāo)注,構(gòu)建適合于互聯(lián)網(wǎng)輿情分析的立場傾向概念庫。因為文本傾向性分析的研究中語氣詞的標(biāo)注主要依靠專家標(biāo)注,有很強的主觀性,而且語義傾向值的計算比較直觀,不適應(yīng)互聯(lián)網(wǎng)語言的特點,可以重點研究傾向性主客觀相結(jié)合的分析技術(shù),提出更加科學(xué)的計算方法,提高針對互聯(lián)網(wǎng)環(huán)境下輿情分析的準(zhǔn)確率。,8. 文本特征表示方法: 向量空間模型(VSM)是目前文本分類中使用較多,效果較好的一種文本特征表示方法。它將每個文本表示為特征空
6、間的一個向量,形如:Di=(Ti1,Wi1),(Ti2,Wi2),,(Tin,Win),其中Tin為特征項,它可以是字,詞或短語;Win為特征項的權(quán)重,表示Tin在文本中的重要程度。權(quán)重是根據(jù)特征項在文本中出現(xiàn)的頻率、位置等信息計算得到的,可用TFIDF方法來計算權(quán)重,當(dāng)然在此工程中,一定要篩選出最具有代表性的詞條作為特征項,這就要涉及到特征想選擇的一些技術(shù)。 (1)特征提取 通常的做法是構(gòu)造一個評估函數(shù),對特征項集合中的每個特征項進行獨立的評估,得到其評估分值(即權(quán)值),然后對所有的特征項按照其權(quán)值大小進行排序,最后選擇預(yù)定數(shù)目的特征項作為特征結(jié)果。目前文本分類中常用的特征評估分類函數(shù)有文檔
7、頻率(DF)、互信息(MI)、信息增益(IG)、期望交叉熵(ECE)、文本證據(jù)權(quán)(WET)等,為了提高褒貶分類的精度,我們可以人為地構(gòu)建褒貶詞典和褒貶評價模板作為工具。 + (2)分類算法 可利用基于向量空間模型的文本分類算法,例如簡單向量距離分類法,最近K鄰居、貝葉斯方法、支持向量機、神經(jīng)網(wǎng)絡(luò),最大平均熵等。,9. 文本傾向性分析時的參考因素:包括外在和內(nèi)在因素。前者比如文本的數(shù)量,即特定時間內(nèi)互聯(lián)網(wǎng)上出現(xiàn)的關(guān)于某個話題的文本個數(shù)。后者主要描述單個文本的性質(zhì),就單個文本而言,性質(zhì)可以取決于其內(nèi)容和強度,內(nèi)容為該文本的主題、時間、文本等,強度主要指該文本的影響因子,即文本的出現(xiàn)對相關(guān)領(lǐng)域的人和
8、事物產(chǎn)生多大程度影響。 10. 在文本的研究過程中,將充分利用數(shù)學(xué)理論中因果關(guān)系的關(guān)聯(lián)分析的方法,通過綜合分析某些公共突發(fā)事件(比如群體性事件)發(fā)生前后網(wǎng)絡(luò)輿情的變化規(guī)律,確定影響事件的關(guān)鍵因果因素,從而得出一些結(jié)論。 11. 文檔聚類。文本實用模糊聚類把相同側(cè)面的文檔聚在一起,組成一個文本集。,文本定向性分析的一個參考算法:(我們已經(jīng)收到了一個文本集需要進行對它進行單向定向性分析),一.針對單個句子,關(guān)鍵句傾向性判斷算法: 1. 用已有的分詞程序?qū)蟮肋M行分詞和詞性標(biāo)注,通過敏感要素集的驅(qū)動查找包含關(guān)鍵詞的關(guān)鍵句組成關(guān)鍵子句集合。然后對每個關(guān)鍵句執(zhí)行(2)(6)步。 2. 按定義的優(yōu)先順序?qū)?/p>
9、子句進行判斷,首先看關(guān)鍵句中是否有判斷句并作出判斷。 3. 沒有的情況下對關(guān)鍵句中的動詞進行基于知網(wǎng)的概念的標(biāo)注,提取出事件類得到動態(tài)角色框架。(在基于知網(wǎng)填充動態(tài)角色框架的過程中,我們需要定義許多填充規(guī)則,最好請語言專家來定義)。,4. 按照定義的規(guī)則進行動態(tài)角色框架的填充,考慮到形容詞,副詞,動詞名詞更能體現(xiàn)立場故填充時不考慮關(guān)鍵句中的數(shù)詞,量詞助詞等。 5. 填充后進行基于知網(wǎng)的概念標(biāo)注,通過建立的立場概念庫結(jié)合規(guī)則判斷子句的立場。 6. 對每個關(guān)鍵分句的判定結(jié)果分別賦予一個帶符號的整數(shù)值褒揚記為+X,貶斥記為-X。 7.有的情況下一篇文章中的主題可能出現(xiàn)兩種立場,如貶斥和同情等。此時我們采用的策略是計算所有分句的值,最后帶符號進行整數(shù)值運算,結(jié)果為負(fù)則認(rèn)為體現(xiàn)貶斥的思想,正則表示褒揚。,二針對單個文本:,通過對單個文本里面帶權(quán)值句子的計算,得出
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 家長培訓(xùn)教學(xué)課件
- 2026年配送路線優(yōu)化合同
- 2026年改裝車排氣管合同協(xié)議
- 質(zhì)押合同規(guī)范2026年合同生效要件
- 2026年小程序開發(fā)服務(wù)合同書
- 2026年婚慶燈光音響設(shè)備租賃合同模板
- 2026年荷蘭語翻譯服務(wù)合同
- 2026年MCN機構(gòu)經(jīng)紀(jì)合同
- 2026年出版發(fā)行代理合同
- 2026年網(wǎng)絡(luò)直播年會合同
- 井下爆破安全培訓(xùn)課件
- 2026年安全員證考試試題及答案
- 2026年部編版新教材語文二年級上冊期末無紙筆檢測題(評價方案)
- 大學(xué)計算機教程-計算與人工智能導(dǎo)論(第4版)課件 第8章 計算機視覺
- 余姚市公務(wù)員 面試面試題及答案
- 2025年廣東省第一次普通高中學(xué)業(yè)水平合格性考試(春季高考)英語試題(含答案詳解)
- 智能工廠項目培訓(xùn)
- 《組織傳播學(xué)》教材
- 中國馬克思主義與當(dāng)代2024版教材課后思考題答案
- 2026年日歷表(每月一頁、可編輯、可備注)
- GB 46520-2025建筑用絕熱材料及制品燃燒性能安全技術(shù)規(guī)范
評論
0/150
提交評論