《基于互聯(lián)網(wǎng)+大數(shù)據(jù)的輿情分析》課件-第4章_第1頁
《基于互聯(lián)網(wǎng)+大數(shù)據(jù)的輿情分析》課件-第4章_第2頁
《基于互聯(lián)網(wǎng)+大數(shù)據(jù)的輿情分析》課件-第4章_第3頁
《基于互聯(lián)網(wǎng)+大數(shù)據(jù)的輿情分析》課件-第4章_第4頁
《基于互聯(lián)網(wǎng)+大數(shù)據(jù)的輿情分析》課件-第4章_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第4章基于社會熱點事件的用戶情感挖掘與傳播研究4.1基于社會熱點事件的用戶情感生成與傳播理論4.2微博語言的特點分析4.3基于社會熱點事件的數(shù)據(jù)收集與分析

4.1基于社會熱點事件的用戶情感生成與傳播理論

圖4-1為熱點事件情境下微博用戶情感生成與傳播過程及各過程涉及的理論。圖4-1熱點事件情境下微博用戶情感生成與傳播過程及相關(guān)理論

在線社交網(wǎng)絡(luò)中用戶的情緒很難通過生理喚醒、面部表情來判斷和傳播,往往是通過視頻、發(fā)帖、評論等形式來反映用戶的各種情緒。上述心理學(xué)中的情緒研究理論為認(rèn)識微博用戶情緒產(chǎn)生過程提供了理論基礎(chǔ)。熱點事件下微博用戶情緒產(chǎn)生過程如圖4-2所示。

4-2熱點事件情境下微博用戶情緒產(chǎn)生機理

4.1.1UGC動因理論

動因理論熱點事件下,用戶發(fā)布的帶有情感內(nèi)容的微博廣播文本屬于UGC的一種類型。UGC即用戶生成內(nèi)容,泛指以任何形式在網(wǎng)絡(luò)上發(fā)表的由用戶創(chuàng)作的文字、圖片、音頻、視頻等內(nèi)容,是Web2.0環(huán)境下一種新興的網(wǎng)絡(luò)信息資源創(chuàng)作與組織模式。它的發(fā)布平臺包括微博、博客、視頻分享網(wǎng)站、維基、在線問答、SNS等社會化媒體。

4.1.2信息交流和信息傳播理論

1959年,美國社會科學(xué)家門澤爾提出了交流的“正式過程”和“非正式過程”。前蘇聯(lián)情報學(xué)家米哈依諾夫?qū)Υ诉M行了完善,將科學(xué)交流過程分為“正式交流”和“非正式交流”,兩種交流方式的劃分依據(jù)為是否依靠科學(xué)文獻(xiàn)進行交流,依靠科學(xué)文獻(xiàn)進行的交流為“正式交流”,而信息發(fā)布人員和接收人員面對面的交流為“非正式交流”。

4.1.3大眾傳播理論

事件信息在線下往往通過新聞媒體向大眾進行傳播,大眾傳播學(xué)經(jīng)過長時間的發(fā)展,形成了許多大眾傳播理論,如沉默的螺旋、把關(guān)人理論、議程設(shè)置等。沉默的螺旋理論研究的是輿論對公眾意見表達(dá)的影響,這一理論認(rèn)為人們都有害怕被孤立的特點,所以在表達(dá)對事件的看法時,如果發(fā)現(xiàn)大部分人持有的觀點與自己相反,就會更趨向于保持沉默,如果發(fā)現(xiàn)大部分人持有的觀點與自己相同,就更愿意積極地站出來表達(dá)自己的觀點。把關(guān)人理論指的是新聞媒體在進行信息的發(fā)布與傳播之前,會對信息進行篩選和編輯,對信息進行把關(guān)。議程設(shè)置指的是大眾傳播具有引導(dǎo)公眾輿論的功能,能夠為公眾設(shè)置議事日程。

4.2微博語言的特點分析4.2.1句子簡短且單句較多

微博的字?jǐn)?shù)限制在140字以內(nèi),140個字雖然不多,但是也能寫上一兩段。但是大家發(fā)布的微博普遍字?jǐn)?shù)較少,發(fā)布的內(nèi)容有的是幾個表情,有的甚至是幾個符號,但更多的還是有些許文字。隨意、即興的文字,三言兩語最能真實地表達(dá)內(nèi)心感受。微博上發(fā)布的內(nèi)容通常以單句居多,而且由于微博只是個人發(fā)布情感的一個渠道,不需要使用較為正式的語言,人們更愿意用更加隨意的、口語化的方式表達(dá)自己。

4.2.2模式化句式或短語大面積流行

微博體是一種句子模板化樣式,它是隨著微博的走紅而逐漸興起的,即俗稱的“造句”,和以前常說的仿寫有異曲同工之妙,是指根據(jù)內(nèi)容表達(dá)的需要,依據(jù)微博體已有的固定句式,再重新寫一個與原句式結(jié)構(gòu)相仿、表達(dá)意義類似的句子。微博體不只是簡單的調(diào)侃,更多的是表達(dá)一種發(fā)自心底的共鳴,從而能引起全民的熱捧,如表4-1所示。

4.2.3方言語法及外語語法的使用

由于互聯(lián)網(wǎng)的受眾遍布世界各地,大家來自不同國家、不同地區(qū),每個地區(qū)都會有自己的語言習(xí)慣,所以在發(fā)布微博時可能會將習(xí)慣帶入。經(jīng)統(tǒng)計發(fā)現(xiàn),在帶有方言的微博中,東北方言使用頻率最高,究其原因是東北的喜劇演員較多,如趙本山領(lǐng)導(dǎo)的趙家班,并且一些較有影響的小品皆出自此地。在外文的使用中,英語使用頻率最高,很多微博都是中英文的雜交體。

4.2.4標(biāo)點符號的不規(guī)范使用

標(biāo)點符號是輔助文字記錄語言的符號,是書面語的組成部分,用來表示停頓、語氣以及詞語的性質(zhì)和作用,常常作為表達(dá)情感的一種方式。但是在微博中輸入的無門檻性,導(dǎo)致標(biāo)點符號的不規(guī)范使用,智能輸入法的發(fā)展也加劇了這一現(xiàn)象。

4.2.5句子成分省略化

較為口語化的微博無法同正規(guī)的書面語相提并論,微博語言是在輕松、隨意的狀態(tài)下發(fā)布出來的,它不需要像書面語一樣斟詞酌句,因此也會被指責(zé)語法混亂。但是在研究中,必須正視微博中存在的問題。為了使表達(dá)更為簡潔,微博語言通常是成分殘缺的,其中多包含省略句。省略句通常會省略句子的主語或者賓語,通常最為常見的是主語的省略。

4.2.6圖片、鏈接、@功能較多

由于自媒體的發(fā)展,微博提供的服務(wù)越來越多,微博輸入的也不僅僅只是文字,還可以上傳圖片、視頻,同時受到微博140字字?jǐn)?shù)的限制,有的消息不能敘述完全,因此會將詳細(xì)講述的地址附在微博上。為了加強博友之間的互動,微博提供了@功能,@的意思是“向某某人說”,對方能看到你說的話,并能夠回復(fù),實現(xiàn)一對一的溝通,能夠?qū)崿F(xiàn)增進交流的目的。

4.2.7特有的表情符號

在網(wǎng)絡(luò)世界中,表情符號一直是用戶比較青睞的一種符號,也是微博自上線以來一直保留的特色之一。隨著技術(shù)的發(fā)展,微博表情的種類越來越多,在新浪微博平臺上有近百上千種表情符號可供大家使用。因表情形象可愛、逼真,人們常將其作為表達(dá)自身感情的一種手段,它能夠較為直接、形象地表達(dá)人們的想法,所以在對微博進行情感分類時,可將表情符號作為一個重要的參考因素。

雖然微博中的常用表情和魔法表情有幾百上千種之多,但是使用頻率最高的還是常用表情中的默認(rèn)系列,共102個表情,情感傾向十分明顯,如圖4-3所示。

圖4-3微博常用表情——默認(rèn)系列截圖(部分)

4.3基于社會熱點事件的數(shù)據(jù)收集與分析4.3.1原始數(shù)據(jù)采集

本節(jié)的數(shù)據(jù)來源于新浪微博。微博中的用戶通過收聽、好友、轉(zhuǎn)播和評論等關(guān)系相互連接,當(dāng)用戶A對某一事件進行廣播后,收聽用戶A的其他用戶會看到這一廣播并可能對這一廣播進行評論或轉(zhuǎn)播,如果收聽用戶A的用戶B對這一廣播進行了轉(zhuǎn)播或評論,收聽B的其他用戶就會看到這一廣播,依次將這一廣播的信息傳播開來。信息在微博中的傳播速度可能非???,一個敏感的事件信息可能在數(shù)小時內(nèi)就擴散至整個社交網(wǎng)絡(luò)。所以本文選擇微博這一社交媒體進行用戶在熱點事件情境下的情感傳播研究。

如圖4-4圖4-4利用八爪魚采集微博數(shù)據(jù)

在“和頤酒店女生遇襲”事件中,共采集了14個字段,如表4-2所示,主要涉及微博發(fā)布的用戶信息及內(nèi)容信息等,用來進行社會網(wǎng)絡(luò)分析、時間序列分析、情感傾向分析和傳播影響因素分析,數(shù)據(jù)采集結(jié)果存入Excel中,如圖4-5所示。

圖4-5微博數(shù)據(jù)存儲界面1

在“成都女司機被打”事件中,共采集了11個字段,如表4-3所示,主要涉及微博發(fā)布的用戶信息及內(nèi)容信息等,用來進行社會網(wǎng)絡(luò)分析、演化分析、情感傾向分析和傳播效果分析,數(shù)據(jù)采集結(jié)果存入Excel中,如圖4-6所示。

圖4-6微博數(shù)據(jù)存儲界面2

在“羅一笑”事件中,共采集了10個字段,如表4-4所示,主要涉及微博發(fā)布的用戶信息及內(nèi)容信息等,用來進行社會網(wǎng)絡(luò)分析、演化分析、情感傾向分析和傳播效果分析,數(shù)據(jù)采集結(jié)果存入

Excel中,如圖4-7所示。

圖4-7微博數(shù)據(jù)存儲界面3

4.3.2數(shù)據(jù)預(yù)處理

1.數(shù)據(jù)預(yù)處理簡介

數(shù)據(jù)預(yù)處理是指在處理主要的數(shù)據(jù)以前對數(shù)據(jù)進行的一些處理。

系統(tǒng)的原始數(shù)據(jù)中存在的問題。

(1)雜亂性,原始數(shù)據(jù)是從各個實際應(yīng)用系統(tǒng)中獲取的,由于各應(yīng)用系統(tǒng)的數(shù)據(jù)缺乏統(tǒng)一標(biāo)準(zhǔn)的定義,數(shù)據(jù)結(jié)構(gòu)也有較大的差異,因此各系統(tǒng)間的數(shù)據(jù)存在較大的不一致性,

往往不能直接拿來使用。

(2)重復(fù)性,是指對于同一個客觀事物在數(shù)據(jù)庫中存在兩個或兩個以上完全相同的物理描述。這是應(yīng)用系統(tǒng)實際使用過程中普遍存在的問題,幾乎所有應(yīng)用系統(tǒng)中都存在數(shù)據(jù)的重復(fù)和信息的冗余現(xiàn)象。

(3)不完整性,由于實際系統(tǒng)設(shè)計時存在的缺陷以及一些使用過程中人為因素所造成的數(shù)據(jù)記錄中可能會出現(xiàn)某些數(shù)據(jù)屬性的值丟失或不確定的情況,還可能因缺失必需的數(shù)據(jù)而造成數(shù)據(jù)不完整。實際使用的系統(tǒng)中,存在大量的模糊信息,有些數(shù)據(jù)甚至還具有一定的隨機性質(zhì)。

常見的數(shù)據(jù)預(yù)處理方法有數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)簡化。

(1)數(shù)據(jù)集成:將多文件或多數(shù)據(jù)庫運行環(huán)境中的異構(gòu)數(shù)據(jù)進行合并處理,解決語義的模糊性。該部分主要涉及數(shù)據(jù)的選擇、數(shù)據(jù)的沖突問題以及不一致數(shù)據(jù)的處理問題。

(2)數(shù)據(jù)清洗:數(shù)據(jù)清洗不只是要消除錯誤、冗余和數(shù)據(jù)噪音,其目的是要將按不同的、不兼容的規(guī)則所得的各種數(shù)據(jù)集統(tǒng)一起來。

(3)數(shù)據(jù)變換:找到數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換來減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式,包括規(guī)格化、規(guī)約、切換和投影等操作。

(4)數(shù)據(jù)簡化:在對發(fā)現(xiàn)任務(wù)和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上,尋找依賴于發(fā)現(xiàn)目標(biāo)的表達(dá)數(shù)據(jù)的有用特征,以縮減數(shù)據(jù)模型,從而在盡可能保持?jǐn)?shù)據(jù)原貌的前提下最大限度地精簡數(shù)據(jù)量。其主要有屬性選擇和數(shù)據(jù)抽樣兩個途徑,分別針對數(shù)據(jù)庫中的屬性進行記錄。

2.數(shù)據(jù)預(yù)處理方法

數(shù)據(jù)預(yù)處理方法可分為四種:

(1)手工實現(xiàn),通過人工檢查,只要投入足夠的人力、物力、財力,也能發(fā)現(xiàn)所有的錯誤,但效率低下。

(2)通過專門編寫程序?qū)崿F(xiàn),這種方法能解決某個特定的問題,但不夠靈活,特別是在清洗過程需要反復(fù)進行(一般來說,數(shù)據(jù)清洗一遍就達(dá)到要求的很少)時,導(dǎo)致程序復(fù)雜,清洗過程變化時,工作量大。

(3)解決某類特定應(yīng)用域的問題,如根據(jù)概率統(tǒng)計學(xué)原理查找數(shù)值的記錄,對姓名、地址、郵政編碼等進行清洗,這是目前研究得較多的領(lǐng)域,也是應(yīng)用最成功的一類。如商用系統(tǒng)TrillinmSoftwareSystem、

(4)與特定應(yīng)用領(lǐng)域無關(guān)的數(shù)據(jù)清洗,這一部分的研究主要集中在清洗重復(fù)的記錄上,如DataCleaner、DataBladeModule、Integrity系統(tǒng)等。

這四種實現(xiàn)方法中,后兩種具有某種通用性、較大的實用性,因此引起了越來越多的注意。但是不管哪種方法,其工作過程大致都由以下三個階段組成:

(1)數(shù)據(jù)分析、定義錯誤類型;

(2)搜索、識別錯誤記錄;

(3)修正錯誤。

發(fā)現(xiàn)異常的方法:

(1)基于契比雪夫定理的統(tǒng)計學(xué)方法。這種方法可以隨機選取樣本數(shù)據(jù)進行分析,加快了檢測速度,但是這是以犧牲準(zhǔn)確性為代價的。

(2)模式識別的方法?;跀?shù)據(jù)挖掘和機器學(xué)習(xí)算法來查找異常數(shù)據(jù),主要牽涉關(guān)聯(lián)規(guī)則算法。

(3)基于距離的聚類方法。聚類分析是一種新興的多元統(tǒng)計方法,是當(dāng)代分類學(xué)與多元分析的結(jié)合。

(4)增量式的方法。如果數(shù)據(jù)源允許,可以采取隨機的方法獲取元組。

異常的清洗過程主要分為以下六個步驟:

(1)元素化,將非標(biāo)準(zhǔn)的數(shù)據(jù)統(tǒng)一格式化成結(jié)構(gòu)數(shù)據(jù)。

(2)標(biāo)準(zhǔn)化,將元素標(biāo)準(zhǔn)化,根據(jù)字典消除不一致的縮寫等。

(3)校驗,對標(biāo)準(zhǔn)化的元素進行一致性校驗,即在內(nèi)容上修改錯誤。

(4)匹配,在其他記錄中尋找相似的記錄,發(fā)現(xiàn)重復(fù)異常。

(5)消除重復(fù)記錄,根據(jù)匹配結(jié)果進行處理,可以刪除部分記錄或者將多個記錄合并為一個更完整信息的記錄。

(6)檔案化,將前五個步驟的結(jié)果寫入元數(shù)據(jù)存儲中心。

常用的算法有如下兩種。

(1)基本字段匹配算法。

(2)遞歸字段匹配算法。

3.實現(xiàn)數(shù)據(jù)預(yù)處理的框架及流程

系統(tǒng)的實現(xiàn)采用靈活的處理流程,預(yù)處理過程首先接受已經(jīng)選好的數(shù)據(jù)樣本,然后根據(jù)情況進行有選擇的預(yù)處理工作。在進行數(shù)據(jù)預(yù)處理過程中,可以執(zhí)行違規(guī)、聚集、過濾異常值或刪除重復(fù)記錄中的一項或幾項功能,但一般是要先進行違規(guī)、聚集后再進行過濾異常值或刪除重復(fù)記錄處理。當(dāng)然也可以根據(jù)需要直接進行過濾異常值或刪除重復(fù)記錄處理,而不經(jīng)過違規(guī)、聚集等環(huán)節(jié)。系統(tǒng)的框架及流程如圖4-8所示。

圖4-8系統(tǒng)的框架及流程圖

1)數(shù)據(jù)選取

數(shù)據(jù)選取是從用戶的原始數(shù)據(jù)庫中由用戶指定選出用戶感興趣的與知識發(fā)現(xiàn)任務(wù)相關(guān)的數(shù)據(jù)表項,用戶在選擇過程中可以通過查看所選數(shù)據(jù)表的記錄數(shù)據(jù),來作出進一步的選擇判斷。

2)數(shù)據(jù)表屬性一致化

當(dāng)待挖掘的數(shù)據(jù)表已經(jīng)選取完畢時,開始對這些數(shù)據(jù)表中的數(shù)據(jù)進行挖掘前的預(yù)處理。

3)數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理方法應(yīng)根據(jù)不同的數(shù)據(jù)情況有選擇地選取,比如對于商店銷售記錄來說,一般應(yīng)先進行違規(guī)操作,去掉操作員、商品描述信息、備注等字段,因為這些信息可能對數(shù)據(jù)挖掘沒有意義,但對于商品銷售信息聚集卻有著十分重要的意義。

4.3.3數(shù)據(jù)時序變化收集

通過八爪魚采集器對數(shù)據(jù)進行統(tǒng)計,其中“和頤酒店女生遇襲”事件的微博數(shù)據(jù)共171415條,以小時為統(tǒng)計最小時間窗進行廣播數(shù)統(tǒng)計。首先刪除采集錯誤的微博數(shù)據(jù),即刪除空數(shù)據(jù)或殘缺數(shù)據(jù);其次刪除微博廣告數(shù)據(jù),即刪除借由“和頤酒店女生遇襲”事件熱度加入話題而發(fā)布的廣告微博,實際上這些微博內(nèi)容與話題不相關(guān),對本文的情感分析并無意義;最后通過反復(fù)瀏覽,完成數(shù)據(jù)清洗工作。

采用基于語義詞典的情感分析法,利用八爪魚采集軟件和MATLAB軟件對海量微博數(shù)據(jù)進行采集和時間序列分析,對社交網(wǎng)絡(luò)用戶對某一事件的態(tài)度和情感進行判斷和分類,并對不同類型的態(tài)度演化過程進行描述,情感分析框架如圖4-9所示。通過時間序列分析,可以更直觀地了解事件的發(fā)生、發(fā)展和演化過程。

圖4-9社交網(wǎng)絡(luò)用戶情感分析框架

1.“和頤酒店女生遇襲”事件的演化階段

在“和頤酒店女生遇襲”事件中,相關(guān)微博有效數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論