版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第五章網(wǎng)絡(luò)輿情監(jiān)測技術(shù)主講:XXX導(dǎo)言
網(wǎng)絡(luò)輿情監(jiān)測技術(shù)非常復(fù)雜,涉及許多計算機(jī)與網(wǎng)絡(luò)等方面的專業(yè)知識,對于新聞與傳播的從業(yè)者和研究者而言,掌握網(wǎng)絡(luò)輿情監(jiān)測相關(guān)的基本技術(shù)原理,把握技術(shù)的基本發(fā)展方向以及它們對于網(wǎng)絡(luò)輿情監(jiān)測的影響,是十分必要的。目錄第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析第三節(jié)網(wǎng)絡(luò)輿情監(jiān)測可視化技術(shù)第四節(jié)大數(shù)據(jù)時代網(wǎng)絡(luò)輿情監(jiān)測技術(shù)遇到的挑戰(zhàn)基礎(chǔ)概念:索引統(tǒng)一資源定位符(UniformResourceLocator,URL)是對可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址?;ヂ?lián)網(wǎng)上的每個文件都有一個唯一的URL,它包含的信息指出文件的位置以及瀏覽器應(yīng)該怎么處理它。只要能夠?qū)Y源定位,系統(tǒng)就可以對資源進(jìn)行各種操作,如存取、更新、替換和查找其屬性?;A(chǔ)概念:索引在關(guān)系數(shù)據(jù)庫中,索引是一種單獨的、物理的對數(shù)據(jù)庫表中一列或多列的值進(jìn)行排序的一種存儲結(jié)構(gòu),它是某個表中一列或若干列值的集合和相應(yīng)的指向表中物理標(biāo)識這些值的數(shù)據(jù)頁的邏輯指針清單。索引的作用相當(dāng)于圖書的目錄,可以根據(jù)目錄中的頁碼快速找到所需的內(nèi)容。第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(一)網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機(jī)器人),是一種按照一定的規(guī)則自動地抓取互聯(lián)網(wǎng)信息的程序或者腳本。一、數(shù)據(jù)采集基本技術(shù)第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(一)網(wǎng)絡(luò)爬蟲1.網(wǎng)絡(luò)爬蟲的類型(1)批量型爬蟲:批量型爬蟲有比較明確的抓取范圍和目標(biāo),當(dāng)爬蟲達(dá)到這個設(shè)定的目標(biāo)后,即停止抓取過程。批量型爬蟲是目前數(shù)據(jù)采集系統(tǒng)中最簡單的爬蟲系統(tǒng)。(2)增量型爬蟲:增量型爬蟲會保持持續(xù)不斷的抓取,對于已經(jīng)抓取過的網(wǎng)頁會按照一定策略定期更新。增量型爬蟲是目前數(shù)據(jù)采集系統(tǒng)中最常用的爬蟲系統(tǒng)。(3)垂直型爬蟲:垂直型爬蟲只關(guān)注特定主題或特定行業(yè)的網(wǎng)頁,其最大的挑戰(zhàn)就是如何識別網(wǎng)頁的內(nèi)容是否屬于指定行業(yè)或主題。一般只有垂直行業(yè)分析才會需要此類型的爬蟲。一、數(shù)據(jù)采集基本技術(shù)第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(一)網(wǎng)絡(luò)爬蟲2.網(wǎng)絡(luò)爬蟲的特性(1)高性能:爬蟲系統(tǒng)在單位時間內(nèi)下載的網(wǎng)頁數(shù)量越多性能越高。(2)可擴(kuò)展性:爬蟲系統(tǒng)應(yīng)該很容易通過增加抓取服務(wù)器和爬蟲數(shù)量來縮短抓取周期。(3)健壯性:包括兩方面,一是爬蟲系統(tǒng)可以處理抓取中遇到的各種非正常情況,二是爬蟲系統(tǒng)自身有一套健壯的容錯機(jī)制。(4)友好性:包括兩方面,一是保護(hù)網(wǎng)站的部分私密性,二是減少被抓取網(wǎng)站的網(wǎng)絡(luò)負(fù)載。一、數(shù)據(jù)采集基本技術(shù)第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(二)網(wǎng)頁去重在當(dāng)今的互聯(lián)網(wǎng)環(huán)境中,有相當(dāng)大比例的內(nèi)容是完全相同或者大體相近的。這些網(wǎng)頁不僅會增加數(shù)據(jù)采集系統(tǒng)的壓力,而且會影響后續(xù)數(shù)據(jù)分析結(jié)果的質(zhì)量,所以網(wǎng)頁去重的問題尤為突出,已經(jīng)成為提高數(shù)據(jù)質(zhì)量的關(guān)鍵技術(shù)之一。在實際的數(shù)據(jù)采集系統(tǒng)中,往往是在爬蟲階段進(jìn)行網(wǎng)頁去重操作。當(dāng)爬蟲新抓取到網(wǎng)頁時,需要和已經(jīng)建立到索引內(nèi)的網(wǎng)頁進(jìn)行重復(fù)判斷,如果判斷是近似重復(fù)網(wǎng)頁,則按一定策略進(jìn)行處理,如直接丟棄、打上相似標(biāo)簽。一、數(shù)據(jù)采集基本技術(shù)第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(三)分布式技術(shù)分布式計算是一門計算機(jī)科學(xué),它研究如何把一個需要非常巨大的計算能力才能解決的問題分成許多小的部分,然后把這些部分分配給許多計算機(jī)進(jìn)行處理,最后把這些計算結(jié)果綜合起來得到最終的結(jié)果。面對海量的數(shù)據(jù)抓取任務(wù),只有采取分布式架構(gòu)才有可能在較短的時間周期內(nèi)完成一輪抓取工作。常見的分布式架構(gòu)有兩種:主從式分布爬蟲和對等式分布爬蟲。一、數(shù)據(jù)采集基本技術(shù)第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(三)分布式技術(shù)1.主從式分布爬蟲(master-slave)是分布式技術(shù)中最傳統(tǒng)的也是最常見的一種形式,它指不同的服務(wù)器承擔(dān)著不同的角色,其中有一臺專門的master服務(wù)器來維護(hù)待抓取的URL(universalresourcelocator,統(tǒng)一資源定位符)隊列,它負(fù)責(zé)每次將URL分發(fā)到不同的slave服務(wù)器,而slave服務(wù)器則負(fù)責(zé)實際的網(wǎng)頁下載工作。Master服務(wù)器除了維護(hù)待抓取URL隊列以及分發(fā)URL之外,還要負(fù)責(zé)調(diào)解各個slave服務(wù)器的負(fù)載情況,以免某些slave服務(wù)器過于清閑或者勞累。一、數(shù)據(jù)采集基本技術(shù)第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(三)分布式技術(shù)1.主從式分布爬蟲(master-slave)一、數(shù)據(jù)采集基本技術(shù)第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(三)分布式技術(shù)2.對等式分布爬蟲(peertopeer)對等式分布爬蟲體系中,服務(wù)器之間不存在分工差異,每臺服務(wù)器都承擔(dān)著一樣的功能,各自負(fù)責(zé)一部分URL的抓取工作。由于沒有URL服務(wù)器存在,如何分工就成了主要問題。一、數(shù)據(jù)采集基本技術(shù)第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
二、數(shù)據(jù)采集原理第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
網(wǎng)絡(luò)爬蟲的基本工作流程如下:(1)首先選取一部分精心挑選的種子URL。(2)將這些URL放入待抓取URL隊列。(3)從待抓取的URL隊列中取出待抓取的URL,解析DNS,并且得到主機(jī)的IP,將URL對應(yīng)的網(wǎng)頁下載下來,存儲進(jìn)已下載網(wǎng)頁庫中。此外,將這些URL放進(jìn)已抓取URL隊列。(4)分析已抓取URL隊列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊列,從而進(jìn)入下一個循環(huán)。二、數(shù)據(jù)采集原理第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(一)網(wǎng)頁搜索策略1.廣度優(yōu)先搜索策略廣度優(yōu)先策略是指在抓取過程中,在完成當(dāng)前層次的搜索后,才進(jìn)行下一層次的搜索。2.最佳優(yōu)先搜索策略按照一定的網(wǎng)頁分析算法,預(yù)測候選URL與目標(biāo)網(wǎng)頁的相似度,并選取最好的一個或幾個URL進(jìn)行抓取。只訪問經(jīng)過網(wǎng)頁分析算法預(yù)測為“有用”的網(wǎng)頁。3.深度優(yōu)先策略從起始網(wǎng)頁開始,選擇一個URL進(jìn)入,分析這個網(wǎng)頁中的URL,選擇一個再進(jìn)入。三、數(shù)據(jù)采集常用方法第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(二)網(wǎng)頁更新策略1.歷史參考策略是最直觀的一種更新策略,它建立于如下假設(shè)之上:過去頻繁更新的網(wǎng)頁,那么將來也會頻繁更新,所以為了預(yù)估某個網(wǎng)頁何時進(jìn)行更新,可以通過參考其歷史更新情況來做出決定。三、數(shù)據(jù)采集常用方法第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(二)網(wǎng)頁更新策略2.用戶體驗策略一般來說,用戶提交查詢結(jié)果后,相關(guān)的搜索結(jié)果可能成千上萬,而用戶沒有耐心去查看排在后面的搜索結(jié)果,往往只看前三頁的搜索內(nèi)容,用戶體驗策略就是利用搜索引擎用戶的這個特點來涉及更新策略的。三、數(shù)據(jù)采集常用方法第一節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)采集
(二)網(wǎng)頁更新策略3.聚類抽樣策略網(wǎng)頁一般具有一些屬性,根據(jù)這些屬性可以預(yù)測其更新周期,具有相似屬性的網(wǎng)頁,其更新周期也是類似的。于是,可以根據(jù)這些屬性將網(wǎng)頁歸類,同一類別內(nèi)的網(wǎng)頁具有相同的更新頻率,并通過對各類別內(nèi)網(wǎng)頁采樣的方式來確定更新周期。三、數(shù)據(jù)采集常用方法第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析
(一)全文檢索技術(shù)——負(fù)責(zé)命中目標(biāo)信息全文檢索技術(shù)是按照全文檢索理論建立起來的用于提供全文檢索服務(wù)的軟件系統(tǒng)。一般來說,全文檢索需要具備建立索引和提供查詢的基本功能,還需要具有方便的用戶接口、面向WWW的開發(fā)接口等。在功能上,全文檢索系統(tǒng)核心具有建立索引、處理查詢返回結(jié)果集、增加索引、優(yōu)化索引結(jié)構(gòu)等功能,外圍則由各種不同應(yīng)用具有的功能組成。在結(jié)構(gòu)上,全文檢索系統(tǒng)核心具有索引引擎、查詢引擎、文本分析引擎、對外接口等,加上各種外圍應(yīng)用系統(tǒng)等共同構(gòu)成了全文檢索系統(tǒng)。一、數(shù)據(jù)分析基本技術(shù)第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析
(二)文本挖掘技術(shù)——負(fù)責(zé)對數(shù)據(jù)進(jìn)行挖掘分析文本挖掘是一個對具有豐富語義的文本進(jìn)行分析從而理解其所包含的內(nèi)容和意義的過程,它已經(jīng)成為數(shù)據(jù)挖掘中一個日益流行而重要的研究領(lǐng)域。與一般數(shù)據(jù)挖掘以關(guān)系、事務(wù)和數(shù)據(jù)倉庫中的結(jié)構(gòu)數(shù)據(jù)為研究目標(biāo)所不同的是,文本挖掘所研究的文本數(shù)據(jù)庫由來自各種數(shù)據(jù)源的大量文檔組成,包括新聞文章、研究論文、書籍、期刊、報告、專利說明書、會議文獻(xiàn)、技術(shù)檔案、政府出版物、數(shù)字圖書館、技術(shù)標(biāo)準(zhǔn)、產(chǎn)品樣本、電子郵件消息、web頁面等。一、數(shù)據(jù)分析基本技術(shù)第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析
(二)文本挖掘技術(shù)——負(fù)責(zé)對數(shù)據(jù)進(jìn)行挖掘分析文本挖掘技術(shù)在網(wǎng)絡(luò)輿情信息分析中的應(yīng)用:對網(wǎng)絡(luò)輿情進(jìn)行描述;對網(wǎng)絡(luò)輿情的關(guān)聯(lián)性進(jìn)行分析;對網(wǎng)絡(luò)輿情信息的真實性進(jìn)行判斷分析,對傳播主體的意圖及態(tài)度傾向進(jìn)行推論;對網(wǎng)絡(luò)輿情的產(chǎn)生原因進(jìn)行分析;預(yù)測和推論網(wǎng)絡(luò)輿情信息的產(chǎn)生和變化趨勢;一、數(shù)據(jù)分析基本技術(shù)第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析
(一)全文檢索技術(shù)原理目前全文搜索引擎通常使用倒排索引技術(shù)。倒排索引(invertedindex),也常被稱為反向索引、置入檔案或反向檔案,是一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。它是文檔檢索系統(tǒng)中最常用的數(shù)據(jù)結(jié)構(gòu)。二、數(shù)據(jù)分析原理知識延伸:正向索引在搜索引擎中每個文件都對應(yīng)一個文件ID,文件內(nèi)容被表示為一系列關(guān)鍵詞的集合(實際上在搜索引擎索引庫中,關(guān)鍵詞也已經(jīng)轉(zhuǎn)換為關(guān)鍵詞ID)。例如“文檔1”經(jīng)過分詞,提取了20個關(guān)鍵詞,每個關(guān)鍵詞都會記錄它在文檔中的出現(xiàn)次數(shù)和出現(xiàn)位置。第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析
(二)文本挖掘技術(shù)原理步驟:二、數(shù)據(jù)分析原理第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析
(二)文本挖掘技術(shù)原理步驟:(1)文本預(yù)處理:選取任務(wù)相關(guān)的文本并將其轉(zhuǎn)化成文本挖掘工具可以處理的中間形式。(2)文本挖掘:在完成文本預(yù)處理后,可以利用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘以及模式識別等方法提取面向特定應(yīng)用目標(biāo)的知識或模式。(3)模式評估與表示:為最后一個環(huán)節(jié),是利用已經(jīng)定義好的評估指標(biāo)對獲取的知識或模式進(jìn)行評價。如果評價結(jié)果符合要求,就存儲該模式以備用戶使用;否則返回到前面的某個環(huán)節(jié)重新調(diào)整和改進(jìn),然后再進(jìn)行新一輪的發(fā)現(xiàn)。二、數(shù)據(jù)分析原理第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析
(二)文本挖掘技術(shù)原理二、數(shù)據(jù)分析原理第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析
(一)文檔聚類首先,文檔聚類基于文檔之間的相似度,可以發(fā)現(xiàn)與某文檔相似的一批文檔,幫助知識工作者發(fā)現(xiàn)相關(guān)知識;其次,文檔聚類可以將一個文檔聚類成若干個類,提供一種組織文檔集合的方法;再次,文檔聚類還可以生成分類器以對文檔進(jìn)行分類。聚類方法通常有:文本挖掘中的聚類可用于提供大規(guī)模文檔集內(nèi)容的總括,識別隱藏的文檔間的相似度,減輕瀏覽相關(guān)、相似信息的過程。三、數(shù)據(jù)分析常用文本挖掘算法第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析
(二)文檔分類分類和聚類的區(qū)別在于:分類是基于已有的分類體系表的,而聚類則沒有分類表,只是基于文檔之間的相似度。由于分類體系表一般比較準(zhǔn)確、科學(xué)地反映了某一個領(lǐng)域的劃分情況,所以在信息系統(tǒng)中使用分類的方法,能夠讓用戶手工遍歷一個等級分類體系來找到自己需要的信息,達(dá)到發(fā)現(xiàn)知識的目的,這在用戶剛開始接觸一個領(lǐng)域想了解其中的情況,或者用戶不能夠準(zhǔn)確地表達(dá)自己的信息需求時特別有用。傳統(tǒng)搜索引擎中目錄式搜索引擎屬于分類的范疇,但是許多目錄式搜索引擎都采用人工分類的方法,不僅工作量巨大,而且準(zhǔn)確度不高,大大限制了其作用的發(fā)揮。三、數(shù)據(jù)分析常用文本挖掘算法第二節(jié)網(wǎng)絡(luò)輿情監(jiān)測數(shù)據(jù)分析
(三)自動文摘互聯(lián)網(wǎng)上的文本信息、機(jī)構(gòu)內(nèi)部的文檔及數(shù)據(jù)庫的內(nèi)容都在以呈指數(shù)級的速度增長,用戶在檢索信息的時候,可以得到成千上萬篇的返回結(jié)果,其中許多是與其信息需求無關(guān)或關(guān)系不大的,如果要剔除這些文檔,則必須閱讀完全文,這要求用戶付出很多勞動,而且效果不好。自動文摘能夠生成簡短的關(guān)于文檔內(nèi)容的指示性信息,將文檔的主要內(nèi)容呈現(xiàn)給用戶,方便用戶決定是否要閱讀文檔的原文,這樣能夠節(jié)省大量的瀏覽時間。三、數(shù)據(jù)分析常用文本挖掘算法第三節(jié)網(wǎng)絡(luò)輿情監(jiān)測可視化技術(shù)
數(shù)據(jù)可視化(datavisualization)是研究數(shù)據(jù)和信息視覺呈現(xiàn)的學(xué)科。它解決的問題一方面是如何將冰冷枯燥的數(shù)據(jù)和信息用有趣直觀的方式呈現(xiàn)給受眾,另一方面也是視覺分析的方法,幫助人們理解大量的復(fù)雜的數(shù)據(jù)背后隱藏的故事和洞察。它是將計算機(jī)科學(xué)領(lǐng)域的理性邏輯思維與藝術(shù)設(shè)計領(lǐng)域的視覺傳達(dá)思維相結(jié)合的一種方式。一、數(shù)據(jù)可視化技術(shù)介紹第三節(jié)網(wǎng)絡(luò)輿情監(jiān)測可視化技術(shù)
圖形是直觀呈現(xiàn)數(shù)據(jù)的直接方法。然而,將大量數(shù)據(jù)在同一個圖表中畫出來并不容易。早期的測繪、天氣數(shù)據(jù)都需要長時間的手工繪制。隨著計算機(jī)繪圖功能的開發(fā),手工繪畫已經(jīng)完全被自動繪圖程序取代,其問題的核心轉(zhuǎn)移為要以怎樣的方式呈現(xiàn)數(shù)據(jù),以便數(shù)據(jù)中的信息能自然地體現(xiàn)出來。一、數(shù)據(jù)可視化技術(shù)介紹第三節(jié)網(wǎng)絡(luò)輿情監(jiān)測可視化技術(shù)
可視化不是一個單獨的算法,而是一個流程。一般來講,可視化流程以數(shù)據(jù)流向為主線,整個過程可以看成數(shù)據(jù)流經(jīng)一系列處理模塊并得到轉(zhuǎn)換的過程。用戶通過可視化交互和其他模塊互動,通過反饋提高可視化的效果。作為探索數(shù)據(jù)的工具,可視化有它的輸入和輸出??梢暬膶ο蠡蛘哒f研究的問題并非數(shù)據(jù)本身,而是數(shù)據(jù)背后的社會自然現(xiàn)在和過程。換個角度來看,可視化的最終結(jié)果并不是人們所看到的一系列像素,而是用戶通過可視化從數(shù)據(jù)中得到的知識和靈感。二、數(shù)據(jù)可視化原理第三節(jié)網(wǎng)絡(luò)輿情監(jiān)測可視化技術(shù)
(一)可視化流水線可視化流水線模型,描述了從數(shù)據(jù)空間到可視空間的映射,包含串行數(shù)據(jù)處理的各個階段:數(shù)據(jù)分析、數(shù)據(jù)過濾、數(shù)據(jù)映射和數(shù)據(jù)渲染。二、數(shù)據(jù)可視化原理第三節(jié)網(wǎng)絡(luò)輿情監(jiān)測可視化技術(shù)
(二)信息可視化參考流程其起點為輸入的數(shù)據(jù),終點是獲取的知識。從數(shù)據(jù)到知識有兩個途徑:對數(shù)據(jù)進(jìn)行交互可視化,以幫助用戶感知數(shù)據(jù)中蘊(yùn)含的規(guī)律;或按照給定的先驗假設(shè)進(jìn)行數(shù)據(jù)挖掘,從數(shù)據(jù)中直接提煉出數(shù)據(jù)模型。用戶既可以對可視化結(jié)果進(jìn)行交互修正,也可以調(diào)節(jié)參數(shù)來修正模型。二、數(shù)據(jù)可視化原理第三節(jié)網(wǎng)絡(luò)輿情監(jiān)測可視化技術(shù)
(二)信息可視化參考流程其起點為輸入的數(shù)據(jù),終點是獲取的知識。從數(shù)據(jù)到知識有兩個途徑:對數(shù)據(jù)進(jìn)行交互可視化,以幫助用戶感知數(shù)據(jù)中蘊(yùn)含的規(guī)律;或按照給定的先驗假設(shè)進(jìn)行數(shù)據(jù)挖掘,從數(shù)據(jù)中直接提煉出數(shù)據(jù)模型。用戶既可以對可視化結(jié)果進(jìn)行交互修正,也可以調(diào)節(jié)參數(shù)來修正模型。二、數(shù)據(jù)可視化原理第四節(jié)大數(shù)據(jù)時代網(wǎng)絡(luò)輿情監(jiān)測技術(shù)遇到的挑戰(zhàn)
最早提出“大數(shù)據(jù)”這一說法的是美國麥肯錫全球研究院(MGI)于2011年5月發(fā)表的一篇研究報告《大數(shù)據(jù):未來創(chuàng)新、競爭、生產(chǎn)力的指向標(biāo)》。這篇報告預(yù)示了大數(shù)據(jù)時代的到來:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運(yùn)用預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來?!本S克托·邁爾舍恩伯格在《大數(shù)據(jù)時代》一書中所列舉的大量例證都是為了說明一個道理:在大數(shù)據(jù)時代已經(jīng)到來的時候要用大數(shù)據(jù)思維去發(fā)掘大數(shù)據(jù)的潛在價值。一、大數(shù)據(jù)的由來第四節(jié)大數(shù)據(jù)時代網(wǎng)絡(luò)輿情監(jiān)測技術(shù)遇到的挑戰(zhàn)
Volume(大量):數(shù)據(jù)體量巨大。大數(shù)據(jù)的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。Velocity(高速):處理速度快。Variety(多樣):數(shù)據(jù)類型繁多。比如,網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等。Value(價值):價值密度低,商業(yè)價值高。二、大數(shù)據(jù)的特征第四節(jié)大數(shù)據(jù)時代網(wǎng)絡(luò)輿情監(jiān)測技術(shù)遇到的挑戰(zhàn)
(一)大數(shù)據(jù)時代,對信息的加工是基礎(chǔ)。據(jù)互聯(lián)網(wǎng)專家介紹,大數(shù)據(jù)體量巨大,非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長分別占總數(shù)據(jù)量的80%~90%,比結(jié)構(gòu)化數(shù)據(jù)增長快10~50倍。從輿情產(chǎn)品服務(wù)的角度看,濃縮海量信息、抵抗“數(shù)據(jù)爆炸”已成為輿情工作的基本要求。因此,掌握數(shù)據(jù)抓取能力與輿情解讀能力,通過加工實現(xiàn)數(shù)據(jù)的增值,將是未來輿情分析的必備技能。三、大數(shù)據(jù)對輿情的價值和影響第四節(jié)大數(shù)據(jù)時代網(wǎng)絡(luò)輿情監(jiān)測技術(shù)遇到的挑戰(zhàn)
(二)大數(shù)據(jù)時代,對數(shù)據(jù)的解釋是關(guān)鍵。目前,數(shù)據(jù)的可獲得度已經(jīng)空前提高,我們可以分析更多的數(shù)據(jù),有時候甚至可以處理與某種特別現(xiàn)象相關(guān)的所有數(shù)據(jù),實現(xiàn)真正的大數(shù)據(jù)挖掘和分析。數(shù)據(jù)的海量、及時、動態(tài)、開放有利于我們完善分析的效度和深度。同時,大數(shù)據(jù)也有價值密度低、傳播速度快等特點,數(shù)據(jù)分析的模式是否科學(xué),將直接影響數(shù)據(jù)分析的質(zhì)量。三、大數(shù)據(jù)對輿情的價值和影響第四節(jié)大數(shù)據(jù)時代網(wǎng)絡(luò)輿情監(jiān)測技術(shù)遇到的挑戰(zhàn)
(三)大數(shù)據(jù)時代,對趨勢的研判是目標(biāo)。
大數(shù)據(jù)的核心和目標(biāo)就是預(yù)測,具體到輿情服務(wù),輿情工作人員從互聯(lián)網(wǎng)浩如煙海的數(shù)據(jù)中挖掘信息、判斷趨勢、提高效益,雖然獲得廣泛且實際的應(yīng)用,但還遠(yuǎn)遠(yuǎn)不夠。輿情分析人員要不斷增強(qiáng)關(guān)聯(lián)輿情信息的分析和預(yù)測,把服務(wù)的重點從單純的搜集有效數(shù)據(jù)向?qū)浨榈纳钊胙信型卣?,跟蹤關(guān)聯(lián)輿情,不再局限于危機(jī)解決,要輔之以決策參考,從注重“靜態(tài)搜集”向注重“動態(tài)跟蹤”拓展,從致力于“反映問題”向致力于“解決問題”拓展,使輿情產(chǎn)品和服務(wù)“更高、更快、更強(qiáng)”(視點高、預(yù)警快、處置強(qiáng))。三、大數(shù)據(jù)對輿情的價值和影響第四節(jié)大數(shù)據(jù)時代網(wǎng)絡(luò)輿情監(jiān)測技術(shù)遇到的挑戰(zhàn)
(四)大數(shù)據(jù)時代,分眾服務(wù)是方向。數(shù)據(jù)的互通互聯(lián)改變了數(shù)據(jù)庫、應(yīng)用軟件和用戶界面等系統(tǒng)之間的“孤島”狀態(tài)。輿情服務(wù)機(jī)構(gòu)應(yīng)樹立大輿情觀
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年中職第二學(xué)年(服裝結(jié)構(gòu)設(shè)計)衣片打版綜合測試題及答案
- 初中八年級語文(文言文精讀)2027年上學(xué)期期末試題及答案
- 2025年大學(xué)人力資源管理(員工激勵)試題及答案
- 2026年生產(chǎn)能力(效率提升)考題及答案
- 2026年口腔醫(yī)學(xué)(牙周病治療)考題及答案
- 2025年大學(xué)輕化工程(皮革化學(xué)與工程)試題及答案
- 大學(xué)(漢語言文學(xué))古代文學(xué)常識2026年階段測試題
- 深度解析(2026)《GBT 18341-2021地質(zhì)礦產(chǎn)勘查測量規(guī)范》
- 深度解析(2026)《GBT 18252-2020塑料管道系統(tǒng) 用外推法確定熱塑性塑料材料以管材形式的長期靜液壓強(qiáng)度》(2026年)深度解析
- 深度解析(2026)《GBT 17980.129-2004農(nóng)藥 田間藥效試驗準(zhǔn)則(二) 第129部分除草劑防治煙草田雜草》
- DL-T5588-2021電力系統(tǒng)視頻監(jiān)控系統(tǒng)設(shè)計規(guī)程
- 人文成都智慧樹知到期末考試答案章節(jié)答案2024年成都師范學(xué)院
- 醫(yī)療組長競聘演講
- 肺炎的影像學(xué)診斷課件
- 2024年通用直升機(jī)相關(guān)項目運(yùn)營指導(dǎo)方案
- 《臺式香腸烤制方法》課件
- 常用計量值控制圖系數(shù)表
- 慢性阻塞性肺疾病急性加重期機(jī)械通氣
- 傳染病學(xué)智慧樹知到課后章節(jié)答案2023年下溫州醫(yī)科大學(xué)
- 濕熱滅菌驗證方案及報告
- 工業(yè)區(qū)位因素及其變化高一地理人教版(2019)必修二
評論
0/150
提交評論