版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
網(wǎng)絡(luò)輿情監(jiān)控技術(shù)目錄TOC\o"1-3"\h\u4928引言 引言互聯(lián)網(wǎng)及移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展,使得互聯(lián)網(wǎng)成為信息傳播和碰撞的一個(gè)重要媒介與平臺(tái)。網(wǎng)絡(luò)輿情作為社會(huì)輿情在網(wǎng)絡(luò)中的延伸,能夠充分并真實(shí)地反應(yīng)社會(huì)中存在的各類問題。因此對(duì)網(wǎng)絡(luò)輿情及其相關(guān)技術(shù)的研究對(duì)于了解和解決社會(huì)各類問題具有非常重要的意義。輿情是“輿論情況”,指在一定的社會(huì)空間內(nèi),圍繞某一具體的中介性社會(huì)事件的發(fā)生、發(fā)展和變化,作為主體的民眾對(duì)作為客體的社會(huì)管理者及其政治取向表達(dá)出的社會(huì)政治態(tài)度,是大多數(shù)群眾對(duì)于各類社會(huì)現(xiàn)象、問題所表達(dá)的信念、態(tài)度、意見和情緒等等的總和。由于互聯(lián)網(wǎng)的普及和高速的發(fā)展,使得信息傳播的速度和節(jié)奏加快,網(wǎng)絡(luò)已經(jīng)成為社會(huì)輿情的一個(gè)非常重要的傳播平臺(tái),它和普通輿情相比傳播速度更快、更便捷?;ヂ?lián)網(wǎng)由于其開放性的特點(diǎn),導(dǎo)致互聯(lián)網(wǎng)上充斥著一些不積極、不健康的負(fù)面內(nèi)容,需要一個(gè)好的監(jiān)管方式對(duì)其進(jìn)行有效的監(jiān)督與控制。第1章相關(guān)概念與理論第1.1節(jié)網(wǎng)絡(luò)輿情概述網(wǎng)絡(luò)輿情就是指互聯(lián)網(wǎng)中的輿情信息,是群眾通過(guò)互聯(lián)網(wǎng)對(duì)各類社會(huì)現(xiàn)象和社會(huì)熱點(diǎn)問題表達(dá)出的意見、情緒和政治態(tài)度。比如網(wǎng)絡(luò)中存在的各類新聞報(bào)道和大量網(wǎng)民對(duì)社會(huì)熱點(diǎn)問題的討論和意見都屬于網(wǎng)絡(luò)輿情的一部分。主要的傳播渠道包括BBS、微博、新聞網(wǎng)站和博客等。由于網(wǎng)絡(luò)上的信息量巨大且繁多,因此并不是每一條信息都可以成為輿情,成為輿情必須具有以下特點(diǎn):沖突性、典型性和模糊性。只有包含了錯(cuò)綜復(fù)雜的沖突,能夠影響到社會(huì)各方并具有一定程度的模糊性的典型信息才能成為輿情。通過(guò)對(duì)網(wǎng)絡(luò)輿情的監(jiān)控,可以掌握民眾對(duì)焦點(diǎn)問題的看法,可以加強(qiáng)對(duì)群眾政治意愿、文化傾向的了解,能夠更好的把控社會(huì)的發(fā)展趨勢(shì),及時(shí)對(duì)群眾的社會(huì)態(tài)度進(jìn)行正確的引導(dǎo),便于樹立起良好的政府和企業(yè)形象。網(wǎng)絡(luò)擁有隱蔽性、無(wú)中心性、開放性、發(fā)散性和虛擬性的特點(diǎn),網(wǎng)民在網(wǎng)絡(luò)上能夠匿名發(fā)表言論并及時(shí)快速的參與互動(dòng)交流,這些特征使得網(wǎng)上的信息能夠更真實(shí)的反映出民眾自身的情緒和觀點(diǎn),但同時(shí)也會(huì)有大量的有干擾性的無(wú)效信息摻雜在其中;又由于信息在網(wǎng)絡(luò)上傳播速度快、傳播范圍廣,使得網(wǎng)絡(luò)輿情的發(fā)展呈現(xiàn)出以下幾個(gè)特點(diǎn):自由性、交互性、多元性、偏差性和突發(fā)性。網(wǎng)民們?cè)诨ヂ?lián)網(wǎng)上會(huì)自發(fā)的、隨意的、積極的參與對(duì)熱點(diǎn)問題的討論,把網(wǎng)絡(luò)當(dāng)成一種極便捷的資訊獲取平臺(tái)和信息交流平臺(tái)。近些年,網(wǎng)絡(luò)提供給網(wǎng)民獲取信息和溝通交流的渠道不斷增多,從最初的普通新聞?wù)军c(diǎn)到現(xiàn)在的各大BBS論壇、貼吧,網(wǎng)絡(luò)輿情的主題也橫跨了社會(huì)的各個(gè)領(lǐng)域和各個(gè)階層。政治、經(jīng)濟(jì)、軍事、文化等各方面熱點(diǎn)都可能成為人們討論的熱點(diǎn),并形成各種不同的觀點(diǎn)和態(tài)度。第1.2節(jié)網(wǎng)絡(luò)輿情監(jiān)控概述目前各大搜索引擎都只關(guān)注如何根據(jù)某一用戶所要求的特定內(nèi)容對(duì)海量數(shù)據(jù)進(jìn)行搜索,從中提取信息反饋給用戶。這樣的功能沒能針對(duì)使用者關(guān)心的輿情內(nèi)容進(jìn)行處理。輿情實(shí)時(shí)監(jiān)控系統(tǒng)能夠給用戶提供對(duì)輿情數(shù)據(jù)采集、分析的基本功能,幫助用戶快速、及時(shí)、準(zhǔn)確的掌握關(guān)鍵輿情的動(dòng)態(tài)。網(wǎng)絡(luò)輿情的檢索方法主要包括機(jī)器檢索和人工檢索兩類。機(jī)器檢索主要是查詢某一輿情信息的屬性或是輿情熱點(diǎn)排行榜。人工檢索主要是針對(duì)網(wǎng)民對(duì)某一問題的態(tài)度傾向進(jìn)行聚類分析。網(wǎng)絡(luò)輿情分析系統(tǒng)要為掌握廣大民眾思想動(dòng)態(tài),做出正確的引導(dǎo)提供參考數(shù)據(jù)和依據(jù)。輿情監(jiān)控系統(tǒng)主要涉及的技術(shù)領(lǐng)域包括:機(jī)器學(xué)習(xí)(MachineLearning)、文本挖掘、自然語(yǔ)言處理(NaturalLanguageProcessing,NLP)、數(shù)據(jù)倉(cāng)庫(kù)多維建模、語(yǔ)義集成分析、趨勢(shì)分析和主題分類等。輿情監(jiān)控系統(tǒng)通常應(yīng)該具有以下功能:熱點(diǎn)識(shí)別功能、傾向性分析、主題跟蹤、信息摘要、突發(fā)事件分析和統(tǒng)計(jì)報(bào)告功能。要能夠利用語(yǔ)言分析對(duì)敏感主題進(jìn)行識(shí)別和跟蹤,自動(dòng)采集相關(guān)信息、分類并進(jìn)行數(shù)據(jù)清洗,最后快速的進(jìn)行趨勢(shì)分析,得到準(zhǔn)確的統(tǒng)計(jì)報(bào)告。圖1網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)信息流程圖第2章網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)相關(guān)技術(shù)由于網(wǎng)絡(luò)信息的海量,如果采用傳統(tǒng)人工鑒別的方法很難應(yīng)對(duì)復(fù)雜的情況。所以研究自動(dòng)化的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng),及時(shí)應(yīng)對(duì)網(wǎng)絡(luò)輿情就顯得尤為重要[。而此類技術(shù)不同于內(nèi)容過(guò)濾技術(shù),過(guò)濾技術(shù)主要處理事前設(shè)定的非法敏感內(nèi)容。而輿情監(jiān)控技術(shù)則強(qiáng)調(diào)可通過(guò)整體分析網(wǎng)絡(luò)信息,這樣的系統(tǒng)該具備:網(wǎng)頁(yè)信息數(shù)據(jù)自動(dòng)采集、信息數(shù)據(jù)整理抽取、網(wǎng)絡(luò)輿情分析等功能模塊。功能模塊功能描述自動(dòng)采集數(shù)據(jù)系統(tǒng)能夠根據(jù)用戶的需求,自動(dòng)的進(jìn)行主題對(duì)象目標(biāo)的設(shè)置。系統(tǒng)也可以使用人工手動(dòng)與計(jì)算機(jī)自動(dòng)采集相結(jié)合的技術(shù)方式進(jìn)行數(shù)據(jù)信息的采集。網(wǎng)頁(yè)數(shù)據(jù)處理包括數(shù)據(jù)清理、統(tǒng)計(jì)、格式化等。如對(duì)提取BBS帖子的標(biāo)題題目、網(wǎng)頁(yè)內(nèi)容、文章的發(fā)布時(shí)間、帖子的發(fā)布人、回復(fù)次數(shù)、主題文章回復(fù)人、回貼的內(nèi)容等。最后形成格式化信息。網(wǎng)絡(luò)輿情分析系統(tǒng)核心部分,主要包括話題發(fā)現(xiàn)追蹤、傾向性識(shí)別、自動(dòng)摘要、趨勢(shì)分析、突發(fā)事件分析、信息預(yù)警、統(tǒng)計(jì)報(bào)告等。第2.1節(jié)網(wǎng)絡(luò)輿情數(shù)據(jù)采集技術(shù)由于互聯(lián)網(wǎng)信息的海量特征,這就要求網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)必須能夠自動(dòng)的對(duì)相關(guān)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行采集。當(dāng)前數(shù)據(jù)自動(dòng)采集可以分為:基于搜索引擎的方法和基于網(wǎng)頁(yè)抓取的采集。搜索引擎:該技術(shù)是通過(guò)對(duì)指定對(duì)象關(guān)鍵詞進(jìn)行自動(dòng)搜索,在依照結(jié)果,如URL,進(jìn)行網(wǎng)頁(yè)的獲取、語(yǔ)料分析整理。其優(yōu)點(diǎn)是能夠有效獲取指定對(duì)象輿情語(yǔ)料,方法簡(jiǎn)便;缺點(diǎn)是難以進(jìn)行話題發(fā)現(xiàn)。當(dāng)前如百度、Google等主流引擎,因其關(guān)注通用性需求,不對(duì)特定需求進(jìn)行劃分,由被稱為通用引擎。一般由網(wǎng)絡(luò)蜘蛛、索引器、分詞器、查詢器組成。蜘蛛承當(dāng)抓取網(wǎng)頁(yè)信息,分詞器和索引器則將獲取的內(nèi)容進(jìn)行分詞處理,并建立索引庫(kù)。再依照查詢條件對(duì)檢索結(jié)果進(jìn)行排序和集合運(yùn)算,進(jìn)而提取摘要信息反饋給用戶。此類引擎以一定的策略在網(wǎng)絡(luò)上搜集信息,對(duì)內(nèi)容進(jìn)行理解、提取、組織、處理,并提供檢索服務(wù),從而實(shí)現(xiàn)信息導(dǎo)航的目標(biāo)。另外,隨著互聯(lián)網(wǎng)信息的快速增長(zhǎng),傳統(tǒng)的通用搜索引擎也面臨了許多的問題,這類引擎技術(shù)無(wú)選擇地采集、索引網(wǎng)頁(yè)面上的數(shù)據(jù),這就導(dǎo)致了采集數(shù)據(jù)時(shí)會(huì)消耗較多的網(wǎng)絡(luò)帶寬資源,磁盤存儲(chǔ)空間,而且此類數(shù)據(jù)的更新也難以保證時(shí)效性。尤其是通用搜索引擎的收詢結(jié)果無(wú)法有效的反映出上網(wǎng)用戶的喜好,無(wú)法為用戶提供一目了然的信息,這樣也就不便用戶的信息檢索,降低了用戶在使用搜索引擎收索信息內(nèi)容時(shí)的效率性。鑒于此類問題,垂直搜索引擎也就相應(yīng)而生。在提供專業(yè)信息服務(wù)方面,垂直搜索引擎擁有著大型傳統(tǒng)通用引擎無(wú)法比擬的優(yōu)勢(shì),因?yàn)榇祟惣夹g(shù)面向某具體的專業(yè)領(lǐng)域,更加關(guān)注于自身特點(diǎn)與核心技術(shù),所以有效確保了對(duì)該領(lǐng)域信息內(nèi)容的有效檢索和信息的實(shí)時(shí)更新。目前,負(fù)面網(wǎng)絡(luò)輿情傳播的渠道主要包括微博、BBS論壇和新聞網(wǎng)站等Web站點(diǎn),所以本章需要解決的問題簡(jiǎn)單來(lái)說(shuō)就是從微博、BBS論壇、新聞網(wǎng)站等web頁(yè)面上及時(shí)、完整的獲取最新發(fā)表的與環(huán)保相關(guān)的內(nèi)容。就目前的技術(shù)而言,從Web站點(diǎn)獲取數(shù)據(jù)的方法是通過(guò)HTTP/HTTPS協(xié)議訪問Web站點(diǎn),獲取其上發(fā)布的資源。數(shù)據(jù)分析所需要的內(nèi)容一般位于純文本的HTML文件中,由于HTML文本中往往摻雜有大量與核心內(nèi)容無(wú)關(guān)的HTML標(biāo)簽、廣告、鏈接、圖片、JS/CSS代碼等等,導(dǎo)致從Web站點(diǎn)獲取的文本無(wú)法直接用于分析,還需要在獲取Web資源的基礎(chǔ)上對(duì)其核心內(nèi)容進(jìn)行抽取。網(wǎng)頁(yè)抓取:該技術(shù)是語(yǔ)料采集主要方法,采集對(duì)象包括各種網(wǎng)頁(yè)。網(wǎng)頁(yè)內(nèi)容在被采集后,通過(guò)數(shù)據(jù)抽取和轉(zhuǎn)換將非結(jié)構(gòu)化的多媒體信息轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù),然后再進(jìn)行分析。此技術(shù)采集的輿情語(yǔ)料能從整體上反映一段時(shí)間內(nèi)的輿情情況;缺點(diǎn)是周期較長(zhǎng),網(wǎng)頁(yè)過(guò)濾、內(nèi)容抽取較復(fù)雜。其典型代表是網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲主要用來(lái)搜集網(wǎng)絡(luò)上的各類信息。其利用網(wǎng)頁(yè)中的超鏈接來(lái)訪問網(wǎng)頁(yè),從一個(gè)預(yù)訂好的URL開始,改列表的URL一般是歷史訪問記錄中獲取,通過(guò)超文本傳輸協(xié)議,按照鏈接在不同頁(yè)面上爬行,直到無(wú)滿足條件的新鏈接停止工作。圖2python的基本結(jié)構(gòu)圖總體來(lái)講,網(wǎng)絡(luò)爬蟲主要分如下兩個(gè)工作階段:第一階段,URL庫(kù)初始化然后開始爬取。第二階段,爬蟲讀取沒有訪問過(guò)的URL,來(lái)確定它的工作范圍。其中,對(duì)于所要抓取的URL鏈接,進(jìn)行以下步驟:自動(dòng)獲取URL的鏈接。解析內(nèi)容,獲取URL及相關(guān)數(shù)據(jù)。存儲(chǔ)有價(jià)值的數(shù)據(jù)信息。對(duì)新抓取的URL進(jìn)行規(guī)范、格式化。過(guò)濾掉不相關(guān)的URL。將要抓取的URL更新到URL庫(kù)中。重復(fù)步驟②,直到終止條件為止。第2.2節(jié)網(wǎng)頁(yè)數(shù)據(jù)處理能否有效、快速的從獲取的輿情網(wǎng)頁(yè)數(shù)據(jù)中剔除無(wú)關(guān)內(nèi)容,為輿情分析提供有價(jià)值的信息,是衡量網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)優(yōu)劣的重要指標(biāo),其關(guān)鍵技術(shù)主要包括:網(wǎng)頁(yè)除噪技術(shù)、排重技術(shù)、文本形式化表示與特征選取技術(shù)。網(wǎng)頁(yè)除噪:獲取的網(wǎng)頁(yè)中存在大量用戶并不感興趣內(nèi)容,如菜單導(dǎo)航、廣告版權(quán)、背景圖片等,此部分為“網(wǎng)頁(yè)噪音”。網(wǎng)頁(yè)噪音能造成主題偏離。怎樣有效的識(shí)別并清除“噪音”,是輿情信息從非結(jié)構(gòu)化轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的關(guān)鍵技術(shù)。排重技術(shù):重復(fù)信息是網(wǎng)絡(luò)輿情中常見現(xiàn)象。輿情在分析檢索處理中,經(jīng)過(guò)會(huì)從多個(gè)地址返回內(nèi)容相同結(jié)果,影響檢索效果,造成輿情態(tài)勢(shì)分析準(zhǔn)確度的下降。排重的關(guān)鍵是對(duì)文本內(nèi)容給出相似度評(píng)估。相似度越小,雷同就小,相似度越大,雷同內(nèi)容就多。常見的計(jì)算文本相似度方法,第一步是提取文本特征。它采用基于字符串比較的方法。此方法是從文檔中選取一些被稱為“指紋”的字符串。然后把這些特定的字符串映射到哈希表中,自動(dòng)生成字符串與數(shù)字之間的映射關(guān)聯(lián)關(guān)系。最后根據(jù)哈希中相同的字符串?dāng)?shù)或比率的統(tǒng)計(jì)結(jié)果,來(lái)作為相似度計(jì)算的依據(jù)。第2.3節(jié)網(wǎng)絡(luò)輿情分析技術(shù)作為網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)核心的輿情分析引擎,主要功能如下表:功能項(xiàng)功能描述話題識(shí)別可以依照信息權(quán)威性、評(píng)論量、發(fā)表時(shí)間等參數(shù),鑒別出一定時(shí)間范圍內(nèi)的熱門和熱點(diǎn)話題;能利用關(guān)鍵字布控技術(shù)、進(jìn)行語(yǔ)義方面的分析處理,識(shí)別敏感話題情感傾向性分析系統(tǒng)能夠?qū)τ诰唧w的對(duì)象與話題進(jìn)行定位,對(duì)已經(jīng)發(fā)表的文章中的詞語(yǔ)、短句進(jìn)行分析,判斷出文章作者的態(tài)度,進(jìn)而進(jìn)行情感傾向性的分析與統(tǒng)計(jì)主題跟蹤與發(fā)現(xiàn)分析出新發(fā)表的文章主題和話題是否與已有數(shù)據(jù)庫(kù)中主題相同,如未發(fā)現(xiàn)類似主題,則進(jìn)行相關(guān)主題的自動(dòng)追蹤與發(fā)現(xiàn)。自動(dòng)摘要系統(tǒng)可以對(duì)各類主題涉及情感性態(tài)度的字、詞、句進(jìn)行識(shí)別,分析出其語(yǔ)氣、傾向和態(tài)度,并自動(dòng)產(chǎn)生摘要趨勢(shì)分析獲知事件發(fā)生的全貌并預(yù)測(cè)事件發(fā)展趨勢(shì)報(bào)警服務(wù)對(duì)突發(fā)事件、涉及內(nèi)容安全的敏感話題及時(shí)發(fā)現(xiàn),而且可以通過(guò)網(wǎng)絡(luò)、短信、郵件等形式進(jìn)行預(yù)警提示統(tǒng)計(jì)報(bào)告依據(jù)分析引擎處理后的結(jié)果,能為系統(tǒng)用戶提供各類圖表型的統(tǒng)計(jì)報(bào)告,并為管理者提供決策性支持。第3章文本傾向性分析技術(shù)第3.1節(jié)文本傾向性分析概述文本傾向性分析作為網(wǎng)絡(luò)輿情分析中的一項(xiàng)關(guān)鍵技術(shù),與傳統(tǒng)的文本分類不同。傳統(tǒng)的文本分類基于主題,例如:政治、文化、經(jīng)濟(jì)等分類,且對(duì)文本內(nèi)容的分析與理解都處于比較淺的層次。而文本傾向性分析關(guān)注的是非主題分析,即文本內(nèi)容所體現(xiàn)的情感態(tài)度如:積極或消極、正面或反面意見。它是對(duì)傳統(tǒng)的文本分類研究的深入和拓展,可以滿足人們更深層次獲取和利用信息的要求。在網(wǎng)絡(luò)輿情監(jiān)控分析方面,利用文本傾向性分析技術(shù),可以更加及時(shí)地了解網(wǎng)絡(luò)民意,對(duì)各類突發(fā)事件也能進(jìn)行及時(shí)預(yù)警。當(dāng)前,文本傾向性分析技術(shù)主要有兩種研究思路,基于機(jī)器學(xué)習(xí)和情感字典。前者是把情感分類定義為一類特殊的文本分類方法,該方法是對(duì)文本采取極性分析處理,其處理手段是針對(duì)訓(xùn)練集進(jìn)行人工的人工標(biāo)記,另外一種常見的手段就是基于機(jī)器的自動(dòng)學(xué)習(xí)方法。而后者則通過(guò)情感詞典對(duì)文本進(jìn)行情感極性進(jìn)行量化計(jì)算。由于機(jī)器學(xué)習(xí)方法存在著三個(gè)重要缺陷:第一,針對(duì)訓(xùn)練集、測(cè)試集的標(biāo)記工作非常的繁雜;第二,當(dāng)出現(xiàn)維數(shù)過(guò)高的現(xiàn)象時(shí),整體的處理效果不佳;第三,針對(duì)文章里褒貶不清內(nèi)容的處理,效果不理想。所以,極性詞典也就被引入進(jìn)來(lái)進(jìn)行傾向性分析。在國(guó)外,主要是采用人工的方式,構(gòu)造情感類別的極性詞典庫(kù),該庫(kù)針對(duì)情感詞,它們具有的強(qiáng)烈程度以及傾向性進(jìn)行了標(biāo)記,指示詞與類別的相關(guān)性。國(guó)內(nèi),多數(shù)依靠“知網(wǎng)”來(lái)建庫(kù),另外常見的詞典構(gòu)建方法就是利用“統(tǒng)計(jì)與規(guī)則”和“語(yǔ)義知識(shí)”方法。基于“知網(wǎng)”修飾型詞庫(kù),對(duì)庫(kù)詞的情感極性和強(qiáng)度進(jìn)行標(biāo)記,先形成了一個(gè)原始的情感型詞庫(kù),然后,再在此基礎(chǔ)上進(jìn)行擴(kuò)展處理。雖然近年來(lái)也取得了一定進(jìn)展,但國(guó)內(nèi)的情感詞典還未能起很好的應(yīng)用效果,所以構(gòu)建一個(gè)完善、高效并適用于所有領(lǐng)域的情感字典是仍是當(dāng)前存在的一個(gè)亟待要解決的問題。圖3文本傾向性分析流程第3.2節(jié)詞法分析技術(shù)3.2.1中文分詞技術(shù)在文本傾向性分析過(guò)程中,中文分詞是非常重要的技術(shù)環(huán)節(jié)。此環(huán)節(jié)的處理精度,將直接左右文本傾向性分析準(zhǔn)確程度,另外,情感詞典的建立以及其工作有效性也與本技術(shù)環(huán)節(jié)緊密相關(guān)。在中文信息處理中,要求對(duì)每句按照詞義切割文本。由于中文中詞間沒有分隔符,另外,由于針對(duì)詞態(tài)的標(biāo)記不明確,故,要實(shí)現(xiàn)計(jì)算機(jī)的自動(dòng)分詞這個(gè)重要目標(biāo),常見的技術(shù)手段是基于中文詞典的劃分方法。所以,這也就是說(shuō)如何構(gòu)造一個(gè)有效的分詞詞典庫(kù),以及合適算法的選擇就成為本項(xiàng)技術(shù)成敗的關(guān)鍵。算法的選擇與詞庫(kù)建設(shè)工作有著非常重要的聯(lián)系。這是因?yàn)?,在分此詞典庫(kù)的數(shù)據(jù)結(jié)構(gòu),其設(shè)計(jì)的合理性將對(duì)算法性能產(chǎn)生重要而影響。主要的分詞算法有:基于字典的字符串匹配方法和基于統(tǒng)計(jì)的最短路徑分詞算法兩種。字符串匹配法:此類方法是將需要進(jìn)行切割的字符串,按一定的規(guī)則,與詞典庫(kù)中的詞條逐一的進(jìn)行雷同性判別,如發(fā)現(xiàn)庫(kù)中該項(xiàng)已經(jīng)存在相似內(nèi)容,就證明存在雷同性,匹配成功。常見的方法有下面幾個(gè):(1)近鄰查找匹配法:針對(duì)句子當(dāng)中,對(duì)相同頭字符下的詞條,先通過(guò)升序方式對(duì)其排列。然后再在已知的字符串后面追加一個(gè)新的字符,產(chǎn)生出一個(gè)新的字符串。完成此項(xiàng)操作后,再在詞典庫(kù)檢查是否存在該串,如發(fā)現(xiàn)了雷同內(nèi)容,就可以判斷出該新的字符串肯定會(huì)在原字符串附近出現(xiàn)。(2)正向最大匹配:對(duì)待分文本中的連續(xù)字符串,從句頭開始,依序與已知詞表進(jìn)行匹配,查找最長(zhǎng)詞,如匹配成功,就先對(duì)第一個(gè)詞進(jìn)行切割,而余下部分則作為新的、進(jìn)待分割的文本,重復(fù)以上的處理和操作。正向最大匹配方其處理能力強(qiáng),代碼在實(shí)現(xiàn)方面非常簡(jiǎn)單,而且整體實(shí)現(xiàn)時(shí)間快;缺點(diǎn)是處理歧義字段效果不好。3.2.2詞語(yǔ)搭配詞語(yǔ)搭配就是針對(duì)對(duì)一些時(shí)常使用、習(xí)貫性的用語(yǔ),用倆個(gè)甚至多個(gè)詞語(yǔ)組合而成的一種語(yǔ)言的表述形式。而針對(duì)詞語(yǔ)搭配的識(shí)別,常用到的方法有基于均值和方差的識(shí)別方法,還有如頻率以及基于假設(shè)的T檢驗(yàn)方法,另外如隨機(jī)互信息的搭配對(duì)識(shí)別方法也經(jīng)常被使用。(1)均值和方差:均值:即簡(jiǎn)單平均偏移量,在本處特指兩個(gè)詞語(yǔ)之間的平均距離。方差:是各個(gè)數(shù)據(jù)與平均數(shù)之差的平方和的平均數(shù),衡量的是單獨(dú)偏移量偏離均值的距離,公式如下:如樣本偏量一致,則方差取零。如偏移量呈隨機(jī)分布,方差將較大。以上倆個(gè)指標(biāo)說(shuō)明的是語(yǔ)料庫(kù)中,兩個(gè)詞語(yǔ)之間的分布情況。一般情況下,我們可通過(guò)統(tǒng)計(jì)方差計(jì)算結(jié)果較為小的詞對(duì),從而發(fā)現(xiàn)搭配對(duì)。通常情況下,兩個(gè)詞出現(xiàn)時(shí),如果其在文章中的位置距離相對(duì)穩(wěn)定,那么就表明方差的值較低。如果方差值等于零,那么就證明兩個(gè)詞必定在相同的地方出現(xiàn)。(2)頻率:統(tǒng)計(jì)庫(kù)中兩個(gè)或幾個(gè)詞出現(xiàn)的次數(shù),如此類情況出現(xiàn)次數(shù)多,則反映其間存在搭配關(guān)系。(3)T檢驗(yàn):在大規(guī)模語(yǔ)料中高頻、低方差的出現(xiàn)可能是偶然的。一種猜測(cè)是不是偶然性的,就必須要進(jìn)行假設(shè)性檢驗(yàn)。而經(jīng)過(guò)被使用的一種測(cè)試方法,就是T檢驗(yàn)。該假設(shè)性檢驗(yàn)方法,其核心思想是通過(guò)方差值的計(jì)算與對(duì)比,來(lái)衡量期望均值、觀測(cè)值之間的差異程度。如果我們需要考察的樣本,它服從正態(tài)形式的分布,計(jì)算樣本的概率,計(jì)算統(tǒng)計(jì)量t如下:其中,s2-樣本方差,N-樣本大小,x-樣本值,u-分布均值。t檢驗(yàn)擴(kuò)展到兩個(gè)正態(tài)分布均值的比較,其公式如下:互信息:是計(jì)算語(yǔ)言學(xué)模型分析的常用方法,它度量?jī)蓚€(gè)對(duì)象之間的相互性?;バ畔⒈緛?lái)是信息論中的一個(gè)概念,用于表示信息之間的關(guān)系。當(dāng)兩個(gè)隨機(jī)變量之間存在某種關(guān)聯(lián)性的時(shí)候,它與依賴度、以及隨機(jī)變量的熵值存在著緊密關(guān)系;而計(jì)算值為零的時(shí)候,則說(shuō)明隨機(jī)變量之間不存在關(guān)聯(lián)性。數(shù)學(xué)表達(dá)式如下:這里,p(x,y)為同現(xiàn)率。而在實(shí)際的應(yīng)用當(dāng)中,基于特征點(diǎn)的互信息經(jīng)常被使用,此類互信息用來(lái)說(shuō)明:兩個(gè)相關(guān)事件發(fā)生的關(guān)聯(lián)性,其數(shù)學(xué)表達(dá)式為:第3.3節(jié)分類算法3.3.1貝葉斯算法公式如下:P(Cj)先驗(yàn)概率,P(Cj)值大小的,受此類別在全部類中占有率影響。在實(shí)際應(yīng)用當(dāng)中,因?yàn)樵谕黄谋井?dāng)中,P(d)的值是一樣的,所以,計(jì)算待測(cè)的文本對(duì)象屬于哪一個(gè)類別的概率,則是由P(d|Cj)取決。另外,將d的向量空間表達(dá)式為d={w1,w2,……wn},其中,wi取“1”或者“0”。若第1個(gè)特征詞在文本內(nèi)容當(dāng)中出現(xiàn),則wi取值為“1”,否則取值為“0”。則此表達(dá)式經(jīng)過(guò)數(shù)學(xué)推算后,就得到經(jīng)多年的研究與改進(jìn),此種算法在實(shí)際應(yīng)用當(dāng)中,已被作為一種廣泛采用的分類器進(jìn)行使用,其最常用的形式是就是著名的“樸素貝葉斯”分類器,由于“樸貝葉斯”算法在中文漢語(yǔ)自言語(yǔ)言處理,以及中文漢語(yǔ)文本分類中應(yīng)用較為成熟,所以本系統(tǒng)中將采用此方法作為文本分類以及情感傾向性分析技術(shù)的實(shí)現(xiàn)算法。3.3.2K近鄰算法公式如下:j=1,2在這里:“d”是待測(cè)的文本對(duì)象?!癲i”是指訓(xùn)練樣本。Sim(d,di)”是指“d”與“di”之間的相似度,當(dāng)訓(xùn)練樣本屬于此類,取值為“1”,否則取值“0”。由于受到分類效率方面因素的制約,近鄰算法并不適合用在那些要求分類速度較高的系統(tǒng)當(dāng)中。近鄰算法的核心思想是:第一步,通過(guò)計(jì)算,選擇出測(cè)試文本和訓(xùn)練文本的特征項(xiàng),產(chǎn)生特征向量;第二步,分別計(jì)算出測(cè)試文本特征項(xiàng)和訓(xùn)練文本特征項(xiàng),在進(jìn)行兩者間的相似度計(jì)算;第三步,選取相似度MAX的訓(xùn)練文本若干個(gè)K個(gè)。在這里,K選值范圍視具體環(huán)境而定。通常此值在幾十到幾千內(nèi)進(jìn)行選擇。在本系統(tǒng)將采用此方法進(jìn)行話題的追蹤實(shí)驗(yàn)的評(píng)價(jià)標(biāo)準(zhǔn)。結(jié)語(yǔ)當(dāng)前,計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展是日新月異,其應(yīng)用形式也是豐富多樣,公眾對(duì)于信息的獲取和社會(huì)事件的參與也逐漸從傳統(tǒng)媒體和行為轉(zhuǎn)換到網(wǎng)絡(luò)這一平臺(tái)?;ヂ?lián)網(wǎng)的爆炸式發(fā)展促使網(wǎng)絡(luò)成為社交生活中不可或缺的一部分,它是網(wǎng)民表達(dá)意見觀點(diǎn)的重要平臺(tái),其主要特點(diǎn)是信息傳播快。網(wǎng)民可以通過(guò)網(wǎng)絡(luò)來(lái)獲取信息、尋找資料、發(fā)表言論、評(píng)價(jià)他人的觀點(diǎn)、討論時(shí)事等等。而這樣一種變化,也就直接導(dǎo)致社會(huì)輿情更加容易在網(wǎng)絡(luò)上產(chǎn)生、爆發(fā)、傳播。而近年來(lái),論壇,搜索引擎,即時(shí)通訊,等信息傳播技術(shù)的革新和進(jìn)步,使得網(wǎng)絡(luò)內(nèi)容迅猛增長(zhǎng),網(wǎng)民的參與性得到不斷提高,網(wǎng)絡(luò)輿情是
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 化工吸收工誠(chéng)信道德水平考核試卷含答案
- 易貨師安全操作能力考核試卷含答案
- 照相器材維修工操作管理知識(shí)考核試卷含答案
- 整經(jīng)工操作評(píng)優(yōu)考核試卷含答案
- 紡粘針刺非織造布制作工成果知識(shí)考核試卷含答案
- 鑄管制芯工操作規(guī)范知識(shí)考核試卷含答案
- 2024年延津縣招教考試備考題庫(kù)附答案
- 2024年湖北商貿(mào)學(xué)院輔導(dǎo)員招聘?jìng)淇碱}庫(kù)附答案
- 鑄鐵機(jī)工風(fēng)險(xiǎn)評(píng)估與管理評(píng)優(yōu)考核試卷含答案
- 2025吉林省公務(wù)員考試數(shù)量關(guān)系專項(xiàng)練習(xí)題及參考答案
- 10kV小區(qū)供配電設(shè)計(jì)、采購(gòu)、施工EPC投標(biāo)技術(shù)方案技術(shù)標(biāo)
- 新人教版七年級(jí)上冊(cè)初中數(shù)學(xué)全冊(cè)教材習(xí)題課件
- 地下綜合管廊混凝土工程施工方案
- 2024-2025學(xué)年湖北省咸寧市高二生物學(xué)上冊(cè)期末達(dá)標(biāo)檢測(cè)試卷及答案
- 預(yù)制混凝土構(gòu)件質(zhì)量控制
- 2024高考英語(yǔ)應(yīng)用文寫作真題手把手:2023全國(guó)乙卷素材
- 抵制網(wǎng)絡(luò)爛梗主題班會(huì)課件不盲目跟風(fēng)做自己的主人
- 藝術(shù)導(dǎo)論(公共藝術(shù)通識(shí)課)第二版全套教學(xué)課件
- 企業(yè)盡職調(diào)查內(nèi)容提綱-中英文對(duì)照
- 部編語(yǔ)文三年級(jí)上課文重點(diǎn)總復(fù)習(xí)歸納課件
- 物料提升機(jī)保養(yǎng)記錄表
評(píng)論
0/150
提交評(píng)論