版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
網(wǎng)絡輿情信息的挖掘技術(shù)
0產(chǎn)品評論挖掘在競爭情報分析中的應用網(wǎng)絡改變了消費者表達自己意見的方式。例如,您可以在網(wǎng)站、論壇、討論組、自媒體和微博上表達自己對產(chǎn)品的看法。通過這種方式,我們可以在短時間內(nèi)獲得更多有意義的、可測量的信息情報資源。本文內(nèi)容即是采用產(chǎn)品評論挖掘技術(shù),利用網(wǎng)絡資源來幫助我們有效地獲得用戶使用產(chǎn)品后的反饋信息,以便企業(yè)或更多的用戶了解競爭產(chǎn)品優(yōu)勢,企業(yè)可對用戶的需求和產(chǎn)品的改進方向做出有效反應,用戶可針對自身需求尋找到適合自己的產(chǎn)品。在競爭對手或競爭企業(yè)的評論挖掘中,有如下研究。黃曉斌、周珍妮分析了觀點挖掘在競爭對手分析中的作用,并構(gòu)建了一個基于觀點挖掘的競爭對手分析模型,利用這個模型可以挖掘出哪些產(chǎn)品互為競爭對手。施國良、程楠楠將產(chǎn)品評論挖掘應用于企業(yè)競爭中,并從行業(yè)監(jiān)測、用戶研究、企業(yè)自身、競爭對手四個方面探討了產(chǎn)品評論挖掘在企業(yè)競爭情報中的具體應用。張玉峰、何超將網(wǎng)絡評論挖掘融入企業(yè)競爭情報分析中,構(gòu)建了基于網(wǎng)絡評論挖掘的動態(tài)競爭情報分析模型,并闡述了模型中各個模塊的主要功能及其實現(xiàn)策略。本文利用前人的研究成果,將產(chǎn)品評論挖掘技術(shù)應用于手機競爭產(chǎn)品領域。本文以蘋果、諾基亞公司的兩個競爭產(chǎn)品,即蘋果iPhone4手機與諾基亞N8手機作為研究對象。主要工作有三個:一是構(gòu)建了常用于手機評價的網(wǎng)絡用語詞典,二是構(gòu)建了用于手機用戶評論挖掘結(jié)果分類的正則表達式,三是根據(jù)挖掘結(jié)果量化的圖表,分析了iPhone4和N8的各項產(chǎn)品特征的優(yōu)勢以及需要改進的方向。1數(shù)據(jù)整理、挖掘本文研究過程大致可分為四大部分,網(wǎng)絡評論信息采集、數(shù)據(jù)預處理(包含四部分,即數(shù)據(jù)清理、分詞、詞性標注、刪除停用詞)、評論挖掘(包含四部分,即產(chǎn)品特征提取、評論觀點抽取、評論觀點的極性判斷、極性強度判斷)、挖掘結(jié)果匯總。研究路線如圖1所示。2挖掘過程和關鍵分析2.1數(shù)據(jù)預處理數(shù)據(jù)預處理包含四個部分,即數(shù)據(jù)清理、分詞、詞性標注、刪除停用詞等。2.1.1清理網(wǎng)絡產(chǎn)品評論信息網(wǎng)絡評論存在許多問題,比如網(wǎng)絡語言形式接近于口語,不斷出現(xiàn)的網(wǎng)絡新鮮詞匯等等,所以網(wǎng)絡產(chǎn)品評論信息的數(shù)據(jù)清理尤為重要。數(shù)據(jù)預處理需要刪除大量的無用信息、重復信息和非評論信息等,提取出用戶對產(chǎn)品特征有意義的觀點。2.1.2區(qū)分詞詞語是最小的能夠獨立使用的有意義的語言成分,分詞的好壞直接決定了計算機對文本語義分析的準確性。2.1.3評論語料的特征判斷詞性標注是產(chǎn)品評論挖掘的基礎,通過詞性標注,可以判斷評論語料是屬于特征詞、觀點詞,還是程度詞,從而幫助我們提取出產(chǎn)品特征和用戶評論觀點,并對用戶觀點的極性進行判斷。2.1.4刪除停用語評論語料中經(jīng)常存在很多出現(xiàn)頻率高,但是實際意義并不大的詞匯,如“的”、“在”、“了”、“呢”等等,稱之為停用詞。刪除停用詞會提高評論預料的分析效率和效果。對于中文的數(shù)據(jù)預處理過程,可以使用武漢大學ROST虛擬學習團隊發(fā)布的ROSTContentMining內(nèi)容挖掘系統(tǒng)和中國科學院計算機所研發(fā)的ICTCLAS中文分詞工具對評論進行初步的預處理。2.2評論總結(jié)過程評論挖掘部分共分為四個階段,即產(chǎn)品特征提取、評論觀點抽取、評論觀點的極性判斷、極性強度的確定。2.2.1件、部件屬性產(chǎn)品特征抽取的目的是,將用戶評價的產(chǎn)品特征提取出來,其產(chǎn)品特征包括產(chǎn)品的部件、部件的屬性或功能等。產(chǎn)品特征可分為顯式特征和隱式特征,對隱式特征的提取技術(shù)尚不成熟,故目前大部分產(chǎn)品特征提取都只考慮顯式特征。對競爭產(chǎn)品的特征抽取,需要考慮特征覆蓋了所有競爭產(chǎn)品,這樣,最后的分析才能從一點出發(fā),有所比較。2.2.2主觀詞匯的選取評論觀點抽取的目的是,將能夠反映用戶觀點的詞匯抽取出來,這些詞匯是對產(chǎn)品特征的觀點表達,經(jīng)常是帶有情感色彩的主觀詞匯,如“外觀有一定創(chuàng)新”,“創(chuàng)新”即是用戶對“外觀”的評論觀點。2.2.3測度的見表2:《參數(shù)》的極性強度評論觀點極性及強度判斷是指,確定用戶觀點的極性,如褒義、貶義或中性,以及用戶表達的情感程度的強弱。判斷評論觀點的極性,有兩種方法,即基于詞典的方法和基于語料的方法?;谠~典的方法需要建立一個情感極性詞典,以獲得一個詞的極性?;谡Z料的方法是在大量語料基礎上,分析詞之間的語法形式或共現(xiàn)形式來判斷詞的極性。用戶在評價產(chǎn)品時,不但表達的情感傾向性不同,而且表達的情感強度也是不同的。例如“電池不耐用”和“電池真的很不經(jīng)用啊,玩的狠點一天都堅持不到!”,這兩句評論同樣評價的是手機的電池問題,但是第二句評論明顯比第一句表達的情感重。為了說明產(chǎn)品之間、功能之間的差異性,通過量化用戶評論極性程度就可以很好的展現(xiàn)它們的差異性。極性強度的程度我們可以從兩種詞性進行討論。首先,形容詞本身具有極性程度。形容詞是產(chǎn)品評價中必定出現(xiàn)的詞性,其極性程度是有差別的。例如“完美的系統(tǒng)優(yōu)化和操作體驗”和“系統(tǒng)操作流暢”,這兩句評論評價的都是系統(tǒng)操作體驗問題,“完美”的情感強度明顯比“流暢”的情感強度強,“完美”不僅包括“流暢”這一種體驗,還包括“穩(wěn)定”、“開放”等。其次是程度副詞。程度副詞是指修飾形容詞的詞匯,例如“稍微”、“十分”、“極其”等,這些都是程度副詞,都表示了其修飾的形容詞的程度。藺璜和郭姝慧總結(jié)了程度副詞的特點及分類,如表1所示。極性強度的確定,可以使用詞頻逆向文檔頻率(termfrequency-inversedocumentfrequency,TF-IDF)進行計算。詞頻逆向文檔頻率是一種用于資訊檢索和文本挖掘的常用加權(quán)技術(shù)。其主要思想是,如果某一詞匯在一篇評論中出現(xiàn)的頻率很多,而在所有語料中出現(xiàn)的次數(shù)很少,則認為這一詞匯具有很好的類別區(qū)分能力,具有較大的重要性。詞頻逆向文檔頻率(TF-IDF)實際上是由詞頻(TermFrequency,TF)和反文檔頻率(InverseDocumentFrequency,IDF)組成的。詞頻(TF)是指,某一個已知詞匯在該評論中出現(xiàn)的頻率。對于在某一特定評論中的詞匯ti來說,它的重要性可表示為:tfij=nij∑knkjtfij=nij∑knkj以上式子中分子nij是詞匯ti在評論dj中的出現(xiàn)次數(shù),而分母則是在評論dj中所有詞匯出現(xiàn)次數(shù)之和。逆向文檔頻率(IDF)是指,一個詞匯的普遍重要性度量。某一特定詞匯ti的逆向文檔頻率idfi,可以由總文檔數(shù)目N除以包含該詞匯的文檔數(shù)目{j:ti∈dj},再將得到的商取對數(shù),得到:idfi=logN{j:ti∈dj}idfi=logΝ{j:ti∈dj}其中,{j:ti∈dj}為包含詞匯ti的文檔數(shù)目(即nij≠0的文檔數(shù)目),如果該詞匯不在語料庫中,就會導致被除數(shù)為零,因此一般情況下使用1+{j:ti∈dj}。最后,詞頻逆向文檔頻率的權(quán)值為:tf-idfij=tfij×idfi2.3綜合總結(jié)評論挖掘結(jié)果匯總是指,利用統(tǒng)計數(shù)學、圖表等形式對挖掘結(jié)果進行直觀地顯示。2.3.1生成文本文件利用RegexBuddy軟件,按照正則表達式規(guī)則,可以將語料按照產(chǎn)品特征及其褒貶傾向性進行分類,并自動生成文本文件。正則表達式是指,在編寫處理字符程序或網(wǎng)頁時,用來描述符合某些較為復雜規(guī)則的字符串的工具,即記錄文本規(guī)則的代碼。正則表達式常用的字符如表2所示。量化用戶觀點極性原理是,按照詞頻逆向文檔頻率的方法確定詞的極性強度,再將同一產(chǎn)品特征的句子的得分相加,最后得出平均值,將此結(jié)果利用圖表形式顯示。2.3.2否定比較詞t利用正則表達式對標注好的評論語料進行匹配,就要了解評論語料的句子形式。通常,中文句式按照結(jié)構(gòu)劃分可分為簡單句和復雜句。簡單句一般是由“主語+謂語”為基本形式,賓語、表語、定語、狀語及補語作為補充。復雜句是由兩個或兩個以上的簡單句組成,因而可以直接分析簡單句。網(wǎng)絡用戶評價中,肯定句、否定句和比較句是比較常用的句式。肯定句是對事物做出肯定判斷的句子??隙ň涫奖容^簡單,通常是以“主語+謂語”或“主語+系動詞+表語”形式出現(xiàn),而網(wǎng)絡中經(jīng)常出現(xiàn)缺省情況,如“給力的屏幕,豐富的軟件……”,這種情況下就要按照“褒義詞+產(chǎn)品特征”處理。通常,否定句的表現(xiàn)形式為帶否定詞的句子。否定詞在句中是非常重要的,它的運用使句子的語義呈現(xiàn)相反的意思。否定詞在句子中有兩種表現(xiàn)形式,第一種是修飾形容詞的,如“好-不好”、“強大-不強大”,其等同于帶有“不”的極性詞;另一種是在句中修飾動詞的,如“軟件不是很人性化”,其否定的對象是謂語“人性化”。否定詞表如表3所示。一般情況下,帶否定詞的句子觀點極性,可以總結(jié)為:“否定詞+褒義觀點詞=貶義態(tài)度”、“否定詞+貶義觀點詞=褒義態(tài)度”。對于比較句,在產(chǎn)品評論中,尤其是對競爭產(chǎn)品進行評價時,比較句是經(jīng)常出現(xiàn)的句式。其根據(jù)句式結(jié)構(gòu)的不同,會出現(xiàn)不同的觀點極性。比如下面一條關于蘋果iPhone4的手機評論:“電池雖然容量不高,但是比安卓的電池耐用很多?!边@條評論對iPhone4手機和安卓手機的電池進行了比較,如果根據(jù)“否定詞+褒義觀點詞=貶義態(tài)度”這樣的規(guī)則進行判斷,那么就會對用戶的態(tài)度進行誤判。黃鑫根據(jù)劉穎和車競的研究,總結(jié)了句子的比較類型,將比較詞分成了肯定比較詞和否定比較詞,當使用肯定比較詞時表示對“比較主體+觀點詞”成肯定關系,否定比較詞則表示對“比較主體+觀點詞”成否定關系。比較詞分類如表4所示。而對于比較主客體和比較詞、觀點詞極性的關系,對結(jié)果的影響可以從表5得出:3實驗與結(jié)果分析3.1蘋果android4信息的采集兩種手機的產(chǎn)品評論信息全部來自中關村在線網(wǎng)站,采集時間截止到2012年7月22日19點18分,共采集到253條關于蘋果iPhone4的信息,388條關于諾基亞N8的信息,數(shù)據(jù)包括發(fā)布時間及評論內(nèi)容等。據(jù)此得到的信息,分別構(gòu)建了產(chǎn)品評論語料庫,即iPhone4評論語料庫及N8評論語料庫。3.2對于基準n8經(jīng)過數(shù)據(jù)清理后,共計有228條關于蘋果iPhone4的信息,362條關于諾基亞N8的信息。利用ICTCLAS中文分詞工具和ROSTContentMining內(nèi)容挖掘系統(tǒng)進行分詞、詞性標注、刪除停用詞之后,可進入挖掘關鍵步驟。3.3發(fā)表評論并加以挖掘3.3.1產(chǎn)品特征集合本文將從兩方面提取產(chǎn)品特征。首先,提取產(chǎn)品固有屬性,這部分特征由產(chǎn)品規(guī)格說明書中提取。手機產(chǎn)品特征詞匯集合為F1={報價,外觀,屏幕,操作系統(tǒng),CPU,內(nèi)存,電池,輸入,拍照,視頻,音頻,應用程序,網(wǎng)絡,數(shù)據(jù)接口,附件}其次,挖掘用戶網(wǎng)絡評論特征,這部分由網(wǎng)絡用戶評論中提取。對蘋果iPhone4及諾基亞N8手機評論進行詞頻統(tǒng)計,根據(jù)詞頻出現(xiàn)頻率,我們可以得到詞頻大于10的且能夠反映出產(chǎn)品特征詞匯的名詞集合F2iPhone4={屏幕,軟件,游戲,電池,價格,信號,外觀,系統(tǒng),應用,程序,上網(wǎng),分辨率,做工,手感,設計,拍照,視頻,處理器,攝像頭,內(nèi)存,音樂,音質(zhì),攝像,外形,鈴聲,色彩,輸入,界面,畫面,輸入法,電影,價錢,相機,閃光燈,耳機,服務,價位},F2N8={電池,系統(tǒng),軟件,屏幕,游戲,價格,拍照,外觀,照相,分辨率,攝像頭,視頻,相機,上網(wǎng),內(nèi)存,音樂,手感,閃關燈,鏡頭,輸出,信號,設計,音質(zhì),外形,耳機,攝像,應用,程序,做工,處理器,價位,界面,音效,拍攝,外殼,操作系統(tǒng),電影,容量,導航,聲音,接口,鍵盤,顏色,照相機,材質(zhì),網(wǎng)頁,桌面,觸摸屏,色彩,價錢,網(wǎng)絡,瀏覽器,造型,畫面,地圖}最終的產(chǎn)品特征集合為F=F1∪F2iPhone4∪F2N8,合并和擴展同義特征詞,如價格={報價、價錢、價位、價格}等,如表6所示。最后得到產(chǎn)品特征集合為F={價格,外觀,屏幕,操作系統(tǒng),處理器,內(nèi)存,電池,輸入,拍照,視頻,音頻,應用程序,網(wǎng)絡,數(shù)據(jù)接口,附件,服務}3.3.2用戶評論觀點集合構(gòu)建與產(chǎn)品特征抽取相似,根據(jù)“蘋果iPhone4及諾基亞N8手機評論”詞頻統(tǒng)計文檔詞頻出現(xiàn)的頻率,我們可以得到能夠反映出用戶觀點的詞匯,構(gòu)成評論觀點集合。3.3.3評論語料庫的構(gòu)建本文采用基于詞典的方法對評論觀點進行極性判斷。根據(jù)本文所涉領域和網(wǎng)絡用語語言形式的特殊化,本文構(gòu)建了常用于手機評價的網(wǎng)絡用語詞典。首先,從中關村在線網(wǎng)站上抽取關于手機的2836條評論(不包含iPhone4及N8的評論),構(gòu)成評論語料庫,根據(jù)詞頻總結(jié)了214個常用于手機評價的網(wǎng)絡詞匯,其中褒義詞131個,貶義詞83個。其次,使用2007年發(fā)布的《知網(wǎng)》情感分析用詞語集(beta版),將214個常用詞匯根據(jù)詞匯語義相似度計算拓展為包含2846個詞匯的詞典,其中褒義詞1921個,貶義詞925個。將極性詞典中的褒義詞用“/PRO”標注,貶義詞以“/CON”標注。評論語料中評論觀點詞匯褒貶極性的詞性標注可以利用中國科學院計算機所研發(fā)的ICTCLAS中文分詞工具進行標注,這樣,評論語料中的觀點詞將按照詞典中的形式進行標注。本文使用詞頻逆向文檔頻率對評論觀點的極性強度進行計算。3.4兩種手機的特性對比分析本文根據(jù)上文的句式分析內(nèi)容,以“屏幕”為例,定義的幾種正則表達式如表7所示:可將“屏幕”等產(chǎn)品特征詞語進行替換,這樣就可以得到盡量多且準確的句式。按照“產(chǎn)品特征+褒義/貶義”的方法,以iPhone4的“屏幕”這一產(chǎn)品特征為例,顯示如表8所示:量化用戶觀點極性強度后,iPhone4和N8的產(chǎn)品特征及其指數(shù)如圖2、圖3、圖4所示。從圖2~圖4中,我們可以得到iPhone4和N8各產(chǎn)品特征的褒貶義傾向,和它們共同的褒貶義傾向特性。iPhone4褒義:外觀、屏幕、操作系統(tǒng)、處理器、拍照、視頻、應用程序;iPhone4貶義:價格、內(nèi)存、電池、輸入、音頻、網(wǎng)絡、數(shù)據(jù)接口、附件、服務;N8褒義:外觀、屏幕、操作系統(tǒng)、輸入、拍照、視頻、音頻、數(shù)據(jù)接口、附件;N8貶義:價格、處理器、內(nèi)存、電池、應用程序、網(wǎng)絡、服務。在外觀、屏幕、操作系統(tǒng)、拍照、視頻上,兩種手機都得到更多的褒義評價;在價格、內(nèi)存、電池、網(wǎng)絡、服務上,它們都得到更多的貶義評價。因兩種手機用戶觀點數(shù)量不同,所以將用戶發(fā)表的兩種手機各特征的觀點極性強度取均值,作對比分析,得到的圖表如圖5示。從以上對比圖中,我們可以得到兩產(chǎn)品的評價兩極性,兩極性差別大,即某產(chǎn)品在某個特征上的褒義得分大,但貶義得分小,那么該產(chǎn)品的該特征具有非常大的評價差異性,這就需要針對這一產(chǎn)品特征,進一步的分析予以確定。例如進行用戶年齡、性別、文化程度、月收入等方面的調(diào)研,予以確定不同的人群對該產(chǎn)品特征的不同需求。在屏幕、內(nèi)存、電池、拍照、音頻、應用程序六個方面,對iPhone4的評價兩極性相比N8更大;在附件和服務上,N8的兩極性差別更大。將兩種手機的各特征的觀點極性強度均值進行褒貶義得分互抵,得到的得分如圖6示。由圖中我們可以得到,兩產(chǎn)品相比之下,某產(chǎn)品的優(yōu)勢在哪些方面,即得分高的為產(chǎn)品特征優(yōu)勢。也可以結(jié)合圖4利用以下公式,得出該產(chǎn)品的最大亮點,及急需改善的特征:最大亮點產(chǎn)品X=褒義特征產(chǎn)品X∩優(yōu)勢特征產(chǎn)品X急需改
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年企業(yè)員工離職與退休手續(xù)
- 文化娛樂行業(yè)設施安全管理規(guī)范
- 電力系統(tǒng)維護與檢修規(guī)范(標準版)
- 城市交通管理處罰制度
- 城市道路施工檔案管理制度
- 采購管理制度
- 辦公室網(wǎng)絡資源使用規(guī)范制度
- 養(yǎng)老院員工培訓及考核制度
- 2026年雄安科技產(chǎn)業(yè)園開發(fā)管理有限公司招聘備考題庫帶答案詳解
- 2026年永仁縣教育系統(tǒng)公開遴選校醫(yī)的備考題庫及答案詳解參考
- 2026年度醫(yī)保制度考試真題卷及答案
- 2026年1月浙江省高考(首考)英語試題(含答案)+聽力音頻+聽力材料
- 2026年貨物運輸合同標準模板
- 廣西壯族自治區(qū)南寧市2025-2026學年七年級上學期期末語文綜合試題
- 2024VADOD臨床實踐指南:耳鳴的管理解讀課件
- 2026年湖南鐵路科技職業(yè)技術(shù)學院單招職業(yè)適應性測試題庫及參考答案詳解一套
- 第一單元寫作:考慮目的和對象 教學課件
- (人教A版)高二數(shù)學下學期期末考點復習訓練專題05 導數(shù)的計算與復合函數(shù)導數(shù)的計算(重難點突破+課時訓練)(原卷版)
- 開放大學(電大)《農(nóng)村社會學》期末試題
- 2025年70歲老人考駕照三力測試題及答案
- 2023-2024學年六年級上學期南沙區(qū)數(shù)學期末考試試題(含答案)
評論
0/150
提交評論