版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、文本挖掘過程與方法簡介,PPT模板下載: 行業(yè)PPT模板: 節(jié)日PPT模板: PPT素材下載: PPT背景圖片: PPT圖表下載: 優(yōu)秀PPT下載: PPT教程: Word教程: Excel教程: 資料下載: PPT課件下載: 范文下載: 試卷下載: 教案下載:,大數(shù)據(jù)分析技術,文本挖掘的一般方法,數(shù)據(jù)準備,01,數(shù)據(jù)獲取,網(wǎng)絡文本數(shù)據(jù)包括各大門戶網(wǎng)站的新聞、論壇的帖子、微博、博客等等。 爬取數(shù)據(jù)可以使用“火車頭”、“網(wǎng)絡神采”等工具。也可以使用java、python等的開源的爬蟲框架。自己編寫爬蟲的話,對于網(wǎng)頁解析可以用“正則表達式”或 Beautiful soup。,數(shù)據(jù)獲取常用兩個類庫,
2、Selenium一個用于Web應用程序測試的工具。直接運行在瀏覽器中的一款測試工具,和真正的用戶打開瀏覽網(wǎng)頁一樣。用selenium打開網(wǎng)頁后,使用beautiful soup解析加載頁面的內(nèi)容,其主要的功能特點能讓我們非常精確地獲取網(wǎng)頁數(shù)據(jù)。 Beautiful Soup 提供一些簡單的、python式的函數(shù)用來處理導航、搜索、修改分析樹等功能。它是一個工具箱,通過解析文檔為用戶提供需要抓取的數(shù)據(jù),因為簡單,所以不需要多少代碼就可以寫出一個完整的應用程序。 使用selenium模擬用戶點擊網(wǎng)頁,打開頁面后使用beautiful soup將其網(wǎng)頁內(nèi)容解析,獲取我們想要的數(shù)據(jù),將兩者結合,就能夠
3、將各個機構提供的數(shù)據(jù)從其網(wǎng)頁上抓取下來。,數(shù)據(jù)存取,對于數(shù)據(jù)量不是很大的話可以用json和csv格式來存儲,比較好處理,對于數(shù)據(jù)量很大的話就直接存入數(shù)據(jù)庫(如sqlserver)中。對于有些數(shù)據(jù)結構,存入非關系型數(shù)據(jù)庫比較好,常見的非關系型數(shù)據(jù)有MongoDB等,具體可以參考/。,示例爬取中國房地產(chǎn)信息網(wǎng)的數(shù)據(jù),使用python的scrapy框架爬取了中國房地產(chǎn)信息網(wǎng)的政策動向中的土地政策、金融政策、財稅政策、保障政策和中介政策。并以csv格式存取。,數(shù)據(jù)準備,01,分詞及詞性標注,02,03,文本相似度計算和主題提取,中文分詞及詞性標注,如果以
4、每條評論為單位來進行產(chǎn)品特征評論語句來分類容易產(chǎn)生混淆分詞之前需要對文本進行分句,可以用Python程序按照標點(或空格)分句。 中文分詞 (Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。 中文分詞是文本挖掘的基礎,對于輸入的一段中文,成功的進行中文分詞,可以達到電腦自動識別語句含義的效果。 所謂詞性標注就是根據(jù)句子的上下文信息給句中的每個詞確定一個最為合適的詞性標記。,中文分詞工具,中文分詞工具主要有MSRSeg、 Hylanda 、HIT、ICTCLAS等。 其中ICTCLAS是
5、中國科學院計算機研究所研制的。主要功能包括中文分詞、詞性標注、命名實體識別、新詞識別同時支持用戶詞典。是當前世界上最好的漢語詞法分析器。 另外,Python的jieba擴展包用于分詞也是非常好的工具。,去除停用詞,在進行了分詞和詞性標注之后,得到的數(shù)據(jù)對我們來說還是冗余的,一些介詞、量詞、助詞、標點符號等對文本研究無意義的詞,需要剔除,所以我們還需要對這些評論語料進行停用詞過濾和標點符號過濾。停用詞和標點符號的過濾我們采用根據(jù)停用詞表取出停用詞,再使用python編寫過濾程序。,分詞示例,原始文本,分詞后,詞性標注,數(shù)據(jù)準備,01,分詞及詞性標注,02,03,文本相似度計算和主題模型,文本相似
6、性計算,計算文本的相似度在工程中有著重要的應用,比如文本去重,搜索引擎網(wǎng)頁判重,論文的反抄襲,ACM競賽中反作弊,個性化推薦、社交網(wǎng)絡、廣告預測等等。,計算文本相似性的主要算法,計算文本相似度的算法有IF-IDF、基于向量空間的余弦算法、隱形語義標引(LSI/LSA)、主題模型LDA。,用于實現(xiàn)LSI、LDA模型的python軟件包gensim,Gensim是用來計算文檔相似性的python軟件包,使用非常簡單。,LDA模型的計算舉例,針對從中國房地產(chǎn)信息網(wǎng)爬取的數(shù)據(jù)進行主題提取,一共有8301篇文檔,提取10個主題,由于分詞后對于停用詞沒有去除,所以結果中有的詞不是很好,但進行相似性分析(取
7、第8篇文章與其余的進行相似性分析,并按相似性排序)時還是比較準的。,數(shù)據(jù)準備,01,分詞及詞性標注,02,03,文本相似度計算和主題模型,04,情感計算,情感極性判斷,情感極性的判斷主要分為兩類:第一類是利用情感詞典的方法,第二類是采用機器學習的方法。 情感詞典方法是通過建立情感詞典也叫情感語料庫,進行文本的情感計算。常用的情感語料庫有知網(wǎng)語料庫,大連理工大學的情感本體庫等 機器學習方法主要是通過已經(jīng)標注好的語料分為訓練集和測試集,采用支持向量機(SVM)、最大熵、KNN等分類器使用訓練預料進行訓練并用測試預料測試分類器的準確度。機器學習包很多,比如python的NLTK + scikit-learn就很好。,情感計算旨在賦予計算機觀察、理解和生成各種情感的能力,情感表達方式主要是文字、語音以及多模態(tài)數(shù)據(jù)。目前文本情感計算局限于褒貶二義的傾向性分析,方法以統(tǒng)計學習為主,缺乏情感語義資源的支撐和認知語言學的指導。我們研究目的旨在以多情感的語義資源為基礎,以認知語言學為指導,進行文本的情感識別和情感遷移的研究。并將其應用在意見挖掘、產(chǎn)品評論和輿情監(jiān)控等方面。,情感分析,利用情感分析技術和情感語義資源,面向互聯(lián)網(wǎng)海量的在線評論,主要針對產(chǎn)品、音樂、電影和博客等,分析產(chǎn)品的屬性評價,生成產(chǎn)品的評價摘要
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 搶救車使用試題及答案
- 甘肅省白銀市平川區(qū)2025-2026學年三年級上學期期末數(shù)學試題(含答案)
- 輔警的教育培訓課件
- 妊娠劇吐急診護理的病例分析
- 糖尿病足部護理創(chuàng)新模式
- 2026年深圳中考語文考前終極預測試卷(附答案可下載)
- 《GAT 16.86-2012道路交通管理信息代碼 第86部分:劇毒化學品公路運輸通行證通行區(qū)域代碼》專題研究報告
- 2026年深圳中考物理寒假提分特訓試卷(附答案可下載)
- 2026年大學大二(口腔修復學)口腔修復臨床技術測試題及答案
- 水電工施工技能培訓課件
- 2026四川省引大濟岷水資源開發(fā)限公司公開招聘易考易錯模擬試題(共500題)試卷后附參考答案
- 2025至2030中國汽車檢測行業(yè)市場深度研究與戰(zhàn)略咨詢分析報告
- 2026年南昌健康職業(yè)技術學院單招職業(yè)技能考試備考試題附答案詳解
- 2026年安徽糧食工程職業(yè)學院高職單招職業(yè)適應性考試備考試題及答案詳解
- 雨課堂學堂在線學堂云《中國電影經(jīng)典影片鑒賞(北京師范大學)》單元測試考核答案
- 四川水利安全b證考試試題及答案
- 2626《藥事管理與法規(guī)》國家開放大學期末考試題庫
- 核電站防地震應急方案
- 2025江西江新造船有限公司招聘70人模擬筆試試題及答案解析
- 重慶市豐都縣2025屆九年級上學期1月期末考試英語試卷(不含聽力原文及音頻答案不全)
- 2026年黨支部主題黨日活動方案
評論
0/150
提交評論