版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
全國高校標準教材《云計算》姊妹篇,剖析大數(shù)據(jù)核心技術和實戰(zhàn)應用大數(shù)據(jù)劉鵬主編張燕張重生張志立副主編BIGDATA教授,清華大學博士?,F(xiàn)任南京大數(shù)據(jù)研究院院長、中國信息協(xié)會大數(shù)據(jù)分會副會長、中國大數(shù)據(jù)技術與應用聯(lián)盟副理事長。主持完成科研項目25項,發(fā)表論文80余篇,出版專業(yè)書籍15本。獲部級科技進步二等獎4項、三等獎4項。主編的《云計算》被全國高校普遍采用,被引用量排名中國計算機圖書第一名。創(chuàng)辦了知名的中國云計算()和中國大數(shù)據(jù)()網(wǎng)站。曾率隊奪得2002PennySort國際計算機排序比賽冠軍,兩次奪得全國高??萍急荣愖罡擢?,并三次奪得清華大學科技比賽最高獎。榮獲“全軍十大學習成才標兵”(排名第一)、南京“十大杰出青年”、江蘇省中青年科學技術帶頭人、清華大學“學術新秀”等稱號。劉鵬第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.1互聯(lián)網(wǎng)信息抓取8.2文本分詞8.3倒排索引8.4網(wǎng)頁排序算法全國高校標準教材《云計算》姊妹篇,剖析大數(shù)據(jù)核心技術和實戰(zhàn)應用of4138.5歷史信息檢索習題8.1互聯(lián)網(wǎng)信息抓取第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.1.1概述of414互聯(lián)網(wǎng)信息自動抓取,最常見且有效的方式是使用網(wǎng)絡爬蟲。爬蟲可以被分為兩類:一類叫作“通用爬蟲”;另一類叫作“聚焦爬蟲”。目前成熟的網(wǎng)絡爬蟲有很多,其中不乏Googlebot、百度蜘蛛這樣的廣分布式多服務器多線程的商業(yè)爬蟲和GNUWget、ApacheNutch這樣的靈活方便的開源爬蟲搜索引擎。8.1互聯(lián)網(wǎng)信息抓取第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.1.1概述of415目前成熟的網(wǎng)絡爬蟲有很多,其中不乏Googlebot、百度蜘蛛這樣的廣分布式多服務器多線程的商業(yè)爬蟲和GNUWget、ApacheNutch這樣的靈活方便的開源爬蟲(爬蟲搜索引擎)。百度蜘蛛對某網(wǎng)站的抓取頻率8.1互聯(lián)網(wǎng)信息抓取第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.1.2Nutch爬蟲of416Nutch爬蟲的部署與使用Nutch版本的選擇NO.1Nutch工作環(huán)境NO.2NO.3Nutch的安裝與配置NO.4Nutch的簡單使用8.1互聯(lián)網(wǎng)信息抓取第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理of417Nutch1.x是基于Hadoop集成環(huán)境的,Nucth的數(shù)據(jù)是存儲在HDFS上的。Nutch2.x是基于ApachGora的,Nutch可以訪問HBase、Cassandra、MySQL等,所以,在編譯Nutch之前,需要先安裝HBase,另外Nutch的編譯需要ant命令,所以,在編譯Nutch之前還要安裝Ant。Nutch版本的選擇8.1.2Nutch爬蟲8.1互聯(lián)網(wǎng)信息抓取第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理of418Nutch工作環(huán)境:(1)Nutch僅支持在Linux系統(tǒng)下使用,本書使用的是Ubuntu14.04.3LTS,若要在Windows下使用Nutch,需要安裝模擬Linux操作系統(tǒng)的軟件Cygwin。(2)JDK:本書使用的是jdk-8u51-linux-x64.tar.gz。(3)HBase:可從網(wǎng)上下載最新版。(4)Ant:本書使用的是apache-ant-1.9.6-bin.tar.gz。(5)Nutch-2.2.1:可在Nutch官方網(wǎng)站下載最新版本的Nutch。(6)Tomcat:本書使用的是apache-tomcat-8.0.24.tar.gz。8.1.2Nutch爬蟲8.1互聯(lián)網(wǎng)信息抓取第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理of419JDK的安裝與配置下載并解壓HBaseAnt的安裝與配置Nutch的安裝與配置將Nutch和Solr集成在一起Nutch的安裝與配置應該包括下面5個部分:8.1.2Nutch爬蟲8.1互聯(lián)網(wǎng)信息抓取第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理of4110一站式抓取進入apache-nutch-2.2.1/runtime/local目錄查看一站式抓取命令。分布式抓取可以分為2步:Nutch數(shù)據(jù)文件夾組成和生成抓取列表。Nutch的簡單使用8.1.2Nutch爬蟲8.1互聯(lián)網(wǎng)信息抓取第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.1.3案例:招聘網(wǎng)站信息抓取of4111考慮如下場景:現(xiàn)在需要通過調(diào)查全國所有公司的規(guī)模和分布情況,來評估每個省份的經(jīng)濟實力。我們要做的第一步就是數(shù)據(jù)的收集工作。可以通過編寫爬蟲程序,自動進行數(shù)據(jù)收集工作,特別是從招聘網(wǎng)站上的公司介紹頁面獲取數(shù)據(jù)。Nutch查詢界面8.1互聯(lián)網(wǎng)信息抓取第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理of41121.采用聚焦爬蟲2.生成“種子”3.依次打開每一個URL,得到頁面HTML4.對HTML進行解析,提取需要的信息5.使用多線程使用Python實現(xiàn)簡單的聚焦爬蟲來完成這項任務8.1.3案例:招聘網(wǎng)站信息抓取8.1互聯(lián)網(wǎng)信息抓取第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.1.4案例:輿情信息匯聚of4113通常情況下,網(wǎng)絡輿情監(jiān)控系統(tǒng)由采集層(輿情采集模塊)、分析層和呈現(xiàn)層(分析瀏覽模塊)實現(xiàn)。可通過網(wǎng)絡信息自動抓取等技術手段,便捷、高效地獲取與自己相關的網(wǎng)絡輿情,不僅信息保真,而且覆蓋全面。通過網(wǎng)絡輿情監(jiān)控系統(tǒng)最終形成專題簡報、專題追蹤、輿情簡報等,為全面掌握網(wǎng)絡輿情動態(tài),正確引導輿情動向,提供了可靠、有力的數(shù)據(jù)分析依據(jù)。輿情監(jiān)控系統(tǒng)架構(gòu)8.1互聯(lián)網(wǎng)信息抓取第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理of4114抓取河南大學新聞網(wǎng)新聞主題河南大學新聞網(wǎng)頁關鍵信息提取河南大學新聞網(wǎng)頁關鍵字檢索8.1.4案例:輿情信息匯聚第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.1互聯(lián)網(wǎng)信息抓取8.2文本分詞8.3倒排索引8.4網(wǎng)頁排序算法全國高校標準教材《云計算》姊妹篇,剖析大數(shù)據(jù)核心技術和實戰(zhàn)應用of41158.5歷史信息檢索習題8.2文本分詞第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.2.1概述of4116文本分詞是將字符串文本劃分為有意義的單位的過程,如詞語、句子或主題。中文分詞也叫作切分,是將中文文本分割成若干個獨立、有意義的基本單位的過程。定義分詞算法基本的工作原理是根據(jù)輸入的字符串文本進行分詞處理、過濾處理,輸出分詞后的結(jié)果,包括英文單詞、中文單詞及數(shù)字串等一系列切分好的字符串。分詞原理圖8.2文本分詞第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理of4117123基于字符串匹配的分詞方法它是將待處理的中文字符串與一個“盡可能全面”的詞典中的詞條按照一定的規(guī)則進行匹配,若某字符串存在于詞典中,則認為該字符串匹配成功。基于統(tǒng)計的分詞方法由于詞是特定的字組合方式,那么在上下文中,相鄰的單字共同出現(xiàn)的頻率越高,則在該種字組合方式下就越有可能是構(gòu)成了一個詞。基于理解的分詞方法該方法通過語義信息和語句信息來解決歧義分詞問題,并且在分詞的同時進行語義和句法分析。現(xiàn)有的中文分詞算法可以分為以下3類:8.2.1概述8.2文本分詞第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理of4118分詞方法基于字符串基于理解基于統(tǒng)計歧義識別差強強新詞識別差強強詞庫需要不需要不需要語料庫不需要不需要需要規(guī)則庫不需要需要不需要算法復雜性容易很難一般技術成熟度成熟不成熟成熟實施難度容易很難一般分詞準確度一般準確較準分詞速度快慢一般各種分詞方法的優(yōu)劣對比表8.2.1概述8.2文本分詞第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.2.2MMSEG分詞工具of4119取最大匹配的Chunk取平均詞長最大的Chunk取詞長標準差最小的Chunk取單字詞自由語素度之和最大的ChunkMMSEG分詞算法中有兩個重要的概念:Chunk和規(guī)則(Rule)。其中,一個Chunk就是一段字符串文本的一種分割方式,包括根據(jù)上下文分出的一組詞及各個詞對應的4個屬性。規(guī)則的目的是過濾掉不符合特定要求的Chunk。為便于理解,我們可以將規(guī)則看做過濾器。MMSEG分詞算法中包含了4種符合漢語語言中基本的成詞習慣的歧義消解規(guī)則。8.2文本分詞第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理of4120屬性含義長度(Length)Chunk中各個詞的長度之和平均長度(AverageLength)長度/詞數(shù)標準差的平方(Variance)標準差的平方自由語素度(DegreeofMorphemicFreedom)各單字詞詞頻的對數(shù)之和Chunk中各屬性及其含義8.2.2MMSEG分詞工具8.2文本分詞第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.2.3斯坦福NLTK分詞工具of4121有些文本的形成和變化過程與時間是緊密相關的,因此,如何將動態(tài)變化的文本中時間相關的模式與規(guī)律進行可視化展示,是文本可視化的重要內(nèi)容。引入時間軸是一類主要方法,常見的技術以河流圖居多。河流圖按照其展示的內(nèi)容可以劃分為主題河流圖、文本河流圖及事件河流圖等。第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.1互聯(lián)網(wǎng)信息抓取8.2文本分詞8.3倒排索引8.4網(wǎng)頁排序算法全國高校標準教材《云計算》姊妹篇,剖析大數(shù)據(jù)核心技術和實戰(zhàn)應用of41228.5歷史信息檢索習題8.3倒排索引第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.3.1倒排索引原理of4123出現(xiàn)次數(shù)文檔1文檔2文檔3文檔4詞語141詞語234詞語331詞語439如果使用一個矩陣來描述詞語和文檔之間的關系,不難得出如下“矩陣”。其中,每一列代表一個文檔,每一行代表一個詞語,每一個單元格代表“此文檔中出現(xiàn)此詞語的次數(shù)”。矩陣中的第一列說明“在文檔1中,詞語1出現(xiàn)了4次、詞語2和詞語3均出現(xiàn)了3次,并且文檔1中不再有其他詞語出現(xiàn)”。同理,矩陣中的第一行則說明“詞語1在文檔1中出現(xiàn)在4次,在文檔4中出現(xiàn)1次,在其他文檔中不出現(xiàn)”。其他行列同理。詞語和文檔的關系8.3倒排索引第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理of4124倒排索引可以使用這樣一個Map來實現(xiàn):每一個詞語都是Map中的一個鍵(Key),這個鍵對應的Value是一個集合,里面保存著包含這個詞語的文檔的編號。存儲形式為:Map<Stringkey,Set<Struct<DocID>value>>。同理,如果要在倒排索引中加入更多信息,可以在Value中增加記錄項目。倒排索引的數(shù)據(jù)結(jié)構(gòu)8.3.1倒排索引原理倒排索引使用的數(shù)據(jù)結(jié)構(gòu)可以在倒排索引的Value項里增加信息8.3倒排索引第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理of4125倒排索引的建立實例假設現(xiàn)在有兩篇文檔,每篇文檔的內(nèi)容如下:文檔內(nèi)容文檔1Thequickbrownfoxjumpedoverthelazydog.文檔2Quickbrownfoxesleapoverlazydogsinsummer.其建立實例的步驟如下:2.去除無關詞語1.文章本分詞3.詞語歸一化4.建立詞語-文檔矩陣5.建立到排索引8.3.1倒排索引原理8.3倒排索引第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理of4126倒排索引的更新策略01先進行“文檔暫存”,待文檔暫存區(qū)達到一定數(shù)量后,對所有文檔重新建立索引。完全重建策略02新文檔會立即被解析,解析結(jié)果會進行“索引暫存”,待索引暫存區(qū)達到一定數(shù)量后,再將新舊索引合并。再合并策略04其思想是混合地使用上述幾種策略,取長補短,以達到最好的性能?;旌喜呗?3新文檔立刻被解析,解析結(jié)果立刻被加入舊索引中。原地更新策略8.3.1倒排索引原理8.3倒排索引第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.3.2倒排索引實現(xiàn)of41272遍歷讀取文件所有的文件都存放在文件夾中,首先要把這些文件讀取出來,才能進行后續(xù)處理。3對單個文件進行處理包括文本分詞、去除無關詞語、詞語歸一化和建立單個文件的信息統(tǒng)計表。5查詢處理轉(zhuǎn)變“詞語-出現(xiàn)次數(shù)”統(tǒng)計表為“詞語-文件-出現(xiàn)次數(shù)”倒排表。1任務概述要求對文件建立倒排索引,使之能夠被方便地查詢。4將單個文件信息和總體的倒排表進行合并通過Key查找到對應的Value即可。第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.1互聯(lián)網(wǎng)信息抓取8.2文本分詞8.3倒排索引8.4網(wǎng)頁排序算法全國高校標準教材《云計算》姊妹篇,剖析大數(shù)據(jù)核心技術和實戰(zhàn)應用of41288.5歷史信息檢索習題8.4網(wǎng)頁排序算法第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.4.1概述of41291234
基于訪問量的排序算法
基于鏈接分析的排序算法基于詞頻統(tǒng)計和詞語位置加權的排序算法基于智能化的排序算法網(wǎng)頁排序可分為4種算法大致可分為4種:8.4網(wǎng)頁排序算法第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.4.2TD-IDF算法of4130TF-IDF是一種統(tǒng)計方法,不僅可以用于評估一個詞語對于語料庫中某一份文檔的重要程度,還可以對搜索結(jié)果進行排序,使“重要的”和“貼合搜索關鍵詞的”網(wǎng)頁排在前面?;赥F-IDF的網(wǎng)頁評分系統(tǒng)在搜索引擎中被廣泛使用。TF的計算公式很多,最簡單的形式為:逆文檔頻率的計算公式也有許多,最簡單的形式如下:除了最簡單的形式外,下面這種形式的計算公式也經(jīng)常被使用:8.4網(wǎng)頁排序算法第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.4.3BM25算法of4131BM25算法是一種基于統(tǒng)計方法的排序算法,是二元獨立模型的擴展,或者看作是TF-IDF算法的變形。此算法也是一種有效的相關性評分手段,被搜索引擎廣泛使用。給出查詢關鍵詞A,則語料庫中某篇文檔B的BM25分數(shù)定義如下:在這里,IDF是逆文檔頻率,f是“詞語A在文章B中出現(xiàn)的頻率”。
當取IDF=1、k1=2、b=0.75、k2=200時,BM25公式的曲線8.4網(wǎng)頁排序算法第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.4.3BM25算法of4132使用BM25算法來對查詢到的網(wǎng)頁進行評分,其關鍵代碼如下:classBM25:def__init__(self,referance):self.referance=referanceself.k1=2self.k2=referance.wordCount/referance.fileCountself.b=0.75defgetRank(self,word,result):forfilenameinresult.keys():f=self.referance.invertedTable[word][filename]idf=math.log(self.referance.fileCount/len(self.referance.invertedTable[word]))result[filename]=(idf*f*(self.k1+1))/(f+self.k1*(1-self.b+self.b*self.k2))returnresult8.4網(wǎng)頁排序算法第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.4.4PageRank算法of4133PageRank算法的核心思想是讓頁面之間通過超鏈接來進行“投票”:頁面A上有一個指向頁面H的超鏈接,就相當于頁面A給頁面H“投了一票”;一個網(wǎng)頁被越多網(wǎng)頁鏈接到,那么這個網(wǎng)頁就越受大家信賴,此網(wǎng)頁越重要,PageRank值越高;一個很重要、PageRank值很高的網(wǎng)頁(如網(wǎng)頁B)鏈接到了其他網(wǎng)頁,那么這些網(wǎng)頁的PageRank值也會因此提高。PageRank算法核心思想第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.1互聯(lián)網(wǎng)信息抓取8.2文本分詞8.3倒排索引8.4網(wǎng)頁排序算法全國高校標準教材《云計算》姊妹篇,剖析大數(shù)據(jù)核心技術和實戰(zhàn)應用of41348.5歷史信息檢索習題8.5歷史信息檢索第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.5.1系統(tǒng)架構(gòu)of4135面向歷史領域的智能信息檢索引擎,從互聯(lián)網(wǎng)上抓取重大歷史事件的網(wǎng)站內(nèi)容,經(jīng)過數(shù)據(jù)匯聚和整合從而在數(shù)據(jù)庫中建立專門的數(shù)據(jù)庫。通過在數(shù)據(jù)庫中檢索與用戶查詢條件匹配的相關記錄,然后將查詢結(jié)果進行優(yōu)化,并按照一定的排序方式將最終結(jié)果返回給用戶。全文檢索系統(tǒng)架構(gòu)圖如下所示。面向歷史領域的智能信息檢索引擎的系統(tǒng)架構(gòu)8.5歷史信息檢索第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.5.2數(shù)據(jù)抓取與整合of4136提供內(nèi)容輸入的界面,由歷史學家或愛好者手動錄入歷史事件。手動錄入通過自然語言處理、機器學習和人工標注相結(jié)合的方法自動抽取歷史事件的關鍵要素。半自動采集收錄用戶推薦的重要歷史網(wǎng)站和系統(tǒng)自動抓取的歷史相關的網(wǎng)頁。面向歷史領域的非結(jié)構(gòu)化互聯(lián)網(wǎng)數(shù)據(jù)抓取3種數(shù)據(jù)采集方式8.5歷史信息檢索第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.5.3查詢引擎of4137在歷史信息檢索中,為了讓用戶體驗盡量達到最好,每個搜索字段之間要保邏輯持“與”的關系。相同字段之間搜索不同內(nèi)容的時候也要保持邏輯“與”的關系。歷史信息檢索系統(tǒng)使用Java語言開發(fā),為使代碼保持較強的可讀性和邏輯性,該系統(tǒng)使用Hibernate開源框架進行數(shù)據(jù)持久化操作。8.5歷史信息檢索第八章互聯(lián)網(wǎng)大數(shù)據(jù)處理8.5.4運行效果of4138靜態(tài)單字段查詢界面靜態(tài)單字段查詢結(jié)果8.5歷史信息檢索第八章互聯(lián)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國21世紀議程管理中心2026年度面向社會公開招聘工作人員的備考題庫及完整答案詳解一套
- 2026年浦城縣醫(yī)療單位醫(yī)療類儲備人才引進備考題庫附答案詳解
- 2025年企業(yè)企業(yè)品牌推廣與消費者洞察指南
- 2025年公共安全事件應急處置預案指南
- 中學教師數(shù)字素養(yǎng)培養(yǎng)的區(qū)域協(xié)作培訓模式優(yōu)化與評估教學研究課題報告
- 高中生運用電感耦合等離子體質(zhì)譜法測定土壤中鉈元素含量的課題報告教學研究課題報告
- 初中英語寫作中最高級誤用類型與診斷干預策略課題報告教學研究課題報告
- 小學科學教育中科學實踐活動對學生科學態(tài)度的促進作用研究教學研究課題報告
- 基于語音識別技術的智能語言學習平臺開發(fā)課題報告教學研究課題報告
- 醫(yī)療美容服務合同及風險免責條款書
- 化工廠班組安全培訓課件
- 土石方土方運輸方案設計
- 2025年壓力容器作業(yè)證理論全國考試題庫(含答案)
- 2025四川成都農(nóng)商銀行招聘10人筆試備考題庫及答案解析
- 中職第一學年(會計)會計基礎2026年階段測試題及答案
- 室外長廊合同范本
- 2025年秋蘇教版(新教材)初中生物八年級上冊期末知識點復習卷及答案(共三套)
- 2025年小升初學校家長面試題庫及答案
- 2025年?;沸孤迸嘤柦贪?/a>
- 2025年資產(chǎn)清查自查報告
- 2025年浙江省杭州市輔警考試真題及答案
評論
0/150
提交評論