網(wǎng)絡爬蟲PPT課件.ppt_第1頁
網(wǎng)絡爬蟲PPT課件.ppt_第2頁
網(wǎng)絡爬蟲PPT課件.ppt_第3頁
網(wǎng)絡爬蟲PPT課件.ppt_第4頁
網(wǎng)絡爬蟲PPT課件.ppt_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、網(wǎng)絡爬蟲,1,引言爬蟲,Crawler ,即Spider(網(wǎng)絡爬蟲),其定義有廣義和狹義之分。狹義上指遵循標準的 http 協(xié)議,利用超鏈接和 Web 文檔檢索方法遍歷萬維網(wǎng)的軟件程序;而廣義的定義則是能遵循 http 協(xié)議,檢索 Web 文檔的軟件都稱之為網(wǎng)絡爬蟲。 網(wǎng)絡爬蟲是一個功能很強的自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成部分。,2,聚焦爬蟲,隨著網(wǎng)絡的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。搜索引擎(Search Engine),例如傳統(tǒng)的通用搜索引擎AltaVista,Yahoo!和Google等,作為一

2、個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和 指南。但是,這些通用性搜索引擎也存在著一定的局限性,如:,3,聚焦爬蟲,(1) 不同領域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結果包含大量用戶不關心的網(wǎng)頁。 (2) 通用搜索引擎的目標是盡可能大的網(wǎng)絡覆蓋率,有限的搜索引擎服務器資源與無限的網(wǎng)絡數(shù)據(jù)資源之間的矛盾將進一步加深。 (3) 萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡技術的不斷發(fā)展,圖片、數(shù)據(jù)庫、音頻/視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對這些信息含量密集且具有一定結構的數(shù)據(jù)無能為力,不能很好地發(fā)現(xiàn)和獲取。 (4) 通用搜索引擎大多提供基于關鍵字的檢索,難以支持

3、根據(jù)語義信息提出的查詢。,4,聚焦爬蟲,為了解決上述問題,定向抓取相關網(wǎng)頁資源的聚焦爬蟲應運而生。聚焦爬蟲是一個自動下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標,有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關的鏈接,獲取所需要的信息。 與通用爬蟲(general purpose web crawler)不同,聚焦爬蟲并不追求大的覆蓋,而將目標定為抓取與某一特定主題內(nèi)容相關的網(wǎng)頁,為面向主題的用戶查詢準備數(shù)據(jù)資源。,5,垂直搜索的本質(zhì),從主題相關的領域內(nèi),獲取、加工與搜索行為相匹配的結構化數(shù)據(jù)和元數(shù)據(jù)信息。 如數(shù)碼產(chǎn)品mp3:內(nèi)存、尺寸、大小、電池型號、價格、生產(chǎn)廠家等,還可以提供比價服務,6,爬蟲基本原理,網(wǎng)絡爬蟲

4、是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從一個或若干初始網(wǎng)頁的URL開始(通常是某網(wǎng)站首頁),遍歷 Web 空間,讀取網(wǎng)頁的內(nèi)容,不斷從一個站點移動到另一個站點,自動建立索引。在抓取網(wǎng)頁的過程中,找到在網(wǎng)頁中的其他鏈接地址,對 HTML 文件進行解析,取出其頁面中的子鏈接,并加入到網(wǎng)頁數(shù)據(jù)庫中,不斷從當前頁面上抽取新的URL放入隊列,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完,滿足系統(tǒng)的一定停止條件。,7,爬蟲基本原理,另外,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索。網(wǎng)絡爬蟲分析某個網(wǎng)頁時,利用 HTML 語言的標記結構來獲取指向其他網(wǎng)頁的 U

5、RL 地址,可以完全不依賴用戶干預。 如果把整個互聯(lián)網(wǎng)當成一個網(wǎng)站,理論上講網(wǎng)絡爬蟲可以把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來,8,爬蟲基本原理,而且對于某些主題爬蟲來說,這一過程所得到的分析結果還可能對以后抓取過程給出反饋和指導。正是這種行為方式,這些程序才被稱為爬蟲( spider )、crawler、機器人。,9,爬蟲基本原理,Spider怎樣抓取所有的 Web 頁面呢? 在Web出現(xiàn)以前,傳統(tǒng)的文本集合,如目錄數(shù)據(jù)庫、期刊文摘存放在磁帶或光盤里,用作索引系統(tǒng)。 與此相對應,Web 中所有可訪問的URL都是未分類的,收集 URL 的唯一方式就是通過掃描收集那些鏈向其他頁面的超鏈接,這些頁面還未被

6、收集過。,10,爬蟲基本原理,從給定的 URL 集出發(fā),逐步來抓取和掃描那些新的出鏈。這樣周而復始的抓取這些頁面。這些新發(fā)現(xiàn)的 URL 將作為爬行器的未來的抓取的工作。 隨著抓取的進行,這些未來工作集也會隨著膨脹,由寫入器將這些數(shù)據(jù)寫入磁盤來釋放主存,以及避免爬行器崩潰數(shù)據(jù)丟失。沒有保證所有的 Web 頁面的訪問都是按照這種方式進行,爬行器從不會停下來,Spider 運行時頁面也會隨之不斷增加。 頁面中所包含的文本也將呈交給文本索引器,用于基于關鍵詞的信息索引。,11,工作流程,網(wǎng)絡爬蟲是搜索引擎中最核心的部分,整個搜索引擎的素材庫來源于網(wǎng)絡爬蟲的采集,從搜索引擎整個產(chǎn)業(yè)鏈來看,網(wǎng)絡爬蟲是處于

7、最上游的產(chǎn)業(yè)。其性能好壞直接影響著搜索引擎整體性能和處理速度。 通用網(wǎng)絡爬蟲是從一個或若干個初始網(wǎng)頁的上的 URL 開始,獲得初始網(wǎng)頁上的 URL 列表,在抓取網(wǎng)頁過程中,不斷從當前頁面上抽取新的 URL 放入待爬行隊列,直到滿足系統(tǒng)的停止條件。,12,13,工作流程,網(wǎng)絡爬蟲基本架構如圖所示,其各個部分的主要功能介紹如下: 1頁面采集模塊:該模塊是爬蟲和因特網(wǎng)的接口,主要作用是通過各種 web 協(xié)議(一般以 HTTPFTP 為主)來完成對網(wǎng)頁數(shù)據(jù)的采集,保存后將采集到的頁面交由后續(xù)模塊作進一步處理。 其過程類似于用戶使用瀏覽器打開網(wǎng)頁,保存的網(wǎng)頁供其它后續(xù)模塊處理,例如,頁面分析、鏈接抽取。

8、,14,工作流程,2頁面分析模塊:該模塊的主要功能是將頁面采集模塊采集下來的頁面進行分析,提取其中滿足用戶要求的超鏈接,加入到超鏈接隊列中。 頁面鏈接中給出的 URL 一般是多種格式的,可能是完整的包括協(xié)議、站點和路徑的,也可能是省略了部分內(nèi)容的,或者是一個相對路徑。所以為處理方便,一般進行規(guī)范化處理,先將其轉(zhuǎn)化成統(tǒng)一的格式。,15,工作流程,3、鏈接過濾模塊:該模塊主要是用于對重復鏈接和循環(huán)鏈接的過濾。例如,相對路徑需要補全 URL ,然后加入到待采集 URL 隊列中。 此時,一般會過濾掉隊列中已經(jīng)包含的 URL ,以及循環(huán)鏈接的URL。,16,工作流程,4頁面庫:用來存放已經(jīng)采集下來的頁面

9、,以備后期處理。 5待采集 URL 隊列:從采集網(wǎng)頁中抽取并作相應處理后得到的 URL ,當 URL 為空時爬蟲程序終止。 6初始 URL :提供 URL 種子,以啟動爬蟲,17,關鍵技術分析,抓取目標的定義與描述 網(wǎng)頁URL的搜索策略 網(wǎng)頁的分析與信息的提取,18,抓取目標的定義與描述,針對有目標網(wǎng)頁特征的網(wǎng)頁級信息 對應網(wǎng)頁庫級垂直搜索,抓取目標網(wǎng)頁,后續(xù)還要從中抽取出需要的結構化信息。穩(wěn)定性和數(shù)量上占優(yōu),但成本高、性活性差。 針對目標網(wǎng)頁上的結構化數(shù)據(jù) 對應模板級垂直搜索,直接解析頁面,提取并加工出結構化數(shù)據(jù)信息。快速實施、成本低、靈活性強,但后期維護成本高。,19,URL 的搜索策略,

10、網(wǎng)絡爬蟲 URL 抓取策略有: IP 地址搜索策略 廣度優(yōu)先 深度優(yōu)先 最佳優(yōu)先,20,URL 的搜索策略,基于IP地址的搜索策略 先賦予爬蟲一個起始的 IP 地址,然后根據(jù) IP 地址遞增的方式搜索本口地址段后的每一個 WWW 地址中的文檔,它完全不考慮各文檔中指向其它 Web 站點的超級鏈接地址。 優(yōu)點是搜索全面,能夠發(fā)現(xiàn)那些沒被其它文檔引用的新文檔的信息源 缺點是不適合大規(guī)模搜索,21,URL 的搜索策略,廣度優(yōu)先搜索策略 廣度優(yōu)先搜索策略是指在抓取過程中,在完成當前層次的搜索后,才進行下一層次的搜索。這樣逐層搜索,依此類推。 該算法的設計和實現(xiàn)相對簡單。在目前為覆蓋盡可能多的網(wǎng)頁,一般

11、使用廣度優(yōu)先搜索方法。 很多研究者通過將廣度優(yōu)先搜索策略應用于主題爬蟲中。他們認為與初始 URL 在一定鏈接距離內(nèi)的網(wǎng)頁具有主題相關性的概率很大。,22,URL 的搜索策略,另外一種方法是將廣度優(yōu)先搜索與網(wǎng)頁過濾技術結合使用,先用廣度優(yōu)先策略抓取網(wǎng)頁,再將其中無關的網(wǎng)頁過濾掉。這些方法的缺點在于,隨著抓取網(wǎng)頁的增多,大量的無關網(wǎng)頁將被下載并過濾,算法的效率將變低。,23,使用廣度優(yōu)先策略抓取的順序為:A-B、C、D、E、F-G、H-I 。,24,URL 的搜索策略,深度優(yōu)先搜索策略 深度優(yōu)先搜索在開發(fā)網(wǎng)絡爬蟲早期使用較多的方法之一,目的是要達到葉結點,即那些不包含任何超鏈接的頁面文件。 從起始

12、頁開始在當前 HTML 文件中,當一個超鏈被選擇后,被鏈接的 HTML 文件將執(zhí)行深度優(yōu)先搜索,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個起始頁,繼續(xù)跟蹤鏈接。即在搜索其余的超鏈結果之前必須先完整地搜索單獨的一條鏈。,25,URL 的搜索策略,深度優(yōu)先搜索沿著 HTML 文件上的超鏈走到不能再深入為止,然后返回到某一個 HTML 文件,再繼續(xù)選擇該 HTML 文件中的其他超鏈。當不再有其他超鏈可選擇時,說明搜索已經(jīng)結束。 這個方法有個優(yōu)點是網(wǎng)絡蜘蛛在設計的時候比較容易。,26,使用深度優(yōu)先策略抓取的順序為:A-F-G、E-H-I、B、C、D 。 目前常見的是廣度優(yōu)先和最佳優(yōu)先方法

13、。,27,URL 的搜索策略,最佳優(yōu)先搜索策略 最佳優(yōu)先搜索策略按照一定的網(wǎng)頁分析算法,先計算出 URL 描述文本的目標網(wǎng)頁的相似度,設定一個值,并選取評價得分超過該值的一個或幾個 URL 進行抓取。它只訪問經(jīng)過網(wǎng)頁分析算法計算出的相關度大于給定的值的網(wǎng)頁。 存在的一個問題是,在爬蟲抓取路徑上的很多相關網(wǎng)頁可能被忽略,因為最佳優(yōu)先策略是一種局部最優(yōu)搜索算法。因此需要將最佳優(yōu)先結合具體的應用進行改進,以跳出局部最優(yōu)點。 有研究表明,這樣的閉環(huán)調(diào)整可以將無關網(wǎng)頁數(shù)量降低30%-90%。,28,網(wǎng)頁的分析及信息的提取,基于網(wǎng)絡拓撲關系的分析算法 根據(jù)頁面間超鏈接引用關系,來對與已知網(wǎng)頁有直接或間接關系對象作出評價的算法。網(wǎng)頁粒度PageRank ,網(wǎng)站粒度 SiteRank。 基于網(wǎng)頁內(nèi)容的分析算法 從最初的文本檢索方法,向涉及網(wǎng)頁數(shù)據(jù)抽取、機器學習、數(shù)據(jù)挖掘、自然語言等多領域綜合的方向發(fā)展。 基于用戶訪問行為的分析算法 有代表性的是基于領域概念的分析算法,涉及本體論。,29,例子說明,30,簡析頁面源代碼,定位的爬取目標是娛樂博文,故在首頁的源代碼中搜尋“娛樂”之后,發(fā)現(xiàn)了如下字段: 首頁

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論