教學(xué)課件2：數(shù)據(jù)采集基礎(chǔ)

上傳人：好*** IP屬地：遼寧上傳時間：2022-07-21 格式：PPT 頁數(shù)：49 大小：4.13MB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩44頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、正版課件內(nèi)容可修改2：數(shù)據(jù)采集基礎(chǔ)HTTP基本原理1、常見的數(shù)據(jù)來源和格式有哪些？2、數(shù)據(jù)采集的常見方法有哪些？知識回顧1網(wǎng)絡(luò)爬蟲分類教學(xué)內(nèi)容-數(shù)據(jù)采集基礎(chǔ)網(wǎng)絡(luò)爬蟲的概念2網(wǎng)頁相關(guān)概念3網(wǎng)絡(luò)爬蟲策略41、網(wǎng)絡(luò)爬蟲的定義網(wǎng)絡(luò)爬蟲（ Crawler，又被稱為網(wǎng)頁蜘蛛-Spider、網(wǎng)絡(luò)機器人），是一種按照一定的規(guī)則，自動地抓取萬維網(wǎng)信息的程序或者腳本。網(wǎng)絡(luò)爬蟲經(jīng)典的應(yīng)用案例，如Google、百度、Bing（必應(yīng)）。網(wǎng)絡(luò)爬蟲的概念網(wǎng)絡(luò)爬蟲的概念及原理疑問【案例1】電影評價網(wǎng)站記錄著觀影者對電影的喜好程度和評價信息，通過對相關(guān)網(wǎng)站用戶評價信息的收集，可以為電影相關(guān)的數(shù)據(jù)的分析和挖掘做支撐，常見的后期

2、應(yīng)用包括：對電影針對的用戶群體做分析；獲得大眾娛樂/輿情熱點；電影推薦（廣告推送）； 2、網(wǎng)絡(luò)爬蟲的作用網(wǎng)絡(luò)爬蟲有什么用？網(wǎng)絡(luò)爬蟲的概念及原理2、網(wǎng)絡(luò)爬蟲的作用網(wǎng)絡(luò)爬蟲有什么用？疑問【案例2】有一個銷售電子設(shè)備的店鋪，想要及時了解競爭對手的價格。他們可以通過每天訪問電商平臺或相關(guān)產(chǎn)品網(wǎng)站，與店鋪中出售的電子設(shè)備進行價格對比。但是，由于店鋪中的電子產(chǎn)品種類繁多，而且希望能夠更加頻繁的查看價格變化的動態(tài)，采用傳統(tǒng)手工查詢的方式需要花費大量的時間。網(wǎng)絡(luò)爬蟲的概念及原理2、網(wǎng)絡(luò)爬蟲的作用網(wǎng)絡(luò)爬蟲有什么用？疑問【案例3】福州的一家上市公司開會做出股權(quán)轉(zhuǎn)讓決定，剛在官網(wǎng)公告頻道發(fā)布消息，很多內(nèi)部員工還沒及

3、時了解到變更信息，國稅局就立刻找到該上市公司。國稅稽查人員透露說上市公司股權(quán)轉(zhuǎn)讓問題越來越成為稅收征管的熱點和難點，國稅“種植”的網(wǎng)絡(luò)“爬蟲”第一時間監(jiān)測到該上市公司轉(zhuǎn)讓股權(quán)的消息，于是引起高度重視。網(wǎng)絡(luò)爬蟲的概念3、網(wǎng)絡(luò)爬蟲的流程為了從萬維網(wǎng)大量信息載體中有效地提取數(shù)據(jù)，需要采用必要的手段和規(guī)則定向抓取網(wǎng)頁資源。網(wǎng)絡(luò)爬蟲的實現(xiàn)原理是通過標準的HTTP協(xié)議，利用超鏈接和Web文檔檢索方法遍歷萬維網(wǎng)。網(wǎng)絡(luò)爬蟲是搜索引擎的重要組成部分，它作為一個功能強大的自動提取網(wǎng)頁程序，為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁。注意互聯(lián)網(wǎng)網(wǎng)絡(luò)爬蟲模塊最終用戶用戶查詢模塊索引模塊網(wǎng)頁庫索引庫2網(wǎng)絡(luò)爬蟲的概念教學(xué)內(nèi)容-數(shù)據(jù)采集

4、基礎(chǔ)網(wǎng)絡(luò)爬蟲的分類1網(wǎng)頁相關(guān)概念3網(wǎng)絡(luò)爬蟲策略4網(wǎng)絡(luò)爬蟲的分類網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實現(xiàn)技術(shù)，大致可以分為以下幾種類型。通用網(wǎng)絡(luò)爬蟲（ General Purpose Web Crawler ）聚焦網(wǎng)絡(luò)爬蟲（ Focused Web Crawler ）增量式網(wǎng)絡(luò)爬蟲（ Incremental Web Crawler ）深層網(wǎng)絡(luò)爬蟲（ Deep Web Crawler ）實際的網(wǎng)絡(luò)爬蟲系統(tǒng)通常是幾種爬蟲技術(shù)相結(jié)合實現(xiàn)的。網(wǎng)絡(luò)爬蟲的分類1、通用網(wǎng)絡(luò)爬蟲（ General Purpose Web Crawler ）原理：通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲（ Scalable Web Crawler ），爬行對

5、象從一些種子 URL 擴充到整個 Web，主要為門戶站點搜索引擎和大型 Web 服務(wù)提供商采集數(shù)據(jù)。結(jié)構(gòu)：分為頁面爬行模塊、頁面分析模塊、鏈接過濾模塊、頁面數(shù)據(jù)庫、URL 隊列、初始 URL 集合幾個部分。爬行策略：深度優(yōu)先策略、廣度優(yōu)先策略。網(wǎng)絡(luò)爬蟲的分類2、聚焦網(wǎng)絡(luò)爬蟲（ Focused Web Crawler ）原理：聚焦網(wǎng)絡(luò)爬蟲（ Focused Crawler ），又稱主題網(wǎng)絡(luò)爬蟲（ Topical Crawler ），是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲。結(jié)構(gòu)：分為頁面爬行模塊、頁面分析模塊、鏈接過濾模塊、頁面數(shù)據(jù)庫、URL 隊列、初始 URL 集合、鏈接評

6、價模塊以及內(nèi)容評價模塊幾個部分。爬行策略：基于內(nèi)容評價的爬行策略、基于鏈接結(jié)構(gòu)評價的爬行策略、基于增強學(xué)習(xí)的爬行策略、基于語境圖的爬行策略。網(wǎng)絡(luò)爬蟲的分類3、增量式網(wǎng)絡(luò)爬蟲（ Incremental Web Crawler ）原理：增量式網(wǎng)絡(luò)爬蟲（ Incremental Web Crawler ）是指對已下載網(wǎng)頁采取增量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁的爬蟲，它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面。結(jié)構(gòu)：包含爬行模塊、排序模塊、更新模塊、本地頁面集、待爬行 URL 集以及本地頁面URL 集。爬行策略：統(tǒng)一更新法、個體更新法、基于分類的更新法（保持本地頁面集中存儲

7、的頁面為最新頁面）；廣度優(yōu)先策略、PageRank 優(yōu)先策略等（提高本地頁面集中頁面的質(zhì)量）。網(wǎng)絡(luò)爬蟲的分類4、深層網(wǎng)絡(luò)爬蟲（ Deep Web Crawler ）原理：Deep Web 是那些大部分內(nèi)容不能通過靜態(tài)鏈接獲取的、隱藏在搜索表單后的，只有用戶提交一些關(guān)鍵詞才能獲得的 Web 頁面。結(jié)構(gòu)：包含六個基本功能模塊（爬行控制器、解析器、表單分析器、表單處理器、響應(yīng)分析器、LVS 控制器）和兩個爬蟲內(nèi)部數(shù)據(jù)結(jié)構(gòu)（ URL 列表、LVS 表）。爬行策略：Deep Web 爬蟲爬行過程中最重要部分就是表單填寫，包含兩種類型：基于領(lǐng)域知識的表單填寫、基于網(wǎng)頁結(jié)構(gòu)分析的表單填寫。3網(wǎng)絡(luò)爬蟲的概念

8、教學(xué)內(nèi)容-數(shù)據(jù)采集基礎(chǔ)網(wǎng)頁相關(guān)概念1網(wǎng)絡(luò)爬蟲的分類2網(wǎng)絡(luò)爬蟲策略4網(wǎng)頁相關(guān)概念1、 HTTP基本原理HTTP的基本原理，主要包括以下內(nèi)容：URI和URL超文本HTTP和HTTPSHTTP請求過程請求響應(yīng)網(wǎng)頁相關(guān)概念1、HTTP基本原理URI概述統(tǒng)一資源標識符（Uniform Resource Identifier，URI）是一個用于標識某一互聯(lián)網(wǎng)資源名稱的字符串。該種標識允許用戶對任何（包括本地和互聯(lián)網(wǎng)）的資源通過特定的協(xié)議進行交互操作。統(tǒng)一資源定位符（Uniform Resource Locator，URL）、統(tǒng)一資源名稱（Uniform Resource Name，URN）是URI的子集

9、?，F(xiàn)在互聯(lián)網(wǎng)中，URN用的非常少，幾乎所有的URI都是URL，一般的網(wǎng)頁鏈接既可以稱為URL，也可以稱為URI。注意URL概述URL（ Uniform Resource Locator，統(tǒng)一資源定位符）是對可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問方法的一種簡潔的表示，是互聯(lián)網(wǎng)上標準資源的地址。互聯(lián)網(wǎng)上的每個文件都有一個唯一的URL，它包含的信息指出文件的位置以及瀏覽器應(yīng)該怎么處理它。網(wǎng)頁相關(guān)概念1、HTTP基本原理URL概述URL采用一種統(tǒng)一的格式來描述各種信息資源，包括文件、服務(wù)器的地址和目錄等。URL的格式由三部分組成：第一部分是協(xié)議；第二部分是存有該資源的主機IP地址（有時也包括端口號）；第

10、三部分是主機資源的具體地址，如目錄和文件名等。https :/ / home.php 協(xié)議服務(wù)器主機名或IP地址路徑和資源文件名網(wǎng)頁相關(guān)概念1、HTTP基本原理URL概述依據(jù)URL定義，給出了常用的兩種URL協(xié)議的示例：示例：HTTPS協(xié)議的URL解釋：其計算機域名為。超文本文件是在目錄/home下的index.mooc。示例：文件的URL 解釋：上面這個URL代表存放在主機上的 pub/files/目錄下的一個文件，文件名是 foobar.txt。/home/index.moocfile:/pub/files/foobar.txt網(wǎng)頁相關(guān)概念1、HTTP基本原理URL概述完整的帶有授

11、權(quán)的普通URL語法描述如下：URL中的端口號用來區(qū)分在同一個主機上的不同服務(wù)，其編號范圍從0到65535。HTTP默認端口號為80，指定URL時可以省略。如前述【示例】HTTP協(xié)議的URL帶端口號的表達形式：協(xié)議:/用戶名:密碼子域名.域名.頂級域名:端口號/目錄/文件名.文件后綴?參數(shù)=值#標志協(xié)議或服務(wù)默認端口號HTTP80FTP21telnet23SMTP25MySQL3306:80/home/index.mooc網(wǎng)頁相關(guān)概念1、HTTP基本原理超文本超文本（Hyper Text，HT)是由信息結(jié)點和表示信息結(jié)點間相關(guān)性的鏈構(gòu)成的一個具有一定邏輯結(jié)構(gòu)和語義的網(wǎng)絡(luò)。超文本是由節(jié)點(Node

12、)和鏈(Link)構(gòu)成的信息網(wǎng)絡(luò)。節(jié)點是表達信息的單位，通常表示一個單一的概念或圍繞一個特殊主題組織起來的數(shù)據(jù)集合。節(jié)點的內(nèi)容可是文本、圖形、圖像、動畫、音頻、視頻等，也可以是一般計算機程序。鏈是固定節(jié)點間的信息聯(lián)系，它以某種形式將一個節(jié)點與其他節(jié)點連接起來。由于超文本沒有規(guī)定鏈的規(guī)范與形式，因此，超文本與超媒體系統(tǒng)的鏈也是各異的，信息間的聯(lián)系豐富多彩引起鏈的種類復(fù)雜多樣。但最終達到效果卻是一致的，即建立起節(jié)點之間的聯(lián)系。瀏覽器中的網(wǎng)頁就是通過超文本解析而成的，網(wǎng)頁源代碼是一系列HTML代碼，包括一系列標簽：img（顯示圖片）、p（指定顯示段落）等。瀏覽器通過解析一系列標簽，便形成了可觀看的網(wǎng)

13、頁，網(wǎng)頁的源代碼HTML就可稱作超文本。網(wǎng)頁相關(guān)概念HTTP和HTTPSHTTP協(xié)議（HyperText Transfer Protocol，超文本傳輸協(xié)議）是因特網(wǎng)上應(yīng)用最為廣泛的一種網(wǎng)絡(luò)傳輸協(xié)議，所有的WWW文件都必須遵守這個標準。HTTP是一個基于TCP/IP通信協(xié)議來傳遞數(shù)據(jù)（HTML文件、圖片文件、查詢結(jié)果等）。HTTPS（Hyper Text Transfer Protocol over SecureSocket Layer），是以安全為目標的HTTP通道，在HTTP的基礎(chǔ)上通過傳輸加密和身份認證保證了傳輸過程的安全性。HTTPS在HTTP的基礎(chǔ)下加入SSL層，HTTPS的安全基礎(chǔ)

14、是SSL，因此加密的詳細內(nèi)容就需要SSL。HTTPS 存在不同于HTTP的默認端口（端口為443）及一個加密/身份驗證層（在HTTP與TCP之間）。1、HTTP基本原理網(wǎng)頁相關(guān)概念HTTP和HTTPSHTTPS的安全基礎(chǔ)是SSL，通過它傳輸?shù)膬?nèi)容都是經(jīng)過SSL加密，它的主要作用可以分為以下兩種：建立一個信息安全通道來保證數(shù)據(jù)傳輸?shù)陌踩?；確認網(wǎng)站的真實性，凡是使用了HTTPS的網(wǎng)站，都可以通過點擊瀏覽器地址欄的鎖頭標志來查看網(wǎng)站認證之后的真實信息，也可以通過CA機構(gòu)頒發(fā)的安全簽章來查詢。HTTP請求過程可分為以下幾個部分：1. 建立TCP連接;2. 瀏覽器向服務(wù)器發(fā)送請求命令；3. 服務(wù)器應(yīng)答；

15、4. 服務(wù)器關(guān)閉TCP連接；5. 瀏覽器接受到服務(wù)器響應(yīng)的數(shù)據(jù)。1、HTTP基本原理網(wǎng)頁相關(guān)概念1、HTTP基本原理HTTP和HTTPS1. 建立TCP連接在 HTTP工作開始之前，Web 瀏覽器首先要通過網(wǎng)絡(luò)與Web服務(wù)器建立連接，該連接是通過TCP來完成的，該協(xié)議與 IP 協(xié)議共同構(gòu)建 Internet，即著名的 TCP/IP 協(xié)議，因此 Internet 又被稱作是TCP/IP網(wǎng)絡(luò)。2.Web瀏覽器向Web服務(wù)器發(fā)送請求命令建立TCP連接后，Web瀏覽器會向Web服務(wù)器發(fā)送請求命令。3.Web服務(wù)器應(yīng)答客戶機向服務(wù)器發(fā)出請求后，服務(wù)器會向客戶機進行應(yīng)答，應(yīng)答內(nèi)容包括：協(xié)議的版本號和應(yīng)答狀

16、態(tài)碼（HTTP/1.1 200 OK），響應(yīng)頭信息來記錄服務(wù)器自己的數(shù)據(jù)，被請求的文檔內(nèi)容。網(wǎng)頁相關(guān)概念4.Web服務(wù)器關(guān)閉TCP鏈接一旦Web服務(wù)器向瀏覽器發(fā)送了請求的數(shù)據(jù)，它就要關(guān)閉 TCP連接；但如果瀏覽器或者服務(wù)器在其頭信息加入了這行代碼：Connection:keep-alive，TCP連接在發(fā)送后將仍然保持打開狀態(tài)，瀏覽器可以繼續(xù)通過相同的連接發(fā)送請求。5.瀏覽器接受到服務(wù)器響應(yīng)的數(shù)據(jù)瀏覽器接受服務(wù)器應(yīng)答回來的HTML代碼、CSS、JS代碼,再進行頁面的渲染或者接受到應(yīng)答的文件進行保存等操作。1、HTTP基本原理網(wǎng)頁相關(guān)概念請求方式在客戶機和服務(wù)器之間進行請求響應(yīng)時，兩種最常被用到

17、的方式是GET和POST：GET - 從指定的資源請求數(shù)據(jù)。POST - 向指定的資源提交要被處理的數(shù)據(jù)。 GET 方式查詢字符串（名稱/值對）是在 GET 請求的URL中發(fā)送的： POST 方式查詢字符串（名稱/值對）是在 POST 請求的 HTTP 消息主體中發(fā)送的：/test/demo_form.asp?name1=value1&name2=value2POST /test/demo_form.asp HTTP/1.1Host: name1=value1&name2=value21、HTTP基本原理網(wǎng)頁相關(guān)概念請求方式除了GET和POST方式，還有其他的請求方式：HEAD - 類似于

18、GET 請求，只不過返回的響應(yīng)中沒有具體的內(nèi)容，用于獲取報頭；PUT - 從客戶端向服務(wù)器傳送的數(shù)據(jù)取代指定的文檔的內(nèi)；DELETE - 請求服務(wù)器刪除指定的頁面;CONNECT - HTTP/1.1 協(xié)議中預(yù)留給能夠?qū)⑦B接改為管道方式的代理服務(wù)器;OPTIONS - 允許客戶端查看服務(wù)器的性能；TRACE - 回顯服務(wù)器收到的請求，主要用于測試或診斷；PATCH - 是對PUT方法的補充，用來對已知資源進行局部更新。1、HTTP基本原理網(wǎng)頁相關(guān)概念1、HTTP基本原理響應(yīng) 響應(yīng)，由服務(wù)端返回給客戶端，可分為四部分：響應(yīng)狀態(tài)碼（ Response Status Code ）響應(yīng)頭( Respo

19、nse Headers ）空行響應(yīng)體（ Response Body ）1 響應(yīng)狀態(tài)碼2 響應(yīng)頭3 空行4 響應(yīng)體網(wǎng)頁相關(guān)概念1、HTTP基本原理響應(yīng)響應(yīng)狀態(tài)碼HTTP狀態(tài)碼表示 HTTP協(xié)議所返回的響應(yīng)的狀態(tài)。HTTP狀態(tài)碼通常分為5種類型，分別以15五個數(shù)字開頭，由3位整數(shù)組成： 1XX表示消息；2XX表示成功；3XX表示重定向；4XX表示請求錯誤；5XX表示服務(wù)器錯誤；命令功能處理方式200請求成功獲得響應(yīng)內(nèi)容，進行處理201請求完成，結(jié)果是創(chuàng)建了新資源爬蟲中不會遇到202請求被接受，但處理尚未完成阻塞等待204服務(wù)器端已經(jīng)實現(xiàn)了請求，但是沒有返回新的信息丟棄300存在多個可用的被請求

20、資源若程序中能夠處理，則進行進一步處理，如果程序中不能處理，則丟棄301請求到的資源都會分配一個永久的URL，這樣就可以在將來通過該 URL來訪問此資源重定向到分配的URL302請求到資源在一個不同的URL處臨時保存重定向到臨時的URL命令功能處理方式304請求的資源未更新丟棄400非法請求丟棄401未授權(quán)丟棄403禁止丟棄404沒有找到丟棄500服務(wù)器出現(xiàn)錯誤丟棄常見狀態(tài)碼及爬蟲處理方式：網(wǎng)頁相關(guān)概念1、HTTP基本原理響應(yīng)響應(yīng)頭響應(yīng)頭包含了服務(wù)器對請求的應(yīng)答信息，常見的響應(yīng)頭如下：Allow：服務(wù)器支持哪些請求方法（如GET、POST等）；Content-Type：表示后面的文檔屬于什么類

21、型。Servlet默認為text/plain，但通常需要顯式地指定為text/html；Date：當前的GMT時間；Location：表示客戶應(yīng)當?shù)侥睦锶ヌ崛∥臋n；Refresh：表示瀏覽器應(yīng)該在多少時間之后刷新文檔，以秒計；Server：服務(wù)器名字，Servlet一般不設(shè)置這個值，而是由Web服務(wù)器自己設(shè)置；Set-Cookie：設(shè)置和頁面關(guān)聯(lián)的Cookie；網(wǎng)頁相關(guān)概念1、HTTP基本原理響應(yīng)空行作為內(nèi)容分割，表示以下不再是響應(yīng)頭的內(nèi)容。響應(yīng)體響應(yīng)頭是服務(wù)器返回給客戶端的文本信息，響應(yīng)的正文數(shù)據(jù)在響應(yīng)體中；比如請求網(wǎng)頁時，它的響應(yīng)體就是網(wǎng)頁的HTML代碼；爬蟲請求網(wǎng)頁后，要解析的內(nèi)容就是

22、響應(yīng)體。響應(yīng)體網(wǎng)頁相關(guān)概念2、網(wǎng)頁基礎(chǔ)瀏覽器訪問網(wǎng)站時，頁面各不相同，現(xiàn)在介紹一下網(wǎng)頁的基本組成、結(jié)構(gòu)和節(jié)點等內(nèi)容，具體內(nèi)容如下：網(wǎng)頁的組成節(jié)點數(shù)及節(jié)點的關(guān)系選擇器網(wǎng)頁相關(guān)概念2、網(wǎng)頁基礎(chǔ)網(wǎng)頁組成網(wǎng)頁的是以HTML文檔、JavaScript腳本和CSS樣式單的方式組織。在網(wǎng)頁上查看源碼可以了解其內(nèi)部結(jié)構(gòu)。網(wǎng)頁相關(guān)概念2、網(wǎng)頁基礎(chǔ)節(jié)點樹及節(jié)點間的關(guān)系HTML DOM將HTML文檔視作樹結(jié)構(gòu)，這種結(jié)構(gòu)被稱為節(jié)點樹，如下圖所示：通過HTML DOM，樹中的所有節(jié)點均可通過JavaScript進行訪問。所有HTML元素（節(jié)點）均可被修改，也可以創(chuàng)建或刪除節(jié)點。網(wǎng)頁相關(guān)概念2、網(wǎng)頁基礎(chǔ)節(jié)點樹及節(jié)點間的關(guān)

23、系節(jié)點樹中的節(jié)點彼此擁有層級關(guān)系。父（parent）、子（child）和同胞（sibling）等術(shù)語用于描述這些關(guān)系。父節(jié)點擁有子節(jié)點，同級的子節(jié)點被稱為同胞（兄弟或姐妹）：在節(jié)點樹中，頂端節(jié)點被稱為根（root）；每個節(jié)點都有父節(jié)點、除了根（它沒有父節(jié)點）；一個節(jié)點可擁有任意數(shù)量的子；同胞是擁有相同父節(jié)點的節(jié)點。下面的圖片展示了節(jié)點樹的一部分，以及節(jié)點之間的關(guān)系：網(wǎng)頁相關(guān)概念2、網(wǎng)頁基礎(chǔ)選擇器網(wǎng)頁由一個個節(jié)點組成，CSS選擇器依據(jù)不同的節(jié)點設(shè)置不同的樣式規(guī)則。在CSS中，使用選擇器來定位節(jié)點。CSS選擇器常見的的語法規(guī)則如下：選擇器示例示例說明.ro選擇所有class=in

24、tro的元素#id#firstname選擇所有id=firstname的元素*選擇所有元素elementp選擇所有元素element,elementdiv,p選擇所有元素和元素element elementdiv p選擇元素內(nèi)的所有元素elementelementdivp選擇所有父級是元素的元素element+elementdiv+p選擇所有緊接著元素之后的元素attributetarget選擇所有帶有target屬性元素:linka:link選擇所有未訪問鏈接:visiteda:visited選擇所有訪問過的鏈接:first-letterp:first-letter選擇每一個元素的第一個

25、字母4網(wǎng)絡(luò)爬蟲的概念教學(xué)內(nèi)容-數(shù)據(jù)采集基礎(chǔ)網(wǎng)絡(luò)爬蟲策略1網(wǎng)絡(luò)爬蟲的分類2網(wǎng)頁相關(guān)概念3網(wǎng)絡(luò)爬蟲策略互聯(lián)網(wǎng)可以看成一個超級大的“圖”，而每個頁面可以看做是一個“節(jié)點”，頁面中的鏈接可以看成是圖的“有向邊”，能夠通過圖的遍歷方式對互聯(lián)網(wǎng)這個超級大“圖”進行訪問。依據(jù)互聯(lián)網(wǎng)的特性，互聯(lián)網(wǎng)遍歷有以下幾種：寬（廣）度優(yōu)先遍歷深度優(yōu)先遍歷帶偏好的爬蟲網(wǎng)絡(luò)爬蟲策略1、圖的寬度優(yōu)先遍歷圖的寬度優(yōu)先遍歷（BFS）算法是一個分層搜索的過程，和樹的層序遍歷算法相同。圖中一個節(jié)點，作為起始節(jié)點，然后按照層次遍歷的方式，一層一層地進行訪問。依據(jù)互聯(lián)網(wǎng)的特性，互聯(lián)網(wǎng)遍歷過程如下：1.頂點 V入隊列；2.當隊列非空時繼續(xù)

26、執(zhí)行，否則算法為空；3.出隊列，獲得隊頭節(jié)點 V，訪問頂點 V并標記 V已經(jīng)被訪問；4.查找頂點 V的第一個鄰接頂點 col；5.若 V的鄰接頂點col未被訪問過，則col進隊列；6.繼續(xù)查找 V的其他鄰接頂點 col，轉(zhuǎn)到步驟5，若 V的所有鄰接頂點都已經(jīng)被訪問過，則轉(zhuǎn)到步驟2。網(wǎng)絡(luò)爬蟲策略1、圖的寬度優(yōu)先遍歷爬蟲項目是從一系列的種子鏈接開始的。所謂種子鏈接，就好比寬度優(yōu)先遍歷中的種子節(jié)點。實際的網(wǎng)絡(luò)爬蟲項目中種子鏈接可以有多個，而寬度優(yōu)先遍歷的種子節(jié)點只有一個。寬度優(yōu)先遍歷流程：1.將初始的種子URL放入TODO表；2.TODO表中取得一條鏈接，和 Visited表中的鏈接進行

27、比較，若Visited表中存在此鏈接（表示已被訪問過），跳過不做處理；不存在（表示未被訪問過），繼續(xù)進行。3.對鏈接進行解析，把頁面中新解析出的URL放入TODO表中4.處理完畢后，將本頁面的鏈接地址直接存入 Visited表中；5.繼續(xù)步驟2，循環(huán)往復(fù)。網(wǎng)絡(luò)爬蟲策略1、圖的寬度優(yōu)先遍歷寬度優(yōu)先遍歷爬蟲優(yōu)勢：重要的網(wǎng)頁往往離種子比較近，距離越遠重要性越低，寬度優(yōu)先遍歷能最先抓取重要頁面；萬維網(wǎng)的最大深度能達到17層，到達指定網(wǎng)頁總存在一條最短路徑，寬度優(yōu)先遍歷會以最快的速度達到指定網(wǎng)頁；寬度優(yōu)先有利于多爬蟲的合作抓取，多爬蟲合作通常先抓取站內(nèi)鏈接，抓取的封閉性很強。網(wǎng)絡(luò)爬蟲策略2、深度優(yōu)先遍歷深度優(yōu)先遍歷類似于樹的前序遍歷。采用的搜索方法是盡可能先對縱深方向進行遍歷。具體流程如下：1.訪問出發(fā)點V，并將其標記為已訪問過；2.依次從V出發(fā)搜索V的每個鄰接點W。若W未曾訪問過，則以W為新的出發(fā)點繼續(xù)進行深度優(yōu)先遍歷，直至所有和源點V有

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

教學(xué)課件2：數(shù)據(jù)采集基礎(chǔ)

文檔簡介

溫馨提示

最新文檔

評論

教學(xué)課件2：數(shù)據(jù)采集基礎(chǔ)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔