網絡數據采集技術概述.ppt_第1頁
網絡數據采集技術概述.ppt_第2頁
網絡數據采集技術概述.ppt_第3頁
網絡數據采集技術概述.ppt_第4頁
網絡數據采集技術概述.ppt_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、網絡爬蟲簡介,爬蟲與反爬技術,目錄,前言,robots.txt: Robots協議被稱為爬蟲協議,或機器人協議。是國際互聯網界通行的道德規(guī)范。 User-agent:用于描述搜索引擎robot的名字; Disallow:禁止robot訪問該網站的目錄或文件; Allow:允許robot訪問該網站的目錄或文件; sitemap.xml/txt/html/.: Sitemaps協議使網站能夠告知搜索引擎網站中可供抓取的網址。 自動生成:更方便地了解一個網站的內容、布局、架構。 主動提交:向百度、Google、雅虎、和微軟等提交,被搜索引擎收錄。,數據采集流程,需求分析:業(yè)務類型/方向決定抓取策略和

2、抓取頻率。(干什么用) 抓取內容:具體需要什么數據/字段。(怎么用) 數據來源:數據來源于具體網站或其他。 抓取方式:獲取數據的方式、網頁結構分析、API等。 代碼實現:自定義或開源爬蟲框架。 數據清洗:根據業(yè)務具體情況轉換數據格式、類型,進行數據計算等。數據清洗分為入庫前點清洗和入庫后點清洗。 數據存儲:寫文件或入庫方式,遠程數據入庫,數據加密等。 爬蟲任務分發(fā):分布式爬蟲、多線程爬蟲。 反爬策略、日志管理、監(jiān)控報警等。,網頁分析,數據抓取方式 網頁 移動網頁 移動客戶端 API 網頁解析 正則 Xpath Beautiful Soup Json格式解析 網頁編碼,動態(tài)頁面抓取,JS渲染頁面 Web kit Render類 Ajax請求 Iframe Selenium庫 重定向 Status_code Html meta 的refresh js,可視化爬蟲,Import.io Portia 八爪魚 集搜客 造數 BBD,爬蟲框架,Scrapy框架:,案例1:58同城-簡歷中心,url:,案例2:阿里巴巴-搜索,url: Set-Cookie _csrf,反爬技術,User_agent判斷來源 根據IP訪問頻率判斷,封鎖IP或者賬號 驗證碼識別 Pillow庫 Tesseract庫 Numpy 機器學習 根據實際成本制定策略 頻繁變

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論