版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、網絡爬蟲簡介,爬蟲與反爬技術,目錄,前言,robots.txt: Robots協議被稱為爬蟲協議,或機器人協議。是國際互聯網界通行的道德規(guī)范。 User-agent:用于描述搜索引擎robot的名字; Disallow:禁止robot訪問該網站的目錄或文件; Allow:允許robot訪問該網站的目錄或文件; sitemap.xml/txt/html/.: Sitemaps協議使網站能夠告知搜索引擎網站中可供抓取的網址。 自動生成:更方便地了解一個網站的內容、布局、架構。 主動提交:向百度、Google、雅虎、和微軟等提交,被搜索引擎收錄。,數據采集流程,需求分析:業(yè)務類型/方向決定抓取策略和
2、抓取頻率。(干什么用) 抓取內容:具體需要什么數據/字段。(怎么用) 數據來源:數據來源于具體網站或其他。 抓取方式:獲取數據的方式、網頁結構分析、API等。 代碼實現:自定義或開源爬蟲框架。 數據清洗:根據業(yè)務具體情況轉換數據格式、類型,進行數據計算等。數據清洗分為入庫前點清洗和入庫后點清洗。 數據存儲:寫文件或入庫方式,遠程數據入庫,數據加密等。 爬蟲任務分發(fā):分布式爬蟲、多線程爬蟲。 反爬策略、日志管理、監(jiān)控報警等。,網頁分析,數據抓取方式 網頁 移動網頁 移動客戶端 API 網頁解析 正則 Xpath Beautiful Soup Json格式解析 網頁編碼,動態(tài)頁面抓取,JS渲染頁面 Web kit Render類 Ajax請求 Iframe Selenium庫 重定向 Status_code Html meta 的refresh js,可視化爬蟲,Import.io Portia 八爪魚 集搜客 造數 BBD,爬蟲框架,Scrapy框架:,案例1:58同城-簡歷中心,url:,案例2:阿里巴巴-搜索,url: Set-Cookie _csrf,反爬技術,User_agent判斷來源 根據IP訪問頻率判斷,封鎖IP或者賬號 驗證碼識別 Pillow庫 Tesseract庫 Numpy 機器學習 根據實際成本制定策略 頻繁變
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 放長假安全培訓課件
- 2025年教師資格之中學教育知識與能力真題附答案
- 江西省宜春市宜豐縣宜豐中學2025-2026學年高二上學期12月月考語文試卷(含答案)
- 2026年定州市人民醫(yī)院(定州市急救中心)招聘備考題庫完整答案詳解
- 2025年民辦學校年檢自查報告
- 2025年江蘇省無錫市員額檢察官遴選考試真題及答案
- 簡單醫(yī)學知識課件
- 2026年四川紫璞科技有限責任公司招聘備考題庫參考答案詳解
- 2026年廈門市同安區(qū)西塘幼兒園招聘頂崗人員備考題庫及完整答案詳解1套
- 2026年廣州中醫(yī)藥大學第一附屬醫(yī)院重慶醫(yī)院(重慶市北碚中醫(yī)院)公開招聘放療團隊7人備考題庫及答案詳解1套
- 全球AI應用平臺市場全景圖與趨勢洞察報告
- 2026.05.01施行的中華人民共和國漁業(yè)法(2025修訂)課件
- 維持性血液透析患者管理
- 2025年大學大四(臨床診斷學)癥狀鑒別診斷試題及答案
- 2026液態(tài)氧儲罐泄漏事故應急處置方案
- 直腸解剖課件
- 2025年消控員初級證試題及答案
- 遼寧省丹東市鳳城市2024-2025學年八年級上學期1月期末語文試題
- 樓宇智能弱電系統(tǒng)培訓資料
- 人力資源調研報告
- 下水箱液位控制系統(tǒng)設計
評論
0/150
提交評論