八爪魚采集器正則表達(dá)式入門教程_第1頁
八爪魚采集器正則表達(dá)式入門教程_第2頁
八爪魚采集器正則表達(dá)式入門教程_第3頁
八爪魚采集器正則表達(dá)式入門教程_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

八爪魚?云采集網(wǎng)絡(luò)爬蟲軟件八爪魚采集器 w^iffBbazhuayu.-canni八爪魚采集器正則表達(dá)式入門教程正則表達(dá)式(RegularExpression),按英文直譯是“規(guī)范化表達(dá)”,其作用是將復(fù)雜模糊的源數(shù)據(jù)通過正則表達(dá)式轉(zhuǎn)化為簡單直觀的目標(biāo)數(shù)據(jù)。例如:“150ABCD”“一百五ABCD”“OnehundredandfiftyABCD”分析思考過程:以上字符串中,我們的源數(shù)據(jù)數(shù)據(jù)分別為:""150ABCD”、"一百五ABCD”、“OnehundredandfiftyABCD”假設(shè)我們要提取目標(biāo)數(shù)據(jù)為:字符串中以數(shù)字開頭的數(shù)據(jù)那么我們約束條件為:只取字符串中以數(shù)字開頭的源數(shù)據(jù)將此約束條件轉(zhuǎn)化為正則表達(dá)式為:[0-9](.+)\b其中,[0-9]的語義為開頭1位為0-9開頭,中間間隔以通配符“.”代替,(.+)語義為字符串長度不做限定,\b的語義為,匹配一個邊界。八爪魚?云采集網(wǎng)絡(luò)爬蟲軟件八爪魚采集器 w^iffBbazhuayu.-canni正則后的目標(biāo)數(shù)據(jù):“150ABCD”通過這個簡單例子,我們大致了解到了為什么要用正則與正則所能實現(xiàn)的效果,講通俗點(diǎn)就是,正則只是將我們的意愿(提取字符串中以數(shù)字開頭的數(shù)據(jù))以表達(dá)式的形式展現(xiàn)出來([0-9](.+)\b),并最終通過表達(dá)式匹配到所需要的目標(biāo)數(shù)據(jù)(“150ABCD”),所以靈活運(yùn)用正則,可以通過簡單的方法實現(xiàn)強(qiáng)大的功能。為什么要在八爪魚中使用正則?在八爪魚采集數(shù)據(jù)過程中,受限于網(wǎng)頁HTML結(jié)構(gòu)的原因,部分目標(biāo)數(shù)據(jù)并不能單獨(dú)提取出來,這時需要簡單的搜索與替換操作來提取與預(yù)期搜索結(jié)果匹配的確切文本,除此之外,對數(shù)據(jù)要求精準(zhǔn)規(guī)范的用戶,還能通過正則表達(dá)式測試所提取數(shù)據(jù)字符串的模式、替換文本、基于匹配模式從字符串中提取子字符串等操作。例如:匹配字符串內(nèi)模式:查看字符串是否出現(xiàn)電話號碼模式查看字符串是否出現(xiàn)網(wǎng)址URL模式替換文本:/八爪魚云采集網(wǎng)絡(luò)爬蟲軟件八爪魚采集器 www.bazhuayu.-comi用正則表達(dá)式識別字符中特定文本用正則表達(dá)式完全刪除該文本或用其他文本替換它基于匹配模式從字符串中提取子串用于查找字符串文本內(nèi)特定文本相關(guān)采集教程:八爪魚數(shù)據(jù)爬取入門基礎(chǔ)操作/tutorial/xsksrm/rmjccz八爪魚網(wǎng)站抓取入門功能介紹/tutorial/xsksrm/rmgnjs八爪魚爬蟲軟件功能使用教程/tutorial/gnd循環(huán)翻頁爬取網(wǎng)頁數(shù)據(jù)/tutorial/gnd/xunhuanajax網(wǎng)頁數(shù)據(jù)抓取/tutorial/gnd/ajaxlabel特殊翻頁操作/tutorial/gnd/teshufanye模擬登錄并識別驗證碼抓取數(shù)據(jù)/tutorial/gnd/dlyzm八爪魚一一90萬用戶選擇的網(wǎng)頁數(shù)據(jù)采集器。八爪魚?云采集網(wǎng)絡(luò)爬蟲軟件八爪魚采集器 w*w.bazhuayu.cqm1、 操作簡單,任何人都可以用:無需技術(shù)背景,會上網(wǎng)就能采集。完全可視化流程,點(diǎn)擊鼠標(biāo)完成操作,2分鐘即可快速入門。2、 功能強(qiáng)大,任何網(wǎng)站都可以采:對于點(diǎn)擊、登陸、翻頁、識別驗證碼、瀑布流、Ajax腳本異步加載數(shù)據(jù)的網(wǎng)頁,均可經(jīng)過簡單設(shè)置進(jìn)行采集。3、 云采集,關(guān)機(jī)也可以。配置好采集任務(wù)后可關(guān)機(jī),任務(wù)可在云端執(zhí)行。龐大云采集集群24*7不間斷運(yùn)行,不用擔(dān)心IP被封,網(wǎng)絡(luò)中斷。4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論