如何利用百度地圖爬蟲搜集數(shù)據(jù)_第1頁
如何利用百度地圖爬蟲搜集數(shù)據(jù)_第2頁
如何利用百度地圖爬蟲搜集數(shù)據(jù)_第3頁
如何利用百度地圖爬蟲搜集數(shù)據(jù)_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

4/4如何利用百度地圖爬蟲搜集數(shù)據(jù)http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html如何利用百度地圖爬蟲搜集數(shù)據(jù)?

什么是地圖數(shù)據(jù)?

旅游路線?

酒店信息?

它還有商家信息你知道嗎?

以下是一個利用八爪魚搜集地圖數(shù)據(jù)的示例,大家可做參考。

一、創(chuàng)建采集任務(wù)

http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html1)進(jìn)入主界面,選擇“自定義采集”

2)將要采集的網(wǎng)站URL復(fù)制粘貼到輸入框中,點(diǎn)擊“保存網(wǎng)址”

http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html

二、輸入采集信息

1)在頁面右上角,打開“流程”,以展現(xiàn)出“流程設(shè)計器”和“定制當(dāng)前操作”兩個板塊。點(diǎn)擊地圖上的輸入框,然后在右側(cè)操作提示框中,選擇“輸入文字”

http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html

2)在操作框提示中,輸入想要查詢的文本。這里輸入“成都火鍋”。輸入完成后,點(diǎn)擊“確定”

http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html

3)“成都火鍋”會自動填充到輸入框。先點(diǎn)擊“搜索”按鈕,然后在右側(cè)操作提示框中,選擇“點(diǎn)擊該按鈕”

http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html

由于此網(wǎng)頁涉及Ajax技術(shù),我們需要進(jìn)行一些高級選項的設(shè)置。選中“點(diǎn)擊元素”步驟,打開“高級選項”,勾選“Ajax加載數(shù)據(jù)”,設(shè)置時間為“2秒”

http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html

注:AJAX即延時加載、異步更新的一種腳本技術(shù),通過在后臺與服務(wù)器進(jìn)行少量數(shù)據(jù)交換,可以在不重新加載整個網(wǎng)頁的情況下,對網(wǎng)頁的某部分進(jìn)行更新。

表現(xiàn)特征:a、點(diǎn)擊網(wǎng)頁中某個選項時,大部分網(wǎng)站的網(wǎng)址不會改變;b、網(wǎng)頁不是完全加載,只是局部進(jìn)行了數(shù)據(jù)加載,有所變化。

驗證方式:點(diǎn)擊操作后,在瀏覽器中,網(wǎng)址輸入欄不會出現(xiàn)加載中的狀態(tài)或者轉(zhuǎn)圈狀態(tài)。

三、創(chuàng)建翻頁循環(huán)

1)我們可以看到,頁面出現(xiàn)了“成都火鍋”的搜索結(jié)果。將結(jié)果頁面下拉到底部,點(diǎn)擊“下一頁”按鈕。在右側(cè)的操作提示框中,選擇“循環(huán)點(diǎn)擊下一頁”,以創(chuàng)建一個翻頁循環(huán)

http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html

由于此網(wǎng)頁涉及Ajax技術(shù),我們需要進(jìn)行一些高級選項的設(shè)置。選中“點(diǎn)擊元素”步驟,打開“高級選項”,勾選“Ajax加載數(shù)據(jù)”,設(shè)置時間為“2秒”

Ajax技術(shù)在上述已經(jīng)提到

http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html

四、創(chuàng)建循環(huán)列表并提取數(shù)據(jù)

1)移動鼠標(biāo),選中頁面里第一條商家信息區(qū)塊。系統(tǒng)會識別此區(qū)塊中的子元素,在操作提示框中,選擇“選中子元素”

http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html

2)系統(tǒng)會自動識別出頁面中的其他10組同類元素,在操作提示框中,選擇“選中全部”,以建立一個翻列表循環(huán)

http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html

3)我們可以看到,頁面中景點(diǎn)信息區(qū)塊里的所有元素均被選中,變?yōu)榫G色。選擇“采集以下數(shù)據(jù)”

http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html

4)選中不需要的字段,點(diǎn)擊垃圾桶圖標(biāo),可將其刪除

http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html

5)字段選擇完成后,選中相應(yīng)的字段,可以進(jìn)行字段的自定義命名。完成后,點(diǎn)擊左上角的“保存并啟動”

,啟動采集任務(wù)

http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html

6)選擇“啟動本地采集”

http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html

五、數(shù)據(jù)采集及導(dǎo)出

1)采集完成后,會跳出提示,選擇“導(dǎo)出數(shù)據(jù)”,選擇“合適的導(dǎo)出方式”,將采集好的數(shù)據(jù)導(dǎo)出

http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html

2)這里我們選擇excel作為導(dǎo)出為格式,數(shù)據(jù)導(dǎo)出后如下圖

http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html

以上就是一個采集百度地圖數(shù)據(jù)的完整示例,大家可作參考。大家如果想要采集百度地圖上的數(shù)據(jù),可按照步驟來配置規(guī)則,注意在步驟2的時候,按需輸入要查詢、采集的文本信息即可。

相關(guān)采集教程:

百度地圖坐標(biāo)內(nèi)容采集(簡易采集):

http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html

高德地圖數(shù)據(jù)采集

:

百度地圖商家地址和電話采集:

騰訊地圖采集器:

http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html/tutorialdetail-1/txdt.html58號碼采集:

http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html/tutorialdetail-1/58phonecj.html

群號碼采集:

http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html/tutorialdetail-1/qunhmcj.html

八爪魚——90萬用戶選擇的網(wǎng)頁數(shù)據(jù)采集器。

1、操作簡單,任何人都可以用:無需技術(shù)背景,會上網(wǎng)就能采集。完全可視化流程,點(diǎn)擊鼠標(biāo)完成操作,2分鐘即可快速入門。

http://./doc/9c7b240c580102020740be1e650e52ea5518ceb7.html

2、功能強(qiáng)大,任何網(wǎng)站都可以采:對于點(diǎn)擊、登陸、翻頁、識別驗證碼、瀑布流、Ajax腳本異步加載

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論