關(guān)于python爬蟲應(yīng)用urllib庫作用分析_第1頁
關(guān)于python爬蟲應(yīng)用urllib庫作用分析_第2頁
關(guān)于python爬蟲應(yīng)用urllib庫作用分析_第3頁
關(guān)于python爬蟲應(yīng)用urllib庫作用分析_第4頁
關(guān)于python爬蟲應(yīng)用urllib庫作用分析_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第關(guān)于python爬蟲應(yīng)用urllib庫作用分析目錄一、urllib庫是什么?二、urllib庫的使用urllib.request模塊urllib.parse模塊利用try-except,進行超時處理status狀態(tài)碼getheaders()突破反爬

一、urllib庫是什么?

urllib庫用于操作網(wǎng)頁URL,并對網(wǎng)頁的內(nèi)容進行抓取處理

urllib包包含以下幾個模塊:

urllib.request-打開和讀取URL。

urllib.error-包含urllib.request拋出的異常。

urllib.parse-解析URL。

urllib.robotparser-解析robots.txt文件

python爬蟲主要用到的urllib庫中的request和parse模塊

二、urllib庫的使用

下面我們來詳細說明一下這兩個常用模塊的基本運用

urllib.request模塊

urllib.request定義了一些打開URL的函數(shù)和類,包含授權(quán)驗證、重定向、瀏覽器cookies等。

語法如下:

urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,

capath=None,cadefault=False,context=None)

url:url地址。

data:發(fā)送到服務(wù)器的其他數(shù)據(jù)對象,默認為None。

timeout:設(shè)置訪問超時時間。

cafile和capath:cafile為CA證書,capath為CA證書的路徑,使用HTTPS需要用到。

cadefault:已經(jīng)被棄用。

context:ssl.SSLContext類型,用來指定SSL設(shè)置。

#-*-codeing=utf-8-*-

#@Author:Y-peak

#@Time:2025/9/219:24

#@FileName:testUrllib.py

#Software:PyCharm

importurllib.request

#get請求

response=urllib.request.urlopen("")#返回的是存儲網(wǎng)頁數(shù)據(jù)的對象

#print(response)可以嘗試打印一下看一下

print(response.read().decode('utf-8'))#通過read將數(shù)據(jù)讀取出來,使用utf-8解碼防止有的地方出現(xiàn)亂碼

將其打印的內(nèi)容寫到一個html文件中,打開和百度一毛一樣

#-*-codeing=utf-8-*-

#@Author:Y-peak

#@Time:2025/9/219:24

#@FileName:testUrllib.py

#Software:PyCharm

importurllib.request

response=urllib.request.urlopen("")#返回的是存儲網(wǎng)頁數(shù)據(jù)的對象

data=response.read().decode('utf-8')#通過read將數(shù)據(jù)讀取出來,使用utf-8解碼防止有的地方出現(xiàn)亂碼

#print(data)

withopen("index.html",'w',encoding='utf-8')aswfile:#或者你們也可以常規(guī)打開,不過需要最后關(guān)閉記得close()

wfile.write(data)

print("讀取結(jié)束")

urllib.parse模塊

有時我們爬蟲需要模擬瀏覽器進行用戶登錄等操作,這個時候我們就需要進行post請求

但是post必須有一個獲取請求之后的響應(yīng),也就是我們需要有一個服務(wù)器。給大家介紹一個免費的服務(wù)器網(wǎng)址,就是用來測試用的/。主要用來測試http和https的

我們可以嘗試執(zhí)行一下,去獲取對應(yīng)的響應(yīng)。

可以用Linux命令去發(fā)起請求,URL地址為/post。得到下方的響應(yīng)。

我們也可以通過爬蟲來實現(xiàn)

#-*-codeing=utf-8-*-

#@Author:Y-peak

#@Time:2025/9/219:24

#@FileName:testUrllib.py

#Software:PyCharm

importurllib.request

importurllib.parse#解析器

data=bytes(urllib.parse.urlencode({"hello":"world"}),encoding='utf-8')#轉(zhuǎn)換為二進制數(shù)據(jù)包,里面是鍵值對(有時輸入的用戶名:密碼就是這樣的),還有一些編碼解碼的數(shù)值等.這里就是按照utf-8的格式進行解析封裝生成二進制數(shù)據(jù)包

response=urllib.request.urlopen("/post",data=data)#返回的請求

print(response.read().decode('utf-8'))#通過read將數(shù)據(jù)讀取出來,使用utf-8解碼防止有的地方出現(xiàn)亂碼

兩個響應(yīng)結(jié)果對比是不是一樣幾乎

相當于進行了一次模擬的post請求。這樣有些需要登錄的網(wǎng)站也是可以爬取的。

利用try-except,進行超時處理

一般進行爬蟲時,不可能一直等待響應(yīng)。有時網(wǎng)絡(luò)不好或者網(wǎng)頁有反爬或者一些其他東西時。無法快速爬出。我們就可以進入下一個網(wǎng)頁繼續(xù)去爬。利用timeout屬性就好

#-*-codeing=utf-8-*-

#@Author:Y-peak

#@Time:2025/9/219:24

#@FileName:testUrllib.py

#Software:PyCharm

importurllib.request

response=urllib.request.urlopen("/get",timeout=0.01)#返回的是存儲網(wǎng)頁數(shù)據(jù)的對象,直接用這個網(wǎng)址的get請求了.timeout表示超時,超過0.01秒不響應(yīng)就報錯,避免持續(xù)等待

print(response.read().decode('utf-8'))#通過read將數(shù)據(jù)讀取出來,使用utf-8解碼防止有的地方出現(xiàn)亂碼

excepturllib.error.URLErrorase:

print("超時了\t\t錯誤為:",e)

status狀態(tài)碼getheaders()

status:

返回200,正確響應(yīng)可以爬取

報錯404,沒有找到網(wǎng)頁

報錯418,老子知道你就是爬蟲

getheaders():獲取ResponseHeaders

也可以通過gethead(“xx”)獲取xx對應(yīng)的值,比如:上圖gethead(content-encoding)為gzip

突破反爬

首先打開任何一個網(wǎng)頁按F12找到ResponseHeaders,拉到最下面找到User-Agent。將其復(fù)制保存下來,為反爬做準備。

下面我們進行嘗試,直接爬取豆瓣,直接來個418,知道你是爬蟲,我們來偽裝一下

為什么418呢,因為如果是直接進行請求訪問的話,發(fā)過去的User-Agent是下面的,直接告訴瀏覽器我們是爬蟲。我們需要偽裝

#-*-codeing=utf-8-*-

#@Author:Y-peak

#@Time:2025/9/219:24

#@FileName:testUrllib.py

#Software:PyCharm

importurllib.request

headers={

"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/92.0.4515.159Safari/537.36"

request=urllib.request.Request("",headers=headers)#返回的是請求,將我們偽裝成瀏覽器發(fā)送的請求

response=urllib.request.urlopen(request)#返回的是存儲網(wǎng)頁數(shù)據(jù)的對象

data=response.read().decode('utf-8')#通過read將數(shù)據(jù)讀取出來,使用utf-8解碼防止有的地方出現(xiàn)亂碼

withopen("index.html",'w',encoding='utf-8')aswfile:#或者你們也可以常規(guī)打開,不過需要最后關(guān)閉記得close()

wfile.write(data)

當然反爬不可能如此簡單,上面將講的那個post請求,也是十分常見的突破反爬的方式,不行就將整個ResponseHeaders全部模仿。下面還有個例子作為參考。和上面的post訪問的網(wǎng)址一樣

瀏覽器訪問結(jié)果

爬蟲訪問結(jié)果

#-*-codeing=utf-8-*-

#@Author:Y-peak

#@Time:2025/9/30:47

#@FileName:testUrllib.py

#Software:PyCharm

importurllib.request

importurllib.parse

headers={

"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/92.0.4515.159Safari/537.36"

url="/post"

data=(bytes)(urllib.parse.urlencode({"賬戶":"密碼"}),encoding='utf-8')

request=urllib.request.Request(url,data=data,headers=headers,meth

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論