版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第關(guān)于python爬蟲應(yīng)用urllib庫作用分析目錄一、urllib庫是什么?二、urllib庫的使用urllib.request模塊urllib.parse模塊利用try-except,進行超時處理status狀態(tài)碼getheaders()突破反爬
一、urllib庫是什么?
urllib庫用于操作網(wǎng)頁URL,并對網(wǎng)頁的內(nèi)容進行抓取處理
urllib包包含以下幾個模塊:
urllib.request-打開和讀取URL。
urllib.error-包含urllib.request拋出的異常。
urllib.parse-解析URL。
urllib.robotparser-解析robots.txt文件
python爬蟲主要用到的urllib庫中的request和parse模塊
二、urllib庫的使用
下面我們來詳細說明一下這兩個常用模塊的基本運用
urllib.request模塊
urllib.request定義了一些打開URL的函數(shù)和類,包含授權(quán)驗證、重定向、瀏覽器cookies等。
語法如下:
urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,
capath=None,cadefault=False,context=None)
url:url地址。
data:發(fā)送到服務(wù)器的其他數(shù)據(jù)對象,默認為None。
timeout:設(shè)置訪問超時時間。
cafile和capath:cafile為CA證書,capath為CA證書的路徑,使用HTTPS需要用到。
cadefault:已經(jīng)被棄用。
context:ssl.SSLContext類型,用來指定SSL設(shè)置。
#-*-codeing=utf-8-*-
#@Author:Y-peak
#@Time:2025/9/219:24
#@FileName:testUrllib.py
#Software:PyCharm
importurllib.request
#get請求
response=urllib.request.urlopen("")#返回的是存儲網(wǎng)頁數(shù)據(jù)的對象
#print(response)可以嘗試打印一下看一下
print(response.read().decode('utf-8'))#通過read將數(shù)據(jù)讀取出來,使用utf-8解碼防止有的地方出現(xiàn)亂碼
將其打印的內(nèi)容寫到一個html文件中,打開和百度一毛一樣
#-*-codeing=utf-8-*-
#@Author:Y-peak
#@Time:2025/9/219:24
#@FileName:testUrllib.py
#Software:PyCharm
importurllib.request
response=urllib.request.urlopen("")#返回的是存儲網(wǎng)頁數(shù)據(jù)的對象
data=response.read().decode('utf-8')#通過read將數(shù)據(jù)讀取出來,使用utf-8解碼防止有的地方出現(xiàn)亂碼
#print(data)
withopen("index.html",'w',encoding='utf-8')aswfile:#或者你們也可以常規(guī)打開,不過需要最后關(guān)閉記得close()
wfile.write(data)
print("讀取結(jié)束")
urllib.parse模塊
有時我們爬蟲需要模擬瀏覽器進行用戶登錄等操作,這個時候我們就需要進行post請求
但是post必須有一個獲取請求之后的響應(yīng),也就是我們需要有一個服務(wù)器。給大家介紹一個免費的服務(wù)器網(wǎng)址,就是用來測試用的/。主要用來測試http和https的
我們可以嘗試執(zhí)行一下,去獲取對應(yīng)的響應(yīng)。
可以用Linux命令去發(fā)起請求,URL地址為/post。得到下方的響應(yīng)。
我們也可以通過爬蟲來實現(xiàn)
#-*-codeing=utf-8-*-
#@Author:Y-peak
#@Time:2025/9/219:24
#@FileName:testUrllib.py
#Software:PyCharm
importurllib.request
importurllib.parse#解析器
data=bytes(urllib.parse.urlencode({"hello":"world"}),encoding='utf-8')#轉(zhuǎn)換為二進制數(shù)據(jù)包,里面是鍵值對(有時輸入的用戶名:密碼就是這樣的),還有一些編碼解碼的數(shù)值等.這里就是按照utf-8的格式進行解析封裝生成二進制數(shù)據(jù)包
response=urllib.request.urlopen("/post",data=data)#返回的請求
print(response.read().decode('utf-8'))#通過read將數(shù)據(jù)讀取出來,使用utf-8解碼防止有的地方出現(xiàn)亂碼
兩個響應(yīng)結(jié)果對比是不是一樣幾乎
相當于進行了一次模擬的post請求。這樣有些需要登錄的網(wǎng)站也是可以爬取的。
利用try-except,進行超時處理
一般進行爬蟲時,不可能一直等待響應(yīng)。有時網(wǎng)絡(luò)不好或者網(wǎng)頁有反爬或者一些其他東西時。無法快速爬出。我們就可以進入下一個網(wǎng)頁繼續(xù)去爬。利用timeout屬性就好
#-*-codeing=utf-8-*-
#@Author:Y-peak
#@Time:2025/9/219:24
#@FileName:testUrllib.py
#Software:PyCharm
importurllib.request
response=urllib.request.urlopen("/get",timeout=0.01)#返回的是存儲網(wǎng)頁數(shù)據(jù)的對象,直接用這個網(wǎng)址的get請求了.timeout表示超時,超過0.01秒不響應(yīng)就報錯,避免持續(xù)等待
print(response.read().decode('utf-8'))#通過read將數(shù)據(jù)讀取出來,使用utf-8解碼防止有的地方出現(xiàn)亂碼
excepturllib.error.URLErrorase:
print("超時了\t\t錯誤為:",e)
status狀態(tài)碼getheaders()
status:
返回200,正確響應(yīng)可以爬取
報錯404,沒有找到網(wǎng)頁
報錯418,老子知道你就是爬蟲
getheaders():獲取ResponseHeaders
也可以通過gethead(“xx”)獲取xx對應(yīng)的值,比如:上圖gethead(content-encoding)為gzip
突破反爬
首先打開任何一個網(wǎng)頁按F12找到ResponseHeaders,拉到最下面找到User-Agent。將其復(fù)制保存下來,為反爬做準備。
下面我們進行嘗試,直接爬取豆瓣,直接來個418,知道你是爬蟲,我們來偽裝一下
為什么418呢,因為如果是直接進行請求訪問的話,發(fā)過去的User-Agent是下面的,直接告訴瀏覽器我們是爬蟲。我們需要偽裝
#-*-codeing=utf-8-*-
#@Author:Y-peak
#@Time:2025/9/219:24
#@FileName:testUrllib.py
#Software:PyCharm
importurllib.request
headers={
"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/92.0.4515.159Safari/537.36"
request=urllib.request.Request("",headers=headers)#返回的是請求,將我們偽裝成瀏覽器發(fā)送的請求
response=urllib.request.urlopen(request)#返回的是存儲網(wǎng)頁數(shù)據(jù)的對象
data=response.read().decode('utf-8')#通過read將數(shù)據(jù)讀取出來,使用utf-8解碼防止有的地方出現(xiàn)亂碼
withopen("index.html",'w',encoding='utf-8')aswfile:#或者你們也可以常規(guī)打開,不過需要最后關(guān)閉記得close()
wfile.write(data)
當然反爬不可能如此簡單,上面將講的那個post請求,也是十分常見的突破反爬的方式,不行就將整個ResponseHeaders全部模仿。下面還有個例子作為參考。和上面的post訪問的網(wǎng)址一樣
瀏覽器訪問結(jié)果
爬蟲訪問結(jié)果
#-*-codeing=utf-8-*-
#@Author:Y-peak
#@Time:2025/9/30:47
#@FileName:testUrllib.py
#Software:PyCharm
importurllib.request
importurllib.parse
headers={
"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/92.0.4515.159Safari/537.36"
url="/post"
data=(bytes)(urllib.parse.urlencode({"賬戶":"密碼"}),encoding='utf-8')
request=urllib.request.Request(url,data=data,headers=headers,meth
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 警務(wù)室調(diào)解制度
- 用電基礎(chǔ)知識培訓(xùn)
- 2025高一政治期末模擬卷01(考試版)【測試范圍:必修1全冊+必修2全冊】(新高考用)含答案
- 醫(yī)院愛崗敬業(yè)培訓(xùn)課件
- 國考公安考試試題及答案
- 2026年上半年浙江杭州市婦產(chǎn)科醫(yī)院(杭州市婦幼保健院)高層次、緊缺專業(yè)人才招聘15人(總)備考考試試題附答案解析
- 2026某事業(yè)單位招聘保潔崗位1人備考考試題庫附答案解析
- JIS D 9101-2012 自行車術(shù)語標準 Cycles - Terminology
- 2026福建福州市平潭綜合實驗區(qū)黨工委黨校(區(qū)行政學(xué)院、區(qū)社會主義學(xué)院)招聘編外工作人員1人備考考試題庫附答案解析
- 2026福建龍巖鑫達彩印有限公司龍巖鑫利來酒店分公司(第一批)招聘3人參考考試試題附答案解析
- 西藏轉(zhuǎn)移就業(yè)課件
- 2026-2031中國房地產(chǎn)估價市場分析預(yù)測研究報告
- 2025年繩索技術(shù)理論題庫及答案
- 天津市和平區(qū)2025年高二化學(xué)第一學(xué)期期末監(jiān)測試題含解析
- 供熱企業(yè)環(huán)保知識培訓(xùn)課件
- 工業(yè)園招商課件
- 護理帶教老師小講課
- 氟硅烷改性自清潔涂層的制備及性能表征
- 特警小組戰(zhàn)術(shù)課件大綱
- 電氣設(shè)備維護保養(yǎng)手冊模板
- 3.1城市的輻射功能課件-高中地理人教版選擇性必修2
評論
0/150
提交評論