網(wǎng)絡(luò)爬蟲(chóng)項(xiàng)目實(shí)戰(zhàn) 課件6-3 房產(chǎn)Requests+Parsel+MTC爬蟲(chóng)實(shí)戰(zhàn)(課后練習(xí))_第1頁(yè)
網(wǎng)絡(luò)爬蟲(chóng)項(xiàng)目實(shí)戰(zhàn) 課件6-3 房產(chǎn)Requests+Parsel+MTC爬蟲(chóng)實(shí)戰(zhàn)(課后練習(xí))_第2頁(yè)
網(wǎng)絡(luò)爬蟲(chóng)項(xiàng)目實(shí)戰(zhàn) 課件6-3 房產(chǎn)Requests+Parsel+MTC爬蟲(chóng)實(shí)戰(zhàn)(課后練習(xí))_第3頁(yè)
網(wǎng)絡(luò)爬蟲(chóng)項(xiàng)目實(shí)戰(zhàn) 課件6-3 房產(chǎn)Requests+Parsel+MTC爬蟲(chóng)實(shí)戰(zhàn)(課后練習(xí))_第4頁(yè)
網(wǎng)絡(luò)爬蟲(chóng)項(xiàng)目實(shí)戰(zhàn) 課件6-3 房產(chǎn)Requests+Parsel+MTC爬蟲(chóng)實(shí)戰(zhàn)(課后練習(xí))_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)項(xiàng)目式教程《網(wǎng)絡(luò)爬蟲(chóng)項(xiàng)目實(shí)戰(zhàn)》入門篇項(xiàng)目6房產(chǎn)Requests+Parsel+MTC爬蟲(chóng)項(xiàng)目6.2任務(wù)分解6.1項(xiàng)目介紹6.4課后練習(xí)目錄Content6.3項(xiàng)目實(shí)施6.5能力拓展6.4課后練習(xí)1.選擇題(1)以下哪些是爬蟲(chóng)技術(shù)可能存在風(fēng)險(xiǎn)( )。A.大量占用爬取網(wǎng)站的資源

B.網(wǎng)站敏感信息的獲取造成的不良后果 C.違背網(wǎng)站爬取設(shè)置 D.以上都是(2)下列關(guān)于Python爬蟲(chóng)庫(kù)的功能,描述不正確的是( )。A.通用爬蟲(chóng)庫(kù)urllib3 B.通用爬蟲(chóng)庫(kù)Requests C.爬蟲(chóng)框架Scrapy D.HTML/XML解析器PycURL(3)Parsel由( )團(tuán)隊(duì)開(kāi)發(fā)。A.Scrapy B.Python C.Java D.C(4)Parsel這個(gè)庫(kù)可以解析( )。A.ASP B.JSP C.HTML和XML D.PHP(5)在Parsel庫(kù)中,getall()是將css()查詢到的結(jié)果轉(zhuǎn)換為Python的( )。A.字符串 B.字典 C.列表 D.元組6.4課后練習(xí)2.填空題#爬取數(shù)據(jù)defparse_page(url):#獲取網(wǎng)頁(yè)源碼

html=get_page(url)#初始化parsel.Selector()對(duì)象

selector=Selector(html)#獲取到所有class為listUnit-date的li標(biāo)簽

node_list=selector.css("div.pl2")(1)技術(shù)人員想爬取圖書(shū)信息后保存到books_raw.csv,請(qǐng)完善代碼。6.4課后練習(xí)

#遍歷標(biāo)簽,獲取標(biāo)簽中圖書(shū)的各項(xiàng)信息

fornodeinnode_list:#書(shū)名

title=node.css(“

").“

”#詳細(xì)信息

detail=node.css("

").“

detail[0]=re.sub("\\s+","",detail[0])contents=detail[0].split("

")#作者

author=contents[0].strip()#出版社

publish=contents[1].strip()#日期

date=contents[2].strip()#價(jià)格

price=contents[3].strip()#評(píng)分

score=node.css("").get()#人次

num=node.css("").get()#推薦

quote=node.css("").get()#組合成字典

dict={'書(shū)名':title,'作者':,'出版社':publish,'日期':date,'價(jià)格':,'評(píng)分':,'人次':num,'推薦':quote}#保存商品信息

withopen('books_raw.csv','a',newline="",encoding='utf-8')asf:csv_write=csv.writer(f)csv_write.writerow([title,author,publish,date,price,score,num,quote])6.4課后練習(xí)

#評(píng)分

score=node.css("

").get()#人次

num=node.css("

").get()#推薦

quote=node.css("

").get()#組合成字典

dict={'書(shū)名':title,'作者':

,

'出版社':publish,'日期':date,'價(jià)格':

,'評(píng)分':

,'人次':num,'推薦':quote}#保存商品信息

withopen('books_raw.csv','a',newline="",encoding='utf-8')asf:csv_write=csv.writer(f)csv_write.writerow([title,author,publish,date,price,score,num,quote])6.4課后練習(xí)2.填空題(2)生成的books_raw.csv中,“價(jià)格”列包含后綴“元”,“評(píng)價(jià)數(shù)”列包含前綴“(”和后綴“人評(píng)價(jià))”,技術(shù)人員想把價(jià)格和評(píng)價(jià)數(shù)去除前后綴后解析出來(lái)保存到books_clean.csv,請(qǐng)完善代碼。#-*-coding:UTF-8-*-importpandasaspd#讀入csv文件到Dataframe對(duì)象labels=['書(shū)名','作者','出版社','日期','價(jià)格','評(píng)分','人次','推薦']df=pd.read_csv("books_raw.csv",names=labels,encoding='utf-8')6.4課后練習(xí)#去重df=df.“

#剔除缺失值df=df.“

#去除單位df['價(jià)格']=df['價(jià)格'].apply(

)df['人次']=df['人次'].apply(

)#更新索引df=

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論