版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)采集與預(yù)處理技術(shù)*
*項(xiàng)目一表情圖像數(shù)據(jù)采集和預(yù)處理序號(hào)軟件配置要求1python3運(yùn)行計(jì)算機(jī)內(nèi)存8G以上2pytorch最新版本3pycharm最新版本一、項(xiàng)目目標(biāo):1、完成表情圖像數(shù)據(jù)采集環(huán)境安裝配置,掌握爬蟲必備知識(shí);2、完成表情圖像數(shù)據(jù)爬蟲采集程序設(shè)計(jì)和數(shù)據(jù)采集;3、完成表情圖像數(shù)據(jù)預(yù)處理。二、環(huán)境要求:任務(wù)二表情圖像數(shù)據(jù)采集程序一、任務(wù)目標(biāo)1、完成表情圖像數(shù)據(jù)爬蟲程序編寫;2、完成表情圖像數(shù)據(jù)的采集和保存;二、知識(shí)儲(chǔ)備1、爬蟲網(wǎng)站結(jié)構(gòu)分析;2、爬蟲程序編寫方法;1、爬蟲程序編寫1)導(dǎo)入需要的庫(kù)導(dǎo)入requests庫(kù):importrequests導(dǎo)入etree庫(kù):fromlxmlimportetree2)構(gòu)造請(qǐng)求頭信息headers={"user-agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/96.0.4664.110Safari/537.36"}3)構(gòu)造循環(huán)爬取字母A-Z的用戶照片。(請(qǐng)問(wèn)循環(huán)的含義和作用?)forclass_numberinrange(65,90):#url是需要爬取以class_number開(kāi)頭的圖片地址url='/photos/people-'+chr(class_number)+'.html’#發(fā)起請(qǐng)求response=requests.get(url,headers)#獲取返回?cái)?shù)據(jù)html_data=etree.HTML(response.text)#找到要爬取的人名及其urlcelebs_url_list=html_data.xpath('//div[@class="model_card"]/a/@href')name_list=html_data.xpath('//div[@class="model_card"]/a/div/span/text()')print(celebs_url_list)print(name_list)4)針對(duì)每個(gè)人進(jìn)行爬蟲循環(huán)foriinrange(0,len(celebs_url_list)):#獲取每個(gè)人的相應(yīng)頁(yè)面內(nèi)容person_url=''+celebs_url_list[i]person_res=requests.get(person_url,headers=headers).textperson_data=etree.HTML(person_res)#print(person_data)#查找每個(gè)人的照片頁(yè)數(shù),通過(guò)item類查找page_number_info=person_data.xpath('//li[@class="item"][last()]/a/text()')#初始化頁(yè)數(shù)是1page_num=1#如果有更多頁(yè),指向最大頁(yè)iflen(page_number_info)>0:page_num=int(page_number_info[0])print('當(dāng)前人圖像頁(yè)數(shù):{}'.format(page_num))4)針對(duì)每個(gè)人進(jìn)行爬蟲循環(huán)(接上頁(yè)循環(huán),注意每個(gè)用戶的首頁(yè)照片地址和后邊各頁(yè)地址的區(qū)別) #detail_url保存要爬取的照片列表頁(yè)地址 detail_url='' forpageinrange(1,page_num+1): ifpage==1: #第一頁(yè)使用個(gè)人頁(yè)第一頁(yè)
detail_url=person_url elifpage>1: #如果有下一頁(yè),構(gòu)造下一頁(yè)的url
detail_url=person_url+'page{}/'.format(page)5)對(duì)每張圖片進(jìn)行爬取保存#爬取每張圖片進(jìn)行保存forimage_infoinimg_url_list: image_complete_url="/"+image_info image_get_result=requests.get(image_complete_url,headers=headers).content
f=open("images/"+name_list[i]+"-"+str(page)+"-"+str(img_url_list.index(image_info))+".jpg","wb") f.write(image_get_result)2、完整代碼#導(dǎo)入需要的庫(kù)importos.pathimportrequestsfromlxmlimportetreeheaders={"user-agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/96.0.4664.110Safari/537.36"}#循環(huán)爬取字母A-B的用戶照片forclass_numberinrange(65,66):#url是需要爬取圖片的網(wǎng)頁(yè)
url='/photos/people-'+chr(class_number)+'.html'response=requests.get(url,headers)html_data=etree.HTML(response.text)celebs_url_list=html_data.xpath('//div[@class="model_card"]/a/@href')name_list=html_data.xpath('//div[@class="model_card"]/a/div/span/text()')#print(celebs_url_list)#print(name_list)foriinrange(0,len(celebs_url_list)):#獲取相應(yīng)頁(yè)面內(nèi)容
person_url=''+celebs_url_list[i]#print(person_url)person_res=requests.get(person_url,headers=headers).textperson_data=etree.HTML(person_res)#print(person_data)
#查找頁(yè)數(shù),通過(guò)item類查找
page_number_info=person_data.xpath('//li[@class="item"][last()]/a/text()')#初始化頁(yè)數(shù)是1page_num=1#如果有更多頁(yè),指向最大頁(yè)
iflen(page_number_info)>0:page_num=int(page_number_info[0])print('當(dāng)前人圖像頁(yè)數(shù):{}'.format(page_num))detail_url=''forpageinrange(1,page_num+1):ifpage==1:print("first")detail_url=person_urlelifpage>1:print("second")#如果有下一頁(yè),構(gòu)造下一頁(yè)的urldetail_url=person_url+'page{}/'.format(page)#發(fā)起請(qǐng)求
print(detail_url)res=requests.get(detail_url,headers=headers).textdata=etree.HTML(res)#圖片的urlimg_url_list=data.xpath('//div[@class="gallery-pics-listd-flexflex-wrap"][1]/div/div/a/img/@src')print(len(img_url_list))ifnotimg_url_list:print('break')break#對(duì)每張圖片進(jìn)行爬取保存
forimage_infoinimg_url_list:image_complete_url="/"+image_infoimage_get_result=requests.get(image_complete_url,headers=headers).contentf=open("images/"+name_list[i]+"-"+str(page)+"-"+str(img_url_list.index(image_info))+".jpg","wb")f.write(image_get_result)3、執(zhí)行結(jié)果部分爬取圖片列表爬取圖片結(jié)果(部分)4、拓展要求1
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年?yáng)|城街道辦事處招聘工作人員23人備考題庫(kù)帶答案詳解
- 2025年海南大學(xué)儋州校區(qū)醫(yī)院公開(kāi)招聘高層次人才的備考題庫(kù)及答案詳解1套
- 2025年武漢情智學(xué)校招聘?jìng)淇碱}庫(kù)及答案詳解1套
- 2025年通遼一學(xué)校招聘37人備考題庫(kù)完整參考答案詳解
- 2025年眉山市中醫(yī)醫(yī)院招聘人才的備考題庫(kù)及一套答案詳解
- 2025年深圳市深汕特別合作區(qū)引進(jìn)基層醫(yī)療人才11人備考題庫(kù)及完整答案詳解一套
- 2025年深圳市南山區(qū)桃源卓雅幼兒園招聘?jìng)淇碱}庫(kù)完整答案詳解
- 課題2 水的組成(同步講義)初中化學(xué)人教版(2024)九年級(jí)上冊(cè) 第四單元 自然界的水(解析版)
- 2025年齊齊哈爾市總工會(huì)工會(huì)社會(huì)工作者招聘?jìng)淇碱}庫(kù)附答案詳解
- 2025年心血管內(nèi)科科研助理招聘?jìng)淇碱}庫(kù)及完整答案詳解1套
- 2026成方金融信息技術(shù)服務(wù)有限公司校園招聘5人考試題庫(kù)附答案
- 2025年中職計(jì)算機(jī)應(yīng)用(計(jì)算機(jī)網(wǎng)絡(luò)基礎(chǔ))試題及答案
- 車輛租賃服務(wù)協(xié)議書
- 2025安徽安慶市公安機(jī)關(guān)招聘警務(wù)輔助人員418人備考筆試題庫(kù)及答案解析
- 2024年廣州市南沙區(qū)南沙街道社區(qū)專職招聘考試真題
- 2026年牡丹江大學(xué)單招職業(yè)技能考試題庫(kù)新版
- MOOC 國(guó)際商務(wù)-暨南大學(xué) 中國(guó)大學(xué)慕課答案
- 《郵儲(chǔ)業(yè)務(wù)介紹》課件
- 醫(yī)療器械臨床評(píng)價(jià)報(bào)告模板
- 污染場(chǎng)地調(diào)查評(píng)價(jià)與修復(fù)
- 生物計(jì)算機(jī)課件
評(píng)論
0/150
提交評(píng)論