大數(shù)據(jù)采集與預(yù)處理技術(shù)(微課版)課件 1.8某圖片網(wǎng)站表情圖像數(shù)據(jù)采集程序設(shè)計(jì)_第1頁(yè)
大數(shù)據(jù)采集與預(yù)處理技術(shù)(微課版)課件 1.8某圖片網(wǎng)站表情圖像數(shù)據(jù)采集程序設(shè)計(jì)_第2頁(yè)
大數(shù)據(jù)采集與預(yù)處理技術(shù)(微課版)課件 1.8某圖片網(wǎng)站表情圖像數(shù)據(jù)采集程序設(shè)計(jì)_第3頁(yè)
大數(shù)據(jù)采集與預(yù)處理技術(shù)(微課版)課件 1.8某圖片網(wǎng)站表情圖像數(shù)據(jù)采集程序設(shè)計(jì)_第4頁(yè)
大數(shù)據(jù)采集與預(yù)處理技術(shù)(微課版)課件 1.8某圖片網(wǎng)站表情圖像數(shù)據(jù)采集程序設(shè)計(jì)_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)采集與預(yù)處理技術(shù)*

*項(xiàng)目一表情圖像數(shù)據(jù)采集和預(yù)處理序號(hào)軟件配置要求1python3運(yùn)行計(jì)算機(jī)內(nèi)存8G以上2pytorch最新版本3pycharm最新版本一、項(xiàng)目目標(biāo):1、完成表情圖像數(shù)據(jù)采集環(huán)境安裝配置,掌握爬蟲必備知識(shí);2、完成表情圖像數(shù)據(jù)爬蟲采集程序設(shè)計(jì)和數(shù)據(jù)采集;3、完成表情圖像數(shù)據(jù)預(yù)處理。二、環(huán)境要求:任務(wù)二表情圖像數(shù)據(jù)采集程序一、任務(wù)目標(biāo)1、完成表情圖像數(shù)據(jù)爬蟲程序編寫;2、完成表情圖像數(shù)據(jù)的采集和保存;二、知識(shí)儲(chǔ)備1、爬蟲網(wǎng)站結(jié)構(gòu)分析;2、爬蟲程序編寫方法;1、爬蟲程序編寫1)導(dǎo)入需要的庫(kù)導(dǎo)入requests庫(kù):importrequests導(dǎo)入etree庫(kù):fromlxmlimportetree2)構(gòu)造請(qǐng)求頭信息headers={"user-agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/96.0.4664.110Safari/537.36"}3)構(gòu)造循環(huán)爬取字母A-Z的用戶照片。(請(qǐng)問(wèn)循環(huán)的含義和作用?)forclass_numberinrange(65,90):#url是需要爬取以class_number開(kāi)頭的圖片地址url='/photos/people-'+chr(class_number)+'.html’#發(fā)起請(qǐng)求response=requests.get(url,headers)#獲取返回?cái)?shù)據(jù)html_data=etree.HTML(response.text)#找到要爬取的人名及其urlcelebs_url_list=html_data.xpath('//div[@class="model_card"]/a/@href')name_list=html_data.xpath('//div[@class="model_card"]/a/div/span/text()')print(celebs_url_list)print(name_list)4)針對(duì)每個(gè)人進(jìn)行爬蟲循環(huán)foriinrange(0,len(celebs_url_list)):#獲取每個(gè)人的相應(yīng)頁(yè)面內(nèi)容person_url=''+celebs_url_list[i]person_res=requests.get(person_url,headers=headers).textperson_data=etree.HTML(person_res)#print(person_data)#查找每個(gè)人的照片頁(yè)數(shù),通過(guò)item類查找page_number_info=person_data.xpath('//li[@class="item"][last()]/a/text()')#初始化頁(yè)數(shù)是1page_num=1#如果有更多頁(yè),指向最大頁(yè)iflen(page_number_info)>0:page_num=int(page_number_info[0])print('當(dāng)前人圖像頁(yè)數(shù):{}'.format(page_num))4)針對(duì)每個(gè)人進(jìn)行爬蟲循環(huán)(接上頁(yè)循環(huán),注意每個(gè)用戶的首頁(yè)照片地址和后邊各頁(yè)地址的區(qū)別) #detail_url保存要爬取的照片列表頁(yè)地址 detail_url='' forpageinrange(1,page_num+1): ifpage==1: #第一頁(yè)使用個(gè)人頁(yè)第一頁(yè)

detail_url=person_url elifpage>1: #如果有下一頁(yè),構(gòu)造下一頁(yè)的url

detail_url=person_url+'page{}/'.format(page)5)對(duì)每張圖片進(jìn)行爬取保存#爬取每張圖片進(jìn)行保存forimage_infoinimg_url_list: image_complete_url="/"+image_info image_get_result=requests.get(image_complete_url,headers=headers).content

f=open("images/"+name_list[i]+"-"+str(page)+"-"+str(img_url_list.index(image_info))+".jpg","wb") f.write(image_get_result)2、完整代碼#導(dǎo)入需要的庫(kù)importos.pathimportrequestsfromlxmlimportetreeheaders={"user-agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/96.0.4664.110Safari/537.36"}#循環(huán)爬取字母A-B的用戶照片forclass_numberinrange(65,66):#url是需要爬取圖片的網(wǎng)頁(yè)

url='/photos/people-'+chr(class_number)+'.html'response=requests.get(url,headers)html_data=etree.HTML(response.text)celebs_url_list=html_data.xpath('//div[@class="model_card"]/a/@href')name_list=html_data.xpath('//div[@class="model_card"]/a/div/span/text()')#print(celebs_url_list)#print(name_list)foriinrange(0,len(celebs_url_list)):#獲取相應(yīng)頁(yè)面內(nèi)容

person_url=''+celebs_url_list[i]#print(person_url)person_res=requests.get(person_url,headers=headers).textperson_data=etree.HTML(person_res)#print(person_data)

#查找頁(yè)數(shù),通過(guò)item類查找

page_number_info=person_data.xpath('//li[@class="item"][last()]/a/text()')#初始化頁(yè)數(shù)是1page_num=1#如果有更多頁(yè),指向最大頁(yè)

iflen(page_number_info)>0:page_num=int(page_number_info[0])print('當(dāng)前人圖像頁(yè)數(shù):{}'.format(page_num))detail_url=''forpageinrange(1,page_num+1):ifpage==1:print("first")detail_url=person_urlelifpage>1:print("second")#如果有下一頁(yè),構(gòu)造下一頁(yè)的urldetail_url=person_url+'page{}/'.format(page)#發(fā)起請(qǐng)求

print(detail_url)res=requests.get(detail_url,headers=headers).textdata=etree.HTML(res)#圖片的urlimg_url_list=data.xpath('//div[@class="gallery-pics-listd-flexflex-wrap"][1]/div/div/a/img/@src')print(len(img_url_list))ifnotimg_url_list:print('break')break#對(duì)每張圖片進(jìn)行爬取保存

forimage_infoinimg_url_list:image_complete_url="/"+image_infoimage_get_result=requests.get(image_complete_url,headers=headers).contentf=open("images/"+name_list[i]+"-"+str(page)+"-"+str(img_url_list.index(image_info))+".jpg","wb")f.write(image_get_result)3、執(zhí)行結(jié)果部分爬取圖片列表爬取圖片結(jié)果(部分)4、拓展要求1

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論