大數(shù)據(jù)采集與預(yù)處理技術(shù)(微課版)課件 1.9百度表情圖像數(shù)據(jù)采集程序設(shè)計(jì)_第1頁(yè)
大數(shù)據(jù)采集與預(yù)處理技術(shù)(微課版)課件 1.9百度表情圖像數(shù)據(jù)采集程序設(shè)計(jì)_第2頁(yè)
大數(shù)據(jù)采集與預(yù)處理技術(shù)(微課版)課件 1.9百度表情圖像數(shù)據(jù)采集程序設(shè)計(jì)_第3頁(yè)
大數(shù)據(jù)采集與預(yù)處理技術(shù)(微課版)課件 1.9百度表情圖像數(shù)據(jù)采集程序設(shè)計(jì)_第4頁(yè)
大數(shù)據(jù)采集與預(yù)處理技術(shù)(微課版)課件 1.9百度表情圖像數(shù)據(jù)采集程序設(shè)計(jì)_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)采集與預(yù)處理技術(shù)*

*項(xiàng)目一表情圖像數(shù)據(jù)采集和預(yù)處理序號(hào)軟件配置要求1python3運(yùn)行計(jì)算機(jī)內(nèi)存8G以上2pytorch最新版本3pycharm最新版本一、項(xiàng)目目標(biāo):1、完成表情圖像數(shù)據(jù)采集環(huán)境安裝配置,掌握爬蟲(chóng)必備知識(shí);2、完成表情圖像數(shù)據(jù)爬蟲(chóng)采集程序設(shè)計(jì)和數(shù)據(jù)采集;3、完成表情圖像數(shù)據(jù)預(yù)處理。二、環(huán)境要求:任務(wù)二表情圖像數(shù)據(jù)采集程序一、任務(wù)目標(biāo)1、完成表情圖像數(shù)據(jù)爬蟲(chóng)程序編寫(xiě);2、完成表情圖像數(shù)據(jù)的采集和保存;二、知識(shí)儲(chǔ)備1、爬蟲(chóng)網(wǎng)站結(jié)構(gòu)分析;2、爬蟲(chóng)程序編寫(xiě)方法;1、爬蟲(chóng)程序編寫(xiě)1)導(dǎo)入需要的庫(kù)導(dǎo)入requests庫(kù): importrequests導(dǎo)入其它依賴庫(kù): importos importre2)構(gòu)造請(qǐng)求頭信息header={'User-Agent':'Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/78.0.3904.108Safari/537.36'}3)請(qǐng)求地址url='/search/acjson?'#請(qǐng)求的url4)構(gòu)造請(qǐng)求參數(shù)使用chrome瀏覽器,按F12,搜索圖片,在選擇“Network”選項(xiàng),在其下面選項(xiàng)中找到“Fetch/XHR”。在下方找到“Name”選項(xiàng),該選項(xiàng)下面往往會(huì)有多個(gè)ULR地址,選擇目標(biāo)鏈接并點(diǎn)擊。在右方會(huì)出現(xiàn)“Headers”、“Cookie”等功能選項(xiàng),在Headers選項(xiàng)下方有“RequestHeaders”,這里是我們構(gòu)造爬蟲(chóng)的headers的參考值。RequestURL帶的參數(shù)一般都需要添加的請(qǐng)求參數(shù)中。4)構(gòu)造請(qǐng)求參數(shù)param={'tn':'resultjson_com',#告訴服務(wù)器以json種格式返回?cái)?shù)據(jù)

'logid':'7603311155072595725',#用于跟蹤和識(shí)別特定請(qǐng)求的唯一標(biāo)識(shí)符

'ipn':'rj',#ipn輸入?yún)?shù)名(inputparametername),'rj'表示輸入是json格式

'ct':201326592,#請(qǐng)求百度圖片的必要參數(shù),根據(jù)請(qǐng)求URL的實(shí)際值添加

'is':'',#請(qǐng)求百度圖片的必要參數(shù),根據(jù)請(qǐng)求URL的實(shí)際值添加

'fp':'result',#fb反饋狀態(tài),搜索操作的返回結(jié)果

'queryWord':keyword,#要搜索的關(guān)鍵字

'cl':2,#搜索結(jié)果的內(nèi)容級(jí)別,通常與所搜索的圖像的質(zhì)量、類型或者其他特征相關(guān)

'lm':-1,#內(nèi)容過(guò)濾模式,可以根據(jù)請(qǐng)求URL的實(shí)際值添加

'ie':'utf-8',#輸入內(nèi)容編碼

'oe':'utf-8',#輸出內(nèi)容編碼

'adpicid':'',#表示特定推薦圖像的ID值,實(shí)際不需要

'st':-1,#請(qǐng)求百度圖片的必要參數(shù),根據(jù)請(qǐng)求URL的實(shí)際值添加

'z':'','ic':'','hd':'','latest':'',#請(qǐng)求參數(shù),可以根據(jù)百度圖片搜索請(qǐng)求URL的實(shí)際值添加

'copyright':'',#版權(quán)

'word':keyword,#請(qǐng)求關(guān)鍵字

's':'','se':'','tab':'','width':'','height':'',#請(qǐng)求圖片的其它參數(shù)設(shè)置

'face':0,#在搜索結(jié)果中不關(guān)注特定的相關(guān)內(nèi)容

'istype':2,#用于指定搜索到的圖片類型

'qc':'',#請(qǐng)求參數(shù),可以根據(jù)百度圖片搜索請(qǐng)求URL的實(shí)際值添加

'nc':'1',#使用緩存

'fr':'','expermode':'','force':'','cg':'',#請(qǐng)求參數(shù),可以根據(jù)百度圖片搜索請(qǐng)求URL的實(shí)際值添加

'pn':pn,#圖片開(kāi)始序號(hào)30-60-90'rn':'30',#每頁(yè)顯示30條

'gsm':'1e',#請(qǐng)求參數(shù),可以根據(jù)百度圖片搜索請(qǐng)求URL的實(shí)際值添加

'1618827096642':''#可以根據(jù)百度圖片搜索請(qǐng)求URL的實(shí)際參數(shù)值添加或刪除

}5)請(qǐng)求訪問(wèn)forpninrange(0,30*page_num,30):#param定義參看上頁(yè)P(yáng)PTn=0request=requests.get(url=url,headers=header,params=param)ifrequest.status_code==200:print('Requestsuccess.')request.encoding='utf-8'#正則方式提取圖片鏈接

html=request.text

image_url_list=re.findall('"thumbURL":"(.*?)",',html,re.S) #由于返回值是json格式,使用正則解析更方便ifnotos.path.exists(save_dir):os.makedirs(save_dir)forimage_urlinimage_url_list:image_data=requests.get(url=image_url,headers=header).contentwithopen(os.path.join(save_dir,f'{n:06d}.jpg'),'wb')asfp:fp.write(image_data)n=n+16)函數(shù)調(diào)用if__name__=="__main__":keyword='恐懼真人'page_num=1page_num=int(page_num)save_dir='.\\圖片\\'+keywordget_images_from_baidu(keyword,page_num,save_dir)2、完整代碼importrequestsimportosimportredefget_images_from_baidu(keyword,page_num,save_dir):header={'User-Agent':'Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/78.0.3904.108Safari/537.36'}url='/search/acjson?'#請(qǐng)求的urlforpninrange(0,30*page_num,30):#請(qǐng)求參數(shù)定義

n=0request=requests.get(url=url,headers=header,params=param)ifrequest.status_code==200:print('Requestsuccess.')request.encoding='utf-8'#正則方式提取圖片鏈接

html=request.textimage_url_list=re.findall('"thumbURL":"(.*?)",',html,re.S)ifnotos.path.exists(save_dir):os.makedirs(save_dir)forimage_urlinimage_url_list:image_data=requests.get(url=image_url,headers=header).contentwithopen(os.path.join(save_dir,f'{n:06d}.jpg'),'wb')asfp:fp.write(image_data)n=n+1param={'tn':'resultjson_com',#告訴服務(wù)器以json種格式返回?cái)?shù)據(jù)

'logid':'7603311155072595725',#用于跟蹤和識(shí)別特定請(qǐng)求的唯一標(biāo)識(shí)符

'ipn':'rj',#ipn輸入?yún)?shù)名(inputparametername),'rj'表示輸入是json格式

'ct':201326592,#請(qǐng)求百度圖片的必要參數(shù),根據(jù)請(qǐng)求URL的實(shí)際值添加

'is':'',#請(qǐng)求百度圖片的必要參數(shù),根據(jù)請(qǐng)求URL的實(shí)際值添加

'fp':'result',#fb反饋狀態(tài),搜索操作的返回結(jié)果

'queryWord':keyword,#要搜索的關(guān)鍵字

'cl':2,#搜索結(jié)果的內(nèi)容級(jí)別,與所搜索的圖像的質(zhì)量、類型或者其他特征相關(guān)

'lm':-1,#內(nèi)容過(guò)濾模式,可以根據(jù)請(qǐng)求URL的實(shí)際值添加

'ie':'utf-8',#輸入內(nèi)容編碼

'oe':'utf-8',#輸出內(nèi)容編碼

'adpicid':'',#表示特定推薦圖像的ID值,實(shí)際不需要

'st':-1,#請(qǐng)求百度圖片的必要參數(shù),根據(jù)請(qǐng)求URL的實(shí)際值添加

'z':'','ic':'','hd':'','latest':'',#請(qǐng)求參數(shù),可以根據(jù)百度圖片搜索請(qǐng)求URL的實(shí)際值添加

'copyright':'',#版權(quán)

'word':keyword,#請(qǐng)求關(guān)鍵字

's':'','se':'','tab':'','width':'','height':'',#請(qǐng)求圖片的其它參數(shù)設(shè)置

'face':0,#在搜索結(jié)果中不關(guān)注特定的相關(guān)內(nèi)容

'istype':2,#用于指定搜索到的圖片類型

'qc':'',#請(qǐng)求參數(shù),可以根據(jù)百度圖片搜索請(qǐng)求URL的實(shí)際值添加

'nc':'1',#使用緩存

'fr':'','expermode'

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論