下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
復(fù)習(xí)題一、單項選擇題1、下面有關(guān)Scrapy庫說法不正確的是(A)A、Scrapy不支持XPath選擇器B、可以使用pipinstallscrapy來安裝Scrapy框架。C、可以使用scrapystartprojectxxx來創(chuàng)建scrapy爬蟲項目。D、可以使用scrapyversion命令查看scrapy的版本信息。(A)2、有關(guān)Scrapy框架不正確的是(D)A、scrapygenspiderxxx表示使用模板創(chuàng)建爬蟲項目B、可以使用scrapycrawlxxx來啟動爬蟲項目C、Pycharm中可以直接運(yùn)行Scrapy爬蟲項目。D、scrapy框架中不能使用bs4模塊解析網(wǎng)頁數(shù)據(jù)二、判斷題1、Windows下只有確保安裝了wheel、lxml、PyOpenss1、Twisted、Pywin32成功安裝后,才能安裝Scrapy。(對)2、imagespipeline是Scrapy框架中一種特殊的pipeline(管道),作用于圖片的下載。(對)3、Scrapy的配置文件settings.py,將命令“ROBOTSTXT_OBEY=True”表示不必遵守爬蟲協(xié)議。(錯)4、pipelines.py文件主要執(zhí)行保存數(shù)據(jù)的操作,數(shù)據(jù)對象來源于items.py。(對)5、Scrapy框架可以爬取Javascript等動態(tài)網(wǎng)站網(wǎng)頁。(錯)三、編程題1.請使用Scrapy爬蟲或selenium對對中國站長站素材欄目(/tupian/)的圖片進(jìn)行分頁式爬取。參考代碼:fromseleniumimportwebdriverfrommon.byimportByfromselenium.webdriver.support.uiimportWebDriverWaitimporttimeimporturllib.requestimportosbrowser=webdriver.Chrome()wait=WebDriverWait(browser,20)browser.get('/tupian/')pic_name=[]pic_url=[]defdownload_image(image_src):dirpath='downloadpic'#創(chuàng)建一個文件夾print(os.path.exists(dirpath))ifnotos.path.exists(dirpath):os.mkdir(dirpath)image_src="https:"+image_src#創(chuàng)建文件名filename=os.path.basename(image_src)#圖片路徑filepath=os.path.join(dirpath,filename)#發(fā)送請求,保存圖片headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/74.0.3729.131Safari/537.36',}request=urllib.request.Request(url=image_src,headers=headers)response=urllib.request.urlopen(request)withopen(filepath,'wb')asfp:fp.write(response.read())defparse_content():forninrange(1,41):pic_name.append(browser.find_element(By.XPATH,"http://*/div[@class='itemmasonry-brick'][{}]/div[@class='bot-div']/a[@class='name']".format(n)).text)pic_url.append(browser.find_element(By.XPATH,"http://div[@class='itemmasonry-brick'][{}]/img[@class='lazy']".format(n)).get_attribute('data-original'))forimage_srcinpic_url:download_image(image_src)time.sleep(2)#//div[@class='new-twoboxcontainer']/a[@class='nextpage']browser.find_element(By.XPATH,"http://*/div[@class='new-twoboxcontainer'
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 考研邏輯題庫及答案
- 餐飲服務(wù)考試題和答案
- 高致病性禽流感防控應(yīng)急預(yù)案
- 2026寧夏泰和新材集團(tuán)股份有限公司招聘3人備考題庫及答案詳解(奪冠系列)
- 2025江西南昌安義縣工投商業(yè)管理有限公司第四批招聘1人備考題庫及一套答案詳解
- PC結(jié)構(gòu)施工方案
- 多部門與科室消毒隔離工作協(xié)作管理機(jī)制
- 鳳城市三支一扶考試真題2025
- 2024年晉江市衛(wèi)生系統(tǒng)考試真題
- 2026江蘇揚(yáng)州經(jīng)濟(jì)技術(shù)開發(fā)區(qū)村(社區(qū))工作人員選聘26人備考題庫及完整答案詳解1套
- 環(huán)境影響評估投標(biāo)方案(技術(shù)方案)
- JTG-T3651-2022公路鋼結(jié)構(gòu)橋梁制造和安裝施工規(guī)范
- 磚瓦廠脫硝工藝
- GB/T 43731-2024生物樣本庫中生物樣本處理方法的確認(rèn)和驗證通用要求
- 河南中美鋁業(yè)有限公司登封市陳樓鋁土礦礦山地質(zhì)環(huán)境保護(hù)與土地復(fù)墾方案
- 海南省定安縣龍河鎮(zhèn)大嶺建筑用花崗巖礦山 環(huán)評報告
- 信訪工作課件
- 大學(xué)生畢業(yè)論文寫作教程全套教學(xué)課件
- 110kV旗潘線π接入社旗陌陂110kV輸電線路施工方案(OPGW光纜)解析
- 第5章 PowerPoint 2016演示文稿制作軟件
- 鼎甲異構(gòu)數(shù)據(jù)同步軟件用戶手冊
評論
0/150
提交評論