《Python網(wǎng)絡(luò)爬蟲(chóng)技術(shù)(第2版)(微課版)》習(xí)題 池瑞楠_第1頁(yè)
《Python網(wǎng)絡(luò)爬蟲(chóng)技術(shù)(第2版)(微課版)》習(xí)題 池瑞楠_第2頁(yè)
《Python網(wǎng)絡(luò)爬蟲(chóng)技術(shù)(第2版)(微課版)》習(xí)題 池瑞楠_第3頁(yè)
《Python網(wǎng)絡(luò)爬蟲(chóng)技術(shù)(第2版)(微課版)》習(xí)題 池瑞楠_第4頁(yè)
《Python網(wǎng)絡(luò)爬蟲(chóng)技術(shù)(第2版)(微課版)》習(xí)題 池瑞楠_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

項(xiàng)目

了解爬蟲(chóng)與Python爬蟲(chóng)環(huán)境選擇題(1)下列不屬于常見(jiàn)爬蟲(chóng)類(lèi)型的是()。A.通用網(wǎng)絡(luò)爬蟲(chóng) B.增量式網(wǎng)絡(luò)爬蟲(chóng)C.表層網(wǎng)絡(luò)爬蟲(chóng) D.聚焦網(wǎng)絡(luò)爬蟲(chóng)(2)下列不屬于增量式網(wǎng)絡(luò)爬蟲(chóng)的常用方法的是()。A.統(tǒng)一更新法 B.個(gè)體更新法C.基于分類(lèi)的更新法 D.基于聚合的更新法(3)下列不屬于反爬蟲(chóng)的手段是()。A.發(fā)送模擬User-Agent B.提高訪問(wèn)頻度C.識(shí)別驗(yàn)證碼 D.使用代理IP地址(4)下列選項(xiàng)中合法的是()。A.爬取百度的搜索結(jié)果 B.爬取淘寶上競(jìng)爭(zhēng)對(duì)手的商品銷(xiāo)售數(shù)據(jù)C.出售網(wǎng)站用戶的個(gè)人信息 D.為電信詐騙分子提供技術(shù)服務(wù)(5)下列關(guān)于Python爬蟲(chóng)庫(kù)的功能,描述不正確的是()。A.通用爬蟲(chóng)庫(kù)—urllib3 B.通用爬蟲(chóng)庫(kù)—RequestsC.爬蟲(chóng)框架—Scrapy D.HTML/XML解析器—urllib(6)下列是Python自帶的IDE是()。A.VSCode B.PyCharm C.JupyterNotebook D.IDLE(7)下列關(guān)于數(shù)據(jù)庫(kù)描述錯(cuò)誤的是()。A.在Linux操作系統(tǒng)下,查看MySQL8.0.13數(shù)據(jù)庫(kù)默認(rèn)密碼的命令是:grep'password'/var/log/mysqld.logB.在Windows操作系統(tǒng)下,啟動(dòng)MySQL服務(wù)的命令是:servicemysqldstartC.在Windows操作系統(tǒng)下,MySQL的端口號(hào)默認(rèn)是3306D.MongoDB介于關(guān)系數(shù)據(jù)庫(kù)和非關(guān)系數(shù)據(jù)庫(kù)之間,是最為接近關(guān)系數(shù)據(jù)庫(kù)的、功能最豐富的非關(guān)系數(shù)據(jù)庫(kù)

項(xiàng)目

爬蟲(chóng)基礎(chǔ)知識(shí)準(zhǔn)備1.選擇題(1)下列哪個(gè)HTML標(biāo)簽可以實(shí)現(xiàn)圖片的加載?()A.<img></img> B.<p></p> C.<src></src> D.<h1></h1>(2)在網(wǎng)頁(yè)中,正文內(nèi)容一般都放在哪個(gè)標(biāo)簽中?()A.<!DOCTYPE> B.<html></html>C.<head></head> D.<body></body>(3)在超鏈接標(biāo)簽<a></a>中,通過(guò)屬性()來(lái)指定超鏈接跳轉(zhuǎn)到的網(wǎng)址。A.href B.src C.class D.id(4)下列不屬于HTTP請(qǐng)求方法的是()。A.GET B.POST C.TRACE D.OPTION(5)HTTP狀態(tài)碼由3位數(shù)字組成,下列哪個(gè)不是常見(jiàn)的客戶端請(qǐng)求成功的狀態(tài)碼?()A.404 B.503 C.333 D.200(6)HTTP頭部類(lèi)型按用途不包括下列哪個(gè)類(lèi)型?()A.通用頭 B.回復(fù)頭 C.請(qǐng)求頭 D.響應(yīng)頭(7)Cookie存儲(chǔ)在()。A.服務(wù)器端 B.客戶端瀏覽器C.客戶端和服務(wù)器端 D.不保存2.操作題(1)使用瀏覽器打開(kāi)百度首頁(yè)“”,查看網(wǎng)頁(yè)的源代碼,分析網(wǎng)頁(yè)的基本結(jié)構(gòu)和網(wǎng)頁(yè)中用到的標(biāo)簽。(2)使用開(kāi)發(fā)者工具查看訪問(wèn)百度首頁(yè)“”的過(guò)程中,資源加載的情況。分析請(qǐng)求方法、響應(yīng)狀態(tài)碼、頭部信息字段及Cookie信息。

項(xiàng)目

簡(jiǎn)獲1.選擇題(1)使用Chrome開(kāi)發(fā)者工具查看User-Agent值時(shí),通常通過(guò)哪個(gè)面板查看?()A.“元素”面板 B.“源代碼”面板C.“網(wǎng)絡(luò)”面板 D.“內(nèi)存”面板(2)使用requests.get()發(fā)送請(qǐng)求時(shí),下列哪個(gè)參數(shù)是必須的?()A.url B.header C.headers D.method(3)當(dāng)使用Xpath定位下面代碼中的<p></p>標(biāo)簽時(shí),下列哪個(gè)選項(xiàng)的Xpath規(guī)則是正確的?()<html><body><divid="author"class="name"><pclass="detail">Lucy</p></div></body></html>A.//div[class="name"]/p B.//div[@class="name"]/pC.//p[@id="author"] D./html/body/p(4)使用BeautifulSoup的select()方法定位第(3)題中的<p>標(biāo)簽,下列哪個(gè)選擇器的寫(xiě)法是正確的?()A.p#detail B.>p C.<p D.div#author//p(5)將正則表達(dá)式寫(xiě)成[0-9]*[abc],可以匹配下列哪個(gè)字符串?()A.123? B.123*a C.1ab D.1a(6)下列關(guān)于JSON模塊描述錯(cuò)誤的是()。A.dumps函數(shù)返回的結(jié)果是一個(gè)字符串B.dump函數(shù)將JSON對(duì)象轉(zhuǎn)換為Python對(duì)象C.將數(shù)據(jù)存儲(chǔ)為JSON文件是一個(gè)編碼過(guò)程D.JSON模塊可實(shí)現(xiàn)在Python中對(duì)JSON編碼及解碼的兩種操作(7)在pymysql.connect函數(shù)中,下列哪個(gè)參數(shù)用來(lái)接收要建立連接的數(shù)據(jù)庫(kù)庫(kù)名?()A.password B.user C.database D.host2.操作題通過(guò)使用Xpath或BeautifulSoup庫(kù),獲取虎撲—?dú)v史欄目中各帖子的標(biāo)題、標(biāo)題的超鏈接地址。同時(shí),在本地?cái)?shù)據(jù)庫(kù)中新建一個(gè)html_text表,要求該表有兩列,列名為“標(biāo)題”“鏈接”,分別用于存儲(chǔ)標(biāo)題和標(biāo)題相對(duì)應(yīng)的鏈接。將爬取下來(lái)的多個(gè)帖子的數(shù)據(jù)按行插入html_text表中,并查看數(shù)據(jù)是否存儲(chǔ)成功。項(xiàng)目

爬取動(dòng)態(tài)網(wǎng)頁(yè)—獲取圖書(shū)基本信息1.選擇題(1)Selenium庫(kù)不支持下列哪個(gè)瀏覽器?()A.QQ瀏覽器 B.Chrome瀏覽器C.Edge瀏覽器 D.Firefox瀏覽器(2)當(dāng)使用Selenium庫(kù)的find_element()方法定位單個(gè)元素時(shí),哪種是依據(jù)標(biāo)簽中的文本內(nèi)容定位?()A.By.ID B.By.XPATH C.By.LINK_TEXT D.By.NAME(3)當(dāng)通過(guò)逆向分析定位數(shù)據(jù)所在的網(wǎng)址時(shí),需要用到的面板是()。A.“元素”面板 B.“控制臺(tái)”面板C.“網(wǎng)絡(luò)”面板 D.“安全”面板(4)若需要定位文本輸入框,并向其中輸入文字,需要加載下列哪個(gè)模塊?()A.frommon.keysimportKeysB.frommon.keysimportKeyC.frommon.keyimportKeysD.frommonimportKeys(5)若A.click() B.send_key() C.clicks() D.send_keys()(6)若單擊某鏈接,打開(kāi)了一個(gè)新窗口,想要截圖新窗口中內(nèi)容,則需要()。A.直接截圖B.獲取窗口句柄、切換到新窗口、截圖C.獲取窗口句柄、截圖D.不需要窗口句柄、直接切換到新窗口、截圖(7)下列哪條代碼不能成功連接到MongoDB數(shù)據(jù)庫(kù)()。A.pymongo.MongoClient()B.pymongo.MongoClient(27017)C.pymongo.MongoClient('localhost')D.pymongo.MongoClient('localhost',27017)2.操作題(1)內(nèi)推是企業(yè)一種比較新穎的招聘方式,通過(guò)內(nèi)推能夠讓人才更高效、自由的流動(dòng),使招聘變得更有效率、更具情感。通過(guò)逆向分析法獲取泰迪內(nèi)推平臺(tái)首頁(yè)“/#/index”中“熱門(mén)職位”欄下的職位名稱。(2)使用Selenium庫(kù)打開(kāi)中國(guó)新聞網(wǎng)官網(wǎng)“”,獲取當(dāng)前頁(yè)面中的導(dǎo)航標(biāo)題、標(biāo)題對(duì)應(yīng)的超鏈接網(wǎng)址,并將獲取到的文本內(nèi)容存儲(chǔ)到MongoDB數(shù)據(jù)庫(kù)中。

項(xiàng)目

模擬登錄—登錄某企業(yè)官網(wǎng)1.選擇題(1)驗(yàn)證碼的作用不包括()。A.防止惡意破解密碼B.防止機(jī)器刷票C.防止論壇“灌水”D.防止惡意訪問(wèn)網(wǎng)站(2)表單登錄需要使用的請(qǐng)求方法是()。A.GET B.POST C.PUT D.DELETE(3)【多選題】使用Requests庫(kù)的get()方法設(shè)置發(fā)送請(qǐng)求,攜帶Cookie的參數(shù)是cookies,它接收的數(shù)據(jù)類(lèi)型包括()。A.dict B.CookieJar C.list D.str(4)關(guān)于LWPCookieJar對(duì)象,下列說(shuō)法錯(cuò)誤的是()。A.用于存儲(chǔ)和加載Cookie B.存儲(chǔ)Cookie的方法是save()C.加載Cookie的方法是load() D.FileCookieJar是LWPCookieJar的子類(lèi)(5)在PIL庫(kù)的Image模塊中,加載圖像的方法是()。A.open() B.save() C.load() D.crop()2.操作題查找名著小說(shuō)網(wǎng)的提交入口并采取不同的方式進(jìn)行模擬登錄。

項(xiàng)目終端協(xié)議分析——爬取某音樂(lè)PC客戶端和App客戶端數(shù)據(jù)1.選擇題(1)Fiddler是一個(gè)基于()的調(diào)試代理工具,它能夠記錄并檢查電腦和互聯(lián)網(wǎng)之間的HTTP通信,設(shè)置斷點(diǎn),查看所有的“進(jìn)出”Fiddler的數(shù)據(jù)(如Cookie、HTML、JS、CSS等文件)。A.HTTP B.HTML C.IP D.TCP(2)Fiddler工具抓取到的包的數(shù)據(jù)類(lèi)型是()。A.CSV B.JSON C.YAML D.XML(3)【多選題】在Fiddler的請(qǐng)求信息“Raw”上,顯示的數(shù)據(jù)是()。A.Headers B.HTML C.Body D.Center(4)【多選題】Fiddler是一款功能強(qiáng)大的抓包工具,用于記錄客戶端與服務(wù)器端之間的所有HTTP(及HTTPS)請(qǐng)求的通信數(shù)據(jù),它的主要功能有()。A.抓包 B.改包 C.模擬各種客戶端 D.弱網(wǎng)測(cè)試2.操作題使用Fiddler工具抓取移動(dòng)端訪問(wèn)墨滴網(wǎng)站的數(shù)據(jù)包,并修改移動(dòng)端請(qǐng)求參數(shù)和響應(yīng)結(jié)果,具體要求如下。(1)Wi-Fi環(huán)境下,在移動(dòng)端中安裝Fiddler證書(shū),并使用瀏覽器訪問(wèn)墨滴網(wǎng)站。(2)在PC端配置Fiddler工具,并使用Fiddler工具抓取同一子網(wǎng)中移動(dòng)端訪問(wèn)墨滴網(wǎng)站的相關(guān)數(shù)據(jù)包。(3)使用Fiddler的斷點(diǎn)操作實(shí)現(xiàn)修改移動(dòng)端請(qǐng)求參數(shù)和響應(yīng)結(jié)果。

項(xiàng)目

使用Scrapy爬蟲(chóng)—爬取某企業(yè)官網(wǎng)新聞動(dòng)態(tài)1.選擇題(1)下列Scrapy爬蟲(chóng)框架的組件描述錯(cuò)誤的是()。A.引擎組件是整個(gè)爬蟲(chóng)的調(diào)度中心B.Spider中間件的主要功能是處理Spiders的輸入和輸出C.調(diào)度器會(huì)自動(dòng)去除重復(fù)的URLD.下載器中間件的主要功能是獲取網(wǎng)頁(yè)內(nèi)容,并將其提供給引擎和Spiders(2)下列對(duì)Scrapy數(shù)據(jù)流向描述錯(cuò)誤的是()。A.引擎僅需要負(fù)責(zé)打開(kāi)一個(gè)網(wǎng)站,并找到該網(wǎng)站的Spiders,并向該Spiders請(qǐng)求第一個(gè)要爬取的URLB.調(diào)度器返回下一個(gè)要爬取的URL給引擎,引擎將URL通過(guò)下載器中間件(請(qǐng)求方向)轉(zhuǎn)發(fā)給下載器C.Spiders處理響應(yīng)并返回爬取到的Items及(跟進(jìn)的)新的請(qǐng)求給引擎解析中間件D.一旦網(wǎng)頁(yè)下載完畢,下載器會(huì)生成一個(gè)該網(wǎng)頁(yè)的響應(yīng),并將其通過(guò)下載器中間件(響應(yīng)方向)發(fā)送給引擎(3)下列不屬于Scrapy全局命令的是()。A.startproject B.shell C.list D.settings(4)下列對(duì)Scrapy爬蟲(chóng)項(xiàng)目目錄說(shuō)法錯(cuò)誤的是()。A.spiders目錄用于存放用戶編寫(xiě)的爬蟲(chóng)腳本B.items腳本定義了一個(gè)Item類(lèi),能夠存儲(chǔ)爬取到的數(shù)據(jù)C.settings腳本用于設(shè)置中間件D.pipelines腳本定義了一個(gè)pipeline類(lèi),可以根據(jù)需求將數(shù)據(jù)保存至數(shù)據(jù)庫(kù)、文件等(5)下列對(duì)Scrapy的設(shè)置說(shuō)法錯(cuò)誤的是()。A.Scrapy設(shè)置允許自定義所有Scrapy組件的行為,包括核心、擴(kuò)展、管道和爬蟲(chóng)本身B.DOWNLOAD_DELAY設(shè)置能夠限制爬取的速度C.HTTPCACHE_ENABLED設(shè)置能夠啟用HTTP緩存,并設(shè)置路徑D.DOWNLOADER_MIDDLEWARES設(shè)置能夠激活用戶定制的下載器中間件(6)【多選題】為了創(chuàng)建一個(gè)Spider,必須繼承scrapy.Spider類(lèi),并定義()這3個(gè)屬性。A.name B.sta

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論