版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第一章爬取靜態(tài)網(wǎng)頁一、選擇題1.下列哪個(gè)是Request的安裝命令?A.pipinstallRequests B.yuminstallRequestsC.piplist D.rpmRequests2.下列哪個(gè)屬于Request的請(qǐng)求?A.RookieB.TestC.PostD.Session3.以下關(guān)于BeautifulSoupfind方法說法正確的是()A.BeautifulSoup是一個(gè)可以從HTML或XML文件中提取數(shù)據(jù)的Python庫B.BeautifulSoup是一個(gè)C++庫C.BeautifulSoup是支持C語言調(diào)用D.BeautifulSoup是支持Java語言調(diào)用4.以下選項(xiàng)中不是Python數(shù)據(jù)分析的第三方庫的是()A.numpyB.scipyC.pandasD.requests5.對(duì)Scrapy描述正確的是()A.一個(gè)Scrapy項(xiàng)目只能創(chuàng)建一個(gè)爬蟲B.一個(gè)Scrapy項(xiàng)目只能使用一管道C.爬蟲與管道之間傳遞數(shù)據(jù)不使用item子類D.爬蟲與管道之間傳遞數(shù)據(jù)使用item子類簡答題1.請(qǐng)簡述Requests的基本功能2.Cookies的定義?3.簡述從Response對(duì)象(r)中可以獲取到的內(nèi)容4.簡述一下BeautifulSoup的作用5.簡述Scrapy架構(gòu)中包含的組件第二章爬取動(dòng)態(tài)網(wǎng)頁一、選擇題1.下列關(guān)于scrapy爬蟲的表述有誤的是()A.Scrapy可用XPath表達(dá)式分析頁面結(jié)構(gòu) B.Scrapy可以用于數(shù)據(jù)挖掘、監(jiān)測和自動(dòng)化測試C.Scrapy源碼中默認(rèn)callback函數(shù)的函數(shù)名就是parse D.Scrapy使用了Twisted同步網(wǎng)絡(luò)庫來處理網(wǎng)絡(luò)通訊2.下列關(guān)于JSON支持是的數(shù)據(jù)結(jié)構(gòu),哪項(xiàng)是不正確的是?()A.名/值對(duì)集合:這一數(shù)據(jù)結(jié)構(gòu)由不同的鍵值對(duì)組成。B.無序的對(duì)象結(jié)構(gòu):多個(gè)名稱/值構(gòu)成的封裝體,類似字典表。C.有序的對(duì)象結(jié)構(gòu):規(guī)整的文本文檔、Execl等D.有序的值列表:包括數(shù)組,列表,向量或序列等等。3.下列哪個(gè)不屬于JSON的數(shù)據(jù)類型()A.NumberB.StringC.CharD.Value4.下列關(guān)于loads轉(zhuǎn)化JSON數(shù)據(jù)轉(zhuǎn)換為Python對(duì)象,錯(cuò)誤的是()A.object–dictB.array–stringC.number(int)–int、longD.true--True5.下列對(duì)WebDriver=組件,說法錯(cuò)的是:A.API:應(yīng)用程序編程接口。這是一組用來操作WebDriver的“命令”。B.庫:一個(gè)代碼模塊,它只包含api和實(shí)現(xiàn)這些api所需的代碼。C.驅(qū)動(dòng)程序:負(fù)責(zé)控制實(shí)際的瀏覽器。大多數(shù)驅(qū)動(dòng)程序是由瀏覽器廠商自己創(chuàng)建的。驅(qū)動(dòng)程序通常不是是與瀏覽器一起在系統(tǒng)上運(yùn)行的可執(zhí)行模塊,而是在執(zhí)行測試套件的系統(tǒng)上。D.框架:用于支持WebDriver套件的附加庫。二、簡答題1.簡述JSON對(duì)象的書寫方式2.簡述JSON的基本概念3.PhantomJS的特點(diǎn)4.簡述Selenium框架的作用5.簡述WebDriver的定位策略第三章爬取APP數(shù)據(jù)一、選擇題1.以下哪一個(gè)功能面板不屬于Fiddler的主界面面板() A.工具面板B.監(jiān)控面板C.通訊面板D.狀態(tài)面板2.以下哪一個(gè)是Windows查看IP地址的命令() A.ipconfigB.ifconfigC.ipaddrD.ipaddrroute3.對(duì)Http請(qǐng)求方式描述正確的是() A.POST請(qǐng)求可以傳遞大于2M的數(shù)據(jù)B.GET請(qǐng)求可以傳遞大于2M的數(shù)據(jù)C.POST請(qǐng)求可以傳遞沒有限制D.GET請(qǐng)求可以傳遞沒有限制4.以下關(guān)于http協(xié)議響應(yīng)行中狀態(tài)碼說法正確的是() A.200表示正常B.403表示請(qǐng)求資源未找到C.404表示請(qǐng)求資源無權(quán)訪問D.500請(qǐng)求方法不正確5.捕獲通過HTTPS發(fā)送的數(shù)據(jù),需要啟用HTTPS流量解密。配置項(xiàng)位于() A.Tools>Options>GeneralB.Tools>Options>HTTPSC.Tools>Options>AppearanceD.Tools>Options>Tools二、簡答題1.簡述Fiddler的功能2.Fiddler的主界面監(jiān)控面板中,Web會(huì)話性能統(tǒng)計(jì)信息可以直接在監(jiān)控面板中的什么窗口查看?3.Fiddler的主界面監(jiān)控面板中,Web網(wǎng)絡(luò)會(huì)話內(nèi)容可以直接在監(jiān)控面板中的什么窗口查看?4.查看一個(gè)或多個(gè)Web會(huì)話的傳輸時(shí)間線的瀑布圖可以直接在監(jiān)控面板中的什么窗口查看?5.簡述Fiddler的主界面面板第四章反爬蟲策略以及解決辦法一、選擇題1.以下哪一種是教材中未提及的反爬蟲策略?() A.Headers; B.Cookies; C.Proxies; D.Socket;2.Headers的()自動(dòng)保存并設(shè)置鏈路? A.User-Agent B.Referer C.get D.url3.在爬取有些網(wǎng)頁是要求登錄之后的才能爬取,所以要和服務(wù)器一直保持登錄狀態(tài),有時(shí)的策略不都指定cookies,而是會(huì)使用()來完成 A.requestsB.post請(qǐng)求C.headerD.session4.哪個(gè)方法不適合應(yīng)對(duì)服務(wù)器封禁IP()? A.使用靜態(tài)IP B.做更完善的設(shè)置,避免瀏覽器識(shí)別并封禁IPC.使用代理IPD.設(shè)置好訪問時(shí)間間隔,避免服務(wù)器壓力過大5.Pytesseract具有的函數(shù)中,其中最常用,也最直接識(shí)別驗(yàn)證碼的函數(shù)是:? A.get_languages B.image_to_boxes C.image_to_string D.image_to_alto_xml二、簡答題1.簡述三種反爬蟲策略以及其反爬策略內(nèi)容2.簡單介紹Tesseract,并列舉出Pytesseract的函數(shù)第五章反爬策略優(yōu)化一、選擇題1.以下哪一個(gè)不屬于Redis的value數(shù)據(jù)類型A.StringB.ListC.DictD.Hash2.以下關(guān)于RedisKeys命令組的基本命令描述錯(cuò)誤的是() A.DUMPkey-----廢除key所對(duì)應(yīng)的鍵值對(duì) B.EXISTSkey[key...]-----查詢一個(gè)key是否存在 C.EXPIREkeyseconds-----設(shè)置一個(gè)key的過期的秒數(shù) D.DE
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 山泉小學(xué)教學(xué)常規(guī)管理制度(3篇)
- 項(xiàng)目管理制度及格式范文(3篇)
- 茶室品茗活動(dòng)策劃方案(3篇)
- 教育管理制度學(xué)習(xí)體會(huì)(3篇)
- 2026年河北唐山中心醫(yī)院腎內(nèi)科急聘英才1名考試參考試題及答案解析
- 2026年福建莆田礪志高級(jí)中學(xué)多學(xué)科教師招聘若干人備考考試題庫及答案解析
- 海南儋州市2026屆教育部直屬師范大學(xué)公費(fèi)師范畢業(yè)生供需見面招聘24人(一)備考考試題庫及答案解析
- 2026北京航空航天大學(xué)集成電路科學(xué)與工程學(xué)院聘用編科研助理F崗招聘1人備考考試題庫及答案解析
- 2025湖南郴州市永興縣基層醫(yī)療衛(wèi)生單位招聘專業(yè)技術(shù)人員選崗15人備考考試題庫及答案解析
- 2026北京北化化學(xué)科技有限公司招聘15人考試備考題庫及答案解析
- 安徽省蕪湖市鳩江區(qū)2024-2025學(xué)年高一上學(xué)期期末考試生物試卷
- 2025年對(duì)中國汽車行業(yè)深度變革的觀察與思考報(bào)告
- 福建省泉州市晉江市2024-2025學(xué)年八年級(jí)上學(xué)期1月期末考試英語試題(含答案無聽力音頻及原文)
- 心血管疾病風(fēng)險(xiǎn)評(píng)估
- 慢性肝病患者營養(yǎng)支持護(hù)理培訓(xùn)
- 汽車租賃業(yè)應(yīng)急預(yù)案(3篇)
- 基層高血壓管理流程
- 2026年咨詢工程師咨詢實(shí)務(wù)考前沖刺重點(diǎn)知識(shí)考點(diǎn)總結(jié)記憶筆記
- 2025年內(nèi)蒙古自治區(qū)呼和浩特市評(píng)審專家考試題庫(一)
- 電化學(xué)儲(chǔ)能電站安全檢查要點(diǎn)表
- 空軍招飛心理測試題及答案解析
評(píng)論
0/150
提交評(píng)論