版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
《數(shù)據(jù)采集與網(wǎng)絡(luò)爬蟲》考試復(fù)習(xí)題庫(含答案)1.使用()語句捕獲相應(yīng)的異常。2.在python中將字典轉(zhuǎn)化為json,以下選項(xiàng)正確的是()。4.Python語言中用來定義函數(shù)的關(guān)鍵字是()。A、return5.偽造用戶headers訪問網(wǎng)頁主要是偽造()屬性。7.selenium中,()能關(guān)閉瀏覽器的是。A、exit()10.Scrapy框架中,屬于核心引擎的模塊是()。A、Spiders11.selenium中,()能實(shí)現(xiàn)頁面后退。A、back()12.'<ul><li>1<li><li>2<li><li>A、soup.select('ulli:nth-child(13.bs4中,()表示HTML中的標(biāo)簽,是最基本的信息組織單元。A、bs4.element.Tag類B、通過extend方法可以將另一個(gè)列表中的元素逐一添加到列表中18.img標(biāo)簽中的()屬性,用于指圖片地址。()。A、run()21.selenium通過()來區(qū)分瀏覽器的窗口。22.bs4中,若已找到節(jié)點(diǎn),并存放于變量x中,()獲取節(jié)點(diǎn)內(nèi)容。的是()。ern對象()。28.正則表達(dá)式中匹配至少一個(gè)x使用()。A、x?30.()匹配HTML內(nèi)容時(shí),支持CSS選擇器。A、re33.以下網(wǎng)絡(luò)請求模板中,無須安裝便可以直接在程序中使用的是()。D、均需要額外安裝后才能正常使用34.正則表達(dá)式r'^wx*yz'能匹配()。35.關(guān)于Python語言的注釋,以下選項(xiàng)中描述錯(cuò)誤的是()。A、Python語言的單行注釋以#開頭37.selenium中,()通過CSS選擇器定位元素。A、get()40.下列說法正確的是()。A、線程>進(jìn)程>協(xié)程B、進(jìn)程>線程>協(xié)程C、協(xié)程>進(jìn)程>線程D、線程>協(xié)程>進(jìn)程41.https的端口號是()。A、80IP,其中字典的鍵為()。A、getB、ip地址43.以下選項(xiàng)中()是HTTP請求行。44.以下XPath謂語中,()能獲得滿足條件的第一個(gè)節(jié)點(diǎn)。D、偏移量46.用于解析域名的協(xié)議是()。47.'<ul><li>1<li><li>2<li><li>3<li><li>4<li><li>5<li><()能獲取內(nèi)容為6的節(jié)點(diǎn)。A、soup.select('ulli:first-child49.以下XPath謂語中,()能獲得滿足條件的前2個(gè)節(jié)點(diǎn)。A、[min()+1]50.在Selnium中,()模塊提供許多內(nèi)置等待條件。A、webdriver.support.expected_conditiB、webdriver.support.D、無正確選項(xiàng)51.bs4中,()表示元素內(nèi)字符串的注釋部分,是一種特殊的NavigableStrinA、bs4.element.Tag類52.bs4中,若已找到節(jié)點(diǎn),并存放于53.http狀態(tài)碼中,表示重定向的是()。A、50054.下列表達(dá)式能匹配到偶數(shù)的是()。A、driverA、DNS57.()擴(kuò)展標(biāo)記語言。A、host59.下列一些類中,用來表示XML中節(jié)點(diǎn)的是()。A、Node60.XPath表達(dá)式中,()可以根據(jù)多個(gè)路徑選取對應(yīng)的節(jié)點(diǎn)。61.bs4中,使用soup對象查找id='link1'的節(jié)點(diǎn),代碼正確的是()。A、soup.find(['id','linkA、0B、1A、withopen('baidu_logo.png','wb')asC、withopen('baidu_logoD、withopen('baidu_logo.pn68.'<ul><li>1<li><li>2<li><li>3<li><li>4<li><li69.在使用lxml解析網(wǎng)頁時(shí),需要導(dǎo)入以下哪個(gè)包()。70.正則表達(dá)式r'^wx+yz'能匹配()。C、wxyz中的任1個(gè)字符72.執(zhí)行此語句t=threading.Thre線程后,等待線程運(yùn)行結(jié)束()。73.正則表達(dá)式r'[wxyz]'能匹配()。C、wxyz中的任1個(gè)字符74.使用xpath獲取文本使用()。A、text75.下列不能匹配任意字符的是()。A、[\d\D]76.Python中對于字符串表示,正確的是()。A、bc"ab"77.在使用Ixml解析網(wǎng)頁時(shí),需要導(dǎo)入以下哪個(gè)包()。79.selenium中,鼠標(biāo)操作被封裝在()類中。A、'w'A、return83.F12抓包工具,可以查看程序運(yùn)行錯(cuò)誤信息的是()。A、ELements(元素面板)C、onsole(控制臺)84.bs4中,()表示HTML中標(biāo)簽的文本。A、bs4.element.Tag類B、s4.element.NavigableStrC、bs4.BeautifulSoup類D、bs4.element.ment類D、referer87.影響網(wǎng)絡(luò)爬蟲速度的因素主要是()。88.re.findall("^[a-z]oo[kd]$","bzood")的結(jié)果是()。89.requests異常信息中,()表示,發(fā)出請求需要有效的URL。90.selenium中,()能查找<formname='hello'></form>的元素。A、find_element_by_css_selector('helB、find_element_by_class_nC、find_element_by_tD、find_element_by_n91.http狀態(tài)碼中,表示訪問成功的是()。A、20093.下列哪個(gè)正則表達(dá)式與1\d{5,9}不相同()。94.正則匹配模式中,根據(jù)ASCII字符集匹配字符是()。95.能同時(shí)匹023-58102054、(0991)8585671、(023)58102054的正則表達(dá)式是()。A、(\(0\d{2,3}\|0\d{2,3}-?)\d98.關(guān)于robots協(xié)議的說法錯(cuò)誤的是()。作用時(shí)時(shí)長。100.正則表達(dá)式中匹配0個(gè)或任意多個(gè)x使用()。A、x?A、for104.'<ul><li>1<li><li>2<',()能獲取內(nèi)容為奇數(shù)的節(jié)點(diǎn)。A、soup.select('ulli:nth-child(od105.'<divclass="class1class2"></dis2"></p></div>',以下代碼()能選中A、soup.select("class106.URL地址'https://.baidu.?ie=utf-8&wd=符串的是()。107.Ixml庫中,用于解析xml文件的方法是()。等109.正則表達(dá)式,"[a-zA-Z]*[^,]="的匹配結(jié)果是()。A、BotHEr,=A、driver答案:DB、['發(fā)布人:系統(tǒng)管理員','發(fā)布時(shí)間:2022-11-18','來源:圖情信息中心']心')112.下列選項(xiàng)中,用于以二進(jìn)制形式獲取響應(yīng)內(nèi)容的是()。113.Python中要使用XPth解析需要()導(dǎo)入模塊。法正確的是()。C、1M117.requests庫中,get()函數(shù)能用于設(shè)置是否啟用SSL證書的參數(shù)是()。A、urlA、host119.表示同時(shí)選取文檔中的所有title和price元素()。A、1123.以下能用于解析網(wǎng)頁數(shù)據(jù)的是()。符串的是()。126.以下XPath謂語中,()能獲得滿足條件的倒數(shù)第二個(gè)節(jié)點(diǎn)。127.正則表達(dá)式r'^wx-yz'能匹配()。C、wxyz中的任1個(gè)字符128.正則表達(dá)式中匹配0個(gè)或任意多個(gè)x使用()。129.下列路徑表達(dá)式中。用于選取第一個(gè)app元素的是()。133.以下屬于PythonHTML和XML解析的第三方庫的是()。134.bs4中,()表示HTML中的標(biāo)簽,是最基本的信A、bs4.element.Tag類C、bs4.BeautifulSoup類135.XPath路徑表達(dá)式,用()描述屬性。137.以下說法錯(cuò)誤的是()。138.關(guān)于selenium的隱式等待,以下說法錯(cuò)誤的是()。時(shí)時(shí)長。A、ElementsA、正確B、錯(cuò)誤A、正確A、正確B、錯(cuò)誤4.ConnectTimeout和ReadTimeout又繼承自Timeout,Timeout繼承自ReA、正確B、錯(cuò)誤5.如果服務(wù)器返回的狀態(tài)碼為500,則表示客戶端發(fā)送的請求出現(xiàn)錯(cuò)誤。A、正確B、錯(cuò)誤A、正確A、正確A、正確B、錯(cuò)誤B、錯(cuò)誤B、錯(cuò)誤A、正確B、錯(cuò)誤A、正確B、錯(cuò)誤A、正確B、錯(cuò)誤A、正確A、正確B、錯(cuò)誤B、錯(cuò)誤A、正確B、錯(cuò)誤A、正確B、錯(cuò)誤23.對selenium而言,不同版本的瀏覽器驅(qū)動(dòng)A、正確B、錯(cuò)誤答案:BA、正確B、錯(cuò)誤答案:BA、正確B、錯(cuò)誤A、正確B、錯(cuò)誤A、正確B、錯(cuò)誤A、正確A、正確31.深層網(wǎng)頁是指大部分內(nèi)容無法通過靜態(tài)鏈接獲取的,只能通過A、正確B、錯(cuò)誤32.訪問百度首頁必須使用post方法。A、正確A、正確的功能。A、正確A、正確A、正確A、正確A、正確A、正確A、正確B、錯(cuò)誤44.默認(rèn)情況下,MongoDB建立的數(shù)據(jù)庫是db。A、正確B、錯(cuò)誤A、正確B、錯(cuò)誤A、正確B、錯(cuò)誤47.動(dòng)態(tài)網(wǎng)頁是相對靜態(tài)網(wǎng)頁來說的,指使用動(dòng)態(tài)網(wǎng)絡(luò)技術(shù)生成的網(wǎng)頁頁的后綴不僅僅是靜態(tài)文件常見的形式,通常在動(dòng)態(tài)網(wǎng)址之后包含"?"符號。A、正確B、錯(cuò)誤48.網(wǎng)絡(luò)爬蟲(WebCrawler)又稱網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人,它是一種按照一定A、正確使用。A、正確A、正確A、正確B、錯(cuò)誤A、正確A、正確B、錯(cuò)誤A、正確B、錯(cuò)誤A、正確B、錯(cuò)誤62.網(wǎng)絡(luò)爬蟲一旦在訪問過程中遇到一些網(wǎng)絡(luò)問題(如DNS故障、拒絕連接等),A、正確B、錯(cuò)誤63.Robots協(xié)議全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”,網(wǎng)站通過Robots協(xié)議告訴搜索A、正確A、正確69.表層網(wǎng)頁是指傳統(tǒng)搜索引擎可以索引的頁面,主要以A、正確A、正確B、錯(cuò)誤GET請求方法通過請求參數(shù)傳輸數(shù)據(jù),最多只能傳輸2KB的數(shù)據(jù);POST請求存放于網(wǎng)站的根目錄下,文件內(nèi)容通常包含包含:User-agent:適用對象(用戶代理),若該選項(xiàng)的值為“*”,則說明robots.txt文件對任何網(wǎng)絡(luò)爬蟲均有效。Disallow:不允許訪問的目錄或文件Allow:允許訪問的目錄或文件Sitemap:站點(diǎn)地圖,告知網(wǎng)絡(luò)爬蟲網(wǎng)站地圖的路徑,主要說明網(wǎng)站更新時(shí)間、更新答案:類別選擇器:根據(jù)類名選擇元素,類名前面用"."進(jìn)行標(biāo)注例如,.intro例如,p表示選擇所有<p>元素ID選擇器:根據(jù)特定ID選擇元素,ID前面加上#進(jìn)行標(biāo)注。例如,#link1表示選擇特定ID的值為id='link1結(jié)構(gòu)選擇器語法:選擇器1選擇器2說明:選擇器1和選擇器2中間用空格隔開,用來選擇選擇器1中的子孫元素(選擇器2)。子代選擇器語法:選擇器1>選擇器2說明:用來選擇選擇器1中的直接子元素(選擇器2)。并集選擇器語法:選擇器1,選擇器2交集選擇器選擇器1什么都不要加選擇器2說明:用于選擇同時(shí)符合選擇器1和選擇器2條件的元素。6.如何從已爬取的HTML代碼中提取所需的數(shù)據(jù)?請列舉請簡要說明。答案:可以把HTML代碼直接當(dāng)作字符串處理,此時(shí)可以基于字符串的內(nèi)容的特征,結(jié)合Python原生字符串處理方法中的拆分、查找使用正則表達(dá)式結(jié)合re模塊進(jìn)行提取。也可以使用lxml,bs4等,把HTML代碼先渲染為DOM樹,后續(xù)使用XPATH、CSS選擇器等技術(shù)進(jìn)行數(shù)據(jù)提取,最答案:?:對于它前面的正則式,匹配0次或1次,等價(jià)于{0,1};+:對于它前面的正則式,匹配1次或多次,等價(jià)于{1,};*:對它前面的正則式,匹配0次或多次,等價(jià)于{0,};{m}:對其之前的正則式,匹配m次;{m,}:對其之前的正則式,匹配至少m次;{m,n}對其之前的正則式,匹配m~n次。8.請簡要說明什么是Cookie,它有什么用途?一個(gè)包含特定信息的Cookie文件發(fā)送到用戶的瀏覽器,瀏覽器會將該Cookie送Cookie,服務(wù)器可以根據(jù)Cookie中的信息來識別用戶、跟蹤用戶行為等。9.Scrpay框架包含哪些組件?請簡要說明。度器):負(fù)責(zé)接收ScrapyEngine發(fā)送過來的Requests(請求),并按照一定yEngine。Downloader:負(fù)責(zé)下載由ScrapyEngine發(fā)送的所有Requests,并將其獲取到的Responses(響應(yīng))交還給ScrapyEngine,由ScrapyEngine交給Spiders進(jìn)行處理。Spiders:負(fù)責(zé)處理所有Responses,從Responses中解析并提取Items封裝的數(shù)據(jù)并將需要跟進(jìn)的URL提交給ScrapyEngine,再次進(jìn)入Scheduler。字符(A~z、0~9、_);\W:匹配1個(gè)非單詞字符;\s:匹配1個(gè)空白字符(\n、\r、\t、空格);\S:匹配1個(gè)非空白字符;.:在默認(rèn)模式,匹配除11.Selenium查找元素的方法有哪些?請簡要說明or()方法,傳入元素的CSS選擇器作為參數(shù),即可查找到相應(yīng)的元素。通過類名(查找方式)和value(查找內(nèi)容)參數(shù),即可查找到相應(yīng)的元素12.你寫爬蟲的時(shí)候都遇到過什么反爬蟲措施,你最終是怎樣解決的?答案:用戶身份檢查:在請求網(wǎng)頁時(shí)攜帶User-Agent,將自己偽裝成一個(gè)瀏覽器,如此便可以繞過網(wǎng)站的檢測,避免出現(xiàn)被網(wǎng)站服務(wù)器直接拒絕訪問的情IP黑名單(封IP):-為防止網(wǎng)站運(yùn)維人員從訪問量上推斷出網(wǎng)絡(luò)爬蟲的身份,秒鐘,或者限制每天抓取的頁面數(shù)據(jù)的數(shù)量。-網(wǎng)絡(luò)爬蟲使用同一IP地址進(jìn)行訪問,則極易被網(wǎng)站認(rèn)出網(wǎng)絡(luò)爬蟲的身份后進(jìn)行屏蔽、阻有些網(wǎng)站在檢測到某個(gè)客戶端的IP地址訪問次數(shù)過于頻繁時(shí),會要求該客戶端案例分析(總共3題)1.2、目標(biāo)網(wǎng)站url地址為https://cq.fang.ke./loupan/page/1-50共計(jì)50頁,soup=BeautifulSoup(html,feapic_url=li_node.select_one('.pic_lname=li_node.select_one('.maddress=li_node.select_one('.asize=li_node.select_one('price=li_node.select_one('.msg_'房間大小':size,'圖片地址':pic_url})url=f'https://cq.fang.k#解析并獲得每一頁的數(shù)據(jù)#將每頁的數(shù)據(jù),合并到datas中df=pd.DataFrame(datas)#寫入csv文件df.to_csv('house_data.csv',2.1、現(xiàn)有html代碼字符串,且已存入html變量中,根據(jù)要求完成后續(xù)作答。<th>排名</th><th>省份</th><th>類型</th><ahref="…"class="namecn">清華大學(xué)</a>Address=soup.select_one('#address').Category=soup.selec#lxml實(shí)現(xiàn)Rank=root_node.find('Name=root_node.find(//Address=root_node.find(//td[id="address"]')[0Category=root_node.fi3.3、目標(biāo)地址:https://.kugou./yy/rank/home/【1-23頁碼】-8888.html?from=rank,爬取酷狗音樂TOP500榜單,并將數(shù)據(jù)存入excel文件中。?2愛丫愛丫(Live)-汪蘇瀧<spanclass="pc_temp_c<ahref="https://.kugou./mixsong/9gaecb60.html""data-index="0"class="pc_temp_songname"title="張妙格-我期待的不是<spanstyle="color:#999;">-張妙格</span><ahref="javascript:;"data-active="play"data-index=btn_listen"title="播放"<ahref="javascript:;"onclick="_hmt.push(['_trackEveilick','hidepc']);"
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 會議組織與管理工作制度
- 2026年溫嶺市司法局招錄備考題庫及參考答案詳解一套
- 2026年鄭州經(jīng)開區(qū)致遠(yuǎn)中學(xué)招聘教師備考題庫完整參考答案詳解
- 2026年陸川縣灘面鎮(zhèn)衛(wèi)生院公開招聘編外人員備考題庫及一套完整答案詳解
- 中學(xué)學(xué)生食堂食品安全管理制度
- 2026年望牛墩鎮(zhèn)實(shí)驗(yàn)小學(xué)招聘辦公室工作人員一名備考題庫及1套完整答案詳解
- 養(yǎng)老院內(nèi)部保衛(wèi)制度
- 企業(yè)員工培訓(xùn)與職業(yè)發(fā)展路徑制度
- 交通違法行為舉報(bào)獎(jiǎng)勵(lì)制度
- 華中科技大學(xué)同濟(jì)醫(yī)學(xué)院附屬協(xié)和醫(yī)院2026年臨床科室醫(yī)療崗位招聘備考題庫及答案詳解一套
- T∕ZZB 0146-2016 重載有砟軌道混凝土岔枕
- 地理7下期末試題及答案
- (二檢)廈門市2025屆高中畢業(yè)班第二次質(zhì)量檢測歷史試卷
- 呼吸內(nèi)科一科一品一特色護(hù)理
- 結(jié)婚函調(diào)報(bào)告表
- CJJT164-2011 盾構(gòu)隧道管片質(zhì)量檢測技術(shù)標(biāo)準(zhǔn)
- 倒檔變速叉工序卡
- SYT 6968-2021 油氣輸送管道工程水平定向鉆穿越設(shè)計(jì)規(guī)范-PDF解密
- GB/T 43824-2024村鎮(zhèn)供水工程技術(shù)規(guī)范
- 心力衰竭藥物治療的經(jīng)濟(jì)評估與成本效益分析
- QA出貨檢驗(yàn)日報(bào)表
評論
0/150
提交評論