數(shù)據(jù)采集與預(yù)處理課件學(xué)習(xí)單元1-使用爬蟲技術(shù)進(jìn)行數(shù)據(jù)采集

上傳人：y*** IP屬地：山東上傳時(shí)間：2024-07-08 格式：PPTX 頁數(shù)：53 大?。?.13MB 積分：15 舉報(bào) 版權(quán)申訴

數(shù)據(jù)采集與預(yù)處理課件學(xué)習(xí)單元1-使用爬蟲技術(shù)進(jìn)行數(shù)據(jù)采集_第2頁

數(shù)據(jù)采集與預(yù)處理課件學(xué)習(xí)單元1-使用爬蟲技術(shù)進(jìn)行數(shù)據(jù)采集_第3頁

數(shù)據(jù)采集與預(yù)處理課件學(xué)習(xí)單元1-使用爬蟲技術(shù)進(jìn)行數(shù)據(jù)采集_第4頁

數(shù)據(jù)采集與預(yù)處理課件學(xué)習(xí)單元1-使用爬蟲技術(shù)進(jìn)行數(shù)據(jù)采集_第5頁

已閱讀5頁，還剩48頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

使用爬蟲技術(shù)進(jìn)行數(shù)據(jù)采集學(xué)習(xí)單元1單元概述本單元主要介紹了爬蟲的相關(guān)概念及爬取網(wǎng)頁的基本過程。通過對(duì)靜態(tài)頁面爬取，使學(xué)習(xí)者了解爬蟲的爬取的基本原理；通過對(duì)scrapy框架技術(shù)和Nutch技術(shù)講解，讓學(xué)習(xí)者能夠編寫簡單的網(wǎng)絡(luò)爬蟲項(xiàng)目利用爬蟲技術(shù)進(jìn)行數(shù)據(jù)采集。教學(xué)目標(biāo)掌握爬蟲的概念、作用和流程。掌握靜態(tài)網(wǎng)頁爬取的基本流程。

了解crapy框架技術(shù)和Nutch技術(shù)的相關(guān)知識(shí)和基本理論。掌握常用的抓取網(wǎng)頁所需工具的下載、安裝與使用。熟練利用各種爬取工具進(jìn)行網(wǎng)頁有用信息的爬取。任務(wù)1爬取靜態(tài)頁面數(shù)據(jù)

“社會(huì)輿情信息管理系統(tǒng)”需要搜集最新的職業(yè)教育信息來發(fā)布，尤其知名職教院校信息動(dòng)態(tài)。例如，在一高職網(wǎng)站爬取信息。一般的高職網(wǎng)站都由靜態(tài)和動(dòng)態(tài)兩類網(wǎng)頁構(gòu)成，為了增加學(xué)習(xí)的針對(duì)性，使用requests+BeautifulSoup爬取靜態(tài)頁面數(shù)據(jù)，獲取網(wǎng)頁各部分?jǐn)?shù)據(jù)內(nèi)容。任務(wù)實(shí)現(xiàn)的關(guān)鍵點(diǎn)是：requests庫的安裝與使用，BeautifulSoup庫的安裝與使用，以及利用requests+BeautifulSoup爬取靜態(tài)頁面數(shù)據(jù)的基本過程。任務(wù)分析1.安裝requests庫在CMD命令窗口下，只需要輸入命令pipinstallrequests，即可完成requests庫的安裝。任務(wù)實(shí)施2.使用requests庫獲取響應(yīng)內(nèi)容網(wǎng)絡(luò)爬蟲是通過requests向?yàn)g覽器發(fā)送請(qǐng)求，獲取請(qǐng)求內(nèi)容importrequests#發(fā)送請(qǐng)求，獲取服務(wù)器響應(yīng)內(nèi)容r=requests.get("/")r.encoding='utf-8'print("文本編碼：",r.encoding)print("響應(yīng)狀態(tài)碼：",r.status_code)print("字符串方式的響應(yīng)體：",r.text)3.定制requests（1）傳遞URL參數(shù)

在URL中加入?yún)?shù)的形式是在問號(hào)后，以鍵/值的形式放在URL中：任務(wù)實(shí)施importrequestsr=requests.get('/list.aspx?news_type=1')print("URL已經(jīng)正確編碼：",r.url)print("字符串方式的響應(yīng)體：\n",r.text)也可以把參數(shù)保存在字典中，用params構(gòu)建到URL中importrequestskey_dict={'news_type':'1'}r=requests.get('/list.aspx',params=key_dict)r.encoding='utf-8'print("URL已經(jīng)正確編碼：",r.url)print("字符串方式的響應(yīng)體：\n",r.text)（2）定制請(qǐng)求頭利用Google瀏覽器構(gòu)建請(qǐng)求頭。因?yàn)榇蜷_Google瀏覽器，點(diǎn)擊鼠標(biāo)右鍵，點(diǎn)擊檢查，就可以找到請(qǐng)求所需要的參數(shù)：任務(wù)實(shí)施通過上圖，我們可以獲取如下信息：參數(shù)Host的值為'/'參數(shù)User-Agent的值為'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.0.3987.100Safari/537.36',利用上面兩個(gè)參數(shù)定制請(qǐng)求頭，如下所示：任務(wù)實(shí)施importrequestsheaders={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.0.3987.100Safari/537.36','Host':''}r=requests.get("/",headers=headers)print("響應(yīng)狀態(tài)碼：",r.status_code)（3）發(fā)送POST請(qǐng)求除了get請(qǐng)求外，還需要發(fā)送一些編碼格式為表單形式的數(shù)據(jù)，有些網(wǎng)站需要登錄才能訪問，這樣就需要使用POST請(qǐng)求，也需要傳遞一個(gè)字典給Requests中的data參數(shù)。這個(gè)數(shù)據(jù)字典就會(huì)發(fā)出請(qǐng)求的時(shí)候自動(dòng)編碼為表單形式，如下所示：任務(wù)實(shí)施importrequestskey_dict={'key1':'value1','key2':'value2'}r=requests.post('/post',data=key_dict)print("URL已經(jīng)正確編碼：",r.url)print(r.text)4.安裝BeautifulSoup庫BeautifulSoup3目前已經(jīng)停止開發(fā)，推薦在現(xiàn)在的項(xiàng)目中使用BeautifulSoup4。在windows系統(tǒng)下，只需要輸入命令pipinstallbeautifulsoup4，即可完成beautifulsoup4庫的安裝。5.使用requests+BeautifulSoup爬取靜態(tài)頁面數(shù)據(jù)以爬取河北工業(yè)職業(yè)技術(shù)學(xué)院工院新聞頁的新聞列表為例，基本實(shí)現(xiàn)步驟如下所示：：（1）打開目標(biāo)網(wǎng)頁，確定要爬取的數(shù)據(jù)在網(wǎng)頁源代碼中的位置任務(wù)實(shí)施新建一記事本文件用于臨時(shí)存放我們拷貝的位置路徑。打開新建的記事本文件，右擊選擇“粘貼”便將我們?yōu)g覽的網(wǎng)頁中得第一條新聞標(biāo)題在html代碼中的位置信息粘貼過來，本例中粘貼的文本內(nèi)容為“body>div.jz>div>div.ny_right>div>div.navjz.ny_newslb>ul>li:nth-child(1)>a”，去掉“l(fā)i”后面的“:nth-child(1)”代碼后，路徑“body>div.jz>div>div.ny_right>div>div.navjz.ny_newslb>ul>li>a”則變?yōu)閍標(biāo)簽在html代碼中的位置，暫存路徑。任務(wù)實(shí)施（2）編寫爬蟲文件任務(wù)實(shí)施importrequestsfrombs4importBeautifulSoupurl='/zhxw/gyxw.htm'strhtml=requests.get(url)strhtml.encoding=strhtml.apparent_encodingsoup=BeautifulSoup(strhtml.text,'lxml')data=soup.select('body>div.jz>div>div.ny_right>div>div.navjz.ny_newslb>ul>li>a')foritemindata:result={'title':item.get_text(),'link':item.get('href'),}print(result)1.爬蟲的概念爬蟲更官方點(diǎn)的名字叫數(shù)據(jù)采集，英文一般稱作spider，是一種按照一定的規(guī)則，自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。簡單來說，網(wǎng)絡(luò)爬蟲就是根據(jù)一定算法實(shí)現(xiàn)編程開發(fā)，主要通過URL實(shí)現(xiàn)數(shù)據(jù)的抓取和發(fā)掘。網(wǎng)絡(luò)爬蟲可以自動(dòng)化瀏覽網(wǎng)絡(luò)中的信息，當(dāng)然瀏覽信息的時(shí)候需要按照我們制定的規(guī)則進(jìn)行，這些規(guī)則我們稱之為網(wǎng)絡(luò)爬蟲算法。使用Python可以很方便地編寫出爬蟲程序，進(jìn)行互聯(lián)網(wǎng)信息的自動(dòng)化檢索。必備知識(shí)2.爬蟲的功能現(xiàn)如今大數(shù)據(jù)時(shí)代已經(jīng)到來，網(wǎng)絡(luò)爬蟲技術(shù)成為這個(gè)時(shí)代不可或缺的一部分，爬蟲的常用功能如圖所示：必備知識(shí)3.爬蟲的類型網(wǎng)絡(luò)爬蟲根據(jù)系統(tǒng)結(jié)構(gòu)和開發(fā)技術(shù)，大致可以分為4種類型：通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲和深層網(wǎng)絡(luò)爬蟲。實(shí)際的網(wǎng)絡(luò)爬蟲系統(tǒng)通常是幾種爬蟲技術(shù)相結(jié)合實(shí)現(xiàn)的。必備知識(shí)（1）通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲，它將爬行對(duì)象從一些種子URL擴(kuò)充到整個(gè)Web，主要為門戶站點(diǎn)搜索引擎和大型Web服務(wù)提供商采集數(shù)據(jù)。（2）聚焦網(wǎng)絡(luò)爬蟲聚焦網(wǎng)絡(luò)爬蟲又稱主題網(wǎng)絡(luò)爬蟲，是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲。3.爬蟲的類型必備知識(shí)（3）增量式網(wǎng)絡(luò)爬蟲增量式網(wǎng)絡(luò)爬蟲是指對(duì)已下載網(wǎng)頁采取增量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁的爬蟲，它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面。（4）深層網(wǎng)絡(luò)爬蟲深層網(wǎng)絡(luò)爬蟲是大部分內(nèi)容不能通過靜態(tài)URL獲取的、隱藏在搜索表單后的、只有用戶提交一些關(guān)鍵詞才能獲得的網(wǎng)絡(luò)頁面。4.爬蟲的組成在爬蟲的系統(tǒng)框架中，主過程由控制器，解析器，資源庫三部分組成。（1）控制器控制器是網(wǎng)絡(luò)爬蟲的中央控制器，它主要是負(fù)責(zé)根據(jù)系統(tǒng)傳過來的URL鏈接，分配一線程，然后啟動(dòng)線程調(diào)用爬蟲爬取網(wǎng)頁的過程。（2）解析器解析器是負(fù)責(zé)網(wǎng)絡(luò)爬蟲的主要部分，其負(fù)責(zé)的工作主要有：下載網(wǎng)頁的功能，對(duì)網(wǎng)頁的文本進(jìn)行處理，如過濾功能，抽取特殊HTML標(biāo)簽的功能，分析數(shù)據(jù)功能。（3）資源庫主要是用來存儲(chǔ)網(wǎng)頁中下載下來的數(shù)據(jù)記錄的容器，并提供生成索引的目標(biāo)源。中大型的數(shù)據(jù)庫產(chǎn)品有：Oracle、SqlServer等。必備知識(shí)5.Requests庫獲取響應(yīng)的內(nèi)容的過程，等同于我們使用瀏覽器的過程，我們?cè)跒g覽器中輸入網(wǎng)址，瀏覽器就會(huì)向服務(wù)器請(qǐng)求內(nèi)容，服務(wù)器返回的就是HTML代碼，瀏覽器就會(huì)自動(dòng)解析代碼。而我們的網(wǎng)絡(luò)爬蟲與瀏覽器發(fā)送請(qǐng)求的過程是一樣的，通過requests向?yàn)g覽器發(fā)送請(qǐng)求獲取請(qǐng)求內(nèi)容；同時(shí)我們通過使用requets發(fā)送請(qǐng)求獲取數(shù)據(jù)。Requets可以發(fā)送get、post請(qǐng)求，還可以發(fā)送put、delete、options、head等請(qǐng)求。必備知識(shí)6.BeautifulSoup庫簡單來說，BeautifulSoup是python的一個(gè)庫，最主要的功能是從網(wǎng)頁抓取數(shù)據(jù)。BeautifulSoup提供一些簡單的、python式的函數(shù)用來處理導(dǎo)航、搜索、修改分析樹等功能。它是一個(gè)工具箱，通過解析文檔為用戶提供需要抓取的數(shù)據(jù)。必備知識(shí)任務(wù)2使用scrapy框架爬取動(dòng)態(tài)數(shù)據(jù)

在上一個(gè)任務(wù)的基礎(chǔ)之上，為了“社會(huì)輿情信息管理系統(tǒng)”獲取更多的動(dòng)態(tài)網(wǎng)頁的信息。我們繼續(xù)爬取高職網(wǎng)站動(dòng)態(tài)網(wǎng)頁的最新信息，并將信息進(jìn)行存儲(chǔ)。我們繼續(xù)使用scrapy爬蟲框架技術(shù)爬取河北工業(yè)職業(yè)技術(shù)學(xué)院的工院新聞頁，將爬取到的網(wǎng)頁源代碼信息保存到hbcit_news.html中，然后提取網(wǎng)頁中新聞列表的標(biāo)題和發(fā)布日期等相關(guān)數(shù)據(jù)，并將爬取到的數(shù)據(jù)存儲(chǔ)到hbcit_news.csv中。任務(wù)實(shí)現(xiàn)的關(guān)鍵點(diǎn)是：Scrapy框架的環(huán)境安裝與部署，以及使用scrapy框架爬取動(dòng)態(tài)數(shù)據(jù)的基本過程。任務(wù)分析1.安裝Scrapy

打開cmd命令窗口，運(yùn)行pip命令

pipinstallScrapy任務(wù)實(shí)施2.新建Scrapy項(xiàng)目

首先確定項(xiàng)目目錄，然后打開cmd命令窗口，將命令行路徑切換到自定義的項(xiàng)目目錄，運(yùn)行如下命令創(chuàng)建項(xiàng)目mySpider：scrapystartprojectmySpider

運(yùn)行成功，在PyCharm環(huán)境中可以看到，mySpider項(xiàng)目的自動(dòng)生成的文件和目錄的結(jié)構(gòu)如圖所示3.定義要抓取的數(shù)據(jù)

在items.py文件中定義自己要抓取的數(shù)據(jù)。在PyCharm中打開mySpider目錄下的items.py文件，文件中已經(jīng)自動(dòng)生成里繼承自scrapy.Item的MyspiderItem類，我們只需要修改MyspiderItem類的定義，為它添加屬性即可，添加后代碼如下：任務(wù)實(shí)施importscrapyclassMyspiderItem(scrapy.Item):title=scrapy.Field()#抓取內(nèi)容，新聞標(biāo)題date=scrapy.Field()#抓取內(nèi)容，新聞發(fā)布時(shí)間4.創(chuàng)建爬蟲，爬取網(wǎng)頁的源代碼

首先打開cmd命令窗口，將命令行路徑切換到E:\scrapyPro\mySpider\mySpider\spiders，然后使用創(chuàng)建爬蟲的命令來創(chuàng)建一個(gè)名為hbcit的爬蟲，運(yùn)行代碼如下：任務(wù)實(shí)施scrapygenspiderhbcit""上例中，爬蟲名稱是hbcit，爬取域的范圍為。

運(yùn)行成功后，在PyCharm的mySpider/spiders目錄下會(huì)產(chǎn)生一個(gè)新創(chuàng)建的爬蟲文件hbcit.py。爬蟲程序編寫完畢，在cmd命令窗口中將命令行路徑切換到E:\scrapyPro\mySpider\mySpider\spiders，然后使用運(yùn)行爬蟲的命令來運(yùn)行hbcit爬蟲，運(yùn)行代碼如下：scrapycrawlhbcit4.創(chuàng)建爬蟲，爬取網(wǎng)頁的源代碼

在當(dāng)前文件夾會(huì)產(chǎn)生一個(gè)名稱為hbcit_news.html的靜態(tài)網(wǎng)頁文件，文件內(nèi)容就是使用爬蟲爬取的工院新聞頁的全部源代碼信息，輸出結(jié)果部分截圖如下圖所示：任務(wù)實(shí)施5.分析源代碼，提取數(shù)據(jù)

確定要提取的目標(biāo)數(shù)據(jù)，打開hbcit_news.html頁面查看目標(biāo)數(shù)據(jù)所處的網(wǎng)頁結(jié)構(gòu)，部分網(wǎng)頁代碼如下：任務(wù)實(shí)施<divclass="navjzny_newslb"><ul><li><span>2020-06-23</span><ahref="../info/1004/5802.htm"target="_blank"title="圓夢(mèng)工院揚(yáng)帆遠(yuǎn)航——我院首屆來華留學(xué)生畢業(yè)典禮隆重舉行">圓夢(mèng)工院揚(yáng)帆遠(yuǎn)航——我院首屆來華留學(xué)生畢業(yè)典禮隆重舉行</a></li><li><span>2020-06-19</span><ahref="../info/1004/5774.htm"target="_blank"title="中國共產(chǎn)黨河北工業(yè)職業(yè)技術(shù)學(xué)院第三次代表大會(huì)勝利閉幕">中國共產(chǎn)黨河北工業(yè)職業(yè)技術(shù)學(xué)院第三次代表大會(huì)勝利閉幕</a></li>......</ul></div>5.分析源代碼，提取數(shù)據(jù)

打開hbcit.py文件，引入mySpider/items.py文件中定義的MyspiderItem類，修改parse()方法，修改代碼如下：任務(wù)實(shí)施importscrapyfrommySpider.itemsimportMyspiderItemclassHbcitSpider(scrapy.Spider):name='hbcit'allowed_domains=['']start_urls=['/zhxw/gyxw.htm']defparse(self,response):items=[]foreachinresponse.xpath("http://div[@class='navjzny_newslb']/ul/li"):item=MyspiderItem()date=each.xpath("span/text()").extract()title=each.xpath("a/text()").extract()item["date"]=date[0]item["title"]=title[0]items.append(item)returnitems5.分析源代碼，提取數(shù)據(jù)

爬蟲程序修改完畢，打開cmd命令窗口，將命令行路徑切換到E:\scrapyPro\mySpider\mySpider\spiders，再次使用運(yùn)行爬蟲的命令來運(yùn)行hbcit爬蟲，運(yùn)行代碼如下：任務(wù)實(shí)施scrapycrawlhbcit

命令執(zhí)行成功后，cmd窗口打印輸出我們所獲取的新聞列表信息，部分輸出結(jié)果如下：2020-07-0614:13:03[scrapy.core.scraper]DEBUG:Scrapedfrom<200/zhxw/gyxw.htm>{'date':'2020-06-05','title':'學(xué)院領(lǐng)導(dǎo)走進(jìn)“云端”課堂，指導(dǎo)課程線上教學(xué)'}2020-07-0614:13:03[scrapy.core.scraper]DEBUG:Scrapedfrom<200/zhxw/gyxw.htm>{'date':'2020-06-03','title':'我院開展疫情防控模擬演練'}2020-07-0614:13:03[scrapy.core.scraper]DEBUG:Scrapedfrom<200/zhxw/gyxw.htm>{'date':'2020-05-29','title':'我院“對(duì)話最美逆行者”專場(chǎng)報(bào)告會(huì)成功舉辦'}6.存儲(chǔ)爬取數(shù)據(jù)

使用Scrapy框架制作爬蟲最后一步就是將獲取的數(shù)據(jù)進(jìn)行輸出存儲(chǔ)，我們只需在運(yùn)行爬蟲命令時(shí)添加-o選項(xiàng)然后指定輸出文件格式即可，我們以輸出CSV文件格式為例，運(yùn)行命令為：任務(wù)實(shí)施scrapycrawlhbcit-ohbcit_news.csv

程序運(yùn)行完畢，在當(dāng)前目錄下自動(dòng)創(chuàng)建了hbcit_news.csv文件，我們用Excel或WPS打開，hbcit_news.csv文件部分內(nèi)容截圖如下圖所示：必備知識(shí)1.爬蟲的原理（1）通用網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)原理及基本過程通用爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁的程序，它為搜索引擎從Internet上下載網(wǎng)頁，是搜索引擎的重要組成部分。爬取網(wǎng)頁的基本流程如下圖所示必備知識(shí)1.爬蟲的原理（2）聚焦網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)原理及基本過程聚焦網(wǎng)絡(luò)爬蟲的指定原理和過程與通用爬蟲大致相同，在通用爬蟲的基礎(chǔ)上增加兩個(gè)步驟：定義爬取目標(biāo)和篩選過濾URL，原理如下圖所示。必備知識(shí)2.使用Scrapy框架的一般步驟（1）新建項(xiàng)目，基本命令格式：scrapystartproject項(xiàng)目名稱（2）明確目標(biāo)，明確想要抓取的目標(biāo)，編寫items.py；（3）創(chuàng)建爬蟲，基本命令格式：scrapygenspider爬蟲名稱"爬蟲域"（4）運(yùn)行爬蟲，基本命令格式：scrapycrawl爬蟲名稱（5）保存數(shù)據(jù)，基本命令格式：scrapycrawl爬蟲名稱-o保存數(shù)據(jù)的文件名任務(wù)3使用Nutch爬取數(shù)據(jù)

在“社會(huì)輿情信息管理系統(tǒng)”中需要一些物聯(lián)網(wǎng)信息技術(shù)發(fā)展的最新信息，尤其智慧城市發(fā)展的信息動(dòng)態(tài)。為完成此任務(wù)，我們使用Nutch來爬取相關(guān)網(wǎng)站，獲取相關(guān)最新動(dòng)態(tài)數(shù)據(jù)信息。Nutch的插件機(jī)制使得開發(fā)者可以靈活地定制網(wǎng)頁抓取策略，在本任務(wù)中，主要介紹了利用Nutch技術(shù)進(jìn)行網(wǎng)頁數(shù)據(jù)爬取的基本過程。我們首先對(duì)Nutch爬取數(shù)據(jù)的環(huán)境安裝與設(shè)置，然后利用Nutch進(jìn)行數(shù)據(jù)爬取，最后利用Solr對(duì)爬取結(jié)果進(jìn)行查詢操作。任務(wù)實(shí)現(xiàn)的關(guān)鍵點(diǎn)是Nutch與Solr的安裝與集成。任務(wù)分析1.安裝JDK和Tomcat網(wǎng)上下載jdk1.8和Tomcat8.5，首先安裝jdk1.8，然后安裝Tomcat，全部采用默認(rèn)安裝。jdk1.8安裝完成以后，環(huán)境變量配置如下圖所示：任務(wù)實(shí)施任務(wù)實(shí)施2.Cygwin安裝：打開官網(wǎng)網(wǎng)頁，下載“setup-x86_64.exe”的文件進(jìn)行安裝。

cygwin官網(wǎng)下載頁面任務(wù)實(shí)施2.Cygwin安裝步驟1：說明界面，單擊“下一步”步驟2：安裝方式選擇默認(rèn)的“InstallfromInternet”步驟3：選擇安裝目錄任務(wù)實(shí)施2.Cygwin安裝步驟4：選擇保存路徑步驟5：選擇連接Internet的方式本案例選擇“DirectConnection”步驟6：添加并選擇下載cygwin的站點(diǎn)任務(wù)實(shí)施2.Cygwin安裝步驟7：下載完成后點(diǎn)擊下一步步驟8：選擇需要下載安裝的組件包步驟9：開始安裝任務(wù)實(shí)施2.Cygwin安裝步驟10：安裝成功步驟11：安裝驗(yàn)證任務(wù)實(shí)施3.Nutch安裝官網(wǎng)下載Nutch。任務(wù)實(shí)施3.Nutch安裝第一步：解壓“apache-nutch-1.9-bin.zip”并將解壓的文件夾“apache-nutch-1.9”完整地拷貝到Cygwin的安裝目錄的“home”文件夾下面。第二步：配置Nutch爬取的網(wǎng)站列表。第三步：配置“apache-nutch-1.9\conf\regex-urlfilter.txt”。第四步：配置“apache-nutch-1.9\conf\nutch-site.xml”。任務(wù)實(shí)施4.Solr安裝及與Tomcat、Nutch集成登錄官網(wǎng)下Solr。本案例下載的版本是4.10.1的文件“solr-4.10.0.zip”。任務(wù)實(shí)施4.Solr安裝及與Tomcat、Nutch集成（1）solr安裝及與Tomcat的集成第一步：將下載下來的“solr-4.10.0.zip”解壓，解壓后的目錄為“solr-4.10.0”。第二步：將solr-4.10.0/example/文件夾下的solr文件夾拷貝到硬盤中的某個(gè)位置，用于solr操作的支持。如本例目錄為“D:\solrHome”。第三步：將solr-4.10.0/example/webapps/目錄下的solr.war復(fù)制到tomcat8.5/webapps目錄下。第四步：將solr-4.10.0/example/lib/ext目錄下的所有的jar包全部拷貝到“tomcat8.5/webapp/solr/WEB-INF/lib”下面。任務(wù)實(shí)施4.Solr安裝及與Tomcat、Nutch集成（2）solr與Nutch的集成將“apache-nutch-1.9/conf/schema-solr4.xml”文件直接拷貝到“d:/solrHome/solr/collection1/conf”下將該目錄已有的“schem

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)采集與預(yù)處理課件學(xué)習(xí)單元1-使用爬蟲技術(shù)進(jìn)行數(shù)據(jù)采集

文檔簡介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)采集與預(yù)處理 課件 學(xué)習(xí)單元1-使用爬蟲技術(shù)進(jìn)行數(shù)據(jù)采集

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

數(shù)據(jù)采集與預(yù)處理課件學(xué)習(xí)單元1-使用爬蟲技術(shù)進(jìn)行數(shù)據(jù)采集