版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
使用爬蟲技術(shù)進(jìn)行數(shù)據(jù)采集學(xué)習(xí)單元1單元概述本單元主要介紹了爬蟲的相關(guān)概念及爬取網(wǎng)頁的基本過程。通過對(duì)靜態(tài)頁面爬取,使學(xué)習(xí)者了解爬蟲的爬取的基本原理;通過對(duì)scrapy框架技術(shù)和Nutch技術(shù)講解,讓學(xué)習(xí)者能夠編寫簡單的網(wǎng)絡(luò)爬蟲項(xiàng)目利用爬蟲技術(shù)進(jìn)行數(shù)據(jù)采集。教學(xué)目標(biāo)掌握爬蟲的概念、作用和流程。掌握靜態(tài)網(wǎng)頁爬取的基本流程。
了解crapy框架技術(shù)和Nutch技術(shù)的相關(guān)知識(shí)和基本理論。掌握常用的抓取網(wǎng)頁所需工具的下載、安裝與使用。熟練利用各種爬取工具進(jìn)行網(wǎng)頁有用信息的爬取。任務(wù)1爬取靜態(tài)頁面數(shù)據(jù)
“社會(huì)輿情信息管理系統(tǒng)”需要搜集最新的職業(yè)教育信息來發(fā)布,尤其知名職教院校信息動(dòng)態(tài)。例如,在一高職網(wǎng)站爬取信息。一般的高職網(wǎng)站都由靜態(tài)和動(dòng)態(tài)兩類網(wǎng)頁構(gòu)成,為了增加學(xué)習(xí)的針對(duì)性,使用requests+BeautifulSoup爬取靜態(tài)頁面數(shù)據(jù),獲取網(wǎng)頁各部分?jǐn)?shù)據(jù)內(nèi)容。任務(wù)實(shí)現(xiàn)的關(guān)鍵點(diǎn)是:requests庫的安裝與使用,BeautifulSoup庫的安裝與使用,以及利用requests+BeautifulSoup爬取靜態(tài)頁面數(shù)據(jù)的基本過程。任務(wù)分析1.安裝requests庫在CMD命令窗口下,只需要輸入命令pipinstallrequests,即可完成requests庫的安裝。任務(wù)實(shí)施2.使用requests庫獲取響應(yīng)內(nèi)容網(wǎng)絡(luò)爬蟲是通過requests向?yàn)g覽器發(fā)送請(qǐng)求,獲取請(qǐng)求內(nèi)容importrequests#發(fā)送請(qǐng)求,獲取服務(wù)器響應(yīng)內(nèi)容r=requests.get("/")r.encoding='utf-8'print("文本編碼:",r.encoding)print("響應(yīng)狀態(tài)碼:",r.status_code)print("字符串方式的響應(yīng)體:",r.text)3.定制requests(1)傳遞URL參數(shù)
在URL中加入?yún)?shù)的形式是在問號(hào)后,以鍵/值的形式放在URL中:任務(wù)實(shí)施importrequestsr=requests.get('/list.aspx?news_type=1')print("URL已經(jīng)正確編碼:",r.url)print("字符串方式的響應(yīng)體:\n",r.text)也可以把參數(shù)保存在字典中,用params構(gòu)建到URL中importrequestskey_dict={'news_type':'1'}r=requests.get('/list.aspx',params=key_dict)r.encoding='utf-8'print("URL已經(jīng)正確編碼:",r.url)print("字符串方式的響應(yīng)體:\n",r.text)(2)定制請(qǐng)求頭利用Google瀏覽器構(gòu)建請(qǐng)求頭。因?yàn)榇蜷_Google瀏覽器,點(diǎn)擊鼠標(biāo)右鍵,點(diǎn)擊檢查,就可以找到請(qǐng)求所需要的參數(shù):任務(wù)實(shí)施通過上圖,我們可以獲取如下信息:參數(shù)Host的值為'/'參數(shù)User-Agent的值為'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.0.3987.100Safari/537.36',利用上面兩個(gè)參數(shù)定制請(qǐng)求頭,如下所示:任務(wù)實(shí)施importrequestsheaders={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.0.3987.100Safari/537.36','Host':''}r=requests.get("/",headers=headers)print("響應(yīng)狀態(tài)碼:",r.status_code)(3)發(fā)送POST請(qǐng)求除了get請(qǐng)求外,還需要發(fā)送一些編碼格式為表單形式的數(shù)據(jù),有些網(wǎng)站需要登錄才能訪問,這樣就需要使用POST請(qǐng)求,也需要傳遞一個(gè)字典給Requests中的data參數(shù)。這個(gè)數(shù)據(jù)字典就會(huì)發(fā)出請(qǐng)求的時(shí)候自動(dòng)編碼為表單形式,如下所示:任務(wù)實(shí)施importrequestskey_dict={'key1':'value1','key2':'value2'}r=requests.post('/post',data=key_dict)print("URL已經(jīng)正確編碼:",r.url)print(r.text)4.安裝BeautifulSoup庫BeautifulSoup3目前已經(jīng)停止開發(fā),推薦在現(xiàn)在的項(xiàng)目中使用BeautifulSoup4。在windows系統(tǒng)下,只需要輸入命令pipinstallbeautifulsoup4,即可完成beautifulsoup4庫的安裝。5.使用requests+BeautifulSoup爬取靜態(tài)頁面數(shù)據(jù)以爬取河北工業(yè)職業(yè)技術(shù)學(xué)院工院新聞頁的新聞列表為例,基本實(shí)現(xiàn)步驟如下所示::(1)打開目標(biāo)網(wǎng)頁,確定要爬取的數(shù)據(jù)在網(wǎng)頁源代碼中的位置任務(wù)實(shí)施新建一記事本文件用于臨時(shí)存放我們拷貝的位置路徑。打開新建的記事本文件,右擊選擇“粘貼”便將我們?yōu)g覽的網(wǎng)頁中得第一條新聞標(biāo)題在html代碼中的位置信息粘貼過來,本例中粘貼的文本內(nèi)容為“body>div.jz>div>div.ny_right>div>div.navjz.ny_newslb>ul>li:nth-child(1)>a”,去掉“l(fā)i”后面的“:nth-child(1)”代碼后,路徑“body>div.jz>div>div.ny_right>div>div.navjz.ny_newslb>ul>li>a”則變?yōu)閍標(biāo)簽在html代碼中的位置,暫存路徑。任務(wù)實(shí)施(2)編寫爬蟲文件任務(wù)實(shí)施importrequestsfrombs4importBeautifulSoupurl='/zhxw/gyxw.htm'strhtml=requests.get(url)strhtml.encoding=strhtml.apparent_encodingsoup=BeautifulSoup(strhtml.text,'lxml')data=soup.select('body>div.jz>div>div.ny_right>div>div.navjz.ny_newslb>ul>li>a')foritemindata:result={'title':item.get_text(),'link':item.get('href'),}print(result)1.爬蟲的概念爬蟲更官方點(diǎn)的名字叫數(shù)據(jù)采集,英文一般稱作spider,是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。簡單來說,網(wǎng)絡(luò)爬蟲就是根據(jù)一定算法實(shí)現(xiàn)編程開發(fā),主要通過URL實(shí)現(xiàn)數(shù)據(jù)的抓取和發(fā)掘。網(wǎng)絡(luò)爬蟲可以自動(dòng)化瀏覽網(wǎng)絡(luò)中的信息,當(dāng)然瀏覽信息的時(shí)候需要按照我們制定的規(guī)則進(jìn)行,這些規(guī)則我們稱之為網(wǎng)絡(luò)爬蟲算法。使用Python可以很方便地編寫出爬蟲程序,進(jìn)行互聯(lián)網(wǎng)信息的自動(dòng)化檢索。必備知識(shí)2.爬蟲的功能現(xiàn)如今大數(shù)據(jù)時(shí)代已經(jīng)到來,網(wǎng)絡(luò)爬蟲技術(shù)成為這個(gè)時(shí)代不可或缺的一部分,爬蟲的常用功能如圖所示:必備知識(shí)3.爬蟲的類型網(wǎng)絡(luò)爬蟲根據(jù)系統(tǒng)結(jié)構(gòu)和開發(fā)技術(shù),大致可以分為4種類型:通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲和深層網(wǎng)絡(luò)爬蟲。實(shí)際的網(wǎng)絡(luò)爬蟲系統(tǒng)通常是幾種爬蟲技術(shù)相結(jié)合實(shí)現(xiàn)的。必備知識(shí)(1)通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲,它將爬行對(duì)象從一些種子URL擴(kuò)充到整個(gè)Web,主要為門戶站點(diǎn)搜索引擎和大型Web服務(wù)提供商采集數(shù)據(jù)。(2)聚焦網(wǎng)絡(luò)爬蟲聚焦網(wǎng)絡(luò)爬蟲又稱主題網(wǎng)絡(luò)爬蟲,是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲。3.爬蟲的類型必備知識(shí)(3)增量式網(wǎng)絡(luò)爬蟲增量式網(wǎng)絡(luò)爬蟲是指對(duì)已下載網(wǎng)頁采取增量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁的爬蟲,它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面。(4)深層網(wǎng)絡(luò)爬蟲深層網(wǎng)絡(luò)爬蟲是大部分內(nèi)容不能通過靜態(tài)URL獲取的、隱藏在搜索表單后的、只有用戶提交一些關(guān)鍵詞才能獲得的網(wǎng)絡(luò)頁面。4.爬蟲的組成在爬蟲的系統(tǒng)框架中,主過程由控制器,解析器,資源庫三部分組成。(1)控制器控制器是網(wǎng)絡(luò)爬蟲的中央控制器,它主要是負(fù)責(zé)根據(jù)系統(tǒng)傳過來的URL鏈接,分配一線程,然后啟動(dòng)線程調(diào)用爬蟲爬取網(wǎng)頁的過程。(2)解析器解析器是負(fù)責(zé)網(wǎng)絡(luò)爬蟲的主要部分,其負(fù)責(zé)的工作主要有:下載網(wǎng)頁的功能,對(duì)網(wǎng)頁的文本進(jìn)行處理,如過濾功能,抽取特殊HTML標(biāo)簽的功能,分析數(shù)據(jù)功能。(3)資源庫主要是用來存儲(chǔ)網(wǎng)頁中下載下來的數(shù)據(jù)記錄的容器,并提供生成索引的目標(biāo)源。中大型的數(shù)據(jù)庫產(chǎn)品有:Oracle、SqlServer等。必備知識(shí)5.Requests庫獲取響應(yīng)的內(nèi)容的過程,等同于我們使用瀏覽器的過程,我們?cè)跒g覽器中輸入網(wǎng)址,瀏覽器就會(huì)向服務(wù)器請(qǐng)求內(nèi)容,服務(wù)器返回的就是HTML代碼,瀏覽器就會(huì)自動(dòng)解析代碼。而我們的網(wǎng)絡(luò)爬蟲與瀏覽器發(fā)送請(qǐng)求的過程是一樣的,通過requests向?yàn)g覽器發(fā)送請(qǐng)求獲取請(qǐng)求內(nèi)容;同時(shí)我們通過使用requets發(fā)送請(qǐng)求獲取數(shù)據(jù)。Requets可以發(fā)送get、post請(qǐng)求,還可以發(fā)送put、delete、options、head等請(qǐng)求。必備知識(shí)6.BeautifulSoup庫簡單來說,BeautifulSoup是python的一個(gè)庫,最主要的功能是從網(wǎng)頁抓取數(shù)據(jù)。BeautifulSoup提供一些簡單的、python式的函數(shù)用來處理導(dǎo)航、搜索、修改分析樹等功能。它是一個(gè)工具箱,通過解析文檔為用戶提供需要抓取的數(shù)據(jù)。必備知識(shí)任務(wù)2使用scrapy框架爬取動(dòng)態(tài)數(shù)據(jù)
在上一個(gè)任務(wù)的基礎(chǔ)之上,為了“社會(huì)輿情信息管理系統(tǒng)”獲取更多的動(dòng)態(tài)網(wǎng)頁的信息。我們繼續(xù)爬取高職網(wǎng)站動(dòng)態(tài)網(wǎng)頁的最新信息,并將信息進(jìn)行存儲(chǔ)。我們繼續(xù)使用scrapy爬蟲框架技術(shù)爬取河北工業(yè)職業(yè)技術(shù)學(xué)院的工院新聞頁,將爬取到的網(wǎng)頁源代碼信息保存到hbcit_news.html中,然后提取網(wǎng)頁中新聞列表的標(biāo)題和發(fā)布日期等相關(guān)數(shù)據(jù),并將爬取到的數(shù)據(jù)存儲(chǔ)到hbcit_news.csv中。任務(wù)實(shí)現(xiàn)的關(guān)鍵點(diǎn)是:Scrapy框架的環(huán)境安裝與部署,以及使用scrapy框架爬取動(dòng)態(tài)數(shù)據(jù)的基本過程。任務(wù)分析1.安裝Scrapy
打開cmd命令窗口,運(yùn)行pip命令
pipinstallScrapy任務(wù)實(shí)施2.新建Scrapy項(xiàng)目
首先確定項(xiàng)目目錄,然后打開cmd命令窗口,將命令行路徑切換到自定義的項(xiàng)目目錄,運(yùn)行如下命令創(chuàng)建項(xiàng)目mySpider:scrapystartprojectmySpider
運(yùn)行成功,在PyCharm環(huán)境中可以看到,mySpider項(xiàng)目的自動(dòng)生成的文件和目錄的結(jié)構(gòu)如圖所示3.定義要抓取的數(shù)據(jù)
在items.py文件中定義自己要抓取的數(shù)據(jù)。在PyCharm中打開mySpider目錄下的items.py文件,文件中已經(jīng)自動(dòng)生成里繼承自scrapy.Item的MyspiderItem類,我們只需要修改MyspiderItem類的定義,為它添加屬性即可,添加后代碼如下:任務(wù)實(shí)施importscrapyclassMyspiderItem(scrapy.Item):title=scrapy.Field()#抓取內(nèi)容,新聞標(biāo)題date=scrapy.Field()#抓取內(nèi)容,新聞發(fā)布時(shí)間4.創(chuàng)建爬蟲,爬取網(wǎng)頁的源代碼
首先打開cmd命令窗口,將命令行路徑切換到E:\scrapyPro\mySpider\mySpider\spiders,然后使用創(chuàng)建爬蟲的命令來創(chuàng)建一個(gè)名為hbcit的爬蟲,運(yùn)行代碼如下:任務(wù)實(shí)施scrapygenspiderhbcit""上例中,爬蟲名稱是hbcit,爬取域的范圍為。
運(yùn)行成功后,在PyCharm的mySpider/spiders目錄下會(huì)產(chǎn)生一個(gè)新創(chuàng)建的爬蟲文件hbcit.py。爬蟲程序編寫完畢,在cmd命令窗口中將命令行路徑切換到E:\scrapyPro\mySpider\mySpider\spiders,然后使用運(yùn)行爬蟲的命令來運(yùn)行hbcit爬蟲,運(yùn)行代碼如下:scrapycrawlhbcit4.創(chuàng)建爬蟲,爬取網(wǎng)頁的源代碼
在當(dāng)前文件夾會(huì)產(chǎn)生一個(gè)名稱為hbcit_news.html的靜態(tài)網(wǎng)頁文件,文件內(nèi)容就是使用爬蟲爬取的工院新聞頁的全部源代碼信息,輸出結(jié)果部分截圖如下圖所示:任務(wù)實(shí)施5.分析源代碼,提取數(shù)據(jù)
確定要提取的目標(biāo)數(shù)據(jù),打開hbcit_news.html頁面查看目標(biāo)數(shù)據(jù)所處的網(wǎng)頁結(jié)構(gòu),部分網(wǎng)頁代碼如下:任務(wù)實(shí)施<divclass="navjzny_newslb"><ul><li><span>2020-06-23</span><ahref="../info/1004/5802.htm"target="_blank"title="圓夢(mèng)工院揚(yáng)帆遠(yuǎn)航——我院首屆來華留學(xué)生畢業(yè)典禮隆重舉行">圓夢(mèng)工院揚(yáng)帆遠(yuǎn)航——我院首屆來華留學(xué)生畢業(yè)典禮隆重舉行</a></li><li><span>2020-06-19</span><ahref="../info/1004/5774.htm"target="_blank"title="中國共產(chǎn)黨河北工業(yè)職業(yè)技術(shù)學(xué)院第三次代表大會(huì)勝利閉幕">中國共產(chǎn)黨河北工業(yè)職業(yè)技術(shù)學(xué)院第三次代表大會(huì)勝利閉幕</a></li>......</ul></div>5.分析源代碼,提取數(shù)據(jù)
打開hbcit.py文件,引入mySpider/items.py文件中定義的MyspiderItem類,修改parse()方法,修改代碼如下:任務(wù)實(shí)施importscrapyfrommySpider.itemsimportMyspiderItemclassHbcitSpider(scrapy.Spider):name='hbcit'allowed_domains=['']start_urls=['/zhxw/gyxw.htm']defparse(self,response):items=[]foreachinresponse.xpath("http://div[@class='navjzny_newslb']/ul/li"):item=MyspiderItem()date=each.xpath("span/text()").extract()title=each.xpath("a/text()").extract()item["date"]=date[0]item["title"]=title[0]items.append(item)returnitems5.分析源代碼,提取數(shù)據(jù)
爬蟲程序修改完畢,打開cmd命令窗口,將命令行路徑切換到E:\scrapyPro\mySpider\mySpider\spiders,再次使用運(yùn)行爬蟲的命令來運(yùn)行hbcit爬蟲,運(yùn)行代碼如下:任務(wù)實(shí)施scrapycrawlhbcit
命令執(zhí)行成功后,cmd窗口打印輸出我們所獲取的新聞列表信息,部分輸出結(jié)果如下:2020-07-0614:13:03[scrapy.core.scraper]DEBUG:Scrapedfrom<200/zhxw/gyxw.htm>{'date':'2020-06-05','title':'學(xué)院領(lǐng)導(dǎo)走進(jìn)“云端”課堂,指導(dǎo)課程線上教學(xué)'}2020-07-0614:13:03[scrapy.core.scraper]DEBUG:Scrapedfrom<200/zhxw/gyxw.htm>{'date':'2020-06-03','title':'我院開展疫情防控模擬演練'}2020-07-0614:13:03[scrapy.core.scraper]DEBUG:Scrapedfrom<200/zhxw/gyxw.htm>{'date':'2020-05-29','title':'我院“對(duì)話最美逆行者”專場(chǎng)報(bào)告會(huì)成功舉辦'}6.存儲(chǔ)爬取數(shù)據(jù)
使用Scrapy框架制作爬蟲最后一步就是將獲取的數(shù)據(jù)進(jìn)行輸出存儲(chǔ),我們只需在運(yùn)行爬蟲命令時(shí)添加-o選項(xiàng)然后指定輸出文件格式即可,我們以輸出CSV文件格式為例,運(yùn)行命令為:任務(wù)實(shí)施scrapycrawlhbcit-ohbcit_news.csv
程序運(yùn)行完畢,在當(dāng)前目錄下自動(dòng)創(chuàng)建了hbcit_news.csv文件,我們用Excel或WPS打開,hbcit_news.csv文件部分內(nèi)容截圖如下圖所示:必備知識(shí)1.爬蟲的原理(1)通用網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)原理及基本過程通用爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁的程序,它為搜索引擎從Internet上下載網(wǎng)頁,是搜索引擎的重要組成部分。爬取網(wǎng)頁的基本流程如下圖所示必備知識(shí)1.爬蟲的原理(2)聚焦網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)原理及基本過程聚焦網(wǎng)絡(luò)爬蟲的指定原理和過程與通用爬蟲大致相同,在通用爬蟲的基礎(chǔ)上增加兩個(gè)步驟:定義爬取目標(biāo)和篩選過濾URL,原理如下圖所示。必備知識(shí)2.使用Scrapy框架的一般步驟(1)新建項(xiàng)目,基本命令格式:scrapystartproject項(xiàng)目名稱(2)明確目標(biāo),明確想要抓取的目標(biāo),編寫items.py;(3)創(chuàng)建爬蟲,基本命令格式:scrapygenspider爬蟲名稱"爬蟲域"(4)運(yùn)行爬蟲,基本命令格式:scrapycrawl爬蟲名稱(5)保存數(shù)據(jù),基本命令格式:scrapycrawl爬蟲名稱-o保存數(shù)據(jù)的文件名任務(wù)3使用Nutch爬取數(shù)據(jù)
在“社會(huì)輿情信息管理系統(tǒng)”中需要一些物聯(lián)網(wǎng)信息技術(shù)發(fā)展的最新信息,尤其智慧城市發(fā)展的信息動(dòng)態(tài)。為完成此任務(wù),我們使用Nutch來爬取相關(guān)網(wǎng)站,獲取相關(guān)最新動(dòng)態(tài)數(shù)據(jù)信息。Nutch的插件機(jī)制使得開發(fā)者可以靈活地定制網(wǎng)頁抓取策略,在本任務(wù)中,主要介紹了利用Nutch技術(shù)進(jìn)行網(wǎng)頁數(shù)據(jù)爬取的基本過程。我們首先對(duì)Nutch爬取數(shù)據(jù)的環(huán)境安裝與設(shè)置,然后利用Nutch進(jìn)行數(shù)據(jù)爬取,最后利用Solr對(duì)爬取結(jié)果進(jìn)行查詢操作。任務(wù)實(shí)現(xiàn)的關(guān)鍵點(diǎn)是Nutch與Solr的安裝與集成。任務(wù)分析1.安裝JDK和Tomcat網(wǎng)上下載jdk1.8和Tomcat8.5,首先安裝jdk1.8,然后安裝Tomcat,全部采用默認(rèn)安裝。jdk1.8安裝完成以后,環(huán)境變量配置如下圖所示:任務(wù)實(shí)施任務(wù)實(shí)施2.Cygwin安裝:打開官網(wǎng)網(wǎng)頁,下載“setup-x86_64.exe”的文件進(jìn)行安裝。
cygwin官網(wǎng)下載頁面任務(wù)實(shí)施2.Cygwin安裝步驟1:說明界面,單擊“下一步”步驟2:安裝方式選擇默認(rèn)的“InstallfromInternet”步驟3:選擇安裝目錄任務(wù)實(shí)施2.Cygwin安裝步驟4:選擇保存路徑步驟5:選擇連接Internet的方式本案例選擇“DirectConnection”步驟6:添加并選擇下載cygwin的站點(diǎn)任務(wù)實(shí)施2.Cygwin安裝步驟7:下載完成后點(diǎn)擊下一步步驟8:選擇需要下載安裝的組件包步驟9:開始安裝任務(wù)實(shí)施2.Cygwin安裝步驟10:安裝成功步驟11:安裝驗(yàn)證任務(wù)實(shí)施3.Nutch安裝官網(wǎng)下載Nutch。任務(wù)實(shí)施3.Nutch安裝第一步:解壓“apache-nutch-1.9-bin.zip”并將解壓的文件夾“apache-nutch-1.9”完整地拷貝到Cygwin的安裝目錄的“home”文件夾下面。第二步:配置Nutch爬取的網(wǎng)站列表。第三步:配置“apache-nutch-1.9\conf\regex-urlfilter.txt”。第四步:配置“apache-nutch-1.9\conf\nutch-site.xml”。任務(wù)實(shí)施4.Solr安裝及與Tomcat、Nutch集成登錄官網(wǎng)下Solr。本案例下載的版本是4.10.1的文件“solr-4.10.0.zip”。任務(wù)實(shí)施4.Solr安裝及與Tomcat、Nutch集成(1)solr安裝及與Tomcat的集成第一步:將下載下來的“solr-4.10.0.zip”解壓,解壓后的目錄為“solr-4.10.0”。第二步:將solr-4.10.0/example/文件夾下的solr文件夾拷貝到硬盤中的某個(gè)位置,用于solr操作的支持。如本例目錄為“D:\solrHome”。第三步:將solr-4.10.0/example/webapps/目錄下的solr.war復(fù)制到tomcat8.5/webapps目錄下。第四步:將solr-4.10.0/example/lib/ext目錄下的所有的jar包全部拷貝到“tomcat8.5/webapp/solr/WEB-INF/lib”下面。任務(wù)實(shí)施4.Solr安裝及與Tomcat、Nutch集成(2)solr與Nutch的集成將“apache-nutch-1.9/conf/schema-solr4.xml”文件直接拷貝到“d:/solrHome/solr/collection1/conf”下將該目錄已有的“schem
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年農(nóng)業(yè)全產(chǎn)業(yè)鏈融合發(fā)展路徑
- 2026年無人駕駛車輛測(cè)試技術(shù)培訓(xùn)
- 存儲(chǔ)系統(tǒng)容災(zāi)備份建設(shè)手冊(cè)
- 2026科技部監(jiān)管中心招聘派遣制職工2人備考題庫及一套完整答案詳解
- 2026年RPA機(jī)器人流程自動(dòng)化應(yīng)用
- 財(cái)務(wù)資金安全培訓(xùn)課件
- 職業(yè)壓力與職業(yè)病的醫(yī)療化防治
- 職業(yè)健康監(jiān)護(hù)中認(rèn)知功能的重要性
- 陽江2025年廣東陽江市陽西縣溪頭鎮(zhèn)人民政府招聘合同制禁毒工作人員筆試歷年參考題庫附帶答案詳解
- 邢臺(tái)2025年河北邢臺(tái)沙河市招聘中小學(xué)教師100人筆試歷年參考題庫附帶答案詳解
- 民法典物業(yè)管理解讀課件
- 新華書店管理辦法
- 企業(yè)文化與員工滿意度關(guān)系研究
- 中國重癥超聲臨床應(yīng)用專家共識(shí)
- 糖水店員工管理制度
- 來料檢驗(yàn)控制程序(含表格)
- 醫(yī)院供氧、供電、供水故障脆弱性分析報(bào)告
- 分布式基站光伏電站建設(shè)標(biāo)準(zhǔn)
- 潔凈區(qū)環(huán)境監(jiān)測(cè)培訓(xùn)課件
- 酸棗扦插快繁技術(shù)規(guī)程DB1305T+098-2016
- 鋁材銷售技巧培訓(xùn)
評(píng)論
0/150
提交評(píng)論