《大數(shù)據(jù)采集技術(shù)》課件-項(xiàng)目5:京東商品評(píng)價(jià)數(shù)據(jù)采集_第1頁(yè)
《大數(shù)據(jù)采集技術(shù)》課件-項(xiàng)目5:京東商品評(píng)價(jià)數(shù)據(jù)采集_第2頁(yè)
《大數(shù)據(jù)采集技術(shù)》課件-項(xiàng)目5:京東商品評(píng)價(jià)數(shù)據(jù)采集_第3頁(yè)
《大數(shù)據(jù)采集技術(shù)》課件-項(xiàng)目5:京東商品評(píng)價(jià)數(shù)據(jù)采集_第4頁(yè)
《大數(shù)據(jù)采集技術(shù)》課件-項(xiàng)目5:京東商品評(píng)價(jià)數(shù)據(jù)采集_第5頁(yè)
已閱讀5頁(yè),還剩40頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù),大智慧,大未來項(xiàng)目5:京東商品評(píng)價(jià)數(shù)據(jù)采集項(xiàng)目描述商品的評(píng)價(jià)信息對(duì)購(gòu)買方和銷售方都很重要。購(gòu)買方在瀏覽購(gòu)物網(wǎng)站時(shí),會(huì)根據(jù)自己需求查找商品,在商品功能都能滿足的前提下,商品評(píng)價(jià)對(duì)購(gòu)買者購(gòu)買有很大影響。另外,銷售方可以統(tǒng)計(jì)自己商品的評(píng)價(jià)信息,從評(píng)價(jià)信息進(jìn)行分析從而獲取自己商品的競(jìng)爭(zhēng)力,以及不足之處,在后續(xù)商品的改良上可以有針對(duì)性的進(jìn)行。本項(xiàng)目以從京東商城某款商品的評(píng)價(jià)數(shù)據(jù)為例,介紹在遵守電商網(wǎng)站robots.txt的基礎(chǔ)上,爬取公開數(shù)據(jù)的方法,爬取該款手機(jī)的好評(píng)數(shù)據(jù),包括每條評(píng)論信息的評(píng)論者、評(píng)分、評(píng)論內(nèi)容、產(chǎn)品規(guī)格、評(píng)論時(shí)間等。任務(wù)分解項(xiàng)目2校園消費(fèi)數(shù)據(jù)存儲(chǔ)任務(wù)5.1熟悉購(gòu)物網(wǎng)站工作流程robots協(xié)議任務(wù)5.4批量獲取數(shù)據(jù)任務(wù)5.3獲取單頁(yè)數(shù)據(jù)json任務(wù)5.2Drission的安裝與配置DrissionPage03010402大數(shù)據(jù),大智慧,大未來5.1熟悉購(gòu)物網(wǎng)站工作流程任務(wù)描述為了從商城爬取某款商品好評(píng)數(shù)據(jù),我們首先要熟悉該商城評(píng)價(jià)數(shù)據(jù)的獲取流程,才能進(jìn)行評(píng)價(jià)數(shù)據(jù)采集工作。壹知識(shí)儲(chǔ)備Knowledgereserve貳技能小練Skillpractice叁任務(wù)實(shí)施Taskimplementation肆任務(wù)小結(jié)TasksummaryCONTENTS目錄知識(shí)儲(chǔ)備第一環(huán)節(jié)robots協(xié)議知識(shí)點(diǎn)5.1robots協(xié)議robots協(xié)議也稱爬蟲協(xié)議、爬蟲規(guī)則等,是指網(wǎng)站可建立一個(gè)robots.txt文件來告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓取,而搜索引擎則通過讀取robots.txt文件來識(shí)別這個(gè)頁(yè)面是否允許被抓取。但是,這個(gè)robots協(xié)議不是防火墻,也沒有強(qiáng)制執(zhí)行力,搜索引擎完全可以忽視r(shí)obots.txt文件去抓取網(wǎng)頁(yè)的快照。如果想單獨(dú)定義搜索引擎的漫游器訪問子目錄時(shí)的行為,那么可以將自定的設(shè)置合并到根目錄下的robots.txt,或者使用robots元數(shù)據(jù)(Metadata,又稱元數(shù)據(jù))。robots協(xié)議并不是一個(gè)規(guī)范,而只是約定俗成的,所以并不能保證網(wǎng)站的隱私。

技能小練技能小練第二環(huán)節(jié)技能1:查看京東商城的robots協(xié)議小練要求查看京東商城的robots.txt協(xié)議/robots.txt任務(wù)實(shí)施第三環(huán)節(jié)任務(wù)小結(jié)第四環(huán)節(jié)任務(wù)小結(jié)通過robots協(xié)議,確認(rèn)京東商城是可以爬取的。通過瀏覽器,了解了商城工作流程,后面將根據(jù)商城工作流程,使用python模擬瀏覽器爬取數(shù)據(jù)。大數(shù)據(jù),大智慧,大未來5.2安裝和配置DrissionPage任務(wù)描述商城允許通過掃碼登錄,并且大部分用戶也是使用該方法登錄商城的。本項(xiàng)目將使用自動(dòng)化工具DrissionPage來啟動(dòng)谷歌瀏覽器,獲取網(wǎng)頁(yè)數(shù)據(jù)后進(jìn)行解析,從而獲取到需要的評(píng)價(jià)數(shù)據(jù)。壹知識(shí)儲(chǔ)備Knowledgereserve貳技能小練Skillpractice叁任務(wù)實(shí)施Taskimplementation肆任務(wù)小結(jié)TasksummaryCONTENTS目錄知識(shí)儲(chǔ)備第一環(huán)節(jié)DrissionPage知識(shí)點(diǎn)5.2DrissionPageDrissionPage?

是一個(gè)基于Python的網(wǎng)頁(yè)自動(dòng)化工具。既能控制瀏覽器,也能收發(fā)數(shù)據(jù)包,還能把兩者合二為一。可兼顧瀏覽器自動(dòng)化的便利性和requests的高效率。功能強(qiáng)大,語(yǔ)法簡(jiǎn)潔優(yōu)雅,代碼量少,對(duì)新手友好。(1)安裝DrissionPage(2)配置DrissionPage

技能小練技能小練第二環(huán)節(jié)技能2:安裝和配置DrissionPage小練要求在自己電腦上安裝和配置DrissionPage。任務(wù)小結(jié)第四環(huán)節(jié)任務(wù)小結(jié)本任務(wù)完成了通過自動(dòng)化工具DrissionPage打開網(wǎng)站獲取數(shù)據(jù)的全過程,這是數(shù)據(jù)采集的基礎(chǔ),希望同學(xué)們熟練掌握。大數(shù)據(jù),大智慧,大未來5.3獲取單頁(yè)數(shù)據(jù)任務(wù)描述本任務(wù)獲取單頁(yè)數(shù)據(jù)流程如下圖所示。主要包含獲取網(wǎng)頁(yè)源代碼、解析網(wǎng)頁(yè)源代碼和保存數(shù)據(jù)三步,本任務(wù)將以該款商品評(píng)價(jià)數(shù)據(jù)第一頁(yè)介紹整個(gè)流程。獲取網(wǎng)頁(yè)源代碼解析網(wǎng)頁(yè)源代碼保存數(shù)據(jù)壹知識(shí)儲(chǔ)備Knowledgereserve貳技能小練Skillpractice叁任務(wù)實(shí)施Taskimplementation肆任務(wù)小結(jié)TasksummaryCONTENTS目錄知識(shí)儲(chǔ)備第一環(huán)節(jié)json知識(shí)點(diǎn)5.3jsonJSON(JavaScriptObjectNotation)是一種輕量級(jí)的數(shù)據(jù)交換格式,廣泛用于將數(shù)據(jù)從一個(gè)應(yīng)用程序傳輸?shù)搅硪粋€(gè)應(yīng)用程序。它基于JavaScript語(yǔ)言的一個(gè)子集,但已成為跨編程語(yǔ)言和平臺(tái)的通用數(shù)據(jù)格式。JSON數(shù)據(jù)由鍵值對(duì)組成,類似于Python中的字典或JavaScript中的對(duì)象。它支持以下數(shù)據(jù)類型:字符串(String):表示文本數(shù)據(jù),使用雙引號(hào)括起來。數(shù)字(Number):表示整數(shù)或浮點(diǎn)數(shù)。布爾值(Boolean):表示真或假。數(shù)組(Array):表示有序的值列表,使用方括號(hào)括起來,值之間用逗號(hào)分隔。對(duì)象(Object):表示鍵值對(duì)集合,使用花括號(hào)括起來,鍵和值之間用冒號(hào)分隔,鍵值對(duì)之間用逗號(hào)分隔。

技能小練技能小練第二環(huán)節(jié)技能3:json小練要求(1)dumps函數(shù)(2)dump函數(shù)(3)load函數(shù)(4)loads函數(shù)任務(wù)實(shí)施第三環(huán)節(jié)子任務(wù)劃分解析網(wǎng)頁(yè)源代碼獲取網(wǎng)頁(yè)源代碼保存數(shù)據(jù)任務(wù)小結(jié)第四環(huán)節(jié)任務(wù)小結(jié)通過知識(shí)儲(chǔ)備我們了解了json數(shù)據(jù)類型,并掌握了其常見的方法,在任務(wù)實(shí)施中,獲取到了單頁(yè)網(wǎng)頁(yè)源代碼,并解析其源代碼,保存于dataframe數(shù)據(jù)中。大數(shù)據(jù),大智慧,大未來5.4批量獲取數(shù)據(jù)任務(wù)描述前一個(gè)任務(wù)介紹了單頁(yè)數(shù)據(jù)的獲取過程,由于商城評(píng)價(jià)數(shù)據(jù)很多,以分頁(yè)形式進(jìn)行展示。在批量數(shù)據(jù)采集時(shí),需要反復(fù)運(yùn)行單頁(yè)數(shù)據(jù)獲取的相關(guān)代碼,因此,我們?cè)谂揩@取數(shù)據(jù)時(shí),首先將獲取單頁(yè)數(shù)據(jù)的相關(guān)代碼封裝成函數(shù),然后通過遍歷循環(huán)調(diào)用該函數(shù)實(shí)現(xiàn)批量數(shù)據(jù)的獲取,最后再將獲取的數(shù)據(jù)進(jìn)行保存。壹知識(shí)儲(chǔ)備Knowledgereserve貳技能小練Skillpractice叁任務(wù)實(shí)施Taskimplementation肆任務(wù)小結(jié)TasksummaryCONTENTS目錄任務(wù)實(shí)施第三環(huán)節(jié)子任務(wù)劃分批量數(shù)據(jù)保存批量數(shù)據(jù)爬取任務(wù)小結(jié)第四環(huán)節(jié)任務(wù)小結(jié)在獲取單頁(yè)數(shù)據(jù)的基礎(chǔ)上,本任務(wù)封裝定義了獲取單頁(yè)數(shù)據(jù)的函數(shù),并通過循環(huán)遍歷,批量獲取數(shù)據(jù)并進(jìn)行數(shù)據(jù)保存操作。大數(shù)據(jù),大智慧,大未來項(xiàng)目5京東商品評(píng)價(jià)數(shù)據(jù)采集項(xiàng)目小結(jié)本項(xiàng)目通過對(duì)京東商城某一款商品的評(píng)價(jià)數(shù)據(jù)進(jìn)行搜索,將搜索結(jié)果的主要信息(評(píng)論者昵稱、評(píng)論內(nèi)容、評(píng)論時(shí)間等)解析獲取出來,保存到本地Excel文件。項(xiàng)目小結(jié)為了形成良好的代碼規(guī)范,希望同學(xué)們能將這個(gè)程序進(jìn)行整理,比如可以分成以下幾部分:第一部分:導(dǎo)入庫(kù),將程序?qū)崿F(xiàn)需要的各種庫(kù)均在此導(dǎo)入;第二部分:打開網(wǎng)站獲取數(shù)據(jù),主要是使用DrissionPage打開目標(biāo)網(wǎng)站獲取網(wǎng)頁(yè)數(shù)據(jù);項(xiàng)目小結(jié)第三部分:獲取單頁(yè)評(píng)價(jià)數(shù)據(jù),根據(jù)網(wǎng)頁(yè)結(jié)構(gòu),選擇合適的網(wǎng)頁(yè)解析技術(shù)提取需要的數(shù)據(jù)。第四部分:批量獲取數(shù)據(jù),一般需要爬取的數(shù)據(jù)量都比較大,以分頁(yè)形式展示,因

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論