版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第十七章新媒體數(shù)據(jù)采集—大數(shù)據(jù)一把抓學(xué)習(xí)目標(biāo)2了解新媒體數(shù)據(jù)采集的意義,及其在傳播學(xué)中的應(yīng)用完成新媒體數(shù)據(jù)采集工具——Python的下載與安裝學(xué)習(xí)python的語法及基本語句了解爬蟲的基本原理和邏輯通過具體案例,學(xué)會(huì)靜態(tài)網(wǎng)頁、動(dòng)態(tài)網(wǎng)頁的采集方法在實(shí)際操作中完成對普通網(wǎng)頁、新浪微博及微信公眾平臺(tái)數(shù)據(jù)的采集本章知識框架3第十七章新媒體數(shù)據(jù)采集—大數(shù)據(jù)一把抓17-1數(shù)據(jù)采集機(jī)器人:爬蟲17-2頁面結(jié)構(gòu)與解析:爬蟲的原理17-3爬蟲實(shí)操:采集網(wǎng)頁、微博與微信公眾號Python指揮爬蟲工作的命令:python的基本語句頁面結(jié)構(gòu)從URL到解析器:一個(gè)簡單爬蟲的基本流程靜態(tài)新聞網(wǎng)站采集新浪微博采集實(shí)例微信公眾平臺(tái)采集417-1數(shù)據(jù)采集機(jī)器人:爬蟲數(shù)據(jù)采集機(jī)器人:爬蟲Python指揮爬蟲工作的命令:python的基本語句Python的下載與安裝if語句for循環(huán)語句import語句Anaconda的下載與安裝17-1
數(shù)據(jù)采集機(jī)器人:爬蟲一、Python5(一)Python的下載與安裝Python是一種高級編程語言,最大的優(yōu)勢在于簡潔易懂,具有極高的可讀性和簡潔性,讓開發(fā)者能夠用最少最簡單的代碼表達(dá)自己的想法、實(shí)現(xiàn)需求。Python的對象很廣泛:小到字符串、數(shù)字、函數(shù),大到模塊,都是Python的對象。在Python官方網(wǎng)站/downloads/,可以根據(jù)自己電腦的操作系統(tǒng)和配置選擇相對應(yīng)的版本。17-1
數(shù)據(jù)采集機(jī)器人:爬蟲二、指揮爬蟲工作的命令:python的基本語句6Python的語法非常簡單,接近自然語言。編程最重要的是梳理自己的邏輯:首先,從整體層面上,對自己要做的事情有一個(gè)宏觀的認(rèn)識,明確自己的目標(biāo)和實(shí)現(xiàn)路徑;其次,需要對自己的方法有一個(gè)大致的規(guī)劃,例如需要實(shí)現(xiàn)一個(gè)目標(biāo),其中有幾個(gè)步驟?這幾個(gè)步驟之間的邏輯關(guān)系是并列還是嵌套?第三,大膽去寫。17-1
數(shù)據(jù)采集機(jī)器人:爬蟲二、指揮爬蟲工作的命令:python的基本語句7(一)if語句ifscore>=90:
print(“優(yōu)秀”)
elifscore>=80:
print(“良好”)
elifscore>=60:17-1
數(shù)據(jù)采集機(jī)器人:爬蟲二、指揮爬蟲工作的命令:python的基本語句8(二)for循環(huán)語句(三)import語句917-2頁面結(jié)構(gòu)與解析:爬蟲的原理頁面結(jié)構(gòu)與解析:爬蟲的原理頁面結(jié)構(gòu)從URL到解析器:一個(gè)簡單爬蟲的基本流程HTML語言簡介URL和URL管理器給頁面做“X光”:解析器HTML標(biāo)簽17-2頁面結(jié)構(gòu)與解析:爬蟲的原理一、頁面結(jié)構(gòu)10(一)HTML語言簡介學(xué)習(xí)網(wǎng)頁的結(jié)構(gòu),最重要的是了解頁面是怎樣構(gòu)成的。HTML是超文本標(biāo)記語言HyperTextMarkupLanguage的簡稱。17-2頁面結(jié)構(gòu)與解析:爬蟲的原理一、頁面結(jié)構(gòu)11(二)HTML標(biāo)簽HTML標(biāo)簽是用尖括號<>構(gòu)成的,例如<head>,并且這些標(biāo)簽通常是成對出現(xiàn)的,一對標(biāo)簽中的第一個(gè)稱為開始標(biāo)簽,最后一個(gè)稱為結(jié)束標(biāo)簽,并且結(jié)束標(biāo)簽需要在尖括號內(nèi)加一個(gè)斜杠符號“/”。在一對標(biāo)簽之內(nèi)的部分,則是這對標(biāo)簽所包含的內(nèi)容。17-2頁面結(jié)構(gòu)與解析:爬蟲的原理一、頁面結(jié)構(gòu)12(二)HTML標(biāo)簽(續(xù))<div>div標(biāo)簽是一種表示網(wǎng)頁區(qū)域的標(biāo)簽,通過多個(gè)div標(biāo)簽將一個(gè)頁面劃分為不同的區(qū)塊,然后再對每一個(gè)區(qū)塊內(nèi)添加相應(yīng)的內(nèi)容。一個(gè)頁面中通常會(huì)有很多個(gè)div標(biāo)簽,這就需要對不同的div標(biāo)簽進(jìn)行區(qū)分。17-2頁面結(jié)構(gòu)與解析:爬蟲的原理一、頁面結(jié)構(gòu)13(二)HTML標(biāo)簽(續(xù))<h1>-<h6><h1>-<h6>標(biāo)簽表示標(biāo)題,從1-6分別表示一級標(biāo)題至六級標(biāo)題,其中一級表示最大的標(biāo)題,六級表示最小的標(biāo)題,而標(biāo)簽之間的文字部分則是標(biāo)題的具體內(nèi)容。17-2頁面結(jié)構(gòu)與解析:爬蟲的原理一、頁面結(jié)構(gòu)14(二)HTML標(biāo)簽(續(xù))<p>段落標(biāo)簽用<p>來定義,標(biāo)簽中的內(nèi)容即一段文字,也是通常一篇文章正文的內(nèi)容。瀏覽器會(huì)自動(dòng)在p標(biāo)簽的前后添加空行,因此每一段文字都需要一個(gè)p標(biāo)簽。17-2頁面結(jié)構(gòu)與解析:爬蟲的原理一、頁面結(jié)構(gòu)15(二)HTML標(biāo)簽(續(xù))<a>超文本鏈接通常存在于a標(biāo)簽中,a標(biāo)簽中的鏈接在網(wǎng)頁上的形式是一個(gè)可點(diǎn)擊的內(nèi)容,在頁面中點(diǎn)擊后可跳轉(zhuǎn)至新的頁面或該頁面的其他部分。a標(biāo)簽通常的格式是:<ahref=”鏈接地址”>鏈接文本</a>。其中href表示a標(biāo)簽的屬性,鏈接地址是一個(gè)url,鏈接文本則是在網(wǎng)頁中可以點(diǎn)擊的元素。17-2頁面結(jié)構(gòu)與解析:爬蟲的原理二、從URL到解析器:一個(gè)簡單爬蟲的基本流程16爬蟲的架構(gòu)和運(yùn)行流程是尋找待爬取的URL,向網(wǎng)頁服務(wù)器請求,獲得響應(yīng)后下載html文檔,最后通過解析器解析出新的URL或者我們需要的有價(jià)值的內(nèi)容。但是由于爬蟲實(shí)現(xiàn)的是多個(gè)URL的自動(dòng)抓取,因此需要URL管理器來存儲(chǔ)URL,并對其中的URL進(jìn)行遍歷,構(gòu)成了“下載-解析-提取數(shù)據(jù)”的循環(huán)。17-2頁面結(jié)構(gòu)與解析:爬蟲的原理二、從URL到解析器:一個(gè)簡單爬蟲的基本流程17(一)URL和URL管理器URL由三個(gè)部分組成,協(xié)議+服務(wù)器的域名系統(tǒng)或IP地址+文件名。例如python的官方下載地址:/downloads/。其中https是協(xié)議,是服務(wù)器域名,其余部分是具體的目錄和文件名,用單斜杠來分割。17-2頁面結(jié)構(gòu)與解析:爬蟲的原理二、從URL到解析器:一個(gè)簡單爬蟲的基本流程18(二)給頁面做“X光”:解析器解析器就是從網(wǎng)頁的HTML字符串中解析出我們看得懂且有價(jià)值的自然語言或者新的URL。BeautifulSoup是一個(gè)python包。在利用爬蟲采集數(shù)據(jù)的過程中,它能夠幫助我們解析html文檔。BeautifulSoup簡介17-2頁面結(jié)構(gòu)與解析:爬蟲的原理二、從URL到解析器:一個(gè)簡單爬蟲的基本流程19(二)給頁面做“X光”:解析器(續(xù))使用BeautifulSoup來進(jìn)行解析的時(shí)候,首先要?jiǎng)?chuàng)建BeautifulSoup對象,在獲取網(wǎng)頁html之后,具體的創(chuàng)建方法是使用BeautifulSoup函數(shù)來創(chuàng)建,該函數(shù)中需要包含的參數(shù)是html和解析器:BeautifulSoup基本語法BeautifulSoup=BeautifulSoup(html,'解析器')#解析器有html.parser、lxml等17-2頁面結(jié)構(gòu)與解析:爬蟲的原理二、從URL到解析器:一個(gè)簡單爬蟲的基本流程20(二)給頁面做“X光”:解析器(續(xù))接下來需要搜索節(jié)點(diǎn),即定位我們需要的內(nèi)容所在的html標(biāo)簽。需要使用find_all函數(shù),具體方法是:BeautifulSoup.find_all(‘標(biāo)簽’,屬性)其中標(biāo)簽指的是div、a等html標(biāo)簽的名稱,屬性是指該標(biāo)簽的具體屬性,例如:BeautifulSoup.find_all(‘div’,{'class':'content'})#返回值為所有屬性為class=content的div標(biāo)簽2117-3
爬蟲實(shí)操:采集網(wǎng)頁、微博與微信公眾號爬蟲實(shí)操:采集網(wǎng)頁、微博與微信公眾號靜態(tài)新聞網(wǎng)頁采集微博采集實(shí)例微信公眾平臺(tái)采集靜態(tài)網(wǎng)頁采集原理采集原理與流程采集原理微信公眾平臺(tái)采集實(shí)例靜態(tài)新聞網(wǎng)站采集實(shí)例17-3
爬蟲實(shí)操:網(wǎng)頁、微博與微信公眾號一、靜態(tài)新聞網(wǎng)頁采集22(一)靜態(tài)網(wǎng)頁采集原理純粹HTML格式的網(wǎng)頁被稱為靜態(tài)網(wǎng)頁。爬取靜態(tài)網(wǎng)頁的流程分為四個(gè)部分:
(1)發(fā)送請求;(2)獲得響應(yīng)內(nèi)容;
(3)解析內(nèi)容;(4)存儲(chǔ)數(shù)據(jù)。發(fā)送請求獲得響應(yīng)解析內(nèi)容存儲(chǔ)數(shù)據(jù)圖17-2爬取靜態(tài)網(wǎng)頁的流程17-3
爬蟲實(shí)操:網(wǎng)頁、微博與微信公眾號一、靜態(tài)新聞網(wǎng)頁采集23(二)采集原理與流程發(fā)送請求獲得響應(yīng)內(nèi)容解析內(nèi)容存儲(chǔ)數(shù)據(jù)17-3
爬蟲實(shí)操:網(wǎng)頁、微博與微信公眾號一、靜態(tài)新聞網(wǎng)頁采集24(三)靜態(tài)新聞網(wǎng)頁采集案例Step1:導(dǎo)入需要的requests庫和bs4模塊importrequests frombs4importBeautifulSoup17-3
爬蟲實(shí)操:網(wǎng)頁、微博與微信公眾號一、靜態(tài)新聞網(wǎng)頁采集25(三)靜態(tài)新聞網(wǎng)頁采集案例(續(xù))Step2:獲取相應(yīng)內(nèi)容URL=‘/mtjj/index.html’r=requests.get(url).text17-3
爬蟲實(shí)操:網(wǎng)頁、微博與微信公眾號一、靜態(tài)新聞網(wǎng)頁采集26(三)靜態(tài)新聞網(wǎng)頁采集案例(續(xù))Step3:解析網(wǎng)頁Step4:輸出結(jié)果17-3
爬蟲實(shí)操:網(wǎng)頁、微博與微信公眾號二、微博采集案例27Step1:導(dǎo)入需要的模塊importrequestsfrombs4importBeautifulSoupimporttime17-3
爬蟲實(shí)操:網(wǎng)頁、微博與微信公眾號二、微博采集案例28Step2:分析界面語言特點(diǎn)Step3:構(gòu)造請求頭與參數(shù)傳遞Step4:分析數(shù)據(jù)類型Step5:將采集數(shù)據(jù)存入txt/csv文件Step6:設(shè)置休眠17-3
爬蟲實(shí)操:網(wǎng)頁、微博與微信公眾號三、微信公眾平臺(tái)采集29(一)采集原理本次主要展示方法三的采集原理。利用Cookie模擬登錄的原理。主要解釋微信采集過程中token及fakeid兩個(gè)重要數(shù)據(jù)字段的意義與原理。17-3
爬蟲實(shí)操:網(wǎng)頁、微博與微信公眾號三、微信公眾平臺(tái)采集30(二)微信公眾平臺(tái)采集案例本次主要展示方法三的采集原理。利用Cookie模擬登錄的原理。主要解釋微信采集過程中token及fakeid兩個(gè)重要數(shù)據(jù)字段的意義與原理。Step1:導(dǎo)入
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 生物質(zhì)能集中供熱項(xiàng)目環(huán)境影響報(bào)告表
- 2025年全球轉(zhuǎn)移報(bào)告(英文版)-
- 2024-2025學(xué)年四川省部分學(xué)校高二下學(xué)期5月月考?xì)v史試題(解析版)
- 2024-2025學(xué)年江西省贛州市大余縣部分學(xué)校高一下學(xué)期期中考試歷史試題(解析版)
- 2024-2025學(xué)年江蘇省南通市高二下學(xué)期期中調(diào)研學(xué)科歷史試題(解析版)
- 2026年電子商務(wù)運(yùn)營與推廣試題集開啟電商新篇章
- 2026年智能制造自動(dòng)化系統(tǒng)技術(shù)規(guī)范題集
- 2026年國際商務(wù)談判技巧專家試題庫
- 2026年古代文明歷史研究進(jìn)階測試題
- 2026年移動(dòng)應(yīng)用開發(fā)跨平臺(tái)開發(fā)框架與工具測試題庫
- 光伏電站繼電保護(hù)系統(tǒng)運(yùn)行與維護(hù)規(guī)程
- 統(tǒng)編版語文一年級上冊無紙化考評-趣味樂考 玩轉(zhuǎn)語文 課件
- 礦山井下六大系統(tǒng)培訓(xùn)課件
- 征兵適應(yīng)性測試題庫及答案
- 駕校教練員安全教育課件
- 變壓器吊裝作業(yè)指導(dǎo)方案
- 2025年中國鋼結(jié)構(gòu)市場全景評估及戰(zhàn)略咨詢報(bào)告
- DB1331-T 025.1-2022 雄安新區(qū)工程建設(shè)關(guān)鍵質(zhì)量指標(biāo)體系:建筑工程
- 旅游行業(yè)如何玩轉(zhuǎn)視頻號 從0到1開啟私域營銷
- 產(chǎn)品工藝評審管理辦法
- 事業(yè)單位市場監(jiān)督管理局面試真題及答案
評論
0/150
提交評論