傳播學(xué)研究方法課件 ch17-新媒體數(shù)據(jù)采集-大數(shù)據(jù)一把抓

上傳人：h*** IP屬地：山東上傳時(shí)間：2025-08-12 格式：PPTX 頁數(shù)：31 大?。?.21MB 積分：12 舉報(bào) 版權(quán)申訴

傳播學(xué)研究方法課件 ch17-新媒體數(shù)據(jù)采集-大數(shù)據(jù)一把抓_第2頁

傳播學(xué)研究方法課件 ch17-新媒體數(shù)據(jù)采集-大數(shù)據(jù)一把抓_第3頁

傳播學(xué)研究方法課件 ch17-新媒體數(shù)據(jù)采集-大數(shù)據(jù)一把抓_第4頁

傳播學(xué)研究方法課件 ch17-新媒體數(shù)據(jù)采集-大數(shù)據(jù)一把抓_第5頁

已閱讀5頁，還剩26頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第十七章新媒體數(shù)據(jù)采集—大數(shù)據(jù)一把抓學(xué)習(xí)目標(biāo)2了解新媒體數(shù)據(jù)采集的意義，及其在傳播學(xué)中的應(yīng)用完成新媒體數(shù)據(jù)采集工具——Python的下載與安裝學(xué)習(xí)python的語法及基本語句了解爬蟲的基本原理和邏輯通過具體案例，學(xué)會(huì)靜態(tài)網(wǎng)頁、動(dòng)態(tài)網(wǎng)頁的采集方法在實(shí)際操作中完成對普通網(wǎng)頁、新浪微博及微信公眾平臺(tái)數(shù)據(jù)的采集本章知識框架3第十七章新媒體數(shù)據(jù)采集—大數(shù)據(jù)一把抓17-1數(shù)據(jù)采集機(jī)器人：爬蟲17-2頁面結(jié)構(gòu)與解析：爬蟲的原理17-3爬蟲實(shí)操：采集網(wǎng)頁、微博與微信公眾號Python指揮爬蟲工作的命令：python的基本語句頁面結(jié)構(gòu)從URL到解析器：一個(gè)簡單爬蟲的基本流程靜態(tài)新聞網(wǎng)站采集新浪微博采集實(shí)例微信公眾平臺(tái)采集417-1數(shù)據(jù)采集機(jī)器人：爬蟲數(shù)據(jù)采集機(jī)器人：爬蟲Python指揮爬蟲工作的命令：python的基本語句Python的下載與安裝if語句for循環(huán)語句import語句Anaconda的下載與安裝17-1

數(shù)據(jù)采集機(jī)器人：爬蟲一、Python5（一）Python的下載與安裝Python是一種高級編程語言，最大的優(yōu)勢在于簡潔易懂，具有極高的可讀性和簡潔性，讓開發(fā)者能夠用最少最簡單的代碼表達(dá)自己的想法、實(shí)現(xiàn)需求。Python的對象很廣泛：小到字符串、數(shù)字、函數(shù)，大到模塊，都是Python的對象。在Python官方網(wǎng)站/downloads/，可以根據(jù)自己電腦的操作系統(tǒng)和配置選擇相對應(yīng)的版本。17-1

數(shù)據(jù)采集機(jī)器人：爬蟲二、指揮爬蟲工作的命令:python的基本語句6Python的語法非常簡單，接近自然語言。編程最重要的是梳理自己的邏輯:首先，從整體層面上，對自己要做的事情有一個(gè)宏觀的認(rèn)識，明確自己的目標(biāo)和實(shí)現(xiàn)路徑；其次，需要對自己的方法有一個(gè)大致的規(guī)劃，例如需要實(shí)現(xiàn)一個(gè)目標(biāo)，其中有幾個(gè)步驟？這幾個(gè)步驟之間的邏輯關(guān)系是并列還是嵌套？第三，大膽去寫。17-1

數(shù)據(jù)采集機(jī)器人：爬蟲二、指揮爬蟲工作的命令:python的基本語句7（一）if語句ifscore>=90:

print(“優(yōu)秀”)

elifscore>=80:

print(“良好”)

elifscore>=60:17-1

數(shù)據(jù)采集機(jī)器人：爬蟲二、指揮爬蟲工作的命令:python的基本語句8（二）for循環(huán)語句（三）import語句917-2頁面結(jié)構(gòu)與解析：爬蟲的原理頁面結(jié)構(gòu)與解析：爬蟲的原理頁面結(jié)構(gòu)從URL到解析器：一個(gè)簡單爬蟲的基本流程HTML語言簡介URL和URL管理器給頁面做“X光”：解析器HTML標(biāo)簽17-2頁面結(jié)構(gòu)與解析：爬蟲的原理一、頁面結(jié)構(gòu)10（一）HTML語言簡介學(xué)習(xí)網(wǎng)頁的結(jié)構(gòu)，最重要的是了解頁面是怎樣構(gòu)成的。HTML是超文本標(biāo)記語言HyperTextMarkupLanguage的簡稱。17-2頁面結(jié)構(gòu)與解析：爬蟲的原理一、頁面結(jié)構(gòu)11（二）HTML標(biāo)簽HTML標(biāo)簽是用尖括號<>構(gòu)成的，例如<head>，并且這些標(biāo)簽通常是成對出現(xiàn)的，一對標(biāo)簽中的第一個(gè)稱為開始標(biāo)簽，最后一個(gè)稱為結(jié)束標(biāo)簽，并且結(jié)束標(biāo)簽需要在尖括號內(nèi)加一個(gè)斜杠符號“/”。在一對標(biāo)簽之內(nèi)的部分，則是這對標(biāo)簽所包含的內(nèi)容。17-2頁面結(jié)構(gòu)與解析：爬蟲的原理一、頁面結(jié)構(gòu)12（二）HTML標(biāo)簽（續(xù)）<div>div標(biāo)簽是一種表示網(wǎng)頁區(qū)域的標(biāo)簽，通過多個(gè)div標(biāo)簽將一個(gè)頁面劃分為不同的區(qū)塊，然后再對每一個(gè)區(qū)塊內(nèi)添加相應(yīng)的內(nèi)容。一個(gè)頁面中通常會(huì)有很多個(gè)div標(biāo)簽，這就需要對不同的div標(biāo)簽進(jìn)行區(qū)分。17-2頁面結(jié)構(gòu)與解析：爬蟲的原理一、頁面結(jié)構(gòu)13（二）HTML標(biāo)簽（續(xù)）<h1>-<h6><h1>-<h6>標(biāo)簽表示標(biāo)題，從1-6分別表示一級標(biāo)題至六級標(biāo)題，其中一級表示最大的標(biāo)題，六級表示最小的標(biāo)題，而標(biāo)簽之間的文字部分則是標(biāo)題的具體內(nèi)容。17-2頁面結(jié)構(gòu)與解析：爬蟲的原理一、頁面結(jié)構(gòu)14（二）HTML標(biāo)簽（續(xù)）<p>段落標(biāo)簽用<p>來定義，標(biāo)簽中的內(nèi)容即一段文字，也是通常一篇文章正文的內(nèi)容。瀏覽器會(huì)自動(dòng)在p標(biāo)簽的前后添加空行，因此每一段文字都需要一個(gè)p標(biāo)簽。17-2頁面結(jié)構(gòu)與解析：爬蟲的原理一、頁面結(jié)構(gòu)15（二）HTML標(biāo)簽（續(xù)）<a>超文本鏈接通常存在于a標(biāo)簽中，a標(biāo)簽中的鏈接在網(wǎng)頁上的形式是一個(gè)可點(diǎn)擊的內(nèi)容，在頁面中點(diǎn)擊后可跳轉(zhuǎn)至新的頁面或該頁面的其他部分。a標(biāo)簽通常的格式是：<ahref=”鏈接地址”>鏈接文本</a>。其中href表示a標(biāo)簽的屬性，鏈接地址是一個(gè)url，鏈接文本則是在網(wǎng)頁中可以點(diǎn)擊的元素。17-2頁面結(jié)構(gòu)與解析：爬蟲的原理二、從URL到解析器：一個(gè)簡單爬蟲的基本流程16爬蟲的架構(gòu)和運(yùn)行流程是尋找待爬取的URL，向網(wǎng)頁服務(wù)器請求，獲得響應(yīng)后下載html文檔，最后通過解析器解析出新的URL或者我們需要的有價(jià)值的內(nèi)容。但是由于爬蟲實(shí)現(xiàn)的是多個(gè)URL的自動(dòng)抓取，因此需要URL管理器來存儲(chǔ)URL，并對其中的URL進(jìn)行遍歷，構(gòu)成了“下載-解析-提取數(shù)據(jù)”的循環(huán)。17-2頁面結(jié)構(gòu)與解析：爬蟲的原理二、從URL到解析器：一個(gè)簡單爬蟲的基本流程17（一）URL和URL管理器URL由三個(gè)部分組成，協(xié)議+服務(wù)器的域名系統(tǒng)或IP地址+文件名。例如python的官方下載地址：/downloads/。其中https是協(xié)議，是服務(wù)器域名，其余部分是具體的目錄和文件名，用單斜杠來分割。17-2頁面結(jié)構(gòu)與解析：爬蟲的原理二、從URL到解析器：一個(gè)簡單爬蟲的基本流程18（二）給頁面做“X光”：解析器解析器就是從網(wǎng)頁的HTML字符串中解析出我們看得懂且有價(jià)值的自然語言或者新的URL。BeautifulSoup是一個(gè)python包。在利用爬蟲采集數(shù)據(jù)的過程中，它能夠幫助我們解析html文檔。BeautifulSoup簡介17-2頁面結(jié)構(gòu)與解析：爬蟲的原理二、從URL到解析器：一個(gè)簡單爬蟲的基本流程19（二）給頁面做“X光”：解析器（續(xù)）使用BeautifulSoup來進(jìn)行解析的時(shí)候，首先要?jiǎng)?chuàng)建BeautifulSoup對象，在獲取網(wǎng)頁html之后，具體的創(chuàng)建方法是使用BeautifulSoup函數(shù)來創(chuàng)建，該函數(shù)中需要包含的參數(shù)是html和解析器：BeautifulSoup基本語法BeautifulSoup=BeautifulSoup(html,'解析器')#解析器有html.parser、lxml等17-2頁面結(jié)構(gòu)與解析：爬蟲的原理二、從URL到解析器：一個(gè)簡單爬蟲的基本流程20（二）給頁面做“X光”：解析器（續(xù)）接下來需要搜索節(jié)點(diǎn)，即定位我們需要的內(nèi)容所在的html標(biāo)簽。需要使用find_all函數(shù)，具體方法是：BeautifulSoup.find_all(‘標(biāo)簽’,屬性)其中標(biāo)簽指的是div、a等html標(biāo)簽的名稱，屬性是指該標(biāo)簽的具體屬性，例如：BeautifulSoup.find_all(‘div’,{'class':'content'})#返回值為所有屬性為class=content的div標(biāo)簽2117-3

爬蟲實(shí)操：采集網(wǎng)頁、微博與微信公眾號爬蟲實(shí)操：采集網(wǎng)頁、微博與微信公眾號靜態(tài)新聞網(wǎng)頁采集微博采集實(shí)例微信公眾平臺(tái)采集靜態(tài)網(wǎng)頁采集原理采集原理與流程采集原理微信公眾平臺(tái)采集實(shí)例靜態(tài)新聞網(wǎng)站采集實(shí)例17-3

爬蟲實(shí)操：網(wǎng)頁、微博與微信公眾號一、靜態(tài)新聞網(wǎng)頁采集22（一）靜態(tài)網(wǎng)頁采集原理純粹HTML格式的網(wǎng)頁被稱為靜態(tài)網(wǎng)頁。爬取靜態(tài)網(wǎng)頁的流程分為四個(gè)部分：

（1）發(fā)送請求；（2）獲得響應(yīng)內(nèi)容；

（3）解析內(nèi)容；（4）存儲(chǔ)數(shù)據(jù)。發(fā)送請求獲得響應(yīng)解析內(nèi)容存儲(chǔ)數(shù)據(jù)圖17-2爬取靜態(tài)網(wǎng)頁的流程17-3

爬蟲實(shí)操：網(wǎng)頁、微博與微信公眾號一、靜態(tài)新聞網(wǎng)頁采集23（二）采集原理與流程發(fā)送請求獲得響應(yīng)內(nèi)容解析內(nèi)容存儲(chǔ)數(shù)據(jù)17-3

爬蟲實(shí)操：網(wǎng)頁、微博與微信公眾號一、靜態(tài)新聞網(wǎng)頁采集24（三）靜態(tài)新聞網(wǎng)頁采集案例Step1：導(dǎo)入需要的requests庫和bs4模塊importrequests frombs4importBeautifulSoup17-3

爬蟲實(shí)操：網(wǎng)頁、微博與微信公眾號一、靜態(tài)新聞網(wǎng)頁采集25（三）靜態(tài)新聞網(wǎng)頁采集案例（續(xù)）Step2：獲取相應(yīng)內(nèi)容URL=‘/mtjj/index.html’r=requests.get(url).text17-3

爬蟲實(shí)操：網(wǎng)頁、微博與微信公眾號一、靜態(tài)新聞網(wǎng)頁采集26（三）靜態(tài)新聞網(wǎng)頁采集案例（續(xù)）Step3：解析網(wǎng)頁Step4：輸出結(jié)果17-3

爬蟲實(shí)操：網(wǎng)頁、微博與微信公眾號二、微博采集案例27Step1：導(dǎo)入需要的模塊importrequestsfrombs4importBeautifulSoupimporttime17-3

爬蟲實(shí)操：網(wǎng)頁、微博與微信公眾號二、微博采集案例28Step2：分析界面語言特點(diǎn)Step3：構(gòu)造請求頭與參數(shù)傳遞Step4：分析數(shù)據(jù)類型Step5：將采集數(shù)據(jù)存入txt/csv文件Step6：設(shè)置休眠17-3

爬蟲實(shí)操：網(wǎng)頁、微博與微信公眾號三、微信公眾平臺(tái)采集29（一）采集原理本次主要展示方法三的采集原理。利用Cookie模擬登錄的原理。主要解釋微信采集過程中token及fakeid兩個(gè)重要數(shù)據(jù)字段的意義與原理。17-3

爬蟲實(shí)操：網(wǎng)頁、微博與微信公眾號三、微信公眾平臺(tái)采集30（二）微信公眾平臺(tái)采集案例本次主要展示方法三的采集原理。利用Cookie模擬登錄的原理。主要解釋微信采集過程中token及fakeid兩個(gè)重要數(shù)據(jù)字段的意義與原理。Step1：導(dǎo)入

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

傳播學(xué)研究方法課件 ch17-新媒體數(shù)據(jù)采集-大數(shù)據(jù)一把抓

文檔簡介

溫馨提示

最新文檔

評論

傳播學(xué)研究方法 課件 ch17-新媒體數(shù)據(jù)采集-大數(shù)據(jù)一把抓

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

傳播學(xué)研究方法課件 ch17-新媒體數(shù)據(jù)采集-大數(shù)據(jù)一把抓