版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第十七章新媒體數(shù)據(jù)采集—大數(shù)據(jù)一把抓學習目標2了解新媒體數(shù)據(jù)采集的意義,及其在傳播學中的應用完成新媒體數(shù)據(jù)采集工具——Python的下載與安裝學習python的語法及基本語句了解爬蟲的基本原理和邏輯通過具體案例,學會靜態(tài)網(wǎng)頁、動態(tài)網(wǎng)頁的采集方法在實際操作中完成對普通網(wǎng)頁、新浪微博及微信公眾平臺數(shù)據(jù)的采集本章知識框架3第十七章新媒體數(shù)據(jù)采集—大數(shù)據(jù)一把抓17-1數(shù)據(jù)采集機器人:爬蟲17-2頁面結構與解析:爬蟲的原理17-3爬蟲實操:采集網(wǎng)頁、微博與微信公眾號Python指揮爬蟲工作的命令:python的基本語句頁面結構從URL到解析器:一個簡單爬蟲的基本流程靜態(tài)新聞網(wǎng)站采集新浪微博采集實例微信公眾平臺采集417-1數(shù)據(jù)采集機器人:爬蟲數(shù)據(jù)采集機器人:爬蟲Python指揮爬蟲工作的命令:python的基本語句Python的下載與安裝if語句for循環(huán)語句import語句Anaconda的下載與安裝17-1
數(shù)據(jù)采集機器人:爬蟲一、Python5(一)Python的下載與安裝Python是一種高級編程語言,最大的優(yōu)勢在于簡潔易懂,具有極高的可讀性和簡潔性,讓開發(fā)者能夠用最少最簡單的代碼表達自己的想法、實現(xiàn)需求。Python的對象很廣泛:小到字符串、數(shù)字、函數(shù),大到模塊,都是Python的對象。在Python官方網(wǎng)站/downloads/,可以根據(jù)自己電腦的操作系統(tǒng)和配置選擇相對應的版本。17-1
數(shù)據(jù)采集機器人:爬蟲二、指揮爬蟲工作的命令:python的基本語句6Python的語法非常簡單,接近自然語言。編程最重要的是梳理自己的邏輯:首先,從整體層面上,對自己要做的事情有一個宏觀的認識,明確自己的目標和實現(xiàn)路徑;其次,需要對自己的方法有一個大致的規(guī)劃,例如需要實現(xiàn)一個目標,其中有幾個步驟?這幾個步驟之間的邏輯關系是并列還是嵌套?第三,大膽去寫。17-1
數(shù)據(jù)采集機器人:爬蟲二、指揮爬蟲工作的命令:python的基本語句7(一)if語句ifscore>=90:
print(“優(yōu)秀”)
elifscore>=80:
print(“良好”)
elifscore>=60:17-1
數(shù)據(jù)采集機器人:爬蟲二、指揮爬蟲工作的命令:python的基本語句8(二)for循環(huán)語句(三)import語句917-2頁面結構與解析:爬蟲的原理頁面結構與解析:爬蟲的原理頁面結構從URL到解析器:一個簡單爬蟲的基本流程HTML語言簡介URL和URL管理器給頁面做“X光”:解析器HTML標簽17-2頁面結構與解析:爬蟲的原理一、頁面結構10(一)HTML語言簡介學習網(wǎng)頁的結構,最重要的是了解頁面是怎樣構成的。HTML是超文本標記語言HyperTextMarkupLanguage的簡稱。17-2頁面結構與解析:爬蟲的原理一、頁面結構11(二)HTML標簽HTML標簽是用尖括號<>構成的,例如<head>,并且這些標簽通常是成對出現(xiàn)的,一對標簽中的第一個稱為開始標簽,最后一個稱為結束標簽,并且結束標簽需要在尖括號內(nèi)加一個斜杠符號“/”。在一對標簽之內(nèi)的部分,則是這對標簽所包含的內(nèi)容。17-2頁面結構與解析:爬蟲的原理一、頁面結構12(二)HTML標簽(續(xù))<div>div標簽是一種表示網(wǎng)頁區(qū)域的標簽,通過多個div標簽將一個頁面劃分為不同的區(qū)塊,然后再對每一個區(qū)塊內(nèi)添加相應的內(nèi)容。一個頁面中通常會有很多個div標簽,這就需要對不同的div標簽進行區(qū)分。17-2頁面結構與解析:爬蟲的原理一、頁面結構13(二)HTML標簽(續(xù))<h1>-<h6><h1>-<h6>標簽表示標題,從1-6分別表示一級標題至六級標題,其中一級表示最大的標題,六級表示最小的標題,而標簽之間的文字部分則是標題的具體內(nèi)容。17-2頁面結構與解析:爬蟲的原理一、頁面結構14(二)HTML標簽(續(xù))<p>段落標簽用<p>來定義,標簽中的內(nèi)容即一段文字,也是通常一篇文章正文的內(nèi)容。瀏覽器會自動在p標簽的前后添加空行,因此每一段文字都需要一個p標簽。17-2頁面結構與解析:爬蟲的原理一、頁面結構15(二)HTML標簽(續(xù))<a>超文本鏈接通常存在于a標簽中,a標簽中的鏈接在網(wǎng)頁上的形式是一個可點擊的內(nèi)容,在頁面中點擊后可跳轉至新的頁面或該頁面的其他部分。a標簽通常的格式是:<ahref=”鏈接地址”>鏈接文本</a>。其中href表示a標簽的屬性,鏈接地址是一個url,鏈接文本則是在網(wǎng)頁中可以點擊的元素。17-2頁面結構與解析:爬蟲的原理二、從URL到解析器:一個簡單爬蟲的基本流程16爬蟲的架構和運行流程是尋找待爬取的URL,向網(wǎng)頁服務器請求,獲得響應后下載html文檔,最后通過解析器解析出新的URL或者我們需要的有價值的內(nèi)容。但是由于爬蟲實現(xiàn)的是多個URL的自動抓取,因此需要URL管理器來存儲URL,并對其中的URL進行遍歷,構成了“下載-解析-提取數(shù)據(jù)”的循環(huán)。17-2頁面結構與解析:爬蟲的原理二、從URL到解析器:一個簡單爬蟲的基本流程17(一)URL和URL管理器URL由三個部分組成,協(xié)議+服務器的域名系統(tǒng)或IP地址+文件名。例如python的官方下載地址:/downloads/。其中https是協(xié)議,是服務器域名,其余部分是具體的目錄和文件名,用單斜杠來分割。17-2頁面結構與解析:爬蟲的原理二、從URL到解析器:一個簡單爬蟲的基本流程18(二)給頁面做“X光”:解析器解析器就是從網(wǎng)頁的HTML字符串中解析出我們看得懂且有價值的自然語言或者新的URL。BeautifulSoup是一個python包。在利用爬蟲采集數(shù)據(jù)的過程中,它能夠幫助我們解析html文檔。BeautifulSoup簡介17-2頁面結構與解析:爬蟲的原理二、從URL到解析器:一個簡單爬蟲的基本流程19(二)給頁面做“X光”:解析器(續(xù))使用BeautifulSoup來進行解析的時候,首先要創(chuàng)建BeautifulSoup對象,在獲取網(wǎng)頁html之后,具體的創(chuàng)建方法是使用BeautifulSoup函數(shù)來創(chuàng)建,該函數(shù)中需要包含的參數(shù)是html和解析器:BeautifulSoup基本語法BeautifulSoup=BeautifulSoup(html,'解析器')#解析器有html.parser、lxml等17-2頁面結構與解析:爬蟲的原理二、從URL到解析器:一個簡單爬蟲的基本流程20(二)給頁面做“X光”:解析器(續(xù))接下來需要搜索節(jié)點,即定位我們需要的內(nèi)容所在的html標簽。需要使用find_all函數(shù),具體方法是:BeautifulSoup.find_all(‘標簽’,屬性)其中標簽指的是div、a等html標簽的名稱,屬性是指該標簽的具體屬性,例如:BeautifulSoup.find_all(‘div’,{'class':'content'})#返回值為所有屬性為class=content的div標簽2117-3
爬蟲實操:采集網(wǎng)頁、微博與微信公眾號爬蟲實操:采集網(wǎng)頁、微博與微信公眾號靜態(tài)新聞網(wǎng)頁采集微博采集實例微信公眾平臺采集靜態(tài)網(wǎng)頁采集原理采集原理與流程采集原理微信公眾平臺采集實例靜態(tài)新聞網(wǎng)站采集實例17-3
爬蟲實操:網(wǎng)頁、微博與微信公眾號一、靜態(tài)新聞網(wǎng)頁采集22(一)靜態(tài)網(wǎng)頁采集原理純粹HTML格式的網(wǎng)頁被稱為靜態(tài)網(wǎng)頁。爬取靜態(tài)網(wǎng)頁的流程分為四個部分:
(1)發(fā)送請求;(2)獲得響應內(nèi)容;
(3)解析內(nèi)容;(4)存儲數(shù)據(jù)。發(fā)送請求獲得響應解析內(nèi)容存儲數(shù)據(jù)圖17-2爬取靜態(tài)網(wǎng)頁的流程17-3
爬蟲實操:網(wǎng)頁、微博與微信公眾號一、靜態(tài)新聞網(wǎng)頁采集23(二)采集原理與流程發(fā)送請求獲得響應內(nèi)容解析內(nèi)容存儲數(shù)據(jù)17-3
爬蟲實操:網(wǎng)頁、微博與微信公眾號一、靜態(tài)新聞網(wǎng)頁采集24(三)靜態(tài)新聞網(wǎng)頁采集案例Step1:導入需要的requests庫和bs4模塊importrequests frombs4importBeautifulSoup17-3
爬蟲實操:網(wǎng)頁、微博與微信公眾號一、靜態(tài)新聞網(wǎng)頁采集25(三)靜態(tài)新聞網(wǎng)頁采集案例(續(xù))Step2:獲取相應內(nèi)容URL=‘/mtjj/index.html’r=requests.get(url).text17-3
爬蟲實操:網(wǎng)頁、微博與微信公眾號一、靜態(tài)新聞網(wǎng)頁采集26(三)靜態(tài)新聞網(wǎng)頁采集案例(續(xù))Step3:解析網(wǎng)頁Step4:輸出結果17-3
爬蟲實操:網(wǎng)頁、微博與微信公眾號二、微博采集案例27Step1:導入需要的模塊importrequestsfrombs4importBeautifulSoupimporttime17-3
爬蟲實操:網(wǎng)頁、微博與微信公眾號二、微博采集案例28Step2:分析界面語言特點Step3:構造請求頭與參數(shù)傳遞Step4:分析數(shù)據(jù)類型Step5:將采集數(shù)據(jù)存入txt/csv文件Step6:設置休眠17-3
爬蟲實操:網(wǎng)頁、微博與微信公眾號三、微信公眾平臺采集29(一)采集原理本次主要展示方法三的采集原理。利用Cookie模擬登錄的原理。主要解釋微信采集過程中token及fakeid兩個重要數(shù)據(jù)字段的意義與原理。17-3
爬蟲實操:網(wǎng)頁、微博與微信公眾號三、微信公眾平臺采集30(二)微信公眾平臺采集案例本次主要展示方法三的采集原理。利用Cookie模擬登錄的原理。主要解釋微信采集過程中token及fakeid兩個重要數(shù)據(jù)字段的意義與原理。Step1:導入
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 球囊擴張支架在卒中治療中的應用
- 深度解析(2026)《GBT 19323-2003涂附磨具 帶除塵孔砂盤》
- 鄉(xiāng)村振興部-鄉(xiāng)村振興專員面試題及答案
- 物流管理助理面試題及應對策略
- 教育行業(yè)教師招聘技能考核題目
- 安全檢查設備建設項目可行性分析報告(總投資17000萬元)
- 銷售代表業(yè)績考核與評價標準
- 深度解析(2026)《GBT 18991-2003冷熱水系統(tǒng)用熱塑性塑料管材和管件》(2026年)深度解析
- 壓力表項目可行性分析報告范文(總投資17000萬元)
- 感光探測器項目可行性分析報告范文(總投資10000萬元)
- 2025年北京市建筑施工作業(yè)人員安全生產(chǎn)知識教育培訓考核試卷E卷及答案
- 2025急性高甘油三酯血癥胰腺炎康復期多學科管理共識解讀
- 2025年事業(yè)單位面試熱點題目及答案解析
- 湖北省宜昌市秭歸縣2026屆物理八年級第一學期期末學業(yè)水平測試模擬試題含解析
- 采用煙氣擋板法再熱汽溫控制系統(tǒng)的研究
- 工程竣工預驗收會議紀要模板
- 2025秋期版國開電大本科《理工英語4》一平臺綜合測試形考任務在線形考試題及答案
- 安全生產(chǎn)法(2025年修訂版)
- 乒乓球培訓合同7篇
- 旅游包車安全知識培訓課件
- 食用菌種植教學課件
評論
0/150
提交評論