版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)財(cái)務(wù)分析愛崗敬業(yè)誠實(shí)守信堅(jiān)持準(zhǔn)則提高技能廉潔自律客觀公正參與管理強(qiáng)化服務(wù)項(xiàng)目二
數(shù)據(jù)采集任務(wù)一數(shù)據(jù)采集概述愛崗敬業(yè)誠實(shí)守信一、什么是數(shù)據(jù)采集?數(shù)據(jù)采集又稱數(shù)據(jù)獲取,是指將數(shù)據(jù)從數(shù)據(jù)源采集到可以支持大數(shù)據(jù)架構(gòu)環(huán)境的過程。廉潔自律客觀公正一、什么是數(shù)據(jù)采集?數(shù)據(jù)采集是數(shù)據(jù)挖掘、數(shù)據(jù)分析的一個(gè)環(huán)節(jié),在數(shù)據(jù)處理過程中是非常基本的操作步驟,也是數(shù)據(jù)分析道路上的重中之重。再好的分析原理、建模算法,沒有高質(zhì)量的數(shù)據(jù)都是沒有用的。數(shù)據(jù)采集的質(zhì)量直接決定了后續(xù)的分析是否準(zhǔn)確。堅(jiān)持準(zhǔn)則提高技能采集規(guī)模大充分考慮企業(yè)規(guī)模和數(shù)據(jù)規(guī)模的增長,提前做好數(shù)據(jù)信息積累的準(zhǔn)備。采集范圍全數(shù)據(jù)的數(shù)量較多,而且能夠代表整體數(shù)據(jù)的各個(gè)部分,數(shù)據(jù)面足夠支撐分析需求。采集維度細(xì)數(shù)據(jù)更重要的是能滿足分析需求。靈活、快速自定義數(shù)據(jù)的多種屬性和不同類型,從而滿足不同的分析目標(biāo)。采集時(shí)效準(zhǔn)提高數(shù)據(jù)采集的及時(shí)性,從而提高后續(xù)數(shù)據(jù)應(yīng)用的及時(shí)性。二、數(shù)據(jù)采集的特征參與管理強(qiáng)化服務(wù)三、數(shù)據(jù)采集的數(shù)據(jù)源內(nèi)部數(shù)據(jù)外部數(shù)據(jù)數(shù)據(jù)源數(shù)據(jù)類型結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)愛崗敬業(yè)誠實(shí)守信三、數(shù)據(jù)采集的數(shù)據(jù)源廉潔自律客觀公正四、數(shù)據(jù)采集的工具堅(jiān)持準(zhǔn)則提高技能四、數(shù)據(jù)采集的工具爬蟲的概念Python是一門非常適合爬蟲的編程語言,它能提供許多與爬蟲相關(guān)的庫(Requests庫),可以高效實(shí)現(xiàn)網(wǎng)頁爬取,并且可以用極短的代碼完成網(wǎng)頁標(biāo)簽過濾功能。爬蟲(網(wǎng)絡(luò)爬蟲的簡稱),是一種按照一定規(guī)則,自動抓取網(wǎng)絡(luò)信息的程序。爬蟲可以理解為一只在網(wǎng)絡(luò)上爬行的蜘蛛?;ヂ?lián)網(wǎng)就像一張大網(wǎng),爬蟲便是在這張網(wǎng)上爬來爬去的蜘蛛。如果遇到獵物(即所需的資源),它就會將其抓取下來。所以爬蟲的目的在于將目標(biāo)網(wǎng)頁數(shù)據(jù)下載至本地,以便進(jìn)行后續(xù)的數(shù)據(jù)分析。在日常工作學(xué)習(xí)中,如果經(jīng)常需要瀏覽網(wǎng)頁上的信息,只需要打開瀏覽器,輸入網(wǎng)址即可瀏覽網(wǎng)頁上的文字、圖片,那么,這一過程是如何實(shí)現(xiàn)的呢?參與管理強(qiáng)化服務(wù)四、數(shù)據(jù)采集的工具爬蟲的原理愛崗敬業(yè)誠實(shí)守信四、數(shù)據(jù)采集的工具知識點(diǎn)播簡單來說,爬蟲就是模擬用戶瀏覽網(wǎng)頁的操作,通過模擬瀏覽器像網(wǎng)站發(fā)送請求,獲取資源后提取有用的數(shù)據(jù)并保存。所以,原則上只要瀏覽器能做的事情,爬蟲都能做到。從理論上講,網(wǎng)絡(luò)上的資源都可以獲取,爬取數(shù)據(jù)類型包括HTML文檔、json格式化文本、二進(jìn)制文件(圖片和視頻)以及其他各類數(shù)據(jù)。json是一種輕量級的數(shù)據(jù)交換格式,易于編寫和閱讀,也易于機(jī)器解析,是理想的數(shù)據(jù)交換語言。Json文本格式類似于Python中的字典,在爬蟲中使用非常廣泛。HTML(超文本標(biāo)記語言)是用來描述網(wǎng)頁的一種語言。用戶看到的是網(wǎng)頁實(shí)質(zhì)是由HTML代碼構(gòu)成的。廉潔自律客觀公正四、數(shù)據(jù)采集的工具爬蟲的基本流程堅(jiān)持準(zhǔn)則提高技能四、數(shù)據(jù)采集的工具HTTP協(xié)議例如:我們看到的網(wǎng)址為www.baidu.com,但在瀏覽器中輸入網(wǎng)址后,會發(fā)現(xiàn)它變成了.這是因?yàn)樗械木W(wǎng)頁傳播都必須遵守HTTP協(xié)議,那可以看到這里是https,https簡單理解就是http的基礎(chǔ)上,增加了對網(wǎng)站服務(wù)器的身份認(rèn)證,同時(shí)保護(hù)了交換數(shù)據(jù)的隱私與完整性。HTTP是一種基于“請求與響應(yīng)”模式的,無狀態(tài)(每次請求都是獨(dú)立的,同一個(gè)客戶端的這次請求和上次請求沒有對應(yīng)關(guān)系)的應(yīng)用層協(xié)議,采用URI作為定位網(wǎng)絡(luò)資源的標(biāo)識符。在訪問網(wǎng)頁時(shí),服務(wù)器把網(wǎng)頁傳給瀏覽器,實(shí)際上就是把網(wǎng)頁的HTML代碼發(fā)送給瀏覽器,讓瀏覽器顯示出來,而瀏覽器和服務(wù)器之間的傳輸協(xié)議就是HTTP.參與管理強(qiáng)化服務(wù)四、數(shù)據(jù)采集的工具URL爬蟲爬取數(shù)據(jù)時(shí),必須有一個(gè)目標(biāo)URL才可以獲取數(shù)據(jù),URL是爬蟲獲取數(shù)據(jù)的基本依據(jù)。一個(gè)網(wǎng)頁對應(yīng)一個(gè)唯一的URL,網(wǎng)頁中加載的圖片、視頻、文件也同樣對應(yīng)一唯一的URL,在一個(gè)HTML頁面中可能存在多個(gè)URL,想要獲取一個(gè)頁面內(nèi)容所有URL鏈接,則需在爬取網(wǎng)頁后,利用Python解析庫對爬取的頁面進(jìn)行解析,提取所有URL.URL是統(tǒng)一資源定位符,也就是網(wǎng)址。URL是對互聯(lián)網(wǎng)上資源位置和訪問方法的一種簡潔的表示,是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址?;ヂ?lián)網(wǎng)上的每個(gè)文件都有一個(gè)唯一的URL,它包含的信息指出文件的位置以及瀏覽器應(yīng)該怎么處理它。愛崗敬業(yè)誠實(shí)守信方法說明GET請求獲取URL位置的資源HEAD請求獲取URL位置資源的響應(yīng)消息報(bào)告,即獲得資源的頭部消息POST請求向URL位置的資源附加新的消息PUT請求向URL位置存儲一個(gè)資源,覆蓋原URL位置的資源PATCH請求局部更新URL位置的資源,即改變該處資源的部分內(nèi)容DELETE請求刪除URL位置存儲的資源GET,HEAD是從服務(wù)器獲取信息到本地,POST,PUT,PATCH,DELETE是從本地向服務(wù)器提交信息,HTTP協(xié)議通過URL對資源做定位,通過以上方法對資源進(jìn)行管理,每次操作都是獨(dú)立無狀態(tài)的。四、數(shù)據(jù)采集的工具HTTP協(xié)議對資源的操作廉潔自律客觀公正四、數(shù)據(jù)采集的工具Requests簡介爬取網(wǎng)頁最簡單的方法為:R=requests.get(url)通過Requests調(diào)用get()方法,傳入需要獲取資源的URL,即可構(gòu)造一個(gè)HTTP請求,并獲取響應(yīng)內(nèi)容。傳統(tǒng)模式大數(shù)據(jù)時(shí)代通過Requests調(diào)用get()方法,傳入需要獲取資源的URL,即可構(gòu)造一個(gè)HTTP請求,并獲取響應(yīng)內(nèi)容。堅(jiān)持準(zhǔn)則提高技能做一做利用爬蟲獲取html網(wǎng)頁,可以選的代碼是()。A.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)員工法律知識培訓(xùn)課件
- 培訓(xùn)工作實(shí)施方案模板
- 《5以內(nèi)數(shù)的減法》教案
- 公司團(tuán)建衛(wèi)生制度
- 化工生產(chǎn)車間衛(wèi)生制度
- 進(jìn)口衛(wèi)生防疫制度
- 公司車輛衛(wèi)生管理制度
- 教師衛(wèi)生常規(guī)制度
- 單位衛(wèi)生制定制度
- 公共衛(wèi)生洗滌制度
- 浙江省杭州市拱墅區(qū)2024-2025學(xué)年四年級上冊期末考試數(shù)學(xué)試卷(含答案)
- 光伏發(fā)電安裝質(zhì)量驗(yàn)收評定表
- AQ 1046-2007 地勘時(shí)期煤層瓦斯含量測定方法(正式版)
- 房屋過戶給子女的協(xié)議書的范文
- 超聲振動珩磨裝置的總體設(shè)計(jì)
- 新媒體藝術(shù)的發(fā)展歷程及藝術(shù)特征
- 醫(yī)保違規(guī)行為分類培訓(xùn)課件
- 講課學(xué)生數(shù)學(xué)學(xué)習(xí)成就
- 醫(yī)療器械法規(guī)對互聯(lián)網(wǎng)銷售的限制
- 系桿拱橋系桿預(yù)應(yīng)力施工控制要點(diǎn)
- 三亞市海棠灣椰子洲島土地價(jià)格咨詢報(bào)告樣本及三洲工程造價(jià)咨詢有限公司管理制度
評論
0/150
提交評論