版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第8章
大數(shù)據(jù)技術(shù)與應(yīng)用第8章
大數(shù)據(jù)技術(shù)與應(yīng)用目錄大數(shù)據(jù)概論大數(shù)據(jù)采集大數(shù)據(jù)采集實(shí)訓(xùn)8.18.28.38.1大數(shù)據(jù)概論大數(shù)據(jù)是“海量數(shù)據(jù)”,是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要采用新處理模式才能獲得更多智能的、深入的、有價值的信息,以期得到更強(qiáng)的決策力、洞察力。8.1大數(shù)據(jù)概論8.1.1大數(shù)據(jù)的特點(diǎn)Volume(大量)Variety(多樣)Value(價值)Velocity(高速)Veracity(真實(shí)性)大數(shù)據(jù)是以容量大、類型多、存儲速度快、應(yīng)用價值高為特征的數(shù)據(jù)集合。
8.1.2大數(shù)據(jù)的價值與應(yīng)用大數(shù)據(jù):樣本=全部數(shù)據(jù)。不是精確性,而是復(fù)雜性?!皵?shù)據(jù)之和的價值遠(yuǎn)遠(yuǎn)大于各數(shù)據(jù)價值的和”(GOOGLE的大數(shù)據(jù)翻譯器)大數(shù)據(jù)研究,重關(guān)聯(lián)大于重因果,預(yù)測是核心(亞馬遜圖書推薦?GOOGLE與流感預(yù)測)大數(shù)據(jù)的戰(zhàn)略意義是實(shí)現(xiàn)數(shù)據(jù)的增值,數(shù)據(jù)就像一個神奇的鉆石礦(阿里、騰訊與銀行)8.2大數(shù)據(jù)采集什么是大數(shù)據(jù)采集技術(shù)?大數(shù)據(jù)采集技術(shù)就是對數(shù)據(jù)進(jìn)行ETL操作,通過對數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)換、加載,最終挖掘數(shù)據(jù)的潛在價值。然后提供給用戶解決方案或者決策參考。
ETL,是英文Extract-Transform-Load的縮寫,數(shù)據(jù)從數(shù)據(jù)來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)到目的端,然后進(jìn)行處理分析的過程。用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去,最后對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和處理。8.2.1數(shù)據(jù)采集器介紹當(dāng)下運(yùn)用最廣泛的是八爪魚采集器,八爪魚采集器是深圳視界信息技術(shù)有限公司開發(fā),它具有以下優(yōu)勢:(1)1分鐘獲得數(shù)據(jù):操作簡單,無需代碼,30秒上手,1分鐘拿到98%以上互聯(lián)網(wǎng)數(shù)據(jù);(2)1千萬數(shù)據(jù)采集:分布于云服務(wù)器,可以實(shí)現(xiàn)每日千萬級別數(shù)據(jù)量的采集;(3)全場景解決方案:內(nèi)置增量數(shù)據(jù)采集、防采集破解、驗(yàn)證碼識別、模擬登陸、切換代理IP及切換瀏覽器版本功能,滿足多種采集需求(4)數(shù)據(jù)處理能力:內(nèi)置正則表達(dá)式格式化功能,可對提取內(nèi)容進(jìn)行針對性調(diào)整;內(nèi)置分支判斷及觸發(fā)器功能,可對不同形式的內(nèi)容做判斷,根據(jù)判斷結(jié)果做不同的提取操作,實(shí)現(xiàn)智能采集。1是什么?2怎么用?3簡易采集模式4練習(xí)題8.2.1數(shù)據(jù)采集器是什么?一、功能散亂數(shù)據(jù)數(shù)據(jù)庫ExcelBI平臺八爪魚結(jié)構(gòu)化數(shù)據(jù)是什么?二、優(yōu)勢
電商數(shù)據(jù)例如:/list.html?cat=9987,653,655適用場景:競品分析銷售分析用戶評論分析是什么?二、優(yōu)勢
復(fù)制粘貼:工作效率低爬蟲編寫:學(xué)習(xí)成本高是什么?二、優(yōu)勢
電商數(shù)據(jù)適用場景:競品分析銷售分析用戶評論分析1.輸入網(wǎng)址2.保存并啟動1是什么?2怎么用?3簡易采集模式4練習(xí)題目錄怎么用?采集模式
智能采集:智能識別,無需配置簡易采集:內(nèi)置模板,即點(diǎn)即用向?qū)J剑嘿N心指引,規(guī)則配置自定義采集:自由配置,隨心采集1是什么?2怎么用?3簡易采集模式4練習(xí)題目錄
簡易采集模式1是什么?2怎么用?3簡易采集模式4練習(xí)題目錄練習(xí)題選擇本地生活、電子商務(wù)、媒體閱讀三個板塊各一個簡易采集模板進(jìn)行數(shù)據(jù)采集并導(dǎo)出結(jié)果1自定義采集模式演示2如何復(fù)制3如何粘貼4練習(xí)題自定義采集模式自定義采集模式演示1自定義采集模式演示2如何復(fù)制3如何粘貼目錄如何復(fù)制一、案例例如:/omn/20180607/20180607A05ZM3.html/omn/20180606/20180606A1UE30.html/omn/20180607/20180607A07333.html適用場景:輿情監(jiān)控品牌分析如何復(fù)制如何復(fù)制1自定義采集模式演示2如何復(fù)制3如何粘貼目錄
如何粘貼1自定義采集模式演示2如何復(fù)制3如何粘貼目錄練習(xí)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 淮南市壽縣輔警招聘考試題庫 (答案+解析)
- 耳鼻咽喉科試題及答案
- 醫(yī)療機(jī)構(gòu)面試題型及答案
- 煤礦安全生產(chǎn)管理人員考試及答案
- 消防設(shè)施操作員(初級)習(xí)題(含參考答案)
- 基礎(chǔ)護(hù)理習(xí)題庫(附答案)
- 商品選品員突發(fā)故障應(yīng)對考核試卷及答案
- 成人護(hù)理學(xué)試題及答案
- 護(hù)理組感染防控考核試題及答案
- 河南黨建考試題庫及答案
- 2025-2026學(xué)年北京市西城區(qū)初二(上期)期末考試物理試卷(含答案)
- 公路工程施工安全技術(shù)與管理課件 第09講 起重吊裝
- 河南省2025年普通高等學(xué)校對口招收中等職業(yè)學(xué)校畢業(yè)生考試語文試題 答案
- 《中醫(yī)藥健康知識講座》課件
- 中國地級市及各省份-可編輯標(biāo)色地圖
- 產(chǎn)科品管圈成果匯報降低產(chǎn)后乳房脹痛發(fā)生率課件
- 急性消化道出血的急診處理
- 馬口鐵印鐵制罐工藝流程詳解課件
- 狼蒲松齡原文及翻譯
- 預(yù)應(yīng)力管樁-試樁施工方案
- GB/T 3500-1998粉末冶金術(shù)語
評論
0/150
提交評論