大數(shù)據(jù)處理技術與項目實戰(zhàn)_第1頁
大數(shù)據(jù)處理技術與項目實戰(zhàn)_第2頁
大數(shù)據(jù)處理技術與項目實戰(zhàn)_第3頁
大數(shù)據(jù)處理技術與項目實戰(zhàn)_第4頁
大數(shù)據(jù)處理技術與項目實戰(zhàn)_第5頁
已閱讀5頁,還剩491頁未讀, 繼續(xù)免費閱讀

付費閱讀全文

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

圖書在版編目(CIP)數(shù)據(jù)

大數(shù)據(jù)處理技術與項目實戰(zhàn)盧賢玲著

/.

北京新華出版社

—:,2021.11

ISBN9787516661284

大盧數(shù)據(jù)處理

Ⅰ.①…Ⅱ.①…Ⅲ.①Ⅳ.①TP274

中國版本圖書館數(shù)據(jù)核字第號

CIP(2021)240526

大數(shù)據(jù)處理技術與項目實戰(zhàn)

作者:盧賢玲

責任編輯:齊泓鑫封面設計:張悅

出版發(fā)行:新華出版社

地址:北京石景山區(qū)京原路號郵編:

8100040

網(wǎng)址:

http://www.xinhuapub.com

經(jīng)銷:新華書店

新華出版社天貓旗艦店京東旗艦店及各大網(wǎng)店

購書熱線:中國新聞書店購書熱線:

0106307712201063072012

照排:天一

印刷:河南黎陽印務有限公司

成品尺寸:

185mm×260mm

印張:字數(shù):千字

31587

版次:年月第一版印次:年月第一次印刷

202111202111

書號:

ISBN9787516661284

定價:元

90.00

版權專有,侵權必究。如有質量問題,請聯(lián)系調(diào)換:

前言

隨著信息技術和互聯(lián)網(wǎng)的迅猛發(fā)展和應用普及人們在互聯(lián)網(wǎng)通信金融商業(yè)

,、、、、

醫(yī)療等諸多領域所產(chǎn)生的數(shù)據(jù)呈爆炸性增長目前全球大數(shù)據(jù)市場規(guī)模巨大這些海

。,,

量多樣化持續(xù)和細粒度的數(shù)據(jù)存在巨大的潛在價值對于國家與企業(yè)而言數(shù)據(jù)與自

、、,,

然資源一樣具有重要的戰(zhàn)略意義掌握了數(shù)據(jù)資源就掌控了數(shù)據(jù)市場的主動權近年

,。

來人們越來越多地意識到數(shù)據(jù)資源的重要性大數(shù)據(jù)技術在各個行業(yè)都得到了廣泛的

,,

普及和應用然而現(xiàn)有傳統(tǒng)的數(shù)據(jù)計算和處理技術已無法適用于實時產(chǎn)生的海量數(shù)

,,,

據(jù)大數(shù)據(jù)時代對大數(shù)據(jù)處理提出了新的挑戰(zhàn)因此尋求有效的大數(shù)據(jù)處理技術方

。,,、

法和手段已經(jīng)成為現(xiàn)實世界的迫切需求

。

是當前流行的大數(shù)據(jù)處理與分析平臺本書依托于介紹了大數(shù)據(jù)分

Hadoop,Hadoop

布式存儲分布式并行處理大數(shù)據(jù)采集大數(shù)據(jù)查詢大數(shù)據(jù)統(tǒng)計分析和大數(shù)據(jù)的推薦

、、、、

系統(tǒng)等技術

。

與市場上現(xiàn)有的關于原理介紹環(huán)境搭建和案例實踐的書籍相比本書主

Hadoop、,

要有以下三大特點理論與實戰(zhàn)相結合不僅對組件基本原理編程模型等

:(1),Hadoop、

基礎理論進行深入的介紹而且從環(huán)境搭建案例分析項目創(chuàng)建和代碼實現(xiàn)等方面系

,、、

統(tǒng)性地介紹如何基于組件接口開發(fā)大數(shù)據(jù)技術應用系統(tǒng)由淺入深在實戰(zhàn)

hadoop;(2),

方面首先基于接口實例介紹接口功能及基本編程框架然后進一步基于綜合項目

,,,;,

案例介紹項目實戰(zhàn)開發(fā)的具體過程使得讀者深入淺出避免讀者陷入理解基本原理

,。,

和接口卻難以具體設計和編程實現(xiàn)實際應用中大數(shù)據(jù)處理算法的困境系統(tǒng)開發(fā)

,;(3)

前后端相結合在項目實戰(zhàn)案例中本書不是僅僅介紹如何基于大數(shù)據(jù)平臺實現(xiàn)大數(shù)據(jù)

,,

處理的過程而是將系統(tǒng)的前后端相結合作為一個整體進行項目總體設計和功能

,Web,

實現(xiàn)更加貼切于現(xiàn)實的項目應用需求從而提高了讀者的項目實戰(zhàn)能力和開發(fā)水平

,,。

全書共章基于平臺采用理論于實踐相結合的方法介紹大數(shù)據(jù)處理的相

8,Hadoop

關技術

第章大數(shù)據(jù)處理技術及應用概述簡要介紹了大數(shù)據(jù)特征及應用領域大數(shù)據(jù)處

1,,

理技術基本內(nèi)容和處理框架并針對大數(shù)據(jù)處理框架進行了概要介紹

,Hadoop。

第章安裝與配置介紹了在個人計算機上安裝與配置的相關知

2Hadoop,Hadoop

識主要包括虛擬機安裝安裝免密登錄安裝及完全分布式安

,、Linux、SSH、JDKHadoop

裝與配置

。

第章分布式文件系統(tǒng)介紹了分布式文件系統(tǒng)架構和讀寫數(shù)據(jù)流

3HDFS,HDFS

1

程文件系統(tǒng)操作命令的基本編程接口和編程實例并以分布式

、HDFS、HDFSJAVA;

云盤系統(tǒng)為例深入介紹了如何基于開發(fā)和實現(xiàn)大數(shù)據(jù)分布式存儲系統(tǒng)

Web,HDFS。

第章大數(shù)據(jù)分布式并行處理框架介紹了計算框架和工

4MapReduce,MapReduce

作流程并將其與和做一比較介紹它們的區(qū)別與特點并介紹了

,SparkFlink;MapReduce

的編程接口和編程實例其中在多個編程實例中詳細介紹了

,,MapReduce,MapReduce

高級程序設計技術包括多個數(shù)據(jù)文件傳遞工作流程和協(xié)同工作的過程

,MapReduce、;

最后以電信手機流量數(shù)據(jù)分析系統(tǒng)為例深入介紹了如何利用從海量中提

,MapReduce

取數(shù)據(jù)和轉換數(shù)據(jù)格式以及定制輸出文件的格式等

,。

第章分布式數(shù)據(jù)倉庫介紹了分布式數(shù)據(jù)倉庫的體系架構和工作原理

5Hive,Hive、

的安裝的安裝與連接的安裝與配置介紹了的查詢語言

Hive、Mysql、HiveMysql;Hive

以及編程接口并以為開發(fā)環(huán)境為例從項目創(chuàng)建加載包用戶

HiveJDBC,Eclipse,、Jar、

授權等方面完整介紹了連接訪問的具體實現(xiàn)過程最后以糧食生成離線

,JDBCHive;,

大數(shù)據(jù)分析系統(tǒng)為例詳細介紹了基于和開發(fā)和實現(xiàn)大數(shù)據(jù)統(tǒng)計及可視化的

JavaHive

系統(tǒng)的具體實現(xiàn)過程

Web。

第章分布式數(shù)據(jù)庫介紹了分布式數(shù)據(jù)庫的基本功能邏輯架構數(shù)

6HBase,HBase、、

據(jù)模型安裝和操作并介紹了的編程接口和編程實例最后基于項目實

、、HBase;HBase;

例深入介紹了表結構設計和數(shù)據(jù)讀寫的具體實現(xiàn)過程

HBase。

第章海量日志采集介紹了的概念架構工作原理特點安裝與配

7Flume,Flume、、、、

置并介紹了基礎配置應用和組件高階開發(fā)最后以電商平臺用戶行為日志分

;Flume;,

析系統(tǒng)為例深入介紹了在海量日志分析系統(tǒng)中的應用和實現(xiàn)過程

,Flume。

第章基于的個性化推薦系統(tǒng)介紹推薦系統(tǒng)概念工作流程和推薦機制

8Mahout,、;

并介紹了機器學習領域經(jīng)典算法庫最后以基于個性化新聞推薦系統(tǒng)

Mahout;,Mahout

實戰(zhàn)為例深入介紹了大數(shù)據(jù)在推薦系統(tǒng)中的應用及推薦系統(tǒng)項目開發(fā)和實現(xiàn)的具體

,

過程

本書是經(jīng)過多年研究和教學實踐后撰寫而成的關于大數(shù)據(jù)處理技術與項目實戰(zhàn)方

面的書籍書中全部算法設計的程序代碼都經(jīng)過完整編程實現(xiàn)并運行測試通過感謝

,,。

周俊濤高猛和石泉同學在項目實踐中付出的努力感謝在本書編寫過程中提供過幫助

、,

的各位編輯

!

由于作者水平有限書中難免會有不準確甚至錯誤之處敬請讀者批評指正

,,。

2

第章大數(shù)據(jù)處理技術及應用概述……………

1001

大數(shù)據(jù)概念及特征……

1.1003

大數(shù)據(jù)處理技術………

1.2004

數(shù)據(jù)采集……

1.2.1004

數(shù)據(jù)預處理…………………

1.2.2005

數(shù)據(jù)存儲……

1.2.3006

數(shù)據(jù)計算……

1.2.4006

數(shù)據(jù)分析……

1.2.5006

數(shù)據(jù)解釋……

1.2.6007

大數(shù)據(jù)處理系統(tǒng)………………

1.3Google007

…………

1.3.1GFS008

…………………

1.3.2MapReduce009

……

1.3.3BigTable009

大數(shù)據(jù)處理框架………………

1.4Hadoop009

簡介…………………

1.4.1Hadoop009

生態(tài)圈………………

1.4.2Hadoop010

大數(shù)據(jù)的行業(yè)應用……

1.5011

第章安裝與配置……

2Hadoop013

虛擬機與系統(tǒng)安裝……………

2.1Linux015

虛擬機安裝…………………

2.1.1015

系統(tǒng)安裝………………

2.1.2Linux015

1

完全分布式安裝與配置………

2.2Hadoop024

安裝與配置……………

2.2.1SSH024

安裝與配置……………

2.2.2JDK028

完全分布式安裝與配置……………

2.2.3Hadoop030

第章分布式文件系統(tǒng)…………………

3HDFS035

概述……………

3.1HDFS037

架構…………………

3.1.1HDFS037

的優(yōu)缺點……………

3.1.2HDFS038

兩種操作方式…………………

3.2HDFS039

命令……………

3.2.1HDFSShell040

……………

3.2.2HDFSJAVAAPI041

實例………

3.2.3HDFSJAVAAPI046

項目實戰(zhàn):分布式云盤系統(tǒng)…………

3.3048

開發(fā)環(huán)境安裝與配置………

3.3.1049

項目設計……

3.3.2056

項目實現(xiàn)……

3.3.3057

運行測試……

3.3.4088

第章大數(shù)據(jù)分布式并行處理框架……………

4MapReduce091

概述………

4.1MapReduce093

計算框架………

4.1.1MapReduce093

工作流程………

4.1.2MapReduce095

、和比較………………

4.1.3SparkFlinkHadoop097

編程基礎…………………

4.2MapReduce102

類和類……

4.2.1MapperReducer102

作業(yè)配置………

4.2.2MapReduce103

數(shù)據(jù)類型………

4.2.3MapReduce104

編程實例…………………

4.3MapReduce104

項目創(chuàng)建與運行………………

4.3.1MapReduce104

編程實例………………

4.3.2Map107

單個編程實例…

4.3.3MapReduce111

多個過程編程實例……………

4.3.4Mapreduce114

2

項目實戰(zhàn):電信手機流量數(shù)據(jù)分析系統(tǒng)……………

4.4125

項目設計……

4.4.1126

項目實現(xiàn)……

4.4.2127

項目運行測試………………

4.4.3133

第章分布式數(shù)據(jù)倉庫…………………

5Hive135

概述………………

5.1Hive137

簡介……

5.1.1Hive137

的體系架構……………

5.1.2Hive137

與傳統(tǒng)數(shù)據(jù)庫的對比分析……………

5.1.3Hive138

的優(yōu)缺點………………

5.1.4Hive139

安裝與配置………

5.2Hive139

安裝……

5.2.1Hive139

安裝配置……

5.2.2Hive+mysql141

操作………

5.3HiveShell143

非交互模式常用命令…………

5.3.1HiveShell143

交互模式下的命令……

5.3.2Hive144

的常用操作…

5.3.3HiveHiveQL145

…………

5.4HiveJavaAPI152

基本操作……

5.4.1HiveJavaAPI152

實例…………

5.4.2HiveJavaAPI154

項目實戰(zhàn):糧食生產(chǎn)離線大數(shù)據(jù)分析系統(tǒng)…………

5.5161

系統(tǒng)設計……

5.5.1161

項目創(chuàng)建……

5.5.2162

系統(tǒng)實現(xiàn)關鍵技術…………

5.5.3163

系統(tǒng)功能實現(xiàn)………………

5.5.4168

項目運行測試………………

5.5.5218

第章分布式數(shù)據(jù)庫…………………

6HBase221

概述……………

6.1HBase223

數(shù)據(jù)存儲模式………

6.1.1HBase223

的邏輯架構…………

6.1.2HBase225

數(shù)據(jù)模型簡介………

6.1.3HBase226

設計…………………

6.1.4HBase229

的優(yōu)缺點……………

6.1.5HBase230

3

安裝與配置……

6.2HBase231

安裝與配置………

6.2.1Zookeeper231

安裝與配置…………

6.2.2Hbaser233

命令………

6.3HBaseShell236

查詢操作……

6.3.1236

操作……

6.3.2DDL236

操作……

6.3.3DML238

命令綜合實例…

6.3.4HBaseShell241

………

6.4HBaseJavaAPI243

的常用……

6.4.1HBaseJavaAPI243

實例………

6.4.2HBaseJavaAPI247

項目實戰(zhàn):用戶通話記錄高效查詢系統(tǒng)……………

6.5251

項目設計……

6.5.1251

項目實現(xiàn)……

6.5.2252

項目運行測試………………

6.5.3262

第章海量日志采集……

7Flume265

概述……………

7.1Flume267

架構…………………

7.1.1Flume267

工作原理……………

7.1.2Flume268

特點…………………

7.1.3Flume270

安裝與配置……

7.2Flume270

基礎應用………

7.3Flume273

案例一:…………

7.3.1Avrosource273

案例二:………

7.3.2Netcatsource275

案例三:實時監(jiān)控單個追加文件……………

7.3.3278

案例四:監(jiān)控本地文件夾新增文件…………

7.3.4283

案例五:實時監(jiān)控文件夾下文件追加………

7.3.5285

自定義組件高階開發(fā)…………

7.4Flume289

自定義攔截器………………

7.4.1289

自定義………………

7.4.2Source297

自定義…………………

7.4.3Sink313

項目實戰(zhàn):電商平臺用戶行為日志分析系統(tǒng)………

7.5318

系統(tǒng)設計……

7.5.1318

項目實現(xiàn)……

7.5.2320

項目運行測試………………

7.5.3368

4

第章基于的個性化推薦系統(tǒng)………

8Mahout371

推薦系統(tǒng)概述…………

8.1373

推薦系統(tǒng)工作流程…………

8.1.1373

推薦機制……

8.1.2374

概述……………

8.2Mahout378

的核心概念…………

8.2.1Mahout378

應用場景……………

8.2.2Mahout379

安裝與配置……

8.3Mahout379

下載與配置…………

8.3.1Mahout379

測試…………………

8.3.2Mahout380

中創(chuàng)建工程……………

8.4EclipseMaven381

創(chuàng)建項目……

8.4.1381

項目配置……

8.4.2384

項目實戰(zhàn):基于個性化新聞推薦系統(tǒng)……

8.5Mahout394

系統(tǒng)設計……

8.5.1394

項目創(chuàng)建……

8.5.2395

項目實現(xiàn)……

8.5.3400

項目運行測試………………

8.5.4484

5

第章

1

大數(shù)據(jù)處理技術及應用概述

第章·大數(shù)據(jù)處理技術及應用概述

1

1.1大數(shù)據(jù)概念及特征

隨著物聯(lián)網(wǎng)技術和信息技術的飛速發(fā)展巨量數(shù)據(jù)的實時產(chǎn)生和采集已經(jīng)完全滲

,

透到我們的生活中物聯(lián)網(wǎng)是物物相連的互聯(lián)網(wǎng)它利用識別和感知技術二維碼

。,(、

傳感器等實時采集任何需要監(jiān)控連接互動的物體或過程采集其各種需要的

RFID、),、、,

信息實現(xiàn)信息化和遠程管理控制實時采集和廣泛應用導致了物聯(lián)網(wǎng)每時每刻都會

,。

產(chǎn)生海量的信息這些信息即是我們通常所說的大數(shù)據(jù)物聯(lián)網(wǎng)的發(fā)展對于大數(shù)據(jù)的

,。

發(fā)展有重要的影響

。

大數(shù)據(jù)是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉管理和處理的數(shù)據(jù)

集合是需要新處理模式才能具有更強的決策力洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量

,、、

高增長率和多樣化的信息資產(chǎn)具有大量性高速性多樣性真實性低價值密度等五

。、、、、

個特性

。

大量性

(1)(Volume)。

大數(shù)據(jù)究竟要多大呢起始計量單位只有達到的數(shù)據(jù)才可以被稱之為大數(shù)據(jù)

?PB。

正常的計算機處理數(shù)據(jù)需要分鐘的時間處理需要個小時的時間而

4g4,1TB3,

達到的數(shù)據(jù)需要個月零天的時間沃爾瑪是當今最早開始投資和部署大數(shù)據(jù)

1PB43。

應用的傳統(tǒng)企業(yè)巨頭之一每小時約有萬筆交易大數(shù)據(jù)生態(tài)系統(tǒng)每天處理級

,100,TB

的新數(shù)據(jù)和級的歷史數(shù)據(jù)還需要分析數(shù)以百萬計的產(chǎn)品數(shù)據(jù)數(shù)以億計的客戶和

,PB,、

搜索關鍵詞

。

高速性

(2)(Velocity)。

通常數(shù)據(jù)具有時效性超過了一定時間的數(shù)據(jù)是失效的比如新聞查詢的實效

,,。

性驗證碼校驗的實時性目前物聯(lián)網(wǎng)中信息產(chǎn)生的數(shù)據(jù)流速度很快用傳統(tǒng)的技術手

,。,

段無法對此類實時快速增長的數(shù)據(jù)進行有效的分析如今社交媒體是增長最快的大數(shù)

。

據(jù)源像微博這類的社交媒體產(chǎn)生的數(shù)據(jù)具有很強的時效性需要通過大規(guī)

,、Twitter,。

模的服務器集群對此類數(shù)據(jù)進行高速的實時處理

。

多樣性

(3)(Variety)。

大數(shù)據(jù)多樣性是指種類和來源的多樣性隨著互聯(lián)網(wǎng)和無線通信技術的發(fā)展豐

。,

003



)M,

富了大數(shù)據(jù)對數(shù)據(jù)的采集和獲取的方式用戶可以上傳分享自己的原創(chuàng)信息網(wǎng)絡數(shù)

。、,

據(jù)量呈現(xiàn)出了爆炸式的增長網(wǎng)絡中數(shù)據(jù)類型呈現(xiàn)多樣化例如音頻圖片視頻網(wǎng)

。,,、、、

頁和社交媒體數(shù)據(jù)等

。

低價值密度

(4)(Value)。

大數(shù)據(jù)規(guī)模巨大數(shù)據(jù)價值密度較低隨著物聯(lián)網(wǎng)的廣泛應用和數(shù)據(jù)采集技術的

,。

發(fā)展無處不在地實時感知和采集到海量數(shù)據(jù)有價值的信息蘊藏在海量數(shù)據(jù)之中如

,,,

何通過大數(shù)據(jù)處理和人工智能技術從海量數(shù)據(jù)中挖掘有價值的數(shù)據(jù)也是大數(shù)據(jù)時代

,,

迫切需要解決的問題

。

真實性

(5)(Veracity)。

要保證數(shù)據(jù)的準確性和可信賴度通過大數(shù)據(jù)的分析處理最后能夠解釋結果和

。,

預測未來但是前提是提取的數(shù)據(jù)要足夠的準確性例如電商利用用戶的社交關系

。。:

和歷史行為信息分析用戶獨特的需求和喜好能夠預測出用戶下一步動作并向用戶

,,,

行動推送用戶傾向的信息

。

1.2大數(shù)據(jù)處理技術

大數(shù)據(jù)處理的框架技術主要包括數(shù)據(jù)采集預處理存儲計算分析和可視化結

、、、、

果等

。

..數(shù)據(jù)采集

121

大數(shù)據(jù)采集是指從利用無線通信技術傳感器和智能設備從應用系統(tǒng)網(wǎng)絡媒介

、,、

和互聯(lián)網(wǎng)等平臺中獲取數(shù)據(jù)的過程由于人們產(chǎn)生的數(shù)據(jù)具有速度快種類繁雜和數(shù)

。、

據(jù)量大等特征傳統(tǒng)的數(shù)據(jù)采集技術無法勝任和保證數(shù)據(jù)采集的可靠性高效性和實用

,、

性目前大數(shù)據(jù)采集方法主要包括以下四類

。,:

數(shù)據(jù)庫采集

(1)。

大數(shù)據(jù)時代的數(shù)據(jù)規(guī)模巨大使用傳統(tǒng)關系型數(shù)據(jù)庫難以存儲海量數(shù)據(jù)當前企

,。,

業(yè)通常在采集端部署和等非關系數(shù)據(jù)庫并實現(xiàn)數(shù)據(jù)在這些數(shù)

Redis、MongoDBHBase,

據(jù)庫之間分片存儲和負載均衡

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論