大數(shù)據(jù)與機器學習第三章

上傳人：龍*** IP屬地：北京上傳時間：2025-07-10 格式：DOCX 頁數(shù)：13 大?。?.49MB 積分：30 舉報 版權申訴

已閱讀5頁，還剩8頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

大數(shù)據(jù)與機器學習

目錄第1章數(shù)據(jù)與機器學習通識 71.1數(shù)據(jù)管理與人工智能關系 71.2數(shù)據(jù)存儲與計算產(chǎn)品發(fā)展史 71.3數(shù)據(jù)管理各域發(fā)展全路徑 81.4機器學習通識 91.4.1無監(jiān)督學習算法 91.4.2有監(jiān)督學習算法-分類/預測算法 101.5深度學習 131.6第三范式 131.6.1增強學習 34第2章大數(shù)據(jù)基礎概念 352.1大數(shù)據(jù)處理架構 35第3章Hadoop三大核心組件概述 473.1Hadoop概念 473.2三大核心組件特性 473.3Hadoop外圍生態(tài)組成 503.4組件之間數(shù)據(jù)流向（離線處理） 523.5組件之間數(shù)據(jù)流向（實時處理） 523.6Hadoop版本特性 523.7實時處理組件Spark與Flink 533.7.1兩者區(qū)別 53第4章HDFS介紹 534.1.1原理介紹 534.1.2架構介紹 54第5章YARN介紹 595.1YARN背景 595.2YARN原理 605.2.1YARN組件 605.2.2HDFS與YARN架構關系 615.2.3YARN流程 61第6章MapReduce介紹 626.1.1MR架構 626.1.2MR原理 636.1.3MR、YARN與HDFS節(jié)點關系 646.1.4網(wǎng)絡shuffle原理 65第7章Kafka原理介紹 657.1Kafka背景與作用 657.1.1Kafka產(chǎn)生背景-高吞吐、實時性、持久性 657.1.2Kafka產(chǎn)品目的 657.1.3Kafka兩個消息模式-訂閱與點對點 657.1.4Kafka應用場景-緩沖、異步 667.1.5Kafka工作原理 667.1.6Kafka總結 68第8章Hive介紹 718.1.1HIVE產(chǎn)生背景 718.1.2組件生態(tài)架構 728.1.3HIVE架構 728.1.4部署架構-主備模式 738.1.5處理流程 74第9章Spark介紹 759.1.1Spark產(chǎn)生背景 759.1.2Spark業(yè)務架構 779.1.3Spark部署 789.1.4Spark原理 799.1.5Spark-core的RDD 799.1.6產(chǎn)生背景 859.1.7Spark-streaming 869.1.8Spark-graphX圖計算 88第10章Flink介紹 9510.1.1產(chǎn)生背景 9510.1.2原理 96第11章HBase介紹 9711.1.1Hbase產(chǎn)生背景 9711.1.2HIVE與HBase區(qū)分 9711.1.3HBase架構原理 9811.1.4HBase簡介 9811.1.5產(chǎn)生背景 9811.1.6列族與元素 9811.1.7物理模型 10011.1.8ROOT表和META表 10311.1.9尋址機制 103第12章Clickhouse 10412.1.1產(chǎn)生背景 10412.1.2原理:列式存儲 10412.1.3ClickHouse官網(wǎng)解釋 10512.1.4ClickHouse概述 10612.1.5ClickHouse使用場景 10712.1.6ClickHouse的優(yōu)點 10712.1.7ClickHouse的缺點 108第13章Impala 108第14章Presto 10914.1.1druid，impala，presto對比 111第15章Flume 113第16章Sqoop 113第17章ZoomKeeper 113第18章AVRO介紹 113第19章R語言介紹 113第20章Scala語言 113第21章Python介紹 11321.1Python命令行終端安裝 11321.2Jupiter安裝 11521.3運行jupyter 11521.4安裝Matplotlib 11621.5安裝pdfkit 117第22章Flume介紹 117第23章Sqoop介紹 117第24章ZooKeeper介紹 117第25章平臺實際項目經(jīng)驗 11725.1離線與實時架構頂設 11725.1.1上海藥明離線數(shù)據(jù)湖頂設 11725.1.2揚州楊力實時數(shù)據(jù)中臺頂設 118第26章DAMA數(shù)據(jù)管理 12026.1數(shù)據(jù)治理框架-11項內容 12026.2數(shù)據(jù)集成與互操作 12226.2.1面向服務架構SOA(Service-OrientedArchitecture) 12226.2.2企業(yè)服務總線（EnterpriseServiceBus） 12226.3數(shù)據(jù)建模 12226.3.1模型組件：實體、關系、屬性、域 12226.3.2模型級別：概念、邏輯、物理 12326.3.3維度建模原理 12426.3.4維度建模操作 12526.3.5ADS層指標規(guī)劃（數(shù)集實戰(zhàn)方法論） 12826.4元數(shù)據(jù)管理 13326.5數(shù)據(jù)治理 138第27章OpenStack 139自我知識體系總結 141數(shù)據(jù)與機器學習通識大數(shù)據(jù)基礎概念Hadoop三大核心組件概述Hadoop概念用來存儲海量數(shù)據(jù)，并處理計算海量數(shù)據(jù)的底層系統(tǒng)，后指由核心衍生出的整個生態(tài)產(chǎn)品。即被Apache收錄的各大廠商的產(chǎn)品組件。三大核心組件特性HDFS：分布式文件系統(tǒng)。（三副本存儲：將數(shù)據(jù)按大小64M和128M分塊切割，以三個副本形式存放在三個節(jié)點服務器中。）【這就導致企業(yè)搭建Hadoop平臺需要4臺以上機器。實際中如易觀方舟與神策的商業(yè)方案中，因企業(yè)資金有限，希望一臺服務器搭建Hadoop時，可采取偽分布式，即在虛擬機上啟動3個DataNode節(jié)點和一個NameNode，但缺點就是虛擬機可能造成IO未知問題。但實際中尚未發(fā)現(xiàn)嚴重問題?！坑脕泶鎯Ａ看笪募╓eb日志文件），默認128M切割每塊。對于海量小文件效果不好。（如web網(wǎng)頁瀏覽數(shù)，因為切塊時候浪費多余空間）該系統(tǒng)數(shù)據(jù)不支持修改。不支持直接調用，需要通過外圍生態(tài)組建調用。如：Hive的SQL方式讀取。節(jié)點擴展YARN：資源協(xié)調管理負責整個集群的資源協(xié)調和管理。如（每個作業(yè)的內核處理數(shù)，內存處理大?。┤蒎e性：通過參數(shù)配置決定作業(yè)重試次數(shù)MapReduce:數(shù)據(jù)處理引擎離線海量數(shù)據(jù)處理引擎。先進行Map（分配）在shuffle&sort（重新洗與分類）最后Reduce（合并）因為是離線處理因此后續(xù)衍生出Spark和Flink做實時數(shù)據(jù)處理，即內存實時處理。阿里的MaxComputer自主開發(fā)的平臺就是Hadoop核心+Hive，而Datawork是則是構架在MaxComputer之上的大數(shù)據(jù)開發(fā)平臺。因此MaxComputer也是離線處理引擎。阿里的DataphilMapReduce工作原理Hadoop外圍生態(tài)組成由Hadoop的三大核心組件逐漸擴展成一個“動物”生態(tài)圈。如下圖。Hive(離線存儲):SQL離線數(shù)據(jù)存儲，F(xiàn)acebook開發(fā)的。主要負責從HDFS中通過SQL提取數(shù)據(jù)，Hive接口只查不改。即通過SQL轉換為Map與Reduce函數(shù)。Pig(離線存儲)：腳本語言，主要負責從HDFS中通過腳本語言提取數(shù)據(jù)Oozie:負責工作流調度。Mahout:負責機器學習。Zookeeper：“動物園”管理員。主要負責分布式管理協(xié)調（如：單點故障協(xié)調）Flume:負責日志收集。Sqoop:負責數(shù)據(jù)交換。主要是從RDBMS（關系型數(shù)據(jù)庫）中將數(shù)據(jù)取出送到HDFSHBase：列式存儲。NoSQL稀疏格式存儲。將數(shù)據(jù)結構化后進行列式存儲。主要是架構在HDFS之上（也可以不用），主要是因為HDFS數(shù)據(jù)不可修改，構架HBase后可以對數(shù)據(jù)進行增刪改查。數(shù)據(jù)先存放在HBase上，之后在存到HDFS上。HBase可以按照數(shù)據(jù)修改的歷史版本進行存儲。無法保證事務性操作。R語言：主要負責數(shù)據(jù)統(tǒng)計分析。相比較Python而言不利于文本分析AVRO：序列化工具。將數(shù)據(jù)序列化后存儲內存。無序列的數(shù)據(jù)是無法存入內存的。（因為網(wǎng)絡傳輸需要二進制序列化數(shù)據(jù)，內存是要網(wǎng)絡通信傳輸?shù)模┙M件之間數(shù)據(jù)流向（離線處理）組件之間數(shù)據(jù)流向（實時處理）Hadoop版本特性ApacheHadoop:開源社區(qū)版：開源免費，但有JAR包沖突。CDH：Cloudera商業(yè)版，有安裝碼，支持網(wǎng)頁瀏覽下一步安裝，安裝簡單，無JAR包沖突，但不開源。有未知潛在風險。HDP：H

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)與機器學習第三章

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)與機器學習第三章

文檔簡介

溫馨提示

最新文檔

評論

相關文檔