版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)與機(jī)器學(xué)習(xí)
目錄第1章數(shù)據(jù)與機(jī)器學(xué)習(xí)通識 71.1數(shù)據(jù)管理與人工智能關(guān)系 71.2數(shù)據(jù)存儲與計(jì)算產(chǎn)品發(fā)展史 71.3數(shù)據(jù)管理各域發(fā)展全路徑 81.4機(jī)器學(xué)習(xí)通識 91.4.1無監(jiān)督學(xué)習(xí)算法 91.4.2有監(jiān)督學(xué)習(xí)算法-分類/預(yù)測算法 101.5深度學(xué)習(xí) 131.6第三范式 131.6.1增強(qiáng)學(xué)習(xí) 34第2章大數(shù)據(jù)基礎(chǔ)概念 352.1大數(shù)據(jù)處理架構(gòu) 35第3章Hadoop三大核心組件概述 473.1Hadoop概念 473.2三大核心組件特性 473.3Hadoop外圍生態(tài)組成 503.4組件之間數(shù)據(jù)流向(離線處理) 523.5組件之間數(shù)據(jù)流向(實(shí)時(shí)處理) 523.6Hadoop版本特性 523.7實(shí)時(shí)處理組件Spark與Flink 533.7.1兩者區(qū)別 53第4章HDFS介紹 534.1.1原理介紹 534.1.2架構(gòu)介紹 54第5章YARN介紹 595.1YARN背景 595.2YARN原理 605.2.1YARN組件 605.2.2HDFS與YARN架構(gòu)關(guān)系 615.2.3YARN流程 61第6章MapReduce介紹 626.1.1MR架構(gòu) 626.1.2MR原理 636.1.3MR、YARN與HDFS節(jié)點(diǎn)關(guān)系 646.1.4網(wǎng)絡(luò)shuffle原理 65第7章Kafka原理介紹 657.1Kafka背景與作用 657.1.1Kafka產(chǎn)生背景-高吞吐、實(shí)時(shí)性、持久性 657.1.2Kafka產(chǎn)品目的 657.1.3Kafka兩個(gè)消息模式-訂閱與點(diǎn)對點(diǎn) 657.1.4Kafka應(yīng)用場景-緩沖、異步 667.1.5Kafka工作原理 667.1.6Kafka總結(jié) 68第8章Hive介紹 718.1.1HIVE產(chǎn)生背景 718.1.2組件生態(tài)架構(gòu) 728.1.3HIVE架構(gòu) 728.1.4部署架構(gòu)-主備模式 738.1.5處理流程 74第9章Spark介紹 759.1.1Spark產(chǎn)生背景 759.1.2Spark業(yè)務(wù)架構(gòu) 779.1.3Spark部署 789.1.4Spark原理 799.1.5Spark-core的RDD 799.1.6產(chǎn)生背景 859.1.7Spark-streaming 869.1.8Spark-graphX圖計(jì)算 88第10章Flink介紹 9510.1.1產(chǎn)生背景 9510.1.2原理 96第11章HBase介紹 9711.1.1Hbase產(chǎn)生背景 9711.1.2HIVE與HBase區(qū)分 9711.1.3HBase架構(gòu)原理 9811.1.4HBase簡介 9811.1.5產(chǎn)生背景 9811.1.6列族與元素 9811.1.7物理模型 10011.1.8ROOT表和META表 10311.1.9尋址機(jī)制 103第12章Clickhouse 10412.1.1產(chǎn)生背景 10412.1.2原理:列式存儲 10412.1.3ClickHouse官網(wǎng)解釋 10512.1.4ClickHouse概述 10612.1.5ClickHouse使用場景 10712.1.6ClickHouse的優(yōu)點(diǎn) 10712.1.7ClickHouse的缺點(diǎn) 108第13章Impala 108第14章Presto 10914.1.1druid,impala,presto對比 111第15章Flume 113第16章Sqoop 113第17章ZoomKeeper 113第18章AVRO介紹 113第19章R語言介紹 113第20章Scala語言 113第21章Python介紹 11321.1Python命令行終端安裝 11321.2Jupiter安裝 11521.3運(yùn)行jupyter 11521.4安裝Matplotlib 11621.5安裝pdfkit 117第22章Flume介紹 117第23章Sqoop介紹 117第24章ZooKeeper介紹 117第25章平臺實(shí)際項(xiàng)目經(jīng)驗(yàn) 11725.1離線與實(shí)時(shí)架構(gòu)頂設(shè) 11725.1.1上海藥明離線數(shù)據(jù)湖頂設(shè) 11725.1.2揚(yáng)州楊力實(shí)時(shí)數(shù)據(jù)中臺頂設(shè) 118第26章DAMA數(shù)據(jù)管理 12026.1數(shù)據(jù)治理框架-11項(xiàng)內(nèi)容 12026.2數(shù)據(jù)集成與互操作 12226.2.1面向服務(wù)架構(gòu)SOA(Service-OrientedArchitecture) 12226.2.2企業(yè)服務(wù)總線(EnterpriseServiceBus) 12226.3數(shù)據(jù)建模 12226.3.1模型組件:實(shí)體、關(guān)系、屬性、域 12226.3.2模型級別:概念、邏輯、物理 12326.3.3維度建模原理 12426.3.4維度建模操作 12526.3.5ADS層指標(biāo)規(guī)劃(數(shù)集實(shí)戰(zhàn)方法論) 12826.4元數(shù)據(jù)管理 13326.5數(shù)據(jù)治理 138第27章OpenStack 139自我知識體系總結(jié) 141第六章MapReduce介紹MR架構(gòu)JobTracker:直監(jiān)聽并接收來自各個(gè)TaskTracker發(fā)送的心跳信息,包括資源使用情況和任務(wù)運(yùn)行情況等信息。主要作用:容錯(cuò)和為任務(wù)調(diào)度提供決策依據(jù)TaskTracker:1.匯報(bào)心跳:Tracker周期性將所有節(jié)點(diǎn)上各種信息通過心跳機(jī)制匯報(bào)給JobTracker。這 些信息包括兩部分:
*機(jī)器級別信息:節(jié)點(diǎn)健康情況、資源使用情況等。
*任務(wù)級別信息:任務(wù)執(zhí)行進(jìn)度、任務(wù)運(yùn)行狀態(tài)等。
2.執(zhí)行命令:JobTracker會給TaskTracker下達(dá)各種命令,主要包括:啟動任務(wù)( LaunchTaskAction)、提交任務(wù)(CommitTaskAction)、殺死任務(wù)(KillTaskAction)、
殺死作業(yè)(KillJobAction)和重新初始化(TaskTrackerReinitAction)MR原理Map函數(shù)原理Map即做映射,將一行數(shù)據(jù)按照一定格式進(jìn)行Key-Value映射,輸出多個(gè)鍵值對。如:文件內(nèi)容如下<男性:小張,男性:小李,女性:小紅>,則映射為<1:男性>,<1:男性>,<女性:1>,相當(dāng)于將where條件等于Key的數(shù)據(jù)取出。Reduce函數(shù)原理Reduce為規(guī)約,即將同一組數(shù)據(jù)進(jìn)行迭代計(jì)算。如上文數(shù)據(jù)Map取出后,同一組數(shù)據(jù)為<男性:1>,<男性:1>,則計(jì)算這個(gè)重復(fù)出現(xiàn)的<男性:2次>,即相當(dāng)于Groupby等于Key的數(shù)據(jù)取出,然后count求和。MR、YARN與HDFS節(jié)點(diǎn)關(guān)系JobTracker守護(hù)程序因?yàn)橐獔?zhí)行MR作業(yè),因此耗費(fèi)大量CPU和內(nèi)存,建議單獨(dú)放一個(gè)服務(wù)器。NameNode程序因?yàn)榇嬗写罅吭獢?shù)據(jù),因此耗費(fèi)內(nèi)存。而SecondaryNameNode雖然大部分時(shí)間很閑,但要恢復(fù)和備份元數(shù)據(jù),因此建議與NameNode不在同一節(jié)點(diǎn)。一旦NameNode癱瘓,HDFS就無法使用了。建議單一節(jié)點(diǎn)。ResourceManager:一旦癱瘓就無法使用YARN,建議單獨(dú)一臺節(jié)點(diǎn)。網(wǎng)絡(luò)shuffle原理第七章Kafka原理介紹Kafka背景與作用Kafka產(chǎn)生背景-高吞吐、實(shí)時(shí)性、持久性現(xiàn)有消息隊(duì)列系統(tǒng)無法滿足大數(shù)據(jù)的高吞吐要求而大數(shù)據(jù)系統(tǒng)例如Flume更適合離線批處理,無法滿足實(shí)時(shí)處理的持久性要求Kafka產(chǎn)品目的由領(lǐng)英通過Scala語言開發(fā)。用來處理海量日志、用戶行為、網(wǎng)站運(yùn)營指標(biāo)統(tǒng)計(jì)的框架,滿足實(shí)時(shí)在線和離線批處理應(yīng)用。Kafka兩個(gè)消息模式-訂閱與點(diǎn)對點(diǎn)訂閱式:消息隊(duì)列中Topic分配給多個(gè)消費(fèi)者pushPearToPear點(diǎn)對點(diǎn):由消費(fèi)者主動去消息隊(duì)列中獲取pullKafka應(yīng)用場景-緩沖、異步緩沖:防止高并發(fā)帶來的后端服務(wù)崩潰,因此在其前端加入消息隊(duì)列作為緩沖。因Kafak每秒可處理幾十萬條消息,延遲為毫秒級別,因此極大緩沖因網(wǎng)站秒殺活動帶來的高并發(fā)。異步:后端服務(wù)的故障不會影響Kafka實(shí)施處理消息,等到后端服務(wù)恢復(fù),可通過點(diǎn)對點(diǎn)模式,主動獲取消息。Kafka工作原理當(dāng)broker中的Leader主節(jié)點(diǎn)故障,Zookeeper指定其它broker中的副本即Follower為Leader。所有注冊信息都存儲在Zookeeper中,防止斷電導(dǎo)致緩存丟失數(shù)據(jù),而使得消費(fèi)者重新讀取數(shù)據(jù),此時(shí)由Zookeeper記錄offset偏移量,即可按照偏移量繼續(xù)讀取信息Kafka總結(jié)Kafka分布式消息隊(duì)列是由topic組成,每個(gè)topic(即消息的種類)又有很多分區(qū)Partition(切割的文件)產(chǎn)生意義:原有生產(chǎn)端和消費(fèi)端形成了點(diǎn)對點(diǎn)的多端調(diào)用,比較混亂,用了消息隊(duì)列保證資源調(diào)度。數(shù)據(jù)寫入客戶端緩存,當(dāng)緩存滿的時(shí)候?qū)懭隟afka,即流式處理。消費(fèi)端群組從Kafka隊(duì)列讀取數(shù)據(jù)。4、客戶端群組按照offset偏移量讀取Kafka隊(duì)列內(nèi)的數(shù)據(jù),即當(dāng)consumer0讀取到消息3的時(shí)候,偏移量為3,并將狀態(tài)返回給Kafka.此時(shí)如果掛掉,則數(shù)據(jù)不會寫入數(shù)據(jù)庫,此時(shí)consumer1按照偏移量4繼續(xù)讀取消息.并將數(shù)據(jù)寫入數(shù)據(jù)庫。此時(shí)會造成消息丟失。而此時(shí)的讀取方式為【最多一次atmostonce:數(shù)據(jù)丟失】讀取?!咀钌傧M(fèi)一次atleastonce:數(shù)據(jù)重復(fù)】即consumer1繼續(xù)從consumer0的偏移量3開始在讀取一次,然后存入數(shù)據(jù)庫,這樣就導(dǎo)致數(shù)據(jù)重復(fù)。如果是轉(zhuǎn)賬操作就要轉(zhuǎn)兩次?!緡?yán)格一次】即consumer1不相信Kafk
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年冷水江市國企考試真題
- 2026上半年湖南長沙市政府專職消防員招聘260人備考題庫參考答案詳解
- 2024年華陰市衛(wèi)生系統(tǒng)考試真題
- 濕法紡紡絲操作工安全技能測試競賽考核試卷含答案
- 初中九年級英語:基于閱讀文本的環(huán)境問題分析與解決方案探討
- 印制電路機(jī)加工安全理論模擬考核試卷含答案
- 電子絕緣材料試制工崗后評優(yōu)考核試卷含答案
- 合成氨氣體壓縮工安全生產(chǎn)規(guī)范考核試卷含答案
- 煙機(jī)電工安全生產(chǎn)知識測試考核試卷含答案
- 變壓變溫吸附裝置操作工班組考核水平考核試卷含答案
- 財(cái)政評審廉政管理辦法
- 新時(shí)代教育者核心素養(yǎng)與使命擔(dān)當(dāng)
- 公司人員服從管理制度
- 演出單位薪酬管理制度
- 企業(yè)財(cái)務(wù)數(shù)字化轉(zhuǎn)型的路徑規(guī)劃及實(shí)施方案設(shè)計(jì)
- DB32T 1712-2011 水利工程鑄鐵閘門設(shè)計(jì)制造安裝驗(yàn)收規(guī)范
- 百度人才特質(zhì)在線測評題
- DL∕T 5142-2012 火力發(fā)電廠除灰設(shè)計(jì)技術(shù)規(guī)程
- 2024年水合肼行業(yè)發(fā)展現(xiàn)狀分析:水合肼市場需求量約為11.47萬噸
- 提水試驗(yàn)過程及數(shù)據(jù)處理
- (正式版)JBT 14933-2024 機(jī)械式停車設(shè)備 檢驗(yàn)與試驗(yàn)規(guī)范
評論
0/150
提交評論