版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
配色色系表RGB255/187/87RGB250/211/187RGB254/238/193RGB226/243/252RGB190/233/238RGB
153/54/54RGB
242/137/68RGB
253/211/81RGB
129/193/95RGB
86/196/210RGB
127/0/1RGB
237/109/0RGB
52/200/0RGB
98/178/48RGB
48/181/197RGB137/137/137RGB255/255/255RGB89/87/87RGB221/221/221RGB
35/24/21RGB181/181/181大數(shù)據(jù)技術(shù)
授課教師:曹雪梅
大數(shù)據(jù)技術(shù)已經(jīng)深刻融入我們的日常生活,從個(gè)人消費(fèi)到公共服務(wù),幾乎無(wú)處不在。一、個(gè)性化推薦電商平臺(tái):案例:淘寶、京東的“猜你喜歡”。亞馬遜的個(gè)性化商品推薦。視頻與音樂(lè)平臺(tái):案例:抖音、快手的短視頻推薦。網(wǎng)易云音樂(lè)的每日推薦歌單。新聞與閱讀平臺(tái):案例:今日頭條的新聞推薦。微信讀書(shū)的書(shū)籍推薦。利用大數(shù)據(jù)技術(shù),對(duì)用戶的信息進(jìn)行收集與分析,為用戶推送感興趣的產(chǎn)品,刺激用戶消費(fèi)。傳媒領(lǐng)域抖音、快手等新媒體通過(guò)收集和分析用戶的信息,進(jìn)行分類(lèi)篩選,實(shí)現(xiàn)對(duì)用戶需求的準(zhǔn)確定位,追蹤用戶的瀏覽習(xí)慣,不斷推送用戶感興趣的內(nèi)容。二、智能交通與導(dǎo)航實(shí)時(shí)路況與導(dǎo)航:案例:高德地圖、百度地圖的實(shí)時(shí)路況功能。GoogleMaps的路線規(guī)劃。共享出行:案例:滴滴出行的智能派單系統(tǒng)。共享單車(chē)(如摩拜、哈啰)的車(chē)輛調(diào)度。智能交通管理:案例:智慧城市中的交通信號(hào)燈自適應(yīng)系統(tǒng)。城市交通擁堵預(yù)測(cè)與疏導(dǎo)。三、健康與醫(yī)療智能穿戴設(shè)備:案例:蘋(píng)果手表(AppleWatch)的心率監(jiān)測(cè)與預(yù)警。小米手環(huán)的睡眠分析。疾病預(yù)測(cè)與診斷:案例:IBMWatson的癌癥診斷輔助系統(tǒng)?;诖髷?shù)據(jù)的流行病預(yù)測(cè)模型(如流感預(yù)測(cè))。個(gè)性化健康管理:案例:Keep的運(yùn)動(dòng)計(jì)劃推薦。薄荷健康的飲食管理。大數(shù)據(jù)是AI的基礎(chǔ),AI是以大數(shù)據(jù)作為機(jī)器學(xué)習(xí)的訓(xùn)練集,從而訓(xùn)練出擁有一定決策能力的人工智能。例:Deepseek:算法的改進(jìn)和優(yōu)化,節(jié)省了算力和數(shù)據(jù)量;OpenAI公司的ChatGPT;百度的文心一言;字節(jié)跳動(dòng)的豆包。人工智能教育學(xué)習(xí)智能家居金融服務(wù)娛樂(lè)社交智慧城市其它應(yīng)用引例怎么能最快速統(tǒng)計(jì)出咱們所在城市居民的男女比例?抽樣統(tǒng)計(jì):大數(shù)據(jù)技術(shù):從樣本數(shù)據(jù)統(tǒng)計(jì)發(fā)展到全量數(shù)據(jù)統(tǒng)計(jì),這就是一個(gè)大數(shù)據(jù)應(yīng)用的簡(jiǎn)單例子。課程考核本課程教學(xué)時(shí)數(shù)56學(xué)時(shí)本課程為考查課總評(píng)成績(jī):考勤:10%課堂成績(jī)(課堂提問(wèn)及隨堂實(shí)驗(yàn)等):20%課后作業(yè):10%期末隨堂測(cè)試成績(jī):60%
不要遲到,曠課,早退(遲到一次扣1分,曠課一次扣3分,早退一次扣2分)帶齊教材、筆、本子課堂禁用手機(jī)
課堂紀(jì)律參考教材:[1]黃史浩.大數(shù)據(jù)原理與技術(shù)[M].北京:人民郵電出版社,
2018.[2]朱潔,羅華霖.
大數(shù)據(jù)架構(gòu)詳解:從數(shù)據(jù)獲取到深度學(xué)習(xí)[M]北京:電子工業(yè)出版社,2016.[3][美]TomWhite著王海,華東,劉喻,呂粵海譯.Hadoop權(quán)威指南:大數(shù)據(jù)的存儲(chǔ)與分析(第4版)[M].北京:清華大學(xué)出版社,2017.課程概述課程講授內(nèi)容第一章大數(shù)據(jù)理論基礎(chǔ)第二章大數(shù)據(jù)軟件相關(guān)基礎(chǔ)第三章大數(shù)據(jù)采集組件第四章大數(shù)據(jù)存儲(chǔ)組件第五章
大數(shù)據(jù)計(jì)算和處理組件第六章大數(shù)據(jù)增強(qiáng)與協(xié)調(diào)組件第七章大數(shù)據(jù)綜合案例課程目標(biāo):培養(yǎng)學(xué)生具備大數(shù)據(jù)平臺(tái)的規(guī)劃設(shè)計(jì)、部署實(shí)施、運(yùn)維管理能力。工作崗位:大數(shù)據(jù)技術(shù)助理工程師、大數(shù)據(jù)開(kāi)發(fā)者、大數(shù)據(jù)平臺(tái)管理員等??傮w學(xué)習(xí)思路
理論+
實(shí)戰(zhàn)第一章大數(shù)據(jù)理論基礎(chǔ)
本章主要講述大數(shù)據(jù)的基本定義原理、處理流程、Hadoop和FusionInsightHD等相關(guān)內(nèi)容大數(shù)據(jù)的相關(guān)基礎(chǔ)知識(shí)大數(shù)據(jù)的定義大數(shù)據(jù)的處理流程大數(shù)據(jù)行業(yè)的挑戰(zhàn)大數(shù)據(jù)的行業(yè)應(yīng)用與基礎(chǔ)大數(shù)據(jù)的框架結(jié)構(gòu)大數(shù)據(jù)基礎(chǔ)大數(shù)據(jù)定義大數(shù)據(jù)處理流程2.大數(shù)據(jù)行業(yè)發(fā)展3.大數(shù)據(jù)框架大數(shù)據(jù)時(shí)代背景21世紀(jì)是數(shù)據(jù)信息大發(fā)展的時(shí)代,移動(dòng)互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大地?cái)U(kuò)展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍。各種數(shù)據(jù)正在迅速膨脹并增大?;ヂ?lián)網(wǎng)如社交、搜索、電商,移動(dòng)互聯(lián)網(wǎng)如微信、微博,物聯(lián)網(wǎng)如傳感器、智慧地球,車(chē)聯(lián)網(wǎng),GPS,安全監(jiān)控,金融等都在瘋狂產(chǎn)生數(shù)據(jù)。為什么2010年后數(shù)據(jù)量出現(xiàn)陡增?智能手機(jī)+社交媒體+云計(jì)算
無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。什么是大數(shù)據(jù)?
大數(shù)據(jù)的基本定義大數(shù)據(jù)(bigdata),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。——百度百科大數(shù)據(jù)(BigData),即為當(dāng)人們處理某數(shù)據(jù)集所需要的時(shí)間超過(guò)了人們所能容忍的時(shí)間范圍時(shí),則稱該數(shù)據(jù)集為大數(shù)據(jù)?!S基百科大數(shù)據(jù)的4v定義Volume:大數(shù)據(jù)的第一個(gè)核心特點(diǎn)就是需要保證的就是有足夠多的數(shù)據(jù),數(shù)據(jù)的體量在分析時(shí)所需要的時(shí)間是超過(guò)常規(guī)所能容忍的限度的。Variety:大數(shù)據(jù)的第二個(gè)核心的特點(diǎn)就是數(shù)據(jù)類(lèi)型繁多,從結(jié)構(gòu)化數(shù)據(jù)到非結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)可以說(shuō)基本囊括了當(dāng)前所有的類(lèi)型的數(shù)據(jù)。Velocity:大數(shù)據(jù)的第三個(gè)特點(diǎn)就是數(shù)據(jù)處理速度快,雖然大數(shù)據(jù)引擎體量巨大,類(lèi)型繁多,但是我們?nèi)匀恍枰WC快速的完成計(jì)算和反饋的任務(wù)。(1s定律)Value:大數(shù)據(jù)的第四個(gè)特點(diǎn)就是價(jià)值密度較低的,例如,監(jiān)控視頻每天會(huì)產(chǎn)生大量的數(shù)據(jù),但是,最終有意義的視頻只有當(dāng)出現(xiàn)事故或者其他情況的時(shí)候產(chǎn)生的數(shù)據(jù)。所以,大數(shù)據(jù)本身的高價(jià)值性,是需要從海量數(shù)據(jù)中找尋到有價(jià)值的這部分?jǐn)?shù)據(jù)而定義的。大數(shù)據(jù)的4v定義大數(shù)據(jù)基礎(chǔ)大數(shù)據(jù)定義大數(shù)據(jù)處理流程大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)2.大數(shù)據(jù)行業(yè)發(fā)展3.大數(shù)據(jù)框架大數(shù)據(jù)處理流程
數(shù)據(jù)獲取數(shù)據(jù)獲?。鹤鳛榇髷?shù)據(jù)引擎,如果需要對(duì)數(shù)據(jù)進(jìn)行操作,首先要有一個(gè)穩(wěn)定的數(shù)據(jù)源提供數(shù)據(jù),所以數(shù)據(jù)的來(lái)源與獲取就成為了最初的大數(shù)據(jù)的相關(guān)需求。數(shù)據(jù)獲取主要負(fù)責(zé)從數(shù)據(jù)源進(jìn)行數(shù)據(jù)的采集工作,將外部數(shù)據(jù)采集到本地。數(shù)據(jù)獲取主要由Flume日志采集系統(tǒng)和Kafka消息訂閱系統(tǒng)實(shí)現(xiàn)。Flume主要對(duì)小規(guī)模的日志數(shù)據(jù)進(jìn)行采集,Kafka是對(duì)大規(guī)模的對(duì)數(shù)據(jù)時(shí)間順序要求比較高的數(shù)據(jù)和應(yīng)用進(jìn)行數(shù)據(jù)采集。數(shù)據(jù)存儲(chǔ)數(shù)據(jù)存儲(chǔ):主要負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)管理和維護(hù)。經(jīng)過(guò)數(shù)據(jù)獲取拉取到大數(shù)據(jù)本地的數(shù)據(jù),首先需要做的就是將數(shù)據(jù)進(jìn)行存儲(chǔ)維護(hù);此時(shí)根據(jù)數(shù)據(jù)的不同,可以將存儲(chǔ)分為文件存儲(chǔ)和數(shù)據(jù)庫(kù)存儲(chǔ),文件存儲(chǔ)需要由HDFS分布式文件系統(tǒng)進(jìn)行維護(hù),數(shù)據(jù)庫(kù)存儲(chǔ)需要由HBase分布式數(shù)據(jù)庫(kù)以及Hive分布式數(shù)據(jù)倉(cāng)庫(kù)維護(hù)。數(shù)據(jù)分析數(shù)據(jù)分析:數(shù)據(jù)存儲(chǔ)并維護(hù)好之后,在本階段就進(jìn)入到應(yīng)用階段,對(duì)海量數(shù)據(jù)的主要應(yīng)用操作會(huì)體現(xiàn)在數(shù)據(jù)分析上,分析主要是指在數(shù)據(jù)統(tǒng)計(jì)(count、select)層面的角度上,對(duì)數(shù)據(jù)進(jìn)行規(guī)律的發(fā)現(xiàn)和找尋。數(shù)據(jù)挖掘數(shù)據(jù)挖掘:數(shù)據(jù)挖掘是大數(shù)據(jù)中的深度分析操作,通過(guò)數(shù)據(jù)挖掘用戶可以構(gòu)建一個(gè)分析模型,通過(guò)對(duì)數(shù)據(jù)進(jìn)行算法挖掘操作,直接得到判斷的規(guī)律,并且將其封裝在一個(gè)模型中,最終使用該模型進(jìn)行數(shù)據(jù)的預(yù)測(cè)。大數(shù)據(jù)基礎(chǔ)大數(shù)據(jù)定義大數(shù)據(jù)處理流程2.大數(shù)據(jù)行業(yè)發(fā)展3.大數(shù)據(jù)框架大數(shù)據(jù)基礎(chǔ)2.大數(shù)據(jù)行業(yè)發(fā)展大數(shù)據(jù)行業(yè)的挑戰(zhàn)大數(shù)據(jù)的行業(yè)應(yīng)用與基礎(chǔ)3.大數(shù)據(jù)框架大數(shù)據(jù)發(fā)展趨勢(shì)大數(shù)據(jù)經(jīng)過(guò)多年的發(fā)展,逐漸走向產(chǎn)業(yè)化、規(guī)?;?。國(guó)內(nèi)骨干企業(yè)已經(jīng)具備了自主開(kāi)發(fā)建設(shè)和運(yùn)維超大規(guī)模大數(shù)據(jù)平臺(tái)的能力,一批大數(shù)據(jù)以及智慧城市方面的獨(dú)角獸企業(yè)快速崛起,大數(shù)據(jù)領(lǐng)域的專(zhuān)利申請(qǐng)數(shù)量逐年增加。我國(guó)大數(shù)據(jù)創(chuàng)新市場(chǎng)競(jìng)爭(zhēng)主體多樣,創(chuàng)新主體主要包括企業(yè)、院校/研究所、個(gè)人和政府機(jī)構(gòu)等類(lèi)型。進(jìn)一步研究發(fā)現(xiàn),企業(yè)和科研院所是大數(shù)據(jù)創(chuàng)新的主力軍,數(shù)據(jù)顯示,2019年,兩者合計(jì)貢獻(xiàn)了9504項(xiàng)專(zhuān)利,占到了全年新增數(shù)量的96.8%,推動(dòng)著中國(guó)經(jīng)濟(jì)社會(huì)發(fā)展和創(chuàng)新市場(chǎng)競(jìng)爭(zhēng)。大數(shù)據(jù)行業(yè)發(fā)展趨勢(shì)隨著產(chǎn)學(xué)研用地協(xié)同攻關(guān),圍繞數(shù)據(jù)分析的關(guān)鍵算法和共性基礎(chǔ)技術(shù)研發(fā),以及大規(guī)模數(shù)據(jù)倉(cāng)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)清洗、數(shù)據(jù)分析挖掘、數(shù)據(jù)可視化、信息安全與大數(shù)據(jù)條件下隱私保護(hù)等核心技術(shù)研發(fā)創(chuàng)新,將逐漸形成以應(yīng)用需求為牽引的跨學(xué)科、跨領(lǐng)域交叉融合的創(chuàng)新方向。數(shù)據(jù)來(lái)源∶2020年大數(shù)據(jù)產(chǎn)業(yè)生態(tài)聯(lián)盟問(wèn)卷調(diào)查,賽迪顧問(wèn)整理,2020.8大數(shù)據(jù)技術(shù)發(fā)展趨勢(shì)機(jī)器學(xué)習(xí)、數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、分布式等均為大數(shù)據(jù)專(zhuān)利技術(shù)領(lǐng)域的熱門(mén)詞匯,我國(guó)大數(shù)據(jù)技術(shù)創(chuàng)新不斷取得突破,這些熱門(mén)技術(shù)分支下的專(zhuān)利申請(qǐng)都是幾乎均呈直線上升的狀態(tài),以數(shù)據(jù)分析服務(wù)技術(shù)為主要代表的大數(shù)據(jù)技術(shù)可以應(yīng)用在各領(lǐng)域,并呈現(xiàn)全面發(fā)展的態(tài)勢(shì)。數(shù)據(jù)來(lái)源∶2020年大數(shù)據(jù)產(chǎn)業(yè)生態(tài)聯(lián)盟問(wèn)卷調(diào)查,賽迪顧問(wèn)整理,2020.8大數(shù)據(jù)在社會(huì)中的應(yīng)用從社會(huì)領(lǐng)域來(lái)說(shuō),未來(lái)大數(shù)據(jù)將會(huì)更多的和5G以及AI技術(shù)相結(jié)合,應(yīng)用在智慧城市和個(gè)人生活中。在金融領(lǐng)域中,智能風(fēng)控、智能監(jiān)督、智能理賠將會(huì)逐漸完善,保證資金投入的回報(bào)以及止損。2020年年初,新冠肺炎疫情爆發(fā),給我國(guó)帶來(lái)了社會(huì)經(jīng)濟(jì)挑戰(zhàn),大數(shù)據(jù)企業(yè)同樣面臨多重困難,從疫情后大數(shù)據(jù)細(xì)分領(lǐng)域未來(lái)機(jī)會(huì)點(diǎn)與業(yè)務(wù)預(yù)測(cè)方面來(lái)看,隨著大數(shù)據(jù)技術(shù)與人工智能、物聯(lián)網(wǎng)、5G等新一代信息技術(shù)深度融合,大數(shù)據(jù)在政務(wù)、應(yīng)急管理、交通運(yùn)輸、健康醫(yī)療、社會(huì)保障等領(lǐng)域應(yīng)用場(chǎng)景不斷豐富。大數(shù)據(jù)基礎(chǔ)2.大數(shù)據(jù)行業(yè)發(fā)展大數(shù)據(jù)行業(yè)的挑戰(zhàn)大數(shù)據(jù)的行業(yè)應(yīng)用與基礎(chǔ)3.大數(shù)據(jù)框架大數(shù)據(jù)國(guó)家政策近年來(lái),國(guó)家大力倡導(dǎo)“新型智慧城市”建設(shè),其內(nèi)容涵蓋無(wú)處不在的惠民服務(wù)、透明高效的在線政府、精細(xì)精準(zhǔn)的城市治理,以及安全可控的運(yùn)行體系等,這些都與大數(shù)據(jù)技術(shù)和產(chǎn)品緊密相關(guān)。國(guó)家信息中心發(fā)布的《新型智慧城市發(fā)展報(bào)告2018-2019》明確指出:“我國(guó)大量城市已經(jīng)從新型智慧城市建設(shè)的準(zhǔn)備期向起步期和成長(zhǎng)期過(guò)渡,處于起步期和成長(zhǎng)期城市從兩年前的占比57.7%增長(zhǎng)到80%,而處于準(zhǔn)備期的城市占比則從42.3%下降到11.6%,許多城市已經(jīng)開(kāi)展了大量工作并取得良好成效,工作重心從整體規(guī)劃向全面落地過(guò)渡,新技術(shù)應(yīng)用驅(qū)動(dòng)新發(fā)展和新變革,數(shù)據(jù)關(guān)鍵要素作用初步顯現(xiàn),多規(guī)融合應(yīng)用逐漸普及,惠民服務(wù)從“能用”到“好用”不斷升級(jí)。大數(shù)據(jù)國(guó)家政策從2016年開(kāi)始,國(guó)家發(fā)改委、工信部、農(nóng)業(yè)部、水利部等部門(mén),以及地方各級(jí)政府都相繼推出了促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的意見(jiàn)和方案,產(chǎn)業(yè)整體發(fā)展環(huán)境持續(xù)優(yōu)化。2016-2017年是大數(shù)據(jù)相關(guān)政策文件出臺(tái)的高峰期。2020年,工信部發(fā)布《關(guān)于工業(yè)大數(shù)據(jù)發(fā)展的指導(dǎo)意見(jiàn)》,著力打造工業(yè)大數(shù)據(jù)生態(tài)。當(dāng)前,大數(shù)據(jù)與人工智能、數(shù)字經(jīng)濟(jì)、智慧城市、數(shù)字治理等融合速度加快,推動(dòng)經(jīng)濟(jì)社會(huì)數(shù)字化轉(zhuǎn)型。數(shù)據(jù)來(lái)源∶2020年大數(shù)據(jù)產(chǎn)業(yè)生態(tài)聯(lián)盟問(wèn)卷調(diào)查,賽迪顧問(wèn)整理,2020.8大數(shù)據(jù)的應(yīng)用領(lǐng)域大數(shù)據(jù)目前已經(jīng)廣泛應(yīng)用于社會(huì)中的各個(gè)行業(yè),在每一個(gè)領(lǐng)域都給人們帶來(lái)便利與幫助,大數(shù)據(jù)的應(yīng)用領(lǐng)域具體總結(jié)如下。電商領(lǐng)域:淘寶、京東等電商平臺(tái)利用大數(shù)據(jù)技術(shù),對(duì)用戶的信息進(jìn)行收集與分析,為用戶不斷推送感興趣的產(chǎn)品,從而刺激用戶的消費(fèi)行為。政府領(lǐng)域:通過(guò)大數(shù)據(jù),政府部門(mén)可以快速得到和預(yù)測(cè)社會(huì)的發(fā)展和變化需求,從而更加科學(xué)的、精準(zhǔn)的、合理的為市民提供相應(yīng)的公共服務(wù)以及資源配置,實(shí)現(xiàn)“智慧城市”在多地的實(shí)行。醫(yī)療領(lǐng)域:通過(guò)大數(shù)據(jù)對(duì)臨床數(shù)據(jù)的對(duì)比、實(shí)時(shí)的數(shù)據(jù)分析和預(yù)測(cè)、遠(yuǎn)程為病人進(jìn)行就診等,輔助醫(yī)生進(jìn)行臨床決策,規(guī)范診療路徑,提高工作效率。大數(shù)據(jù)的應(yīng)用領(lǐng)域傳媒領(lǐng)域:抖音、快手等新媒體通過(guò)收集和分析用戶的信息,進(jìn)行分類(lèi)篩選,實(shí)現(xiàn)對(duì)用戶需求的準(zhǔn)確定位,追蹤用戶的瀏覽習(xí)慣,不斷推送用戶感興趣的內(nèi)容。安防領(lǐng)域:通過(guò)大數(shù)據(jù)可以實(shí)現(xiàn)視頻和圖像的模糊查詢、快速檢索、精準(zhǔn)定位,能夠進(jìn)一步挖掘視頻監(jiān)控?cái)?shù)據(jù)背后的價(jià)值信息,及時(shí)反饋信息輔助用戶決策判斷。金融領(lǐng)域:通過(guò)大數(shù)據(jù),銀行可以根據(jù)用戶的年齡、資產(chǎn)規(guī)模、理財(cái)偏好等,對(duì)用戶進(jìn)行精準(zhǔn)定位,分析出用戶潛在的金融服務(wù)需求。電信領(lǐng)域:電信行業(yè)本身就擁有龐大的數(shù)據(jù),通過(guò)大數(shù)據(jù)技術(shù)可以更加快速的進(jìn)行網(wǎng)絡(luò)管理、客戶關(guān)系管理、企業(yè)運(yùn)營(yíng)管理等。大數(shù)據(jù)的應(yīng)用領(lǐng)域教育領(lǐng)域:通過(guò)大數(shù)據(jù)對(duì)用戶的學(xué)習(xí)能力分析,為用戶建設(shè)一個(gè)個(gè)性化課程,針對(duì)用戶的學(xué)習(xí)習(xí)慣、知識(shí)點(diǎn)掌握程度精準(zhǔn)定位。交通領(lǐng)域:通過(guò)大數(shù)據(jù)技術(shù)可以預(yù)測(cè)未來(lái)一段時(shí)間之內(nèi)的交通情況,為改善交通狀況提供方案,有助于交管部門(mén)提高對(duì)道路交通的把控能力,緩解或提前預(yù)防交通擁堵,為用戶提供更加人性化的服務(wù)。作業(yè)點(diǎn)評(píng)1、20人提交,23人未交2、
安裝時(shí)電腦藍(lán)屏原因:VMware版本問(wèn)題3、
解決方法:/u013669912/article/details/1404521351.大數(shù)據(jù)基礎(chǔ)2.大數(shù)據(jù)行業(yè)發(fā)展3.大數(shù)據(jù)框架大數(shù)據(jù)基本架構(gòu)Hadoop概述Hadoop生態(tài)系統(tǒng)華為大數(shù)據(jù)FusionInsight架構(gòu)概述數(shù)據(jù)存儲(chǔ)介質(zhì)的發(fā)展1946年世界上第一臺(tái)計(jì)算機(jī)ENIAC面世,本質(zhì)上就是為了替代人力對(duì)數(shù)據(jù)進(jìn)行計(jì)算,數(shù)據(jù)也就此第一次出現(xiàn)在歷史中。1951年—1956年,為了保證數(shù)據(jù)可以被電子化的存儲(chǔ),磁帶+卡片作為第一代存儲(chǔ)介質(zhì)面世,受限于當(dāng)時(shí)的技術(shù),數(shù)據(jù)被存儲(chǔ)之后使用的更多是人力管理的模式。1956年—1961年,磁盤(pán)被發(fā)明,對(duì)于數(shù)據(jù)的管理也正式進(jìn)入到了文件管理時(shí)代。早期的數(shù)據(jù)與應(yīng)用是緊密捆綁在文件中,不分彼此的。數(shù)據(jù)庫(kù)技術(shù)的發(fā)展隨著1960年代,IT系統(tǒng)規(guī)模和復(fù)雜度增大,數(shù)據(jù)與應(yīng)用分離的需求開(kāi)始產(chǎn)生,數(shù)據(jù)庫(kù)技術(shù)開(kāi)始萌芽并且蓬勃發(fā)展,1990年數(shù)據(jù)庫(kù)后逐步統(tǒng)一到以關(guān)系型數(shù)據(jù)庫(kù)為主導(dǎo)的模式。在1961年到1991年的30年間。GE公司發(fā)明了第一個(gè)網(wǎng)絡(luò)模型數(shù)據(jù)庫(kù),但是僅限于GE自己的主機(jī),之后隨著數(shù)據(jù)庫(kù)技術(shù)的市場(chǎng)需求和發(fā)展,SQL語(yǔ)言、Oracle關(guān)系型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)也在30年間依次登上歷史舞臺(tái)。分布式計(jì)算的發(fā)展2001年之后互聯(lián)網(wǎng)迅速發(fā)展,數(shù)據(jù)量成倍激增,量變引發(fā)了質(zhì)變,并開(kāi)始對(duì)數(shù)據(jù)關(guān)系提出了越來(lái)越多的要求。從2003年開(kāi)始,Google發(fā)布了論文第一次介紹了分布式計(jì)算,當(dāng)時(shí)的分布式計(jì)算主要是為了實(shí)現(xiàn)對(duì)搜索引擎的功能助力,提升搜索性能。即為Hadoop最早起源的Nutch。Nutch的設(shè)計(jì)目標(biāo)是構(gòu)建一個(gè)大型的全網(wǎng)搜索引擎,包括網(wǎng)頁(yè)抓取、索引、查詢等功能,但隨著抓取網(wǎng)頁(yè)數(shù)量的增加,遇到了嚴(yán)重的可擴(kuò)展性問(wèn)題——如何解決數(shù)十億網(wǎng)頁(yè)的存儲(chǔ)和索引問(wèn)題。Hadoop的出現(xiàn)2003年、2004年Google發(fā)表的三篇論文為該問(wèn)題提供了可行的解決方案。分布式文件系統(tǒng)(GFS),可用于處理海量網(wǎng)頁(yè)的存儲(chǔ);分布式計(jì)算框架MapReduce,可用于處理海量網(wǎng)頁(yè)的索引計(jì)算問(wèn)題;分布式的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)Bigtable,用來(lái)處理海量結(jié)構(gòu)化數(shù)據(jù)。DougCutting基于這三篇論文完成了相應(yīng)的開(kāi)源,實(shí)現(xiàn)了HDFS和MapReduce,并從Nutch中剝離成為獨(dú)立項(xiàng)目Hadoop,到2008年1月,Hadoop成為Apache頂級(jí)項(xiàng)目(同年,Cloudera公司成立),迎來(lái)了它的快速發(fā)展期。1.大數(shù)據(jù)基礎(chǔ)2.大數(shù)據(jù)行業(yè)發(fā)展3.大數(shù)據(jù)框架大數(shù)據(jù)基本架構(gòu)Hadoop概述Hadoop生態(tài)系統(tǒng)華為大數(shù)據(jù)FusionInsight架構(gòu)概述4.大數(shù)據(jù)相關(guān)名詞與概念解釋Hadoop框架組件目前在Hadoop框架中,核心組件共有11個(gè)。11個(gè)組件從功能上,可以劃分為數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析與計(jì)算三個(gè)部分。Hadoop框架組件HDFS:分布式文件系統(tǒng),主要用于存儲(chǔ)和維護(hù)文件。HBase:分布式數(shù)據(jù)庫(kù),主要用于存儲(chǔ)數(shù)據(jù)庫(kù)表格類(lèi)型數(shù)據(jù)。MapReduce:分布式離線計(jì)算引擎,主要負(fù)責(zé)對(duì)海量數(shù)據(jù)進(jìn)行離線長(zhǎng)時(shí)間計(jì)算。Streaming:實(shí)時(shí)流處理計(jì)算技術(shù),主要負(fù)責(zé)進(jìn)行實(shí)時(shí)性低延遲計(jì)算。Kafka:消息訂閱系統(tǒng),負(fù)責(zé)從大數(shù)據(jù)系統(tǒng)外部引入海量數(shù)據(jù)。Yarn:分布式資源協(xié)調(diào)組件,負(fù)責(zé)為所有的計(jì)算引擎分配數(shù)據(jù)分析和數(shù)據(jù)挖掘所需的CPU和內(nèi)存資源。Hadoop框架組件Spark:基于內(nèi)存的分布式計(jì)算引擎,用于對(duì)海量數(shù)據(jù)進(jìn)行快速低延遲的計(jì)算。Hive:分布式數(shù)據(jù)倉(cāng)庫(kù),主要用于存儲(chǔ)歷史性的數(shù)據(jù),進(jìn)行基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析或進(jìn)行歷史性數(shù)據(jù)的歸檔和查詢。Flink:流計(jì)算處理和批處理平臺(tái),F(xiàn)link兼?zhèn)淞藢?shí)時(shí)計(jì)算和離線計(jì)算兩種引擎的功能,是目前最常用的大數(shù)據(jù)計(jì)算平臺(tái)之一。Flume:海量日志聚合平臺(tái),在采集日志數(shù)據(jù)或者數(shù)量級(jí)較小的數(shù)據(jù)時(shí)使用。ZooKeeper:集群分布式協(xié)調(diào)服務(wù),在集群出現(xiàn)數(shù)據(jù)丟失、節(jié)點(diǎn)損壞、數(shù)據(jù)不一致等情況時(shí),Zookeeper負(fù)責(zé)對(duì)集群的一致性和安全性進(jìn)行保護(hù)與協(xié)調(diào)。1.大數(shù)據(jù)基礎(chǔ)2.大數(shù)據(jù)行業(yè)發(fā)展3.大數(shù)據(jù)框架大數(shù)據(jù)基本架構(gòu)Hadoop概述Hadoop生態(tài)系統(tǒng)華為大數(shù)據(jù)FusionInsight架構(gòu)概述4.大數(shù)據(jù)相關(guān)名詞與概念解釋FusionInsight產(chǎn)品族概述華為大數(shù)據(jù)軟件系統(tǒng)FusionInsight由以下子產(chǎn)品構(gòu)成華為大數(shù)據(jù)平臺(tái)(FusionInsightHD)華為數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)(FusionInsightLibrA)(已獨(dú)立并更新為GaussDB系列產(chǎn)品)華為數(shù)據(jù)挖掘平臺(tái)(FusionInsightMiner)華為大數(shù)據(jù)二次開(kāi)發(fā)平臺(tái)(FusionInsightFarmer)華為大數(shù)據(jù)操作運(yùn)維系統(tǒng)(FusionInsightManager)FusionInsight產(chǎn)品介紹FusionInsightHD:企業(yè)級(jí)的大數(shù)據(jù)處理環(huán)境,是一個(gè)分布式數(shù)據(jù)處理系統(tǒng),對(duì)外提供大容量的數(shù)據(jù)存儲(chǔ)、分析查詢和實(shí)時(shí)流式數(shù)據(jù)處理分析能力。是基于Hadoop開(kāi)源框架的二次開(kāi)發(fā)優(yōu)化產(chǎn)品。FusionInsightLibrA:企業(yè)級(jí)的大規(guī)模并行處理關(guān)系型數(shù)據(jù)庫(kù)。(現(xiàn)已獨(dú)立為華為GaussDB)FusionInsightLibrA采用MPP(MassiveParallelProcessing)架構(gòu),支持行存儲(chǔ)和列存儲(chǔ),提供PB(Petabyte,2的50次方字節(jié))級(jí)別數(shù)據(jù)量的處理能力。FusionInsight產(chǎn)品介紹FusionInsightMiner:企業(yè)級(jí)的數(shù)據(jù)分析平臺(tái),基于華為FusionInsightHD的分布式存儲(chǔ)和并行計(jì)算技術(shù),提供從海量數(shù)據(jù)中挖掘出價(jià)值信息的平臺(tái)。FusionInsightFarmer:企業(yè)級(jí)的大數(shù)據(jù)應(yīng)用容器,為企業(yè)業(yè)務(wù)提供統(tǒng)一開(kāi)發(fā)、運(yùn)行和管理的平臺(tái)。FusionInsightManager:企業(yè)級(jí)大數(shù)據(jù)的操作運(yùn)維系統(tǒng),提供高可靠、安全、容錯(cuò)、易用的集群管理能力,支持大規(guī)模集群的安裝部署、監(jiān)控、告警、用戶管理、權(quán)限管理、審計(jì)、服務(wù)管理、健康檢查、問(wèn)題定位、升級(jí)和補(bǔ)丁等功能。FusionInsight產(chǎn)品介紹目前的FusionInsight分為以上介紹的幾大平臺(tái),簡(jiǎn)潔來(lái)說(shuō),Miner負(fù)責(zé)數(shù)據(jù)分析,搭建在HD之上。HD是底層平臺(tái),集成了hadoop生態(tài)圈的各大組件,提供了存儲(chǔ)和分布式計(jì)算的功能。LibrA提供的是并行分布式關(guān)系型數(shù)據(jù)庫(kù),做到了數(shù)據(jù)倉(cāng)庫(kù)的功能。Farmer提供的是三方軟件開(kāi)發(fā)平臺(tái)。Manager提供的是對(duì)各大組件的管理功能,并且集成在各個(gè)組件之中。這幾個(gè)組件從數(shù)據(jù)的收集到整合存儲(chǔ)再到最后的數(shù)據(jù)分析,參與了所有的相關(guān)工作,后邊也會(huì)有其他組件參與工作,共同進(jìn)行協(xié)同計(jì)算。大數(shù)據(jù)其他相關(guān)概念結(jié)構(gòu)化數(shù)據(jù):數(shù)據(jù)能夠以二維表格表示的數(shù)據(jù)。比如表格數(shù)據(jù)和文本數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù):數(shù)據(jù)無(wú)法以二維表格表示的數(shù)據(jù)。比如視頻、音頻等相關(guān)數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù):數(shù)據(jù)具有一定的結(jié)構(gòu)化特征,但是又不能全部按照結(jié)構(gòu)化數(shù)據(jù)去表示的數(shù)據(jù),比如xml后綴的數(shù)據(jù)或者網(wǎng)頁(yè)數(shù)據(jù)。集群:多臺(tái)設(shè)備在邏輯上整合為一臺(tái)設(shè)備向外提供服務(wù)。分布式:將一個(gè)業(yè)務(wù)拆分成多個(gè)部分分給多臺(tái)設(shè)備運(yùn)行講解了大數(shù)據(jù)的定義講解了大數(shù)據(jù)的處理流程講解了大數(shù)據(jù)行業(yè)的挑戰(zhàn)講解了大數(shù)據(jù)的行業(yè)應(yīng)用與基礎(chǔ)講解了大數(shù)據(jù)的框架結(jié)構(gòu)1.以下哪個(gè)不是大數(shù)據(jù)的4v定義?速度快巨量化價(jià)值低價(jià)值密度低2.(多選)大數(shù)據(jù)處理的基礎(chǔ)流程包括哪些?A. 數(shù)據(jù)獲取B. 數(shù)據(jù)存儲(chǔ)C. 數(shù)據(jù)分析D. 數(shù)據(jù)挖掘
學(xué)習(xí)推薦華為在線學(xué)習(xí):/cn/華為認(rèn)證-華為人才在線:/cn/talent/#/cert參考資料華為大數(shù)據(jù)認(rèn)證:/cn/talent/#/cert/product-details?certifiedProductId=327&authenticationLevel=CTYPE_CARE_HCIA&technicalField=PSC&version=3.0百度百科:/item/謝謝66配色色系表RGB255/187/87RGB250/211/187RGB254/238/193RGB226/243/252RGB190/233/238RGB
153/54/54RGB
242/137/68RGB
253/211/81RGB
129/193/95RGB
86/196/210RGB
127/0/1RGB
237/109/0RGB
52/200/0RGB
98/178/48RGB
48/181/197RGB137/137/137RGB255/255/255RGB89/87/87RGB221/221/221RGB
35/24/21RGB181/181/181大數(shù)據(jù)軟件基礎(chǔ)Linux操作系統(tǒng)基礎(chǔ)本章主要講述大數(shù)據(jù)相關(guān)的Linux的基本技術(shù)原理通過(guò)學(xué)習(xí)本節(jié)將能夠?qū)W習(xí)Linux技術(shù)原理。通過(guò)本節(jié)學(xué)習(xí)可以掌握:熟悉Linux操作系統(tǒng)的基本操作用戶:1.能夠登陸操作系統(tǒng)2.不同的用戶不同的身份,可以進(jìn)行很好控制組:方便管理用戶,權(quán)限分配方面將想要具備相同權(quán)限的用戶,加入一個(gè)組,再給組設(shè)置權(quán)限
本地用戶和組組的分類(lèi):基本組附加組(從屬組)Linux中一個(gè)用戶必須至少屬于一個(gè)組基本組:創(chuàng)建新用戶時(shí)由linux創(chuàng)建而成并加入,與用戶名同名本地用戶和組語(yǔ)法格式:useradd選項(xiàng)用戶名常用選項(xiàng):-u自定義用戶uiduseradd-uuid用戶名示例:創(chuàng)建用戶管理員root的uid:永遠(yuǎn)為0普通用戶uid:默認(rèn)從1000起始系統(tǒng)程序用戶UID范圍:1-999創(chuàng)建用戶-d指定家目錄路徑(不指定則默認(rèn)放到/home)useradd-d家目錄用戶名示例:創(chuàng)建用戶-s登錄Shell(登錄解釋器程序,不指定則默認(rèn)/bin/bash)useradd-s/解釋器路徑用戶名示例:創(chuàng)建用戶-G指定附加組(新建用戶默認(rèn)是沒(méi)有附加組的)useradd-G附加組用戶名 #新建用戶并加入指定附加組[root@server0~]#useradd-Gstudenttest03創(chuàng)建用戶查看用戶信息id用戶名臨時(shí)切換用戶su-用戶名管理用戶所有用戶基本信息存放在/etc/passwd文件每一個(gè)用戶占用,一行信息root:x:0:0:root:/root:/bin/bash用戶名:密碼占位符:UID:基本組的GID:用戶的描述信息(可以為空):用戶的家目錄:解釋器所有用戶密碼存放在/etc/shadowroot:$6$UiGI4Tc2$htsXfYUfS/vBn2JgtdsMjyquqvKAmf1:16261:0:99999:7:::用戶名:密碼加密字符串:上一次修改密碼的時(shí)間戳(自1970-1-1到上一次修改密碼的時(shí)間經(jīng)過(guò)的天數(shù))管理用戶交互式密碼設(shè)置root設(shè)置密碼passwd用戶名普通用戶設(shè)置密碼passwd管理用戶非交互式密碼設(shè)置echo密碼|passwd--stdin用戶名示例:管理用戶usermod選項(xiàng)用戶名常用選項(xiàng)-u
用戶uid-d
用戶家目錄,//只會(huì)修改/etc/passwd文件中的家目錄對(duì)應(yīng)字段,不會(huì)
創(chuàng)建相應(yīng)文件夾作為家目錄-s
登錄Shell設(shè)置用戶屬性刪除用戶userdel[選項(xiàng)]用戶名選項(xiàng)-r
連同家目錄一并刪除設(shè)置用戶屬性新建組groupadd[選項(xiàng)]組名示例:groupaddtestgroup管理組/etc/group文件用于存放組信息testgroup:x:1004:test03組名:組的密碼占位符:組的gid標(biāo)識(shí):組的成員列表(可以為空)選項(xiàng)-g
指定組id管理組組管理gpasswd-a用戶名組名
#添加用戶到組gpasswd-d用戶名組名
#從組刪除用戶刪除組groupdel組名示例:groupdeltestgroup管理組ls格式用法:ls[選項(xiàng)][文檔路徑]作用:列出文檔的信息常用選項(xiàng):-l 以長(zhǎng)格式顯示,顯示詳細(xì)屬性-h 與-l一起用,用易讀的單位顯示-d 與-l一起用,顯示目錄本身(而不是內(nèi)容的)詳細(xì)屬性-A 顯示目錄的所有的內(nèi)容,包括以.開(kāi)頭的隱藏文件文檔管理常用命令cd格式用法:cd[目錄路徑]作用:用于切換工作路徑常用用法:cd- 命令返回到上一次所處的目錄cd.. 命令進(jìn)入上級(jí)目錄,以及使用cd~ 命令切換到當(dāng)前用戶的家目錄文檔管理常用命令. 當(dāng)前目錄.. 父目錄(上一層目錄)cp格式用法:cp[選項(xiàng)]/源文檔路徑/目標(biāo)路徑作用:復(fù)制文檔到目標(biāo)路徑常用命令選項(xiàng)-r:遞歸,復(fù)制目錄時(shí)必須要有這個(gè)選項(xiàng)文檔管理常用命令cp命令常見(jiàn)問(wèn)題及用法:1.
解決復(fù)制時(shí)詢問(wèn)是否覆蓋:示例:文檔管理常用命令2.
復(fù)制可以支持兩個(gè)以上的參數(shù)永遠(yuǎn)把最后一個(gè)參數(shù)作為目標(biāo),其他的所有參數(shù)都做為源文檔示例:(把/etc/fstab和/etc/shadow復(fù)制到/opt/)文檔管理常用命令3.復(fù)制與.連用示例:(將/mnt復(fù)制到當(dāng)前路徑下)文檔管理常用命令4.復(fù)制時(shí)可以重新命名cp/etc/redhat-release/opt/abc示例:(將/etc/redhat-release復(fù)制到/opt并重命名為abc)文檔管理常用命令mv格式用法:mv原文件路徑目標(biāo)路徑作用:移動(dòng)(windows-剪切)常見(jiàn)用法重命名:路徑不變的移動(dòng)示例:文檔管理常用命令rm格式用法:rm[選項(xiàng)]文檔路徑作用:刪除文件或目錄常用命令選項(xiàng)-r 遞歸刪除(含目錄) //遞歸:目錄本身以及目錄下所有-f 強(qiáng)制刪除(不出現(xiàn)提示,直接刪除)注意:刪除多級(jí)目錄時(shí)會(huì)出現(xiàn)多次提示,可用rm-rf強(qiáng)制刪除文檔管理常用命令cat格式用法:cat[選項(xiàng)][文件]作用:查看文本內(nèi)容比較少的文件常用選項(xiàng)-n 給文本加上行序號(hào)文檔管理常用命令touch格式用法:touch[文件名]作用:創(chuàng)建空白文件示例:文檔管理常用命令mkdir格式用法:mkdir[目錄名]作用:創(chuàng)建空白的目錄常用選項(xiàng)-p 遞歸創(chuàng)建子文件夾//文檔:代表目錄和文件文檔管理常用命令find格式用法:find搜索路徑條件1選項(xiàng)條件2...作用:根據(jù)預(yù)設(shè)的條件遞歸查找對(duì)應(yīng)的文件常用選項(xiàng):-a:查找條件為條件1和條件2(多個(gè)條件情況下省略默認(rèn)為-a)-o:查找條件為條件1或條件2(多個(gè)條件情況下省略默認(rèn)為-a)文檔管理常用命令-type按類(lèi)型查找(f文本文件,d目錄,l快捷方式)格式:find/路徑/目錄-typef或d或l-name或-iname(-iname忽略大小寫(xiě))按名字查找:支持通配符格式:find/路徑/目錄-name或-iname"文檔名"-size按大小查找(+大于,-小于單位kMG)格式:find/路徑/目錄-szie+或-Nk或M或G##N代表數(shù)量文檔管理常用命令-user按文檔的所有者查找格式:find/路徑/目錄-user用戶名-group按文檔的所屬組查找格式:find/路徑/目錄-group所屬組-maxdepth限制find的查找深度(最大層數(shù))格式:find......-maxdepth層數(shù)文檔管理常用命令-exec對(duì)查找結(jié)果進(jìn)行處理格式:find......-exec處理命令{}\##{}代表find的每一個(gè)查詢結(jié)果,遇到\;結(jié)束示例:文檔管理常用命令-mtime按文件修改時(shí)間查找-mtime+N 查找N天之前-mtime-N 查找最近N天之內(nèi)格式:find/路徑/目錄-mtime+N或-N或N4|<-->|-4+4 |---------------------------><-------------|<------|------|------|------|------|------|------|654321現(xiàn)在文檔管理常用命令基本權(quán)限的類(lèi)別訪問(wèn)方式(權(quán)限)讀取r------read:允許查看內(nèi)容寫(xiě)入w------write:允許修改內(nèi)容可執(zhí)行x----execute:允許運(yùn)行和切換權(quán)限使用對(duì)象所有者u------user:擁有此文件/目錄的用戶所屬組g------group:擁有此文件/目錄的組其他用戶o----other:除所有者,所有組以外的用戶文檔的權(quán)限對(duì)于文本文件: r----catlessheadtail w---vim>>> x----Shell腳本可以運(yùn)行 對(duì)于目錄:r----ls瀏覽目錄內(nèi)容w---rm,mv,cp,mkdir,touch等更改目錄內(nèi)容(不包括更改目錄本身屬性)x----cd切換到此目錄文檔的權(quán)限若對(duì)父目錄無(wú)權(quán)限,對(duì)子目錄及子文件有權(quán)限也無(wú)意義Linux中如何判斷用戶權(quán)限:第一步:判斷用戶的角色判斷優(yōu)先級(jí):所有者>所屬組>其他用戶遵循'匹配及停止'原則(一旦匹配到了即停止,不會(huì)再判斷低優(yōu)先級(jí)的角色關(guān)系)文檔的權(quán)限第二步:判斷文檔的權(quán)限歸屬關(guān)系[root@server0~]#ls-ld/testdir/d---r--rwx.2studentroot238月711:11/testdir/#student為所有者,權(quán)限為---,反而其他用戶權(quán)限更高為rwx第二步:查看相應(yīng)權(quán)限位置的權(quán)限設(shè)置文檔的權(quán)限所有普通用戶無(wú)法運(yùn)行chmod命令只有管理員root才能運(yùn)行設(shè)置基本權(quán)限格式:chmod歸屬關(guān)系+或-或=權(quán)限類(lèi)別/文檔chmodo+w/test #為其他用戶o添加寫(xiě)入權(quán)限wchmodu-w/test #為所有者u刪除寫(xiě)入權(quán)限wchmodg=---/test #把所屬組g權(quán)限設(shè)置為無(wú)---chmodu=r/test #把所有者u權(quán)限設(shè)置為只讀rchmodugo=rwx/test #把ugo權(quán)限都設(shè)置為rwxchmodu-x,g-x,o-x/test #為所有者u所屬組g其他用戶o刪除可執(zhí)行權(quán)限chmodugo-x/test #為所有者u所屬組g其他用戶o刪除可執(zhí)行權(quán)限chmodu=rwx,g=rx,o=-/test #設(shè)置文檔權(quán)限為rwxr-x---文檔的權(quán)限常用選項(xiàng)-R
遞歸設(shè)置(包含目錄本身及目錄下所有文檔一起設(shè)置權(quán)限)示例:文檔的權(quán)限chown所有者/文檔 #更改文檔所有者chown:所屬組/文檔 #更改文檔所屬組chown所有者:所屬組/文檔 #同時(shí)更改文檔所有者及所屬組選項(xiàng)-R:遞歸設(shè)置(包含目錄本身及目錄下所有文檔一起設(shè)置文檔歸屬)文檔的權(quán)限管理員root的拷貝cp會(huì)把拷貝的復(fù)制品文檔所有者及所屬組變?yōu)閞oot使用vim創(chuàng)建或修改文件vim文本編輯器格式:vim/目錄/文件名若目標(biāo)文件不存在,則新建空文件并編輯若目標(biāo)文件已存在,則打開(kāi)此文件并編輯vim模式:命令模式,輸入模式(插入模式或編輯模式),末行模式VIM編輯工具的使用[root@localhost/]#vim/root/test.txti鍵命--------------------->輸入模式(按Esc鍵回到命令模式)令模式--------------------->末行模式(按Esc鍵回到命令模式):鍵VIM編輯工具的使用末行模式:wq 保存并退出末行模式:q! 強(qiáng)制不保存并退出查看:VIM編輯工具的使用<命令模式>1.移動(dòng)光標(biāo):鍵盤(pán)上下左右鍵、Home鍵、End鍵2.行間跳轉(zhuǎn):到全文的第一行(1G或gg)、到全文的最后一行(G)、到全文的第10行(10G)3.復(fù)制、粘貼:復(fù)制1行(yy)、復(fù)制3行(3yy)粘貼到光標(biāo)之后(小寫(xiě)p)粘貼到光標(biāo)之后(大寫(xiě)P)VIM編輯器高級(jí)使用技巧4.刪除(實(shí)際為剪切):刪除單個(gè)字符(x或Delete)刪除到行首(d^)、刪除到行尾(d$)刪除1行(dd)、刪除3行(3dd)5.查找關(guān)鍵詞:搜索(/word)切換結(jié)果(n、N)6.撤銷(xiāo)操作:撤銷(xiāo)最近的一次操作(u)取消前一次撤銷(xiāo)操作Ctrl+rVIM編輯器高級(jí)使用技巧命令模式進(jìn)入插入模式幾種不同的快捷鍵:C(大寫(xiě)) 可以刪除光標(biāo)之后,并且進(jìn)入插入模式i 跳到光標(biāo)所在字符前進(jìn)入插入模式a 跳到光標(biāo)所在字符后進(jìn)入插入模式s 刪除光標(biāo)所在字符并進(jìn)入插入模式o 跳到光標(biāo)所在行的后一行并進(jìn)入插入模式VIM編輯器高級(jí)使用技巧<末行模式>1.保存/退出文件操作:保存當(dāng)前文件(:w),放棄編輯并退出(:q!),保存并退出(:wq)2.字符串替換:替換當(dāng)前行第一個(gè)'old'(:s/old/new)替換當(dāng)前行所有的'old'(:s/old/new/g)替換第n-m行所有的'old'(:n,ms/old/new/g)替換全文所有的'old'(:%s/old/new/g)VIM編輯器高級(jí)使用技巧3.開(kāi)關(guān)參數(shù)的控制:顯示行號(hào)(:setnu)關(guān)閉顯示行號(hào)(:setnonu)VIM編輯器高級(jí)使用技巧講解了Linux操作系統(tǒng)的基本操作學(xué)習(xí)推薦華為在線學(xué)習(xí):/cn/華為認(rèn)證-華為人才在線:/cn/talent/#/cert參考資料華為大數(shù)據(jù)認(rèn)證:/cn/talent/#/cert/product-details?certifiedProductId=327&authenticationLevel=CTYPE_CARE_HCIA&technicalField=PSC&version=3.0百度百科:/item/謝謝122配色色系表RGB255/187/87RGB250/211/187RGB254/238/193RGB226/243/252RGB190/233/238RGB
153/54/54RGB
242/137/68RGB
253/211/81RGB
129/193/95RGB
86/196/210RGB
127/0/1RGB
237/109/0RGB
52/200/0RGB
98/178/48RGB
48/181/197RGB137/137/137RGB255/255/255RGB89/87/87RGB221/221/221RGB
35/24/21RGB181/181/181第3章Flume輕量日志采集工具本章主要講述Flume的基本技術(shù)原理通過(guò)學(xué)習(xí)本節(jié)將能夠?qū)W習(xí)Flume輕量日志采集組件的架構(gòu)原理。通過(guò)本節(jié)學(xué)習(xí)可以:Flume定義和概述Flume組件原理Flume高級(jí)特性Flume定義和概述Flume組件原理Flume高級(jí)特性Flume是什么?Flume是流式日志采集工具,F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理并且寫(xiě)到各種數(shù)據(jù)接受方(可定制)的能力,F(xiàn)lume提供從本地文件(spooldirectorysource)、實(shí)時(shí)日志(taildir、exec)、REST消息、Thrift、Avro、Syslog、Kafka等數(shù)據(jù)源上收集數(shù)據(jù)的能力。Flume適用環(huán)境Flume適用于應(yīng)用系統(tǒng)產(chǎn)生的日志采集,采集后的數(shù)據(jù)供上層應(yīng)用分析。Flume不適用于大量數(shù)據(jù)的實(shí)時(shí)數(shù)據(jù)采集(要求低延遲、高吞吐率)。與其他開(kāi)源日志收集工具scribe比較而言,F(xiàn)lume幾乎不用用戶開(kāi)發(fā),scribe需要用戶另外開(kāi)發(fā)client,而Flume每一種數(shù)據(jù)源均有相應(yīng)的source去讀取或者接收數(shù)據(jù)。Flume適用環(huán)境適用環(huán)境:提供從固定目錄下采集日志信息到目的地(HDFS,HBase,Kafka)能力。提供實(shí)時(shí)采集日志信息(taildir)到目的地的能力。Flume支持級(jí)聯(lián)(多個(gè)Flume對(duì)接起來(lái)),合并數(shù)據(jù)的能力。同時(shí)支持按照用戶定制采集數(shù)據(jù)的能力。Flume定義和概述Flume組件原理Flume高級(jí)特性Flume的外部結(jié)構(gòu)數(shù)據(jù)發(fā)生器(如:facebook,twitter)產(chǎn)生的數(shù)據(jù)被單個(gè)的運(yùn)行在數(shù)據(jù)發(fā)生器所在服務(wù)器上的agent所收集,之后數(shù)據(jù)收容器從各個(gè)agent(客戶端,數(shù)據(jù)的實(shí)際產(chǎn)生單位)上匯集數(shù)據(jù)并將采集到的數(shù)據(jù)存入到HDFS或者HBase中Flume事件事件(event)作為Flume內(nèi)部數(shù)據(jù)傳輸?shù)淖罨締卧?它是由一個(gè)轉(zhuǎn)載數(shù)據(jù)的字節(jié)數(shù)組和一個(gè)可選頭部構(gòu)成。典型的Flume事件如下面結(jié)構(gòu)所示:event將傳輸?shù)臄?shù)據(jù)進(jìn)行封裝,如果是文本文件,通常是一行記錄,event也是事務(wù)的基本單位。FlumeAgentFlume內(nèi)部有一個(gè)或者多個(gè)Agent,然而對(duì)于每一個(gè)Agent來(lái)說(shuō),它就是一獨(dú)立的守護(hù)進(jìn)程(JVM)。它從客戶端接收、收集數(shù)據(jù),或者從其他的Agent接收數(shù)據(jù),然后迅速的將獲取的數(shù)據(jù)傳給下一個(gè)目的節(jié)點(diǎn)sink或者其他下游agent。Agent主要由三部分構(gòu)成:Source、Channel和Sink,如圖所示:FlumeSourceSource負(fù)責(zé)接收events或通過(guò)特殊機(jī)制產(chǎn)生events,并將events批量放到一個(gè)或多個(gè)Channels。有驅(qū)動(dòng)和輪詢2種類(lèi)型的Source。驅(qū)動(dòng)型source:是外部主動(dòng)發(fā)送數(shù)據(jù)給Flume,驅(qū)動(dòng)Flume接受數(shù)據(jù)。輪詢source:是Flume周期性主動(dòng)去獲取數(shù)據(jù)。Source必須至少和一個(gè)channel關(guān)聯(lián)。FlumeChannelChannel位于Source和Sink之間,Channel的作用類(lèi)似隊(duì)列,用于臨時(shí)緩存進(jìn)來(lái)的events,當(dāng)Sink成功地將events發(fā)送到下一跳的channel或最終目的,events從Channel移除。不同的Channel提供的持久化水平也是不一樣的:MemoryChannel:不會(huì)持久化。FileChannel:基于WAL(預(yù)寫(xiě)式日志W(wǎng)rite-AheadLog)實(shí)現(xiàn)。JDBCChannel:基于嵌入式Database實(shí)現(xiàn)。Sink負(fù)責(zé)將events傳輸?shù)较乱惶蜃罱K目的,成功完成后將events從channel移除。Sink必須作用于一個(gè)確切的channel。Sink
Flume定義和概述Flume組件原理Flume高級(jí)特性Flume支持采集日志文件Flume支持將集群外的日志文件采集并歸檔到HDFS、HBase、Kafka上,供上層應(yīng)用對(duì)數(shù)據(jù)分析、清洗數(shù)據(jù)使用。Flume支持多級(jí)級(jí)聯(lián)和多路復(fù)制Flume支持將多個(gè)Flume級(jí)聯(lián)起來(lái),同時(shí)級(jí)聯(lián)節(jié)點(diǎn)內(nèi)部支持?jǐn)?shù)據(jù)復(fù)制。Flume級(jí)聯(lián)消息壓縮加密Flume級(jí)聯(lián)節(jié)點(diǎn)之間的數(shù)據(jù)傳輸支持壓縮和加密,提升數(shù)據(jù)傳輸效率和安全性。Flume數(shù)據(jù)監(jiān)控Flumesource接受數(shù)據(jù)量、channel緩存數(shù)據(jù)量、sink寫(xiě)入數(shù)據(jù)量,通過(guò)Manager圖形化呈現(xiàn)監(jiān)控指標(biāo)。支持Channel緩存、數(shù)據(jù)發(fā)送、接收失敗告警。Flume傳輸可靠性Flume在傳輸數(shù)據(jù)過(guò)程中,采用事務(wù)管理方式,保證傳輸過(guò)程中數(shù)據(jù)不會(huì)丟失,增強(qiáng)了數(shù)據(jù)傳輸?shù)目煽啃?,同時(shí)緩存在channel中的數(shù)據(jù)如果采用filechannel,進(jìn)程或者節(jié)點(diǎn)重啟數(shù)據(jù)不會(huì)丟失。請(qǐng)簡(jiǎn)述Flume的適用場(chǎng)景?請(qǐng)簡(jiǎn)述Flume的數(shù)據(jù)處理流程?講解了Flume的相關(guān)高級(jí)特性
(多選)以下哪些選項(xiàng)是Flume支持的監(jiān)控指標(biāo)?數(shù)據(jù)量channel緩存數(shù)據(jù)量sink寫(xiě)入數(shù)據(jù)量總處理數(shù)據(jù)量2.以下哪個(gè)選項(xiàng)不是Flume的channel類(lèi)型?A. MemoryChannelB. JDBCChannelC. HDFSChannelFileChannel描述了Flume定義和概述介紹了Flume組件原理講解了Flume高級(jí)特性學(xué)習(xí)推薦華為在線學(xué)習(xí):/cn/華為認(rèn)證-華為人才在線:/cn/talent/#/cert參考資料華為大數(shù)據(jù)認(rèn)證:/cn/talent/#/cert/product-details?certifiedProductId=327&authenticationLevel=CTYPE_CARE_HCIA&technicalField=PSC&version=3.0百度百科:/item/謝謝148配色色系表RGB255/187/87RGB250/211/187RGB254/238/193RGB226/243/252RGB190/233/238RGB
153/54/54RGB
242/137/68RGB
253/211/81RGB
129/193/95RGB
86/196/210RGB
127/0/1RGB
237/109/0RGB
52/200/0RGB
98/178/48RGB
48/181/197RGB137/137/137RGB255/255/255RGB89/87/87RGB221/221/221RGB
35/24/21RGB181/181/181第3章Kafka消息訂閱系統(tǒng)本章主要講述Kafka消息訂閱系統(tǒng)的基本技術(shù)原理通過(guò)學(xué)習(xí)本節(jié)將能夠?qū)W習(xí)Kafka消息訂閱系統(tǒng)的架構(gòu)原理。通過(guò)本節(jié)學(xué)習(xí)可以:Kafka的定義和特點(diǎn)Kafka核心組件與特性Kafka高級(jí)功能概述Kafka簡(jiǎn)介Kafka核心組件與特性Kafka高級(jí)功能概述Kafka是一個(gè)高吞吐、分布式、基于發(fā)布訂閱的消息系統(tǒng),利用Kafka技術(shù)可在廉價(jià)PCServer上搭建起大規(guī)模消息系統(tǒng)。Kafka和其他組件比較,具有消息持久化、高吞吐、分布式、多客戶端支持、實(shí)時(shí)等特性,適用于離線和在線的消息消費(fèi),如常規(guī)的消息收集、網(wǎng)站活性跟蹤、聚合統(tǒng)計(jì)系統(tǒng)運(yùn)營(yíng)數(shù)據(jù)(監(jiān)控?cái)?shù)據(jù))、日志收集等大量數(shù)據(jù)的互聯(lián)網(wǎng)服務(wù)的數(shù)據(jù)收集場(chǎng)景。Kafka介紹消費(fèi)者組(Consumergroup):各個(gè)consumer可以組成一個(gè)組,每個(gè)消息只能被組中的一個(gè)consumer消費(fèi),如果一個(gè)消息可以被多個(gè)consumer消費(fèi)的話,那么這些consumer必須在不同的組。消息狀態(tài):在Kafka中,消息的狀態(tài)被保存在consumer中,broker不會(huì)關(guān)心哪個(gè)消息被消費(fèi)了被誰(shuí)消費(fèi)了,只記錄一個(gè)offset值(指向partition中下一個(gè)要被消費(fèi)的消息位置),這就意味著如果consumer處理不好的話,broker上的一個(gè)消息可能會(huì)被消費(fèi)多次。消息持久化:Kafka中會(huì)把消息持久化到本地文件系統(tǒng)中,并且保持極高的效率。Kafka設(shè)計(jì)思想消息有效期:Kafka會(huì)長(zhǎng)久保留其中的消息,以便consumer可以多次消費(fèi),當(dāng)然其中很多細(xì)節(jié)是可配置的。批量發(fā)送:Kafka支持以消息集合為單位進(jìn)行批量發(fā)送,以提高push效率。數(shù)據(jù)推送與抽?。╬ush-and-pull):Kafka中的Producer和consumer采用的是push-and-pull模式,即Producer只管向brokerpush消息,consumer只管從brokerpull消息,兩者對(duì)消息的生產(chǎn)和消費(fèi)是異步的。Kafka設(shè)計(jì)思想
Kafka應(yīng)用場(chǎng)景簡(jiǎn)介Kafka和其他組件比較,具有消息持久化、高吞吐、分布式、多客戶端支持、實(shí)時(shí)等特性,適用于離線和在線的消息消費(fèi),如常規(guī)的消息收集、網(wǎng)站活性跟蹤、聚合統(tǒng)計(jì)系統(tǒng)運(yùn)營(yíng)數(shù)據(jù)(監(jiān)控?cái)?shù)據(jù))、日志收集等大量數(shù)據(jù)的互聯(lián)網(wǎng)服務(wù)的數(shù)據(jù)收集場(chǎng)景。Kafka特點(diǎn)Kafka簡(jiǎn)介Kafka核心組件與特性Kafka高級(jí)功能概述Broker:Kafka集群包含一個(gè)或多個(gè)服務(wù)實(shí)例,這些服務(wù)實(shí)例被稱為Broker。Topic:每條發(fā)布到Kafka集群的消息都有一個(gè)類(lèi)別,這個(gè)類(lèi)別被稱為T(mén)opic。Partition:Kafka將Topic分成一個(gè)或者多個(gè)Partition,每個(gè)Partition在物理上對(duì)應(yīng)一個(gè)文件夾,該文件夾下存儲(chǔ)這個(gè)Partition的所有消息。Producer:負(fù)責(zé)發(fā)布消息到KafkaBroker。Consumer:消息消費(fèi)者,從KafkaBroker讀取消息的客戶端。ConsumerGroup:每個(gè)Consumer屬于一個(gè)特定的ConsumerGroupKafka基本概念Kafka拓?fù)鋱D每條發(fā)布到Kafka的消息都有一個(gè)類(lèi)別,這個(gè)類(lèi)別被稱為T(mén)opic,也可以理解為一個(gè)存儲(chǔ)消息的隊(duì)列。KafkaTopics每個(gè)Topic都有一個(gè)或者多個(gè)Partitions構(gòu)成。每個(gè)Partition都是有序且不可變的消息隊(duì)列。引入Partition機(jī)制,保證了Kafka的高吞吐能力。KafkaPartitionTopic的Partition數(shù)量可以在創(chuàng)建時(shí)配置。Partition數(shù)量決定了每個(gè)Consumergroup中并發(fā)消費(fèi)者的最大數(shù)量。ConsumergroupA有兩個(gè)消費(fèi)者來(lái)讀取4個(gè)Partition中數(shù)據(jù);ConsumergroupB有四個(gè)消費(fèi)者來(lái)讀取4個(gè)partition中數(shù)據(jù)。KafkaPartition任何發(fā)布到此Partition的消息都會(huì)被直接追加到log文件的尾部。每條消息在文件中的位置稱為offset(偏移量),offset是一個(gè)long型數(shù)字,它唯一標(biāo)記一條消息。消費(fèi)者通過(guò)(offset、partition、topic)跟蹤記錄。KafkaPartitionoffset副本以分區(qū)為單位。每個(gè)分區(qū)都有各自的主副本和從副本。主副本叫做Leader,從副本叫做Follower,處于同步狀態(tài)的副本叫做In-SyncReplicas(ISR)。Follower通過(guò)拉取的方式從Leader中同步數(shù)據(jù)。消費(fèi)者和生產(chǎn)者都是從Leader中讀寫(xiě)數(shù)據(jù),不與Follower交互。KafkaPartitionReplicasKafka簡(jiǎn)介Kafka核心組件與特性Kafka高級(jí)功能概述為了使得Kafka的吞吐率可以線性提高,Kafka物理上把Topic分成一個(gè)或多個(gè)Partition,每個(gè)Partition在物理上對(duì)應(yīng)一個(gè)文件夾,該文件夾下存儲(chǔ)這個(gè)Partition的所有消息和索引文件。Kafka把Topic中一個(gè)Parition大文件分成多個(gè)小文件段,通過(guò)多個(gè)小文件段,就容易定期清除或刪除已經(jīng)消費(fèi)完文件,減少磁盤(pán)占用。Kafka-logs寫(xiě)數(shù)據(jù)總體流程:Producer連接任意存活的Broker,請(qǐng)求制定Topic、Partition的Leader元數(shù)據(jù)信息,然后直接與對(duì)應(yīng)的Broker直接連接,發(fā)布數(shù)據(jù)。開(kāi)放分區(qū)接口。用戶可以制定分區(qū)函數(shù),使得消息可以根據(jù)Key,發(fā)送到特定Partition。Kafka寫(xiě)數(shù)據(jù)Consumer連接指定TopicPartition所在的LeaderBroker,用主動(dòng)獲取方式從Kafka中獲取消息。Kafka讀數(shù)據(jù)KafkaClusterMirroring是Kafka跨集群數(shù)據(jù)同步方案,通過(guò)Kafka內(nèi)置的MirrorMaker工具來(lái)實(shí)現(xiàn)。源集群向目標(biāo)集群同步數(shù)據(jù),需要目標(biāo)集群建立一個(gè)MirrorMaster進(jìn)程,該進(jìn)程中有兩個(gè)子進(jìn)程,分別為consumer和producer,其中consumer從源集群中進(jìn)行數(shù)據(jù)的讀取工作,然后再通過(guò)producer進(jìn)程將數(shù)據(jù)轉(zhuǎn)存到目標(biāo)集群的Broker進(jìn)程中進(jìn)行存儲(chǔ)。相當(dāng)于有一個(gè)同步進(jìn)程來(lái)進(jìn)行一個(gè)數(shù)據(jù)的轉(zhuǎn)入轉(zhuǎn)出的操作,那么轉(zhuǎn)入轉(zhuǎn)出還是使用的原本的Kafka進(jìn)程中的讀取和寫(xiě)出進(jìn)程。KafkaClusterMirroring請(qǐng)簡(jiǎn)述Kafka的適用場(chǎng)景?請(qǐng)簡(jiǎn)述Topic、Partation、Message的關(guān)系?請(qǐng)簡(jiǎn)述Offset的作用?請(qǐng)簡(jiǎn)述Kafka日志的作用?
以下那個(gè)選項(xiàng)不是Kafka的特點(diǎn)?造價(jià)昂貴高吞吐分布式基于發(fā)布訂閱2.(多選)TopicPartition在Kafka中是并發(fā)單元,通過(guò)設(shè)置Partition數(shù)量,Kafka提供高吞吐量,以下描述正確的是:()A. Partition越多,吞吐量越高桶策略B. Partition越多,打開(kāi)的文件句柄越多C. Partition越多,不可用性增加D. Partition越多,端到端時(shí)延可能增加E. Partition越多,客戶端內(nèi)存需要越多
描述了Kafka的定義和特點(diǎn)講解了Kafka核心組件與特性講解了Kafka高級(jí)功能概述學(xué)習(xí)推薦華為在線學(xué)習(xí):/cn/華為認(rèn)證-華為人才在線:/cn/talent/#/cert參考資料華為大數(shù)據(jù)認(rèn)證:/cn/talent/#/cert/product-details?certifiedProductId=327&authenticationLevel=CTYPE_CARE_HCIA&technicalField=PSC&version=3.0百度百科:/item/謝謝175第4章HDFS分布式文件系統(tǒng)前言本章主要講述HDFS分布式文件系統(tǒng)的基本技術(shù)原理單擊此處添加標(biāo)題通過(guò)學(xué)習(xí)本節(jié)將能夠?qū)W習(xí)HDFS分布式文件系統(tǒng)架構(gòu)原理。01本節(jié)概述HDFS技術(shù)介紹HDFS架構(gòu)設(shè)計(jì)HDFS數(shù)據(jù)保護(hù)機(jī)制熟悉華為云服務(wù)中OBS產(chǎn)品HDFS數(shù)據(jù)組織HDFS數(shù)據(jù)存儲(chǔ)策略02學(xué)習(xí)目標(biāo)目錄01HDFS技術(shù)介紹02HDFS架構(gòu)設(shè)計(jì)03HDFS數(shù)據(jù)保護(hù)機(jī)制04HDFS數(shù)據(jù)組織05HDFS數(shù)據(jù)存儲(chǔ)策略文件系統(tǒng)相關(guān)介紹文件名:在文件系統(tǒng)中,文件名是用于定位存儲(chǔ)位置。0201文件系統(tǒng)定義:文件系統(tǒng)是一種存儲(chǔ)和組織計(jì)算機(jī)數(shù)據(jù)的方法,它使得對(duì)數(shù)據(jù)訪問(wèn)和查找變得容易。數(shù)據(jù)塊(Block):存儲(chǔ)文件的最小單元。對(duì)存儲(chǔ)介質(zhì)劃分了固定的區(qū)域,使用時(shí)按這些區(qū)域分配使用。0403元數(shù)據(jù)(Metadata):保存文件屬性的數(shù)據(jù),如文件名,文件長(zhǎng)度,文件所屬用戶組,文件存儲(chǔ)位置等。元數(shù)據(jù)(補(bǔ)充)1.文件和目錄自身的屬性信息,
例如文件名、目錄名、父目錄信息、文件大小、創(chuàng)建時(shí)間、修改時(shí)間等。2.記錄文件內(nèi)容存儲(chǔ)相關(guān)信息,
例如文件分塊情況、副本個(gè)數(shù)、每個(gè)副本所在的DataNode信息等。3.用于記錄HDFS中所有DataNode的信息,
實(shí)現(xiàn)對(duì)DataNode的管理。從類(lèi)型上講,元數(shù)據(jù)有三類(lèi)重要信息:1.NameNode的本地磁盤(pán)文件:元數(shù)據(jù)鏡像文件(fsimage):保存文件系統(tǒng)的完整元數(shù)據(jù)快照。元數(shù)據(jù)操作日志文件(edits):記錄所有對(duì)文件系統(tǒng)的修改操作。2.DataNode的上報(bào)信息:DataNode定期向NameNode匯報(bào)自身存儲(chǔ)的block信息及狀態(tài)。從來(lái)源上講,元數(shù)據(jù)主要來(lái)源于以下兩部分:文件系統(tǒng)相關(guān)介紹文件系統(tǒng)相關(guān)介紹分布式文件系統(tǒng)分布式文件系統(tǒng)把文件分布存儲(chǔ)到多個(gè)計(jì)算機(jī)節(jié)點(diǎn)上,成千上萬(wàn)的計(jì)算機(jī)節(jié)點(diǎn)構(gòu)成計(jì)算機(jī)集群。目前的分布式文件系統(tǒng)所采用的計(jì)算機(jī)集群都是普通硬件構(gòu)成,這大大降低了硬件開(kāi)銷(xiāo)。定義:分布式文件系統(tǒng)(DistributedFileSystem)是一種通過(guò)網(wǎng)絡(luò)實(shí)現(xiàn)文件在多臺(tái)主機(jī)上進(jìn)行分布式存儲(chǔ)的文件系統(tǒng)。HDFS簡(jiǎn)介HDFS(HadoopDistributedFileSystem)是運(yùn)行在通用硬件(所謂通用硬件就是指軟件對(duì)于底層的硬件平臺(tái)的配置和設(shè)備沒(méi)有需求,可以隨意搭建并且兼容)上的分布式文件系統(tǒng)。HDFS簡(jiǎn)介
流式數(shù)據(jù):
又稱為流數(shù)據(jù),是一組
順序、大量、快速、連續(xù)到
達(dá)的數(shù)據(jù)序列。HDFS支持的主要是大文件流數(shù)據(jù),對(duì)于離散的小文件支持性較弱,尤其是對(duì)延遲比較敏感的應(yīng)用,由于HDFS要支持高吞吐量,所以勢(shì)必要以犧牲延遲作為代價(jià)。HDFS適合做什么?
大文件存儲(chǔ)、流式數(shù)據(jù)訪問(wèn)HDFS不適合做什么?
大量小文件、隨機(jī)寫(xiě)入、低延遲讀取問(wèn)題:HDFS簡(jiǎn)介系統(tǒng)設(shè)計(jì)目標(biāo)1HDFS簡(jiǎn)介系統(tǒng)設(shè)計(jì)目標(biāo)2作業(yè)點(diǎn)評(píng)1、30人提交,14人未交2、本地機(jī)向虛擬機(jī)傳送軟件,放置目錄不對(duì)/root,應(yīng)該為/opt。3
、網(wǎng)絡(luò)配置問(wèn)題。4、對(duì)mkdir,cd,ls,vi等命令使用不熟悉,命令與路徑之間要空格5、很多同學(xué)沒(méi)有安裝完成Hadoop軟件。HDFS應(yīng)用場(chǎng)景HDFS是Hadoop技術(shù)框架中的分布式文件系統(tǒng),對(duì)部署在多臺(tái)獨(dú)立物理機(jī)器上的文件進(jìn)行管理。HDFS可應(yīng)用于以下幾種場(chǎng)景:公安、政府部門(mén)、事業(yè)單位數(shù)據(jù)網(wǎng)站用戶行為數(shù)據(jù)存儲(chǔ)氣象數(shù)據(jù)存儲(chǔ)目錄01HDFS技術(shù)介紹02HDFS架構(gòu)設(shè)計(jì)03HDFS數(shù)據(jù)保護(hù)機(jī)制04HDFS數(shù)據(jù)組織05HDFS數(shù)據(jù)存儲(chǔ)策略HDFS組件構(gòu)成——HDFS在FusionInsight產(chǎn)品的位置HDFS組件構(gòu)成
在大數(shù)據(jù)的組件架構(gòu)中,HDFS提供的是整個(gè)結(jié)構(gòu)最底層的文件存儲(chǔ)功能,它組織了文件形式,將數(shù)據(jù)切分為數(shù)據(jù)塊存儲(chǔ)起來(lái),并且記載和維護(hù)元數(shù)據(jù)。HDFS分為三個(gè)組件:Namenode,Datanode,ClientNameNodeNamenode用于存儲(chǔ)生成元數(shù)據(jù)。
該進(jìn)程是由HDFS調(diào)入到內(nèi)存中運(yùn)行的。NameNode作為元數(shù)據(jù)的維護(hù)進(jìn)程,為了能夠提升整體讀取的效率,將元數(shù)據(jù)的維護(hù)進(jìn)程搭載在內(nèi)存中進(jìn)行運(yùn)行,但是內(nèi)存中的數(shù)據(jù)是易失的,只能用于元數(shù)據(jù)的使用,所以元數(shù)據(jù)還是需要在DataNode中進(jìn)行存儲(chǔ)。
當(dāng)系統(tǒng)啟動(dòng)之后,服務(wù)器會(huì)拉起HDFS進(jìn)程,然后NameNode加載到內(nèi)存中,然后NameNode會(huì)加載元數(shù)據(jù)鏡像文件到自身內(nèi)存中。
Datanode用于存儲(chǔ)實(shí)際的數(shù)據(jù),每個(gè)Datanode會(huì)將自己維護(hù)的數(shù)據(jù)塊信息上報(bào)到Namenode,運(yùn)行多個(gè)實(shí)例。
HDFS默認(rèn)最小的存儲(chǔ)空間為block,每個(gè)block默認(rèn)的大小為128MB。DataNode除了需要維護(hù)數(shù)據(jù)之外,還需要留有一部分的空間用于存儲(chǔ)元數(shù)據(jù)鏡像文件Fsimage。
如果NameNode和DataNode是部署在一起的,那么Fsimage就在DataNode上,其實(shí)相當(dāng)于是在服務(wù)器的存儲(chǔ)介質(zhì)上。
如果NameNode和DataNode是分開(kāi)部署的,那么就相當(dāng)于Fsimage是存儲(chǔ)在部署NameNode的服務(wù)器上的。如圖所示:DataNodeClient
支持業(yè)務(wù)訪問(wèn)HDFS,并從Namenode和Datanode中獲取數(shù)據(jù),返回給用戶。多個(gè)業(yè)務(wù)和實(shí)例一起運(yùn)行。
這里所說(shuō)的Client并不是指實(shí)際的用戶應(yīng)用,而是HDFS本身自帶的進(jìn)程,通過(guò)該進(jìn)程可以訪問(wèn)HDFS。相當(dāng)于HDFS是一間房,Client提供了進(jìn)入的門(mén),Client提供的接口主要有JDBC和ODBC接口。HDFS技術(shù)介紹HDFS架構(gòu)設(shè)計(jì)HDFS數(shù)據(jù)保護(hù)機(jī)制HDFS數(shù)據(jù)組織HDFS數(shù)據(jù)存儲(chǔ)策略HDFS的高可靠性(HA)架構(gòu)在基本架構(gòu)上增加了以下組件:ZooKeeper分布式協(xié)調(diào),主要用來(lái)存儲(chǔ)HA下的狀態(tài)文件,主備信息。ZK個(gè)數(shù)建議3個(gè)及以上且為奇數(shù)個(gè)。NameNode主備N(xiāo)ameNode主備模式,主提供服務(wù),備合并元數(shù)據(jù)并作為主的熱備。ZKFCZKFC(ZooKeeperFailoverController)用于控制NameNode節(jié)點(diǎn)的主備狀態(tài)。JNJN(JournalNode)用于共享存儲(chǔ)NameNode生成的Editlog。HDFS高可靠性(HA)HDFS高可靠性(HA)第四周作業(yè)點(diǎn)評(píng)1、30人提交,13人未交2、提交的同學(xué)有一部分同學(xué)是沒(méi)做完的數(shù)據(jù)副本機(jī)制第一個(gè)副本在本地機(jī)器第二個(gè)副本在遠(yuǎn)端機(jī)架的節(jié)點(diǎn)第三個(gè)選擇和第一個(gè)副本相同機(jī)架的不同節(jié)點(diǎn)第四個(gè)及以上,隨機(jī)選擇副本存放位置。副本放置策略:Distance(Rack1/D1,Rack1/D1)=0同一臺(tái)服務(wù)器的距離為0Distance(Rack1/D1,Rack1/D3)=2同一機(jī)架不同的服務(wù)器距離為2Distance(Rack1/D1,Rack2/D1)=4不同機(jī)架的服務(wù)器距離為4副本距離計(jì)算公式:元數(shù)據(jù)持久化元數(shù)據(jù)持久化健壯機(jī)制HDFS技術(shù)介紹HDFS架構(gòu)設(shè)計(jì)HDFS數(shù)據(jù)保護(hù)機(jī)制HDFS數(shù)據(jù)組織HDFS數(shù)據(jù)存儲(chǔ)策略HDFS數(shù)據(jù)寫(xiě)流程HDFS數(shù)據(jù)寫(xiě)流程HDFS數(shù)據(jù)寫(xiě)流程HDFS數(shù)據(jù)讀流程HDFS數(shù)據(jù)讀流程HDFS數(shù)據(jù)讀流程提交情況:34人提交,10人未交,滿分7人未做完要求的所有實(shí)驗(yàn)部分指令不熟悉部分同學(xué)態(tài)度不端正存在問(wèn)題:第五周課后
作業(yè)點(diǎn)評(píng)HDFS技術(shù)介紹HDFS架構(gòu)設(shè)計(jì)HDFS數(shù)據(jù)保護(hù)機(jī)制HDFS數(shù)據(jù)組織HDFS數(shù)據(jù)存儲(chǔ)策略配置HDFS數(shù)據(jù)存儲(chǔ)策略01默認(rèn)情況下,HDFSNameNode自動(dòng)選擇DataNode保存數(shù)據(jù)的副本。02DataNode上存在不同的存儲(chǔ)設(shè)備,
數(shù)據(jù)需要選擇一個(gè)合適的存儲(chǔ)設(shè)備分級(jí)存儲(chǔ)數(shù)據(jù)。DataNode不同目錄中的數(shù)據(jù)重要程度不同,數(shù)據(jù)需要根據(jù)目錄標(biāo)簽選擇一個(gè)合適的DataNode節(jié)點(diǎn)保存DataNode集群使用了異構(gòu)服務(wù)器,關(guān)鍵數(shù)據(jù)需要保存在具有高度可靠性的節(jié)點(diǎn)組中。在實(shí)際業(yè)務(wù)中,存在以下場(chǎng)景:一、配置HDFS數(shù)據(jù)存儲(chǔ)策略-分級(jí)存儲(chǔ)HDFS的異構(gòu)分級(jí)存儲(chǔ)框架提供以下四種存儲(chǔ)介質(zhì)RAM_DISK(內(nèi)存虛擬硬盤(pán))DISK(機(jī)械硬盤(pán))ARCHIVE(高密度低成本存儲(chǔ)介質(zhì))SSD(固態(tài)硬盤(pán))四種存儲(chǔ)類(lèi)型的存儲(chǔ)設(shè)備配置DataNode使用分級(jí)存儲(chǔ):01配置HDFS數(shù)據(jù)存儲(chǔ)策略-分級(jí)存儲(chǔ)策略ID名稱Block放置位置(副本數(shù))備選存儲(chǔ)策略副本的備選存儲(chǔ)策略15LAZY_PERSISTRAM_DISK:1,DISK:n-1DISKDISK12All_SSDSSD:nDISKDISK
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 怎樣寫(xiě)商業(yè)協(xié)議書(shū)
- 仲裁條款協(xié)議書(shū)
- 以層抵債協(xié)議書(shū)
- 電梯合同責(zé)任協(xié)議
- 合伙養(yǎng)蠔協(xié)議書(shū)
- 醫(yī)藥購(gòu)貨協(xié)議書(shū)
- 租車(chē)客運(yùn)合同范本
- 醫(yī)院安保協(xié)議書(shū)
- 入職項(xiàng)目協(xié)議書(shū)
- 電影創(chuàng)作合同范本
- 【政治】2025年高考真題政治-海南卷(解析版-1)
- 2025年江蘇經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性考試題庫(kù)附答案
- 國(guó)開(kāi)《人文英語(yǔ)4》機(jī)考總題庫(kù)
- 物業(yè)對(duì)垃圾分類(lèi)管理制度
- 麻醉科教學(xué)查房課件
- 工作秘密管理課件
- 一級(jí)建造師-水利工程實(shí)務(wù)電子教材
- 急救物品護(hù)理質(zhì)量管理
- 2025-2030年中國(guó)地奧司明行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 前列腺炎病人的護(hù)理
- 國(guó)家開(kāi)放大學(xué)《理工英語(yǔ)4》期末機(jī)考題庫(kù)
評(píng)論
0/150
提交評(píng)論