大數(shù)據(jù)技術(shù)期末考試復(fù)習(xí)提綱_第1頁(yè)
大數(shù)據(jù)技術(shù)期末考試復(fù)習(xí)提綱_第2頁(yè)
大數(shù)據(jù)技術(shù)期末考試復(fù)習(xí)提綱_第3頁(yè)
大數(shù)據(jù)技術(shù)期末考試復(fù)習(xí)提綱_第4頁(yè)
大數(shù)據(jù)技術(shù)期末考試復(fù)習(xí)提綱_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)技術(shù)期末考試復(fù)習(xí)提綱一、大數(shù)據(jù)基礎(chǔ)理論模塊(一)核心概念與特征大數(shù)據(jù)是無(wú)法通過(guò)常規(guī)工具在可接受時(shí)間內(nèi)完成捕捉、管理與處理的海量數(shù)據(jù)集合,核心特征常以4V(部分研究拓展為5V)概括:規(guī)模性(Volume):數(shù)據(jù)體量從TB級(jí)向PB、EB級(jí)跨越,典型場(chǎng)景如互聯(lián)網(wǎng)用戶(hù)行為日志、物聯(lián)網(wǎng)傳感器數(shù)據(jù)。多樣性(Variety):數(shù)據(jù)類(lèi)型涵蓋結(jié)構(gòu)化(數(shù)據(jù)庫(kù)表)、半結(jié)構(gòu)化(XML、JSON)、非結(jié)構(gòu)化(文本、圖像、音頻),需關(guān)注多源異構(gòu)數(shù)據(jù)的整合邏輯。高速性(Velocity):數(shù)據(jù)生成與處理需實(shí)時(shí)或準(zhǔn)實(shí)時(shí)響應(yīng),典型場(chǎng)景如金融交易、工業(yè)物聯(lián)網(wǎng)的流式數(shù)據(jù)。價(jià)值性(Value):數(shù)據(jù)蘊(yùn)含商業(yè)、科研價(jià)值,但需通過(guò)挖掘算法提取,且價(jià)值密度低(如監(jiān)控視頻中有效事件占比極低)。*補(bǔ)充:真實(shí)性(Veracity)*:數(shù)據(jù)存在噪聲、偏差,需通過(guò)清洗、校驗(yàn)保證質(zhì)量,常見(jiàn)于社交網(wǎng)絡(luò)、傳感器數(shù)據(jù)。(二)關(guān)鍵技術(shù)體系大數(shù)據(jù)技術(shù)圍繞“存、通、算、用”四個(gè)環(huán)節(jié)展開(kāi):存儲(chǔ)技術(shù):分布式文件系統(tǒng)(HDFS)、NoSQL數(shù)據(jù)庫(kù)(Redis、MongoDB、HBase)、云存儲(chǔ)(對(duì)象存儲(chǔ)、塊存儲(chǔ))。傳輸與管理:數(shù)據(jù)采集(Flume、Kafka)、數(shù)據(jù)治理(元數(shù)據(jù)管理、質(zhì)量管控、安全審計(jì))、數(shù)據(jù)集成(ETL/ELT工具)。計(jì)算框架:批處理(MapReduce、SparkBatch)、流處理(Flink、SparkStreaming)、圖計(jì)算(Neo4j、GraphX)。分析與挖掘:統(tǒng)計(jì)分析(描述性、推斷性)、機(jī)器學(xué)習(xí)(分類(lèi)、聚類(lèi)、回歸、深度學(xué)習(xí))、可視化(Tableau、ECharts)。二、大數(shù)據(jù)處理技術(shù)棧(一)分布式存儲(chǔ)系統(tǒng)1.HDFS架構(gòu)與原理核心組件:NameNode(元數(shù)據(jù)管理)、DataNode(數(shù)據(jù)存儲(chǔ))、SecondaryNameNode(元數(shù)據(jù)備份)。關(guān)鍵機(jī)制:副本策略(默認(rèn)3份,機(jī)架感知策略)、數(shù)據(jù)塊(Block,默認(rèn)128MB,可配置)、寫(xiě)流程(Pipeline機(jī)制)、讀流程(就近讀?。?。應(yīng)用場(chǎng)景:離線(xiàn)批處理(如Hadoop生態(tài))、冷數(shù)據(jù)存儲(chǔ)。2.NoSQL數(shù)據(jù)庫(kù)分類(lèi)與選型鍵值型(Key-Value):Redis(緩存、高并發(fā))、Memcached(純緩存),特點(diǎn):讀寫(xiě)快,無(wú)復(fù)雜查詢(xún)。文檔型(Document):MongoDB(JSON格式,靈活schema),適合社交、內(nèi)容管理。列族型(Column-Family):HBase(列式存儲(chǔ),高擴(kuò)展性),適合時(shí)序、日志數(shù)據(jù)(如監(jiān)控、金融交易)。圖數(shù)據(jù)庫(kù)(Graph):Neo4j(節(jié)點(diǎn)-關(guān)系模型),適合社交網(wǎng)絡(luò)、知識(shí)圖譜。(二)計(jì)算框架與引擎1.MapReduce核心思想編程模型:Map(映射)→Shuffle(洗牌)→Reduce(歸約),需掌握WordCount等經(jīng)典案例的執(zhí)行流程。局限性:延遲高(適合離線(xiàn))、編程繁瑣,需對(duì)比Spark/Flink的優(yōu)化點(diǎn)。2.Spark生態(tài)與優(yōu)化核心抽象:RDD(彈性分布式數(shù)據(jù)集),特性:不可變、分區(qū)、并行計(jì)算,支持轉(zhuǎn)換(map、filter)與行動(dòng)(count、collect)操作。擴(kuò)展組件:SparkSQL(結(jié)構(gòu)化數(shù)據(jù)查詢(xún))、SparkStreaming(微批處理)、MLlib(機(jī)器學(xué)習(xí))、GraphX(圖計(jì)算)。優(yōu)化點(diǎn):內(nèi)存計(jì)算(比MapReduce快一個(gè)數(shù)量級(jí))、DAG調(diào)度、lineage容錯(cuò)。3.Flink流處理范式核心概念:流(Stream)是根本,批是流的特例,支持事件時(shí)間(EventTime)與處理時(shí)間(ProcessingTime)。關(guān)鍵特性:低延遲(毫秒級(jí))、Exactly-Once語(yǔ)義、狀態(tài)管理(適合復(fù)雜業(yè)務(wù)邏輯,如金融風(fēng)控)。三、大數(shù)據(jù)分析方法(一)統(tǒng)計(jì)分析基礎(chǔ)描述性統(tǒng)計(jì):均值、中位數(shù)、方差、分位數(shù),需結(jié)合實(shí)際場(chǎng)景選擇(如收入分布用中位數(shù)更合理)。推斷性統(tǒng)計(jì):假設(shè)檢驗(yàn)(t檢驗(yàn)、卡方檢驗(yàn))、回歸分析(線(xiàn)性/邏輯回歸),用于數(shù)據(jù)規(guī)律驗(yàn)證。(二)機(jī)器學(xué)習(xí)算法分類(lèi)算法:決策樹(shù)(ID3、C4.5、CART)、隨機(jī)森林、SVM(支持向量機(jī))、樸素貝葉斯(文本分類(lèi))。聚類(lèi)算法:K-Means(需指定K值)、DBSCAN(密度聚類(lèi),無(wú)需指定K)、層次聚類(lèi)?;貧w分析:線(xiàn)性回歸(連續(xù)值預(yù)測(cè))、邏輯回歸(二分類(lèi))、梯度提升樹(shù)(GBDT)。深度學(xué)習(xí):CNN(圖像)、RNN/LSTM(時(shí)序數(shù)據(jù))、Transformer(自然語(yǔ)言處理),需理解與傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別(特征自動(dòng)提?。#ㄈ?shù)據(jù)可視化原則圖表選型:折線(xiàn)圖(趨勢(shì))、柱狀圖(對(duì)比)、散點(diǎn)圖(關(guān)聯(lián))、熱力圖(密度)、詞云(文本權(quán)重)。工具實(shí)踐:Tableau(拖拽式分析)、PowerBI(企業(yè)級(jí))、ECharts(開(kāi)源可視化庫(kù),適合Web端)。四、工具與平臺(tái)實(shí)踐(一)Hadoop生態(tài)組件HDFS:存儲(chǔ)層,需掌握命令行操作(`hdfsdfs-ls`、`-put`、`-get`)。YARN:資源調(diào)度,角色:ResourceManager(全局調(diào)度)、NodeManager(節(jié)點(diǎn)資源管理)。MapReduce:批處理引擎,需會(huì)編寫(xiě)WordCount的Map/Reduce代碼(Java/Python)。Hive:數(shù)據(jù)倉(cāng)庫(kù),基于HDFS,用HQL(類(lèi)SQL)查詢(xún),需區(qū)分內(nèi)部表/外部表、分區(qū)表/分桶表。(二)Spark編程實(shí)踐RDD編程:創(chuàng)建(`parallelize`、`textFile`)、轉(zhuǎn)換(`map`、`flatMap`、`reduceByKey`)、行動(dòng)(`collect`、`saveAsTextFile`)。SparkSQL:DataFrame/Dataset操作,如讀取JSON/CSV文件、執(zhí)行`groupby`/`join`。部署模式:Local(本地)、Standalone(獨(dú)立集群)、YARN(資源共享)、Mesos(多框架調(diào)度)。(三)Flink流處理實(shí)戰(zhàn)流處理API:DataStream(基礎(chǔ)流)、ProcessFunction(自定義邏輯,如定時(shí)器)、Window(滾動(dòng)、滑動(dòng)、會(huì)話(huà)窗口)。連接器(Connector):Kafka(實(shí)時(shí)數(shù)據(jù)接入)、JDBC(數(shù)據(jù)庫(kù)輸出)、File(文件系統(tǒng))。狀態(tài)管理:KeyedState(按Key隔離)、OperatorState(算子級(jí)狀態(tài)),需理解容錯(cuò)機(jī)制(Checkpoint)。五、典型應(yīng)用與案例分析(一)行業(yè)場(chǎng)景金融風(fēng)控:實(shí)時(shí)反欺詐(Flink+規(guī)則引擎)、信用評(píng)分(機(jī)器學(xué)習(xí)模型)、交易監(jiān)控(圖分析識(shí)別團(tuán)伙)。電商推薦:用戶(hù)畫(huà)像(標(biāo)簽體系)、協(xié)同過(guò)濾(基于用戶(hù)/物品)、實(shí)時(shí)推薦(SparkStreaming+ALS)。智慧城市:交通流量預(yù)測(cè)(LSTM)、環(huán)境監(jiān)測(cè)(物聯(lián)網(wǎng)+時(shí)序數(shù)據(jù)庫(kù))、公共安全(視頻分析+目標(biāo)檢測(cè))。(二)案例拆解以“電商用戶(hù)行為分析”為例:1.數(shù)據(jù)采集:埋點(diǎn)日志(Flume)+交易數(shù)據(jù)(Kafka)→統(tǒng)一接入HDFS。2.數(shù)據(jù)處理:Spark清洗(去重、補(bǔ)全)→Hive構(gòu)建維度表(用戶(hù)、商品、時(shí)間)。3.分析挖掘:統(tǒng)計(jì)分析:活躍用戶(hù)數(shù)、客單價(jià)、復(fù)購(gòu)率。機(jī)器學(xué)習(xí):基于用戶(hù)行為的商品推薦(ALS算法)。4.可視化:Tableau展示銷(xiāo)售趨勢(shì)、用戶(hù)地域分布、轉(zhuǎn)化漏斗。六、考試題型與應(yīng)對(duì)策略(一)選擇題/判斷題考點(diǎn):概念辨析(如HDFS副本數(shù)、Spark與Flink的區(qū)別)、技術(shù)特征(NoSQL類(lèi)型、4V特征)。技巧:抓關(guān)鍵詞(如“實(shí)時(shí)性”對(duì)應(yīng)Flink,“內(nèi)存計(jì)算”對(duì)應(yīng)Spark),排除法(如HBase是列族型,非文檔型)。(二)簡(jiǎn)答題考點(diǎn):技術(shù)原理(HDFS寫(xiě)流程、MapReduce執(zhí)行步驟)、技術(shù)選型(NoSQL適用場(chǎng)景)、概念對(duì)比(批處理vs流處理)。技巧:分點(diǎn)作答(如HDFS寫(xiě)流程分“客戶(hù)端請(qǐng)求→NameNode分配→Pipeline寫(xiě)入→確認(rèn)”四步),結(jié)合教材定義+實(shí)踐理解。(三)應(yīng)用題/分析題考點(diǎn):系統(tǒng)設(shè)計(jì)(如設(shè)計(jì)一個(gè)實(shí)時(shí)推薦系統(tǒng)的技術(shù)棧)、案例分析(給定場(chǎng)景選工具、寫(xiě)流程)、代碼片段(如Spark的RDD轉(zhuǎn)換)。技巧:結(jié)合“存-通-算-用”邏輯拆解問(wèn)題,代碼題關(guān)注語(yǔ)法(如Spark的`reduceByKey`需傳函數(shù)),設(shè)計(jì)題需說(shuō)明技術(shù)選型的理由(如選Flink因?yàn)榈脱舆t,選Redis做緩存因?yàn)榭欤?。?fù)習(xí)建議1.抓核心原理:HDFS副本、SparkRDD、Flink流處理是高頻考點(diǎn),需理解“是什么、為什么、怎么用”。2.對(duì)比記憶:如HBasevsMongoDB、M

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論