版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)技術(shù)信息復(fù)習(xí)資料集一、大數(shù)據(jù)基礎(chǔ)認(rèn)知(一)定義與核心特征大數(shù)據(jù)并非單純“規(guī)模大的數(shù)據(jù)”,而是數(shù)據(jù)量、多樣性、處理時(shí)效、價(jià)值密度四個(gè)維度的綜合體現(xiàn):規(guī)模(Volume):從GB到PB級爆發(fā)式增長,如電商平臺日均日志量超TB級;多樣性(Variety):結(jié)構(gòu)化(數(shù)據(jù)庫表)、半結(jié)構(gòu)化(JSON/XML)、非結(jié)構(gòu)化(圖片/視頻)數(shù)據(jù)并存;時(shí)效(Velocity):需實(shí)時(shí)/準(zhǔn)實(shí)時(shí)處理(如金融交易反欺詐),或離線挖掘(如用戶畫像);價(jià)值(Value):通過關(guān)聯(lián)分析、預(yù)測建模等手段,從海量數(shù)據(jù)中提煉商業(yè)或社會價(jià)值(如疫情傳播趨勢預(yù)測)。(二)發(fā)展脈絡(luò)與行業(yè)驅(qū)動(dòng)1.技術(shù)演進(jìn):萌芽期(2000s前):傳統(tǒng)數(shù)據(jù)庫(Oracle、MySQL)主導(dǎo),難以應(yīng)對超大規(guī)模數(shù)據(jù);爆發(fā)期(____):Hadoop生態(tài)(HDFS、MapReduce)成熟,Spark、Flink等計(jì)算框架涌現(xiàn);融合期(2015至今):流批一體(Flink)、云原生(Kubernetes+大數(shù)據(jù))、AI與大數(shù)據(jù)結(jié)合(TensorFlowonSpark)成為趨勢。2.行業(yè)驅(qū)動(dòng):數(shù)字化轉(zhuǎn)型:企業(yè)業(yè)務(wù)線上化(如電商、金融)產(chǎn)生海量日志與交易數(shù)據(jù);IoT普及:全球超百億傳感器(如智能電表、工業(yè)設(shè)備)實(shí)時(shí)產(chǎn)生時(shí)序數(shù)據(jù);二、核心技術(shù)模塊(一)數(shù)據(jù)采集與預(yù)處理1.采集方式日志采集:Flume(分布式、高可靠,支持多源聚合)、Logstash(ELK棧核心,適配多種日志格式);IoT與傳感器:MQTT協(xié)議(輕量級、發(fā)布-訂閱模式)、CoAP協(xié)議(受限設(shè)備通信),結(jié)合Kafka做消息中轉(zhuǎn);業(yè)務(wù)系統(tǒng)對接:JDBC(關(guān)系型數(shù)據(jù)庫)、Canal(MySQLbinlog實(shí)時(shí)同步)、RestfulAPI(微服務(wù)數(shù)據(jù)采集)。2.預(yù)處理離線清洗:Kettle(可視化ETL)、DataX(異構(gòu)數(shù)據(jù)源同步);實(shí)時(shí)清洗:FlinkSQL(SQL化處理)、SparkStreaming(微批清洗);數(shù)據(jù)治理:去重(基于哈希/主鍵)、歸一化(如日期格式統(tǒng)一)、缺失值填充(均值/模型預(yù)測)。(二)存儲與管理1.分布式文件系統(tǒng)HDFS:主從架構(gòu)(NameNode管理元數(shù)據(jù),DataNode存儲數(shù)據(jù)塊),副本機(jī)制(默認(rèn)3份)保障容錯(cuò),支持異構(gòu)存儲(冷數(shù)據(jù)存HDD,熱數(shù)據(jù)存SSD)。2.數(shù)據(jù)庫體系NoSQL:文檔型(MongoDB):存儲非結(jié)構(gòu)化數(shù)據(jù)(如用戶畫像JSON),支持嵌套查詢;鍵值型(Redis):高并發(fā)緩存(如會話存儲)、計(jì)數(shù)器(如點(diǎn)贊數(shù));列族型(HBase):面向列存儲,適合時(shí)序數(shù)據(jù)(如監(jiān)控指標(biāo)、設(shè)備日志)。NewSQL:TiDB(HTAP,兼容MySQL語法,支持分布式事務(wù))、CockroachDB(多活架構(gòu),容災(zāi)性強(qiáng))。(三)計(jì)算與分析1.批處理MapReduce:Hadoop核心,分“Map(數(shù)據(jù)分片)-Shuffle(數(shù)據(jù)重分布)-Reduce(結(jié)果聚合)”三階段,適合TB級離線計(jì)算(如日志統(tǒng)計(jì));SparkBatch:基于RDD(彈性分布式數(shù)據(jù)集),DAG調(diào)度優(yōu)化(減少Shuffle),內(nèi)存計(jì)算提速100x,支持Python/Scala/Java多語言。2.流處理Flink:事件時(shí)間語義(精準(zhǔn)處理時(shí)序數(shù)據(jù))、狀態(tài)管理(支持窗口聚合、會話分析),Exactly-Once語義保障數(shù)據(jù)一致性;SparkStreaming:微批處理(默認(rèn)5s一批),適合準(zhǔn)實(shí)時(shí)場景(如電商實(shí)時(shí)銷量統(tǒng)計(jì));KafkaStreams:輕量級流處理,嵌入Kafka生態(tài)(無需額外集群),適合業(yè)務(wù)邏輯簡單的場景(如日志過濾)。3.實(shí)時(shí)分析與挖掘OLAP引擎:Druid(預(yù)聚合,亞秒級查詢)、ClickHouse(列式存儲,PB級數(shù)據(jù)分析);機(jī)器學(xué)習(xí):算法:分類(LR、XGBoost)、聚類(K-means)、關(guān)聯(lián)規(guī)則(Apriori);工具:Scikit-learn(單機(jī))、MLlib(Spark,分布式)、TensorFlowonSpark(AI與大數(shù)據(jù)融合)。三、工具與框架實(shí)踐(一)Hadoop生態(tài)HDFS:存儲層,適合PB級冷數(shù)據(jù)(如歷史日志歸檔);YARN:資源調(diào)度,支持多框架(MapReduce、Spark)共享集群資源;MapReduce:離線計(jì)算入門(如WordCount案例),理解“分而治之”思想。(二)Spark生態(tài)SparkCore:RDD編程(Transformation:map/filter;Action:count/collect),掌握DAG優(yōu)化邏輯;SparkSQL:DataFrame/DataSetAPI,支持SQL與代碼混合開發(fā)(如`df.filter("age>18").groupBy("city").count()`);StructuredStreaming:基于DataFrame的流處理,支持事件時(shí)間窗口(如“近1小時(shí)用戶活躍統(tǒng)計(jì)”)。(三)Flink生態(tài)流處理核心:ProcessFunction(自定義狀態(tài)、定時(shí)器,如“30分鐘無操作則會話超時(shí)”)、Window(滾動(dòng)/滑動(dòng)/會話窗口);TableAPI&SQL:統(tǒng)一批流SQL,支持UDF擴(kuò)展(如自定義脫敏函數(shù));連接器:Kafka(實(shí)時(shí)數(shù)據(jù)管道)、HBase(狀態(tài)存儲)、JDBC(結(jié)果落地)。(四)消息與中間件Kafka:高吞吐消息隊(duì)列,分區(qū)(并行消費(fèi))+副本(容錯(cuò))機(jī)制,用于實(shí)時(shí)數(shù)據(jù)管道(如電商訂單→推薦系統(tǒng));Zookeeper:分布式協(xié)調(diào)(如Kafka分區(qū)選舉、Hadoop主節(jié)點(diǎn)選舉),保障集群一致性。四、應(yīng)用場景與行業(yè)案例(一)金融風(fēng)控實(shí)時(shí)反欺詐:Flink+規(guī)則引擎,分析交易行為時(shí)序特征(如“1分鐘內(nèi)跨3城交易”觸發(fā)預(yù)警);信用評分:SparkMLlib訓(xùn)練XGBoost模型,融合多維度數(shù)據(jù)(消費(fèi)記錄、社交行為、設(shè)備指紋)。(二)電商推薦實(shí)時(shí)推薦:Flink處理用戶行為(點(diǎn)擊、加購),實(shí)時(shí)更新推薦列表(如“猜你喜歡”模塊);離線畫像:Hive+SparkETL,構(gòu)建用戶標(biāo)簽(RFM模型、品類偏好),支撐精準(zhǔn)營銷。(三)智慧城市交通流量:IoT傳感器(地磁、攝像頭)+Flink實(shí)時(shí)分析,動(dòng)態(tài)調(diào)整信號燈時(shí)長;能耗管理:HBase存儲樓宇能耗時(shí)序數(shù)據(jù),Druid分析“峰谷時(shí)段”,優(yōu)化供電策略。(四)醫(yī)療健康病歷分析:MongoDB存儲非結(jié)構(gòu)化病歷(PDF/文本),SparkNLP提取實(shí)體(如疾病、藥物);疾病預(yù)測:TensorFlow訓(xùn)練LSTM模型,分析電子健康檔案(EHR),預(yù)測慢性病惡化趨勢。五、學(xué)習(xí)與進(jìn)階路徑(一)資源推薦書籍:《Hadoop權(quán)威指南》(基礎(chǔ)架構(gòu))、《Spark快速大數(shù)據(jù)分析》(實(shí)踐)、《Flink原理與實(shí)踐》(流處理進(jìn)階);課程:Coursera《BigDataSpecialization》(體系化)、極客時(shí)間《Flink核心技術(shù)與實(shí)戰(zhàn)》(實(shí)戰(zhàn)導(dǎo)向);社區(qū):Apache官方郵件列表(技術(shù)前沿)、StackOverflow(標(biāo)簽:hadoop、spark、flink)。(二)技能棧構(gòu)建基礎(chǔ)層:Linux(Shell腳本)、SQL(Hive/SparkSQL)、Python/Scala(數(shù)據(jù)處理與算法);工具層:精通Hadoop生態(tài),掌握至少一個(gè)流批框架(Spark/Flink);領(lǐng)域?qū)樱盒袠I(yè)知識(如金融風(fēng)控、推薦系統(tǒng))+算法基礎(chǔ)(機(jī)器學(xué)習(xí)/深度學(xué)習(xí))。(三)項(xiàng)目實(shí)踐入門:搭建Hadoop集群,完成Wo
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025云南昆明安寧市連然街道辦事處(第一批)招聘村(社區(qū))工作人員7人備考題庫附答案
- 2025年三原縣選聘縣直事業(yè)單位工作人員真題匯編附答案
- 商品選品員安全專項(xiàng)水平考核試卷含答案
- 辦公設(shè)備維修工9S考核試卷含答案
- 糖坯制造工標(biāo)準(zhǔn)化知識考核試卷含答案
- 注聚工QC管理考核試卷含答案
- 鍋爐設(shè)備裝配工操作評估評優(yōu)考核試卷含答案
- 水聲測量工安全生產(chǎn)能力模擬考核試卷含答案
- 2024年湖南信息學(xué)院輔導(dǎo)員招聘備考題庫附答案
- 2024年湖北省直屬機(jī)關(guān)業(yè)余大學(xué)輔導(dǎo)員招聘備考題庫附答案
- 離婚協(xié)議標(biāo)準(zhǔn)版(有兩小孩)
- 浙江省臺州市路橋區(qū)2023-2024學(xué)年七年級上學(xué)期1月期末考試語文試題(含答案)
- 假體隆胸后查房課件
- 2023年互聯(lián)網(wǎng)新興設(shè)計(jì)人才白皮書
- DB52-T 785-2023 長順綠殼蛋雞
- c語言知識點(diǎn)思維導(dǎo)圖
- 關(guān)于地方儲備糧輪換業(yè)務(wù)會計(jì)核算處理辦法的探討
- GB/T 29319-2012光伏發(fā)電系統(tǒng)接入配電網(wǎng)技術(shù)規(guī)定
- GB/T 1773-2008片狀銀粉
- GB/T 12007.4-1989環(huán)氧樹脂粘度測定方法
- (完整版)北京全套安全資料表格
評論
0/150
提交評論