數(shù)據(jù)思維與大數(shù)據(jù)基礎(chǔ)課件全套 1-8 第1章 大數(shù)據(jù)概述 - -第8章 大數(shù)據(jù)綜合案例實踐_第1頁
數(shù)據(jù)思維與大數(shù)據(jù)基礎(chǔ)課件全套 1-8 第1章 大數(shù)據(jù)概述 - -第8章 大數(shù)據(jù)綜合案例實踐_第2頁
數(shù)據(jù)思維與大數(shù)據(jù)基礎(chǔ)課件全套 1-8 第1章 大數(shù)據(jù)概述 - -第8章 大數(shù)據(jù)綜合案例實踐_第3頁
數(shù)據(jù)思維與大數(shù)據(jù)基礎(chǔ)課件全套 1-8 第1章 大數(shù)據(jù)概述 - -第8章 大數(shù)據(jù)綜合案例實踐_第4頁
數(shù)據(jù)思維與大數(shù)據(jù)基礎(chǔ)課件全套 1-8 第1章 大數(shù)據(jù)概述 - -第8章 大數(shù)據(jù)綜合案例實踐_第5頁
已閱讀5頁,還剩317頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第1章大數(shù)據(jù)概述開啟大數(shù)據(jù)知識之門目錄01數(shù)據(jù)02大數(shù)據(jù)03大數(shù)據(jù)發(fā)展歷史04大數(shù)據(jù)研究內(nèi)容05大數(shù)據(jù)應(yīng)用場景與領(lǐng)域《數(shù)字化生存》是美國學(xué)者尼古拉·尼葛洛龐帝(NicholasNegroponte)于1996年撰寫的理論著作,由胡泳、范海燕譯、海南出版社1997年出版中文版。該書系統(tǒng)闡釋了信息技術(shù)對人類生存方式的變革,提出數(shù)字化生存是以比特為基本單位、通過數(shù)字技術(shù)在虛擬空間進行信息交互的新型社會形態(tài)。著作分為“比特的時代”、“人性化界面”、“數(shù)字化生活”三部分,預(yù)言信息傳播將從單向推送轉(zhuǎn)向雙向互動。書中涉及虛擬社區(qū)、數(shù)據(jù)畫像等形態(tài)演變。[5-7]同時探討數(shù)字依賴導(dǎo)致的社交焦慮等倫理問題。1.1數(shù)據(jù)了解數(shù)據(jù)的基本概念與分類數(shù)據(jù)的歷史淵源追溯數(shù)據(jù)的起源與發(fā)展1古代數(shù)據(jù)應(yīng)用古代數(shù)據(jù)用于統(tǒng)計管理,如古埃及、古巴比倫的糧食和人口記錄、古代中國的戶籍和稅收記錄等。2統(tǒng)計學(xué)出現(xiàn)18世紀統(tǒng)計學(xué)誕生,為數(shù)據(jù)分析提供理論基礎(chǔ),但當(dāng)時數(shù)據(jù)量小。3計算機與數(shù)據(jù)庫20世紀60年代集成電路計算機出現(xiàn),70年代關(guān)系數(shù)據(jù)庫和SQL技術(shù)提升數(shù)據(jù)管理。4互聯(lián)網(wǎng)時代數(shù)據(jù)變革21世紀互聯(lián)網(wǎng)等發(fā)展,使數(shù)據(jù)在數(shù)量、類型上與傳統(tǒng)數(shù)據(jù)差異巨大。5數(shù)據(jù)起源領(lǐng)域數(shù)據(jù)發(fā)源于數(shù)學(xué)領(lǐng)域,早期被視為解決數(shù)學(xué)問題的基礎(chǔ)要素。6數(shù)據(jù)空間概念數(shù)據(jù)智能技術(shù)推動網(wǎng)絡(luò)空間轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心的數(shù)據(jù)空間。7可信數(shù)據(jù)空間提出2024年底國家數(shù)據(jù)局提出可信數(shù)據(jù)空間,拓展數(shù)據(jù)概念內(nèi)涵?!稁缀卧尽罚ü?00年左右)數(shù)據(jù)的定義明確數(shù)據(jù)的多種定義與內(nèi)涵國家數(shù)據(jù)局定義01國家數(shù)據(jù)局指出數(shù)據(jù)是指任何以電子或其他方式對信息的記錄。不同視角的數(shù)據(jù)定義02數(shù)據(jù)在不同視角下被稱為原始數(shù)據(jù)、衍生數(shù)據(jù)等多種形式。數(shù)據(jù)作為生產(chǎn)要素03數(shù)據(jù)作為生產(chǎn)要素價值凸顯,廣泛應(yīng)用于各行業(yè)領(lǐng)域。數(shù)據(jù)的分類掌握數(shù)據(jù)的不同分類方式1分為自然數(shù)據(jù)和人類活動數(shù)據(jù),如氣象、電商交易等數(shù)據(jù)。按數(shù)據(jù)來源分類2包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),各有特點和示例。按數(shù)據(jù)結(jié)構(gòu)分類3涵蓋醫(yī)療、金融、教育等領(lǐng)域數(shù)據(jù),如病歷、股票價格等。按數(shù)據(jù)應(yīng)用領(lǐng)域分類4有靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù),如行政區(qū)劃和交通流量數(shù)據(jù)。按數(shù)據(jù)時間特性分類5包含公開、受限公開、半公開和非公開數(shù)據(jù),使用限制不同。按數(shù)據(jù)開放程度分類結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)多模態(tài)數(shù)據(jù)思考:數(shù)據(jù)與數(shù)字的區(qū)別是什么?閱讀與討論:閱讀《中共中央辦公廳國務(wù)院辦公廳關(guān)于加快公共數(shù)據(jù)資源開發(fā)利用的意見》,討論如何加快公共數(shù)據(jù)資源開發(fā)利用。1.2大數(shù)據(jù)認識大數(shù)據(jù)的概念、特征及應(yīng)用大數(shù)據(jù)與相關(guān)技術(shù)的關(guān)系---理解大數(shù)據(jù)與其他技術(shù)的協(xié)同作用01互聯(lián)網(wǎng)與物聯(lián)網(wǎng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)負責(zé)數(shù)據(jù)采集,形成工業(yè)大數(shù)據(jù)和消費大數(shù)據(jù)。02云計算與大數(shù)據(jù)云計算存儲大數(shù)據(jù),并行計算促進大數(shù)據(jù)高效智能化處理。03人工智能與大數(shù)據(jù)大數(shù)據(jù)深度學(xué)習(xí)推動人工智能發(fā)展,人工智能又優(yōu)化前端設(shè)備。045G的紐帶作用5G傳輸數(shù)據(jù)并連接云端與人工智能,助力技術(shù)應(yīng)用。大數(shù)據(jù)的定義了解不同機構(gòu)對大數(shù)據(jù)的定義麥肯錫全球研究院定義1認為大數(shù)據(jù)是超出典型數(shù)據(jù)庫軟件處理能力的數(shù)據(jù)集。國際數(shù)據(jù)公司定義2強調(diào)大數(shù)據(jù)是為從多樣數(shù)據(jù)獲取價值而設(shè)計的新架構(gòu)和技術(shù)。美國國家標準及技術(shù)協(xié)會定義3指出大數(shù)據(jù)是傳統(tǒng)架構(gòu)難處理的新數(shù)據(jù)集,有特定特征。中國國家標準定義4中國國標定義大數(shù)據(jù)具有體量巨大、來源多樣等特征。中國工程院院士定義5院士們強調(diào)大數(shù)據(jù)無法用常規(guī)軟件工具處理,有4V特征。本書的大數(shù)據(jù)定義6本書基于4V特征定義大數(shù)據(jù),突出其核心特點。大數(shù)據(jù)的特征規(guī)模性大數(shù)據(jù)數(shù)據(jù)量龐大,通常以PB、EB甚至ZB級計量,存儲挑戰(zhàn)大。01高速性數(shù)據(jù)產(chǎn)生和處理速度快,“雙11”等場景凸顯實時處理挑戰(zhàn)。02多樣性數(shù)據(jù)類型多樣,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。03價值性大數(shù)據(jù)價值巨大,但價值密度低,需挖掘才有用。04大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)區(qū)別從規(guī)模、類型、處理方式、速度和來源等方面對比兩者差異。05掌握大數(shù)據(jù)的4V特征及其他特性討論:如圖所示為2024年5月華為發(fā)布的一款大容量固態(tài)盤(SolidStateDisk,SSD)解決方案,該解決方案據(jù)稱可以提供每盤128TB的容量。這款產(chǎn)品不僅實現(xiàn)了相同空間下的10倍容量提升,還為數(shù)據(jù)存儲領(lǐng)域帶來了前所未有的突破。請討論需要多少塊這種固態(tài)盤才能提供1

ZB的容量。思考:舉例說明日常生活中的大數(shù)據(jù)。閱讀與討論:閱讀《國務(wù)院關(guān)于印發(fā)促進大數(shù)據(jù)發(fā)展行動綱要的通知》,討論其主要任務(wù)。1.3大數(shù)據(jù)發(fā)展歷史回顧大數(shù)據(jù)的發(fā)展歷程萌芽時期探尋大數(shù)據(jù)的起源與早期探索復(fù)雜性科學(xué)影響20世紀90年代復(fù)雜性科學(xué)為大數(shù)據(jù)提供理論基礎(chǔ)。01“大數(shù)據(jù)”概念首次使用1997年NASA研究人員首次在論文中使用“大數(shù)據(jù)”術(shù)語。02早期研究局限當(dāng)時大數(shù)據(jù)僅作為構(gòu)想,未涉及收集、處理和存儲等問題。03發(fā)展時期見證大數(shù)據(jù)的初步成長1互聯(lián)網(wǎng)行業(yè)發(fā)展推動21世紀初互聯(lián)網(wǎng)飛速發(fā)展,大數(shù)據(jù)在互聯(lián)網(wǎng)行業(yè)受重視。2“3V”特征提出2001年分析師道格?萊尼提出數(shù)據(jù)增長的“3V”方向。3Hadoop技術(shù)誕生2005年Hadoop技術(shù)出現(xiàn),成為數(shù)據(jù)分析主要技術(shù)。4數(shù)據(jù)密集型科學(xué)出現(xiàn)2007年數(shù)據(jù)密集型科學(xué)為大數(shù)據(jù)發(fā)展提供科學(xué)基礎(chǔ)。5《自然》雜志???008年《自然》雜志推出大數(shù)據(jù)專刊,引發(fā)關(guān)注。6美國政府關(guān)注2010年美國政府報告敘述大數(shù)據(jù)在政府工作中的應(yīng)用。興盛時期感受大數(shù)據(jù)時代的全面到來01IBM沃森超級計算機2011年IBM沃森打破數(shù)據(jù)掃描分析紀錄,提升計算高度。02麥肯錫公司研究報告麥肯錫報告介紹大數(shù)據(jù)應(yīng)用和技術(shù)架構(gòu),提醒各國制定戰(zhàn)略。03世界經(jīng)濟論壇宣布2012年世界經(jīng)濟論壇宣布大數(shù)據(jù)時代到來。04媒體與著作影響《紐約時報》等媒體報道,《大數(shù)據(jù)時代》等相關(guān)著作在中國產(chǎn)生廣泛影響。閱讀與討論:閱讀《大數(shù)據(jù)時代》,指出當(dāng)時對大數(shù)據(jù)的認識和現(xiàn)在對大數(shù)據(jù)的認識有何異同。1.4大數(shù)據(jù)研究內(nèi)容了解大數(shù)據(jù)研究的各個方面1.數(shù)據(jù)獲取與預(yù)處理01數(shù)據(jù)來源從社交媒體、傳感器、日志文件等多種來源高效收集數(shù)據(jù)。02數(shù)據(jù)集成把不同來源、格式、特點性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機地集中,為后續(xù)分析打基礎(chǔ)。03數(shù)據(jù)清洗消除數(shù)據(jù)中的噪聲、冗余和不一致性,提高數(shù)據(jù)質(zhì)量。04數(shù)據(jù)融合融合不同來源的數(shù)據(jù),獲取更全面的信息。05數(shù)據(jù)轉(zhuǎn)換對數(shù)據(jù)進行格式轉(zhuǎn)換,以適應(yīng)分析需求。掌握數(shù)據(jù)收集與整理的要點2.數(shù)據(jù)存儲與管理學(xué)習(xí)大規(guī)模數(shù)據(jù)存儲與管理的方法01分布式文件系統(tǒng)利用分布式文件系統(tǒng)有效存儲和管理大規(guī)模數(shù)據(jù)集。02云存儲解決方案采用云存儲方案,提供靈活的數(shù)據(jù)存儲服務(wù)。03大數(shù)據(jù)數(shù)據(jù)庫技術(shù)運用NoSQL數(shù)據(jù)庫等技術(shù),滿足大數(shù)據(jù)存儲需求。3.數(shù)據(jù)處理與計算模型認識大數(shù)據(jù)處理與計算的技術(shù)使用HadoopMapReduce、Spark等框架快速處理大量數(shù)據(jù)。分布式計算框架實現(xiàn)數(shù)據(jù)的實時處理,及時獲取有用信息。實時數(shù)據(jù)處理技術(shù)應(yīng)用流計算模型,應(yīng)對數(shù)據(jù)流的快速變化。流計算模型4.數(shù)據(jù)挖掘與分析關(guān)聯(lián)規(guī)則挖掘挖掘數(shù)據(jù)中的關(guān)聯(lián)規(guī)則,發(fā)現(xiàn)潛在規(guī)律。01分類與聚類分析對數(shù)據(jù)進行分類和聚類,實現(xiàn)數(shù)據(jù)的預(yù)測分析。02時間序列分析分析時間序列數(shù)據(jù),預(yù)測未來趨勢。03文本挖掘從文本數(shù)據(jù)中提取有價值的信息和知識。04挖掘大數(shù)據(jù)中的價值信息5.可視化與呈現(xiàn)直觀展示大數(shù)據(jù)分析結(jié)果圖表可視化用各種圖表展示數(shù)據(jù),幫助用戶直觀理解。01地圖可視化在地圖上呈現(xiàn)數(shù)據(jù),揭示地理分布規(guī)律。02網(wǎng)絡(luò)圖可視化通過網(wǎng)絡(luò)圖展示數(shù)據(jù)間的關(guān)聯(lián)關(guān)系。03交互式可視化工具提供交互功能,讓用戶更靈活地探索數(shù)據(jù)。04虛擬現(xiàn)實呈現(xiàn)利用虛擬現(xiàn)實技術(shù),沉浸式展示數(shù)據(jù)。056.隱私保護與數(shù)據(jù)安全保障大數(shù)據(jù)使用中的隱私與安全加密技術(shù)采用加密技術(shù),保護數(shù)據(jù)的機密性。01匿名化方法對數(shù)據(jù)進行匿名化處理,保護個人隱私。02訪問控制策略實施訪問控制策略,確保數(shù)據(jù)合理使用。037.大數(shù)據(jù)架構(gòu)與系統(tǒng)01設(shè)計高容錯系統(tǒng),提高平臺的穩(wěn)定性。高容錯系統(tǒng)設(shè)計02合理管理資源,優(yōu)化平臺性能。資源管理03采用優(yōu)化調(diào)度算法,提高數(shù)據(jù)處理效率。優(yōu)化調(diào)度算法構(gòu)建高效可靠的大數(shù)據(jù)處理平臺8.大數(shù)據(jù)應(yīng)用探索大數(shù)據(jù)在各領(lǐng)域的應(yīng)用價值01大數(shù)據(jù)用于金融客戶畫像、風(fēng)險管理等方面。金融行業(yè)應(yīng)用02在醫(yī)療病歷管理、疾病預(yù)測等領(lǐng)域發(fā)揮重要作用。醫(yī)療行業(yè)應(yīng)用03幫助零售企業(yè)進行客戶行為分析和銷售預(yù)測。零售行業(yè)應(yīng)用04用于制造業(yè)產(chǎn)品故障診斷和工藝流程優(yōu)化。制造業(yè)應(yīng)用05優(yōu)化物流運輸路線和配送計劃。物流行業(yè)應(yīng)用9.大數(shù)據(jù)倫理與法規(guī)關(guān)注大數(shù)據(jù)使用中的倫理與法律問題數(shù)據(jù)資產(chǎn)問題0

1明確數(shù)據(jù)資產(chǎn)的歸屬和權(quán)益,保障各方利益。數(shù)據(jù)確權(quán)問題02解決數(shù)據(jù)確權(quán)難題,促進數(shù)據(jù)合理流通。數(shù)據(jù)濫用問題03防止數(shù)據(jù)濫用,保護個人和社會權(quán)益。合規(guī)性要求04確保大數(shù)據(jù)使用符合法律法規(guī),規(guī)范行業(yè)發(fā)展。1.5大數(shù)據(jù)應(yīng)用場景與領(lǐng)域了解大數(shù)據(jù)在不同行業(yè)的應(yīng)用1.互聯(lián)網(wǎng)行業(yè)搜索引擎大數(shù)據(jù)優(yōu)化搜索引擎,提供更精準的搜索結(jié)果。推薦系統(tǒng)分析用戶行為,為用戶推薦感興趣的內(nèi)容。廣告系統(tǒng)精準定位目標用戶,提高廣告投放效果。體驗大數(shù)據(jù)在互聯(lián)網(wǎng)的個性化服務(wù)2.電信行業(yè)01網(wǎng)絡(luò)管理和優(yōu)化大數(shù)據(jù)助力電信網(wǎng)絡(luò)管理和性能優(yōu)化。02市場與精準營銷分析用戶數(shù)據(jù),實現(xiàn)精準的市場營銷。03客戶關(guān)系管理利用大數(shù)據(jù)改善客戶關(guān)系,提升服務(wù)質(zhì)量。04企業(yè)運營管理優(yōu)化企業(yè)內(nèi)部運營,提高管理效率。05數(shù)據(jù)商業(yè)化挖掘數(shù)據(jù)價值,實現(xiàn)數(shù)據(jù)商業(yè)化應(yīng)用。感受大數(shù)據(jù)對電信業(yè)務(wù)的提升3.金融行業(yè)洞察大數(shù)據(jù)在金融領(lǐng)域的風(fēng)險防控01客戶畫像精準刻畫客戶特征,提供個性化金融服務(wù)。02風(fēng)險管理評估客戶信用風(fēng)險,降低金融風(fēng)險。03智能投顧基于大數(shù)據(jù)分析,為客戶提供投資建議。04反欺詐識別金融欺詐行為,保障金融安全。4.醫(yī)療行業(yè)見證大數(shù)據(jù)對醫(yī)療水平的提升01病歷管理高效管理病歷數(shù)據(jù),方便醫(yī)生查詢和診斷。02疾病預(yù)測分析數(shù)據(jù)預(yù)測疾病發(fā)生,提前采取預(yù)防措施。03藥物研發(fā)加速藥物研發(fā)進程,提高研發(fā)成功率。04臨床決策支持為醫(yī)生提供臨床決策依據(jù),提高治療效果。5.零售行業(yè)了解大數(shù)據(jù)在零售的精準營銷1客戶行為分析分析客戶購買行為,了解客戶需求。2庫存管理優(yōu)化庫存管理,減少庫存積壓和缺貨情況。3銷售預(yù)測預(yù)測銷售趨勢,合理安排生產(chǎn)和采購。6.制造業(yè)產(chǎn)品故障診斷與預(yù)測提前診斷和預(yù)測產(chǎn)品故障,降低維修成本。01工藝流程優(yōu)化優(yōu)化生產(chǎn)工藝流程,提高生產(chǎn)效率。02供應(yīng)鏈優(yōu)化優(yōu)化供應(yīng)鏈管理,降低物流成本。03感受大數(shù)據(jù)對制造業(yè)的優(yōu)化升級其他領(lǐng)域01優(yōu)化物流路線和配送計劃,提高物流效率。物流領(lǐng)域02輔助城市規(guī)劃和交通管理,提升城市品質(zhì)。城市管理03分析運動員數(shù)據(jù)和觀眾喜好,提升賽事體驗。體育娛樂04監(jiān)控和預(yù)防安全事件,保障社會安全。安全領(lǐng)域發(fā)現(xiàn)大數(shù)據(jù)在更多領(lǐng)域的廣泛應(yīng)用青島港案例剖析大數(shù)據(jù)與區(qū)塊鏈在港口的應(yīng)用1青島港是重要港口,擁有多個港區(qū)和先進設(shè)施。青島港概況2傳統(tǒng)口岸業(yè)務(wù)存在信息不共享、手續(xù)煩瑣等問題。傳統(tǒng)口岸業(yè)務(wù)痛點3打造“云港通·區(qū)關(guān)港一體化智慧服務(wù)平臺”。解決方案4實現(xiàn)查驗業(yè)務(wù)“云辦理”和全流程可視化跟蹤。創(chuàng)新口岸智慧查驗5實現(xiàn)貨物就近提離,提升港口運行效率。打通前灣港調(diào)運壁壘6設(shè)定規(guī)則,優(yōu)先保障特定貨物查驗,統(tǒng)一資源。建立自動確認規(guī)則7實現(xiàn)貨物“一次查驗、一次通關(guān)、一次放行”。創(chuàng)新智能轉(zhuǎn)運模式8實現(xiàn)國際航行船舶海事服務(wù)全程無紙化申報。打造海事服務(wù)無紙化思考:打通海關(guān)、省口岸辦、進出口企業(yè)、船公司、碼頭、場站之間的信息壁壘的關(guān)鍵點是什么?謝謝觀看第2章大數(shù)據(jù)思維開啟大數(shù)據(jù)時代的關(guān)鍵目錄01數(shù)據(jù)科學(xué)02數(shù)據(jù)全生命周期管理03數(shù)據(jù)思維04數(shù)據(jù)范式05大數(shù)據(jù)思維06常見的大數(shù)據(jù)思維方式07案例2.1

數(shù)據(jù)科學(xué)了解數(shù)據(jù)科學(xué)的發(fā)展與步驟2.1

數(shù)據(jù)科學(xué)發(fā)展歷程Step120世紀20-60年代,統(tǒng)計學(xué)奠基,計算機初步用于數(shù)據(jù)處理,以統(tǒng)計為基礎(chǔ)進行數(shù)據(jù)收集和分析。早期萌芽階段Step2奠基階段20世紀60-80年代,數(shù)據(jù)庫管理系統(tǒng)誕生,多元分析方法應(yīng)用,為數(shù)據(jù)科學(xué)打下堅實基礎(chǔ)。Step320世紀80-90年代,數(shù)據(jù)挖掘概念興起,機器學(xué)習(xí)算法有進展,推動數(shù)據(jù)科學(xué)發(fā)展。發(fā)展階段Step420世紀90年代-21世紀10年代,互聯(lián)網(wǎng)普及使數(shù)據(jù)爆發(fā),多種技術(shù)發(fā)展提升數(shù)據(jù)處理能力。快速發(fā)展階段Step5隨著大數(shù)據(jù)、人工智能等技術(shù)爆發(fā),數(shù)據(jù)科學(xué)應(yīng)用領(lǐng)域不斷拓展,成為推動行業(yè)發(fā)展的力量。新時代發(fā)展2.1

數(shù)據(jù)科學(xué)概念明確數(shù)據(jù)科學(xué)的定義與步驟01結(jié)合統(tǒng)計學(xué)、計算機科學(xué)和領(lǐng)域知識,從數(shù)據(jù)中提取知識規(guī)律,輔助決策。數(shù)據(jù)科學(xué)定義02涵蓋數(shù)據(jù)獲取、預(yù)處理、探索性分析、建模、評估、可視化和產(chǎn)品等流程。數(shù)據(jù)科學(xué)步驟03通過處理分析數(shù)據(jù),獲取有價值的信息和知識,解決實際問題。數(shù)據(jù)科學(xué)目標2.1

數(shù)據(jù)科學(xué)概念數(shù)據(jù)科學(xué)步驟2.1.1

數(shù)據(jù)獲取01物聯(lián)網(wǎng)系統(tǒng)產(chǎn)生大量非結(jié)構(gòu)化數(shù)據(jù),如視頻、音頻等,應(yīng)用領(lǐng)域廣泛,價值密度高。02傳統(tǒng)信息處理系統(tǒng)涵蓋政務(wù)、企業(yè)等系統(tǒng),數(shù)據(jù)多為結(jié)構(gòu)化,精確度高,關(guān)聯(lián)性強。03互聯(lián)網(wǎng)應(yīng)用包括Web和App,產(chǎn)生半結(jié)構(gòu)化數(shù)據(jù),真假難辨但價值密度高。04網(wǎng)絡(luò)爬蟲技術(shù)可用于獲取Web和App數(shù)據(jù),但要注意遵守數(shù)據(jù)安全紅線。掌握數(shù)據(jù)獲取的渠道與方式2.1.2

數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗處理缺失、冗余和噪聲數(shù)據(jù),使不同數(shù)據(jù)集一致,耗時但重要。01數(shù)據(jù)集成將多個數(shù)據(jù)源合并,形成一致存儲,需消除冗余數(shù)據(jù)。02數(shù)據(jù)變換轉(zhuǎn)換數(shù)據(jù)形式,如縮放屬性,對基于距離的挖掘算法很重要。03數(shù)據(jù)歸約壓縮數(shù)據(jù),提高建模質(zhì)量,降低時間復(fù)雜度,不影響結(jié)果。04熟悉數(shù)據(jù)預(yù)處理的流程與方法2.1.3

探索性數(shù)據(jù)分析認識探索性數(shù)據(jù)分析的作用與內(nèi)容01在少先驗假定下,通過多種手段探索數(shù)據(jù)結(jié)構(gòu)和規(guī)律的分析方法。探索性數(shù)據(jù)分析定義02由美國統(tǒng)計學(xué)家約翰·圖基在20世紀60年代提出。探索性數(shù)據(jù)分析提出者03面對雜亂數(shù)據(jù)時,能有效發(fā)現(xiàn)數(shù)據(jù)分布和變量相關(guān)性。探索性數(shù)據(jù)分析作用04包括數(shù)據(jù)清洗、描述、審計、查看分布、發(fā)現(xiàn)相關(guān)性等。探索性數(shù)據(jù)分析工作內(nèi)容2.1.4

數(shù)據(jù)建模了解數(shù)據(jù)建模的類型與應(yīng)用01計算機從數(shù)據(jù)提取信息并驗證,學(xué)習(xí)經(jīng)驗解決類似問題,如神經(jīng)網(wǎng)絡(luò)。監(jiān)督學(xué)習(xí)02計算機自主截取有用信息,學(xué)習(xí)目標具有不確定性。無監(jiān)督學(xué)習(xí)03無數(shù)據(jù)驗證時,計算機自主評估信息。強化學(xué)習(xí)04用于客戶流失預(yù)警、欺詐檢測、物體分類等業(yè)務(wù)場景。數(shù)據(jù)建模應(yīng)用2.1.5

模型評估重視模型評估的重要性與方法選擇合適的評估方法,能快速發(fā)現(xiàn)問題,優(yōu)化模型。模型評估重要性01分為離線評估和在線評估兩個階段。模型評估階段02針對不同機器學(xué)習(xí)任務(wù),選擇合適的評估指標。評估指標選擇03根據(jù)評估指標反饋,對模型進行調(diào)整和優(yōu)化。模型調(diào)整依據(jù)042.1.6

數(shù)據(jù)可視化借助圖形手段,清晰有效地傳達與溝通信息。數(shù)據(jù)可視化目的01與信息圖形、科學(xué)可視化、統(tǒng)計圖形等密切相關(guān)。數(shù)據(jù)可視化關(guān)聯(lián)領(lǐng)域02設(shè)計人員需平衡設(shè)計與功能,避免華而不實。數(shù)據(jù)可視化平衡問題03理解數(shù)據(jù)可視化的目的與挑戰(zhàn)2.1.7

數(shù)據(jù)產(chǎn)品廣義數(shù)據(jù)產(chǎn)品能輔助用戶決策的產(chǎn)品,如搜索引擎、個性化推薦引擎。01認識數(shù)據(jù)產(chǎn)品的定義與發(fā)展狹義數(shù)據(jù)產(chǎn)品如淘寶數(shù)據(jù)魔方、百度指數(shù)等,形態(tài)多樣。02數(shù)據(jù)產(chǎn)品用戶包括企業(yè)內(nèi)部用戶、外部企業(yè)客戶和個人客戶等。03數(shù)據(jù)產(chǎn)品發(fā)展形態(tài)從報表型到智能型,逐步發(fā)展和演變。042.2

數(shù)據(jù)全生命周期管理掌握數(shù)據(jù)全生命周期管理的定義、內(nèi)容與目標2.2.1

數(shù)據(jù)全生命周期管理定義01數(shù)據(jù)價值涵蓋數(shù)據(jù)采集、確權(quán)、定價等環(huán)節(jié),通過整合創(chuàng)造價值。02DIKW模型由數(shù)據(jù)、信息、知識、智慧構(gòu)成,體現(xiàn)數(shù)據(jù)增值過程。03數(shù)據(jù)全生命周期表述數(shù)據(jù)從產(chǎn)生到廢棄的過程,與DIKW模型緊密相關(guān)。04包括原始數(shù)據(jù)、信息、知識、智慧階段,價值不斷提升。數(shù)據(jù)全生命周期各階段理解數(shù)據(jù)價值與DIKW模型2.2.1

數(shù)據(jù)全生命周期管理定義DIKW模型的數(shù)據(jù)增值過程2.2.2

數(shù)據(jù)全生命周期管理內(nèi)容明確各階段的管理要點01數(shù)據(jù)創(chuàng)建從數(shù)據(jù)感知開始,接入工具并存儲,如交通監(jiān)控數(shù)據(jù)采集。02數(shù)據(jù)處理包括清洗、轉(zhuǎn)換、集成、歸約、建模和存儲等內(nèi)容。03數(shù)據(jù)建模和應(yīng)用用于業(yè)務(wù)決策、交通分析、操作指導(dǎo)和車輛管理等場景。04數(shù)據(jù)共享需考慮隱私和安全,通過安全共享層實現(xiàn)跨部門和組織共享。05數(shù)據(jù)歸檔將不活躍數(shù)據(jù)長期保存,減少存儲成本。06數(shù)據(jù)刪除安全刪除不再需要的數(shù)據(jù),防止泄露。2.2.3

數(shù)據(jù)全生命周期管理原則遵循數(shù)據(jù)管理的重要準則01數(shù)據(jù)質(zhì)量原則在各階段嚴格管理數(shù)據(jù)質(zhì)量,確保準確性和完整性。02數(shù)據(jù)安全原則涵蓋數(shù)據(jù)生命周期各環(huán)節(jié),保護數(shù)據(jù)安全。03合規(guī)性原則遵守法律法規(guī),記錄操作,確保數(shù)據(jù)合法合規(guī)。04可追溯性原則記錄數(shù)據(jù)來源和變化過程,便于定位和解決問題。05性能和可用性原則根據(jù)數(shù)據(jù)階段調(diào)整存儲,降低管理成本。2.2.4

數(shù)據(jù)全生命周期管理目標實現(xiàn)數(shù)據(jù)管理的多重價值O1提升數(shù)據(jù)價值有序管理數(shù)據(jù),挖掘潛力,提升業(yè)務(wù)運營和決策效率。O2增強合規(guī)性與安全性遵循法規(guī),保護數(shù)據(jù),避免法律風(fēng)險和經(jīng)濟損失。O3降低存儲成本合理存儲策略,歸檔或刪除不活躍數(shù)據(jù),降低成本。O4提高數(shù)據(jù)管理水平規(guī)范管理,滿足監(jiān)管要求,推動高質(zhì)量發(fā)展。2.2.5

數(shù)據(jù)全生命周期管理注意事項關(guān)注各階段的關(guān)鍵問題數(shù)據(jù)產(chǎn)生階段01.明確責(zé)任,根據(jù)場景選擇建模方法,減少風(fēng)險。數(shù)據(jù)采集階段02.保證數(shù)據(jù)源可靠,評估質(zhì)量,考慮整合復(fù)雜性。數(shù)據(jù)處理階段03.關(guān)注數(shù)據(jù)質(zhì)量、存儲和安全問題,合理選擇存儲媒介。數(shù)據(jù)使用階段04.分級授權(quán)訪問,進行數(shù)據(jù)分析,制作BI報表。數(shù)據(jù)銷毀階段05.歸檔不活躍數(shù)據(jù),徹底清除數(shù)據(jù),降低成本和風(fēng)險。其他注意事項06.包括數(shù)據(jù)分類分級、合規(guī)性、制定管理計劃等。2.2.6

數(shù)據(jù)全生命周期管理應(yīng)用以楚天數(shù)鏈為例了解實際應(yīng)用由趣鏈科技與湖北數(shù)據(jù)集團打造,構(gòu)建數(shù)據(jù)流通生態(tài)。01楚天數(shù)鏈簡介用區(qū)塊鏈確保數(shù)據(jù)源頭管理,記錄原始數(shù)據(jù)。02數(shù)據(jù)產(chǎn)生與收集利用分布式存儲,加工處理數(shù)據(jù),保障安全。03數(shù)據(jù)存儲與處理支持復(fù)雜分析,合規(guī)共享數(shù)據(jù),實現(xiàn)價值最大化。04數(shù)據(jù)分析與共享將數(shù)據(jù)用于業(yè)務(wù),及時歸檔或銷毀數(shù)據(jù)。05數(shù)據(jù)應(yīng)用與歸檔2.2.6

數(shù)據(jù)全生命周期管理應(yīng)用楚天數(shù)鏈的總體框架2.3

數(shù)據(jù)思維培養(yǎng)數(shù)據(jù)思維,應(yīng)用于生活與工作中2.3

數(shù)據(jù)思維定義明確數(shù)據(jù)思維的內(nèi)涵與要素01數(shù)據(jù)思維概念從數(shù)據(jù)獲取信息、分析問題、推理和解決問題的能力和思維方式。02數(shù)據(jù)思維核心要素包括數(shù)據(jù)敏感度和數(shù)據(jù)方法經(jīng)驗,用于解決實際問題。2.3

數(shù)據(jù)分析層次了解不同層次的數(shù)據(jù)分析描述性分析匯總、展示歷史數(shù)據(jù),描述過去事件,如通過報表呈現(xiàn)。01診斷性分析深入探究數(shù)據(jù),揭示事件原因,運用統(tǒng)計等技術(shù)。02預(yù)測性分析基于歷史數(shù)據(jù)預(yù)測未來趨勢,利用機器學(xué)習(xí)算法。03指導(dǎo)性分析提供行動建議優(yōu)化結(jié)果,結(jié)合預(yù)測和優(yōu)化算法。042.3.1

數(shù)據(jù)即資產(chǎn)認知01數(shù)據(jù)是與實物資產(chǎn)、金融資產(chǎn)同等重要甚至更具潛力的資產(chǎn)形式。02數(shù)據(jù)能夠為組織帶來經(jīng)濟利益、競爭優(yōu)勢和創(chuàng)新能力,不是簡單的副產(chǎn)品。03需要像管理土地、設(shè)備一樣,對數(shù)據(jù)進行有效收集、存儲、管理和維護。03確保數(shù)據(jù)的安全性、完整性和可用性,以實現(xiàn)長期價值。2.3.2價值導(dǎo)向的思維方式以挖掘數(shù)據(jù)潛在價值為根本出發(fā)點和落腳點,超越表面信息。01運用數(shù)據(jù)分析工具和技術(shù),深入挖掘規(guī)律、趨勢和關(guān)聯(lián)。02聚焦業(yè)務(wù)優(yōu)化、產(chǎn)品創(chuàng)新、市場拓展和決策支持等應(yīng)用場景。03實現(xiàn)數(shù)據(jù)價值變現(xiàn),提升組織績效。042.3.3數(shù)據(jù)驅(qū)動的創(chuàng)新意識1.利用數(shù)據(jù)資產(chǎn)推動業(yè)務(wù)模式、產(chǎn)品和服務(wù)的創(chuàng)新。2.數(shù)據(jù)是創(chuàng)新的重要源泉,通過分析發(fā)現(xiàn)新商業(yè)機會和用戶需求。3.激發(fā)創(chuàng)新靈感,優(yōu)化或變革現(xiàn)有業(yè)務(wù)模式。4.創(chuàng)造全新產(chǎn)品或服務(wù),應(yīng)對市場變化。核心要點2.3.4

數(shù)據(jù)全生命周期管理理念1.涵蓋數(shù)據(jù)從產(chǎn)生、收集、存儲、處理、分析到應(yīng)用和共享的全過程。2.每個環(huán)節(jié)注重數(shù)據(jù)質(zhì)量、安全和合規(guī)性,確保數(shù)據(jù)資產(chǎn)持續(xù)增值。3.在收集階段保證準確性和完整性;存儲和處理階段防止泄露和丟失。4.應(yīng)用和共享時遵循法律法規(guī)和道德規(guī)范,確保合法使用。核心要點2.3.5

數(shù)據(jù)共享與協(xié)作的觀念1.數(shù)據(jù)資產(chǎn)價值在共享和協(xié)作中最大化。2.打破數(shù)據(jù)孤島,促進部門間、組織間數(shù)據(jù)流通和整合。3.實現(xiàn)資源優(yōu)化配置和精細化管理,提升整體效率。4.推動協(xié)同創(chuàng)新,創(chuàng)造更多商業(yè)和社會價值。核心要點思考在你的學(xué)習(xí)生活中,你是怎么運用數(shù)據(jù)思維解決問題的?2.4

數(shù)據(jù)范式認識科學(xué)研究的范式轉(zhuǎn)變2.4

第四范式了解第四范式的提出與特點01第四范式提出者圖靈獎得主吉姆·格雷在2007年提出。02第四范式定義數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn),基于大量已知數(shù)據(jù)計算未知理論。03第四范式與第三范式區(qū)別第三范式先理論后驗證,第四范式先數(shù)據(jù)后得理論。思考如何理解第三范式是“人腦+電腦”,人腦是主角;而第四范式是“電腦+人腦”,電腦是主角?2.5

大數(shù)據(jù)思維理解大數(shù)據(jù)思維的定義2.5

大數(shù)據(jù)思維定義綜合不同觀點明確定義觀點一01用大數(shù)據(jù)思想文化思考解決問題,表述籠統(tǒng)且不準確。觀點二02基于數(shù)據(jù)分析產(chǎn)生價值挖掘思維,界定較窄且寬泛。觀點三03尊重事實,強調(diào)精確,基于數(shù)據(jù)分析形成結(jié)論,不全面。觀點四04以大數(shù)據(jù)為視角解決問題,分兩個層次認識。綜合定義05以大數(shù)據(jù)為核心思考,用技術(shù)方法整合分析數(shù)據(jù)解決問題。2.6常見的大數(shù)據(jù)思維方式理解大數(shù)據(jù)思維的方式2.6

常見大數(shù)據(jù)思維方式掌握多種大數(shù)據(jù)思維方式1將問題轉(zhuǎn)化為數(shù)據(jù)問題,通過數(shù)據(jù)分析解決。數(shù)據(jù)化思維2數(shù)據(jù)是決策和創(chuàng)新核心,基于分析結(jié)果做決策。數(shù)據(jù)核心思維3大數(shù)據(jù)環(huán)境下,用盡可能多數(shù)據(jù)進行分析,獲全面視角。全樣思維4接受一定程度錯誤,使分析更靈活,快速適應(yīng)變化。容錯思維5強調(diào)發(fā)現(xiàn)數(shù)據(jù)相關(guān)性,不追求因果關(guān)系,輔助決策。相關(guān)思維6一切皆可量化,通過定量方法提供描述性信息。定量思維7通過實驗測試假設(shè)和模型,優(yōu)化決策過程。實驗思維8深入分析數(shù)據(jù),創(chuàng)新改進產(chǎn)品服務(wù),提高競爭力。創(chuàng)新思維2.7

案例通過實際案例理解大數(shù)據(jù)思維與應(yīng)用2.7.1

啤酒與尿布案例分析關(guān)聯(lián)分析的經(jīng)典案例案例背景沃爾瑪發(fā)現(xiàn)男性買尿布時常搭配啤酒,推出促銷手段銷量大增。1數(shù)據(jù)分析方法使用關(guān)聯(lián)分析算法,挖掘購物清單中的關(guān)聯(lián)信息。2程序示例安裝工具包,設(shè)置數(shù)據(jù)集,挖掘頻繁項集和規(guī)則。具體程序見課本31頁。3運行結(jié)果得到啤酒與尿布的關(guān)聯(lián)規(guī)則,體現(xiàn)數(shù)據(jù)分析價值。42.7.2

開普勒定律案例開普勒定律內(nèi)容包括橢圓定律、面積定律和調(diào)和定律,描述行星運動。數(shù)據(jù)研究方法利用天文觀測數(shù)據(jù),通過編程驗證開普勒第三定律。程序示例提取行星數(shù)據(jù),計算比值,繪制散點圖和擬合直線。具體程序見課本32-33頁。運行結(jié)果得出各行星比值和常量k,驗證定律的線性關(guān)系。用數(shù)據(jù)方法研究科學(xué)定律1234謝謝觀看第3章大數(shù)據(jù)平臺探索大數(shù)據(jù)技術(shù)的核心與關(guān)鍵目錄大數(shù)據(jù)平臺概述1大數(shù)據(jù)與云計算關(guān)系2Hadoop平臺3Spark平臺43.

大數(shù)據(jù)平臺概述了解大數(shù)據(jù)平臺的起源、發(fā)展及趨勢3.

大數(shù)據(jù)平臺起源與發(fā)展追溯大數(shù)據(jù)平臺的誕生歷程1.互聯(lián)網(wǎng)發(fā)展推動20世紀90年代互聯(lián)網(wǎng)高速發(fā)展,催生了對大數(shù)據(jù)存儲和計算技術(shù)的需求。2.Google算法革命Google搜索引擎算法變革,進一步促進了大數(shù)據(jù)相關(guān)技術(shù)的不斷進步。3.Hadoop開啟新時代Hadoop的出現(xiàn),標志著云計算時代的到來,為大數(shù)據(jù)處理提供新方案。4.實時計算需求增長近年來實時計算需求增加,促使Spark、Flink等計算引擎興起。5.平臺發(fā)展方向大數(shù)據(jù)技術(shù)平臺朝著流批一體、云原生數(shù)據(jù)湖方向發(fā)展,注重隱私與安全。6.大數(shù)據(jù)平臺重要性大數(shù)據(jù)平臺成為大模型訓(xùn)練等AI場景的核心支撐,推動行業(yè)發(fā)展。3.

大數(shù)據(jù)平臺發(fā)展趨勢展望大數(shù)據(jù)平臺的未來走向未來大數(shù)據(jù)平臺將更好地融合流處理和批處理,實現(xiàn)數(shù)據(jù)的實時分析與歷史分析結(jié)合。流批一體趨勢01云原生數(shù)據(jù)湖將成為主流,提供更高效、更靈活的數(shù)據(jù)存儲和處理方式。云原生數(shù)據(jù)湖02隨著數(shù)據(jù)重要性提升,平臺將加強數(shù)據(jù)隱私保護和安全技術(shù)。數(shù)據(jù)隱私與安全03大數(shù)據(jù)平臺將融入更多人工智能技術(shù),實現(xiàn)智能化數(shù)據(jù)處理和分析。智能化發(fā)展04不同大數(shù)據(jù)平臺生態(tài)將更加融合,實現(xiàn)資源共享和優(yōu)勢互補。生態(tài)融合05與邊緣計算結(jié)合,滿足實時數(shù)據(jù)處理和降低網(wǎng)絡(luò)傳輸成本的需求。邊緣計算結(jié)合063.1

大數(shù)據(jù)與云計算關(guān)系剖析大數(shù)據(jù)與云計算之間的緊密聯(lián)系3.1.1

技術(shù)角度關(guān)系從技術(shù)層面看兩者的相互依賴存儲與計算需求大數(shù)據(jù)存儲、處理和分析依賴云計算提供強大計算能力和大量存儲空間。1云計算提供資源云計算為大數(shù)據(jù)部署處理和分析工具,提供資源彈性,按需分配計算資源。2相互依賴關(guān)系沒有大數(shù)據(jù)信息積淀,云計算難有用武之地;無云計算處理能力,大數(shù)據(jù)無法有效分析。33.1.2

實際應(yīng)用角度關(guān)系01大數(shù)據(jù)分布式處理、數(shù)據(jù)庫和云存儲等技術(shù)需依托云計算實現(xiàn)。云計算為前提02云計算分布式架構(gòu)高效處理海量數(shù)據(jù),提供彈性可擴展計算資源。分布式架構(gòu)優(yōu)勢03云計算滿足大數(shù)據(jù)分析對計算資源和處理能力的高要求。滿足分析需求結(jié)合實際應(yīng)用分析兩者的協(xié)同作用3.1.3

商業(yè)模式與發(fā)展角度關(guān)系探討商業(yè)模式下兩者的相互影響按需服務(wù)模式云計算按需服務(wù)模式為大數(shù)據(jù)應(yīng)用提供靈活商業(yè)模式,用戶按需購買資源。大數(shù)據(jù)影響架構(gòu)大數(shù)據(jù)發(fā)展促使云計算提供更高效數(shù)據(jù)處理和分析工具,優(yōu)化技術(shù)架構(gòu)。相互促進發(fā)展兩者相互促進,云計算推動大數(shù)據(jù)應(yīng)用,大數(shù)據(jù)促進云計算創(chuàng)新。3.1.4

總結(jié)概括大數(shù)據(jù)與云計算的關(guān)系云計算提升大數(shù)據(jù)處理能力,大數(shù)據(jù)推動云計算技術(shù)發(fā)展。相互促進提升01兩者結(jié)合使大數(shù)據(jù)應(yīng)用范圍更廣泛,涵蓋更多行業(yè)和場景。應(yīng)用范圍拓展02共同推動大數(shù)據(jù)和云計算產(chǎn)業(yè)快速發(fā)展,創(chuàng)造巨大經(jīng)濟價值。產(chǎn)業(yè)快速發(fā)展033.2

Hadoop平臺深入解析Hadoop平臺的組成與原理3.2.1

Hadoop簡介了解Hadoop的發(fā)展歷程和核心思想發(fā)展歷史2003年受Google啟發(fā)構(gòu)建Nutch項目,2006年Hadoop獨立,2008年成為Apache頂級項目。1核心思想遵循“一次編寫,到處運行”原則,利用分布式存儲與計算處理海量數(shù)據(jù)。2生態(tài)圈構(gòu)成Hadoop生態(tài)圈由多個組件組成,各司其職,構(gòu)成強大大數(shù)據(jù)處理平臺。3組件功能不同組件負責(zé)數(shù)據(jù)存儲、資源管理、數(shù)據(jù)處理、分析、采集傳輸?shù)热蝿?wù)。4發(fā)展現(xiàn)狀目前Hadoop在大數(shù)據(jù)處理領(lǐng)域廣泛應(yīng)用,不斷更新優(yōu)化以適應(yīng)新需求。53.2.1

Hadoop生態(tài)圈組件詳細介紹生態(tài)圈各組件的功能1數(shù)據(jù)存儲層HDFS可靠存儲大規(guī)模數(shù)據(jù),HBase適合實時讀/寫大量結(jié)構(gòu)化數(shù)據(jù)。2資源管理層YARN管理和調(diào)度計算資源,優(yōu)化集群資源利用。3數(shù)據(jù)處理層MapReduce適合批量處理,Spark高效處理迭代算法,提供多種計算模式。4數(shù)據(jù)分析層Hive適用于離線分析,Pig適合復(fù)雜數(shù)據(jù)轉(zhuǎn)換腳本編寫。5數(shù)據(jù)采集與傳輸層Sqoop實現(xiàn)關(guān)系數(shù)據(jù)庫和Hadoop數(shù)據(jù)傳輸,F(xiàn)lume高效收集日志數(shù)據(jù)。6協(xié)調(diào)與監(jiān)控層ZooKeeper解決分布式數(shù)據(jù)管理問題,Oozie調(diào)度復(fù)雜任務(wù)并監(jiān)控狀態(tài)。7機器學(xué)習(xí)與高級分析層Mahout提供多種機器學(xué)習(xí)算法,助力構(gòu)建智能應(yīng)用程序。3.2.1

Hadoop生態(tài)圈組件Hadoop生態(tài)圈3.2.2

HDFS工作機制探究HDFS的架構(gòu)、工作原理和特點基礎(chǔ)架構(gòu)HDFS采用master/slave架構(gòu),由客戶端、主節(jié)點、數(shù)據(jù)節(jié)點和輔助主節(jié)點組成。1工作機制包括數(shù)據(jù)分片與存儲、數(shù)據(jù)訪問、容錯性和CheckPoint機制等。2數(shù)據(jù)分片與存儲大文件分片存儲,默認128MB或256MB,副本數(shù)通常為3個。3數(shù)據(jù)訪問客戶端先與主節(jié)點交互獲取元數(shù)據(jù),再與數(shù)據(jù)節(jié)點進行數(shù)據(jù)讀寫。4容錯性通過數(shù)據(jù)塊副本、心跳機制、數(shù)據(jù)復(fù)制和負載均衡確保數(shù)據(jù)完整性。5CheckPoint機制輔助主節(jié)點定期將主節(jié)點元數(shù)據(jù)持久化到磁盤,優(yōu)化存儲和恢復(fù)。6HDFS特點分布式存儲、容錯性設(shè)計、高效訪問,但也存在不支持文件修改等缺點。73.2.3

HDFS命令掌握常用的HDFS命令行工具常見命令選項如-ls、-mkdir、-put、-get、-rm等,用于管理和操作HDFS文件系統(tǒng)。命令語法hdfsdfs-<命令>[選項]<參數(shù)>或hadoopfs-<命令>[選項]<參數(shù)>。部分命令說明如-cat顯示文件內(nèi)容,-chmod更改權(quán)限,-du計算文件或目錄大小等。其他命令其他命令詳見Hadoop官網(wǎng),可根據(jù)具體需求選擇使用。命令使用示例給出一些常用命令的使用示例,幫助用戶更好地理解和操作HDFS。123453.2.4

分布式并行計算框架MapReduce學(xué)習(xí)MapReduce的計算原理和優(yōu)勢1計算原理基于“分而治之”策略,將大數(shù)據(jù)集分解并行處理,再合并結(jié)果。2Split階段默認按行分割輸入文件,可自定義分片方法,生成鍵值對。3Map階段處理解析出的鍵值對,生成中間鍵值對,可自定義合并函數(shù)預(yù)合并。4Shuffle階段對Map輸出分區(qū)、排序、合并,為Reduce準備輸入數(shù)據(jù)。5Reduce階段接收數(shù)據(jù),調(diào)用Reduce函數(shù)計算,輸出結(jié)果到HDFS文件。6MapReduce優(yōu)勢簡化并行編程、高可擴展性、具有容錯性,降低開發(fā)門檻。3.3

Spark平臺全面認識Spark平臺的特點和應(yīng)用3.3.1

Spark核心組件了解Spark的主要組成部分和功能1提供內(nèi)存計算能力,基于彈性分布式數(shù)據(jù)集(RDD)進行并行操作。SparkCore2允許使用SQL或DataFrameAPI處理結(jié)構(gòu)化數(shù)據(jù),優(yōu)化查詢性能。SparkSQL3用于處理實時數(shù)據(jù)流,將數(shù)據(jù)流拆分成批次作為RDD處理。SparkStreaming4提供大量機器學(xué)習(xí)算法和實用程序,支持大規(guī)模數(shù)據(jù)機器學(xué)習(xí)。SparkMLlib5用于圖計算的API,擴展RDDAPI,解決圖形分析問題。GraphX6各組件緊密集成,共同完成大數(shù)據(jù)處理、分析、機器學(xué)習(xí)等任務(wù)。組件協(xié)同工作3.3.1

Spark核心組件Spark的核心組件3.3.2

Spark工作機制探究Spark的整體架構(gòu)和工作流程采用Master-Worker模式,主節(jié)點管理任務(wù)調(diào)度和資源分配,工作節(jié)點執(zhí)行任務(wù)。整體架構(gòu)1啟動Driver構(gòu)造DAG,請求資源,Worker通報可用資源,分配任務(wù)并執(zhí)行。工作過程2Driver啟動應(yīng)用程序,初始化配置,構(gòu)造DAG圖,分配任務(wù)給Worker。Driver功能3Worker接收任務(wù),啟動Executor執(zhí)行,與Driver通信上報任務(wù)狀態(tài)。Worker功能4Driver根據(jù)DAG圖和工作節(jié)點可用資源,合理分配任務(wù)和調(diào)度計算資源。資源分配與調(diào)度53.3.2

Spark工作機制Spark的整體架構(gòu)3.3.3

分布式計算模型與方式掌握Spark的RDD操作和計算方式1RDD定義RDD是已被分區(qū)、不可變的可并行操作數(shù)據(jù)集合,抽象表示數(shù)據(jù)。2轉(zhuǎn)換操作如map、filter、flatMap等,惰性生成新RDD,可多次組合構(gòu)建邏輯。3動作操作如collect、count、reduce等,觸發(fā)轉(zhuǎn)換執(zhí)行,返回結(jié)果或?qū)懭氪鎯?。具體程序見課本47頁。4數(shù)據(jù)并行將數(shù)據(jù)分割分區(qū),在不同節(jié)點并行處理,提高數(shù)據(jù)處理效率。5任務(wù)并行將作業(yè)拆分成任務(wù),在多節(jié)點并行執(zhí)行,增加處理吞吐量。6內(nèi)存計算基于內(nèi)存計算模式,快速訪問復(fù)用中間結(jié)果,減少I/O開銷。3.3.4

Hadoop和Spark對比情況對比分析Hadoop和Spark的特點與適用場景從計算模型、數(shù)據(jù)存儲、編程模型、中間數(shù)據(jù)處理和應(yīng)用場景等方面對比。核心特性對比1Spark基于內(nèi)存計算,在處理迭代計算任務(wù)時性能遠優(yōu)于Hadoop。性能對比2Hadoop和Spark都有完善生態(tài)系統(tǒng)和良好擴展性,滿足不同需求。生態(tài)系統(tǒng)與擴展性3Hadoop適用于離線大規(guī)模靜態(tài)數(shù)據(jù),Spark適用于多種場景,如實時處理。適用場景4根據(jù)實際應(yīng)用場景、性能需求和數(shù)據(jù)處理復(fù)雜度,靈活選擇或結(jié)合使用。選擇依據(jù)5謝謝觀看第4章大數(shù)據(jù)開發(fā)掌握大數(shù)據(jù)開發(fā)流程,以空氣質(zhì)量預(yù)測為例深入理解目錄01大數(shù)據(jù)開發(fā)流程02需求分析03數(shù)據(jù)獲取04探索性數(shù)據(jù)分析05數(shù)據(jù)加工4.1大數(shù)據(jù)開發(fā)流程了解大數(shù)據(jù)開發(fā)各環(huán)節(jié)及空氣質(zhì)量預(yù)測案例流程大數(shù)據(jù)開發(fā)流程概述大數(shù)據(jù)開發(fā)的基本階段大數(shù)據(jù)開發(fā)定義針對不同大數(shù)據(jù)系列、各環(huán)節(jié)和技術(shù)手段進行有差異開發(fā)的過程。01大數(shù)據(jù)開發(fā)核心階段涵蓋需求分析、數(shù)據(jù)采集等八大核心階段,助力問題解決。02發(fā)展趨勢未來將注重“數(shù)據(jù)+人工智能”一體化,實現(xiàn)全鏈路自動化。03流程特點流程復(fù)雜且涉及多階段,具體流程因項目和技術(shù)而異。04各階段介紹大數(shù)據(jù)開發(fā)各階段的具體內(nèi)容1需求分析明確開發(fā)目標和需求,了解業(yè)務(wù)、數(shù)據(jù)來源及處理需求。2數(shù)據(jù)采集根據(jù)需求分析結(jié)果,從數(shù)據(jù)庫、API等來源采集數(shù)據(jù)。3數(shù)據(jù)預(yù)處理對采集數(shù)據(jù)進行清洗、轉(zhuǎn)換和整合,提高數(shù)據(jù)質(zhì)量。4數(shù)據(jù)存儲將預(yù)處理數(shù)據(jù)存入合適系統(tǒng),如關(guān)系、非關(guān)系數(shù)據(jù)庫等。5數(shù)據(jù)分析用統(tǒng)計、挖掘等方法分析存儲數(shù)據(jù),提取有價值信息。6數(shù)據(jù)可視化以圖表和報表等形式展示分析結(jié)果,幫助用戶理解數(shù)據(jù)。7模型部署將分析生成的模型部署到生產(chǎn)環(huán)境,用于實際應(yīng)用。8監(jiān)控與優(yōu)化監(jiān)控部署系統(tǒng),根據(jù)結(jié)果和反饋優(yōu)化模型和系統(tǒng)??諝赓|(zhì)量預(yù)測案例流程以空氣質(zhì)量預(yù)測為例的流程說明01案例背景空氣污染影響大,空氣質(zhì)量預(yù)測是防污攻堅戰(zhàn)重要手段。02主要階段涵蓋需求分析、數(shù)據(jù)獲取、探索性分析和數(shù)據(jù)加工等。03案例意義為大氣污染防治提供支持,研判污染物排放和變化趨勢。04流程示例以實際案例展示各階段在大氣質(zhì)量預(yù)測中的具體應(yīng)用。4.2需求分析明確空氣質(zhì)量預(yù)測的需求與各指標含義空氣質(zhì)量預(yù)測需求空氣質(zhì)量預(yù)測的重要性和相關(guān)要求01重要性是氣象服務(wù)的關(guān)鍵,對空氣質(zhì)量“健康管理”有重要意義。02相關(guān)政策中國氣象局《“十四五”公共氣象服務(wù)發(fā)展規(guī)劃》強調(diào)氣象服務(wù)數(shù)字化、智能化。03核心要求加強氣象服務(wù)核心技術(shù)研發(fā),深化信息技術(shù)融合。04應(yīng)用場景在防污攻堅戰(zhàn)中,用于研判污染物排放和空氣質(zhì)量變化。數(shù)據(jù)指標定義參與空氣質(zhì)量評價的主要污染物指標01可吸入顆粒物直徑小于等于10μm,來源多樣,影響人體健康和大氣能見度。02細顆粒物直徑小于等于2.5μm,主要來源于人為排放,是空氣污染情況的衡量指標。03二氧化氮棕紅色氣體,參與臭氧形成,是酸雨的成因之一。04二氧化硫無色刺激性氣體,主要來自燃燒和冶煉,危害肺部健康。05一氧化碳無色有毒氣體,不完全燃燒產(chǎn)物,城市污染來源之一。06臭氧光化學(xué)煙霧成分,由陽光照射污染物生成,夏季可能更多。4.3數(shù)據(jù)獲取介紹大數(shù)據(jù)獲取方法及教材案例數(shù)據(jù)集大數(shù)據(jù)獲取方法常見的數(shù)據(jù)獲取途徑數(shù)據(jù)庫采集企業(yè)部署數(shù)據(jù)庫,通過負載均衡和分片完成數(shù)據(jù)采集。01系統(tǒng)日志采集收集公司業(yè)務(wù)平臺日志,供大數(shù)據(jù)系統(tǒng)分析使用。02網(wǎng)絡(luò)數(shù)據(jù)采集用爬蟲或公開API從網(wǎng)站提取數(shù)據(jù),存入本地系統(tǒng)。03感知設(shè)備數(shù)據(jù)采集通過傳感器等設(shè)備自動采集信號、圖片、錄像等數(shù)據(jù)。04公開渠道獲取從省市政務(wù)網(wǎng)站、科研平臺等公開渠道獲取數(shù)據(jù)。05鳶尾花數(shù)據(jù)集鳶尾花數(shù)據(jù)集的介紹與使用方法數(shù)據(jù)集介紹含3類150個樣本,每類50個樣本,每個樣本有4個特征:花萼長度、花萼寬度、花瓣長度、花瓣寬度。1數(shù)據(jù)加載方法用Pythonpandas包load_iris()函數(shù)加載,需合并特征類別。2數(shù)據(jù)合并處理類別數(shù)據(jù)為行向量,用reshape轉(zhuǎn)列向量后橫向合并。3數(shù)據(jù)查看方式可通過head()、info()等方法查看數(shù)據(jù)基本情況。45數(shù)據(jù)用途可用于數(shù)據(jù)分析和建模,學(xué)習(xí)相關(guān)算法和知識。合并后的數(shù)據(jù)示例如右圖所示,具體程序見課本54-55頁。青島公共數(shù)據(jù)開放網(wǎng)數(shù)據(jù)網(wǎng)站介紹青島公共數(shù)據(jù)開放網(wǎng)提供青島市各類公共開放數(shù)據(jù)的下載與服務(wù),為開展政務(wù)信息資源的社會化開發(fā)提供數(shù)據(jù)支撐,推動信息增值服務(wù)業(yè)的發(fā)展以及相關(guān)數(shù)據(jù)分析與研究工作的開展。截至2024年4月,已開放10個區(qū)市、43個數(shù)據(jù)部門、1個企事業(yè)單位、3939個數(shù)據(jù)目錄、16.5億條數(shù)據(jù)、996個數(shù)據(jù)接口和40個創(chuàng)新應(yīng)用。青島公共數(shù)據(jù)開放網(wǎng)數(shù)據(jù)從該網(wǎng)站獲取空氣質(zhì)量監(jiān)測信息1注冊并查找完成注冊后登錄,單擊數(shù)據(jù)目錄,選擇青島市生態(tài)環(huán)境局,第一條數(shù)據(jù)就是空氣質(zhì)量監(jiān)測信息。2查看數(shù)據(jù)基本信息單擊空氣質(zhì)量監(jiān)測信息,通過基本信息可以了解數(shù)據(jù)量、數(shù)據(jù)的基本描述等信息。數(shù)據(jù)目錄基本信息青島公共數(shù)據(jù)開放網(wǎng)數(shù)據(jù)從該網(wǎng)站獲取空氣質(zhì)量監(jiān)測信息3數(shù)據(jù)預(yù)覽單擊數(shù)據(jù)項和數(shù)據(jù)預(yù)覽,可查看各數(shù)據(jù)的基本情況和數(shù)據(jù)呈現(xiàn)。數(shù)據(jù)項數(shù)據(jù)預(yù)覽青島公共數(shù)據(jù)開放網(wǎng)數(shù)據(jù)從該網(wǎng)站獲取空氣質(zhì)量監(jiān)測信息4數(shù)據(jù)下載單擊數(shù)據(jù)下載,可下載各種格式的數(shù)據(jù),表格文件僅是部分數(shù)據(jù),可進行數(shù)據(jù)審查和探索性分析。如需全部數(shù)據(jù),可通過API接口獲取。5數(shù)據(jù)讀取用Python讀取數(shù)據(jù),通過head()或info()查看數(shù)據(jù)情況。數(shù)據(jù)下載數(shù)據(jù)讀取具體程序見課本57-59頁4.4探索性數(shù)據(jù)分析了解探索性數(shù)據(jù)分析概念、技術(shù)及案例應(yīng)用4.4.1探索性數(shù)據(jù)分析概念定義初步了解數(shù)據(jù)集的特征,發(fā)現(xiàn)數(shù)據(jù)中的模式、趨勢或關(guān)聯(lián),以及檢驗假設(shè)。01主要內(nèi)容數(shù)據(jù)總覽、查看異常、描述統(tǒng)計、特征分析、可視化分析、方程擬合與計算特征量。02分析目的理解數(shù)據(jù)結(jié)構(gòu)規(guī)律,為后續(xù)數(shù)據(jù)處理和建模奠定基礎(chǔ)。03分析方法運用統(tǒng)計、可視化等方法進行分析,發(fā)現(xiàn)數(shù)據(jù)潛在信息。04探索性數(shù)據(jù)分析的定義和內(nèi)容4.4.2探索性數(shù)據(jù)分析理論與技術(shù)相關(guān)的理論和技術(shù)要點描述性統(tǒng)計1提取統(tǒng)計量描述數(shù)據(jù)特征,如頻數(shù)、均值、分位數(shù)、方差等。相關(guān)性分析2分析特征相關(guān)程度,計算相關(guān)系數(shù),繪制散點圖與熱力圖。線性回歸3確定特征線性關(guān)系表達式,用最小二乘法計算參數(shù)。重復(fù)值檢測4用duplicated()函數(shù)檢測數(shù)據(jù)重復(fù)值。缺失值檢測5通過info()函數(shù)查看數(shù)據(jù)信息,判斷是否有缺失值。異常值檢測6

具體程序見課本60-70頁4.4.2探索性數(shù)據(jù)分析理論與技術(shù)以鳶尾花數(shù)據(jù)為例的部分探索性分析結(jié)果具體程序見課本60-70頁1、描述性統(tǒng)計(1)頻數(shù)與頻率類別頻率直方圖(2)中心趨勢與離散程度花萼長度分布直方圖每種類別50個樣本,三種類別分布數(shù)量相同。均值>中位數(shù)>眾數(shù),總體方差為0.68,標準為差0.83。(3)峰度與偏度花萼長度分布圖偏度為0.31,峰度為-0.55,說明分布右偏,頂部較平。4.4.2探索性數(shù)據(jù)分析理論與技術(shù)以鳶尾花數(shù)據(jù)為例的部分探索性分析結(jié)果重復(fù)值與缺失值檢測部分此處不贅述,具體程序見課本60-70頁。2、相關(guān)性分析3、線性回歸4、異常值檢測特征關(guān)系示意圖散點圖和線性回歸線箱線圖對角線上的分布圖顯示,不同種類的花,其萼片長、花瓣長、花瓣寬的分布差異較大;花瓣長和花瓣寬之間、萼片長和花瓣長、寬之間的線性關(guān)系比較明顯?;ò觊L和花瓣寬之間的線性關(guān)系呈正相關(guān)。由箱線圖顯示,花萼長度數(shù)據(jù)沒有異常值。4.4.2探索性數(shù)據(jù)分析理論與技術(shù)討論有時候由于數(shù)據(jù)里的異常值太大或太小,會對均值和標準差的計算產(chǎn)生較大影響,從而導(dǎo)致識別失敗,需要用中位數(shù)和絕對中位差代替均值,再進行正態(tài)化。比如數(shù)據(jù)data=[10,12,14,15,200,12,14,15,13,14],請嘗試用該方法處理。?4.4.3青島空氣質(zhì)量探索性數(shù)據(jù)分析探索性分析流程1觀測站數(shù)據(jù)統(tǒng)計統(tǒng)計觀測站個數(shù)和具體情況,分組計算各特征統(tǒng)計量。2時間特征轉(zhuǎn)換將觀測時間特征轉(zhuǎn)換為日期類型,便于后續(xù)分析。3數(shù)據(jù)變化情況繪制各觀測站不同時期的數(shù)據(jù)變化圖,檢測異常值。4自動化分析工具用ydata-profiling庫生成報告,節(jié)省時間提升質(zhì)量。5分析結(jié)果展示通過報告展示數(shù)據(jù)重復(fù)、缺失、異常等情況。具體程序見課本70-78頁4.4.3青島空氣質(zhì)量探索性數(shù)據(jù)分析探索性分析部分結(jié)果展示具體程序見課本70-78頁2、數(shù)據(jù)變化情況(以PM2.5為例)1、觀測站數(shù)據(jù)統(tǒng)計基本統(tǒng)計量分組統(tǒng)計PM2.5變化圖4.4.3青島空氣質(zhì)量探索性數(shù)據(jù)分析自動化分析工具ydata-profiling庫介紹具體程序見課本70-78頁1、簡介ydata-profiling庫提供了一種簡潔而快速的探索性數(shù)據(jù)分析方式,可以對DataFrame進行擴展分析,并允許將數(shù)據(jù)分析結(jié)果導(dǎo)出為不同格式,如.html和.json。2、功能總體來看,報告包括概述、警示、重現(xiàn)三個部分,涵蓋類型推斷、單變量分析、多變量分析、時間序列、文本分析、文件和圖像分析、比較數(shù)據(jù)集、生成報告等功能。報告概述報告警示4.4.3青島空氣質(zhì)量探索性數(shù)據(jù)分析ydata-profiling報告部分結(jié)果展示具體程序見課本70-78頁1、特征統(tǒng)計(以PM2.5為例)基本統(tǒng)計量詳細統(tǒng)計量從基本統(tǒng)計量來看,數(shù)據(jù)中存在異常值,且缺失值(0值)占比也很高。單擊Moredetails,如右圖所示,可以查看更多的內(nèi)容,如分位數(shù)統(tǒng)計、描述性統(tǒng)計、直方圖、共同值和極值。4.4.3青島空氣質(zhì)量探索性數(shù)據(jù)分析ydata-profiling報告部分結(jié)果展示具體程序見課本70-78頁2、交互作用可以觀察特征之間的交互作用,如正相關(guān)、負相關(guān)、無相關(guān)等3、相關(guān)性通過熱力圖和表格展示特征之間的相關(guān)性,也可以看到具體的值。4、缺失值通過柱狀圖可以清晰地看到每個字段缺失值情況。5、重復(fù)行可以查看重復(fù)的樣本情況。4.4.3青島空氣質(zhì)量探索性數(shù)據(jù)分析思考DataFormulator是微軟研究院推出的開源AI驅(qū)動的數(shù)據(jù)可視化工具,幫助用戶通過簡單交互和指令快速創(chuàng)建豐富的數(shù)據(jù)可視化圖表,可更高效地進行數(shù)據(jù)智能探索。試用該工具對青島空氣質(zhì)量數(shù)據(jù)進行智能探索。?4.5數(shù)據(jù)加工掌握數(shù)據(jù)加工內(nèi)容、方法及應(yīng)用案例4.5.1數(shù)據(jù)加工內(nèi)容1對原始數(shù)據(jù)處理、整理和清洗,提高質(zhì)量和可利用性的過程。定義2處理重復(fù)、缺失、錯誤等臟數(shù)據(jù),保證數(shù)據(jù)準確性。臟數(shù)據(jù)處理3整理來源多樣、格式不統(tǒng)一的數(shù)據(jù),使其結(jié)構(gòu)一致。亂數(shù)據(jù)處理4使數(shù)據(jù)更適合分析、建模和決策,提升數(shù)據(jù)價值。加工目的5包括清洗、轉(zhuǎn)換、整合等步驟,按需求有序進行。加工流程數(shù)據(jù)加工的定義和主要內(nèi)容4.5.2數(shù)據(jù)清洗數(shù)據(jù)清洗的具體處理方法1重復(fù)值處理用drop_duplicates()函數(shù)刪除數(shù)據(jù)中的重復(fù)行。2缺失值處理有刪除、常量填充、插值填充等方法處理缺失值。3異常值處理可刪除、替換、分箱處理或使用模型處理異常值。4處理方法選擇根據(jù)數(shù)據(jù)特性和分析目的選擇合適的處理方法。5清洗效果評估通過對比清洗前后數(shù)據(jù),評估清洗效果和質(zhì)量。具體程序見課本80-86頁4.5.2數(shù)據(jù)清洗缺失值與異常值的處理方法缺失值常見的缺失值分為完全隨機缺失、隨機缺失和非隨機缺失三種。根據(jù)數(shù)據(jù)的性質(zhì)與分析目的可選用一下處理方式:刪除:適用于數(shù)據(jù)量較大且缺失比例較小的情形。常量填充:可根據(jù)需要采用0值、均值、中位數(shù)、眾數(shù)等填充。插值填充:常見有線性插值、多項式插值、樣條插值等。異常值常見的異常值處理方法有:刪除異常值:異常值數(shù)量較少且對整體數(shù)據(jù)影響較小時。替換異常值:使用均值、中位數(shù)等代替。分箱處理:將異常值分到邊界箱中。使用穩(wěn)健統(tǒng)計量:如中位數(shù)、四分位數(shù)等。使用模型處理:使用一些相對穩(wěn)健的模型,嶺回歸、支持向量機等聚類方法:可采用聚類綜合判斷。具體程序見課本80-86頁4.5.3數(shù)據(jù)轉(zhuǎn)換格式轉(zhuǎn)換用pandas等庫將數(shù)據(jù)格式從一種轉(zhuǎn)換為另一種。1結(jié)構(gòu)轉(zhuǎn)換實現(xiàn)數(shù)據(jù)從扁平到層次或反之轉(zhuǎn)換、調(diào)整數(shù)據(jù)結(jié)構(gòu)、添加、刪除或重命名列。2類型轉(zhuǎn)換轉(zhuǎn)換數(shù)據(jù)類型,如字符串轉(zhuǎn)日期、數(shù)值類型轉(zhuǎn)換等。3歸一化/標準化消除量綱影響,使數(shù)據(jù)符合特定分布,加快模型收斂。4離散化/分類將連續(xù)變量轉(zhuǎn)換為離散變量,常使用分箱法、閾值法、映射法和決策樹法等。5編碼轉(zhuǎn)換對文本、分類、地理數(shù)據(jù)進行編碼轉(zhuǎn)換,如標簽編碼、獨熱編碼、目標編碼等。6數(shù)據(jù)轉(zhuǎn)換的類型具體程序見課本86-99頁4.5.3數(shù)據(jù)轉(zhuǎn)換部分數(shù)據(jù)轉(zhuǎn)換結(jié)果展示具體程序見課本86-99頁歸一化/標準化結(jié)果離散化結(jié)果(年齡)編碼可視化(城市)4.5.4數(shù)據(jù)整合數(shù)據(jù)整合的不同分類方式01物理數(shù)據(jù)整合邏輯數(shù)據(jù)整合按整合層次分類基于ETL的整合基于數(shù)據(jù)倉庫的整合按整合方法分類0203結(jié)構(gòu)化整合非結(jié)構(gòu)化整合按數(shù)據(jù)源類型分類實時整合批量整合按整合實時性分類04具體程序見課本86-99頁4.5.5青島空氣質(zhì)量數(shù)據(jù)加工對青島空氣質(zhì)量數(shù)據(jù)的加工處理重復(fù)數(shù)據(jù)處理01刪除數(shù)據(jù)中的重復(fù)值,減少冗余數(shù)據(jù)。缺失數(shù)據(jù)處理02將0值轉(zhuǎn)為缺失值,不同特征用不同方法處理。異常數(shù)據(jù)處理03用四分位距法識別異常值,用均值替換。數(shù)據(jù)加工效果04對比加工前后數(shù)據(jù),評估數(shù)據(jù)質(zhì)量的提升。加工后數(shù)據(jù)應(yīng)用05加工后的數(shù)據(jù)可用于更準確的質(zhì)量預(yù)測和分析。具體程序見課本100-103頁4.5.5青島空氣質(zhì)量數(shù)據(jù)加工部分加工處理結(jié)果由異常數(shù)據(jù)處理前后的箱線圖對比顯示,數(shù)據(jù)異常得到了很大改善。篇幅原因,此處只展示異常數(shù)據(jù)處理結(jié)果,具體程序見課本100-103頁謝謝觀看第4章大數(shù)據(jù)開發(fā):

特征工程與數(shù)據(jù)建模掌握大數(shù)據(jù)開發(fā)流程,以空氣質(zhì)量預(yù)測為例深入理解陳華2025.10目錄特征工程1數(shù)據(jù)建模24.6特征工程了解特征工程定義、方法及應(yīng)用4.6.1特征工程定義明確特征工程內(nèi)涵1特征工程概念從原始數(shù)據(jù)中提取、選擇和創(chuàng)建對機器學(xué)習(xí)模型有意義的特征,是連接數(shù)據(jù)和模型的橋梁。2特征工程重要性可提升模型性能、加快訓(xùn)練、增強可解釋性,還能挖掘潛在信息,助力業(yè)務(wù)決策。3特征工程包含內(nèi)容一般包括數(shù)據(jù)預(yù)處理、特征選擇、特征提取和特征創(chuàng)建等內(nèi)容,對數(shù)據(jù)處理全面。4特征工程關(guān)鍵作用通過專業(yè)處理使數(shù)據(jù)更好適應(yīng)模型需求,揭示數(shù)據(jù)與目標間的潛在關(guān)系。5特征工程應(yīng)用范圍在數(shù)據(jù)科學(xué)和人工智能領(lǐng)域應(yīng)用廣泛,為各類機器學(xué)習(xí)任務(wù)提供有力支持。6特征工程發(fā)展歷程隨著大數(shù)據(jù)和機器學(xué)習(xí)發(fā)展而興起,不斷有新的方法和技術(shù)融入其中。特征工程重要性認識特征工程的價值提升模型性能提取與目標相關(guān)性強特征,讓模型更好捕捉規(guī)律合適的特征選擇能夠使模型保持較好的性能表現(xiàn),避免過擬合或欠擬合01加快模型訓(xùn)練數(shù)據(jù)清洗與去噪可去除異常值和噪聲,加快模型收斂,降低訓(xùn)練成本。特征選擇與降維能剔除冗余信息,提升模型效率與運行速度。02增強模型可解釋性特征具業(yè)務(wù)可解釋性,有助于理解模型邏輯,支持科學(xué)決策。特征重要性清晰,便于評估模型性能并優(yōu)化改進。03挖掘潛在信息

挖掘數(shù)據(jù)隱藏規(guī)律,為科學(xué)研究與發(fā)現(xiàn)提供關(guān)鍵線索。

創(chuàng)造新特征驅(qū)動業(yè)務(wù)創(chuàng)新,助力個性化服務(wù)與增長。044.6.2特征選擇1方法有:方差閾值法、方差分析法,相關(guān)系數(shù)法,卡方檢驗法,互信息過濾法:對特征進行評分,選擇特征2根據(jù)目標函數(shù)迭代選特征,考慮特征相互作用,如遞歸特征消除法。包裹法:根據(jù)目標函數(shù),每次選擇或排除若干特征3用模型訓(xùn)練確定特征優(yōu)劣,類似過濾法,如Lasso回歸、決策樹。嵌入法:根據(jù)各個特征的權(quán)值系數(shù),從大到小選擇特征方

法優(yōu)

點缺

點適用場景過濾法簡單高效;模型無關(guān)性忽視特征間的關(guān)系;無法優(yōu)化模型性能數(shù)據(jù)集較大,特征維度高;對模型選擇較為敏感,計算復(fù)雜度需控制包裹法考慮特征間的相互作用;優(yōu)化模型性能計算成本高;容易過擬合數(shù)據(jù)集較小或中等規(guī)模,特征數(shù)量有限;當(dāng)模型性能為主要關(guān)注點,計算資源充足時嵌入法模型相關(guān)性;較高的計算效率模型依賴性強;可能受限于模型的假設(shè)需要同時考慮特征選擇和模型訓(xùn)練;使用特定模型時特征選擇方法的優(yōu)缺點及適用場景示例程序見課本見P51-554.6.3特征提取學(xué)習(xí)特征提取方法1圖像數(shù)據(jù)特征提取包括手工特征提取和基于深度學(xué)習(xí)的方法,如HOG、SIFT、CNN等。文本數(shù)據(jù)特征提取有詞袋模型、TF-IDF、詞嵌入、預(yù)訓(xùn)練語言模型等方法。時間序列數(shù)據(jù)特征提取涉及統(tǒng)計、時域、頻域及基于深度學(xué)習(xí)等方法,可提取多種特征。音頻數(shù)據(jù)特征提取有時域、頻域和基于深度學(xué)習(xí)的方法,如MFCC、CNN等。2434.6.3特征提取兩個常見的更通用的特征提取方法1、主成分分析主成分分析圖主成分分析是將原始特征通過線性變換轉(zhuǎn)化為一組各維度線性無關(guān)的主成分,建立最大方差優(yōu)化模型,找到數(shù)據(jù)中最主要的變化方向,可用于數(shù)據(jù)降維和特征提取2、核主成分分析核成分分析圖核主成分分析是主成分分析的非線性擴展,通過核函數(shù)將數(shù)據(jù)映射到高維特征空間,然后在該空間中進行主成分分析,能處理非線性數(shù)據(jù)示例程序見課本見P57-584.6.4特征創(chuàng)建2根據(jù)業(yè)務(wù)邏輯和數(shù)據(jù)特點,從原始特征推導(dǎo)出新特征。比如根據(jù)用戶的注冊時間和當(dāng)前時間計算用戶的注冊時長。特征衍生對原始特征應(yīng)用數(shù)學(xué)函數(shù)進行變換,改變特征的分布,使其更符合模型的假設(shè)。常見的函數(shù)有對數(shù)函數(shù)、指數(shù)函數(shù)、平方根函數(shù)等。3函數(shù)變換1將多個原始特征通過基本數(shù)學(xué)運算組合成新特征。例如在預(yù)測房價時,把房屋面積和每平方米價格相乘得到房屋總價;特征組合4.6.5特征提取和特征選擇、特征創(chuàng)建之間的區(qū)別01特征提取和選擇區(qū)別02特征提取和創(chuàng)建區(qū)別區(qū)分不同特征處理方法特征提取特征提取操作目的挖掘新特征,降低數(shù)據(jù)復(fù)雜度。減少特征數(shù)量,提升模型效率和穩(wěn)定性。操作方式生成新特征,維度可能改變篩選現(xiàn)有特征,保持特征本質(zhì)不變維度變化維度可增可減。維度不變。信息的影響可能丟失細節(jié),可解釋性差。盡量保留重要信息,數(shù)據(jù)損失小特征提取特征創(chuàng)建數(shù)據(jù)來源從原始數(shù)據(jù)中挖掘已有的特征信息。生成全新的特征操作方式依賴于數(shù)學(xué)變換、模型學(xué)習(xí)等方法來提取潛在特征基于業(yè)務(wù)理解和邏輯推導(dǎo)來構(gòu)造新特征維度變化降低數(shù)據(jù)維度,也可能保持維度不變。增加數(shù)據(jù)的維度,生成了新的特征應(yīng)用場景高維數(shù)據(jù)降維增強模型表達與業(yè)務(wù)解釋性4.6.6數(shù)據(jù)不平衡問題核心定義數(shù)據(jù)集里不同類別或特征在數(shù)量上存在顯著差異。案例:?信用卡欺詐檢測中,

正常交易遠多于欺詐交易。?房價預(yù)測中,熱門地段數(shù)據(jù)遠多于冷門地段。主要影響模型偏差:模型偏向多數(shù)類,對少數(shù)類學(xué)習(xí)不足。指標失效:高準確率掩蓋對少數(shù)類的糟糕預(yù)測能力。數(shù)據(jù)層面和數(shù)據(jù)合成欠采樣(Under-sampling)隨機或基于聚類從多數(shù)類中刪除樣本,可能丟失信息。過采樣(Over-sampling)隨機過采樣:復(fù)制少數(shù)類樣本,簡單但易過擬合。SMOTE:在少數(shù)類樣本間插值生成新樣本,增加多樣性。ADASYN:根據(jù)樣本分布自適應(yīng)生成樣本,難學(xué)區(qū)域生成更多,更具針對性。通過插值或自適應(yīng)方式為少數(shù)類合成新樣本,增加多樣性。數(shù)據(jù)合成(GAN)算法層面代價敏感學(xué)習(xí):為少數(shù)類錯誤設(shè)置更高代價。集成學(xué)習(xí):結(jié)合Bagging/Boosting,強制模型關(guān)注少數(shù)類。評估層面PrecisionF1-ScoreAUC-ROCG-meanRecall4.6.6數(shù)據(jù)不平衡問題:信用卡欺詐檢測案例介紹:此數(shù)據(jù)集顯示的是信用卡兩天內(nèi)發(fā)生的交易,正類(欺詐)僅占所有交易的0.172%。Class是目標變量,在發(fā)生欺詐時為1,否則為0。

問題:從上面可以看出,在信用卡欺詐檢測中,絕大多數(shù)交易是正常的,只有極少數(shù)是欺詐交易,這就導(dǎo)致了樣本不均衡問題。解決:使用第三方庫imblearn中的SMOTE進行過采樣以平衡數(shù)據(jù),左邊是為數(shù)據(jù)不平衡處理前后的混淆矩陣和使用隨機森林建模方法比較數(shù)據(jù)處理后的分類效果

數(shù)據(jù)不平衡處理前后的混淆矩陣過采樣后的模型評估示例程序見課本見P62-644.6.7青島空氣質(zhì)量特征處理:實踐青島空氣質(zhì)量數(shù)據(jù)處理1.AQI數(shù)據(jù)需自行計算根據(jù)國家標準方法,用線性插值計算各污染物分指數(shù),取最大值得AQI。通過線性插值法計算各污染物(PM2.5、PM10、SO?、NO?、CO、O?)的分指數(shù)(IAQI),并取其最大值作為最終AQI值。3.相關(guān)性分析對PM2.5、PM10、NO2、O3進行相關(guān)性分析,用熱力圖展示結(jié)果。如下圖所示2.實現(xiàn)AQI計算與分級實現(xiàn)了從污染物濃度到IAQI、AQI的自動化計算,并根據(jù)AQI數(shù)值范圍將空氣質(zhì)量劃分為“優(yōu)”到“嚴重污染”六個等級,成功為數(shù)據(jù)集補充了關(guān)鍵的AQI和空氣質(zhì)量級別字段。相關(guān)系數(shù)熱力圖4.6.7青島空氣質(zhì)量特征處理:實踐青島空氣質(zhì)量數(shù)據(jù)處理4.特征重要性評估采用隨機森林回歸模型分析各污染物對AQI的貢獻率,結(jié)果表明PM10的特征重要性最高(82.85%),其次是PM2.5(15.76%),O?和NO?影響極小。5.核心污染源明確綜合相關(guān)性與特征重要性分析,可得出結(jié)論:青島市的空氣質(zhì)量主要受顆粒物污染影響,其中PM10是決定AQI的首要因素,PM2.5次之6.數(shù)據(jù)處理流程完整整個分析流程涵蓋了數(shù)據(jù)計算(AQI)、數(shù)據(jù)整合、相關(guān)性探索和特征重要性建模,形成了一套完整的從原始監(jiān)測數(shù)據(jù)到空氣質(zhì)量評估與歸因的分析方法示例程序見課本P66-714.7數(shù)據(jù)建模掌握數(shù)據(jù)建模流程與方法數(shù)據(jù)建模內(nèi)容了解數(shù)據(jù)建模步驟需求分析了解業(yè)務(wù)領(lǐng)域,收集和整理需求,確定數(shù)據(jù)建模目標和范圍。12概念模型設(shè)計對現(xiàn)實世界數(shù)據(jù)高層次抽象,用E-R模型定義實體、屬性和關(guān)系。邏輯模型設(shè)計將概念模型轉(zhuǎn)換為具體邏輯結(jié)構(gòu),設(shè)計數(shù)據(jù)表、字段等,遵循數(shù)據(jù)庫范式。34物理模型設(shè)計根據(jù)數(shù)據(jù)庫和硬件環(huán)境,映射邏輯模型為物理存儲結(jié)構(gòu),優(yōu)化性能。模型評估與優(yōu)化全面評估模型,發(fā)現(xiàn)問題并針對性優(yōu)化,持續(xù)維護和更新模型。54.7.1數(shù)據(jù)分析01對數(shù)據(jù)進行匯總和描述,了解基本特征,如集中趨勢、離散程度等。描述性分析02深入研究數(shù)據(jù),發(fā)現(xiàn)存在問題、異常和關(guān)系,找出原因。診斷性分析03利用歷史數(shù)據(jù)建模,預(yù)測未來趨勢,為決策提供前瞻性信息。預(yù)測性分析04量化目標與約束,構(gòu)建優(yōu)化模型,轉(zhuǎn)化為可執(zhí)行策略,服務(wù)決策。規(guī)范性分析認識數(shù)據(jù)分析方式4.7.2統(tǒng)計方法:回歸分析123一元線性回歸:研究一個自變量x與因變量y之間的線性關(guān)系,其數(shù)學(xué)模型為

多元線性回歸:指有多個自變量與一個因變量y之間的線性關(guān)系,其數(shù)學(xué)模型為

非線性回歸:當(dāng)自變量和因變量之間不是線性關(guān)系時,使用非線性回歸。常見的非線性回歸模型有多項式回歸、指數(shù)回歸、對數(shù)回歸等。其中多項式的數(shù)學(xué)模型為

線性回歸圖與非線性回歸圖示例程序見課本見P74-764.7.2統(tǒng)計方法:時間序列分析123移動平均(MA):4通過計算時間序列數(shù)據(jù)的移動平均值來平滑數(shù)據(jù),消除短期波動,從而更清晰地顯示出數(shù)據(jù)的長期趨勢。簡單移動平均是取一定時間窗口內(nèi)數(shù)據(jù)的平均值,而加權(quán)移動平均則根據(jù)不同時間點的重要性賦予數(shù)據(jù)不同的權(quán)重。指數(shù)平滑(ES):指數(shù)平滑是一種特殊的加權(quán)移動平均法,對過去的觀測值賦予逐漸遞減的權(quán)重,越近期的數(shù)據(jù)權(quán)重越高。它能夠快速適應(yīng)數(shù)據(jù)的變化,常用于短期預(yù)測,如Holt-Winters指數(shù)平滑法,還可以同時考慮數(shù)據(jù)的趨勢和季節(jié)性。自回歸(AR):利用預(yù)測目標的歷史時間數(shù)列在不同時期取值之間存在的依存關(guān)系(即自身相關(guān)),建立回歸方程進行預(yù)測。這種方法適用于具有顯著自相關(guān)性的數(shù)據(jù)。自回歸積分移動平均(ARIMA):用于分析和預(yù)測具有平穩(wěn)性或經(jīng)過差分后具有平穩(wěn)性的時間序列數(shù)據(jù)。它結(jié)合了自回歸、移動平均和差分的特性,能夠捕捉時間序列中的線性依賴關(guān)系,廣泛應(yīng)用于經(jīng)濟、金融等領(lǐng)域的時間序列預(yù)測,如預(yù)測股票價格、電力消耗等。4.7.2統(tǒng)計方法:時間序列分析時間序列分析:AirPassengers數(shù)據(jù)集,使用ARIMA,預(yù)測與評估ARIMA預(yù)測結(jié)果示例程序見課本見P77-784.7.3機器學(xué)習(xí)方法機器學(xué)習(xí)方法根據(jù)數(shù)據(jù)情況一般劃分為以下3類。1監(jiān)督學(xué)習(xí)用帶標簽數(shù)據(jù)訓(xùn)練,學(xué)習(xí)輸入到輸出映射,預(yù)測新輸入標簽,如圖像識別。2無監(jiān)督學(xué)習(xí)用未標記數(shù)據(jù)訓(xùn)練,發(fā)現(xiàn)數(shù)據(jù)結(jié)構(gòu)和模式,如聚類分析。3強化學(xué)習(xí)智能體與環(huán)境交互,根據(jù)獎勵信號學(xué)習(xí)最優(yōu)行為策略,應(yīng)用于機器人控制等。示例程序見課本P80-814.7.3機器學(xué)習(xí)方法-監(jiān)督學(xué)習(xí)常見的監(jiān)督學(xué)習(xí)方法決策樹一種基于樹結(jié)構(gòu)進行決策的模型,它通過對數(shù)據(jù)的特征進行劃分來構(gòu)建樹。構(gòu)建過程是遞歸地選擇最優(yōu)特征進行劃分,直至滿足停止條件。支持向量機旨在在特征空間中找到一個最優(yōu)超平面,使得不同類別的樣本能夠被最大程度地分開,同時讓離超平面最近的樣本點到超平面的距離(間隔)最大,這些離超平面最近的樣本點被稱為支持向量。神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是模仿人類神經(jīng)系統(tǒng)的計算模型,由大量神經(jīng)元組成,通常包含輸入層、隱藏層和輸出層。示例程序見課本P80-824.7.3機器學(xué)習(xí)方法-無監(jiān)督學(xué)習(xí)常見的無監(jiān)督學(xué)習(xí)方法K-Means聚類K-Means是一種基于距離的聚類算法,其目標是將數(shù)據(jù)集中的樣本劃分為K個不同的簇,使得同一簇內(nèi)的樣本相似度較高,不同簇的樣本相似度較低。DBSCAN聚類DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)是一種基于密度的聚類算法,它將具有足夠密度的區(qū)域劃分為簇,并將低密度區(qū)域中的樣本視為噪聲點。譜聚類譜聚類是一種基于圖論的聚類算法,它將樣本看作圖中的節(jié)點,樣本之間的相似度看作節(jié)點之間的邊的權(quán)重。示例程序見課本P82-854.7.3機器學(xué)習(xí)方法-無監(jiān)督學(xué)習(xí)-K-Means聚類1初始化隨機選擇K個樣本作為初始的聚類中心。234分配樣本計算每個樣本到各個聚類中心的距離,將樣本分配到距離最近的聚類中心所在的簇。更新聚類中心對于每個簇,計算該簇內(nèi)所有樣本的均值,將其作為新的聚類中心。重復(fù)步驟②和③,直到聚類中心不再發(fā)生顯著變化或達到最大迭代次數(shù)。

K-Means聚類4.7.3機器學(xué)習(xí)方法-無監(jiān)督學(xué)習(xí)-DBSCAN聚類12345

隨機選擇一個未訪問的樣本。如果該樣本是核心點,則創(chuàng)建一個新的簇,并遞歸地將其鄰域內(nèi)的所有樣本加入該簇。如果該樣本是邊界點,則繼續(xù)選擇下一個未訪問的樣本。如果該樣本是噪聲點,則將其標記為噪聲點,并繼續(xù)選擇下一個未訪問的樣本。重復(fù)步驟①~④,直到所有樣本都被訪問。DBSCAN聚類4.7.3機器學(xué)習(xí)方法-無監(jiān)督學(xué)習(xí)-譜聚類12345構(gòu)建相似度矩陣計算任意兩個樣本之間的相似度,常用的相似度度量方法有高斯核函數(shù)。構(gòu)建圖的拉普拉斯矩陣根據(jù)相似度矩陣構(gòu)建圖的拉普拉斯矩陣。特征分解對拉普拉斯矩陣進行特征分解,得到特征值和特征向量。選擇特征向量選擇前K個最小特征值對應(yīng)的特征向量組成新的特征矩陣。聚類對新的特征矩陣使用K-Means等聚類算法進行聚類。譜聚類4.7.3機器學(xué)習(xí)方法–強化學(xué)習(xí)

強化學(xué)習(xí)是智能體(Agent)通過與環(huán)境進行交互,并根據(jù)環(huán)境反饋的獎勵信號來學(xué)習(xí)最優(yōu)行為策略的一種機器學(xué)習(xí)方法。智能體在環(huán)境中采取一系列行動,環(huán)境根據(jù)智能體的行動給出相應(yīng)的獎勵或懲罰信號,智能體的目標是通過不斷嘗試和調(diào)整行動策略,最大化長期累積獎勵。例如,機器人在一個未知環(huán)境中學(xué)習(xí)行走,它通過不斷嘗試不同的動作(如前進、轉(zhuǎn)彎等),根據(jù)環(huán)境給予的反饋(如是否撞到障礙物、是否接近目標等)來調(diào)整自己的行為策略,以找到到達目標的最佳路徑。強化學(xué)習(xí)在機器人控制、游戲、自動駕駛等領(lǐng)域有廣泛應(yīng)用。思考:使用DeepSeek完成基于強化學(xué)習(xí)的簡單五子棋的設(shè)計和Python實現(xiàn)。4.7.3機器學(xué)習(xí)方法–評估與調(diào)優(yōu)

機器學(xué)習(xí)模型的評估與調(diào)優(yōu)是確保模型泛化能力和預(yù)測準確度的關(guān)鍵步驟。通過合適的評估指標和調(diào)優(yōu)方法,可以有效提高模型性能,避免過擬合或欠擬合的風(fēng)險。下面將介紹交叉驗證、網(wǎng)格搜索等內(nèi)容。交叉驗證交叉驗證是一種用于評估模型性能的技術(shù),它通過將數(shù)據(jù)集分成多個子集(折疊),并

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論