版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
金融科技理論與實(shí)踐第二章大數(shù)據(jù)技術(shù)第一節(jié) 大數(shù)據(jù)概述一、大數(shù)據(jù)時(shí)代的背景二、大數(shù)據(jù)的概念一、大數(shù)據(jù)時(shí)代的背景(一)信息科技是大數(shù)據(jù)的技術(shù)支撐1.存儲(chǔ)設(shè)備容量:伴隨技術(shù)發(fā)展和生產(chǎn)進(jìn)步,存儲(chǔ)設(shè)備的容量越來越大,讀寫速度越來越快,價(jià)格越來越低。2.CPU處理能力:CPU制造工藝不斷更新,CPU的處理速度提高到GHz級,同時(shí)價(jià)格不斷下降。3.網(wǎng)絡(luò)帶寬:網(wǎng)絡(luò)數(shù)據(jù)傳輸速率正在不斷被刷新,光纖的數(shù)據(jù)傳輸速率已達(dá)Gbit/s級別。而今世界各國都在發(fā)力寬帶網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)。一、大數(shù)據(jù)時(shí)代的背景(二)數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時(shí)代的來臨1.運(yùn)營式系統(tǒng):各類機(jī)構(gòu)的日常運(yùn)營會(huì)產(chǎn)生大量數(shù)據(jù)。2.用戶原創(chuàng)內(nèi)容:用戶原創(chuàng)內(nèi)容成為大數(shù)據(jù)來源之一。移動(dòng)互聯(lián)網(wǎng)和智能手機(jī)的普及,進(jìn)一步促使人們創(chuàng)造了大量數(shù)據(jù)。3.感知式系統(tǒng):感知式系統(tǒng)是物聯(lián)網(wǎng)的重要組成部分,這些設(shè)備,每時(shí)每刻都在采集環(huán)境中的各類數(shù)據(jù),規(guī)模龐大。二、大數(shù)據(jù)的概念1.規(guī)模大:大數(shù)據(jù)的數(shù)據(jù)量之大,已經(jīng)無法用傳統(tǒng)信息技術(shù)和工具對其進(jìn)行存儲(chǔ)、管理和處理。全世界的數(shù)據(jù)總量一直都在迅猛增長。2.多樣化:數(shù)據(jù)的類型多樣化。結(jié)構(gòu)化數(shù)據(jù)是傳統(tǒng)上常見的數(shù)據(jù)類型,非結(jié)構(gòu)化數(shù)據(jù)如音頻、視頻、地理位置、實(shí)驗(yàn)數(shù)據(jù)和網(wǎng)絡(luò)日志等,種類繁多。3.高速性:首先,大數(shù)據(jù)的生成速度更快。其次,在其些實(shí)際應(yīng)用場景中,需要計(jì)算機(jī)和算法處理分析數(shù)據(jù)的高速性。第二節(jié)
數(shù)據(jù)采集與預(yù)處理一、數(shù)據(jù)采集二、數(shù)據(jù)清洗三、數(shù)據(jù)變換四、數(shù)據(jù)脫敏一、數(shù)據(jù)采集1.數(shù)據(jù)采集的概念2.數(shù)據(jù)采集的數(shù)據(jù)源:多種多樣,可以包括:傳感器、日志文件、企業(yè)業(yè)務(wù)系統(tǒng)、互聯(lián)網(wǎng)等來源的數(shù)據(jù)。二、數(shù)據(jù)清洗數(shù)據(jù)清洗,就是洗掉原始數(shù)據(jù)里的“臟數(shù)據(jù)”。數(shù)據(jù)分析中,常有“垃圾數(shù)據(jù)進(jìn),垃圾數(shù)據(jù)出(Garbagein,garbageout,GIGO)”。垃圾的輸入數(shù)據(jù)導(dǎo)致輸出的分析結(jié)果也缺少價(jià)值。因此,需要按照一定的規(guī)則來洗掉“臟數(shù)據(jù)”。1.缺失值處理2.異常值處理3.重復(fù)值處理4.?dāng)?shù)據(jù)類型轉(zhuǎn)換5.數(shù)據(jù)清洗的注意事項(xiàng)三、數(shù)據(jù)變換數(shù)據(jù)變換就是將原數(shù)據(jù)進(jìn)行變換或歸并,構(gòu)造出一個(gè)適合處理的新數(shù)據(jù)。1.平滑處理2.規(guī)范化處理四、數(shù)據(jù)脫敏數(shù)據(jù)中往往包含一些客戶隱私和安全數(shù)據(jù)或者商業(yè)敏感數(shù)據(jù),當(dāng)這些數(shù)據(jù)在不可信環(huán)境中使用時(shí),需要預(yù)先處理以隱藏和保護(hù)上述數(shù)據(jù)。1.數(shù)據(jù)脫敏原則盡量保持原有數(shù)據(jù)特征;保持?jǐn)?shù)據(jù)之間的一致性;保持業(yè)務(wù)規(guī)則的關(guān)聯(lián)性;多次脫敏數(shù)據(jù)之間的數(shù)據(jù)一致性。2.數(shù)據(jù)脫敏方法(1)無效化。(2)隨機(jī)化。(3)數(shù)據(jù)替換。(4)偏移和取整。(5)掩碼屏蔽。(6)靈活編碼。第三節(jié)大數(shù)據(jù)存儲(chǔ)與管理大數(shù)據(jù)存儲(chǔ)與管理技術(shù):(一)大數(shù)據(jù)處理架構(gòu)Hadoop(二)分布式文件系統(tǒng)HDFS(三)分布式數(shù)據(jù)庫HBase(四)NoSQL數(shù)據(jù)庫(五)云數(shù)據(jù)庫(一)大數(shù)據(jù)處理架構(gòu)HadoopHadoop是Apache基金會(huì)的開源項(xiàng)目。ApacheHadoop是一個(gè)用于在由商用硬件構(gòu)建的大型集群上運(yùn)行應(yīng)用程序的框架。Hadoop實(shí)現(xiàn)了Map/Reduce的計(jì)算模型,其中應(yīng)用程序被分成許多小的工作片段,每個(gè)工作片段都可以在集群中的任何節(jié)點(diǎn)上執(zhí)行或重新執(zhí)行。
Hadoop提供了一個(gè)分布式文件系統(tǒng),用于在計(jì)算節(jié)點(diǎn)上存儲(chǔ)數(shù)據(jù),從而在整個(gè)集群中提供非常高的聚合帶寬。Hadoop能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理,具有可靠、高效、可擴(kuò)展性、高容錯(cuò)性和低成本的特點(diǎn)。
(二)分布式文件系統(tǒng)HDFSHadoop分布式文件系統(tǒng)以開源的方式實(shí)現(xiàn)了GFS。HDFS可以讀取流數(shù)據(jù)和處理超大文件,并因高容錯(cuò)性可以在廉價(jià)機(jī)器組成的集群上運(yùn)行。HDFS的優(yōu)勢在于兼容廉價(jià)的硬件設(shè)備,可以讀寫流數(shù)據(jù),支持大數(shù)據(jù)集,采用簡單文件模型,可以跨平臺(tái)。HDFS支持大規(guī)模數(shù)據(jù)集的高吞吐量訪問和可靠存儲(chǔ),適用于批處理作業(yè)、大數(shù)據(jù)分析和數(shù)據(jù)存儲(chǔ)等相應(yīng)的應(yīng)用場景。HDFS的工作原理。
(三)分布式數(shù)據(jù)庫HBaseHBase作為開源的分布式數(shù)據(jù)庫,具有高可靠性、高性能、面向列的特點(diǎn),可以存儲(chǔ)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。HBase系統(tǒng)架構(gòu)包括以下關(guān)鍵組件:HBaseMaster主服務(wù)器、Region服務(wù)器、客戶端、ZooKeeper服務(wù)器。HBase的工作流程。
(四)NoSQL數(shù)據(jù)庫數(shù)據(jù)庫架構(gòu)可劃分為三大陣營:傳統(tǒng)關(guān)系型數(shù)據(jù)庫(OldSQL),新型關(guān)系型數(shù)據(jù)庫(NewSQL)和非關(guān)系型數(shù)據(jù)庫(NoSQL)。NewSQL用來統(tǒng)稱各種新型可擴(kuò)展、高性能數(shù)據(jù)庫,這類數(shù)據(jù)庫仍然支持關(guān)系數(shù)據(jù)模型,支持SQL作為主要接口。NoSQL用來統(tǒng)稱各種非關(guān)系數(shù)據(jù)庫。它們不采用關(guān)系數(shù)據(jù)模型,而是使用諸如鍵值、列族、文檔等非關(guān)系模型。NoSQL數(shù)據(jù)庫具有靈活的水平可擴(kuò)展性,支持海量數(shù)據(jù)存儲(chǔ)。NoSQL數(shù)據(jù)庫通過支持MapReduce,可以用于大數(shù)據(jù)管理。
(五)云數(shù)據(jù)庫從技術(shù)角度看,云數(shù)據(jù)庫并非一種新的數(shù)據(jù)庫技術(shù),只是以服務(wù)的方式向客戶提供數(shù)據(jù)庫解決方案。云數(shù)據(jù)庫既可以利用新型關(guān)系數(shù)據(jù)庫技術(shù),也可以利用非關(guān)系型數(shù)據(jù)庫技術(shù)。云數(shù)據(jù)庫可以低成本地存儲(chǔ)大數(shù)據(jù),滿足許多與大數(shù)據(jù)相關(guān)的企業(yè)和機(jī)構(gòu)的需求。第四節(jié)數(shù)據(jù)處理與分析一、數(shù)據(jù)處理與分析的概念二、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法三、大數(shù)據(jù)處理與分析技術(shù) 四、數(shù)據(jù)可視化一、數(shù)據(jù)處理與分析的概念(一)數(shù)據(jù)分析與數(shù)據(jù)挖掘(二)數(shù)據(jù)分析與數(shù)據(jù)處理(三)大數(shù)據(jù)的處理與分析二、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法(一)概述(二)分類(三)聚類(四)回歸分析(五)關(guān)聯(lián)規(guī)則(六)協(xié)同過濾(二)分類分類旨在將數(shù)據(jù)點(diǎn)分配到預(yù)定義的類別中?;舅枷胧峭ㄟ^訓(xùn)練模型來識(shí)別出不同類別之間的差異和特征,從而在未知數(shù)據(jù)上進(jìn)行預(yù)測。分類任務(wù)通常涉及兩個(gè)主要步驟:訓(xùn)練和預(yù)測。(三)聚類聚類將數(shù)據(jù)點(diǎn)分成不同的組,每個(gè)組內(nèi)的數(shù)據(jù)點(diǎn)相似度較高,而組之間的相似度較低。與分類不同,聚類不需要預(yù)定義的類別,而是根據(jù)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)將數(shù)據(jù)自動(dòng)分組。聚類算法根據(jù)數(shù)據(jù)點(diǎn)之間的相似性或距離來分組。數(shù)據(jù)點(diǎn)在同一組中應(yīng)該足夠相似,而不同組之間應(yīng)該有較大的差異。有許多聚類算法可供選擇,每種算法有不同的優(yōu)勢和適用性,取決于數(shù)據(jù)的特點(diǎn)和問題的性質(zhì)。(四)回歸分析回歸分析涉及了建立一個(gè)模型,該模型可以通過分析輸入特征與輸出之間的關(guān)系,預(yù)測出連續(xù)數(shù)值的輸出。一些常見的回歸算法:線性回歸、多項(xiàng)式回歸、嶺回歸、支持向量回歸選擇適當(dāng)?shù)幕貧w算法取決于數(shù)據(jù)的特點(diǎn)、問題的性質(zhì)以及算法的性能。(五)關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則用于發(fā)現(xiàn)數(shù)據(jù)集中項(xiàng)與項(xiàng)之間的關(guān)聯(lián)性和相關(guān)性,從而幫助識(shí)別數(shù)據(jù)中的高頻率模式,揭示不同項(xiàng)之間的內(nèi)在關(guān)系。關(guān)聯(lián)規(guī)則在許多領(lǐng)域中有實(shí)際應(yīng)用,如零售業(yè)的市場籃子分析,預(yù)測用戶可能感興趣的商品。(六)協(xié)同過濾協(xié)同過濾用于構(gòu)建推薦系統(tǒng)。協(xié)同過濾基于用戶行為和興趣,通過分析用戶之間的相似性來預(yù)測用戶可能感興趣的項(xiàng)目,從而提供個(gè)性化的推薦。協(xié)同過濾依賴于用戶行為的歷史數(shù)據(jù),如果一個(gè)用戶在過去喜歡某些項(xiàng)目,那么其他與他相似的用戶可能也會(huì)喜歡這些項(xiàng)目。協(xié)同過濾算法有兩種主要類型:基于用戶和基于物品。三、大數(shù)據(jù)處理與分析技術(shù)(一)批處理(二)流處理(三)圖計(jì)算四、數(shù)據(jù)可視化(一)數(shù)據(jù)可視化概述
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年鯉城區(qū)新步實(shí)驗(yàn)小學(xué)秋季招聘合同制頂崗教師備考題庫完整答案詳解
- 2025年永康市農(nóng)機(jī)產(chǎn)業(yè)園開發(fā)有限公司公開招聘國有企業(yè)合同制員工7人備考題庫完整答案詳解
- 2025年寧夏黃河農(nóng)村商業(yè)銀行科技人員社會(huì)招聘備考題庫及一套完整答案詳解
- 重大安全隱患排查治理和建檔監(jiān)控等制度
- 中國電建集團(tuán)昆明勘測設(shè)計(jì)研究院有限公司招聘20人備考題庫及參考答案詳解1套
- 2025年關(guān)于為淄博市檢察機(jī)關(guān)公開招聘聘用制書記員的備考題庫及一套答案詳解
- 2025年青島市李滄區(qū)人民法院公開招聘司法輔助人員備考題庫參考答案詳解
- 2025年首都醫(yī)科大學(xué)附屬北京朝陽醫(yī)院石景山醫(yī)院派遣合同制職工招聘備考題庫及答案詳解1套
- 銀聯(lián)企業(yè)服務(wù)(上海)有限公司2026年度招聘備考題庫及參考答案詳解1套
- plc課程設(shè)計(jì)彩燈循環(huán)
- 2025年直播帶貨主播服務(wù)合同范本
- 2025年青海省政府采購評審專家考試測試題及答案
- 2025年山東泰山藥業(yè)集團(tuán)有限公司招聘(21人)筆試備考試題及答案解析
- 心電監(jiān)測線路管理規(guī)范
- 北京市西城區(qū)2024-2025學(xué)年七年級上學(xué)期期末道德與法治試卷
- 年生產(chǎn)加工鈉離子電池負(fù)極材料8000 噸、鋰離子電池負(fù)極材料3000噸項(xiàng)目環(huán)境風(fēng)險(xiǎn)專項(xiàng)評價(jià)報(bào)告環(huán)評報(bào)告
- (正式版)DB37∕T 4899-2025 《深遠(yuǎn)海養(yǎng)殖管理工作指南》
- 監(jiān)理工作制度(水利工程)
- 拖拉機(jī)運(yùn)輸協(xié)議合同范本
- 遼寧省安全生產(chǎn)條例講解
- 營業(yè)執(zhí)照管理辦法公司
評論
0/150
提交評論