版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
§0.1大數(shù)據(jù)簡史
§0.2大數(shù)據(jù)概念
§0.3機器學(xué)習(xí)§0.1
大數(shù)據(jù)簡史本節(jié)通過標(biāo)志性事件極簡地介紹大數(shù)據(jù)發(fā)展的歷史。美
國:
代表了大數(shù)據(jù)發(fā)展的世界水平,主要有以下6個標(biāo)志性事件:·
1998年,“大數(shù)據(jù)”正式作為一個專用名詞出現(xiàn)在《自然》雜志上·2001年,麥塔集團和麥肯錫公司給出了大數(shù)據(jù)的4V特征:體量大2
(Volume),速度快(Velocity),
類型多(Variety),價
值
高(Value)·
2006年~2009年,谷歌構(gòu)建了完整的大數(shù)據(jù)技術(shù)生態(tài):大數(shù)據(jù)文件系3
統(tǒng)→大數(shù)據(jù)計算引擎→大數(shù)據(jù)存儲系統(tǒng)·2012年,世界經(jīng)濟論壇發(fā)布《大數(shù)據(jù)大影響》的報告,向全球正式宣
布大數(shù)據(jù)時代的到來·
2016年,
DeepMind發(fā)布AlphaGo,展示了數(shù)據(jù)最大的價值——
“智慧”:大數(shù)據(jù)讓機器從此由“算”到“學(xué)”變得有了智慧,
宣布“數(shù)據(jù)成為生產(chǎn)資料、算法成為生產(chǎn)力”的時代正式來臨·2022年,開放智能發(fā)布AI大模型ChatGPT3.5版,因其迄今最接
近人類對話與思考方式的特點而風(fēng)靡全球,標(biāo)志著大數(shù)據(jù)驅(qū)動
的機器智慧達到一個全新的高度這些標(biāo)志性事件表明:毋庸諱言,美國是當(dāng)前世界上大數(shù)據(jù)科學(xué)與
技術(shù)貢獻最大的國家。5中
國:大數(shù)據(jù)發(fā)展起步較晚,但起點高、場景廣、發(fā)展快。我國大數(shù)據(jù)發(fā)展歷程及相關(guān)重大事件簡介如下:·2008年,阿里巴巴確定“云計算”和“大數(shù)據(jù)”戰(zhàn)略,決定自主研發(fā)
大規(guī)模分布式計算操作系統(tǒng)“飛天”,開啟中國的大數(shù)據(jù)征程·
2013年,我國的“大數(shù)據(jù)元年”,國家自然科學(xué)基金、973計劃、核2
高基、863等重大研究計劃都把大數(shù)據(jù)列為重大研究課題·
2014年,“大數(shù)據(jù)”首次寫入我國《政府工作報告》
,
大數(shù)據(jù)上升為
3
國家戰(zhàn)略·
2015年4月,全國首個大數(shù)據(jù)交易所——貴陽大數(shù)據(jù)交易所,正式掛4
牌運營并完成首批大數(shù)據(jù)交易·
2015年8月,國務(wù)院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,是我國促進
大數(shù)據(jù)發(fā)展的第一份權(quán)威性、系統(tǒng)性文件,從國家大數(shù)據(jù)發(fā)展戰(zhàn)略全
局的高度,提出了我國大數(shù)據(jù)發(fā)展的頂層設(shè)計,是指導(dǎo)我國未來大數(shù)據(jù)發(fā)展的綱領(lǐng)性文件·
2016
年,阿里云飛天系統(tǒng)入選2016世界互聯(lián)網(wǎng)最有代表性的15項科技
創(chuàng)新成果·
2017年,習(xí)近平在中共中央政治局第二次集體學(xué)習(xí)時強調(diào):審時度勢、
精心謀劃、超前布局、力爭主動實施國家大數(shù)據(jù)戰(zhàn)略,加快建設(shè)數(shù)字
中國·
2022年,國家規(guī)劃建設(shè)8個國家算力樞紐節(jié)點和10個國家數(shù)據(jù)中心集
群,標(biāo)志著全國一體化大數(shù)據(jù)中心體系完成總體布局,“東數(shù)西算”
工程正式全面啟動·
2024年,我國AI大模型DeepSeek
橫空出世,其顛覆性的訓(xùn)練方法創(chuàng)新
與開源生態(tài)構(gòu)建,使其技術(shù)棧在硬件適配層面對美國依賴度顯著降低58總結(jié):大數(shù)據(jù)科技發(fā)展格局從十余年前美國一騎絕塵,演變?yōu)楫?dāng)前中美并駕齊驅(qū)、各具優(yōu)勢的競爭態(tài)勢?!?.2
大數(shù)據(jù)概念大數(shù)據(jù)概念的形成,有三個標(biāo)志性事件:·
1998年,美國《自然》雜志上發(fā)表了一篇名為《大數(shù)據(jù)科學(xué)的可視
化》的文章,大數(shù)據(jù)正式作為一個專用名詞出現(xiàn)在公共刊物之中?!?001年,麥塔集團和麥肯錫公司給出了大數(shù)據(jù)的4V
特征:體量大2
(Volume),
速度快(Velocity),類
型
多(Variety),價
值
高(Value)·2011年,麥肯錫研究院第一次給大數(shù)據(jù)做出相對清晰的定義:
“大數(shù)據(jù)是指其大小超出了常規(guī)數(shù)據(jù)庫工具獲取、儲存、管理和分析能3
力的數(shù)據(jù)集?!焙x:數(shù)據(jù)從觸發(fā)到響應(yīng)像“閃
電流程”,強調(diào)實時性、高頻率,
慢一步就會失去價值,具體說來:1.數(shù)據(jù)產(chǎn)生的速度快2.數(shù)據(jù)流轉(zhuǎn)的速度快速度
4.數(shù)據(jù)處理的速度快快種類
含義:數(shù)據(jù)類型的多樣性和來源的廣泛性,如1.數(shù)據(jù)類型的多樣性:(1)數(shù)值,文本,圖片,音頻,視頻(2)xlsx,csV,json,xml,sql,
…2.數(shù)據(jù)來源的廣泛性:(1)
電商交易數(shù)據(jù)(2)交通流數(shù)據(jù).醫(yī)療產(chǎn)生的病歷、檢驗報告,
診療記錄等,數(shù)據(jù)量驚人含義:大量、多樣化的數(shù)據(jù)一定內(nèi)蘊某種規(guī)律,這個規(guī)律能為企業(yè)或組織帶來顯著的經(jīng)濟效益或其他形式的價值。如:超市體量大價值高含義:海量的數(shù)據(jù)規(guī)模,如1.社交平臺:微信每天產(chǎn)生的數(shù)
據(jù)量能裝滿數(shù)萬個普通硬盤2.醫(yī)療領(lǐng)域:一家三甲醫(yī)院每年通過分析顧客購物數(shù)據(jù),發(fā)現(xiàn)“買尿
不濕的男性常順手買啤酒”,于是調(diào)
整貨架布局,讓兩者相鄰,啤酒銷量提升30%。這就是從日常交易數(shù)據(jù)中
挖出了消費關(guān)聯(lián)價值。4V特征:“大數(shù)據(jù)”區(qū)別于“數(shù)據(jù)”的顯著特征3.數(shù)據(jù)分析的速度快本教材綜合當(dāng)前主流觀點,給出大數(shù)據(jù)的定義如下:所謂大數(shù)據(jù),是指難以在可接受的時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫系統(tǒng)或常規(guī)應(yīng)用軟件
處理的、巨量而復(fù)雜的數(shù)據(jù)集。D§0.3
機器學(xué)習(xí)一、大數(shù)據(jù)從采集到應(yīng)用全流程·
企業(yè)決策支持·
精準(zhǔn)營銷·
智能風(fēng)控·
工業(yè)與物聯(lián)網(wǎng)·
智慧城市數(shù)據(jù)應(yīng)用
:價值落地與
場景賦能數(shù)據(jù)分析與
挖掘:從數(shù)
據(jù)中提取價值·
描述性分析·
預(yù)測性分析·
深度挖掘·
對原始數(shù)據(jù)進行
清洗、集成、轉(zhuǎn)
換、整合,形成
標(biāo)準(zhǔn)化數(shù)據(jù)集數(shù)據(jù)預(yù)處理
:清洗、集成、轉(zhuǎn)換與整合數(shù)據(jù)存儲:海量數(shù)據(jù)的
高效管理·結(jié)構(gòu)化數(shù)據(jù)·
非結(jié)構(gòu)化/半結(jié)構(gòu)
化數(shù)據(jù)·數(shù)據(jù)倉庫與數(shù)據(jù)湖·數(shù)據(jù)來源·采集方式·技術(shù)工具數(shù)據(jù)采集:多源異構(gòu)數(shù)
據(jù)的獲取本教材主要介紹上述流程中的數(shù)據(jù)分析與挖掘。二、機器學(xué)習(xí)在上述流程中,數(shù)據(jù)分析與挖掘所用到的技術(shù)就是機器學(xué)習(xí)模型,這是本教材的核心內(nèi)容。機器學(xué)習(xí)相關(guān)的第一個概念是
1
.
變量取值為實數(shù)定量變量
身高,體重,溫度,時間,速度,血壓,…變量性別:男,女取值無順序名義變量血型:A,B,AB,O顏色:紅,藍(lán),綠,…定性變量取值為文字或符號教育程度:小學(xué),初中,高中,本科,碩士,博士有序變量顧客滿意度:非常不滿意,不滿意,中立,滿意,非常滿意取值有邏輯順序年齡組別:青少年,成年人,中年人,老年人注:定量變量可直接進行數(shù)學(xué)運算,通常可直接用于機器學(xué)習(xí)模型的輸入;定性變量則需要賦值(通過編碼轉(zhuǎn)換為實數(shù))以后才能輸入模型。維度有監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)數(shù)據(jù)類型有標(biāo)簽數(shù)據(jù)(X與Y配對)無標(biāo)簽數(shù)據(jù)(僅X)學(xué)習(xí)目標(biāo)建立X到Y(jié)的預(yù)測模型(如分類、回歸)發(fā)現(xiàn)X的內(nèi)在結(jié)構(gòu)(如聚類、降維)算法示例決策樹、邏輯回歸、支持向量機(SVM)K-means聚類、主成分分析(PCA)、自編碼器(AE)、密度峰值聚類(DBSCAN)應(yīng)用場景垃圾郵件分類、天氣預(yù)報、圖像識別客戶分群、基因表達模式分析、圖像壓縮2.
分
類:主要介紹兩個大類——有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)(1
)有監(jiān)督學(xué)習(xí):研究一個變量Y關(guān)于變量
X1,….,Xp之間的相關(guān)關(guān)系,
其中Y
稱為監(jiān)督變量(目標(biāo)變量),
X1,….,Xp稱為特征。(2
)無監(jiān)督學(xué)習(xí):研究變量
X1,….,Xp
的
內(nèi)在結(jié)構(gòu),比如分組結(jié)構(gòu)、特
征關(guān)聯(lián)、概率分布等,變量X1,.….,Xp
也稱為特征。線性回歸非線性回歸K
-
means
聚類密度峰值聚類(DBSCAN
)PCA,FPCAt-
SNE
,
UMAP中心性分析社區(qū)劃分分組結(jié)構(gòu)聚
類特征關(guān)聯(lián)降
維發(fā)現(xiàn)重要節(jié)點復(fù)雜網(wǎng)絡(luò)分析有監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)目標(biāo)變量取值為實數(shù)回歸目標(biāo)變量取值為字符或
數(shù)值化后為有限幾個整數(shù)機器學(xué)習(xí)分類讀入數(shù)據(jù)目標(biāo)變量分離變量特征數(shù)據(jù)標(biāo)準(zhǔn)化訓(xùn)練集分割數(shù)據(jù)測試集
提取結(jié)果三、數(shù)據(jù)分析流程應(yīng)用級的數(shù)據(jù)分析項目流程十分復(fù)雜,此處給出簡易流程。有監(jiān)督學(xué)習(xí)數(shù)據(jù)模塊分析模塊應(yīng)用模塊模型建立模型訓(xùn)練模型評估評估結(jié)果特征重要性可視化1.
有監(jiān)督學(xué)習(xí)流程預(yù)測2.
無監(jiān)督學(xué)習(xí)流程無監(jiān)督學(xué)習(xí)流程,與有監(jiān)督學(xué)習(xí)流程的區(qū)別主要在于數(shù)據(jù)模塊,此處給出聚類分析的流程。讀入數(shù)據(jù)數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)模塊
分析模塊應(yīng)用模塊模型建立模型訓(xùn)練模型評估聚類結(jié)果評估結(jié)果提取結(jié)果特征重要性可視化預(yù)測聚類分析強
調(diào)
:●上面列出的數(shù)據(jù)分析流程,是我們從數(shù)據(jù)分析小白到
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年叉車租賃租賃服務(wù)細(xì)則合同協(xié)議
- 2026年電商運單服務(wù)合同
- 家長介紹輔導(dǎo)孩子課件
- 2026年安防監(jiān)控系統(tǒng)調(diào)試合同協(xié)議
- 2026年宴會保潔服務(wù)合同協(xié)議
- 2026年網(wǎng)紅帶貨合作框架合同
- 2026年兒童繪本出版預(yù)付款合同協(xié)議書
- 大棚承包合同
- 培訓(xùn)教師安全教育內(nèi)容課件
- 培訓(xùn)優(yōu)化課件管理辦法
- DB15∕T 4031-2025 建設(shè)項目水資源論證表編制導(dǎo)則
- 2025年合肥市檔案館公開招聘政府購買服務(wù)崗位人員2名備考考試試題及答案解析
- 計量課題立項申報書范文
- (2025版)成人肺功能檢查技術(shù)進展及臨床應(yīng)用指南課件
- 自動化設(shè)備維護保養(yǎng)指導(dǎo)手冊
- 飲用水法律法規(guī)培訓(xùn)課件
- 物料供應(yīng)商遴選制度
- 伊利并購澳優(yōu)的財務(wù)績效分析
- 有限空間大型污水井作業(yè)工崗位考試試卷及答案
- 車險組長年終工作總結(jié)
- 2025昆明市呈貢區(qū)城市投資集團有限公司及下屬子公司第一批招聘(12人)筆試考試參考試題及答案解析
評論
0/150
提交評論