《大數(shù)據(jù)分析技術(shù)》-第0章-緒論_第1頁
《大數(shù)據(jù)分析技術(shù)》-第0章-緒論_第2頁
《大數(shù)據(jù)分析技術(shù)》-第0章-緒論_第3頁
《大數(shù)據(jù)分析技術(shù)》-第0章-緒論_第4頁
《大數(shù)據(jù)分析技術(shù)》-第0章-緒論_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

§0.1大數(shù)據(jù)簡史

§0.2大數(shù)據(jù)概念

§0.3機器學(xué)習(xí)§0.1

大數(shù)據(jù)簡史本節(jié)通過標(biāo)志性事件極簡地介紹大數(shù)據(jù)發(fā)展的歷史。美

國:

代表了大數(shù)據(jù)發(fā)展的世界水平,主要有以下6個標(biāo)志性事件:·

1998年,“大數(shù)據(jù)”正式作為一個專用名詞出現(xiàn)在《自然》雜志上·2001年,麥塔集團和麥肯錫公司給出了大數(shù)據(jù)的4V特征:體量大2

(Volume),速度快(Velocity),

類型多(Variety),價

高(Value)·

2006年~2009年,谷歌構(gòu)建了完整的大數(shù)據(jù)技術(shù)生態(tài):大數(shù)據(jù)文件系3

統(tǒng)→大數(shù)據(jù)計算引擎→大數(shù)據(jù)存儲系統(tǒng)·2012年,世界經(jīng)濟論壇發(fā)布《大數(shù)據(jù)大影響》的報告,向全球正式宣

布大數(shù)據(jù)時代的到來·

2016年,

DeepMind發(fā)布AlphaGo,展示了數(shù)據(jù)最大的價值——

“智慧”:大數(shù)據(jù)讓機器從此由“算”到“學(xué)”變得有了智慧,

宣布“數(shù)據(jù)成為生產(chǎn)資料、算法成為生產(chǎn)力”的時代正式來臨·2022年,開放智能發(fā)布AI大模型ChatGPT3.5版,因其迄今最接

近人類對話與思考方式的特點而風(fēng)靡全球,標(biāo)志著大數(shù)據(jù)驅(qū)動

的機器智慧達到一個全新的高度這些標(biāo)志性事件表明:毋庸諱言,美國是當(dāng)前世界上大數(shù)據(jù)科學(xué)與

技術(shù)貢獻最大的國家。5中

國:大數(shù)據(jù)發(fā)展起步較晚,但起點高、場景廣、發(fā)展快。我國大數(shù)據(jù)發(fā)展歷程及相關(guān)重大事件簡介如下:·2008年,阿里巴巴確定“云計算”和“大數(shù)據(jù)”戰(zhàn)略,決定自主研發(fā)

大規(guī)模分布式計算操作系統(tǒng)“飛天”,開啟中國的大數(shù)據(jù)征程·

2013年,我國的“大數(shù)據(jù)元年”,國家自然科學(xué)基金、973計劃、核2

高基、863等重大研究計劃都把大數(shù)據(jù)列為重大研究課題·

2014年,“大數(shù)據(jù)”首次寫入我國《政府工作報告》

,

大數(shù)據(jù)上升為

3

國家戰(zhàn)略·

2015年4月,全國首個大數(shù)據(jù)交易所——貴陽大數(shù)據(jù)交易所,正式掛4

牌運營并完成首批大數(shù)據(jù)交易·

2015年8月,國務(wù)院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,是我國促進

大數(shù)據(jù)發(fā)展的第一份權(quán)威性、系統(tǒng)性文件,從國家大數(shù)據(jù)發(fā)展戰(zhàn)略全

局的高度,提出了我國大數(shù)據(jù)發(fā)展的頂層設(shè)計,是指導(dǎo)我國未來大數(shù)據(jù)發(fā)展的綱領(lǐng)性文件·

2016

年,阿里云飛天系統(tǒng)入選2016世界互聯(lián)網(wǎng)最有代表性的15項科技

創(chuàng)新成果·

2017年,習(xí)近平在中共中央政治局第二次集體學(xué)習(xí)時強調(diào):審時度勢、

精心謀劃、超前布局、力爭主動實施國家大數(shù)據(jù)戰(zhàn)略,加快建設(shè)數(shù)字

中國·

2022年,國家規(guī)劃建設(shè)8個國家算力樞紐節(jié)點和10個國家數(shù)據(jù)中心集

群,標(biāo)志著全國一體化大數(shù)據(jù)中心體系完成總體布局,“東數(shù)西算”

工程正式全面啟動·

2024年,我國AI大模型DeepSeek

橫空出世,其顛覆性的訓(xùn)練方法創(chuàng)新

與開源生態(tài)構(gòu)建,使其技術(shù)棧在硬件適配層面對美國依賴度顯著降低58總結(jié):大數(shù)據(jù)科技發(fā)展格局從十余年前美國一騎絕塵,演變?yōu)楫?dāng)前中美并駕齊驅(qū)、各具優(yōu)勢的競爭態(tài)勢?!?.2

大數(shù)據(jù)概念大數(shù)據(jù)概念的形成,有三個標(biāo)志性事件:·

1998年,美國《自然》雜志上發(fā)表了一篇名為《大數(shù)據(jù)科學(xué)的可視

化》的文章,大數(shù)據(jù)正式作為一個專用名詞出現(xiàn)在公共刊物之中?!?001年,麥塔集團和麥肯錫公司給出了大數(shù)據(jù)的4V

特征:體量大2

(Volume),

速度快(Velocity),類

多(Variety),價

高(Value)·2011年,麥肯錫研究院第一次給大數(shù)據(jù)做出相對清晰的定義:

“大數(shù)據(jù)是指其大小超出了常規(guī)數(shù)據(jù)庫工具獲取、儲存、管理和分析能3

力的數(shù)據(jù)集?!焙x:數(shù)據(jù)從觸發(fā)到響應(yīng)像“閃

電流程”,強調(diào)實時性、高頻率,

慢一步就會失去價值,具體說來:1.數(shù)據(jù)產(chǎn)生的速度快2.數(shù)據(jù)流轉(zhuǎn)的速度快速度

4.數(shù)據(jù)處理的速度快快種類

含義:數(shù)據(jù)類型的多樣性和來源的廣泛性,如1.數(shù)據(jù)類型的多樣性:(1)數(shù)值,文本,圖片,音頻,視頻(2)xlsx,csV,json,xml,sql,

…2.數(shù)據(jù)來源的廣泛性:(1)

電商交易數(shù)據(jù)(2)交通流數(shù)據(jù).醫(yī)療產(chǎn)生的病歷、檢驗報告,

診療記錄等,數(shù)據(jù)量驚人含義:大量、多樣化的數(shù)據(jù)一定內(nèi)蘊某種規(guī)律,這個規(guī)律能為企業(yè)或組織帶來顯著的經(jīng)濟效益或其他形式的價值。如:超市體量大價值高含義:海量的數(shù)據(jù)規(guī)模,如1.社交平臺:微信每天產(chǎn)生的數(shù)

據(jù)量能裝滿數(shù)萬個普通硬盤2.醫(yī)療領(lǐng)域:一家三甲醫(yī)院每年通過分析顧客購物數(shù)據(jù),發(fā)現(xiàn)“買尿

不濕的男性常順手買啤酒”,于是調(diào)

整貨架布局,讓兩者相鄰,啤酒銷量提升30%。這就是從日常交易數(shù)據(jù)中

挖出了消費關(guān)聯(lián)價值。4V特征:“大數(shù)據(jù)”區(qū)別于“數(shù)據(jù)”的顯著特征3.數(shù)據(jù)分析的速度快本教材綜合當(dāng)前主流觀點,給出大數(shù)據(jù)的定義如下:所謂大數(shù)據(jù),是指難以在可接受的時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫系統(tǒng)或常規(guī)應(yīng)用軟件

處理的、巨量而復(fù)雜的數(shù)據(jù)集。D§0.3

機器學(xué)習(xí)一、大數(shù)據(jù)從采集到應(yīng)用全流程·

企業(yè)決策支持·

精準(zhǔn)營銷·

智能風(fēng)控·

工業(yè)與物聯(lián)網(wǎng)·

智慧城市數(shù)據(jù)應(yīng)用

:價值落地與

場景賦能數(shù)據(jù)分析與

挖掘:從數(shù)

據(jù)中提取價值·

描述性分析·

預(yù)測性分析·

深度挖掘·

對原始數(shù)據(jù)進行

清洗、集成、轉(zhuǎn)

換、整合,形成

標(biāo)準(zhǔn)化數(shù)據(jù)集數(shù)據(jù)預(yù)處理

:清洗、集成、轉(zhuǎn)換與整合數(shù)據(jù)存儲:海量數(shù)據(jù)的

高效管理·結(jié)構(gòu)化數(shù)據(jù)·

非結(jié)構(gòu)化/半結(jié)構(gòu)

化數(shù)據(jù)·數(shù)據(jù)倉庫與數(shù)據(jù)湖·數(shù)據(jù)來源·采集方式·技術(shù)工具數(shù)據(jù)采集:多源異構(gòu)數(shù)

據(jù)的獲取本教材主要介紹上述流程中的數(shù)據(jù)分析與挖掘。二、機器學(xué)習(xí)在上述流程中,數(shù)據(jù)分析與挖掘所用到的技術(shù)就是機器學(xué)習(xí)模型,這是本教材的核心內(nèi)容。機器學(xué)習(xí)相關(guān)的第一個概念是

1

.

變量取值為實數(shù)定量變量

身高,體重,溫度,時間,速度,血壓,…變量性別:男,女取值無順序名義變量血型:A,B,AB,O顏色:紅,藍(lán),綠,…定性變量取值為文字或符號教育程度:小學(xué),初中,高中,本科,碩士,博士有序變量顧客滿意度:非常不滿意,不滿意,中立,滿意,非常滿意取值有邏輯順序年齡組別:青少年,成年人,中年人,老年人注:定量變量可直接進行數(shù)學(xué)運算,通常可直接用于機器學(xué)習(xí)模型的輸入;定性變量則需要賦值(通過編碼轉(zhuǎn)換為實數(shù))以后才能輸入模型。維度有監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)數(shù)據(jù)類型有標(biāo)簽數(shù)據(jù)(X與Y配對)無標(biāo)簽數(shù)據(jù)(僅X)學(xué)習(xí)目標(biāo)建立X到Y(jié)的預(yù)測模型(如分類、回歸)發(fā)現(xiàn)X的內(nèi)在結(jié)構(gòu)(如聚類、降維)算法示例決策樹、邏輯回歸、支持向量機(SVM)K-means聚類、主成分分析(PCA)、自編碼器(AE)、密度峰值聚類(DBSCAN)應(yīng)用場景垃圾郵件分類、天氣預(yù)報、圖像識別客戶分群、基因表達模式分析、圖像壓縮2.

類:主要介紹兩個大類——有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)(1

)有監(jiān)督學(xué)習(xí):研究一個變量Y關(guān)于變量

X1,….,Xp之間的相關(guān)關(guān)系,

其中Y

稱為監(jiān)督變量(目標(biāo)變量),

X1,….,Xp稱為特征。(2

)無監(jiān)督學(xué)習(xí):研究變量

X1,….,Xp

內(nèi)在結(jié)構(gòu),比如分組結(jié)構(gòu)、特

征關(guān)聯(lián)、概率分布等,變量X1,.….,Xp

也稱為特征。線性回歸非線性回歸K

-

means

聚類密度峰值聚類(DBSCAN

)PCA,FPCAt-

SNE

,

UMAP中心性分析社區(qū)劃分分組結(jié)構(gòu)聚

類特征關(guān)聯(lián)降

維發(fā)現(xiàn)重要節(jié)點復(fù)雜網(wǎng)絡(luò)分析有監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)目標(biāo)變量取值為實數(shù)回歸目標(biāo)變量取值為字符或

數(shù)值化后為有限幾個整數(shù)機器學(xué)習(xí)分類讀入數(shù)據(jù)目標(biāo)變量分離變量特征數(shù)據(jù)標(biāo)準(zhǔn)化訓(xùn)練集分割數(shù)據(jù)測試集

提取結(jié)果三、數(shù)據(jù)分析流程應(yīng)用級的數(shù)據(jù)分析項目流程十分復(fù)雜,此處給出簡易流程。有監(jiān)督學(xué)習(xí)數(shù)據(jù)模塊分析模塊應(yīng)用模塊模型建立模型訓(xùn)練模型評估評估結(jié)果特征重要性可視化1.

有監(jiān)督學(xué)習(xí)流程預(yù)測2.

無監(jiān)督學(xué)習(xí)流程無監(jiān)督學(xué)習(xí)流程,與有監(jiān)督學(xué)習(xí)流程的區(qū)別主要在于數(shù)據(jù)模塊,此處給出聚類分析的流程。讀入數(shù)據(jù)數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)模塊

分析模塊應(yīng)用模塊模型建立模型訓(xùn)練模型評估聚類結(jié)果評估結(jié)果提取結(jié)果特征重要性可視化預(yù)測聚類分析強

調(diào)

:●上面列出的數(shù)據(jù)分析流程,是我們從數(shù)據(jù)分析小白到

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論