大數(shù)據(jù)與挖掘2_第1頁
大數(shù)據(jù)與挖掘2_第2頁
大數(shù)據(jù)與挖掘2_第3頁
大數(shù)據(jù)與挖掘2_第4頁
大數(shù)據(jù)與挖掘2_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)分析與挖掘大數(shù)據(jù)與數(shù)據(jù)挖掘課程的背景……2中國大數(shù)據(jù)發(fā)展調(diào)查報(bào)告

(2018年):2017年中國大數(shù)據(jù)產(chǎn)業(yè)總體規(guī)模為4700億元人民幣,同比增長30%;預(yù)計(jì)2018-2020年增速將保持在30%以上。大部分企業(yè)均已意識到數(shù)據(jù)分析對企業(yè)發(fā)展的重要性。近四成的企業(yè)已經(jīng)應(yīng)用了大數(shù)據(jù)。與2016年相比上升4.5%金融等領(lǐng)域大數(shù)據(jù)應(yīng)用增加趨勢較為明顯。企業(yè)應(yīng)用大數(shù)據(jù)所帶來的主要效果包括實(shí)現(xiàn)智能決策、提升運(yùn)營效率和改善風(fēng)險(xiǎn)管理。3我們身邊的大數(shù)據(jù)…4百度地圖的定位數(shù)據(jù)對大數(shù)據(jù)的初步認(rèn)識(1)除夕夜哈爾濱遷徙地圖三十多年來,我國春運(yùn)大軍從1億多人次到36億人次春運(yùn)的最熱現(xiàn)象是逆向過年,即老人們到孩子工作的地方過年。6對大數(shù)據(jù)的初步認(rèn)識(2)

大數(shù)據(jù)與交通擁堵

一卡通大量使用,乘客出行的海量數(shù)據(jù)預(yù)埋傳感器,收集車流量、客流量信息衛(wèi)星地圖數(shù)據(jù)對道路交通情況進(jìn)行分析出租車提供實(shí)時數(shù)據(jù),了解主要道路的路況智能手機(jī)使用地圖應(yīng)用,分析出實(shí)時的道路交通擁堵狀況、出行流動趨勢或特定區(qū)域的人員聚集程度7對大數(shù)據(jù)的初步認(rèn)識(3)

大數(shù)據(jù)分析電信詐騙

根據(jù)2015年的統(tǒng)計(jì)數(shù)據(jù),我國公民個人信息泄露數(shù)量已經(jīng)達(dá)到40億條左右。剛?cè)×送ㄖ獣陀兄鷮W(xué)金詐騙電話剛買了房就有無數(shù)裝修公司的電話……8大數(shù)據(jù)的基本特征用4個V來總結(jié):Volume、Variety、Value和Velocity數(shù)據(jù)體量大:從TB級別,躍升到PB數(shù)據(jù)多樣性:多為非結(jié)構(gòu)型數(shù)據(jù),如網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息價(jià)值密度低:以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒速度快:產(chǎn)生了大量的高速動態(tài)數(shù)據(jù)流,對數(shù)據(jù)流的實(shí)時分析與處理要求不斷增加,數(shù)據(jù)處理的越及時,產(chǎn)生的價(jià)值越大。9大數(shù)據(jù)基本特征的第五個V:Veracity

數(shù)據(jù)的不確定性10數(shù)據(jù)挖掘:DataMining概念從大量數(shù)據(jù)中抽取出(隱隱含的、有潛潛在用途的、、未知的、人們可以以理解的)有有價(jià)值的信息息和模式的過過程。這些新新發(fā)現(xiàn)的規(guī)律律、模式、信信息和概念具具有潛在使用用價(jià)值。11數(shù)據(jù)挖掘背后后的大數(shù)據(jù)思維尋找特效藥::科學(xué)家們通常常需要分析疾疾病產(chǎn)生的原原因,尋找能能夠消除這些些原因的物質(zhì)質(zhì),然后合成成新藥。是一一個非常漫長長的過程,而而且費(fèi)用非常常高。有了大數(shù)據(jù),,尋找特效藥藥的方法就和和過去有所不不同了。斯坦福大學(xué)醫(yī)醫(yī)學(xué)院發(fā)現(xiàn),,原來用于治治療心臟病的的某種藥物對對治療某種胃胃病特別有效效。這種方法,實(shí)實(shí)際上依靠的的并非因果關(guān)關(guān)系,而是一一種強(qiáng)關(guān)聯(lián)關(guān)關(guān)系,即A藥對B病有效。至于于為什么有效效,接下來3年的研究工作作實(shí)際上就是是在反過來尋尋找原因。這種先有結(jié)果果再反推原因因的做法,和和過去通過因因果關(guān)系推導(dǎo)導(dǎo)出結(jié)果的做做法截然相反反。無疑,這這樣的做法會會比較快,當(dāng)當(dāng)然,前提是是有足夠多的的數(shù)據(jù)支持。。在大數(shù)據(jù)時代代,我們能夠夠得益于一種種新的思維方方法—從大量的數(shù)據(jù)據(jù)中直接找到到答案,即使使不知道原因因。12數(shù)據(jù)挖掘背后后的大數(shù)據(jù)思維在數(shù)據(jù)挖掘的的思想中,知知識的學(xué)習(xí)是是不需要通過過具體問題的的專業(yè)知識建建模。這其實(shí)是模擬擬了人的原始始學(xué)習(xí)過程---比如你要預(yù)測測一個人跑100米要多久時間間,可以根據(jù)據(jù)之前了解的的他這樣體型型的人跑100米用的多少時時間做一個估估計(jì),而不會會使用牛頓定定律來算。13數(shù)據(jù)挖掘:DataMining一般流程14數(shù)據(jù)挖掘:DataMining功能關(guān)聯(lián)規(guī)則分類與預(yù)測聚類分析…15數(shù)據(jù)挖掘:DataMining關(guān)聯(lián)規(guī)則16關(guān)聯(lián)規(guī)則:零售業(yè)應(yīng)用幾十年來,大大型零售商塔塔吉特收集了了海量的數(shù)據(jù)據(jù),記錄了每每一位經(jīng)常光光顧其各分店店的顧客數(shù)據(jù)據(jù)。發(fā)現(xiàn)女客戶會會在懷孕四個個月左右,大大量購買無香香味乳液。由由此挖掘出25項(xiàng)與懷孕高度度相關(guān)的商品品,制作“懷懷孕預(yù)測”指指數(shù)。推算出預(yù)產(chǎn)期期后,就能搶搶先一步,將將孕婦裝、嬰嬰兒床等折扣扣券寄給客戶戶。在接下來的幾幾年中會根據(jù)據(jù)嬰兒的生長長周期定期給給這些顧客推推送相關(guān)產(chǎn)品品,使這些客客戶形成長期期的忠誠度。。17數(shù)據(jù)挖掘:DataMining分類與預(yù)測18數(shù)據(jù)挖掘分類與預(yù)測金融創(chuàng)新產(chǎn)品品設(shè)計(jì)19數(shù)據(jù)挖掘:DataMining時間序列分析析20數(shù)據(jù)挖掘:DataMining時間序列分析析時間序列預(yù)測測即以時間序序列所能反映映的社會經(jīng)濟(jì)濟(jì)現(xiàn)象的發(fā)展展過程和規(guī)律律性,進(jìn)行引引伸外推,預(yù)預(yù)測其發(fā)展趨趨勢的方法,,簡單來說就就是從已知事事件測定未知知事件。時間序列數(shù)據(jù)據(jù)的趨勢變動動可分為以下下四點(diǎn):趨勢性、周期期性、隨機(jī)性性、綜合性預(yù)測時一般設(shè)設(shè)法過濾除去去不規(guī)則變動動,突出反映映趨勢性和周周期性變動。。21數(shù)據(jù)挖掘:DataMining聚類分析22數(shù)據(jù)挖掘:DataMining社交網(wǎng)絡(luò)、輿輿情分析…23社交網(wǎng)絡(luò)的分分析社交網(wǎng)絡(luò)中社社區(qū)圈子的識識別社交網(wǎng)絡(luò)中人人物影響力的的計(jì)算信息在社交網(wǎng)網(wǎng)絡(luò)上的傳播播模型虛假信息和機(jī)機(jī)器人賬號的的識別基于社交網(wǎng)絡(luò)絡(luò)信息對股市市、大選以及及傳染病的預(yù)預(yù)測社交網(wǎng)絡(luò)的分分析和研究是是一個交叉領(lǐng)領(lǐng)域的學(xué)科通常會利用社社會學(xué)、心理理學(xué)甚至是醫(yī)醫(yī)學(xué)上的基本本結(jié)論和原理理作為指導(dǎo)通過人工智能能領(lǐng)域中使用用的機(jī)器學(xué)習(xí)習(xí)、圖論等算算法對社交網(wǎng)網(wǎng)絡(luò)中的群體體行為和未來來的趨勢進(jìn)行行模擬和預(yù)測測。24大數(shù)據(jù)帶給數(shù)數(shù)據(jù)挖掘的…神經(jīng)網(wǎng)絡(luò)在幾幾十年前就有有了因?yàn)樗麄冃枰罅康摹坝?xùn)訓(xùn)練”對早期研究者者來說,想要要獲得不錯效效果的最小量量訓(xùn)練都遠(yuǎn)遠(yuǎn)遠(yuǎn)超過計(jì)算能能力和能提供供的數(shù)據(jù)的大大小團(tuán)隊(duì)通過在網(wǎng)網(wǎng)絡(luò)圍棋對戰(zhàn)戰(zhàn)平臺上最強(qiáng)強(qiáng)人類對手,,百萬級的對對弈落子去訓(xùn)訓(xùn)練25數(shù)據(jù)挖掘:DataMining大數(shù)據(jù)管理與與挖掘案例隨著我們通過過電話、信用用卡、電子商商務(wù)、互聯(lián)網(wǎng)網(wǎng)和電子郵件件留下更多的的生活痕跡,,大數(shù)據(jù)不斷斷增長的商業(yè)業(yè)影響也在如如下時刻表現(xiàn)現(xiàn)出來:你搜索飛往哈哈爾濱的航班班,然后便看看到網(wǎng)站上出出現(xiàn)了當(dāng)?shù)刭e賓館的打折信信息你光顧的商店店在對顧客行行為進(jìn)行數(shù)據(jù)據(jù)挖掘的基礎(chǔ)礎(chǔ)上獲取最大大化的利潤用算法預(yù)測人人們購票需求求,航空公司司以不可預(yù)知知的方式調(diào)整整價(jià)格智能手機(jī)的應(yīng)應(yīng)用識別到你你的位置,因因此你收到附附近餐廳的服服務(wù)信息…26數(shù)據(jù)挖掘:DataMining大數(shù)據(jù)管理與與挖掘案例麻省理工學(xué)院院創(chuàng)建了一個個計(jì)算機(jī)模型型來分析心臟臟病病患丟棄棄的心電圖數(shù)數(shù)據(jù)他們利用數(shù)據(jù)據(jù)挖掘在海量量的數(shù)據(jù)中篩篩選,發(fā)現(xiàn)心心電圖中出現(xiàn)現(xiàn)三類異常者者一年內(nèi)死于于第二次心臟臟病發(fā)作的機(jī)機(jī)率比未出現(xiàn)現(xiàn)者高一至二二倍這種新方法能能夠識別出更更多的,無法法通過現(xiàn)有的的風(fēng)險(xiǎn)篩查被被探查出的高高危病人。27數(shù)據(jù)挖掘:DataMining大數(shù)據(jù)管理與與挖掘案例大約20個NBA球隊(duì)使用了IBM公司開發(fā)的數(shù)數(shù)據(jù)挖掘應(yīng)用用軟件AdvancedScout系統(tǒng)來優(yōu)化他他們的戰(zhàn)術(shù)組組合系統(tǒng)分析顯示示兩個后衛(wèi)哈哈德衛(wèi)和伯蘭蘭.紹在前兩場中中被評為-17分但當(dāng)哈德衛(wèi)與與替補(bǔ)后衛(wèi)阿阿姆斯創(chuàng)組合合時,魔術(shù)隊(duì)隊(duì)得分為正14分魔術(shù)隊(duì)增加了了阿姆斯創(chuàng)的的上場時間,,此著果然見見效;AdvancedScout是一個數(shù)據(jù)分分析工具,每每一場比賽的的事件都被統(tǒng)統(tǒng)計(jì)分類,按按得分、助攻攻、失誤等等等。時間標(biāo)記讓教教練非常容易易地通過搜索索NBA比賽的錄像來來理解統(tǒng)計(jì)發(fā)發(fā)現(xiàn)的含義。。28數(shù)據(jù)挖掘:DataMining大數(shù)據(jù)管理與與挖掘案例頭腦里的大數(shù)數(shù)據(jù):人類連連接組項(xiàng)目是是一項(xiàng)雄心勃勃勃地試圖繪繪制出不同腦腦區(qū)之間相互互作用的計(jì)劃劃;項(xiàng)目使用三種種磁共振造影影觀察腦的結(jié)結(jié)構(gòu)、功能和和連接。數(shù)據(jù)據(jù)收集工作完完成之時,連連接組獲得大大約100萬G數(shù)據(jù);如果區(qū)域A和區(qū)域B自發(fā)地以每秒秒18個周期的頻率率產(chǎn)生腦波,,說明它們處處于同一網(wǎng)絡(luò)絡(luò)中;將利用整個大大腦中的這些些關(guān)聯(lián)數(shù)據(jù)創(chuàng)創(chuàng)建一個表現(xiàn)現(xiàn)出腦中的每每一個點(diǎn)如何何與其他每一一個點(diǎn)關(guān)聯(lián)的的矩陣。29大數(shù)據(jù)挖掘風(fēng)風(fēng)險(xiǎn)個人隱私泄露露通過分析大量量用戶的搜索索記錄,比如如“咳嗽”““發(fā)燒”等特特定詞條,谷谷

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論