版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、大數(shù)據(jù)時代:技術(shù)與應(yīng)用楊 華 博士/ 副教授中國海洋大學(xué)信息科學(xué)與工程學(xué)院E-mail:大數(shù)據(jù)營銷銷紙牌屋是“大數(shù)據(jù)據(jù)”時代代下的產(chǎn)物物,其制作公公司Netflix公司通過過對3000萬付費用用戶的收視習(xí)慣、劇劇情評論論、演員員喜好等等數(shù)據(jù)精精準(zhǔn)分析析定制內(nèi)內(nèi)容,將全部13集內(nèi)容一一次全部部推出而而大獲成成功?,F(xiàn)代海洋洋科技淺藍(lán)深藍(lán)透明海洋洋ToomuchVolume(Ihave toomuch data)ToomuchVelocity(Itscomingatmetoo fast)ToomuchVariety(Itscomingatmefromtoomanyplacesintoo manyfo
2、rmats)What is “BigData”數(shù)據(jù)爆炸:互互聯(lián)網(wǎng)催催生大量量數(shù)據(jù)“COPYRIGHTRESERVED”,“一鍵鍵分享”1995年,Windows95,MB2004,Google上市,GB2014,大數(shù)據(jù)據(jù),TB,PB大數(shù)據(jù)分分析字節(jié)(B)、千字節(jié)節(jié)(KB)、兆字節(jié)節(jié)(MB)、吉字節(jié)節(jié)(GB)、太字節(jié)節(jié)(TB)、拍字節(jié)節(jié)(PB)、艾字節(jié)節(jié)(EB)、澤它字字節(jié)(ZB,又稱皆皆字節(jié))、堯它字字節(jié)(YB)表示、千千億億億億字節(jié)(BB)封面故事事:利用海量數(shù)據(jù)據(jù)的最新新策略研究人員員怎樣才才能應(yīng)對對現(xiàn)代方方法所產(chǎn)生的大量數(shù)數(shù)據(jù)流?大數(shù)據(jù)分分析不是隨機(jī)機(jī)樣本,而是全全體數(shù)據(jù)據(jù)不是精確確性,
3、而而是混雜雜性不是因果果關(guān)系,而是相相關(guān)關(guān)系系大數(shù)據(jù)分分析1.AnalyticVisualizations(可視化化分析)2.Data MiningAlgorithms(數(shù)據(jù)挖挖掘算法法)3.Predictive Analytic Capabilities(預(yù)測性性分析能能力)4. Semantic Engines(語義引引擎)5.Data Qualityand MasterData Management(數(shù)據(jù)質(zhì)質(zhì)量和數(shù)數(shù)據(jù)管理理)大數(shù)據(jù)分分析可視化:NASA公布全球球洋流圖圖語義搜索索引擎數(shù)據(jù)挖掘掘案例分析析:電子子商務(wù)領(lǐng)領(lǐng)域大數(shù)據(jù)之用戶行為分析析數(shù)據(jù)挖掘掘:機(jī)器器學(xué)習(xí)算算法學(xué)習(xí)方式式1、監(jiān)
4、督式式;2、非監(jiān)督督式;3、半監(jiān)督督式;4、強(qiáng)化;算法類似似性1、回歸算算法;2、基于實實例的算算法;3、正則化化方法;4、決策樹樹學(xué)習(xí);5、貝葉斯斯方法;6、基于核核的算法法;7、聚類算算法;8、關(guān)聯(lián)規(guī)規(guī)則學(xué)習(xí)習(xí);9、人工神神經(jīng)網(wǎng)絡(luò)絡(luò)數(shù)據(jù)挖掘掘:機(jī)器器學(xué)習(xí)算算法輸入數(shù)據(jù)據(jù),被稱作作“訓(xùn)練練數(shù)據(jù)”,并進(jìn)進(jìn)行標(biāo)識識。在建模時時,將預(yù)測測結(jié)果和和實際結(jié)結(jié)果進(jìn)行行比較,不斷調(diào)調(diào)整,直直到預(yù)期期的準(zhǔn)確確率。應(yīng)用:分類、回歸算法:邏輯回回歸、反反向傳遞遞神經(jīng)網(wǎng)網(wǎng)絡(luò)等監(jiān)督式學(xué)學(xué)習(xí)非監(jiān)督式式學(xué)習(xí)數(shù)據(jù)不被標(biāo)識識,學(xué)習(xí)習(xí)模型是是為了推推斷出數(shù)數(shù)據(jù)的內(nèi)內(nèi)部結(jié)構(gòu)構(gòu)。應(yīng)用場景景:企業(yè)數(shù)數(shù)據(jù),如如關(guān)聯(lián)規(guī)規(guī)則學(xué)習(xí)習(xí)、聚類
5、類半監(jiān)督學(xué)學(xué)習(xí)數(shù)據(jù)部分被標(biāo)標(biāo)識,部部分不被被標(biāo)識。模型先學(xué)習(xí)數(shù)數(shù)據(jù)的內(nèi)內(nèi)部結(jié)構(gòu)構(gòu),再用用于預(yù)測測應(yīng)用場景景:圖像識識別,回回歸和分分類算法:對標(biāo)識識數(shù)據(jù)進(jìn)進(jìn)行建模模,然后后對未標(biāo)標(biāo)識數(shù)據(jù)據(jù)進(jìn)行預(yù)預(yù)測。強(qiáng)化學(xué)習(xí)習(xí)數(shù)據(jù):直接作為為模型的的反饋模型:必須對數(shù)數(shù)據(jù)做出出直接反反應(yīng)應(yīng)用場景:動態(tài)系統(tǒng)統(tǒng)和機(jī)器器人控制制機(jī)器學(xué)習(xí)習(xí)算法學(xué)習(xí)方式式1、監(jiān)督式式;2、非監(jiān)督督式;3、半監(jiān)督督式;4、強(qiáng)化;算法類似似性1、回歸算算法;2、基于實實例的算算法;3、正則化化方法;4、決策樹樹學(xué)習(xí);5、貝葉斯斯方法;6、基于核核的算法法;7、聚類算算法;8、關(guān)聯(lián)規(guī)規(guī)則學(xué)習(xí)習(xí);9、人工神神經(jīng)網(wǎng)絡(luò)絡(luò)回歸分析析Regressi
6、on Analysis物理意義義:試圖采用用對誤差差的衡量量來描述變變量之間間的相關(guān)關(guān)關(guān)系步驟 確定定變量建立預(yù)測測模型進(jìn)行相關(guān)關(guān)分析計算預(yù)測測誤差確定預(yù)測測值回歸分析析Regression AnalysisSIM手機(jī)的用用戶滿意意度與相相關(guān)變量量的線性性回歸分分析因變量:“用戶滿滿意度”自變量:“質(zhì)量”、“形形象”和和“價格”回歸方程程:用戶滿意意度=0.008形象+0.645質(zhì)量+0.221價格指標(biāo)顯著性水平意義R20.89“質(zhì)量”和“形象”解釋了89%的“用戶滿意度”的變化程度F248.530.001回歸方程的線性關(guān)系顯著T(形象)0.001.000“形象”變量對回歸方程幾乎沒有貢獻(xiàn)T(
7、質(zhì)量)13.930.001“質(zhì)量”對回歸方程有很大貢獻(xiàn)T(價格)5.000.001“價格”對回歸方程有很大貢獻(xiàn)回歸分析析Regression Analysis指標(biāo)顯著性水平意義R0.89“質(zhì)量”和“形象”解釋了89%的“用戶滿意度”的變化程度F374.690.001回歸方程的線性關(guān)系顯著T(質(zhì)量)15.150.001“質(zhì)量”對回歸方程有很大貢獻(xiàn)T(價格)5.060.001“價格”對回歸方程有很大貢獻(xiàn)SIM手機(jī)的用用戶滿意意度與相相關(guān)變量量的線性性回歸分分析因變量:“用戶滿滿意度”自變量:“質(zhì)量”、“形象”和“價格”回歸方程程:用戶滿意意度=0.008形象+0.645質(zhì)量+0.221價格決策樹D
8、ecisionTree決策樹DecisionTreeEMV(建大廠廠)=(0.4)*($100,000)+(0.6)*(-$90,000)=-$14,000EMV(中型廠廠)=(0.4)*($60,000)+(0.6)* (-$10,000)=+$18,000EMV(建小廠)=(0.4)*($40,000)+(0.6)*(-$5,000)=+$13,000 EMV(不建廠廠)=$0如果建一個大廠且市場較較好就可可實現(xiàn)$100,000的利利潤。如如果市場場不好則則會導(dǎo)致致$90,000的損損失。但是,如果市市場較好好,建中型廠將會獲得得$60,000,小型廠將會獲得得$40,000,市市場不好好
9、則建中中型廠將將會損失失$10,000,小小型廠將將會損失失$5,000。當(dāng)然,還有一一個選擇擇就是什么也不不干。最近的的市場研研究表明明市場好好的概率率是0.4,也也就是說說市場不不好的概概率是0.6。決策樹DecisionTree根據(jù)EMV標(biāo)準(zhǔn)公司應(yīng)該建一一個中型型廠復(fù)雜網(wǎng)絡(luò)絡(luò)Complex NetworksA spatialcomplexdynamicalnetworkwith time-varying(switching)topology復(fù)雜網(wǎng)絡(luò)絡(luò)Complex NetworksConsensusCorrectconsensus(Truelearning)ControlManipula
10、tionMisinformation復(fù)雜網(wǎng)絡(luò)絡(luò)Complex NetworksPOWEROFBIGDATAOFTHEDATAWisdomofcrowdsBYTHEDATAWhat uneedtochangeFORTHE DATAQuality mattersmost工商數(shù)據(jù)據(jù)分析應(yīng)應(yīng)用案例例簡介活躍度分分析包括括資本活活躍度CRI(Capital Relative index)和主體體數(shù)量活活躍度QRI(QuantityRelativeindex)?;钴S度指指數(shù)是衡衡量市場場環(huán)境的的體檢表表,也是是實體經(jīng)經(jīng)濟(jì)的晴晴雨表,是一項項重要的的經(jīng)濟(jì)先先行指標(biāo)標(biāo)?;钴S躍度指數(shù)數(shù)與企業(yè)業(yè)生存環(huán)環(huán)境和市市場
11、投資資環(huán)境密密切相關(guān)關(guān),在市市場環(huán)境境轉(zhuǎn)好時時,投資資踴躍,資本活活躍度指指數(shù)升高高;反之之,指數(shù)數(shù)下降,表示投投資人不不愿向經(jīng)經(jīng)濟(jì)體注注入資金金,反映映市場環(huán)環(huán)境趨于于惡化。案例一市場主體體活躍度度模型分析案例例市場主體體活躍度度模型活躍度指指數(shù)與很很多市場場經(jīng)濟(jì)指指標(biāo)有相相當(dāng)密切切的關(guān)系系。CRI與財政收收入呈現(xiàn)現(xiàn)明顯的的相關(guān)關(guān)關(guān)系。CRI與存款準(zhǔn)準(zhǔn)備金率率、CPI等也有明明顯相關(guān)關(guān)關(guān)系。案例一市場主體體活躍度度模型案例分享享企業(yè)生命命周期企業(yè)生命周期期是反映映某一國國家或地地區(qū)中市市場環(huán)境境優(yōu)劣的的重要指指標(biāo),一一般來講講,長壽壽企業(yè)對對于區(qū)域域市場經(jīng)經(jīng)濟(jì)秩序序的穩(wěn)定定有一定定積極作作用
12、,相相對的非非長壽企企業(yè)對經(jīng)經(jīng)濟(jì)秩序序的平穩(wěn)穩(wěn)有相應(yīng)應(yīng)的負(fù)面面影響。對不同同維度中中的企業(yè)業(yè)分析其其生命周周期,可可以客觀觀反映區(qū)區(qū)域細(xì)分分市場的的經(jīng)濟(jì)秩秩序,從從而協(xié)助助決策者者準(zhǔn)確把把握影響響區(qū)域市市場經(jīng)濟(jì)濟(jì)秩序的的主要因因素。案例二市場主體體退出路路徑案例分享享企業(yè)生命命周期常規(guī)統(tǒng)計一般趨勢分析生存規(guī)律挖掘基于規(guī)律的知識發(fā)現(xiàn)企業(yè)生命命周期的的分析層層次基于工商商登記數(shù)數(shù)據(jù)分析析企業(yè)生生命周期期,一般般有兩種種常見的的分析層層次:常常規(guī)統(tǒng)計計、一般般趨勢分分析。通過對對數(shù)據(jù)的的深度分分析,還還可以挖挖掘出區(qū)區(qū)域企業(yè)業(yè)的生存存規(guī)律,并可以以根據(jù)生生存規(guī)律律進(jìn)一步步總結(jié)出出直觀的的,可用用于實
13、際際監(jiān)管工工作的“知識” 。善于發(fā)現(xiàn)現(xiàn)數(shù)據(jù)背背后的規(guī)規(guī)律與價價值案例二市場主體體退出路路徑43Chapter#7案例分享享企業(yè)生命命周期常規(guī)統(tǒng)計計一般趨勢勢分析案例二市場主體體退出路路徑Chapter#7案例分享享企業(yè)生命命周期生存規(guī)律律挖掘基于規(guī)律的知識發(fā)現(xiàn)現(xiàn)死亡高風(fēng)風(fēng)險時間間段-政府監(jiān)管管介入的的最佳時時機(jī)案例二市場主體體退出路路徑不同產(chǎn)業(yè)業(yè),不同同區(qū)域,不同規(guī)規(guī)模市場場主體存存活率的的研究有有助于判判別市場場生態(tài)環(huán)環(huán)境發(fā)生生了哪些些變化。產(chǎn)業(yè)生生命周期期模型對對于政府府產(chǎn)業(yè)扶扶持政策策的出臺臺也有著著較強(qiáng)的的參考意意義。案例二市場主體體退出路路徑用2000-2007年的數(shù)據(jù)據(jù)預(yù)測2001
14、-2007年成立企企業(yè)在2008年末的存存活數(shù)。預(yù)測2001-2007年成立企企業(yè)在2008年末的存存活總數(shù)數(shù)為363322,實際存存活個數(shù)數(shù)為364927,誤差為為-0.44%。開業(yè)年開業(yè)數(shù)存活率預(yù)測存活個數(shù)實際存活個數(shù)誤差個數(shù)誤差200170,5060.419129,55028,8097412.57%200274,1110.462734,29333,5937002.08%200385,3060.510043,50842,6418672.03%200499,4850.569556,66055,4131,2472.25%200596,3560.643461,99763,941-1,944-3.
15、04%200681,6980.749361,21563,288-2,073-3.28%200785,3530.891676,09877,242-1,144-1.48%案例二市場主體體退出路路徑預(yù)預(yù)測驗驗證“偏好”(Preference)一詞源源自經(jīng)濟(jì)濟(jì)學(xué)術(shù)語語,反映映用戶對對某種物物品或勞勞務(wù)的喜喜愛或不不喜愛程程度,這這種喜愛愛或不喜喜愛與物物品或勞勞務(wù)的價價格及用用戶收入入無關(guān)。偏好模模型主要要用于分分析不同同類型群群體之間間的結(jié)構(gòu)構(gòu)差異。投資偏好好等于1時,表明明沒有顯顯著差異異。當(dāng)投投資偏好好1時,表明明該群體體有著顯顯著的比比較優(yōu)勢勢。案例三區(qū)域產(chǎn)業(yè)業(yè)偏好分分析模型型案例五波士頓矩矩
16、陣分析析洞察產(chǎn)產(chǎn)業(yè)變遷遷A類(優(yōu)勢勢行業(yè))B類(支柱柱行業(yè))C類(潛力力行業(yè))D類(弱勢勢行業(yè)):案例五波士頓矩矩陣分析析洞察產(chǎn)產(chǎn)業(yè)變遷遷北京市2008、2009年重點行行業(yè)產(chǎn)業(yè)業(yè)遷移情情況。如,2009年租賃和和商務(wù)服服務(wù)業(yè)優(yōu)優(yōu)勢地位位近一步步增強(qiáng);科學(xué)研究究、技術(shù)術(shù)服務(wù)行行業(yè)由支支柱行業(yè)業(yè)向優(yōu)勢勢行業(yè)轉(zhuǎn)轉(zhuǎn)化;制造業(yè)則則逐步從從支柱行行業(yè)向弱弱勢行業(yè)業(yè)轉(zhuǎn)化。案例五智波士頓頓矩陣分分析洞察察產(chǎn)業(yè)變變遷案例五智波士頓頓矩陣分分析洞察察產(chǎn)業(yè)變變遷利潤率%可視化案案例GISofBeijingAdministrationforIndustryand Commerce地理分析析系統(tǒng)-市場主體體密度分分析
17、使分析更更加直觀觀化根據(jù)市場場主體GIS信息進(jìn)行行密度分分析。疊疊加其他他面數(shù)據(jù)據(jù)信息,可直觀觀看出主主體的區(qū)區(qū)域分布布熱點。密度分析析:根據(jù)據(jù)輸入的的點要素素的分布布,計算算整個區(qū)區(qū)域的數(shù)數(shù)據(jù)分布布情況,從而生生成一個個連續(xù)的的表面。GISfor SAICGISofBeijingAdministrationforIndustryand Commerce地理分析析系統(tǒng)-市場主體體密度分分析使分析更更加直觀觀化GISfor SAICGISofBeijingAdministrationforIndustryand Commerce地理分析析系統(tǒng)-市場主體體密度分分析使分析更更加直觀觀化GISfor
18、 SAICGISofBeijingAdministrationforIndustryand Commerce市場主體體密度分分析疊加網(wǎng)格格數(shù)據(jù),點數(shù)據(jù)據(jù)GISfor SAICGISofBeijingAdministrationforIndustryand Commerce市場主體體3D分析根據(jù)市場場主體GIS信息進(jìn)行行3D分析。按按照其屬屬性值進(jìn)進(jìn)行3維拉伸,直觀展展現(xiàn)主體體的區(qū)域域分布差差異。3D分析:根根據(jù)輸入入的點要要素的分分布,計計算整個個區(qū)域的的數(shù)據(jù)分分布高程程情況,從而生生成不同同高度的的3D圖形。GISfor SAICGISofBeijingAdministrationforIndustryand Commerce市場主體體3D分析-外資2008-2010新增企業(yè)業(yè)數(shù)量(區(qū)縣)GISfor SAICGISofBeijingAdministrationforIndustryand Commerce市場主體體3D分析-外資2008-2010新增企業(yè)業(yè)數(shù)量(工商所)GISfo
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 養(yǎng)老院信息化建設(shè)及管理規(guī)范制度
- 企業(yè)員工績效反饋制度
- 會議提案征集與篩選制度
- 2026年護(hù)理專業(yè)知識與技能模擬題庫
- 2026年醫(yī)療行業(yè)專業(yè)筆試試題及答案解析
- 2026年英語四六級閱讀理解技巧模擬試題及答案
- 2026年環(huán)境評估師專業(yè)試題集與解析
- 2026年新版細(xì)胞鋪展協(xié)議
- 2026年新版記憶力協(xié)議
- 《CJ 26.24-1991城市污水水質(zhì)檢驗方法標(biāo)準(zhǔn) 氯化物測定 銀量法》專題研究報告
- 農(nóng)忙及春節(jié)期間施工進(jìn)度計劃保證措施
- 新增專業(yè)可行性論證報告
- 浙江省溫州市小升初英語真題2(含答案)
- 2025屆山東濰坊臨朐九年級化學(xué)第一學(xué)期期末綜合測試試題含解析
- 產(chǎn)品保修證明模板
- FZT 82006-2018 機(jī)織配飾品行業(yè)標(biāo)準(zhǔn)
- 人教版小學(xué)1-4年級英文詞匯表
- 交警環(huán)衛(wèi)安全知識講座
- 中國通史課件
- SJ-T 11795-2022 鋰離子電池電極材料中磁性異物含量測試方法
- 非暴力溝通(完整版)
評論
0/150
提交評論