大數(shù)據(jù)分析與挖掘_第1頁
大數(shù)據(jù)分析與挖掘_第2頁
大數(shù)據(jù)分析與挖掘_第3頁
大數(shù)據(jù)分析與挖掘_第4頁
大數(shù)據(jù)分析與挖掘_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

會計(jì)學(xué)1大數(shù)據(jù)分析與挖掘機(jī)器學(xué)習(xí)的常見用途第1頁/共28頁統(tǒng)計(jì)分析與數(shù)據(jù)挖掘技術(shù)上的定義應(yīng)用一系列技術(shù)從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫的數(shù)據(jù)中提取人們感興趣的信息和知識這些信息和知識是隱含的、未知的、潛在有用的表示為概念、規(guī)則、規(guī)律和模式等形式商業(yè)角度的定義新型的商業(yè)分析處理技術(shù),幫助決策者尋找數(shù)據(jù)間潛在的關(guān)聯(lián),發(fā)現(xiàn)被忽略的因素這些信息和因素對預(yù)測趨勢和決策行為是至關(guān)重要的與傳統(tǒng)分析方法的區(qū)別在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識所獲信息具有先前未知,有效和可實(shí)用三個特征什么是數(shù)據(jù)挖掘?第2頁/共28頁數(shù)據(jù)分析與數(shù)據(jù)挖掘的區(qū)別數(shù)據(jù)分析數(shù)據(jù)挖掘數(shù)據(jù)量數(shù)據(jù)量一般不大數(shù)據(jù)量通常很大約束從一個既定假設(shè)(目標(biāo))出發(fā)可以不需要既定的假設(shè)(目標(biāo))對象針對數(shù)字化的數(shù)據(jù)可以針對數(shù)字化的數(shù)據(jù),還可以針對聲音,文本,圖像等結(jié)果對結(jié)果進(jìn)行解釋,呈現(xiàn)有效的信息結(jié)果有時不容易解釋,著眼于預(yù)測未來,提出決策建議

數(shù)據(jù)分析只是在已定的假設(shè)、先驗(yàn)約束上處理原有計(jì)算方法,統(tǒng)計(jì)方法,將數(shù)據(jù)分析轉(zhuǎn)化為信息,而這些信息如果需要進(jìn)一步的獲得認(rèn)知,轉(zhuǎn)化為有效的預(yù)測和決策,這時就需要數(shù)據(jù)挖掘

數(shù)據(jù)分析是把數(shù)據(jù)變成信息的工具,數(shù)據(jù)挖掘是把信息變成認(rèn)知的工具,如果我們想要從數(shù)據(jù)中提取一定的規(guī)律(即認(rèn)知)往往需要數(shù)據(jù)分析和數(shù)據(jù)挖掘結(jié)合使用。第3頁/共28頁大數(shù)據(jù)分析與挖掘的常見用途1、自動預(yù)測趨勢和行為數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預(yù)測性信息,以往需要進(jìn)行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。谷歌預(yù)測冬季流感的傳播初步鎖定與流感相關(guān)的關(guān)鍵詞條谷歌數(shù)據(jù)庫用戶搜索記錄美國疾控中心記錄的流感事件發(fā)生的區(qū)域和時間預(yù)測模型預(yù)測結(jié)果谷歌準(zhǔn)確的預(yù)測出2009年甲型H1N1流感的爆發(fā),并明確指出爆發(fā)地所在的州以及時間。與滯后的官方數(shù)據(jù)相比,谷歌成為一個更有效及時的指示者。優(yōu)化詞條篩選第4頁/共28頁大數(shù)據(jù)分析與挖掘的常見用途2、關(guān)聯(lián)分析數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。購物籃分析顧客一次購買商品1面包、黃油、啤酒、尿布、牛奶2咖啡、糖、小甜餅、鮭魚3面包、黃油、咖啡、尿布、牛奶、雞蛋、啤酒4面包、黃油、鮭魚、雞5雞蛋、面包、黃油6啤酒、鮭魚、尿布、牛奶7番茄、啤酒、蝦、蘋果8土豆、面包、牛奶、生菜9啤酒、面包、尿布、咖啡10茶葉、雞蛋、鹽、啤酒經(jīng)過關(guān)聯(lián)分析,發(fā)現(xiàn)顧客經(jīng)常同時購買的產(chǎn)品中,啤酒與尿布同時出現(xiàn)的頻率最高第5頁/共28頁大數(shù)據(jù)分析與挖掘的常見用途3、聚類數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強(qiáng)了人們對客觀現(xiàn)實(shí)的認(rèn)識,是概念描述和偏差分析的先決條件。經(jīng)過對電信行業(yè)用戶的特征進(jìn)行聚類,可以完成客戶的畫像,可以基于多個維度完成畫像,也可以基于關(guān)聯(lián)分析的基礎(chǔ)上進(jìn)行降維處理后再開展畫像。年齡收入話費(fèi)支出群體A:年齡50歲以上

年收入20K以下

月話費(fèi)支出50元以下群體B:年齡30~50歲

年收入80K以上

月話費(fèi)支出200元以上群體C:年齡20~30歲

年收入50K

月話費(fèi)支出100元第6頁/共28頁大數(shù)據(jù)分析與挖掘的常見用途4、概念描述概念描述就是對某類對象的內(nèi)涵進(jìn)行描述,并概括這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。序號按時還款婚姻狀態(tài)應(yīng)納稅收入詐騙嫌疑1是單身125K否2否已婚100K否3否單身70K否4是已婚120K否5否離異95K是6否已婚60K否7是離異220K否8否單身85K是9否已婚75K否10否單身90K是按時還款否婚姻狀態(tài)是否應(yīng)納稅收入否單身.離異已婚否是<80K>80K決策樹第7頁/共28頁大數(shù)據(jù)分析與挖掘的常見用途4、概念描述概念描述就是對某類對象的內(nèi)涵進(jìn)行描述,并概括這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。第8頁/共28頁大數(shù)據(jù)分析與挖掘的常見用途5、偏差檢測數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結(jié)果與參照值之間有意義的差別。一個人的年齡為-999可能是程序處理缺省數(shù)據(jù)的方式導(dǎo)致的一個公司的高管工資明顯高于普通員工可能成為異常數(shù)據(jù)但也許是合理的一部住宅電話的話費(fèi)由每月200元以內(nèi)增加到數(shù)千元可能因?yàn)楸I打或其他原因所致一張信用卡突然出現(xiàn)明顯的高額消費(fèi)也許是因?yàn)楸I用的信用卡1、異常數(shù)據(jù)與眾不同,往往具有相對性

如高與矮、瘋子與常人2、常用的檢測方法

異常挖掘、離群挖掘、例外挖掘、稀有事件挖掘第9頁/共28頁大數(shù)據(jù)分析與挖掘項(xiàng)目的特點(diǎn)1.1.大數(shù)據(jù)分析與挖掘經(jīng)常是從技術(shù)角度切入:未知的探索1.2.比傳統(tǒng)項(xiàng)目多了很多嘗試成本:1.3.算法與模型的適用性與時間、地域以及其他外部條件影響1.4.經(jīng)常要在目標(biāo)要求與算法的復(fù)雜性、性能之間做出取舍第10頁/共28頁數(shù)據(jù)挖掘工作常見誤區(qū)只依賴一項(xiàng)技術(shù)/算法MCLP多目標(biāo)線性規(guī)劃算法KNNK近鄰算法第11頁/共28頁數(shù)據(jù)挖掘工作常見誤區(qū)同樣研究對象應(yīng)用一種模型算法模型的選擇,需要考慮模型對數(shù)據(jù)的適用性,只有結(jié)合數(shù)據(jù)的內(nèi)在特征、模型的假設(shè)條件,才能建立合適的模型,也只有針對具體數(shù)據(jù)集,才能談模型的好壞。因此數(shù)據(jù)本身的差異,決定了算法模型選擇的差異。即使研究目的相同,研究對象相似,由于影響數(shù)據(jù)生成過程的因素差異性較大,數(shù)據(jù)的具體表現(xiàn)形態(tài)也有較大差異,算法也會有截然不同。隨著時間的推移,數(shù)據(jù)的形態(tài)發(fā)生改變,因此有可能需要重新選擇合適的模型,或者,對原有相同模型進(jìn)行參數(shù)調(diào)整。第12頁/共28頁數(shù)據(jù)挖掘工作常見誤區(qū)缺乏數(shù)據(jù)對于分類問題或預(yù)估問題來說,常常缺乏準(zhǔn)確標(biāo)注的案例。例如:欺詐偵測(FraudDetection):在上百萬的交易中,可能只有屈指可數(shù)的欺詐交易,還有很多的欺詐交易沒有被正確標(biāo)注出來,這就需要在建模前花費(fèi)大量人力來修正。信用評分(CreditScoring):需要對潛在的高風(fēng)險客戶進(jìn)行長期跟蹤(比如兩年),從而積累足夠的評分樣本。第13頁/共28頁數(shù)據(jù)挖掘工作常見誤區(qū)同樣研究對象應(yīng)用一種模型負(fù)荷較穩(wěn)定專業(yè)技術(shù)支持負(fù)荷總量逐步提高至穩(wěn)定周期性強(qiáng)節(jié)假日特性強(qiáng)日夜負(fù)荷差大有學(xué)校的臺變成熟小區(qū)臺變商鋪較多的臺變新建小區(qū)臺變第14頁/共28頁大數(shù)據(jù)分析與挖掘項(xiàng)目的開展大數(shù)據(jù)分析與挖掘的標(biāo)準(zhǔn)流程第15頁/共28頁數(shù)據(jù)挖掘方法論業(yè)務(wù)理解(BusinessUnderstanding)數(shù)據(jù)理解(DataUnderstanding)建模(Modeling)數(shù)據(jù)準(zhǔn)備(DataPreparation)評估(Evaluation)部署(Deployment)跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(CRISP-DM)第16頁/共28頁

業(yè)務(wù)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備評估部署需求分析:從業(yè)務(wù)的角度理解項(xiàng)目的目的、范圍、業(yè)務(wù)定義。問題識別:識別需求中待所需業(yè)務(wù)問題的內(nèi)涵。問題定義:對業(yè)務(wù)問題進(jìn)行定義,確定問題概念范疇。問題分解:將復(fù)雜問題分解為幾個相當(dāng)對簡單的子問題。問題轉(zhuǎn)化:將業(yè)務(wù)問題轉(zhuǎn)化為能夠被數(shù)據(jù)挖掘問題。關(guān)鍵要素:問題轉(zhuǎn)化工作內(nèi)容將業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘問題。如:分類、推薦、回歸、聚類、關(guān)聯(lián)規(guī)則分析、時間序列分析、特征選擇、流數(shù)據(jù)分析等。建模數(shù)據(jù)挖掘方法論第17頁/共28頁

關(guān)鍵要素:數(shù)據(jù)定義、數(shù)據(jù)質(zhì)量分析工作內(nèi)容熟悉并數(shù)據(jù)理解原始數(shù)據(jù)的含義及產(chǎn)生條件,識別數(shù)據(jù)的質(zhì)量問題,發(fā)現(xiàn)數(shù)據(jù)的內(nèi)部屬性。數(shù)據(jù)定義:識別并理解原始數(shù)據(jù)中屬性數(shù)據(jù)的含義。如:數(shù)據(jù)庫中表的結(jié)構(gòu),數(shù)據(jù)表之間的關(guān)系,數(shù)據(jù)表每一列的含義、格式、約束條件等等。數(shù)據(jù)質(zhì)量分析:對數(shù)據(jù)的質(zhì)量進(jìn)行分析?;窘y(tǒng)計(jì)量:缺失值數(shù)量、均值、方差、中值、頻數(shù)、分位數(shù)、T檢驗(yàn)、Z檢驗(yàn)等等??梢暬狐c(diǎn)圖、箱型圖、柱狀圖等。異常值:聚類、異常值檢測業(yè)務(wù)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備評估部署建模數(shù)據(jù)挖掘方法論第18頁/共28頁

關(guān)鍵要素:數(shù)據(jù)選擇、數(shù)據(jù)整合、數(shù)據(jù)衍生、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗工作內(nèi)容從原始數(shù)據(jù)中構(gòu)造最終數(shù)據(jù)集的所有活動。這些數(shù)據(jù)將是建模的輸入值。這個階段的任務(wù)有個能執(zhí)行多次,沒有任何規(guī)定的順序。任務(wù)包括表、記錄和屬性的選擇,以及為模型工具轉(zhuǎn)換和清洗數(shù)據(jù)。數(shù)據(jù)選擇:在原始數(shù)據(jù)的基礎(chǔ)上進(jìn)行篩選,根據(jù)問題定義進(jìn)行數(shù)據(jù)選擇。如:使用全部數(shù)據(jù)、nfold分塊方式、按比例方式、Bootstrap等。數(shù)據(jù)衍生:從原始數(shù)據(jù)屬性的基礎(chǔ)上派生出新的數(shù)據(jù)屬性?;九缮壕?、中值、頻數(shù)、最?。ù螅┲怠⒕€形變換等。根據(jù)業(yè)務(wù)的派生:凈資產(chǎn)、凈資產(chǎn)收益率、折現(xiàn)率等。

數(shù)據(jù)轉(zhuǎn)換:對原始數(shù)據(jù)進(jìn)行變換,以滿足數(shù)據(jù)挖掘模型需要。離散化化處理:非數(shù)據(jù)型數(shù)據(jù)轉(zhuǎn)數(shù)值型,如性別、職業(yè)、區(qū)域等。數(shù)據(jù)平滑處理:非平滑數(shù)據(jù)轉(zhuǎn)化成平滑數(shù)據(jù),如時序數(shù)據(jù)中股票價格、成交量等??梢暬狐c(diǎn)圖、箱型圖、柱狀圖等。異常值:聚類、異常值檢測業(yè)務(wù)理解數(shù)據(jù)準(zhǔn)備數(shù)據(jù)理解評估部署建模數(shù)據(jù)挖掘方法論第19頁/共28頁

關(guān)鍵要素:數(shù)據(jù)選擇、數(shù)據(jù)整合、數(shù)據(jù)衍生、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗工作內(nèi)容從原始數(shù)據(jù)中構(gòu)造最終數(shù)據(jù)集的所有活動。這些數(shù)據(jù)將是建模的輸入值。這個階段的任務(wù)有個能執(zhí)行多次,沒有任何規(guī)定的順序。任務(wù)包括表、記錄和屬性的選擇,以及為模型工具轉(zhuǎn)換和清洗數(shù)據(jù)。數(shù)據(jù)清洗:對數(shù)據(jù)中的異常情況進(jìn)行清理,提升數(shù)據(jù)質(zhì)量。缺失值處理:均值、按類別取均值、聚類均值、BayesRule、近鄰學(xué)習(xí)異常值處理:裝箱、聚類、回歸、人工處理一致性處理:基于規(guī)則、人工數(shù)據(jù)整合:將多個數(shù)據(jù)源中的數(shù)據(jù)有機(jī)整合到一起。如:關(guān)系數(shù)據(jù)SQL查詢、按ID整合、Tag信息整合、異構(gòu)數(shù)據(jù)整合。數(shù)據(jù)歸約:數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的歸約表示,它小得多,但仍接近地保持原數(shù)據(jù)的完整性,數(shù)據(jù)歸約可以解決海量數(shù)據(jù)上造成的效率與性能問題。

如:數(shù)據(jù)方聚集、維歸約、數(shù)據(jù)壓縮、離散化和概念分層產(chǎn)生。業(yè)務(wù)理解數(shù)據(jù)準(zhǔn)備數(shù)據(jù)理解評估部署建模數(shù)據(jù)挖掘方法論第20頁/共28頁

關(guān)鍵要素:模型選擇、模型訓(xùn)練、模型最優(yōu)參數(shù)選擇、模型優(yōu)化工作內(nèi)容選擇并應(yīng)用不同的數(shù)據(jù)挖掘模型,通過模型參數(shù)調(diào)整來獲得最佳模型。有些模型可以解決一類相同的數(shù)據(jù)挖掘問題。有些模型在數(shù)據(jù)生成上有特殊要求,因此可能需要經(jīng)常返回到數(shù)據(jù)準(zhǔn)備階段。模型選擇:根據(jù)業(yè)務(wù)理解階段的問題轉(zhuǎn)化選擇不同的數(shù)據(jù)挖掘模型分類:SVM、LogisticRegression、MCLP、DecisionTree等。推薦:基于內(nèi)容、基于知識、協(xié)同過濾、基于效用等?;貧w:SVM、LinearRegression、GaussianProcess等。聚類:Kmeans、Kmedoids、AffinityPropagation、EM關(guān)聯(lián)規(guī)則:apriori、fp-tree等。模型訓(xùn)練:使用數(shù)據(jù)準(zhǔn)備階段所準(zhǔn)備的數(shù)據(jù)對所選模型進(jìn)行訓(xùn)練。概率論、統(tǒng)計(jì)學(xué)、隨機(jī)過程;機(jī)器學(xué)習(xí);人工智能;最優(yōu)化理論業(yè)務(wù)理解建模數(shù)據(jù)理解評估部署數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘方法論第21頁/共28頁

關(guān)鍵要素:模型選擇、模型訓(xùn)練、模型最優(yōu)參數(shù)選擇、模型優(yōu)化工作內(nèi)容選擇并應(yīng)用不同的數(shù)據(jù)挖掘模型,通過模型參數(shù)調(diào)整來獲得最佳模型。有些模型可以解決一類相同的數(shù)據(jù)挖掘問題。有些模型在數(shù)據(jù)生成上有特殊要求,因此可能需要經(jīng)常返回到數(shù)據(jù)準(zhǔn)備階段。模型最優(yōu)參數(shù)調(diào)整:在選定模型后,需要對模型的參數(shù)進(jìn)行進(jìn)一步的調(diào)整,以使模型對數(shù)據(jù)有良好泛化能力。

網(wǎng)格搜索(GridSearch):為每個模型參數(shù)設(shè)定一個候選集合,從全部參數(shù)的組合中根據(jù)評價指標(biāo)選取最好的模型參數(shù)。

遺傳算法:每一個候選參數(shù)集合是遺傳算法中的一個個體,通過個體選擇、參數(shù)間交叉、變異來選擇較好的候選參數(shù)集合。模型優(yōu)化:進(jìn)一步優(yōu)化模型以滿足具體的業(yè)務(wù)需求。如:時間復(fù)雜度、空間復(fù)雜度、計(jì)算成本復(fù)雜度等等。業(yè)務(wù)理解建模數(shù)據(jù)理解評估部署數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘方法論第22頁/共28頁

關(guān)鍵要素:基本指標(biāo)評估、業(yè)務(wù)指標(biāo)評估工作內(nèi)容從數(shù)據(jù)分析的角度已經(jīng)建立了一個高質(zhì)量的模型。檢查構(gòu)造模型的步驟,確保模型可以完成業(yè)務(wù)目標(biāo)。這個階段的關(guān)鍵目的是確定是否有重要業(yè)務(wù)問題沒有被充分的考慮。基本指標(biāo)評估:從模型的角度對所選模型進(jìn)行評估,判斷是否需要調(diào)整或重新選擇模型。如:混淆矩陣(ConfusionMatrix)、ROC、AUC、K-S指標(biāo)等等。業(yè)務(wù)指標(biāo)評估:從業(yè)務(wù)的角度對所選模型進(jìn)行評估,判斷是否需要調(diào)整或重新選擇模型。如,存款額、營業(yè)額、利潤率、挽回客戶價值等等。業(yè)務(wù)理解評估數(shù)據(jù)理解建模部署數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘方法論

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論