《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 第2章 數(shù)據(jù)挖掘的過程_第1頁
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 第2章 數(shù)據(jù)挖掘的過程_第2頁
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 第2章 數(shù)據(jù)挖掘的過程_第3頁
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 第2章 數(shù)據(jù)挖掘的過程_第4頁
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 第2章 數(shù)據(jù)挖掘的過程_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第2章數(shù)據(jù)挖掘的過程數(shù)據(jù)挖掘項目過程2數(shù)據(jù)分析vs數(shù)據(jù)挖掘3數(shù)據(jù)分析等級模型數(shù)據(jù)分析能力的8個等級常規(guī)報表即席查詢多維分析警報統(tǒng)計分析預(yù)報預(yù)測型建模優(yōu)化數(shù)據(jù)智能程度競爭優(yōu)勢回答:發(fā)生了什么?什么時候發(fā)生的?示例:月度或季度財務(wù)報表報表一般是定期生成,回答在某個特定的領(lǐng)域發(fā)生了什么。常規(guī)報表有其用途,但無法用于制定長期決策?;卮穑河卸嗌贁?shù)量?發(fā)生了多少次?在哪里?示例:一周內(nèi)每天各種門診的病人數(shù)量報告。即席查詢的最大好處是讓使用者不斷提出問題并尋找答案。數(shù)據(jù)分析能力的8個等級數(shù)據(jù)智能程度競爭優(yōu)勢常規(guī)報表即席查詢多維分析警報統(tǒng)計分析預(yù)報預(yù)測型建模優(yōu)化回答:問題到底出在哪里?應(yīng)該如何尋找答案?示例:對各種手機類型的用戶進行排序,探查他們的呼叫行為。通過多維分析(OLAP)的鉆取功能,可以有初步的發(fā)現(xiàn)。鉆取功能如同層層剝筍,發(fā)現(xiàn)問題所在?;卮穑菏裁磿r候該有所反應(yīng)?現(xiàn)在該做什么?示例:當銷售額落后于目標時,銷售總監(jiān)將收到警報。

可以警示什么時候出了問題,并當問題再次出現(xiàn)時及時示警。警報可以通過多種途徑來展示。數(shù)據(jù)分析能力的8個等級數(shù)據(jù)智能程度競爭優(yōu)勢常規(guī)報表即席查詢多維分析警報統(tǒng)計分析預(yù)報預(yù)測型建模優(yōu)化

回答:為什么會出現(xiàn)這種情況?錯失了什么機會?示例:銀行可以弄清楚為什么重新申請房貸的客戶在增多??梢赃M行一些復(fù)雜的分析,比如頻次分析模型或回歸分析等等。統(tǒng)計分析是在歷史數(shù)據(jù)中進行統(tǒng)計并總結(jié)規(guī)律。回答:如果持續(xù)這種發(fā)展趨勢,未來會怎么樣?還需要多少?什么時候需要?示例:零售商可以預(yù)計特定商品未來一段時間在各個門店的需求量。預(yù)報可以說是最熱門的分析應(yīng)用之一,各行各業(yè)都用得到。特別對于供應(yīng)商來說,能夠準確預(yù)報需求,就可以讓他們合理安排庫存,既不會缺貨,也不會積壓。數(shù)據(jù)分析能力的8個等級數(shù)據(jù)智能程度競爭優(yōu)勢常規(guī)報表即席查詢多維分析警報統(tǒng)計分析預(yù)報預(yù)測型建模優(yōu)化回答:接下來會發(fā)生什么?它對業(yè)務(wù)的影響程度如何?示例:酒店和娛樂行業(yè)可以預(yù)測哪些VIP客戶會對特定度假產(chǎn)品有興趣。如果客戶數(shù)量眾多,并希望展開一次市場營銷活動,那么哪些人會是最可能響應(yīng)的客戶呢?如何劃分出這些客戶?哪些客戶會流失?預(yù)測型建模能夠給出解答?;卮穑喝绾伟咽虑樽龅酶??對于一個復(fù)雜問題來說,那種決策是最優(yōu)的?示例:在給定了業(yè)務(wù)上的優(yōu)先級、資源調(diào)配的約束條件以及可用技術(shù)的情況下,給出IT平臺優(yōu)化的最佳方案,以滿足每個用戶的需求。優(yōu)化帶來創(chuàng)新,同時考慮到資源與需求,幫助找到實現(xiàn)目標的最佳方式。8數(shù)據(jù)挖掘的過程數(shù)據(jù)挖掘de過程商業(yè)問題行業(yè)經(jīng)驗數(shù)據(jù)工具知識商業(yè)決策數(shù)據(jù)挖掘數(shù)據(jù)挖掘的商業(yè)思路數(shù)據(jù)挖掘de過程數(shù)據(jù)挖掘的技術(shù)思路數(shù)據(jù)數(shù)據(jù)挖掘算法數(shù)據(jù)預(yù)處理(隱含)模型數(shù)據(jù)挖掘de過程數(shù)據(jù)挖掘是一個反復(fù)迭代的人機交互處理過程。該過程需要經(jīng)歷多個步驟,并且很多決策需要由用戶提供從宏觀上看,數(shù)據(jù)挖掘過程主要由三個部分組成,即數(shù)據(jù)整理、數(shù)據(jù)挖掘和結(jié)果的解釋評估。

轉(zhuǎn)換后數(shù)據(jù)

知識目標數(shù)據(jù)數(shù)據(jù)預(yù)處理后數(shù)據(jù)數(shù)據(jù)準備數(shù)據(jù)挖掘解釋評估模式數(shù)據(jù)源

數(shù)據(jù)挖掘解釋評估數(shù)據(jù)選擇數(shù)據(jù)集成預(yù)處理數(shù)據(jù)轉(zhuǎn)換

轉(zhuǎn)換后數(shù)據(jù)

知識目標數(shù)據(jù)數(shù)據(jù)預(yù)處理后數(shù)據(jù)模式數(shù)據(jù)源

數(shù)據(jù)挖掘解釋評估數(shù)據(jù)選擇數(shù)據(jù)集成預(yù)處理數(shù)據(jù)轉(zhuǎn)換

數(shù)據(jù)集成中,應(yīng)了解數(shù)據(jù)挖掘應(yīng)用領(lǐng)域的有關(guān)情況,熟悉相關(guān)的背景知識,確定用戶需求。數(shù)據(jù)準備數(shù)據(jù)挖掘解釋評估轉(zhuǎn)換后數(shù)據(jù)

知識目標數(shù)據(jù)數(shù)據(jù)預(yù)處理后數(shù)據(jù)模式數(shù)據(jù)源

數(shù)據(jù)挖掘解釋評估數(shù)據(jù)選擇數(shù)據(jù)集成預(yù)處理數(shù)據(jù)轉(zhuǎn)換

數(shù)據(jù)選取的目的是確定目標數(shù)據(jù),根據(jù)用戶的需要從原始數(shù)據(jù)庫中選取相關(guān)數(shù)據(jù)或樣本。數(shù)據(jù)準備數(shù)據(jù)挖掘解釋評估轉(zhuǎn)換后數(shù)據(jù)

知識目標數(shù)據(jù)數(shù)據(jù)預(yù)處理后數(shù)據(jù)模式數(shù)據(jù)源

數(shù)據(jù)挖掘解釋評估數(shù)據(jù)選擇數(shù)據(jù)集成預(yù)處理數(shù)據(jù)轉(zhuǎn)換

對選出的數(shù)據(jù)再處理,檢查數(shù)據(jù)的完整性及一致性,消除噪聲,濾除與數(shù)據(jù)挖掘無關(guān)的冗余數(shù)據(jù),根據(jù)時間序列和已知的變化情況,利用統(tǒng)計等方法填充丟失的數(shù)據(jù)。數(shù)據(jù)準備數(shù)據(jù)挖掘解釋評估轉(zhuǎn)換后數(shù)據(jù)

知識目標數(shù)據(jù)數(shù)據(jù)預(yù)處理后數(shù)據(jù)模式數(shù)據(jù)源

數(shù)據(jù)挖掘解釋評估數(shù)據(jù)選擇數(shù)據(jù)集成預(yù)處理數(shù)據(jù)轉(zhuǎn)換

根據(jù)知識發(fā)現(xiàn)的任務(wù)對經(jīng)過預(yù)處理的數(shù)據(jù)進行再處理,主要是通過投影或利用數(shù)據(jù)庫的其他操作減少數(shù)據(jù)量。數(shù)據(jù)準備數(shù)據(jù)挖掘解釋評估轉(zhuǎn)換后數(shù)據(jù)

知識目標數(shù)據(jù)數(shù)據(jù)預(yù)處理后數(shù)據(jù)模式數(shù)據(jù)源

數(shù)據(jù)挖掘解釋評估數(shù)據(jù)選擇數(shù)據(jù)集成預(yù)處理數(shù)據(jù)轉(zhuǎn)換

根據(jù)用戶的要求,確定數(shù)據(jù)挖掘要發(fā)現(xiàn)的知識類型。因為對數(shù)據(jù)挖掘的不同要求會在具體的知識發(fā)現(xiàn)過程中采用不同的知識發(fā)現(xiàn)算法。如分類、總結(jié)、關(guān)聯(lián)規(guī)則、聚類等。數(shù)據(jù)準備數(shù)據(jù)挖掘解釋評估轉(zhuǎn)換后數(shù)據(jù)

知識目標數(shù)據(jù)數(shù)據(jù)預(yù)處理后數(shù)據(jù)模式數(shù)據(jù)源

數(shù)據(jù)挖掘解釋評估數(shù)據(jù)選擇數(shù)據(jù)集成預(yù)處理數(shù)據(jù)轉(zhuǎn)換

根據(jù)確定的任務(wù)選擇合適的知識發(fā)現(xiàn)算法,包括選取合適的模型和參數(shù)。數(shù)據(jù)準備數(shù)據(jù)挖掘解釋評估轉(zhuǎn)換后數(shù)據(jù)

知識目標數(shù)據(jù)數(shù)據(jù)預(yù)處理后數(shù)據(jù)模式數(shù)據(jù)源

數(shù)據(jù)挖掘解釋評估數(shù)據(jù)選擇數(shù)據(jù)集成預(yù)處理數(shù)據(jù)轉(zhuǎn)換

運用選定擇的算法,從數(shù)據(jù)集中提取用戶感興趣的知識,并以一定的方式表示出來(如產(chǎn)生式規(guī)則等)。數(shù)據(jù)準備數(shù)據(jù)挖掘解釋評估轉(zhuǎn)換后數(shù)據(jù)

知識目標數(shù)據(jù)數(shù)據(jù)預(yù)處理后數(shù)據(jù)模式數(shù)據(jù)源

數(shù)據(jù)挖掘解釋評估數(shù)據(jù)選擇數(shù)據(jù)集成預(yù)處理數(shù)據(jù)轉(zhuǎn)換

對在數(shù)據(jù)挖掘中發(fā)現(xiàn)的模式(知識)進行解釋。經(jīng)用戶或計算評估后,例如可能會發(fā)現(xiàn)存在冗余模式或無關(guān)的模式,則予以剔除。若模式不能滿足用戶的要求,則需返回到前面的某些處理步驟中反復(fù)提取。數(shù)據(jù)準備數(shù)據(jù)挖掘解釋評估轉(zhuǎn)換后數(shù)據(jù)

知識目標數(shù)據(jù)數(shù)據(jù)預(yù)處理后數(shù)據(jù)模式數(shù)據(jù)源

數(shù)據(jù)挖掘解釋評估數(shù)據(jù)選擇數(shù)據(jù)集成預(yù)處理數(shù)據(jù)轉(zhuǎn)換

最終,將發(fā)現(xiàn)的知識以用戶能了解的方式呈現(xiàn)給用戶。數(shù)據(jù)準備數(shù)據(jù)挖掘解釋評估數(shù)據(jù)挖掘de過程1.數(shù)據(jù)準備2.數(shù)據(jù)選取3.數(shù)據(jù)預(yù)處理4.數(shù)據(jù)變換5.確定數(shù)據(jù)挖掘目標6.選擇算法7.數(shù)據(jù)挖掘算法(模型)8.模式解釋9.知識評價數(shù)據(jù)挖掘算法占據(jù)非常重要的地位,它主要是利用某些特定的知識發(fā)現(xiàn)算法,在一定的運算效率范圍內(nèi),從數(shù)據(jù)中發(fā)現(xiàn)出有關(guān)知識,決定了整個數(shù)據(jù)挖掘過程的效果與效率。數(shù)據(jù)挖掘過程模型數(shù)據(jù)挖掘過程模型SEMMA5ACRISP-DM第2章數(shù)據(jù)挖掘的過程數(shù)據(jù)挖掘的過程模型CRISP-DMCRISP-DM流程-跨行業(yè)數(shù)據(jù)挖掘標準過程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準備建模模型評估結(jié)果發(fā)布CRossIndustryStandardProcessforDataMiningCRISP-DMCRISP-DM流程-跨行業(yè)數(shù)據(jù)挖掘標準過程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準備建模模型評估結(jié)果發(fā)布明確要達到的業(yè)務(wù)目標,并將其轉(zhuǎn)化為數(shù)據(jù)挖掘主題。要從商業(yè)角度對業(yè)務(wù)部門的需求進行理解,并把業(yè)務(wù)需求的理解轉(zhuǎn)化為數(shù)據(jù)挖掘的定義,擬定達成業(yè)務(wù)目標的初步方案。具體包括:商業(yè)背景分析、商業(yè)成功標準的確定、形勢評估獲得企業(yè)資源清單、獲得企業(yè)的要求和設(shè)想評估成本和收益、評估風(fēng)險和意外初步理解行業(yè)術(shù)語確定數(shù)據(jù)挖掘的目標和制定數(shù)據(jù)挖掘計劃CRISP-DMCRISP-DM流程-跨行業(yè)數(shù)據(jù)挖掘標準過程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準備建模模型評估結(jié)果發(fā)布是找出可能的影響主題的因素,確定這些影響因素的數(shù)據(jù)載體、數(shù)據(jù)體現(xiàn)形式和數(shù)據(jù)存儲位置。從數(shù)據(jù)收集開始,然后熟悉數(shù)據(jù),具體包括以下工作內(nèi)容:檢測數(shù)據(jù)質(zhì)量,對數(shù)據(jù)進行初步理解簡單描述數(shù)據(jù),探測數(shù)據(jù)意義對數(shù)據(jù)中潛藏的信息和知識提出擬用數(shù)據(jù)加以驗證的假設(shè)。CRISP-DMCRISP-DM流程-跨行業(yè)數(shù)據(jù)挖掘標準過程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準備建模模型評估結(jié)果發(fā)布是將前面找到的數(shù)據(jù)進行變換、組合,建立數(shù)據(jù)挖掘工具軟件要求格式和內(nèi)容的寬表。要從原始數(shù)據(jù)中形成作為建模分析對象的最終數(shù)據(jù)集。具體工作主要包括:數(shù)據(jù)制表、記錄處理、變量選擇數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)格式化和數(shù)據(jù)清理等各項工作并不需要預(yù)先規(guī)定好執(zhí)行順序,而且數(shù)據(jù)準備工作還有可能多次執(zhí)行。CRISP-DMCRISP-DM流程-跨行業(yè)數(shù)據(jù)挖掘標準過程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準備建模模型評估結(jié)果發(fā)布使用軟件工具,選擇合適的建模方法,對準備好的數(shù)據(jù)表格進行處理,找出數(shù)據(jù)中隱藏的規(guī)律選擇和使用各種建模方法,并將模型參數(shù)進行優(yōu)化對于同樣的業(yè)務(wù)問題和數(shù)據(jù),可能有多種數(shù)據(jù)挖掘技術(shù)方法可供選用,可優(yōu)選提升度高、置信度高、簡單而易于總結(jié)業(yè)務(wù)政策和建議的數(shù)據(jù)挖掘技術(shù)方法在建模過程中,還可能會發(fā)現(xiàn)一些潛在的數(shù)據(jù)問題,這是需要回到數(shù)據(jù)準備階段重復(fù)進行建立模型階段的具體工作包括:選擇合適的建模技術(shù)進行檢驗設(shè)計建造模型CRISP-DMCRISP-DM流程-跨行業(yè)數(shù)據(jù)挖掘標準過程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準備建模模型評估結(jié)果發(fā)布從業(yè)務(wù)角度和統(tǒng)計角度對模型結(jié)論進行評估。要求檢查建模的整個過程,以確保模型沒有重大錯誤,并檢查是否遺漏重要的業(yè)務(wù)問題。當模型評估階段結(jié)束時,應(yīng)對數(shù)據(jù)挖掘結(jié)果的發(fā)布計劃達成一致。CRISP-DMCRISP-DM流程-跨行業(yè)數(shù)據(jù)挖掘標準過程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準備建模模型評估結(jié)果發(fā)布也稱為模型部署,建立模型本身并不是數(shù)據(jù)挖掘的目標,雖然模型使數(shù)據(jù)背后隱藏的信息和知識顯現(xiàn)出來,但數(shù)據(jù)挖掘的根本目標是將信息和知識以某種方式組織和呈現(xiàn)出來,并用來改善運營和提高效率。在實際的數(shù)據(jù)挖掘工作中,根據(jù)不同的企業(yè)業(yè)務(wù)需求,模型發(fā)布的具體工作可能簡單到提交數(shù)據(jù)挖掘報告,也可能復(fù)雜到將模型集成到企業(yè)的核心運營系統(tǒng)中去。SEMMA方法SEMMA方法/模型是由SASInstitute提出來的。SASInstitute是一家美國跨國的分析軟件開發(fā)企業(yè),也是世界上最大的私營軟件企業(yè),財富500強企業(yè)中有很大一部分使用的都是該公司的管理與分析軟件。SASInstitute開發(fā)并推出了一系列的分析軟件,稱為SAS。SAS軟件起源于美國北卡羅來納州立大學(xué)所開發(fā)的一個統(tǒng)計分析系統(tǒng),可以完成對數(shù)據(jù)進行獲取、管理、分析并形成報告,以便于幫助決策。32SEMMA方法SAS所推出的主要模塊中,與數(shù)據(jù)挖掘相關(guān)的模塊有:SASWarehouseAdministrator數(shù)據(jù)倉庫模塊EnterpriseMiner企業(yè)數(shù)據(jù)挖掘模塊MDDBServerOLAP多維數(shù)據(jù)庫產(chǎn)品可視化、應(yīng)用開發(fā)和決策支持表現(xiàn)工具等相關(guān)的模塊。33SEMMA方法341Sample數(shù)據(jù)抽樣2Explore數(shù)據(jù)探索3Modify

數(shù)據(jù)調(diào)整4Model模型研發(fā)5Assess綜合評價通過數(shù)據(jù)抽樣,檢驗數(shù)據(jù)質(zhì)量,根據(jù)業(yè)務(wù)需求精選樣本數(shù)據(jù)子集。SEMMA方法351Sample數(shù)據(jù)抽樣2Explore數(shù)據(jù)探索3Modify

數(shù)據(jù)調(diào)整4Model模型研發(fā)5Assess綜合評價探索數(shù)據(jù)規(guī)律、趨勢、相關(guān)性以及可區(qū)分的類別,發(fā)現(xiàn)其數(shù)據(jù)特征,并進行分析和預(yù)處理。SEMMA方法361Sample數(shù)據(jù)抽樣2Explore數(shù)據(jù)探索3Modify

數(shù)據(jù)調(diào)整4Model模型研發(fā)5Assess綜合評價明確和量化要解決的問題,調(diào)整數(shù)據(jù)以適應(yīng)問題的需要。SEMMA方法371Sample數(shù)據(jù)抽樣2Explore數(shù)據(jù)探索3Modify

數(shù)據(jù)調(diào)整4Model模型研發(fā)5Assess綜合評價根據(jù)數(shù)據(jù)特征和實現(xiàn)目標選擇和調(diào)整相關(guān)技術(shù)手段和方法,進行模型的研發(fā)以及知識的發(fā)現(xiàn)。SEMMA方法381Sample數(shù)據(jù)抽樣2Explore數(shù)據(jù)探索3Modify

數(shù)據(jù)調(diào)整4Model模型研發(fā)5Assess綜合評價模型和知識的綜合解釋和評價。通過綜合評價,找出效果最優(yōu)模型,并結(jié)合業(yè)務(wù)對模型進行針對性的解釋和應(yīng)用。5A391

Assess評價需求2

Access存取數(shù)據(jù)3Analyze完備分析4

Act模型演示5

Automate結(jié)果展現(xiàn)正確評價任務(wù)需求及數(shù)據(jù),充分理解數(shù)據(jù)并決策。5A401

Assess評價需求2

Access存取數(shù)據(jù)3Analyze完備分析4

Act模型演示5

Automate結(jié)果展現(xiàn)方便快速存取數(shù)據(jù)。評價數(shù)據(jù)需求和質(zhì)量,靈活處理數(shù)據(jù)。5A411

Assess評價

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論