版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第2章數(shù)據(jù)挖掘的過程數(shù)據(jù)挖掘的過程模型CRISP-DMCRISP-DM流程-跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建模模型評估結(jié)果發(fā)布CRossIndustryStandardProcessforDataMiningCRISP-DMCRISP-DM流程-跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建模模型評估結(jié)果發(fā)布明確要達(dá)到的業(yè)務(wù)目標(biāo),并將其轉(zhuǎn)化為數(shù)據(jù)挖掘主題。要從商業(yè)角度對業(yè)務(wù)部門的需求進(jìn)行理解,并把業(yè)務(wù)需求的理解轉(zhuǎn)化為數(shù)據(jù)挖掘的定義,擬定達(dá)成業(yè)務(wù)目標(biāo)的初步方案。具體包括:商業(yè)背景分析、商業(yè)成功標(biāo)準(zhǔn)的確定、形勢評估獲得企業(yè)資源清單、獲得企業(yè)的要求和設(shè)想評估成本和收益、評估風(fēng)險和意外初步理解行業(yè)術(shù)語確定數(shù)據(jù)挖掘的目標(biāo)和制定數(shù)據(jù)挖掘計劃CRISP-DMCRISP-DM流程-跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建模模型評估結(jié)果發(fā)布是找出可能的影響主題的因素,確定這些影響因素的數(shù)據(jù)載體、數(shù)據(jù)體現(xiàn)形式和數(shù)據(jù)存儲位置。從數(shù)據(jù)收集開始,然后熟悉數(shù)據(jù),具體包括以下工作內(nèi)容:檢測數(shù)據(jù)質(zhì)量,對數(shù)據(jù)進(jìn)行初步理解簡單描述數(shù)據(jù),探測數(shù)據(jù)意義對數(shù)據(jù)中潛藏的信息和知識提出擬用數(shù)據(jù)加以驗證的假設(shè)。CRISP-DMCRISP-DM流程-跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建模模型評估結(jié)果發(fā)布是將前面找到的數(shù)據(jù)進(jìn)行變換、組合,建立數(shù)據(jù)挖掘工具軟件要求格式和內(nèi)容的寬表。要從原始數(shù)據(jù)中形成作為建模分析對象的最終數(shù)據(jù)集。具體工作主要包括:數(shù)據(jù)制表、記錄處理、變量選擇數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)格式化和數(shù)據(jù)清理等各項工作并不需要預(yù)先規(guī)定好執(zhí)行順序,而且數(shù)據(jù)準(zhǔn)備工作還有可能多次執(zhí)行。CRISP-DMCRISP-DM流程-跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建模模型評估結(jié)果發(fā)布使用軟件工具,選擇合適的建模方法,對準(zhǔn)備好的數(shù)據(jù)表格進(jìn)行處理,找出數(shù)據(jù)中隱藏的規(guī)律選擇和使用各種建模方法,并將模型參數(shù)進(jìn)行優(yōu)化對于同樣的業(yè)務(wù)問題和數(shù)據(jù),可能有多種數(shù)據(jù)挖掘技術(shù)方法可供選用,可優(yōu)選提升度高、置信度高、簡單而易于總結(jié)業(yè)務(wù)政策和建議的數(shù)據(jù)挖掘技術(shù)方法在建模過程中,還可能會發(fā)現(xiàn)一些潛在的數(shù)據(jù)問題,這是需要回到數(shù)據(jù)準(zhǔn)備階段重復(fù)進(jìn)行建立模型階段的具體工作包括:選擇合適的建模技術(shù)進(jìn)行檢驗設(shè)計建造模型CRISP-DMCRISP-DM流程-跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建模模型評估結(jié)果發(fā)布從業(yè)務(wù)角度和統(tǒng)計角度對模型結(jié)論進(jìn)行評估。要求檢查建模的整個過程,以確保模型沒有重大錯誤,并檢查是否遺漏重要的業(yè)務(wù)問題。當(dāng)模型評估階段結(jié)束時,應(yīng)對數(shù)據(jù)挖掘結(jié)果的發(fā)布計劃達(dá)成一致。CRISP-DMCRISP-DM流程-跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建模模型評估結(jié)果發(fā)布也稱為模型部署,建立模型本身并不是數(shù)據(jù)挖掘的目標(biāo),雖然模型使數(shù)據(jù)背后隱藏的信息和知識顯現(xiàn)出來,但數(shù)據(jù)挖掘的根本目標(biāo)是將信息和知識以某種方式組織和呈現(xiàn)出來,并用來改善運營和提高效率。在實際的數(shù)據(jù)挖掘工作中,根據(jù)不同的企業(yè)業(yè)務(wù)需求,模型發(fā)布的具體工作可能簡單到提交數(shù)據(jù)挖掘報告,也可能復(fù)雜到將模型集成到企業(yè)的核心運營系統(tǒng)中去。SEMMA方法SEMMA方法/模型是由SASInstitute提出來的。SASInstitute是一家美國跨國的分析軟件開發(fā)企業(yè),也是世界上最大的私營軟件企業(yè),財富500強企業(yè)中有很大一部分使用的都是該公司的管理與分析軟件。SASInstitute開發(fā)并推出了一系列的分析軟件,稱為SAS。SAS軟件起源于美國北卡羅來納州立大學(xué)所開發(fā)的一個統(tǒng)計分析系統(tǒng),可以完成對數(shù)據(jù)進(jìn)行獲取、管理、分析并形成報告,以便于幫助決策。9SEMMA方法SAS所推出的主要模塊中,與數(shù)據(jù)挖掘相關(guān)的模塊有:SASWarehouseAdministrator數(shù)據(jù)倉庫模塊EnterpriseMiner企業(yè)數(shù)據(jù)挖掘模塊MDDBServerOLAP多維數(shù)據(jù)庫產(chǎn)品可視化、應(yīng)用開發(fā)和決策支持表現(xiàn)工具等相關(guān)的模塊。10SEMMA方法111Sample數(shù)據(jù)抽樣2Explore數(shù)據(jù)探索3Modify
數(shù)據(jù)調(diào)整4Model模型研發(fā)5Assess綜合評價通過數(shù)據(jù)抽樣,檢驗數(shù)據(jù)質(zhì)量,根據(jù)業(yè)務(wù)需求精選樣本數(shù)據(jù)子集。SEMMA方法121Sample數(shù)據(jù)抽樣2Explore數(shù)據(jù)探索3Modify
數(shù)據(jù)調(diào)整4Model模型研發(fā)5Assess綜合評價探索數(shù)據(jù)規(guī)律、趨勢、相關(guān)性以及可區(qū)分的類別,發(fā)現(xiàn)其數(shù)據(jù)特征,并進(jìn)行分析和預(yù)處理。SEMMA方法131Sample數(shù)據(jù)抽樣2Explore數(shù)據(jù)探索3Modify
數(shù)據(jù)調(diào)整4Model模型研發(fā)5Assess綜合評價明確和量化要解決的問題,調(diào)整數(shù)據(jù)以適應(yīng)問題的需要。SEMMA方法141Sample數(shù)據(jù)抽樣2Explore數(shù)據(jù)探索3Modify
數(shù)據(jù)調(diào)整4Model模型研發(fā)5Assess綜合評價根據(jù)數(shù)據(jù)特征和實現(xiàn)目標(biāo)選擇和調(diào)整相關(guān)技術(shù)手段和方法,進(jìn)行模型的研發(fā)以及知識的發(fā)現(xiàn)。SEMMA方法151Sample數(shù)據(jù)抽樣2Explore數(shù)據(jù)探索3Modify
數(shù)據(jù)調(diào)整4Model模型研發(fā)5Assess綜合評價模型和知識的綜合解釋和評價。通過綜合評價,找出效果最優(yōu)模型,并結(jié)合業(yè)務(wù)對模型進(jìn)行針對性的解釋和應(yīng)用。5A161
Assess評價需求2
Access存取數(shù)據(jù)3Analyze完備分析4
Act模型演示5
Automate結(jié)果展現(xiàn)正確評價任務(wù)需求及數(shù)據(jù),充分理解數(shù)據(jù)并決策。5A171
Assess評價需求2
Access存取數(shù)據(jù)3Analyze完備分析4
Act模型演示5
Automate結(jié)果展現(xiàn)方便快速存取數(shù)據(jù)。評價數(shù)據(jù)需求和質(zhì)量,靈活處理數(shù)據(jù)。5A181
Assess評價需求2
Access存取數(shù)據(jù)3Analyze完備分析4
Act模型演示5
Automate結(jié)果展現(xiàn)采用完善分析技術(shù)及工具統(tǒng)計方法,并檢驗結(jié)果是否正確。5A191
Assess評價需求2
Access存取數(shù)據(jù)3Analyze完備分析4
Act模型演示5
Automate結(jié)果展現(xiàn)專業(yè)級的原型演示及圖表演示能力,便于用戶更好更快決策。5A201
Assess評價需求2
Access存取數(shù)據(jù)3Analyze完備分析4
Act模型演示5
Automate結(jié)果展現(xiàn)通過提供易于使用、方便快捷的展示軟件,全面及時地顯示結(jié)果。過程融合21CRISP-DM商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備模型建立模型評估模型發(fā)布三階段
數(shù)據(jù)集成數(shù)據(jù)選擇數(shù)據(jù)預(yù)處理數(shù)據(jù)變換數(shù)據(jù)挖掘解釋評估SEMMA
數(shù)據(jù)取樣數(shù)據(jù)探索預(yù)處理數(shù)據(jù)調(diào)整模型研發(fā)知識發(fā)現(xiàn)模型解釋評價5AAssess評價需求
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 燈用化學(xué)配料工崗后測試考核試卷含答案
- 創(chuàng)業(yè)指導(dǎo)師崗前品質(zhì)考核試卷含答案
- 重冶萃取工安全實操水平考核試卷含答案
- 鋼筋骨架工崗前理論知識考核試卷含答案
- 熱工試驗工安全實操評優(yōu)考核試卷含答案
- 2024年溫州商學(xué)院馬克思主義基本原理概論期末考試題附答案
- 2024年湖北三峽職業(yè)技術(shù)學(xué)院馬克思主義基本原理概論期末考試題附答案
- 2024年湖北師范大學(xué)輔導(dǎo)員招聘備考題庫附答案
- 2025年企業(yè)品牌管理與市場定位手冊
- 2024年荔浦縣輔警招聘考試備考題庫附答案
- 保安法律法規(guī)及業(yè)務(wù)能力培訓(xùn)
- 班團活動設(shè)計
- GB/T 6109.1-2025漆包圓繞組線第1部分:一般規(guī)定
- 前縱隔占位患者的麻醉管理要點(PASF 2025年)
- 企業(yè)財務(wù)會計制度完整模板
- 銷售崗位個人簡歷模板下載合集
- 雅馬哈DTX430K電子鼓中文說明書
- 2025年廣州市房屋租賃合同(官方版)
- 水庫工程建設(shè)征地移民安置規(guī)劃報告技術(shù)審查要點(湖南省)
- 公路工程勘察設(shè)計一體化實施方案
- (人教A版)必修一高一數(shù)學(xué)上冊期末模擬卷02(解析版)
評論
0/150
提交評論