版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
商務智能——第五章數據預處理技術案例商務智能1
數據預處理的方法數據清洗去掉噪聲和無關數據數據集成將多個數據源中的數據結合起來存放在一個一致的數據存儲中數據變換把原始數據轉換成為適合數據挖掘的形式數據歸約主要方法包括:數據立方體聚集,維歸約,數據壓縮,數值歸約,離散化和概念分層等
數據預處理的方法數據清洗2數據預處理工具MicrosoftSQLServerSSISSQLServer集成服務(SSIS)被定位成一個能生成高性能數據集成解決方案(包括數據倉庫中數據的提取、轉換和加載(ETL))的平臺。其集成的含義主要就是指把ETL集成在一起。SSIS通過一個統(tǒng)一的環(huán)境向用戶提供了數據轉換服務(DTS)所能提供的所有功能,并且大大減少了用戶花在編寫程序和腳本上的精力和時間。數據預處理工具MicrosoftSQLServerS3集成服務(IntegrationServices)SSIS的基本功能包括:?合并來自異類數據源中的數據?填充數據倉庫和數據集市?整理數據和將數據標準化?精確和模糊的查找功能?將商業(yè)智能置入數據轉換過程?使管理功能和數據加載自動化集成服務(IntegrationServices)SSIS4案例1:數據的集成、導入使用SSIS工具
1)新建IntegrationServices項目IntegrationSales,并在此項目中新建一個SSIS包IntegrationSales.dtsx,在此包中進行數據的抽取,整合等操作。2)創(chuàng)建數據源。在IntegratonService項目下的數據源文件夾中添加兩個新的數據源連接,一個連接AdeventurWorksLT2008,一個連接目標數據庫AdeventurWorksLT_DW2008案例1:數據的集成、導入使用SSIS工具5設計SSIS包IntegrationSales.dtsx。
設計包的方法是從工具箱中將需要使用的容器、任務、可執(zhí)行體等工具拖拽到包的SSIS設計器窗口中,再對這些對象進行設計。由于主要執(zhí)行的是數據抽取工作,因此數據流任務是我們主要設置的任務。數據抽取中所涉及的表主要有:事實表FactSales,產品信息表DimProduct,產品類別信息表DimCategory,訂購時間表DimTime客戶信息表DimCustmer。設計SSIS包IntegrationSales.dtsx。6【商務智能-精】第5章-數據預處理技術案例課件抽取事實表FactSales的數據流任務的過程1)選中SSIS設計器的【控制流】標簽,將工具箱中的【數據流任務】對象拖拽到SSIS設計器中,并重命名為DimCustmer2)雙擊【數據流任務】DimCustmer打開【數據流】標簽,將【OLEDB源】拖至SSIS設計器上。3)打開【OLEDB源編輯器】進行【OLEDB源】對象的設置。在上述設計中需選中數據源AdventureWorksLT2008,并選擇數據訪問模式為【SQL命令】,在【SQL命令文本】中輸入進行數據抽取的SQL語句。抽取事實表FactSales的數據流任務的過程8【商務智能-精】第5章-數據預處理技術案例課件94)完成【OLEDB源】對象設置后,從工具箱中將【SQLServer目標】對象拖至SSIS設計器上,并選中【OLEDB源】對象,將其綠色連線拖拽至新添的【SQLServer目標】對象上。打開【SQL目標編輯器】,選中數據源AdeventurWorksLT_DW2008。4)完成【OLEDB源】對象設置后,從工具箱中將10【商務智能-精】第5章-數據預處理技術案例課件11【商務智能-精】第5章-數據預處理技術案例課件12案例2:為數據挖掘算法準備數據以AdventureWorksDW2008數據倉庫為例,進行購物籃數據挖掘,數據源對象是顧客購買的商品和顧客年齡、收入狀況,但這些數據散布在數據倉庫不同的事實表和維表中的。如何進行?視圖vDMPrep就是為關聯(lián)規(guī)則挖掘、經過預處理生成的數據表。
vDMPrepwillbeusedasadatasourcebytheotherdataminingviews.UsesDWdataatcustomer,product,day,etc.granularityandgetsregion,model,year,month,etc.案例2:為數據挖掘算法準備數據以AdventureWorks13【商務智能-精】第5章-數據預處理技術案例課件14【商務智能-精】第5章-數據預處理技術案例課件15關聯(lián)規(guī)則挖掘的數據源為:vAssocSeqOrderssupportsassocationandsequenceclusteringdatamminingmodels.vAssocSeqLineItems關聯(lián)規(guī)則挖掘的數據源為:16CREATEVIEW[dbo].[vAssocSeqOrders]ASSELECTDISTINCT[OrderNumber],[CustomerKey],[Region],[IncomeGroup]FROM[dbo].[vDMPrep]WHERE[FiscalYear]='2004'CREATEVIEW[dbo].[vAssocSeqOr17CREATEVIEW[dbo].[vAssocSeqLineItems]ASSELECTOrderNumber,LineNumber,ModelFROM[dbo].[vDMPrep]WHEREFiscalYear='2004';CREATEVIEW[dbo].[vAssocSeqLi18商務智能——第五章數據預處理技術案例商務智能19
數據預處理的方法數據清洗去掉噪聲和無關數據數據集成將多個數據源中的數據結合起來存放在一個一致的數據存儲中數據變換把原始數據轉換成為適合數據挖掘的形式數據歸約主要方法包括:數據立方體聚集,維歸約,數據壓縮,數值歸約,離散化和概念分層等
數據預處理的方法數據清洗20數據預處理工具MicrosoftSQLServerSSISSQLServer集成服務(SSIS)被定位成一個能生成高性能數據集成解決方案(包括數據倉庫中數據的提取、轉換和加載(ETL))的平臺。其集成的含義主要就是指把ETL集成在一起。SSIS通過一個統(tǒng)一的環(huán)境向用戶提供了數據轉換服務(DTS)所能提供的所有功能,并且大大減少了用戶花在編寫程序和腳本上的精力和時間。數據預處理工具MicrosoftSQLServerS21集成服務(IntegrationServices)SSIS的基本功能包括:?合并來自異類數據源中的數據?填充數據倉庫和數據集市?整理數據和將數據標準化?精確和模糊的查找功能?將商業(yè)智能置入數據轉換過程?使管理功能和數據加載自動化集成服務(IntegrationServices)SSIS22案例1:數據的集成、導入使用SSIS工具
1)新建IntegrationServices項目IntegrationSales,并在此項目中新建一個SSIS包IntegrationSales.dtsx,在此包中進行數據的抽取,整合等操作。2)創(chuàng)建數據源。在IntegratonService項目下的數據源文件夾中添加兩個新的數據源連接,一個連接AdeventurWorksLT2008,一個連接目標數據庫AdeventurWorksLT_DW2008案例1:數據的集成、導入使用SSIS工具23設計SSIS包IntegrationSales.dtsx。
設計包的方法是從工具箱中將需要使用的容器、任務、可執(zhí)行體等工具拖拽到包的SSIS設計器窗口中,再對這些對象進行設計。由于主要執(zhí)行的是數據抽取工作,因此數據流任務是我們主要設置的任務。數據抽取中所涉及的表主要有:事實表FactSales,產品信息表DimProduct,產品類別信息表DimCategory,訂購時間表DimTime客戶信息表DimCustmer。設計SSIS包IntegrationSales.dtsx。24【商務智能-精】第5章-數據預處理技術案例課件抽取事實表FactSales的數據流任務的過程1)選中SSIS設計器的【控制流】標簽,將工具箱中的【數據流任務】對象拖拽到SSIS設計器中,并重命名為DimCustmer2)雙擊【數據流任務】DimCustmer打開【數據流】標簽,將【OLEDB源】拖至SSIS設計器上。3)打開【OLEDB源編輯器】進行【OLEDB源】對象的設置。在上述設計中需選中數據源AdventureWorksLT2008,并選擇數據訪問模式為【SQL命令】,在【SQL命令文本】中輸入進行數據抽取的SQL語句。抽取事實表FactSales的數據流任務的過程26【商務智能-精】第5章-數據預處理技術案例課件274)完成【OLEDB源】對象設置后,從工具箱中將【SQLServer目標】對象拖至SSIS設計器上,并選中【OLEDB源】對象,將其綠色連線拖拽至新添的【SQLServer目標】對象上。打開【SQL目標編輯器】,選中數據源AdeventurWorksLT_DW2008。4)完成【OLEDB源】對象設置后,從工具箱中將28【商務智能-精】第5章-數據預處理技術案例課件29【商務智能-精】第5章-數據預處理技術案例課件30案例2:為數據挖掘算法準備數據以AdventureWorksDW2008數據倉庫為例,進行購物籃數據挖掘,數據源對象是顧客購買的商品和顧客年齡、收入狀況,但這些數據散布在數據倉庫不同的事實表和維表中的。如何進行?視圖vDMPrep就是為關聯(lián)規(guī)則挖掘、經過預處理生成的數據表。
vDMPrepwillbeusedasadatasourcebytheotherdataminingviews.UsesDWdataatcustomer,product,day,etc.granularityandgetsregion,model,year,month,etc.案例2:為數據挖掘算法準備數據以AdventureWorks31【商務智能-精】第5章-數據預處理技術案例課件32【商務智能-精】第5章-數據預處理技術案例課件33關聯(lián)規(guī)則挖掘的數據源為:vAssocSeqOrderssupportsassocationandsequenceclusteringdatamminingmodels.vAssocSeqLineItems關聯(lián)規(guī)則挖掘的數據源為:34CREATEVIEW[dbo].[vAssocSeqOrders]ASSELECTDISTINCT[OrderNumber],[CustomerKey],[Region],[IncomeGroup]FROM[dbo].[vDMPrep]WHER
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 建筑勞務服務合同范本
- 廣東稅務代理合同范本
- 工程內頁資料合同范本
- 護欄焊接安裝合同范本
- 戶外樓梯制作合同范本
- 異地搬遷項目合同協(xié)議
- 打印店代理合同協(xié)議書
- 小型土方清運合同范本
- 打包倉庫配貨合同范本
- 打包物品進貨合同范本
- 小學生必讀書試題及答案
- 銷售部年終總結及明年工作計劃
- 工作計劃執(zhí)行跟蹤表格:工作計劃執(zhí)行情況統(tǒng)計表
- (完整版)現用九年級化學電子版教材(下冊)
- 城市道路路基土石方施工合同
- 教學計劃(教案)-2024-2025學年人教版(2024)美術一年級上冊
- 國家基本公共衛(wèi)生服務項目之健康教育
- DL∕ T 1166-2012 大型發(fā)電機勵磁系統(tǒng)現場試驗導則
- 新人教版日語七年級全一冊單詞默寫清單+答案
- HJ 636-2012 水質 總氮的測定 堿性過硫酸鉀消解紫外分光光度法
- QBT 2739-2005 洗滌用品常用試驗方法 滴定分析 (容量分析)用試驗溶液的制備
評論
0/150
提交評論