【商務智能-精】第5章-數據預處理技術案例課件_第1頁
【商務智能-精】第5章-數據預處理技術案例課件_第2頁
【商務智能-精】第5章-數據預處理技術案例課件_第3頁
【商務智能-精】第5章-數據預處理技術案例課件_第4頁
【商務智能-精】第5章-數據預處理技術案例課件_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

商務智能——第五章數據預處理技術案例商務智能1

數據預處理的方法數據清洗去掉噪聲和無關數據數據集成將多個數據源中的數據結合起來存放在一個一致的數據存儲中數據變換把原始數據轉換成為適合數據挖掘的形式數據歸約主要方法包括:數據立方體聚集,維歸約,數據壓縮,數值歸約,離散化和概念分層等

數據預處理的方法數據清洗2數據預處理工具MicrosoftSQLServerSSISSQLServer集成服務(SSIS)被定位成一個能生成高性能數據集成解決方案(包括數據倉庫中數據的提取、轉換和加載(ETL))的平臺。其集成的含義主要就是指把ETL集成在一起。SSIS通過一個統(tǒng)一的環(huán)境向用戶提供了數據轉換服務(DTS)所能提供的所有功能,并且大大減少了用戶花在編寫程序和腳本上的精力和時間。數據預處理工具MicrosoftSQLServerS3集成服務(IntegrationServices)SSIS的基本功能包括:?合并來自異類數據源中的數據?填充數據倉庫和數據集市?整理數據和將數據標準化?精確和模糊的查找功能?將商業(yè)智能置入數據轉換過程?使管理功能和數據加載自動化集成服務(IntegrationServices)SSIS4案例1:數據的集成、導入使用SSIS工具

1)新建IntegrationServices項目IntegrationSales,并在此項目中新建一個SSIS包IntegrationSales.dtsx,在此包中進行數據的抽取,整合等操作。2)創(chuàng)建數據源。在IntegratonService項目下的數據源文件夾中添加兩個新的數據源連接,一個連接AdeventurWorksLT2008,一個連接目標數據庫AdeventurWorksLT_DW2008案例1:數據的集成、導入使用SSIS工具5設計SSIS包IntegrationSales.dtsx。

設計包的方法是從工具箱中將需要使用的容器、任務、可執(zhí)行體等工具拖拽到包的SSIS設計器窗口中,再對這些對象進行設計。由于主要執(zhí)行的是數據抽取工作,因此數據流任務是我們主要設置的任務。數據抽取中所涉及的表主要有:事實表FactSales,產品信息表DimProduct,產品類別信息表DimCategory,訂購時間表DimTime客戶信息表DimCustmer。設計SSIS包IntegrationSales.dtsx。6【商務智能-精】第5章-數據預處理技術案例課件抽取事實表FactSales的數據流任務的過程1)選中SSIS設計器的【控制流】標簽,將工具箱中的【數據流任務】對象拖拽到SSIS設計器中,并重命名為DimCustmer2)雙擊【數據流任務】DimCustmer打開【數據流】標簽,將【OLEDB源】拖至SSIS設計器上。3)打開【OLEDB源編輯器】進行【OLEDB源】對象的設置。在上述設計中需選中數據源AdventureWorksLT2008,并選擇數據訪問模式為【SQL命令】,在【SQL命令文本】中輸入進行數據抽取的SQL語句。抽取事實表FactSales的數據流任務的過程8【商務智能-精】第5章-數據預處理技術案例課件94)完成【OLEDB源】對象設置后,從工具箱中將【SQLServer目標】對象拖至SSIS設計器上,并選中【OLEDB源】對象,將其綠色連線拖拽至新添的【SQLServer目標】對象上。打開【SQL目標編輯器】,選中數據源AdeventurWorksLT_DW2008。4)完成【OLEDB源】對象設置后,從工具箱中將10【商務智能-精】第5章-數據預處理技術案例課件11【商務智能-精】第5章-數據預處理技術案例課件12案例2:為數據挖掘算法準備數據以AdventureWorksDW2008數據倉庫為例,進行購物籃數據挖掘,數據源對象是顧客購買的商品和顧客年齡、收入狀況,但這些數據散布在數據倉庫不同的事實表和維表中的。如何進行?視圖vDMPrep就是為關聯(lián)規(guī)則挖掘、經過預處理生成的數據表。

vDMPrepwillbeusedasadatasourcebytheotherdataminingviews.UsesDWdataatcustomer,product,day,etc.granularityandgetsregion,model,year,month,etc.案例2:為數據挖掘算法準備數據以AdventureWorks13【商務智能-精】第5章-數據預處理技術案例課件14【商務智能-精】第5章-數據預處理技術案例課件15關聯(lián)規(guī)則挖掘的數據源為:vAssocSeqOrderssupportsassocationandsequenceclusteringdatamminingmodels.vAssocSeqLineItems關聯(lián)規(guī)則挖掘的數據源為:16CREATEVIEW[dbo].[vAssocSeqOrders]ASSELECTDISTINCT[OrderNumber],[CustomerKey],[Region],[IncomeGroup]FROM[dbo].[vDMPrep]WHERE[FiscalYear]='2004'CREATEVIEW[dbo].[vAssocSeqOr17CREATEVIEW[dbo].[vAssocSeqLineItems]ASSELECTOrderNumber,LineNumber,ModelFROM[dbo].[vDMPrep]WHEREFiscalYear='2004';CREATEVIEW[dbo].[vAssocSeqLi18商務智能——第五章數據預處理技術案例商務智能19

數據預處理的方法數據清洗去掉噪聲和無關數據數據集成將多個數據源中的數據結合起來存放在一個一致的數據存儲中數據變換把原始數據轉換成為適合數據挖掘的形式數據歸約主要方法包括:數據立方體聚集,維歸約,數據壓縮,數值歸約,離散化和概念分層等

數據預處理的方法數據清洗20數據預處理工具MicrosoftSQLServerSSISSQLServer集成服務(SSIS)被定位成一個能生成高性能數據集成解決方案(包括數據倉庫中數據的提取、轉換和加載(ETL))的平臺。其集成的含義主要就是指把ETL集成在一起。SSIS通過一個統(tǒng)一的環(huán)境向用戶提供了數據轉換服務(DTS)所能提供的所有功能,并且大大減少了用戶花在編寫程序和腳本上的精力和時間。數據預處理工具MicrosoftSQLServerS21集成服務(IntegrationServices)SSIS的基本功能包括:?合并來自異類數據源中的數據?填充數據倉庫和數據集市?整理數據和將數據標準化?精確和模糊的查找功能?將商業(yè)智能置入數據轉換過程?使管理功能和數據加載自動化集成服務(IntegrationServices)SSIS22案例1:數據的集成、導入使用SSIS工具

1)新建IntegrationServices項目IntegrationSales,并在此項目中新建一個SSIS包IntegrationSales.dtsx,在此包中進行數據的抽取,整合等操作。2)創(chuàng)建數據源。在IntegratonService項目下的數據源文件夾中添加兩個新的數據源連接,一個連接AdeventurWorksLT2008,一個連接目標數據庫AdeventurWorksLT_DW2008案例1:數據的集成、導入使用SSIS工具23設計SSIS包IntegrationSales.dtsx。

設計包的方法是從工具箱中將需要使用的容器、任務、可執(zhí)行體等工具拖拽到包的SSIS設計器窗口中,再對這些對象進行設計。由于主要執(zhí)行的是數據抽取工作,因此數據流任務是我們主要設置的任務。數據抽取中所涉及的表主要有:事實表FactSales,產品信息表DimProduct,產品類別信息表DimCategory,訂購時間表DimTime客戶信息表DimCustmer。設計SSIS包IntegrationSales.dtsx。24【商務智能-精】第5章-數據預處理技術案例課件抽取事實表FactSales的數據流任務的過程1)選中SSIS設計器的【控制流】標簽,將工具箱中的【數據流任務】對象拖拽到SSIS設計器中,并重命名為DimCustmer2)雙擊【數據流任務】DimCustmer打開【數據流】標簽,將【OLEDB源】拖至SSIS設計器上。3)打開【OLEDB源編輯器】進行【OLEDB源】對象的設置。在上述設計中需選中數據源AdventureWorksLT2008,并選擇數據訪問模式為【SQL命令】,在【SQL命令文本】中輸入進行數據抽取的SQL語句。抽取事實表FactSales的數據流任務的過程26【商務智能-精】第5章-數據預處理技術案例課件274)完成【OLEDB源】對象設置后,從工具箱中將【SQLServer目標】對象拖至SSIS設計器上,并選中【OLEDB源】對象,將其綠色連線拖拽至新添的【SQLServer目標】對象上。打開【SQL目標編輯器】,選中數據源AdeventurWorksLT_DW2008。4)完成【OLEDB源】對象設置后,從工具箱中將28【商務智能-精】第5章-數據預處理技術案例課件29【商務智能-精】第5章-數據預處理技術案例課件30案例2:為數據挖掘算法準備數據以AdventureWorksDW2008數據倉庫為例,進行購物籃數據挖掘,數據源對象是顧客購買的商品和顧客年齡、收入狀況,但這些數據散布在數據倉庫不同的事實表和維表中的。如何進行?視圖vDMPrep就是為關聯(lián)規(guī)則挖掘、經過預處理生成的數據表。

vDMPrepwillbeusedasadatasourcebytheotherdataminingviews.UsesDWdataatcustomer,product,day,etc.granularityandgetsregion,model,year,month,etc.案例2:為數據挖掘算法準備數據以AdventureWorks31【商務智能-精】第5章-數據預處理技術案例課件32【商務智能-精】第5章-數據預處理技術案例課件33關聯(lián)規(guī)則挖掘的數據源為:vAssocSeqOrderssupportsassocationandsequenceclusteringdatamminingmodels.vAssocSeqLineItems關聯(lián)規(guī)則挖掘的數據源為:34CREATEVIEW[dbo].[vAssocSeqOrders]ASSELECTDISTINCT[OrderNumber],[CustomerKey],[Region],[IncomeGroup]FROM[dbo].[vDMPrep]WHER

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論