版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、議程,理解Data Service結構和安裝 數(shù)據(jù)倉庫概念 定義源數(shù)據(jù)庫和目標數(shù)據(jù)庫 創(chuàng)建批作業(yè)(Batch Job) 使用內(nèi)置的Transforms 使用內(nèi)置函數(shù)(Functions) 變化數(shù)據(jù)獲取(Change Data Capture) 管理工具(Web Administration) 練習(Exercises) Q DB2 Oracle My SQL Sybase ASE,Repository種類: Local; Central; Profiler,練習: 創(chuàng)建資料庫,Server Manager服務器管理,Job Server: 將Job Server與 Local Reposito
2、ry關聯(lián)起來,練習:建立一個Server,問題,Job Server應與哪一種資料庫關聯(lián): Local Repository Central Repository Profiler Repository,Question,哪種說法正確: 每個開發(fā)人員均需建立一個Local Repository 一個Job Server可關聯(lián)多個Local Repository 一個Local Repository可與多個Job Server關聯(lián),DS Designer,Data Service Objects,Projects Jobs Work flows Data Flows Scripts Transf
3、orms,Job由什么組成?,Job中可以包含: Script; WorkFlow; DataFlow,Job是DS的可執(zhí)行對象,WorkFlow,Workflow中包含: Script; Dataflow; Workflow,WorkFlow,這樣的Workflow執(zhí)行 時有什么特點?,JOB可否這樣?,如果我需要執(zhí)行邏輯,怎么辦?,DataFlow,Dataflow中包含: Source;Target; Transforms Sub Dataflow 不能包含:Workflow; Script,Source和Target,代表源和目標,Transforms,轉換,ETL1: 數(shù)據(jù)遷移 細節(jié)
4、數(shù)據(jù) 代碼轉換 數(shù)據(jù)拆分、合并,ETL2: 數(shù)據(jù)匯總 數(shù)據(jù)關聯(lián) 星型模型,數(shù)據(jù)質(zhì)量控制,定義源與目標數(shù)據(jù)庫,Datastores 什么是Datastore: Datastore是DS到數(shù)據(jù)庫、application的連接 對于本次培訓來講,Datastore就是數(shù)據(jù)庫 Datastore連接 DB2, Informix, SQL Server, Oracle, Sybase, Teradata (native connections) Other DB (ODBC) IMS, VSAM.,練習 :定義源與目標,Create a source datastore ODS Create a tar
5、get datastore - Target,什么是元數(shù)據(jù),Importing Metadata 什么是Metadata Metadata包括 Table Name Column names Data type PK Index Table attributes Description RDBMS functions,練習:導入元數(shù)據(jù),可以直接搜索名稱,練習,請在本機上的數(shù)據(jù)庫中附加兩個數(shù)據(jù)庫ODS和Target 在DS Designer中創(chuàng)建兩個Datastore,分別命名為:DS_ODS(作為源);DS_Target(作為目標),定義文件格式,分隔符格式文件 固定寬度格式文件 SAP R3
6、 format,練習,Define a File format Employees,創(chuàng)建一個批處理JOB,Create a project Create a job Create a work flow Create a Data flow Add source and target objects to a data flow Execute the job,遷移QUERY,創(chuàng)建Target表,使用Template表 創(chuàng)建目標文件格式,直接創(chuàng)建Target文件格式,Query的利用:過濾,Query的利用:Join和Outer Join,Query:Multi-source和Multi-ta
7、rget,練習:Query,創(chuàng)建兩個DataStore:Source/Target 導入Employee/Customers/Orders/Order_details表 創(chuàng)建Project,DF 將Customers表從Source遷移到Target表(使用Template表) 將Customers表中的按照Country分成US_Cust和Intl_Cust兩部分,分別存放到兩個表內(nèi) 將Customer表同時寫入數(shù)據(jù)庫和文本文件(創(chuàng)建文件格式),思考:,如果Source和Target是不同的數(shù)據(jù)庫類型,應注意什么問題? 遷移過程一樣 需格外注意數(shù)據(jù)類型轉換 源是否可以是多個異構數(shù)據(jù)庫? 目標
8、是否可以是多個異構數(shù)據(jù)庫?,問題:,哪些說法是正確的: 一個Project可以包含多個JOB 可以直接在JOB上加入Dataflow而不必使用Workflow 可以直接運行某個Dataflow而不是整個JOB 一個Dataflow可以在多個Job或者Workflow中使用,問題:,關于Query說法正確的是: 能夠?qū)崿F(xiàn)數(shù)據(jù)抽取 能夠進行數(shù)據(jù)過濾 能夠進行匯總,議程:,使用Query Transform 聚合與排序 使用 SQL Transform 作為一個源 快速導入 使用CASE/MERGE 轉換 使用Validation 控制數(shù)據(jù)質(zhì)量 其他transforms 使用Web Administ
9、ration,Aggregate任務:Query,使用Query進行匯總,綜合使用排序、過濾等:Query,練習:,從Customer和Orders以及Orders Detail三個表中對每個國家購買的產(chǎn)品數(shù)量和金額進行匯總,SQL作為源,Fast Load-理解目標表,常規(guī)的DataFlow使用SQL加載數(shù)據(jù) 高效的加載則使用Bulk Load加載數(shù)據(jù),目標表設置,將Template Table變成Normal Table,練習:使用SQL和Bulk Load,使用SQL從Customer表中提取美國客戶數(shù)據(jù) 使用Bulk Load將其加載到目標表,測試Bulk Load,使用Row_Gen
10、eration創(chuàng)建大數(shù)據(jù)集,Bulk Load參數(shù),問題:,關于加載說法正確的是: Insert比Bulk Load速度更快 在執(zhí)行數(shù)據(jù)加載之前或加載完畢后可以自動執(zhí)行設定的SQL Template表可以使用Bulk Load選項 文本文件作為目標時可以使用Bulk Load,目標表的其他屬性,拆分- Case,合并- Merge,練習,使用CASE將Customer客戶分成US客戶和INTL客戶兩部分,分別裝入US_CUST表和INTL_CUST表 用MERGE將US_CUST和INTL_CUST合并成ALL_CUST表,展平- Hierachy_Flattening,使用 Hierachy
11、_Flattening,使用 Hierachy_Flattening,使用 Pivot,使用 Reverse Pivot,使用 Date_Generation,For Create time DSmension table. 練習: create date DSmension,Date Transform,進階:使用代理鍵,什么是代理鍵? 在數(shù)據(jù)倉庫中代理鍵有何用處?,使用代理鍵,數(shù)據(jù)質(zhì)量特性,數(shù)據(jù)質(zhì)量的管理流程,Data Profiling,同時比較兩個數(shù)據(jù)集 源表、目的表或文件 中間處理的輸出,內(nèi)帶數(shù)據(jù)預覽和結構分析,7 0 10000 809622 05/09/03 7 0 0.160
12、0.970 05/09/03,在同樣的面板上進行結構分析,內(nèi)帶數(shù)據(jù)預覽和結構分析,數(shù)據(jù)清洗和校驗:分揀和校正,使用 Validation,驗證輸入數(shù)據(jù)是否有效,如日期,數(shù)字,業(yè)務規(guī)則 練習: Validation,數(shù)據(jù)校驗,易于定義和充用業(yè)務規(guī)則去校驗每字段數(shù)據(jù)的正確性 識別任何拒絕或糾正錯誤的數(shù)據(jù),確保每個字段每條記錄數(shù)據(jù)的正確性,Validate,Validation Rule: “Sales Date” is between “10/1/04” and “10/31/04”.,數(shù)據(jù)校驗 例子,Validation Rule: “Sales Date” is between “10/1/0
13、4” and “10/31/04”.,數(shù)據(jù)審計:AuDSt,數(shù)據(jù)審查,在整個etl過程中校驗審查統(tǒng)計操作規(guī)則 收集校驗統(tǒng)計例如行數(shù)、匯總,平均和校驗碼 維護審計統(tǒng)計的歷史信息,在行級的標準下校驗數(shù)據(jù)倉庫的完整性,AuDSt,AuDSt Rule: “Row Count” of Global Sales = Americas + APAC + EMEA,數(shù)據(jù)審查 - 例子,AuDSt Rule: “Row Count” of Global Sales = Americas + APAC + EMEA,練習:,選擇一個表進行剖析 自定義一些業(yè)務規(guī)則實現(xiàn)數(shù)據(jù)分揀 試用相關功能,問題:,關于數(shù)據(jù)質(zhì)量說
14、法正確的是: Data Profiling必須使用Profiling服務器 通過Profiling可以了解數(shù)據(jù)源的干凈程度 DS內(nèi)置分揀和清洗規(guī)則進行數(shù)據(jù)分離 如何使用AuDSt?,使用內(nèi)置Functions,Function vs. Transform Functions operate on single values, such as values in specific columns in a data set. Transforms operate on data sets, creating, updating, and deleting roes of data. Functi
15、ons category Aggregate sum, avg, max Conversion Database Date add_months, date_DSff, date_part Environment get_env Math abs, sin, floor Miscellaneous hostname, dataflow_name, sleep String System exec, mail_to Validation is_valid_date, is_valid_decimal Custom functions,使用內(nèi)置Functions,With Smart EDStor
16、 With Function wizard,使用內(nèi)置Functions,Date and time functions To_char ( date, format ) To_date ( string, format ) Julian( date) as int month ( date) Quarter (date) Decode() Lookup functions Lookup() Lookup_seq() Lookup_ext() Activity: Using the Lookup_ext() Function,變化數(shù)據(jù)捕捉,對于大數(shù)據(jù)量的數(shù)據(jù)倉庫項目,為了減少更新數(shù)據(jù)倉庫所花費的
17、時間,需要使用CDC方案 只將“變化的數(shù)據(jù)”加載到數(shù)據(jù)倉庫 “變化的數(shù)據(jù)”包括 增 刪 改 兩種方案: Source based CDC Target based CDC,變化數(shù)據(jù)捕捉- 基于CDC,源系統(tǒng)必須能夠區(qū)分出變化的數(shù)據(jù) Timestamps Change logs 整個作業(yè)分兩個部分 Initial load job Delta load job,變化數(shù)據(jù)捕捉- 基于CDC,Map_CDC_Operation,變化數(shù)據(jù)捕捉- 基于CDC,當源系統(tǒng)不能提供足夠的信息時,適用 target based CDC 從源系統(tǒng)取出所有數(shù)據(jù),將變化的數(shù)據(jù)加載到目標 Table_comparison transform (built-in) 插入新數(shù)據(jù) 更新變化的數(shù)據(jù)(update,delete) 忽略不變的數(shù)據(jù) Low performance 練習: Table_comparison,Table Comparasion,Web Administration,Logging into the Administrator Add repositories
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2026學年蘇科版九年級數(shù)學上冊期末模擬試卷3(含答案)
- 【寒假復習】人教版五年級數(shù)學上冊小數(shù)乘除四則混合運算應用題專項訓練(含答案)
- 化工儀表巡檢安全課件
- 2026山東淄博桓臺縣面向退役大學生士兵專項崗位招聘備考考試題庫及答案解析
- 2026年德宏州瑞麗市幼兒教育集團招聘合同制臨聘人員(16人)考試備考試題及答案解析
- 2026年上半年云南能源職業(yè)技術學院招聘人員(21人)參考考試題庫及答案解析
- 2026福建福州市教育局公費師范生專項招聘92人參考考試題庫及答案解析
- 2026廣西北海市合浦縣委黨校招錄城鎮(zhèn)公益性崗位人員1人備考考試題庫及答案解析
- 關于管理制度規(guī)劃的論文(3篇)
- 后勤專用通道管理制度范本(3篇)
- 工程款糾紛專用!建設工程施工合同糾紛要素式起訴狀模板
- 地坪漆施工方案范本
- 【《自適應巡航系統(tǒng)ACC的SOTIF風險的識別與評估分析案例》4100字】
- 阿壩州消防救援支隊2026年面向社會公開招聘政府專職消防員(69人)筆試備考試題及答案解析
- 2025寧波市甬北糧食收儲有限公司公開招聘工作人員2人筆試參考題庫及答案解析
- 供應鏈年底總結與計劃
- 院區(qū)病房改造提升項目節(jié)能評估報告
- 2026年中考語文一輪復習:閱讀理解萬能答題模板
- 增殖放流效果評估體系
- 酒店餐飲收銀合同范本
- 2025年低壓電工理論考試1000題(附答案)
評論
0/150
提交評論