版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、CertusNet Document ConfidentialCopyright (c) 2011 CertusNet Inc. All Rights Reserved.,Kettle介紹,姚必龍,CertusNet Document ConfidentialCopyright (c) 2008-2011 CertusNet Inc. All Rights Reserved.,大綱,ETL簡(jiǎn)介 Kettle定義 Kettle產(chǎn)品介紹 Kettle功能 Kettle與其他ETL工具比較 Kettle安裝 Kettle Demo,CertusNet Document ConfidentialCop
2、yright (c) 2008-2011 CertusNet Inc. All Rights Reserved.,ETL簡(jiǎn)介,ETL背景 隨著信息系統(tǒng)的增加,各自孤立工作的信息系統(tǒng)將會(huì)造成大量的冗余數(shù)據(jù)和業(yè)務(wù)人員的重復(fù)勞動(dòng) 數(shù)據(jù)集成是企業(yè)應(yīng)用集成的重要環(huán)節(jié) 數(shù)據(jù)內(nèi)容、數(shù)據(jù)格式和數(shù)據(jù)質(zhì)量千差萬(wàn)別 ETL是實(shí)現(xiàn)數(shù)據(jù)集成的主要技術(shù),CertusNet Document ConfidentialCopyright (c) 2008-2011 CertusNet Inc. All Rights Reserved.,ETL簡(jiǎn)介,ETL定義 ETL中三個(gè)字母分別代表的是Extract、Transform、L
3、oad,即抽取、轉(zhuǎn)換、加載 數(shù)據(jù)抽?。簭脑磾?shù)據(jù)源系統(tǒng)抽取目的數(shù)據(jù)源系統(tǒng)需要的數(shù)據(jù); 數(shù)據(jù)轉(zhuǎn)換:將從源數(shù)據(jù)源獲取的數(shù)據(jù)按照業(yè)務(wù)需求,轉(zhuǎn)換成目的數(shù)據(jù)源要求的形式,并對(duì)錯(cuò)誤、不一致的數(shù)據(jù)進(jìn)行清洗和加工 數(shù)據(jù)加載:將轉(zhuǎn)換后的數(shù)據(jù)裝載到目的數(shù)據(jù)源,CertusNet Document ConfidentialCopyright (c) 2008-2011 CertusNet Inc. All Rights Reserved.,ETL簡(jiǎn)介,ETL在數(shù)據(jù)倉(cāng)庫(kù)中的位置,CertusNet Document ConfidentialCopyright (c) 2008-2011 CertusNet Inc. A
4、ll Rights Reserved.,Kettle介紹Kettle定義與作用,Kettle是一個(gè)開(kāi)源的ETL工具 Kettle被設(shè)計(jì)用來(lái)幫助你實(shí)現(xiàn)ETL需要:抽取、轉(zhuǎn)換、裝載,翻譯成中文應(yīng)該叫做水壺,名字的起源正如該項(xiàng)目的主程序員MATT 在一個(gè)論壇里說(shuō)的哪樣:希望把各種數(shù)據(jù)放到一個(gè)壺里然后以一種指定的格式流出,CertusNet Document ConfidentialCopyright (c) 2008-2011 CertusNet Inc. All Rights Reserved.,Kettle產(chǎn)品介紹,Kettle家族產(chǎn)品有: Spoon、Pan、Kitchen Kitchen工作
5、(job)執(zhí)行器 (命令行方式) Spoon轉(zhuǎn)換(transform)、工作(Job)設(shè)計(jì)工具 (GUI方式) Pan轉(zhuǎn)換(transform)執(zhí)行器 (命令行方式) 注:舊版本Kettle中還有Chef,是一個(gè)Job設(shè)計(jì)工具,但是新版本中已經(jīng)不再有這個(gè)模塊,被Spoon取代,CertusNet Document ConfidentialCopyright (c) 2008-2011 CertusNet Inc. All Rights Reserved.,Kettle產(chǎn)品介紹,SPOON允許你通過(guò)圖形界面來(lái)設(shè)計(jì)ETL轉(zhuǎn)換過(guò)程(Transformation)。新版本Kettle中,工作(Job)
6、也在Spoon中設(shè)計(jì) PAN允許你批量運(yùn)行由Spoon設(shè)計(jì)的ETL轉(zhuǎn)換(例如使用時(shí)間調(diào)度器)。Pan是一個(gè)后臺(tái)執(zhí)行的程序,沒(méi)有圖形界面 KITCHEN允許你批量使用由Chef、Spoon設(shè)計(jì)的任務(wù)(例如使用一個(gè)時(shí)間調(diào)度器)。KITCHEN是一個(gè)后臺(tái)運(yùn)行程序 Job和Transformation的差別:Transformation專注于數(shù)據(jù)的ETL,而Job的范圍比較廣,可以是Transformation,也可以是 Mail、SQL、Shell、FTP 等,甚至可以是另外一個(gè)Job Transformation和Job,對(duì)應(yīng)Kettle的兩種腳本文件transformation( .ktr )
7、和 job (.kjb)。transformation 完成針對(duì)數(shù)據(jù)的基礎(chǔ)轉(zhuǎn)換,專注于數(shù)據(jù)加工本身,比如裝卸數(shù)操作、數(shù)據(jù)編碼轉(zhuǎn)換;job 則完成整個(gè)工作流的控制,比如執(zhí)行若干ETL轉(zhuǎn)換,將加工后的文件借助SSH2傳輸出去等。通常,Job會(huì)包含若干ETL轉(zhuǎn)換,并控制它們的執(zhí)行,而且Job會(huì)以一定周期執(zhí)行,比如每周二執(zhí)行、每隔3小時(shí)執(zhí)行等,CertusNet Document ConfidentialCopyright (c) 2008-2011 CertusNet Inc. All Rights Reserved.,Kettle功能介紹,數(shù)據(jù)源支持 基本的文本文件 Access、Excel、XM
8、L、Property文件格式 MDX查詢語(yǔ)言、 Cube文件、Streaming XML數(shù)據(jù)流 自動(dòng)產(chǎn)生空記錄或者行 從XBase類型文件(DBF)讀取數(shù)據(jù) 關(guān)系型數(shù)據(jù)庫(kù) 獲取系統(tǒng)信息如文件名稱、系統(tǒng)時(shí)間等,CertusNet Document ConfidentialCopyright (c) 2008-2011 CertusNet Inc. All Rights Reserved.,Kettle功能介紹,支持多種查詢 調(diào)用數(shù)據(jù)庫(kù)存儲(chǔ)過(guò)程 基本的數(shù)據(jù)庫(kù)查詢 判斷表以及列、操作系統(tǒng)文件是否存在 從URL接收查詢 使用Web服務(wù)查詢信息 使用數(shù)據(jù)流中的值作為參數(shù)來(lái)執(zhí)行一個(gè)數(shù)據(jù)庫(kù)查詢 流查詢:從轉(zhuǎn)
9、換中其他流里查詢值,CertusNet Document ConfidentialCopyright (c) 2008-2011 CertusNet Inc. All Rights Reserved.,Kettle功能介紹,特殊目標(biāo)數(shù)據(jù)源支持 把數(shù)據(jù)寫(xiě)入到Cube 把數(shù)據(jù)寫(xiě)入XML,CertusNet Document ConfidentialCopyright (c) 2008-2011 CertusNet Inc. All Rights Reserved.,Kettle功能介紹,轉(zhuǎn)換功能 值映射、分組、去重、拆分字段、行列轉(zhuǎn)換 復(fù)制行 支持的腳本 JS腳本 SQL腳本 正則表達(dá)式,Cert
10、usNet Document ConfidentialCopyright (c) 2008-2011 CertusNet Inc. All Rights Reserved.,Kettle功能介紹,支持漸變維度更新 批量加載 Greenplum Bulk Loader Oracle Bulk Loader MSSQL Bulk Loader MYSQL Bulk Loader PostgreSQL Bulk Loader 支持分區(qū)表和集群,CertusNet Document ConfidentialCopyright (c) 2008-2011 CertusNet Inc. All Right
11、s Reserved.,Kettle功能介紹,可以執(zhí)行操作系統(tǒng)命令和操作 Ping 主機(jī) 寫(xiě)日志 發(fā)送郵件 從POP Server獲取郵件并保存在本地 比較文件夾、文件 創(chuàng)建、復(fù)制、移動(dòng)、刪除、壓縮文件 從HTTP獲取或者上傳文件 操作延遲等待,CertusNet Document ConfidentialCopyright (c) 2008-2011 CertusNet Inc. All Rights Reserved.,Kettle功能介紹,判斷文件是否存在 執(zhí)行JavaScript、SQL、Shell腳本 支持安全FTP獲取、上傳文件 刪除遠(yuǎn)程文件 支持SSH2上傳下載,CertusNe
12、t Document ConfidentialCopyright (c) 2008-2011 CertusNet Inc. All Rights Reserved.,Kettle與其他ETL工具比較,Kettle與IBM DataStaged的比較 與Kettle相比,IBM DataStage過(guò)于笨重,無(wú)論是安裝過(guò)程,還是運(yùn)行時(shí)對(duì)機(jī)器物理資源的消耗。 與Kettle Spoon相比,IBM DataStage內(nèi)置的ETL設(shè)計(jì)器在功能上并未占據(jù)優(yōu)勢(shì)。比如,Spoon對(duì)ETL工件的開(kāi)發(fā)、測(cè)試、調(diào)試、性能監(jiān)控提供了端到端的解決方案 Kettle解決方案可以在同一臺(tái)機(jī)器上完成。,CertusNet
13、Document ConfidentialCopyright (c) 2008-2011 CertusNet Inc. All Rights Reserved.,Kettle與其他ETL工具的比較,CloverETL CloverETL工具是開(kāi)源的,CloverETL是提供給你一組API,用XML來(lái)定義ETL過(guò)程,同樣支持JDBC數(shù)據(jù)源, CloverETL是開(kāi)源的,但是它是沒(méi)有圖形界面的,它提供一個(gè)有圖形界面的CloverGUI 來(lái)進(jìn)行ETL的圖形化開(kāi)發(fā)過(guò)程,但是不是開(kāi)源的,需要購(gòu)買(mǎi)商業(yè)許可證 Kettle的優(yōu)勢(shì) 開(kāi)源,數(shù)據(jù)抽取高效穩(wěn)定 有非常強(qiáng)大并且眾多的使用群體,應(yīng)用廣泛 可用java進(jìn)行集成開(kāi)發(fā) Kettle有功能強(qiáng)大且易于使用的設(shè)計(jì)界面,CertusNet Documen
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 申鳳琴-《電工電子技術(shù)基礎(chǔ)》第2章習(xí)題講解
- 獸藥飼料執(zhí)法培訓(xùn)課件
- 火鍋跨年活動(dòng)策劃方案(3篇)
- 珠寶門(mén)店財(cái)務(wù)管理制度(3篇)
- 疾病分期及分級(jí)管理制度(3篇)
- 車(chē)輛運(yùn)輸清洗管理制度內(nèi)容(3篇)
- 《GA 871-2010防爆罐》專題研究報(bào)告
- 獸醫(yī)課件培訓(xùn)
- 獸醫(yī)技能培訓(xùn)課件
- 中學(xué)生行為規(guī)范主題班會(huì)課件
- 2024-2025學(xué)年湖北省武漢市江漢區(qū)七年級(jí)(下)期末數(shù)學(xué)試卷
- 常規(guī)體檢指標(biāo)講解
- 感術(shù)行動(dòng)培訓(xùn)課件
- 建筑工程生產(chǎn)管理培訓(xùn)
- 新人教版高中數(shù)學(xué)必修第二冊(cè)-第八章 立體幾何初步 章末復(fù)習(xí)【課件】
- 倉(cāng)庫(kù)物料效期管理制度
- 臥床老人口腔護(hù)理規(guī)范
- GB/T 157-2025產(chǎn)品幾何技術(shù)規(guī)范(GPS)圓錐的錐度與錐角系列
- T/CCT 017-2024中低溫煤焦油
- 電子公司生產(chǎn)部年終工作總結(jié)
- ISO27001:2022信息安全管理體系全套文件+表單
評(píng)論
0/150
提交評(píng)論