版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第2章
數(shù)據(jù)倉庫02ETL處理過程什么是ETLETL的實現(xiàn)方法數(shù)據(jù)抽取數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)清洗數(shù)據(jù)加載什么是ETL異構(gòu)數(shù)據(jù)庫數(shù)據(jù)倉庫抽取轉(zhuǎn)換、清洗加載ETL(Extract-Transform-Load)是將聯(lián)機事務(wù)處理系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉庫的過程,目的是將企業(yè)中的分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析依據(jù)。ETL是構(gòu)建數(shù)據(jù)倉庫的重要過程。ETL的實現(xiàn)有多種方法,常用的有三種:ETL工具實現(xiàn)、SQL方式實現(xiàn)、ETL工具結(jié)合SQL方式實現(xiàn)。實現(xiàn)方法優(yōu)點缺點ETL工具速度快、難度低靈活度低、運行效率低SQL方式靈活度高、運行效率高編碼復(fù)雜、技術(shù)要求高ETL工具+SQL方式開發(fā)速度和效率高ETL的實現(xiàn)方法數(shù)據(jù)倉庫是面向主題的,并非所有源數(shù)據(jù)庫的數(shù)據(jù)都是有用的,因此在把數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)導(dǎo)入到數(shù)據(jù)倉庫之前,需要先確定該數(shù)據(jù)庫中哪些數(shù)據(jù)是與決策相關(guān)的。1.確定數(shù)據(jù)源的數(shù)據(jù)及其含義2.確定數(shù)據(jù)的抽取范圍3.確定數(shù)據(jù)的抽取頻率4.確定外部數(shù)據(jù)的導(dǎo)入方式5.確定抽取異常的處理方式6.確定輸出目的地和格式具體流程和主要工作:數(shù)據(jù)抽取數(shù)據(jù)倉庫的數(shù)據(jù)通常來源于多個異構(gòu)的數(shù)據(jù)庫,因此源數(shù)據(jù)在加載到數(shù)據(jù)倉庫之前,需要對數(shù)據(jù)進行一定的數(shù)據(jù)轉(zhuǎn)換,以保證數(shù)據(jù)的一致性。1.不一致數(shù)據(jù)的轉(zhuǎn)換2.數(shù)據(jù)粒度的轉(zhuǎn)換3.商務(wù)規(guī)則的計算數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)清洗的任務(wù)是過濾那些不符合要求的數(shù)據(jù),將過濾的結(jié)果交給業(yè)務(wù)主管部門,確認是否過濾掉還是由業(yè)務(wù)單位修正之后再進行抽取。數(shù)據(jù)的清洗是一個循環(huán)反復(fù)的過程。清洗重復(fù)的數(shù)據(jù)清洗錯誤的數(shù)據(jù)清洗不完整的數(shù)據(jù)數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換、清洗結(jié)束后,需要把數(shù)據(jù)裝載到數(shù)據(jù)倉庫中,數(shù)據(jù)的裝載有三種方式。數(shù)據(jù)裝載初始裝載增量裝載完全刷新數(shù)據(jù)加載1.進行數(shù)據(jù)倉庫構(gòu)建的過程中需要使用到ETL技術(shù),那么ETL具體指的是()A、抽取,轉(zhuǎn)換和清洗,加載B、抽取,加載,轉(zhuǎn)換和清洗C、轉(zhuǎn)換和清洗,加載,抽取D、轉(zhuǎn)換和清洗,抽取,加載小試牛刀搶答加分環(huán)節(jié)單選2.對數(shù)據(jù)進行清洗、數(shù)據(jù)轉(zhuǎn)換、清洗結(jié)束后,需要把數(shù)據(jù)存儲到數(shù)據(jù)倉庫中,通常會使用到的數(shù)據(jù)裝載
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高職教育測量與評價(評價方法應(yīng)用)試題及答案
- 斑塊穩(wěn)定性增強的干細胞治療策略
- 教體局消防培訓(xùn)課件模板
- 養(yǎng)老院老人生活照顧人員考核獎懲制度
- 養(yǎng)老院老人健康飲食營養(yǎng)師激勵制度
- 養(yǎng)老院入住老人醫(yī)療保健制度
- 2026年開放大學(xué)校長信息化試題含答案
- 2026年邊防巡邏防控技能考核題庫含答案
- 2026年認證認可條例中認證人員行為規(guī)范練習(xí)題及答案
- 2026年公務(wù)員誠信體系建設(shè)試題含答案
- 2026年美團商業(yè)分析師崗位筆試解析與面試問答技巧
- 某高校十五五教育大數(shù)據(jù)治理中心與智慧校園支撐平臺建設(shè)方案
- 2026年山西警官職業(yè)學(xué)院單招綜合素質(zhì)考試備考試題帶答案解析
- 汽修廠文件檔案歸檔制度
- 高??蒲许椖苛㈨椉肮芾硪?guī)范
- 2026年工業(yè)數(shù)字化能碳管理項目可行性研究報告
- 《事故隱患排查治理資金使用專項制度》
- 肯德基加盟協(xié)議書
- 企業(yè)ERP系統(tǒng)維護操作手冊
- 2025年高中語文必修上冊《登泰山記》文言文對比閱讀訓(xùn)練(含答案)
- 2025中國機械工業(yè)集團有限公司(國機集團)社會招聘19人筆試參考題庫附答案
評論
0/150
提交評論