《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 3.3數(shù)據(jù)準(zhǔn)備-數(shù)據(jù)集成_第1頁
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 3.3數(shù)據(jù)準(zhǔn)備-數(shù)據(jù)集成_第2頁
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 3.3數(shù)據(jù)準(zhǔn)備-數(shù)據(jù)集成_第3頁
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 3.3數(shù)據(jù)準(zhǔn)備-數(shù)據(jù)集成_第4頁
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 3.3數(shù)據(jù)準(zhǔn)備-數(shù)據(jù)集成_第5頁
已閱讀5頁,還剩35頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第3章數(shù)據(jù)準(zhǔn)備數(shù)據(jù)集成數(shù)據(jù)集成是把不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為組織提供全面的數(shù)據(jù)共享數(shù)據(jù)集成是一個(gè)在信息化建設(shè)和數(shù)據(jù)服務(wù)領(lǐng)域普遍存在的問題應(yīng)用場(chǎng)景數(shù)據(jù)挖掘信息化建設(shè)數(shù)據(jù)服務(wù)數(shù)據(jù)同步、融合云存儲(chǔ)、云計(jì)算數(shù)據(jù)集成2數(shù)據(jù)集成的任務(wù)和面向的對(duì)象數(shù)據(jù)

集成ETL數(shù)據(jù)

剖析第三方

數(shù)據(jù)

接口數(shù)據(jù)

清洗數(shù)據(jù)

建模數(shù)據(jù)

遷移非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)

安全3在企業(yè)數(shù)據(jù)集成領(lǐng)域,已經(jīng)有了很多成熟的框架可以利用通常采用聯(lián)邦式、中間件模式和數(shù)據(jù)倉庫等方法來構(gòu)造集成的系統(tǒng)這些技術(shù)在不同的著重點(diǎn)和應(yīng)用上解決數(shù)據(jù)共享和為組織提供決策支持。數(shù)據(jù)集成4數(shù)據(jù)集成的難點(diǎn)異構(gòu)性分布性自治性完整性包括系統(tǒng)異構(gòu)、數(shù)據(jù)模式異構(gòu)和數(shù)據(jù)異構(gòu)。被集成的數(shù)據(jù)源通常是獨(dú)立開發(fā)的,數(shù)據(jù)模型異構(gòu),給集成帶來很大困難。這些異構(gòu)性主要表現(xiàn)在:數(shù)據(jù)語義、相同語義數(shù)據(jù)的表達(dá)形式、數(shù)據(jù)源的使用環(huán)境等。5數(shù)據(jù)集成的難點(diǎn)異構(gòu)性分布性自治性完整性數(shù)據(jù)源是異地分布的,依賴網(wǎng)絡(luò)傳輸數(shù)據(jù),這就存在網(wǎng)絡(luò)傳輸?shù)墓δ芎托阅苌系膯栴}。就要考慮和解決網(wǎng)絡(luò)數(shù)據(jù)傳輸?shù)臏?zhǔn)確性、便利性、實(shí)時(shí)性、穩(wěn)定性和安全性等功能和性能上的問題。6數(shù)據(jù)集成的難點(diǎn)異構(gòu)性分布性自治性完整性各個(gè)數(shù)據(jù)源有很強(qiáng)的內(nèi)聚性和自治性,可以在不通知集成系統(tǒng)的前提下改變自身的結(jié)構(gòu)和數(shù)據(jù),給數(shù)據(jù)集成系統(tǒng)的魯棒性提出挑戰(zhàn)。7數(shù)據(jù)集成的難點(diǎn)異構(gòu)性分布性自治性完整性數(shù)據(jù)集成,是要將更為全面更為廣泛更能夠體現(xiàn)問題本質(zhì)和深度的數(shù)據(jù)進(jìn)行匯聚,以期從中能夠發(fā)現(xiàn)更感興趣更具有價(jià)值的內(nèi)容。8數(shù)據(jù)集成技術(shù)數(shù)據(jù)虛擬化數(shù)據(jù)聯(lián)邦復(fù)制、聚集數(shù)據(jù)倉庫/數(shù)據(jù)集市綜合方法中間件9ETL數(shù)據(jù)聯(lián)邦(DataFederation)數(shù)據(jù)聯(lián)邦(也稱數(shù)據(jù)聯(lián)合)是一種基于數(shù)據(jù)查詢操作,從不同的數(shù)據(jù)源完成數(shù)據(jù)匯集,并構(gòu)成一個(gè)虛擬化的數(shù)據(jù)庫的數(shù)據(jù)集成方法。10數(shù)據(jù)聯(lián)邦特點(diǎn)不實(shí)際保存、復(fù)制和遷移數(shù)據(jù)只保存數(shù)據(jù)來源及連接、訪問信息虛擬化的數(shù)據(jù)集成視圖屏蔽了構(gòu)成其數(shù)據(jù)的多數(shù)據(jù)源的物理位置、數(shù)據(jù)結(jié)構(gòu)和保存方式11元數(shù)據(jù):元數(shù)據(jù)是描述流程、信息和對(duì)象的數(shù)據(jù),涉及技術(shù)屬性、

業(yè)務(wù)定義和操作特征。元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù)數(shù)據(jù)聯(lián)邦應(yīng)用框架APIDatabasesWebServiceFile配置數(shù)據(jù)DataVirtualizationServer查詢語句……12數(shù)據(jù)聯(lián)邦優(yōu)點(diǎn)應(yīng)用方便為數(shù)據(jù)應(yīng)用提供比較簡(jiǎn)便的集成化的解決方法不需要轉(zhuǎn)移數(shù)據(jù)就可以組織和存取來自多數(shù)據(jù)源的數(shù)據(jù),提供統(tǒng)一的數(shù)據(jù)系統(tǒng)數(shù)據(jù)應(yīng)用人員不需要了解過多的復(fù)雜的不同數(shù)據(jù)源系統(tǒng)及其數(shù)據(jù)結(jié)構(gòu),簡(jiǎn)化了實(shí)施和開發(fā)過程13數(shù)據(jù)聯(lián)邦優(yōu)點(diǎn)應(yīng)用方便數(shù)據(jù)實(shí)時(shí)性好運(yùn)行時(shí)只查詢存取所需的數(shù)據(jù),節(jié)省存儲(chǔ)和網(wǎng)絡(luò)開銷,數(shù)據(jù)應(yīng)用時(shí)即時(shí)操作,實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)存取,適用于數(shù)據(jù)實(shí)時(shí)訪問的應(yīng)用,其數(shù)據(jù)可以是結(jié)構(gòu)化的,也可以是非結(jié)構(gòu)化的。14數(shù)據(jù)聯(lián)邦優(yōu)點(diǎn)應(yīng)用方便數(shù)據(jù)實(shí)時(shí)性好開發(fā)快捷靈活允許應(yīng)用直接訪問數(shù)據(jù)數(shù)據(jù)架構(gòu)調(diào)整快捷企業(yè)變化改進(jìn)數(shù)據(jù)模型時(shí),因數(shù)據(jù)聯(lián)邦不實(shí)際保有數(shù)據(jù),可快速適應(yīng)變化,支持增量開發(fā),加快了開發(fā)步伐15數(shù)據(jù)聯(lián)邦缺點(diǎn)性能較低數(shù)據(jù)查詢的反應(yīng)較慢,數(shù)據(jù)結(jié)果集大時(shí),性能會(huì)降低,不適合頻繁查詢,易出現(xiàn)爭(zhēng)用和資源沖突等問題。集成場(chǎng)景中如果包含復(fù)雜數(shù)據(jù)轉(zhuǎn)換的,會(huì)使響應(yīng)時(shí)間變差而帶來負(fù)面的影響。16數(shù)據(jù)聯(lián)邦缺點(diǎn)性能較低系統(tǒng)可用性低依賴于多個(gè)數(shù)據(jù)源,其可用性是數(shù)據(jù)聯(lián)邦技術(shù)無法保證的。一旦源數(shù)據(jù)離線,聯(lián)邦工具的數(shù)據(jù)也不再有效。17數(shù)據(jù)聯(lián)邦缺點(diǎn)性能較低系統(tǒng)可用性低服務(wù)器負(fù)擔(dān)大真實(shí)數(shù)據(jù)源服務(wù)器的負(fù)載會(huì)有所增加。聯(lián)邦服務(wù)器會(huì)把聯(lián)邦視圖分解為多個(gè)子操作,這些子操作會(huì)傳送給數(shù)據(jù)源服務(wù)器,這些子操作越復(fù)雜這些源服務(wù)器的負(fù)載越大。18數(shù)據(jù)聯(lián)邦缺點(diǎn)性能較低系統(tǒng)可用性低服務(wù)器負(fù)擔(dān)大源數(shù)據(jù)內(nèi)容數(shù)據(jù)來源于對(duì)原始數(shù)據(jù)源的實(shí)時(shí)查詢,因此數(shù)據(jù)只包括來自源數(shù)據(jù)的內(nèi)容,而不像其他數(shù)據(jù)集成方法所形成的數(shù)據(jù)系統(tǒng),可以加入中間生成的結(jié)果。19數(shù)據(jù)倉庫(Data

Warehouse)

廣義上數(shù)據(jù)倉庫描述了一種語義一致的數(shù)據(jù)組織與處理的體系結(jié)構(gòu),它將多個(gè)分散的、異質(zhì)的原始數(shù)據(jù)融合在一起,完成不同數(shù)據(jù)存取、查詢和文檔分析、報(bào)告生成、決策支持等過程。狹義上數(shù)據(jù)倉庫是支持經(jīng)營管理中的決策制定過程的、面向主題的、集成的、內(nèi)容相對(duì)穩(wěn)定持久的、與時(shí)間相關(guān)的數(shù)據(jù)集合。20數(shù)據(jù)倉庫專家W.H.Inmon:數(shù)據(jù)倉庫……用于支持管理決策數(shù)據(jù)倉庫架構(gòu)源數(shù)據(jù)

數(shù)據(jù)應(yīng)用

數(shù)據(jù)倉庫

日志數(shù)據(jù)Log文檔數(shù)據(jù)Documents數(shù)據(jù)庫數(shù)據(jù)OLTP其他聚合數(shù)據(jù)Summary業(yè)務(wù)模型BusinessModel多維數(shù)據(jù)模型OLAP數(shù)據(jù)DetailedDataETL

報(bào)表Report數(shù)據(jù)分析DataAnalysis即席查詢Ad-hoc數(shù)據(jù)挖掘DataMining元數(shù)據(jù)管理MetadataManagement輕運(yùn)算輕匯集21數(shù)據(jù)倉庫22數(shù)據(jù)倉庫集成模型數(shù)據(jù)倉庫是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。元數(shù)據(jù)管理數(shù)據(jù)倉庫集成系統(tǒng)封裝器Wrapper封裝器Wrapper……數(shù)據(jù)源1數(shù)據(jù)源n23數(shù)據(jù)倉庫為最大限度地實(shí)現(xiàn)靈活性,集成的數(shù)據(jù)倉庫的數(shù)據(jù)可以存儲(chǔ)在標(biāo)準(zhǔn)RDBMS中,并經(jīng)過規(guī)范的數(shù)據(jù)庫設(shè)計(jì),以及為了提高性能而增加一些小結(jié)性信息和不規(guī)范設(shè)計(jì)。這種類型的數(shù)據(jù)倉庫設(shè)計(jì)被稱為原子數(shù)據(jù)倉庫。原子數(shù)據(jù)倉庫的子集,又稱為數(shù)據(jù)集市。24數(shù)據(jù)集市(Datamart)數(shù)據(jù)集市是用來滿足特殊用戶的應(yīng)用需求的數(shù)據(jù)倉庫,它們的規(guī)模可能達(dá)到數(shù)百GB。使其成為數(shù)據(jù)集市的關(guān)鍵是它的使用目標(biāo)、范圍,而非規(guī)模大小。數(shù)據(jù)集市可以理解為是一個(gè)小型的部門或者工作組級(jí)別的數(shù)據(jù)倉庫。25數(shù)據(jù)倉庫是數(shù)據(jù)集市的工作基礎(chǔ),數(shù)據(jù)集市是數(shù)據(jù)倉庫的子集數(shù)據(jù)倉庫特性可能無法滿足特殊類型用戶的各種需求,數(shù)據(jù)集市可靈活應(yīng)用數(shù)據(jù)集市可與數(shù)據(jù)倉庫一樣大,甚至更大數(shù)據(jù)集市可以位于數(shù)據(jù)倉庫的附近,或分布到更靠近用戶的位置,放置在何處取決于使用和通訊成本數(shù)據(jù)倉庫vs數(shù)據(jù)集市26數(shù)據(jù)倉庫vs數(shù)據(jù)集市數(shù)據(jù)倉庫數(shù)據(jù)集市數(shù)據(jù)來源遺留系統(tǒng)、OLTP系統(tǒng)、外部數(shù)據(jù)數(shù)據(jù)倉庫范圍企業(yè)級(jí)部門及或工作組級(jí)主題企業(yè)主題部門或特殊的分析主題數(shù)據(jù)粒度最細(xì)的粒度較粗的粒度數(shù)據(jù)結(jié)構(gòu)規(guī)范化結(jié)構(gòu)(第3范式)星星模式、雪片模式或二者混合模式歷史數(shù)據(jù)大量的歷史數(shù)據(jù)適度的歷史數(shù)據(jù)優(yōu)化處理海量數(shù)據(jù)數(shù)據(jù)探索便于訪問和分析快速查詢索引高度索引高度索引聯(lián)機(jī)事務(wù)處理過程On-LineTransactionProcessing(OLTP)也稱為面向交易的處理過程,其基本特征是前臺(tái)接收的用戶數(shù)據(jù)可以立即傳送到計(jì)算中心進(jìn)行處理,并在很短的時(shí)間內(nèi)給出處理結(jié)果,是對(duì)用戶操作快速響應(yīng)的方式之一。27ETL數(shù)據(jù)抽取(Extraction)轉(zhuǎn)換(Transformation)裝載(Loading)使ETL系統(tǒng)連接到數(shù)據(jù)源系統(tǒng)上,選擇和收集數(shù)據(jù)倉庫或數(shù)據(jù)集市進(jìn)行數(shù)據(jù)分析所需要的數(shù)據(jù)。數(shù)據(jù)抽取過程的復(fù)雜性差異較大,取決于數(shù)據(jù)源的個(gè)數(shù)和類型。通常要對(duì)來自多個(gè)數(shù)據(jù)源的、數(shù)據(jù)格式不同的異構(gòu)的數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)進(jìn)行匯聚,因此必須在數(shù)據(jù)抽取過程中必須對(duì)數(shù)據(jù)進(jìn)行一定的變換,使數(shù)據(jù)格式符合下一步的轉(zhuǎn)換處理。28ETL數(shù)據(jù)抽取(Extraction)轉(zhuǎn)換(Transformation)裝載(Loading)執(zhí)行一系列的規(guī)則或函數(shù),并將抽取來的數(shù)據(jù)變換為標(biāo)準(zhǔn)格式。過程包括對(duì)數(shù)據(jù)記錄的有效性檢查,并將不符合要求的數(shù)據(jù)剔除掉。進(jìn)行數(shù)據(jù)轉(zhuǎn)換的計(jì)算量與數(shù)據(jù)密切相關(guān)。好的數(shù)據(jù)源需要的操作較少,有的數(shù)據(jù)則需要運(yùn)用不止一種轉(zhuǎn)換技術(shù)來使數(shù)據(jù)符合目標(biāo)數(shù)據(jù)庫或數(shù)據(jù)倉庫的商業(yè)和技術(shù)上的要求。數(shù)據(jù)轉(zhuǎn)換常用的步驟包括轉(zhuǎn)換(conversion)、清理重復(fù)數(shù)據(jù)、標(biāo)準(zhǔn)化、過濾、排序、轉(zhuǎn)化(translating),在數(shù)據(jù)源不一致的情況下進(jìn)行查找和檢驗(yàn)。29ETL數(shù)據(jù)抽取(Extraction)轉(zhuǎn)換(Transformation)裝載(Loading)將經(jīng)抽取并轉(zhuǎn)換后的數(shù)據(jù)輸入到目標(biāo)數(shù)據(jù)庫或數(shù)據(jù)倉庫中去。有些轉(zhuǎn)載過程使用SQL插入語句,逐條地將數(shù)據(jù)記錄插入到目標(biāo)數(shù)據(jù)倉庫的數(shù)據(jù)表中,有些則是利用塊(bulk)裝載程序大批量地插入數(shù)據(jù)。30數(shù)據(jù)聯(lián)邦&數(shù)據(jù)倉庫&ETL31數(shù)據(jù)聯(lián)邦&數(shù)據(jù)倉庫&ETL32中間件(MiddleWare)中間件模式通過統(tǒng)一的全局?jǐn)?shù)據(jù)模型來訪問異構(gòu)的數(shù)據(jù)庫、遺留系統(tǒng)、Web資源等。數(shù)據(jù)源數(shù)據(jù)集成中間件數(shù)據(jù)應(yīng)用33中間件中間件位于異構(gòu)數(shù)據(jù)源系統(tǒng)(數(shù)據(jù)層)和應(yīng)用程序(應(yīng)用層)之間數(shù)據(jù)源數(shù)據(jù)集成中間件數(shù)據(jù)應(yīng)用向下協(xié)調(diào)各數(shù)據(jù)源系統(tǒng)向上為訪問集成數(shù)據(jù)的應(yīng)用提供統(tǒng)一數(shù)據(jù)模式和數(shù)據(jù)訪問的通用接口實(shí)現(xiàn)不同來源、格式、性質(zhì)的數(shù)據(jù)的轉(zhuǎn)換與包裝,從而把各種異構(gòu)數(shù)據(jù)源集成在一起,提供一個(gè)統(tǒng)一的高層訪問服務(wù)34中間件各數(shù)據(jù)源的應(yīng)用仍然完成它們的任務(wù),中間件系統(tǒng)則主要集中為異構(gòu)數(shù)據(jù)源提供一個(gè)高層次檢索服務(wù)。數(shù)據(jù)源數(shù)據(jù)集成中間件數(shù)據(jù)應(yīng)用35中間件36數(shù)據(jù)源數(shù)據(jù)集成中間件數(shù)據(jù)應(yīng)用中間件模式是比較流行的數(shù)據(jù)集成方法通過中間層提供統(tǒng)一的數(shù)據(jù)邏輯視圖來隱藏底層的數(shù)據(jù)細(xì)節(jié)用戶可以把集成數(shù)據(jù)源看為一個(gè)統(tǒng)一的整體關(guān)鍵問題是如何構(gòu)造這個(gè)邏輯視圖并使得不同數(shù)據(jù)源之間能映射到這個(gè)中間層利用中間件技術(shù)實(shí)現(xiàn)數(shù)據(jù)集成的關(guān)鍵在于如何解決好數(shù)據(jù)的異構(gòu)性、完整性和語義沖突的問題。中間件數(shù)據(jù)的集成和發(fā)布都發(fā)生在中間件層通過中間件層接口以標(biāo)準(zhǔn)接口發(fā)布數(shù)據(jù)源數(shù)據(jù)集成中間件數(shù)據(jù)應(yīng)用FILE適配器元數(shù)據(jù)應(yīng)用適配器JDBCODBC37中間件優(yōu)勢(shì)中間件集成模式在分布式應(yīng)用和異構(gòu)數(shù)據(jù)集成領(lǐng)域具有一定的優(yōu)勢(shì)能夠滿足大量應(yīng)用的需要能夠運(yùn)行于多種硬件和操作系統(tǒng)的平臺(tái)能夠支持分布式計(jì)算,提供跨網(wǎng)絡(luò)、跨硬件和跨操作系統(tǒng)平臺(tái)的透明性的應(yīng)用或服務(wù)的交互能夠支持標(biāo)準(zhǔn)協(xié)議和接口38中間件優(yōu)勢(shì)由于中間件所定義的標(biāo)準(zhǔn)接口對(duì)于可移植性和標(biāo)準(zhǔn)協(xié)議非常有利于互操作性,使之成為許多標(biāo)準(zhǔn)化工作的主要部分。在數(shù)據(jù)集成系統(tǒng)中,利用中間件為數(shù)據(jù)應(yīng)用提供了一個(gè)相對(duì)穩(wěn)定的環(huán)境,不管底層的數(shù)據(jù)源或數(shù)據(jù)結(jié)構(gòu)及語義進(jìn)行怎樣的調(diào)整,只

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論