版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)庫原理與應(yīng)用概論,第七章 數(shù)據(jù)庫新技術(shù),第七章 數(shù)據(jù)庫新技術(shù),數(shù)據(jù)庫新技術(shù)概述 面向?qū)ο髷?shù)據(jù)庫系統(tǒng) 分布式數(shù)據(jù)庫系統(tǒng) 并行數(shù)據(jù)庫系統(tǒng) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘,7.1 數(shù)據(jù)庫新技術(shù)概述,1.新一代數(shù)據(jù)庫系統(tǒng)的特點 (1)面向?qū)ο蟮姆椒ê图夹g(shù)對數(shù)據(jù)庫發(fā)展的影響最為深遠 (2)數(shù)據(jù)庫技術(shù)與多學(xué)科技術(shù)的有機結(jié)合 (3)面向應(yīng)用領(lǐng)域的數(shù)據(jù)庫技術(shù)的研究,2.第三代數(shù)據(jù)庫系統(tǒng)的基本特征,(1)第三代數(shù)據(jù)庫系統(tǒng)應(yīng)支持數(shù)據(jù)管理、對象管理和知識管理 (2)第三代數(shù)據(jù)庫系統(tǒng)必須保持或繼承第二代數(shù)據(jù)庫系統(tǒng)的技術(shù) (3)第三代數(shù)據(jù)庫系統(tǒng)必須對其它系統(tǒng)開放,7.2 面向?qū)ο髷?shù)據(jù)庫系統(tǒng),7.2.1 面向?qū)ο髷?shù)據(jù)庫系統(tǒng)概述
2、面向?qū)ο髷?shù)據(jù)庫系統(tǒng)(Object Oriented Database System,簡稱為OODBS)是數(shù)據(jù)庫技術(shù)與面向?qū)ο蟪绦蛟O(shè)計相結(jié)合的產(chǎn)物。 1.面向?qū)ο髷?shù)據(jù)庫系統(tǒng)主要研究的問題有: 對象數(shù)據(jù)模型 高效的查詢語言 并發(fā)的事務(wù)處理技術(shù) 對象的存儲管理 版本管理等,2.面向?qū)ο髷?shù)據(jù)庫系統(tǒng)的功能要求,(1)在數(shù)據(jù)模型方面,引入面向?qū)ο蟮母拍睿簩ο?、類、對象?biāo)識、封裝、繼承、多態(tài)性、類層次結(jié)構(gòu)等。 (2)在數(shù)據(jù)庫管理方面,提供對持久對象、長事務(wù)的處理、并發(fā)控制、完整性約束、版本管理和模式演化等能力。 (3)在數(shù)據(jù)庫界面方面,支持消息傳遞,提供計算能力完備的數(shù)據(jù)庫語言,解決數(shù)據(jù)庫語言與宿主語言的失
3、配問題,并且數(shù)據(jù)庫語言應(yīng)具有類似SQL的非過程化的查詢功能。 除此之外,面向?qū)ο髷?shù)據(jù)庫系統(tǒng)還要求兼顧對傳統(tǒng)的關(guān)系數(shù)據(jù)的管理能力,7.2.2 面向?qū)ο蟮幕靖拍?1面向?qū)ο蟮暮诵母拍?(1)對象:數(shù)據(jù)庫中的每個事物都看作是一個對象,而且每個對象是惟一可標(biāo)識的。對象可以是有形的或抽象的,簡單的或復(fù)雜的。 (2)對象標(biāo)識:每個對象有一個唯一的標(biāo)識,稱為對象標(biāo)識(OID)。 OID是獨立于屬性值的、系統(tǒng)全局惟一的。OID用來標(biāo)識兩個不同的對象,常見的OID有以下幾種: 值標(biāo)識:用值來表示標(biāo)識。這是關(guān)系數(shù)據(jù)庫中使用的標(biāo)識形式。 名標(biāo)識:用戶提供一個名字來表示標(biāo)識。這是程序變量標(biāo)識的一種典型表示形式。程序
4、中的每個變量被賦予一個名字,變量名可以唯一地標(biāo)識每個變量,不需要考慮變量的值。 內(nèi)標(biāo)識:標(biāo)識的概念建立在數(shù)據(jù)模型或程序設(shè)計語言中,不要求用戶給出標(biāo)識。這種形式的標(biāo)識是面向?qū)ο髷?shù)據(jù)庫系統(tǒng)使用的標(biāo)識形式。,(3)類:共享同樣屬性和方法的所有對象構(gòu)成了一個對象類(CLASS),一個對象是某一個類的實例。 (4)封裝:每一個對象是其屬性與行為的封裝,其中屬性是該對象一系列屬性值的集合,行為是在對象屬性上操作的集合,操作也被稱為方法。 (5)繼承:在OO模型中有兩種繼承:單繼承與多重繼承。若一個子類只能繼承一個超類的特性, 這種繼承稱為單繼承;若一個子類繼承多個超類的特性,這種繼承稱為多重繼承。 (6)
5、消息:對象是封裝的,對象與外部的通信一般通過顯式的消息傳遞,即消息從外部傳送給對象,存取和調(diào)用對象中的屬性和方法,在內(nèi)部執(zhí)行所要求的操作,而操作的結(jié)果仍以消息的形式返回。,2對象間的聯(lián)系,(1)類層次,某學(xué)校數(shù)據(jù)庫的類層次結(jié)構(gòu)圖 對一個類來說,它可以有多個超類,也可以繼承類層次中其直接或間接超類的屬性和方法。超類與子類結(jié)構(gòu)在語義上具有泛化與特化的關(guān)系,也即常說的Is-a關(guān)系。,(2)對象包含,類之間的包含關(guān)系表現(xiàn)了事物的局部與整體關(guān)系(組合關(guān)系),即a-part-of關(guān)系。一個包含了其他對象的對象稱為復(fù)合對象。 復(fù)合對象主要的三種形式。 具有共享子對象的網(wǎng)絡(luò)結(jié)構(gòu) 組合對象層次結(jié)構(gòu) 聚合屬性,7
6、.2.3 面向?qū)ο笤O(shè)計方法,面向?qū)ο笫且环N先進的設(shè)計方法學(xué),也是一種認知方法學(xué),相應(yīng)的程序設(shè)計語言主要有C+、JAVA等。 面向?qū)ο笤O(shè)計就是把數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)結(jié)構(gòu)上的操作算法封裝在一個對象之中。 在面向?qū)ο蟪绦蛟O(shè)計中,操作名列在封裝對象的界面上,當(dāng)其他對象要啟動它的某個操作時,以操作名發(fā)送一條消息,該對象接收消息,執(zhí)行具體的行為動作序列,完成對成員數(shù)據(jù)的加工。當(dāng)一個面向?qū)ο蟮某绦蜻\行完畢時,各對象也就達到了各自的終態(tài)。輸入、輸出也由對象自己完成。 面向?qū)ο蟪绦蛟O(shè)計方法所支持的封裝、繼承等特性提供了同時表示、同時管理程序和數(shù)據(jù)的統(tǒng)一框架。,7.2.4 面向?qū)ο髷?shù)據(jù)庫,面向?qū)ο髷?shù)據(jù)庫系統(tǒng)支持面向?qū)ο?/p>
7、數(shù)據(jù)模型,是一個持久的、可共享的對象庫的存儲和管理者;而一個對象庫是由一個OO模型所定義的對象集合體。 1持久性 持久性是指一個對象在超過其生存周期后的保存,就是將臨時對象存儲到磁盤上,轉(zhuǎn)換為永久對象,使對象的存活期與創(chuàng)建它的進程無關(guān),以解決對象的重用問題。 一個標(biāo)識的持久性主要有以下幾種情況: (1)過程內(nèi)持久標(biāo)識(Intraprocedure Identity) (2)程序內(nèi)持久標(biāo)識(Intraprogram Identity) 標(biāo)識只在一個程序或查詢的執(zhí)行中持久有效。例如,對于一個程序中全局變量的標(biāo)識,在該程序的運行中有效。 (3)程序間持久標(biāo)識(Interprogram Identit
8、y) (4)持久標(biāo)識(Persistent Identity) 面向?qū)ο髷?shù)據(jù)庫系統(tǒng)要求存儲永久對象。,2面向?qū)ο髷?shù)據(jù)庫 面向?qū)ο髷?shù)據(jù)庫模式是類的集合。面向?qū)ο蟮臄?shù)據(jù)模型提供了類層次結(jié)構(gòu)。在面向?qū)ο髷?shù)據(jù)庫模式中,一組類可形成一個類層次。一個面向?qū)ο髷?shù)據(jù)庫可能有多個類層次。 3面向?qū)ο髷?shù)據(jù)庫的特性 (1)滯后聯(lián)編 (2)對象的嵌套,7.2.5 面向?qū)ο髷?shù)據(jù)庫語言,OODB語言用于描述面向?qū)ο髷?shù)據(jù)庫模式,說明并操縱類定義與對象實例。OODB語言主要包括對象定義語言(ODL)和對象操縱語言(OML),對象操縱語言中一個重要子集是對象查詢語言。 OODB語言一般應(yīng)具備下列功能: (1)類的定義與操縱 (
9、2)操作/方法的定義 (3)對象的操縱,7.2.6 面向?qū)ο髷?shù)據(jù)庫的模式演進,面向?qū)ο髷?shù)據(jù)庫的模式是類的集合。模式為適應(yīng)需求變化而隨著時間變化稱為模式演進。 模式演進包括建立新的類、刪除舊的類、修改類的屬性和操作等。面向?qū)ο髷?shù)據(jù)庫模式的修改要比關(guān)系模式的修改復(fù)雜,其主要原因有兩點: (1)模式改變頻繁。OODB應(yīng)用通常需要頻繁地改變OODB數(shù)據(jù)庫模式。 (2)模式修改復(fù)雜。OO模型具有很強的建模能力和豐富的語義,包括類自身的語義、類屬性之間和類之間豐富的語義聯(lián)系,可能使模式修改操作復(fù)雜多樣。在OODB中,模式演進往往是動態(tài)的。,1模式一致性 模式一致性是指模式自身內(nèi)部不能出現(xiàn)矛盾和錯誤,它由模
10、式一致性約束來刻畫。模式的演進必須要保持模式的一致性。 模式一致性約束可分為: (1)惟一性約束:這一類約束條件要求名字惟一性。例如,在同一模式中所有類的名字必須惟一;類中屬性名和方法名必須惟一,包括從超類中繼承的屬性和方法。但模式的不同種類的成分可以同名,如屬性的名字和方法可以同名。 (2)存在性約束:顯式引用的某些成分必須存在。例如,不能引用一個沒有在模式中定義的類。 (3)子類型約束:例如,不允許有從多繼承帶來的任何沖突等。,2模式演進的操作與實現(xiàn) 模式演進操作主要有: (1)類集的改變,包括創(chuàng)建新的類, 刪除已有類, 改變已有類等等。 (2)已有類的成分的改變,包括增加新的屬性或新的操
11、作/方法,刪除已有的屬性或操作,改變已有屬性的名字或類型,改變一個操作的名稱或操作的實現(xiàn)。 (3)子類/超類之間聯(lián)系的改變,包括增加一個新的超類、刪除一個已有超類。 所謂轉(zhuǎn)換方法是指在OO數(shù)據(jù)庫中,已有的對象將要根據(jù)新的模式結(jié)構(gòu)進行轉(zhuǎn)換,以適應(yīng)新的模式。根據(jù)轉(zhuǎn)換發(fā)生的時間有以下轉(zhuǎn)換方式: 立即轉(zhuǎn)換方式。一旦模式變化立即執(zhí)行所有變換,缺點是系統(tǒng)為了執(zhí)行轉(zhuǎn)換需要消耗一些時間。 延遲轉(zhuǎn)換方式。模式變化后不是立即執(zhí)行,而是延遲到低層數(shù)據(jù)庫載入時,或者延遲到該對象被存取時才執(zhí)行變換。缺點是應(yīng)用程序存取一個對象時,要把它的結(jié)構(gòu)與其所屬類的定義比較,完成必須的修改,處理效率較低。 多模式版本方式。,7.2.
12、7 面向?qū)ο髷?shù)據(jù)庫的事務(wù)管理,1長事務(wù) 2嵌套的事務(wù) 3合作事務(wù),7.3 分布式數(shù)據(jù)庫系統(tǒng),20世紀70年代,由于計算機網(wǎng)絡(luò)通信的迅速發(fā)展,以及地理上分散的公司、團體和組織對數(shù)據(jù)庫更為廣泛應(yīng)用的需求,在集中式數(shù)據(jù)庫系統(tǒng)成熟技術(shù)的基礎(chǔ)上誕生和發(fā)展了分布式數(shù)據(jù)庫系統(tǒng)(Distributed Database System,DDBS)。分布式數(shù)據(jù)庫系統(tǒng)是數(shù)據(jù)庫技術(shù)和網(wǎng)絡(luò)技術(shù)兩者相互滲透和有機組合的結(jié)果。經(jīng)過20多年的發(fā)展,分布式數(shù)據(jù)庫系統(tǒng)已發(fā)展得相當(dāng)成熟,并產(chǎn)生了一些產(chǎn)品,如Ingres公司的Ingres/Star,IBM San Jose實驗室開發(fā)的分布式數(shù)據(jù)庫系統(tǒng)System R*,Oracle
13、公司的SQL*Star等。,7.3.1 分布式數(shù)據(jù)庫概述,1分布式數(shù)據(jù)庫系統(tǒng)的概念 一個分布式數(shù)據(jù)庫系統(tǒng)強調(diào)數(shù)據(jù)的分布性,數(shù)據(jù)分布存儲在網(wǎng)絡(luò)的不同計算機(又稱結(jié)點或場地)上,各個場地既具有高度的自治性,同時又強調(diào)各場地系統(tǒng)之間的協(xié)作性。對使用數(shù)據(jù)庫中數(shù)據(jù)的用戶來說,一個分布式數(shù)據(jù)庫系統(tǒng)在邏輯上看就如同一個集中式數(shù)據(jù)庫系統(tǒng)一樣,用戶可以在任何一個場地執(zhí)行全局應(yīng)用和(或)局部應(yīng)用。,一個分布式數(shù)據(jù)庫系統(tǒng)的示意圖,2分布式數(shù)據(jù)庫系統(tǒng)的特點 下面來概括一下分布式數(shù)據(jù)庫系統(tǒng)的三個主要特點: (1)數(shù)據(jù)的物理分布性。 (2)數(shù)據(jù)的邏輯整體性。 (3)結(jié)點的自主性。 3分布式數(shù)據(jù)庫系統(tǒng)的透明性 (1)位置透
14、明性 (2)復(fù)制透明性 4分布式數(shù)據(jù)庫系統(tǒng)的分類 (1)同構(gòu)同質(zhì)型DDBS。 (2)同構(gòu)異質(zhì)型DDBS。 (3)異構(gòu)型DDBS。,7.3.2 分布式數(shù)據(jù)庫系統(tǒng)的體系結(jié)構(gòu),1分布式數(shù)據(jù)庫系統(tǒng)的體系結(jié)構(gòu),分布式數(shù)據(jù)庫系統(tǒng)的體系結(jié)構(gòu),2數(shù)據(jù)分配,集中式 分割式 復(fù)制式 混合式 進行數(shù)據(jù)分配時注意把握以下一些原則: 盡量把本地需要的數(shù)據(jù)存儲在本地,減少遠程通信操作的開銷; 保證數(shù)據(jù)的可用性和系統(tǒng)的可靠性; 盡量平衡各個場地的負載,提高整個系統(tǒng)的并行處理能力等,7.3.3 分布式數(shù)據(jù)庫管理系統(tǒng),1分布式數(shù)據(jù)庫管理系統(tǒng)的組成 LDBMS(Local DBMS):即局部場地上的數(shù)據(jù)庫管理系統(tǒng),其功能是建立和
15、管理局部數(shù)據(jù)庫,提供場地自治能力,執(zhí)行局部應(yīng)用及全局查詢的子查詢。 GDBMS(Global DBMS):即全局數(shù)據(jù)庫管理系統(tǒng),主要功能是提供分布透明性,協(xié)調(diào)全局事務(wù)的執(zhí)行,協(xié)調(diào)各局部DBMS以完成全局應(yīng)用,保證數(shù)據(jù)庫的全局一致性,執(zhí)行并發(fā)控制,實現(xiàn)更新同步,提供全局恢復(fù)功能等。 全局數(shù)據(jù)字典(Global Data Directory,簡稱GDD):用來存放全局概念模式、分片模式、分布模式的定義以及各模式之間映像的定義,存放用戶存取權(quán)限的定義,以保證全部用戶的合法權(quán)限和數(shù)據(jù)庫的安全性;另外, 還存放數(shù)據(jù)完整性約束條件的定義,其功能與集中式數(shù)據(jù)庫的數(shù)據(jù)字典類似。 通信管理(Communicat
16、ion Management,簡稱CM):負責(zé)在分布式數(shù)據(jù)庫的各場地之間傳送消息和數(shù)據(jù),完成通信功能。,2分布式數(shù)據(jù)庫管理系統(tǒng)的分類 其按全局控制方式可以分為以下3種: (1)全局控制集中的DDBMS (2)全局控制分散的DDBMS (3)全局控制部分分散的DDBMS 按局部DBMS的類型分類 它區(qū)分不同DDBMS的一個重要特性是:局部DBMS是同構(gòu)的還是異構(gòu)的。同構(gòu)和異構(gòu)的級別可以有三級:硬件、操作系統(tǒng)和局部DBMS。,7.3.4 分布式數(shù)據(jù)庫查詢處理和優(yōu)化,1查詢優(yōu)化的意義 2查詢優(yōu)化要做的工作 (1)全局查詢分解 (2)確定操作執(zhí)行的次序 (3)確定執(zhí)行操作的方法 3分布式查詢處理的層次
17、結(jié)構(gòu),分布式查詢處理的層次模式,7.3.5 分布事務(wù)管理,1分布事務(wù)的恢復(fù) 為了執(zhí)行分布事務(wù),通常在每個場地上都設(shè)立一個局部事務(wù)管理器,用來管理局部子事務(wù)的執(zhí)行,保證子事務(wù)的完整性。同時,這些局部管理器之間還必須相互協(xié)調(diào),保證所有場地對它們所處理的子事務(wù)采取同樣的策略:要么都提交,要么都回滾。為了保證這一策略,最常用的技術(shù)是兩段提交協(xié)議(簡稱2PC)。 兩段提交協(xié)議把一個分布事務(wù)的事務(wù)管理分為兩類:協(xié)調(diào)者,所有其他的是參與者。只有協(xié)調(diào)者才有掌握提交或撤消事務(wù)的決定權(quán),而所有參與者各自負責(zé)在其本地數(shù)據(jù)庫中執(zhí)行寫操作,并向協(xié)調(diào)者提出撤消或提交子事務(wù)的意向。,兩段提交協(xié)議的內(nèi)容如下: (1)第一階段
18、:開始時,協(xié)調(diào)者在它的日志中寫入一條開始提交的記錄,再向所有參與者發(fā)出“準備提交”信息,并進入等待狀態(tài)。當(dāng)參與者收到“準備”消息后,它檢查是否能夠提交本地事務(wù)。如果某個參與者準備提交,就在日志中寫入一條就緒記錄,并向協(xié)調(diào)者發(fā)送“建議提交”信息,然后進入就緒狀態(tài);否則,參與者寫入撤消記錄,并向協(xié)調(diào)者發(fā)送“撤銷”信息。如果在規(guī)定時間內(nèi)協(xié)調(diào)者收到了所有參與者“建議提交”的信息,則將做出提交的決定, 否則將做出撤銷的決定。 (2)第二階段:協(xié)調(diào)者將有關(guān)決定的信息先寫入日志,然后把這個決定發(fā)送給所有的參與者。所有參與者收到命令之后,首先往日志中寫入“收到提交(或撤銷)”決定的信息,并向協(xié)調(diào)者發(fā)送“應(yīng)答”
19、消息,最后執(zhí)行有關(guān)決定。協(xié)調(diào)者收到所有參與者的應(yīng)答消息后,一個事務(wù)的執(zhí)行到此結(jié)束,有關(guān)日志信息可以脫機保存。,2并發(fā)控制 在分布式數(shù)據(jù)庫系統(tǒng)中,并發(fā)控制也可采用封鎖技術(shù),不過與集中式數(shù)據(jù)庫系統(tǒng)相比, 分布式數(shù)據(jù)庫系統(tǒng)要支持多副本以及因事務(wù)的分布執(zhí)行其封鎖的方法可能會引起全局死鎖這兩個原因,使得并發(fā)控制更為復(fù)雜。 為了解決多副本問題,分布事務(wù)管理就要把“事務(wù)Tl對d的X封鎖”這件事讓d副本所在場地上的事務(wù)管理器都知道,一個簡單的方法是向這些場地的事務(wù)管理器發(fā)出局部封鎖請求,這個辦法是有效的;但封鎖的冗余度很大,局部封鎖的數(shù)目和副本數(shù)相同。,為了減少系統(tǒng)開銷,處理多副本的封鎖可采取如下幾種方法:
20、(1)對寫操作,要申請對所有副本的X鎖。對于讀操作,只要申請對某個副本的S鎖。 (2)無論是寫操作,還是讀操作都要對多數(shù)(大于半數(shù))副本申請X鎖或S鎖。 (3)規(guī)定某個場地上的副本為主副本,所有的讀寫操作均申請對主副本的封鎖。,7.4 并行數(shù)據(jù)庫系統(tǒng),并行數(shù)據(jù)庫系統(tǒng)是新一代高性能的數(shù)據(jù)庫技術(shù)和并行計算機技術(shù)相結(jié)合的數(shù)據(jù)庫系統(tǒng),主要致力于開發(fā)數(shù)據(jù)操作的時間并行性和空間并行性,基于對象模型的并行數(shù)據(jù)庫也是一個重要的研究方向。 一個并行數(shù)據(jù)庫系統(tǒng)應(yīng)該實現(xiàn)如下目標(biāo): (1)高性能:并行數(shù)據(jù)庫系統(tǒng)通過將數(shù)據(jù)庫管理技術(shù)與并行處理技術(shù)有機結(jié)合,發(fā)揮多處理機結(jié)構(gòu)的優(yōu)勢,從而提供比相應(yīng)的大型機系統(tǒng)要高得多的性能
21、價格比和可用性。 (2)高可用性:并行數(shù)據(jù)庫系統(tǒng)可通過數(shù)據(jù)復(fù)制來增強數(shù)據(jù)庫的可用性。 (3)可擴充性:數(shù)據(jù)庫系統(tǒng)的可擴充性指系統(tǒng)通過增加處理和存儲能力而平滑地擴展性能的能力。,7.4.1 并行數(shù)據(jù)庫系統(tǒng)體系結(jié)構(gòu),1共享內(nèi)存型(SM結(jié)構(gòu)) 2共享磁盤型(SD結(jié)構(gòu)) 3無共享型(Shared Nothing) 4混合型結(jié)構(gòu),并行數(shù)據(jù)庫系統(tǒng)體系結(jié)構(gòu),7.4.2 并行數(shù)據(jù)庫系統(tǒng)并行處理技術(shù)簡介,1并行處理的基本概念 (1)并行執(zhí)行計劃 在并行處理環(huán)境中的執(zhí)行計劃稱為并行執(zhí)行計劃(Parallel Plan,簡稱PP)。它對應(yīng)于傳統(tǒng)的順序執(zhí)行計劃(Sequential Plan,簡稱SP)。 (2)并行
22、化方案 如果一個查詢Q的某個并行執(zhí)行計劃PP與Q的一個順序執(zhí)行計劃SP對應(yīng)于相同的操作樹,則稱PP為SP的一個并行化方案。 (3)并行化 由順序執(zhí)行計劃SP得到某個并行執(zhí)行計劃PP的過程稱為并行化。 (4)并行粒度 執(zhí)行的并行程度稱為并行粒度。一般來講,并行粒度越細,并行化程度就越高,實現(xiàn)起來就越復(fù)雜。并行數(shù)據(jù)庫通過開發(fā)事務(wù)間、查詢間、操作間以及操作內(nèi)四個不同粒度的并行性來滿足數(shù)據(jù)庫應(yīng)用環(huán)境中對事務(wù)吞吐量和響應(yīng)時間的要求。,2并行粒度 (1)事務(wù)間并行 (2)查詢內(nèi)并行 (3)操作內(nèi)并行 (4)操作間并行 流水線并行 獨立并行 3并行化形式,并行化形式,4并行操作算法 并行連接算法 并行掃描算
23、法 并行排序算法 5. 并行數(shù)據(jù)庫的物理組織 并行數(shù)據(jù)庫的物理組織的核心問題是如何在多個處理結(jié)點之間分布每個數(shù)據(jù)庫關(guān)系,使查詢處理時間最小化。 (1)并行數(shù)據(jù)庫的數(shù)據(jù)劃分 (2)并行數(shù)據(jù)庫的數(shù)據(jù)復(fù)制 (3)并行數(shù)據(jù)庫的數(shù)據(jù)重組,7.5 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘,隨著信息技術(shù)的發(fā)展,數(shù)據(jù)和數(shù)據(jù)庫的急劇增長,數(shù)據(jù)庫應(yīng)用的規(guī)模、范圍和深度不斷擴大。一般的事務(wù)處理已不能滿足應(yīng)用的需求,企業(yè)需要能充分利用已有的數(shù)據(jù)資源,獲得有價值的信息,挖掘企業(yè)的競爭優(yōu)勢,提高企業(yè)運作效率和指導(dǎo)企業(yè)決策。數(shù)據(jù)倉庫(Data Warehouse,簡稱DW)技術(shù)的興起滿足了這一要求。 數(shù)據(jù)倉庫是在數(shù)據(jù)庫基礎(chǔ)上發(fā)展而來的,它通常包
24、括三個部分:數(shù)據(jù)庫技術(shù)、聯(lián)機分析處理技術(shù)(Online Analytical Processing,簡稱OLAP)及數(shù)據(jù)挖掘技術(shù)(Data Mining,簡稱DM),它們之間具有極強的互補關(guān)系。,7.5.1 數(shù)據(jù)倉庫概念與結(jié)構(gòu),1數(shù)據(jù)倉庫概念 William H.Inmonn在建立數(shù)據(jù)倉庫(Building the Data Warehouse)一書中對數(shù)據(jù)倉庫作了如下定義:“數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、隨時間變化的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策分析過程。” 他還對數(shù)據(jù)倉庫作了進一步的描述:數(shù)據(jù)倉庫提供集成化的和歷史化的數(shù)據(jù);它集成種類不同的應(yīng)用系統(tǒng),并從事物發(fā)展和歷史的角度來組
25、織和存儲數(shù)據(jù),以供信息化和分析處理之用。 數(shù)據(jù)倉庫有以下幾個特征: (1)數(shù)據(jù)倉庫是面向主題的。 (2)數(shù)據(jù)倉庫是集成的。 (3)數(shù)據(jù)倉庫是穩(wěn)定的。 (4)數(shù)據(jù)倉庫是隨時間變化的。,2數(shù)據(jù)倉庫的結(jié)構(gòu),(1)數(shù)據(jù)倉庫的體系結(jié)構(gòu),數(shù)據(jù)倉庫系統(tǒng)的基本體系結(jié)構(gòu),(2)數(shù)據(jù)倉庫數(shù)據(jù)的層次結(jié)構(gòu),數(shù)據(jù)倉庫中數(shù)據(jù)的層次結(jié)構(gòu),3數(shù)據(jù)倉庫的數(shù)據(jù)組織 (1)數(shù)據(jù)倉庫的概念模型 數(shù)據(jù)倉庫的數(shù)據(jù)概念模型是多維數(shù)據(jù)模型,它直接影響到前端工具、數(shù)據(jù)存儲的設(shè)計和OLAP的查詢引擎。在多維數(shù)據(jù)模型中,一部分數(shù)據(jù)是數(shù)字測量值,它們是依賴于一組“維”的,這些維提供了測量值的關(guān)聯(lián)關(guān)系。多維數(shù)據(jù)模型就是把測量的值放在這樣一些有層次的維
26、構(gòu)成的多維空間中 。 (2)數(shù)據(jù)倉庫的數(shù)據(jù)組織 虛擬存儲方式 基于關(guān)系表的存儲方式 星型模型 雪花模型 星網(wǎng)模型 多維數(shù)據(jù)庫組織存儲方式,星型模型,雪花模型,7.5.2 數(shù)據(jù)倉庫設(shè)計和實現(xiàn),1數(shù)據(jù)倉庫設(shè)計 自頂向下模式:對分散在企業(yè)各處的數(shù)據(jù)庫中的數(shù)據(jù)集成建立全局性的數(shù)據(jù)倉庫。數(shù)據(jù)集市中的數(shù)據(jù)是為某部門DSS應(yīng)用而從數(shù)據(jù)倉庫中抽取的。數(shù)據(jù)集市中的數(shù)據(jù)是數(shù)據(jù)倉庫數(shù)據(jù)的一個子集。數(shù)據(jù)從數(shù)據(jù)倉庫流向數(shù)據(jù)集市。 自底向上模式:從建立各部門或特定商業(yè)問題的數(shù)據(jù)集市開始,全局性數(shù)據(jù)倉庫建立在數(shù)據(jù)集市的基礎(chǔ)上。即數(shù)據(jù)從數(shù)據(jù)集市流向數(shù)據(jù)倉庫。特點是投資少、見效快。 平行開發(fā)模式:在一個全局性數(shù)據(jù)倉庫的數(shù)據(jù)模型的指導(dǎo)下,數(shù)據(jù)集市和全局性數(shù)據(jù)倉庫的建立同時進行。,2數(shù)據(jù)倉庫的實現(xiàn) (1)數(shù)據(jù)倉庫的設(shè)計與建模 (2)數(shù)據(jù)集成 (3)數(shù)據(jù)的存儲與管理 (4)數(shù)據(jù)分析與展現(xiàn),7.5.3 聯(lián)機分析處理(OLAP),1聯(lián)機分析處理的概念 聯(lián)機分析處理是針對特定問題的聯(lián)機數(shù)據(jù)訪問和分析的軟件技術(shù)。它使分析人員、經(jīng)理、管理人員通過對信息(這
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年黃埔海關(guān)國際旅行衛(wèi)生保健中心公開招聘非占編聘用人員的備考題庫帶答案詳解
- 2026年衡陽市第一人民醫(yī)院婦產(chǎn)科醫(yī)師招聘備考題庫及1套參考答案詳解
- 2026年智鏈電磁材料(山東)有限公司招聘備考題庫有答案詳解
- 2026年瀘州市部分企事業(yè)單位人才引進88人備考題庫及參考答案詳解
- 2026年溫州市人民醫(yī)院(溫州市婦幼保健院)勞務(wù)派遣人員招聘備考題庫(五)及一套參考答案詳解
- 養(yǎng)老院入住老人糾紛調(diào)解與處理制度
- 2026年首都醫(yī)學(xué)科學(xué)創(chuàng)新中心孫少聰實驗室招聘生物備考題庫學(xué)分析科研助理及完整答案詳解一套
- 2026年黃石市消防救援支隊招聘政府專職消防員18人備考題庫及參考答案詳解
- 企業(yè)內(nèi)部保密協(xié)議簽訂制度
- 2025年檢疫機構(gòu)傳染病防控操作手冊
- cad操作考試題庫及參考答案
- 2025-2030中國遙控武器站行業(yè)現(xiàn)狀調(diào)研與前景趨勢預(yù)測報告
- 假劣藥認定培訓(xùn)課件
- 消防維修計劃方案(3篇)
- REVIT建筑建模知到智慧樹期末考試答案題庫2025年武漢職業(yè)技術(shù)學(xué)院
- 黃河鯉魚規(guī)?;鷳B(tài)養(yǎng)殖項目可行性研究報告完整立項報告
- 玻璃體積血的治療
- (高清版)DG∕TJ 08-2299-2019 型鋼混凝土組合橋梁設(shè)計標(biāo)準
- 瞼板腺炎的健康宣教
- 腫瘤科護理組長崗位競爭
- 慢性阻塞性肺疾病診治指南課件
評論
0/150
提交評論