下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘試題庫系統(tǒng)有什么區(qū)別二、關系模型和多維模型在數(shù)據(jù)倉庫設計中各有什么優(yōu)缺點三、數(shù)據(jù)倉庫上的代數(shù)操作有哪些如何定義的,舉例說明。四、什么是知識發(fā)現(xiàn),知識發(fā)現(xiàn)的過程包括那幾個步驟關聯(lián)規(guī)則有哪些1、數(shù)據(jù)倉庫是一個面向主題的、集成的、不可更新的、隨時間不斷變化的數(shù)據(jù)集合,它用于支持企業(yè)或組織的決策分析處理。 數(shù)據(jù)倉庫的主要特征: 面向主題的、集成的、時變的、非易失的數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別數(shù)據(jù)庫是面向事務的設計,數(shù)據(jù)倉庫是面向主題設計的。數(shù)據(jù)庫一般存儲在線交易數(shù)據(jù),數(shù)據(jù)倉庫存儲的一般是歷史數(shù)據(jù)。數(shù)據(jù)庫設計是盡量避免冗余,一般采用符合范式的規(guī)則來設計,數(shù)據(jù)倉庫在設計是有意引入 冗余,采用反
2、范式的方式來設計。數(shù)據(jù)庫是為捕獲數(shù)據(jù)而設計,數(shù)據(jù)倉庫是為分析數(shù)據(jù)而設計它的兩個基本的元素是維表和事實表。2、關系模型先建立企業(yè)級數(shù)據(jù)倉庫,再在其上開發(fā)具體的應用。企業(yè)級數(shù)據(jù)倉庫固然是我們所追求的目標,但在缺乏足夠的技術力量和數(shù)據(jù)倉庫建設經(jīng)驗的情況下,按照這種模型設計的系統(tǒng)建設過程長, 周期長,難度大,風險大,容易失敗。這種模型的優(yōu)點是信息全面、系統(tǒng)靈活。由于采用了第三范式, 數(shù)據(jù)存儲冗余度低、數(shù)據(jù)組織結構性好、反映的業(yè)務主題能力強以及具有較好的業(yè)務擴展性等,但同時會存在大量的數(shù)據(jù)表,表之間的聯(lián)系比較多,也比較復雜,跨表操作多,查詢效率較低,對數(shù)據(jù)倉庫系統(tǒng)的硬件性能要求高等問題。另一方面,數(shù)據(jù)模
3、式復雜,不容易理解,對于一般計算機用戶來說,增加了理解數(shù)據(jù)表的困難。;這種維的變動將是非常復雜、非常耗時的。而且信息不夠全面、系統(tǒng)欠靈活、數(shù)據(jù)冗余多。3、切片(Slice(Dice(aggregation) (Cube(roll-up) (drill-down) 、集合操作、類似于關系代數(shù)的操作等。切片(Slice)給定一個多維數(shù)據(jù)集合 MDS(D1,D2,Dn;M1,M2,Mk)在MDS 的第i 維上的切片是一條件為Di=c 選擇操作,c 是常量。切片的結果是一個 n-1 維的數(shù)據(jù)集合切塊(Dice)給定一個多維數(shù)據(jù)集合 MDS(D1,D2,Dn;M1,M2,Mk) ,在MDS 的第i 維上
4、的切塊是個條件為 c1Dic2 選擇操作,c1 和c2 是常值。切塊的結果是一個 n 維的數(shù)據(jù)集合聚集(Aggregation)給定一個多維數(shù)據(jù)集合 MDS(D1,D2,Dn;M1,M2,Mk) 及一個維屬性 Di(1in),MDS 在Di 上的聚集操作表示為 Agg(MDS,Di,F) ,其中F=f1,f2,fk,fj是Mj 上聚集函數(shù),如求最大值、最小值、均值、和、計數(shù)等。冪聚集 (Cube)給定一個多維數(shù)據(jù)集合 MDS(D1,D2,Dn;M1,M2,Mk)及一個維屬性集合 SDi|1in 在S 上的冪聚集操作表示為 Cube(MDS,S,F) ,其中F=f1,f2,fk,fj 是Mj 上
5、聚集函數(shù),如求最大值、最小值、均值、和、計數(shù)等。上卷(roll-up )給定一個多維數(shù)據(jù)集合 MDS(D1,D2,Dn;M1,M2,Mk) ,MDS 上的上卷操作的功能是從 MDS 始沿著計算下鉆(drill-down )旋轉數(shù)據(jù)旋轉是改變維度的位置關系,使最終用戶可以從其他視角來觀察多維數(shù)據(jù)5數(shù)據(jù)關聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在種規(guī)律性,就稱為關聯(lián)。關聯(lián)可分為簡單關聯(lián)、時序關聯(lián)、因果關聯(lián)。關聯(lián)分析的目的是找出數(shù)Apriori 算法是一種最有影響的挖掘布爾關聯(lián)規(guī)則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關聯(lián)規(guī)則在分類上屬于單維、單層、
6、布爾關聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。持度一樣。然后由頻集產(chǎn)生強關聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用1 有一項,這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞推的方法??赡墚a(chǎn)生大量的候選集 ,以及可能需要重復掃描數(shù)據(jù)庫,是 Apriori 算法的兩大缺點。4、知識發(fā)現(xiàn)是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。知識發(fā)現(xiàn)將信息變?yōu)橹R,從數(shù)據(jù)礦ft中找到蘊藏的知識金塊,將為知識創(chuàng)新和知識經(jīng)濟的發(fā)展作出貢獻。數(shù)據(jù)準備 包括
7、3 個子步驟:數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)預處理。數(shù)據(jù)集成將多文件或多數(shù)據(jù)庫運行環(huán)境中的數(shù)據(jù)進行合并處理,解決語義模糊性、處理數(shù)據(jù)中的遺漏和清洗臟數(shù)據(jù)等。數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集合,縮小處理范圍,提高數(shù)據(jù)采掘的質量。預處理是為了克服目前數(shù)據(jù)采掘工具的局限性。數(shù)據(jù)挖掘要先決定如何產(chǎn)生假設,是讓數(shù)據(jù)挖掘系統(tǒng)為用戶產(chǎn)生假設,還是用戶自己對于數(shù)據(jù)庫中可能包含的知識提出假設。前一種稱為發(fā)現(xiàn)型的數(shù)據(jù)挖掘,后一種稱為驗證型的數(shù)據(jù)挖掘。選擇合適的工具。挖掘知識的操作。證實發(fā)現(xiàn)的知識。結果表達和解釋 根據(jù)最終用戶的決策目的對提取的信息進行分析,把最有價值的信息區(qū)分出來, 并且通過決策支持工具提交給決策者,因此這一步驟任務不僅是把結果表達出來,還要對信息進行過濾處理,如果不能令決策者滿意,需要重復以上數(shù)據(jù)挖掘過程6(classification是找出描述并區(qū)分數(shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預測類標記未知的對象類。聚類(clustering)是指根據(jù)“物以類聚”原理,將本身沒有類別的樣本聚集成不同的組,這樣的一組數(shù)據(jù)對象的集合叫做簇,并且對每一個這樣
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 知識點及2025秋期末測試卷(附答案)-蘇少版初中美術九(上)
- 2025-2026學年統(tǒng)編版小學語文三年級上冊第七單元達標試卷(附參考答案)
- (新教材)2026年滬科版七年級下冊數(shù)學 9.2.2 分式的加減 課件
- 護理質量改進的PDCA策略培訓
- 崇義中學高一上學期第二次月考生物試題
- 2025年辦公樓充電樁維護協(xié)議
- 月考歷史試題(試題卷)
- 城市廢棄物分類處理
- 基于情感分析的視頻內容評價
- 2025年文化傳承研究
- (高清版)DB13(J)∕T 8556-2023 建設工程消耗量標準及計算規(guī)則(園林綠化工程)
- 智慧農業(yè)環(huán)境監(jiān)控系統(tǒng)
- 燃氣工程施工安全培訓
- 高三上學期《高中生高效晚自習利用》主題班會課件
- 電廠標識系統(tǒng)KKS編碼說明2024新版
- 項目評審表范表
- 鑄牢中華民族共同體意識教育路徑與行動邏輯
- 銅鋁復合板帶箔材連鑄-軋制短流程工藝及形性控制技術研究
- UL749標準中文版-2018家用洗碗機UL中文版標準
- 招商銀行個人住房貸款合同
- 物業(yè)服務合同范本(2篇)
評論
0/150
提交評論