數(shù)據(jù)倉庫與數(shù)據(jù)挖掘試題_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘試題_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘試題_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘試題_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘試題_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

《數(shù)據(jù)庫房與數(shù)據(jù)挖掘試題》一、判斷題(每題1分,計30分,答題時每5個答案寫在一同)數(shù)據(jù)庫作為數(shù)據(jù)資源用于管理業(yè)務中的信息解析辦理。(X)數(shù)據(jù)庫的查問不是指對記錄級數(shù)據(jù)的查問,而是指對解析要求的查問。(X)關系數(shù)據(jù)庫是二維數(shù)據(jù)(平面),多維數(shù)據(jù)庫是空間立體數(shù)據(jù)。(v)數(shù)據(jù)進入數(shù)據(jù)庫房以前,一定經過加工與集成。(V)OLAP使用的是目前數(shù)據(jù);OLTP使用的是歷史數(shù)據(jù)。(V)對數(shù)據(jù)庫房操作不明確,操作數(shù)據(jù)量少。(X)數(shù)據(jù)市集實現(xiàn)難度超出數(shù)據(jù)庫房。(X)OLAP使用的數(shù)據(jù)經常更新;OLTP使用的數(shù)據(jù)不更新,但周期性刷新。(X)數(shù)據(jù)市集可升級到完好的數(shù)據(jù)庫房。(V)數(shù)據(jù)庫中寄存的數(shù)據(jù)基本上是保留目前綜合數(shù)據(jù)。(X)OLAP可以應解析人員的要求迅速、靈巧地進行大數(shù)據(jù)量的復雜辦理。(V)OLAP支持復雜的決議解析操作,重視對解析人員和高層管理人員的決議支持。(V)OLTP的事務辦理量大,辦理內容比較簡單但重復率高。(V)數(shù)據(jù)庫房的用戶有兩類:信息使用者和探究者。(V)對數(shù)據(jù)庫的操作比較明確,操作數(shù)據(jù)量大。(X)數(shù)據(jù)庫用于事務辦理,數(shù)據(jù)庫房用于決議解析。(V)信息使用者以一種可展望的、重發(fā)性的方式使用數(shù)據(jù)庫房平臺。(V)OLAP一次辦理的數(shù)據(jù)量大;OLTP一次性辦理的數(shù)據(jù)量小。(V)OLTP每次操作的數(shù)據(jù)量不大且多為目前的數(shù)據(jù)。(V)數(shù)據(jù)庫房系統(tǒng)由數(shù)據(jù)庫房(DW)、庫房管理和解析工具三部分組成。(V)隨著業(yè)務的變化,數(shù)據(jù)庫房中的數(shù)據(jù)會隨時更新。(X)數(shù)據(jù)市集的規(guī)模比數(shù)據(jù)庫房更大。(X)數(shù)據(jù)市集擁有更詳盡的、早先儲蓄在數(shù)據(jù)庫房的數(shù)據(jù)。(V)不同樣維值的組合及其對應的胸懷值組成了不同樣的查問和解析。(V)OLAP使用細節(jié)性數(shù)據(jù),OLTP使用綜合性數(shù)據(jù)。(X)數(shù)據(jù)市集由公司管理和保護。(X)OLAP的觀點模型是多維的。(V)數(shù)據(jù)庫已經成為了成熟的信息基礎設備。(V)數(shù)據(jù)庫既保留過去的數(shù)據(jù)又保留目前的數(shù)據(jù)。(X)OLTP面對的是事務辦理操作人員和低層管理人員。(V)二、填空題(每題1分,計10分)1.信息使用者平時查察歸納數(shù)據(jù)或齊集數(shù)。2.探究者的任務是找尋公司數(shù)據(jù)內隱含的價值。3.數(shù)據(jù)立方體是在全部可能組合的維進步行分組齊集計算的總和。4.基本的多維數(shù)據(jù)解析操作包含切片切塊、旋轉、鉆取等。5.數(shù)據(jù)立方體的建立和保護等計算方法成為了多維數(shù)據(jù)解析研究的要點問題。6.OLAP是建立在網(wǎng)絡上的開發(fā)系統(tǒng)構造。7.在數(shù)據(jù)立方體中,不同樣維度組合組成了不同樣的子立方體。8.不同樣的數(shù)據(jù)庫房需要建立不同樣的數(shù)據(jù)庫。9.ETL是建立數(shù)據(jù)庫房的重要步驟,需要花銷開發(fā)數(shù)據(jù)庫房70%的工作量。數(shù)據(jù)庫房的數(shù)據(jù)是綜合的集成。三、名詞解說(每題5分,計30分)1、數(shù)據(jù)市集4、元數(shù)據(jù)2、數(shù)據(jù)挖掘5、知識發(fā)現(xiàn)3、商業(yè)智能6、數(shù)據(jù)庫房1,數(shù)據(jù)市集(DataMarts)是一種更小、更集中的數(shù)據(jù)庫房,為公司供給分析商業(yè)數(shù)據(jù)的一條低價門路。DataMarts是指擁有特定應用的數(shù)據(jù)庫房,主要針對某個應用或許詳盡部門級的應用,支持用戶獲取競爭優(yōu)勢或許找到進入新市場的詳盡解決方案。4,元數(shù)據(jù)(metadata)定義為對于數(shù)據(jù)的數(shù)據(jù)(dataaboutdata),即元數(shù)據(jù)描繪了數(shù)據(jù)庫房的數(shù)據(jù)和環(huán)境。2,數(shù)據(jù)挖掘(DM):KDD過程中的一個特定步驟,它用特意算法從數(shù)據(jù)中抽取知識。3,商業(yè)智能以數(shù)據(jù)庫房為基礎,經過聯(lián)機解析辦理和數(shù)據(jù)挖掘技術幫助公司領導者針對市場變化的環(huán)境,做出迅速、正確的決議。5,知識發(fā)現(xiàn)(KDD):從數(shù)據(jù)中發(fā)現(xiàn)實用知識的整個過程。6,數(shù)據(jù)庫房是決議支持系統(tǒng)(dss)和聯(lián)機解析應用數(shù)據(jù)源的構造化數(shù)據(jù)環(huán)境。數(shù)據(jù)庫房研究和解決從數(shù)據(jù)庫中獲守信息的問題。數(shù)據(jù)庫房的特色在于面向主題、集成性、牢固性和時變性。四、簡答題(每題5分,計30分)簡述數(shù)據(jù)庫房與數(shù)據(jù)挖掘的關系?數(shù)據(jù)庫房與數(shù)據(jù)挖掘都是決議支持新技術。但它們有著完好不同樣的協(xié)助決議方式。在數(shù)據(jù)庫房系統(tǒng)的前端的解析工具中,數(shù)據(jù)挖掘是此中重要工具之一。它可以幫助決議用戶挖掘數(shù)據(jù)庫房的數(shù)據(jù)中隱含的規(guī)律性。比較統(tǒng)計學與數(shù)據(jù)挖掘的異同?統(tǒng)計學主假如對數(shù)目數(shù)據(jù)(數(shù)值)或連續(xù)值數(shù)據(jù)(如年紀、薪資等),進行數(shù)值計算(如初等運算)的定量解析,獲取數(shù)目信息。數(shù)據(jù)挖掘主要對失散數(shù)據(jù)(如職稱、病癥等)進行定性解析(覆蓋、歸納等),獲取規(guī)則知識。統(tǒng)計學與數(shù)據(jù)挖掘是有區(qū)其余??墒?,它們之間是相互增補的。3.比較OLAP的數(shù)據(jù)模型MOLAP與ROLAP?MOLAP是早先生成多維立方體,供此后查問解析用,而ROLAP是經過動向的生成Sql,去做查問關系型數(shù)據(jù)庫,假如沒有做性能優(yōu)化,數(shù)據(jù)量很大的時候,性能問題就會顯得比較突出了。ROLAP

MOLAP

比較ROLAP

MOLAP沿用現(xiàn)有的關系數(shù)據(jù)庫的技術

專為

OLAP所設計響應速度比MOLAP慢;現(xiàn)相關系型數(shù)據(jù)庫已經對OLAP做了好多優(yōu)化,包含并行儲蓄、性能好、響應速度快并行查問、并行數(shù)據(jù)管理、鑒于成本的查問優(yōu)化、位圖索引、SQL的OLAP擴展(cube,rollup)等,性能有所提升數(shù)據(jù)裝載速度快數(shù)據(jù)裝載速度慢需要進行估計算,可能致使儲蓄空間耗資小,維數(shù)沒有限制數(shù)據(jù)爆炸,維數(shù)有限;沒法支持維的動向變化受操作系統(tǒng)平臺中文件大借用RDBMS儲蓄數(shù)據(jù),沒有文件大小限制小的限制,難以達到TB級(只好10~20G)缺乏數(shù)據(jù)模型和數(shù)據(jù)接見可以經過SQL實現(xiàn)詳盡數(shù)據(jù)與綱領數(shù)據(jù)的儲蓄的標準–支持高性能的決議支持–不支擁相關估計算的讀寫操作計算–SQL沒法達成部分計算?復雜的跨維計算?沒法達成多行的計算?多用戶的讀寫操作?沒法達成維之間的計算?行級的計算保護困難管理簡單比較數(shù)據(jù)挖掘與OLAP的差別?OLAP的典型應用,經過商業(yè)活動變化的查問發(fā)現(xiàn)的問題,經過追蹤查問找出問題出現(xiàn)的原由,達到協(xié)助決議的作用。數(shù)據(jù)挖掘任務在于聚類(如神經網(wǎng)絡聚類)、分類(如決議樹分類)、展望等。什么是對于數(shù)據(jù)庫房照射的元數(shù)據(jù)?數(shù)據(jù)庫房的元數(shù)據(jù)除對數(shù)據(jù)庫房中數(shù)據(jù)的描繪(數(shù)據(jù)庫房詞典)外,還有以下三類元數(shù)據(jù):對于數(shù)據(jù)源的元數(shù)據(jù)對于抽取和變換的元數(shù)據(jù)對于最后用戶的元數(shù)據(jù)簡述聯(lián)機解析辦理的四個特色?(1)迅速性:用戶對OLAP的迅速反應能力有很高的要求。(2)可解析性:OLAP系統(tǒng)應能辦理任何邏輯解析和統(tǒng)計解析。(3)多維性:系統(tǒng)一定供給對數(shù)據(jù)解析的多維視圖和解析。(4)信息性:OLAP系統(tǒng)應能實時獲取信息,而且管理大容量的信息。數(shù)據(jù)庫房與數(shù)據(jù)挖掘第一章課后習題一:填空題1)數(shù)據(jù)庫中儲蓄的都是數(shù)據(jù),而數(shù)據(jù)庫房中的數(shù)據(jù)都是一些歷史的、存檔的、歸納的、計算的數(shù)據(jù)。2)數(shù)據(jù)庫房中的數(shù)據(jù)分為四個級別:早起細節(jié)級、目前細節(jié)級、輕度綜合級、高度綜合級。3)數(shù)據(jù)源是數(shù)據(jù)庫房系統(tǒng)的基礎,是整個系統(tǒng)的數(shù)據(jù)源泉,平時包含業(yè)務數(shù)據(jù)和歷史數(shù)據(jù)。4)元數(shù)據(jù)是“對于數(shù)據(jù)的數(shù)據(jù)”。依據(jù)元數(shù)據(jù)用途的不同樣將數(shù)據(jù)庫房的元數(shù)據(jù)分為技術元數(shù)據(jù)和業(yè)務元數(shù)據(jù)兩類。5)數(shù)據(jù)辦理平時分為兩大類:聯(lián)機事務辦理和聯(lián)機事務解析6)Fayyad過程模型主要有數(shù)據(jù)準備,數(shù)據(jù)挖掘和結果解析三個主要部分組成。7)假如從整體上看數(shù)據(jù)挖掘技術,可以將其分為統(tǒng)計解析類、知識發(fā)現(xiàn)類和其余種類

的數(shù)據(jù)挖掘技術三大類。8)那些與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對象稱做9)依據(jù)挖掘對象的不同樣,將Web數(shù)據(jù)挖掘分為三類:

孤立點。web內容挖掘、

web

構造挖掘和

web使用挖掘。10)查問型工具、解析型工具盒挖掘型工具

聯(lián)合在一同組成了數(shù)據(jù)庫房系統(tǒng)的工具層,

它們各自的重視點不同樣,所以適用范圍和針對的用戶也不同樣。二:簡答題1)什么是數(shù)據(jù)庫房?數(shù)據(jù)庫房的特色主要有哪些?數(shù)據(jù)庫房是一個面向主題的、集成的、相對牢固的、反應歷史變化的數(shù)據(jù)會合,用于支持管理決議。主要特色:面向主題組織的、集成的、牢固的、隨時間不停變化的、數(shù)據(jù)的會合性、支持決議作用2)簡述數(shù)據(jù)挖掘的技術定義。從技術角度看,數(shù)據(jù)挖掘是從大批的、不完好的、有噪聲的、模糊的、隨機的實質數(shù)據(jù)中,提取隱含在此中的、人們不知道的、但又是暗藏實用的信息和知識的過程。3)什么是業(yè)務元數(shù)據(jù)?業(yè)務元數(shù)據(jù)從業(yè)務角度描繪了數(shù)據(jù)庫房中的數(shù)據(jù),它供給了介于使用者和實質系統(tǒng)之間的語義層,使得不懂計算機技術的業(yè)務人員也可以讀懂數(shù)據(jù)庫房中的數(shù)據(jù)4)簡述數(shù)據(jù)挖掘與傳統(tǒng)解析方法的差別。實質差別是:數(shù)據(jù)挖掘是在沒有明確假定的前提下去挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘所獲取的信息應擁有先前未知、有效和適用三個特色。5)簡述數(shù)據(jù)庫房4種系統(tǒng)構造的異同點及其適用性。a.虛構的數(shù)據(jù)庫房系統(tǒng)構造b.獨自的數(shù)據(jù)庫房系統(tǒng)構造c.獨自的數(shù)據(jù)市集系統(tǒng)構造d.散布式數(shù)據(jù)庫房構造第二章課后習題一:填空題1)模型是對現(xiàn)實世界進行抽象的工具。在信息管理中需要將現(xiàn)實世界的事物及其相關特色變換為信息世界的數(shù)據(jù)才能對信息進行辦理與管理,這就需要依靠數(shù)據(jù)模型作為這類變換的橋梁。2)數(shù)據(jù)庫房模型設計包含觀點、邏輯、物理、元數(shù)據(jù)模型設計等內容。3)現(xiàn)實世界是存在于現(xiàn)實之中的各樣客觀事物。觀點世界是現(xiàn)真相況在人們腦筋中的反應。邏輯世界是人們?yōu)閷⒋嬖谟谧约耗X筋中的觀點模型變換到計算機中的實質的物理儲蓄過程中的一個計算機邏輯表示模式。計算機世界則是指現(xiàn)實世界中的事物在計算機系統(tǒng)中的實質儲蓄模式。4)數(shù)據(jù)庫房設計的觀點模型與業(yè)務數(shù)據(jù)辦理系統(tǒng)的三級數(shù)據(jù)模型仍舊擁有必定的差距。表現(xiàn)在數(shù)據(jù)種類的差別、數(shù)據(jù)的歷史變遷性、數(shù)據(jù)大體性5)數(shù)據(jù)庫房項目需求的采集與解析需求要從歷史數(shù)據(jù)與用戶需求兩個方面同時著手,采納數(shù)據(jù)驅動+用戶驅動的理念。6)所謂主題,是指在較高程度大將業(yè)務數(shù)據(jù)進行綜合,歸類和解析利用的一個抽象觀點,每個主題基本對峙業(yè)務的一個解析領域。7)多維數(shù)據(jù)模型較為廣泛地采納星型模型、雪花模型兩種模式。8)設計齊集模型時,第一需要考慮用戶的使用要求,其次要考慮數(shù)據(jù)庫房的粒度模型和數(shù)據(jù)的統(tǒng)計解析狀況。9)切割是數(shù)據(jù)庫房邏輯設計中要解決的另一個重要問題,它的目的在于提升效率能為數(shù)據(jù)庫房的物理實行供給設計依據(jù)。10)元數(shù)據(jù)依據(jù)使用狀況,主要有技術元數(shù)據(jù)和業(yè)務元數(shù)據(jù)兩類元數(shù)據(jù)。二:簡答題1)簡述觀點模型設計主要達成哪些工作?界定系統(tǒng)界限、確立主要的主題域、細化解析詳盡內容2)簡述一個符合第三范式的關系一定擁有的三個條件。A.每個屬性的值唯一,不擁有多義性B.每個非主屬性一定完好依靠于整個主鍵C.每個非主屬性不可以依靠于其余關系中的屬性。3)簡述確立粒度級其余步驟A.估量DASDB.計算儲蓄空間、確立能否區(qū)分粒度。C.計劃影響數(shù)據(jù)庫房的粒度區(qū)分D.使用多重粒度E.使用多種儲蓄介質的空間量F.選擇適合的粒度G.只采納大體數(shù)據(jù)4)簡述CWM五個功能層對象模型層、基礎層、資源層、解析層、管理層5)數(shù)據(jù)庫房物理模型進行優(yōu)化時可以考慮的解決方案有哪些?A.歸并表與簇文件B.建立數(shù)據(jù)序列C.引入冗余,反規(guī)范辦理D.表的物理切割分區(qū)E.生成派出數(shù)據(jù)第三章課后習題一:填空題1)ETL過程主要包含三個部分:數(shù)據(jù)抽取、數(shù)據(jù)沖刷與數(shù)據(jù)變換以及數(shù)據(jù)的加載。2)ETL工作流模型包含ETL觀點模型和ETL邏輯模型兩部分。3)觸發(fā)器方式是廣泛采納的一種增量抽取體系。該方式是依據(jù)抽取要求,在要被抽取的源表上建立插入、改正和刪除3個觸發(fā)器。4)一般狀況下,在一個ETL流程中,抽取操作老是最初履行,加載操作最后履行。5)數(shù)據(jù)質量問題既有可能來自于數(shù)據(jù)源,又有可能來自于ETL的實行過程。6)基本的多線程并行辦理技術分為3種:任務并行辦理、數(shù)據(jù)并行辦理和管道并行辦理。7)ETL過程中數(shù)據(jù)質量問題分為四類:單數(shù)據(jù)源模式層問題、單數(shù)據(jù)源實例層問題、多半據(jù)源模式層問題、多半據(jù)源實例層。8)ETL過程可以被區(qū)分為兩各樣類:全量ETL過程和增量ETL過程。9)加載數(shù)據(jù)到目標數(shù)據(jù)庫房的兩個基本方式是刷新方式和更新方式。10)控制“臟數(shù)據(jù)”對數(shù)據(jù)庫房解析結果的影響程度,采納各樣有效的舉措對其進行辦理,這一辦理過程稱為數(shù)據(jù)沖刷。二:簡答題1)怎樣保障ETL過程中的數(shù)據(jù)質量?A.數(shù)據(jù)源端實行數(shù)據(jù)質量控制:多半據(jù)源的異構問題、數(shù)據(jù)扔掉值得問題、相像重復記錄的問題b.ETL過程中實行數(shù)據(jù)質量控制:數(shù)據(jù)抽取程序嚴格審查、實時監(jiān)控數(shù)據(jù)源系統(tǒng)的更改、確立采信數(shù)據(jù)源、建立故障檢測體系、建立數(shù)據(jù)審查體系2)增量數(shù)據(jù)抽取中常用的捕捉變化數(shù)據(jù)的方法有哪幾種?觸發(fā)器方式、時間戳方式、全表刪除插入方式、全表比對方式、日記表方式、系統(tǒng)日記解析方式、系統(tǒng)日記解析方式。3)怎樣辦理空缺數(shù)據(jù)?可以采納忽略元組、用一個全局常量填補空缺值、用屬性性平均值填補空缺值、使用與給定元組同類的全部樣本的平均值填補空缺值、使用最可能的值填補空缺值、使用像Baysian公式或判斷樹這樣的鑒于推斷的方法。4)怎樣辦理噪聲數(shù)據(jù)?分箱或聚類等方法辦理5)簡述數(shù)據(jù)加載操作。數(shù)據(jù)加載負責將經過前幾步沖刷和變換后的數(shù)據(jù)依據(jù)目標數(shù)據(jù)定義的表構造裝入數(shù)據(jù)倉庫6)在ETL過程中會出現(xiàn)哪幾類數(shù)據(jù)質量問題?解析其產生原由。單數(shù)據(jù)源模式層次問題---------》缺乏完好性拘束,糟糕的模式設計單數(shù)據(jù)源實例層次問題---------》數(shù)據(jù)記錄的錯誤多半據(jù)源模式層次問題---------》異質的數(shù)據(jù)模型和模式設計多半據(jù)源實例層次問題---------》冗余、相互矛盾或許不一致的數(shù)據(jù)第四章課后習題一:填空題1)OLAP系統(tǒng)依據(jù)其儲蓄的數(shù)據(jù)儲蓄格式可以分為關系OLAP、多維OLAP和混淆OLAP三種種類。2)對于擁有海量數(shù)據(jù)的數(shù)據(jù)庫房,B-Tree索引技術顯得其實不靈巧,于是人們探訪新的索引技術,如位圖索引和表記符來解決此問題。3)用戶決議解析角度或決議解析出發(fā)點就是數(shù)據(jù)庫房中的維度。4)胸懷是多維數(shù)據(jù)集的核心值,是進行OLAP操作的用戶所要察看解析的數(shù)據(jù)。5)上卷和下鉆的深度與維所區(qū)分的層次相對應,上卷解析的細化程度越低,粒度度越大。下鉆解析的細化程度越高,粒度越小。6)所謂的數(shù)據(jù)“上卷”是指用戶在數(shù)據(jù)庫房的應用中,從較低層次開始漸漸將數(shù)據(jù)依據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論