數據庫新技術考題_第1頁
數據庫新技術考題_第2頁
數據庫新技術考題_第3頁
數據庫新技術考題_第4頁
數據庫新技術考題_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據庫新技術考題1、 云計算環(huán)境與分布式計算環(huán)境各提出了那些新的數據管理需求。云計算環(huán)境新的數據管理需求:與傳統(tǒng)數據庫系統(tǒng)相比,目前云數據管理系統(tǒng)提供的接口有很多限制,只提供簡單的數據存取接口或者極小化的查詢語言,這增加了用戶使用的難度,也增加了開發(fā)人員的負擔.同時,相比于傳統(tǒng)的分布式關系數據庫,云數據管理系統(tǒng)的查詢性能也有很大的提升空間.如何在現有云計算平臺的基礎上,完善云數據管理系統(tǒng)的查詢功能并提高其數據處理的性能,是目前備受關注的挑戰(zhàn)性問題用戶接口和查詢性能是目前云數據管理系統(tǒng)亟待提高的兩個方面。要求云數據管理系統(tǒng)中的查詢處理及優(yōu)化算法具備良好的擴展性,不僅能夠擴展到龐大規(guī)模的云平臺上,而且能夠實現資源的可動態(tài)增長及其帶來的性能提升.云數據管理系統(tǒng)需要將軟硬件錯誤看成系統(tǒng)運行的常態(tài),錯誤發(fā)生時既要保證數據不丟失,又要保證數據的讀寫操作能夠正常進行。云數據管理系統(tǒng)應當針對云數據的特點設計數據分布策略和查詢優(yōu)化相關算法,從而提高其管理海量數據的能力。云數據管理系統(tǒng)要提供SQL接口,這樣習慣于關系數據庫查詢語言的用戶不必重新學習新的接口或者編程方法,云數據管理系統(tǒng)還要提供UDF(UserDefinedFunction)接口,用戶可以根據業(yè)務需求自己定義數據查詢操作。分布式計算環(huán)境新的數據管理需求在分布式環(huán)境下數據傳輸和數據傾斜等問題的出現使得在MapReduce實現連接成為一個非常具有挑戰(zhàn)性的問題。分布式計算系統(tǒng)沒有統(tǒng)一的控制手段,它的質量和可用性難以保證,網絡是一個異構的環(huán)境,分布式計算技術需要解決異構環(huán)境的互操作問題?,F有資源不可能以同一種方式描述,有沒有自動識別資源的方法,所以分布式計算技術的使用具有范圍性。2、 簡要敘述大數據可用性的概念及目前主要研究內容答:一個正確的大數據集合至少以滿足以下5個性質:1)一致性:數據集合中每個信息都不包含語義錯誤或相互矛盾的數據。2)精確性:數據集合中每個數據都能準確表述現實世界中的實體。3)完整性:數據集合中包含足夠的數據來回答各種查詢和支持各種計算。4)時效性:信息集合中每個信息都與時俱進,不陳舊過時。5)實體同一性:同一實體在各種數據源中的描述統(tǒng)一。一個數據集合滿足上述5個性質的程度是該數據集合的可用性。研究內容:1) 高質量大數據獲取與整合的理論和技術;2) 完整的大數據可用性理論體系;3) 數據錯誤自動檢測與修復的理論和技術;4) 弱可用數據上近似技術的理論和技術;5) 弱可用數據上的知識發(fā)掘與演化的機理。3、 簡述云存儲系統(tǒng)的主要安全需求有哪些?答:數據安全是云存儲系統(tǒng)中最重要的安全需求之一。云存儲系統(tǒng)中數據的安全性可分為存儲安全性和傳輸安全性兩部分,每個部分又包含機密性、完整性和可用性。D數據的機密性云存儲系統(tǒng)中的數據機密性是指無論存儲還是傳輸過程中,只有數據擁有者和授權用戶能夠訪問數據明文,其他任何用戶或云存儲服備提供商都大法得到數據明文,從理論上杜絕一切泄漏數據的可能性.2) 數據的完整性云存儲系統(tǒng)中數據的完整性包含數據存儲時和使用時的完整性兩部分,數據存儒時的完整性是指云存儲服務提供商是按照用戶的要求將數據完整地保存在云端,不能有絲毫的遺失或損壞.數據使用時的完整性是指當用戶使用某個數據時,此數據沒有被任何人偽造或規(guī)改.3) 數據的可用性云存儲的不可控制性滋生了云存儲系統(tǒng)的可用性研究.與以往不同的是云存儲中所有硬件均非用戶所能控制.因此,如何在存儲弁質不可控的情況下提高數據的可用性是云存儲系統(tǒng)的安全需求之一.密鑰管理分發(fā)機制,一直以來,數據加密存儲都是保證數據機密性的主流方法。數據加密需要密鑰,云存儲系統(tǒng)需要提供安全高效的密鑰管理分發(fā)機制保證數據在存儲與共享過程中的機密性。其他功能的需求,由于相同密文在不同的密匙或加密機制下生成的密文并不相同,數據加密存儲將會影響到云存儲系統(tǒng)中的一些其他共能,例如數據搜索,重復數據刪除等,云存儲系統(tǒng)對這些因數據加密而被影響的功能有著新的需求。4、 云環(huán)境下分布式緩存技術主要面臨的問題與解決方案1) 緩存服務的性能隔離。改進的全局緩存替換方法,兩種方案。通過為租戶動態(tài)加權的方式確保訪問頻率低的租戶內容不會很快被替換出內存;根據租戶當前占用的內存空間是否少于目標空間,動態(tài)選取該租戶或其他租戶數據替換出緩存。2) 虛擬環(huán)境下數據遷移的優(yōu)化?;诜答伩刂频姆椒?,周期性的求解滿足QoS約束下的最優(yōu)遷移速率;采用控制理論解決數據遷移中的開銷優(yōu)化問題.基于多元回歸法構建遷移時間與性能衰減度的預測函數,將二者線性加權得到遷移開銷模型,最終實現以最小化開銷為目標的遷移速率控制。3)緩存策略的自適應與自管理。使用跟蹤驅動模擬(trace-drivensimulation)方法為每個Web文件選取最優(yōu)一致性策略;基于規(guī)則的方法,策略選取規(guī)則由帶寬、數據變化率以及用戶一致性需求要素組成;根據統(tǒng)計結果及識別規(guī)則(detectionrule)對當前訪問模式進行分類,根據分類結果采用相應的最優(yōu)替換策略。5、 MongoDB的分片存儲與分布式數據庫有何不同?答:MongoDB提供了一種自動分片的機制來實現系統(tǒng)的水平擴展。雖然分片的概念源于關系型數據庫的分區(qū),但還是有一些差別。最大的差別是MongoDB自動地完成所有的工作而不需要人工的介入,并且當各個分片中的數據分布不均衡時,自動完成數據的重分布。MongoDB的自動分片(Auto.Sharding)機制在設計時主要實現以下三個目標:1) 使集群“不可見”,應用程序不必知道其所需要的數據存儲于哪個服務器上,也不必了解整個集群的架構。2) 使集群可隨時讀寫,MongoDB通過幾種不同的方式來最大化系統(tǒng)的正常運行時問3) 使集群容易擴展,當一個系統(tǒng)需要更多的空f剛和資源時,必須能夠簡單并且容易地進行擴展。MongoDB自動分片機制的基本原理是將數據集合分成小塊(chunk),這些塊使用系統(tǒng)的均衡策略分散到若干個片(shard)qb,每個片包含數據集的一部分。當各個片中的數據分布不均衡時,均衡策略會自動重新分布數據,維持各個片中數據的均勻分布,不需人工干預。在MongoDB分片集群中,數據是按一定的順序組織在一起的,即片鍵相鄰的數據傾向于存儲在同一個服務器上。在MongoDB自動分片集群中采用的方式是一個片中可以包含多個范圍的數據。這種方式有效地減少了需要遷移的數據總量,特別是當集群中添加了新的片時,每個片將自己的部分數據移動到新片中。這種方式將數據從包含數據最多的片直接移動到目標片中,而不必在其他的片中進行中轉,均衡效果最為有效且移動的總數據量最小。MongoDB自動分片集群中,數據遷移以塊為單位,當一個特定片中含有過多的數據時,這個片中的塊就會遷移到其他的片中MongoDB自動分片機制引入了balancer負責數據遷移和負載均衡,balancer是一個后臺運行的任務,被集成在mongos中。均衡的操作對于客戶端是透明的,客戶端的應用程序不必在意數據是否正在被移動。6、 H-Store與VoltDB采用怎樣的技術方法解決大數據存儲、易擴展及性能問題?答:H-Store是第一個實現的新型并行數據庫管理系統(tǒng),稱為NewSQL。這種數據庫系統(tǒng)提供了NoSQL系統(tǒng)所具有的高吞吐量和高可用性的,而且并沒有放棄傳統(tǒng)DBMS的事務處理的功能。這樣的系統(tǒng)能夠在多臺計算機上進行并行計算,以提高吞吐量,而不是運行在一個超強大,超昂貴的單節(jié)點計算機上。VoltDB提供了NoSQL數據庫的可伸縮性和傳統(tǒng)關系數據庫系統(tǒng)的ACID一致性,不同NoSQL的key-value儲存,VoltDB能使用SQL存取,支持傳統(tǒng)數據庫的ACID模型。VoltDB通過SQL引擎把數據分發(fā)給集群服務器的每個CPU進行處理。每個單線程分區(qū)自主執(zhí)行,消除鎖定和閂鎖的需求。VoltDB可以通過簡單的在集群中增加附加節(jié)點的方式實現性能的線性增加。7、 簡述元搜索技術、數據空間以及跨媒體檢索的技術要點答:元搜索技術:元搜索功能一般由可三個子功能組成,即數據源連接、自動信息抽取、個性化與多樣化.數據源連接通過分析數據源的查詢接口,實現查詢請求的自動提交.自動信息抽取對數據源的返回結果以不同的數據粒度提取其中包含的有效數據.個性化與多樣化提供了用戶對數據源的個性化選擇并且借助多種類型的數據源為用戶帶來了多樣化的數據結果.數據空間:數據空間是由各種數據及其關聯共同組成的一個數據集合.與數據集成相比,數據空間更關注于數據間的相關性,即"先有數據,后有模式",其數據關聯更加靈活、松散、滯后.靈活體現在中間模式和模式映射不再固定不變數據空間功能主要由四個子功能共同構成,包括數據關聯、數據建模、PAYGO數據查詢以及索引技術.其中數據關聯是發(fā)現Web數據、數據模式間存在的各種關聯;數據建模將設計合適的數據模型使其有能力依據數據空間的原則描述Web數據及其各種聯系;PAYGO數據查詢則利用這種自增的數據關聯在數據模型中進行自增的數據查詢;索引技術根據PAYGO的查詢模式,預先建立索引提高查詢效率??缑襟w搜索:跨媒體檢索功能通常由四個子功能構成:語義關聯、語義建模、跨媒體檢索以及索引技術.語義關聯從多個層面發(fā)現媒體間語義上的相關性;借助語義建模描述媒體間語義距離;根據用戶提交的檢索對象,計算數據空間中數據與檢索對象間的語義相似度,進行跨媒體檢索;使用索引技術降低跨媒體檢索計算的時空開銷,提高檢索效率。8、 TwitterStorm,Yahoo!S4及RTMR(實時MapReduce)三個實時流處理方式的主要實現技術及性能分析答:1、TwitterStorm:主要實現技術:在Storm中也有對于流stream的抽象,流是一個不問斷的無界的連續(xù)tuple,注意Storm在建模事件流時,把流中的事件抽象為tuple即元組。Storm認為每個stream都有一個stream源,也就是原始元組的源頭,所以它將這個源頭抽象為spout,spout可能是連接twitterapi并不斷發(fā)出tweets,也可能是從某個隊列中不斷讀取隊列元素并裝配為tuple發(fā)射。有了源頭即spout也就是有了stream,那么該如何處理stream內的tuple呢,同樣的思想twitter將流的中間狀態(tài)轉換抽象為Bolt,bolt可以消費任意數量的輸入流,只要將流方向導向該bolt,同時它也可以發(fā)送新的流給其他bolt使用,這樣一來,只要打開特定的spout(管口)再將spout中流出的tuple導向特定的bolt,又bolt對導入的流做處理后再導向其他bolt或者目的地。性能:1) 使用場景廣泛:storm可以用來處理消息和更新數據庫(消息流處理),對一個數據量進行持續(xù)的查詢并返回客戶端(持續(xù)計算),對一個耗資源的查詢作實時并行化的處理(分布式方法調用),storm的這些基礎原語可以滿足大量的場景。2) 可伸縮性高::Storm的可伸縮性可以讓storm每秒可以處理的消息量達到很高3) 保證無數據丟失;實時系統(tǒng)必須保證所有的數據被成功的處理。那些會丟失數據的系統(tǒng)的適用場景非常窄,而storm保證每一條消息都會被處理,這一點和s4相比有巨大的反差。4) 異常健壯:storm集群非常容易管理。5) 容錯性好:如果在消息處理過程中出了一些異常,storm會重新安排這個出問題的處理邏輯。storm保證一個處理邏輯永遠運行,除非你顯式殺掉這個處理邏輯。6) 語音無關性:健壯性和可伸縮性不應該局限于一個平臺。Storm的topology和消息處理組件可以用任何語言來定義,這一點使得任何人都可以使用storm。2、Yahoo!S4:主要實現技術:1) 為了能在普通機型構成的集群上進行分布式處理,并且集群內部不使用共享內存,S4架構采用了Actor模式,這種模式提供了封裝和地址透明語義,因此在允許應用大規(guī)模并發(fā)的同時,也提供了簡單的編程接口。S4系統(tǒng)通過處理單元(ProcessingElements,PEs)進行計算,消息在處理單元間以數據事件的形式傳送,PE消費事件,發(fā)出一個或多個可能被其他PE處理的事件,或者直接發(fā)布結果。每個PE的狀態(tài)對于其他PE不可見,PE之間唯一的交互模式就是發(fā)出事件和消費事件。框架提供了路由事件到合適的PE和創(chuàng)建新PE實例的功能。S4的設計模式符合封裝和地址透明的特性。2) 除了遵循Actor模式,S4也參照了MapReduce模式。為了簡化部署和運維,從而達到更好地穩(wěn)定性和擴展性,S4采用了對等架構,集群中的所有處理節(jié)點都是等同的,沒有中心控制。這種架構將使得集群的擴展性很好,處理節(jié)點的總數理論上無上限;同時,S4將沒有單點容錯的問題。3) S4系統(tǒng)使用Java開發(fā),采用了極富層次的模塊化編程,每個通用功能點都盡量抽象出來作為通用模塊,而且盡可能讓各模塊實現可定制化。4) 基于Zookeeper服務的集群管理層將會自動路由事件從失效節(jié)點到其他節(jié)點。除非顯式保存到持久性存儲,否則節(jié)點故障時,節(jié)點上處理事件的狀態(tài)會丟失。5) 節(jié)點間通信采用“PlainOldJavaObjeCPOJOs)模式,應用開發(fā)者不需要寫Schemas或用哈希表來在節(jié)點間發(fā)送Tupleso性能:S4是面向流式數據和實時處理的,所以針對實時性較高的業(yè)務,可以很好地對數據做出高效的分析處理,而且系統(tǒng)一旦上線,很少需要人工干預,源源不斷的數據流會被自動路由并分析。對于海量數據,它和MapReduce類似都可以應對,但它能比后者更快地處理數據。S4目前的缺點在于它的數據傳輸可靠性還不夠,可能丟失數據,同時由于數據存放在內存中,一旦節(jié)點出現故障,就會丟失該節(jié)點的所有數據,這一點可以通過定期持久化來彌補(但是真的有必要嗎?】同時我認為這和它面向的場景也有關系,實時數據分析通常都是針對一些非常離散、細小的數據,從統(tǒng)計的角度來看,損失掉一部分數據對最后的統(tǒng)計結果并沒有很大影響,而這部分犧牲卻可以換來吞吐率的大幅提升。所以就目前來看,S4還是更適合對那些不一定非得對每條數據都仔細分析的場景,只求最后一個統(tǒng)計的結果來對業(yè)務做出相應的預計和調整。此外S4系統(tǒng)要求輸入的是事件流,這就涉及到事件的生成,所以在數據流入S4以前,必須有能將數據轉化為事件的系統(tǒng)進行中間處理。從集群的擴展性來看,理論上可以通過增加節(jié)點應對更大的數據流,但是目前還無法在S4工作時動態(tài)增加或減少節(jié)點。所以對節(jié)點進行調整時很可能必須停下當前的工作,做不到無縫調整。而且由于S4由ZooKeeper進行集群管理,所以當集群增加到一定規(guī)模時,ZooKeeper的管理能力也有待考驗。此外,仍然是因為S4無法保證數據100%的可靠傳輸,所以集群規(guī)模增長時,數據錯誤也會增長得很快。目前沒有相關資料顯示S4集群的規(guī)模究竟可以做到多大,但是相信未來隨著數據傳輸可靠性的提升,會發(fā)揮很可觀的作用。在業(yè)務耦合度方面,S4完全隔離了平臺和業(yè)務邏輯,業(yè)務方只需要編寫PE邏輯即可,這一點類似于MapReduce中只需編寫map和reduce函數,業(yè)務和平臺的耦合度是非常低的。3、RTMR:主要技術:MapReduce本身源自于函數式語言,主要通過Map(映射)和Reduce(化簡)這兩個步驟來并行處理大規(guī)模的數據集。首先,Map會先對由很多獨立元素組成的邏輯列表中的每一個元素進行指定的操作,且原始列表不會被更改,會創(chuàng)建多個新的列表來保存Map的處理結果。也就意味著,Map操作是高度并行的。當Map工作完成之后,系統(tǒng)會接著對新生成的多個列表進行清理(Shuffle)和排序,之后,會這些新創(chuàng)建的列表進行Reduce操作,也就是對一個列表中的元素根據Key值進行適當的合并。性能:談到MapReduce的優(yōu)點,主要有兩個方面:其一,通過MapReduce這個分布式處理框架,不僅能用于處理大規(guī)模數據,而且能將很多繁瑣的細節(jié)隱藏起來,比如,自動并行化、負載均衡和災備管理等,這樣將極大地簡化程序員的開發(fā)工作;其二,MapReduce的伸縮性非常好,也就是說,每增加一臺服務器,其就能將差不多的計算能力接入到集群中,而過去的大多數分布式處理框架,在伸縮性方面都與MapReduce相差甚遠。而MapReduce最大的不足則在于,其不適應實時應用的需求,所以在Google最新的實時性很強的Caffeine搜索引擎中,MapReduce的主導地位巳經被可用于實時處理Percolator系統(tǒng)所代替。9、 要實現知識(智能數據)管理需要在傳統(tǒng)數據管理基礎上擴展哪些功能?答:知識管理就是對組織的各種來源的知識內容進行處理,實現知識的生產、共享、應用以及創(chuàng)新,從而產生價值并形成知識優(yōu)勢?;谡Z義網的知識管理基本框架在該體系結構中,本體知識庫是最核心的部分,它是實現知識的共享、重用(知識的訪問)和對組織知識進行維護的基礎。因此,構建基于本體的知識庫將成為整個知識管理活動中最關鍵的任務。通常有兩種途徑來構建組織的本體知識庫[6]:一是運用本體描述語言對來自組織內、外部的基于元數據的知識進行表示,然后存儲在本體知識庫中,一般通過這種途徑來擴大組織本體知識庫的容量;二是知識工作者直接通過本體編輯器實現對本體知識庫的修改,該途徑一般涉及到智能推理和維護等高級活動。一旦構建好了本體知識庫,就可實現語義層上的知識訪問。10、 普適數

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論