版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
AnIntroductiontoDatabaseSystem數(shù)據(jù)庫系統(tǒng)概論AnIntroductiontoDatabaseSystem大數(shù)據(jù)管理引言2014年,馬云在一次演講中說道:“人類正從IT時(shí)代走向DT時(shí)代”。DT時(shí)代,推動世界前進(jìn)的動力是大數(shù)據(jù)+大算力,我們在前進(jìn)動力上領(lǐng)先全球。海量的數(shù)據(jù)+5G物聯(lián)網(wǎng)+芯片技術(shù)我們正進(jìn)入DT時(shí)代,千真萬確。AnIntroductiontoDatabaseSystem大數(shù)據(jù)管理14.1大數(shù)據(jù)概述14.2大數(shù)據(jù)的應(yīng)用14.3大數(shù)據(jù)管理系統(tǒng)14.4小結(jié)AnIntroductiontoDatabaseSystem14.1大數(shù)據(jù)概述14.1.1什么是大數(shù)據(jù)14.1.2大數(shù)據(jù)的特征AnIntroductiontoDatabaseSystem14.1.1什么是大數(shù)據(jù)超大規(guī)模數(shù)據(jù)庫(VeryLargeDatabase,VLDB)是20世紀(jì)70年代中期出現(xiàn)的詞數(shù)據(jù)庫中管理的數(shù)據(jù)集有數(shù)百萬條記錄就是超大規(guī)模實(shí)現(xiàn)技術(shù)DBMS相關(guān)理論與技術(shù)三級模式、數(shù)據(jù)獨(dú)立性的思想(增加了DBMS的適應(yīng)性和應(yīng)用系統(tǒng)的穩(wěn)定性)、RDBMS-SQL語言、基于代價(jià)的優(yōu)化技術(shù),事務(wù)管理與故障恢復(fù)技術(shù)等。關(guān)系數(shù)據(jù)理論促進(jìn)了以O(shè)LTP和OLAP為標(biāo)志的商務(wù)管理與商務(wù)智能應(yīng)用的發(fā)展。其技術(shù)精華和成功經(jīng)驗(yàn)為今天大數(shù)據(jù)管理和分析奠定了基礎(chǔ)。AnIntroductiontoDatabaseSystem14.1.1什么是大數(shù)據(jù)海量數(shù)據(jù)是21世紀(jì)初出現(xiàn)的詞用來描述更大的數(shù)據(jù)集以及更加豐富的數(shù)據(jù)類型。為了應(yīng)對“海量數(shù)據(jù)”的挑戰(zhàn),研究了半結(jié)構(gòu)化數(shù)據(jù)和各種非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)模型及對它們的有效管理、多數(shù)據(jù)源的集成問題等。大數(shù)據(jù)并不是當(dāng)前時(shí)代所獨(dú)有的特征,而是伴隨著人類社會的發(fā)展以及人類科技平的提高而不斷發(fā)展演化的。AnIntroductiontoDatabaseSystem大數(shù)據(jù)的定義2008年9月,《Science》發(fā)表了一篇文章“BigData:ScienceinthePetabyteEra”數(shù)據(jù)規(guī)模超出了當(dāng)時(shí)的計(jì)算機(jī)存儲和處理技術(shù)水平,需要更加先進(jìn)的技術(shù),才能有效地存儲、管理和處理它們定義一般意義上,大數(shù)據(jù)是指無法在可容忍的時(shí)間內(nèi)用現(xiàn)有IT技術(shù)和軟硬件工具對其進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合。還有專家給出的定義是,大數(shù)據(jù)通常被認(rèn)為是PB(103TB)或EB(1EB=106TB)或更高數(shù)量級的數(shù)據(jù),包括結(jié)構(gòu)化的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。其規(guī)模或復(fù)雜程度超出了傳統(tǒng)數(shù)據(jù)庫和軟件技術(shù)所能管理和處理的數(shù)據(jù)集范圍。AnIntroductiontoDatabaseSystem大數(shù)據(jù)的分類按大數(shù)據(jù)的應(yīng)用類型將大數(shù)據(jù)分為海量交易數(shù)據(jù)(企業(yè)OLTP應(yīng)用)數(shù)據(jù)海量、讀寫操作比較簡單、訪問和更新頻繁、一次交易的數(shù)據(jù)量不大,但要求支持事務(wù)ACID特性,對數(shù)據(jù)的完整性及安全性要求高,必須保證強(qiáng)一致性。海量交互數(shù)據(jù)(社交網(wǎng)、傳感器、GPS、Web信息)類型多樣異構(gòu)、不完備、噪音大、數(shù)據(jù)增長快,不要求具有強(qiáng)一致性。實(shí)時(shí)交互性強(qiáng),但不要求支持事務(wù)特性。海量處理數(shù)據(jù)(企業(yè)OLAP應(yīng)用)面向海量數(shù)據(jù)分析,計(jì)算復(fù)雜,往往涉及多次迭代完成,追求數(shù)據(jù)分析的高效率,但不要求支持事務(wù)特性。其數(shù)據(jù)的特點(diǎn)是同構(gòu)性(如關(guān)系、文本、列模式數(shù)據(jù))和較好的穩(wěn)定性(不存在頻繁的更新操作)。典型的應(yīng)用是采用并行與分布處理框架實(shí)現(xiàn)。AnIntroductiontoDatabaseSystem大數(shù)據(jù)的分類有些專家將網(wǎng)絡(luò)空間(cyberspace)中各類應(yīng)用引發(fā)的大數(shù)據(jù)稱為網(wǎng)絡(luò)大數(shù)據(jù)。按數(shù)據(jù)類型分為自媒體數(shù)據(jù)日志數(shù)據(jù)富媒體數(shù)據(jù)AnIntroductiontoDatabaseSystem14.1.2大數(shù)據(jù)的特征巨量(Volume)多樣(Variety)快變(Velocity)價(jià)值(Value)AnIntroductiontoDatabaseSystem巨量(Volume)大數(shù)據(jù)的首要特征數(shù)據(jù)量巨大,而且在持續(xù)、急劇地膨脹大規(guī)模數(shù)據(jù)的幾個(gè)主要來源如下:(1)科學(xué)研究(天文學(xué)、生物學(xué)、高能物理等)、計(jì)算機(jī)仿真領(lǐng)域。(2)互聯(lián)網(wǎng)應(yīng)用、電子商務(wù)領(lǐng)域。(3)傳感器數(shù)據(jù)(sensordata)。(4)網(wǎng)站點(diǎn)擊流數(shù)據(jù)(clickstreamdata)。(5)移動設(shè)備數(shù)據(jù)(mobiledevicedata)。(6)無線射頻識別數(shù)據(jù)(RFIDData)(7)傳統(tǒng)的DB和DW所管理的結(jié)構(gòu)化數(shù)據(jù)。AnIntroductiontoDatabaseSystem巨量(Volume)觀點(diǎn):大是相對的,是和當(dāng)時(shí)的計(jì)算機(jī)處理能力相關(guān)的,超過了現(xiàn)有技術(shù)的能力。但是,“大規(guī)?!庇质谴髷?shù)據(jù)的基本要求。80年代,百萬條記錄就是VERYLARGEDATA00年代,TB級別就是DATAINTENSIVE10年代,100T以上,甚至PB級才能夠算得上是大數(shù)據(jù)從現(xiàn)在起,每18個(gè)月,新增的存儲量等于有史以來存儲量之和?。?998年圖靈獎獲得者JimGray)應(yīng)對大數(shù)據(jù)的措施設(shè)計(jì)新的計(jì)算機(jī)硬件以及新的系統(tǒng)架構(gòu)設(shè)計(jì)新硬件下的存儲子系統(tǒng)。存儲子系統(tǒng)的改變將影響數(shù)據(jù)管理和數(shù)據(jù)處理的各個(gè)方面,包括數(shù)據(jù)分布、數(shù)據(jù)復(fù)制、負(fù)載平衡、查詢算法、查詢調(diào)度、一致性控制、并發(fā)控制和恢復(fù)方法,等等。AnIntroductiontoDatabaseSystem多樣(Variety)數(shù)據(jù)的多樣性通常是指異構(gòu)的數(shù)據(jù)類型、不同的數(shù)據(jù)表示和語義解釋。純粹的關(guān)系數(shù)據(jù)結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù),如文本、圖形、圖像、音頻、視頻、網(wǎng)頁、推特和博客(blogs)等。針對半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的高效表達(dá)、存取和分析技術(shù),需要大量的基礎(chǔ)研究。對異構(gòu)海量數(shù)據(jù)的組織、分析、檢索、管理和建模是基礎(chǔ)性的挑戰(zhàn)。對非結(jié)構(gòu)化數(shù)據(jù)的分析在許多應(yīng)用中成為一個(gè)顯著的瓶頸。例如,圖像和視頻數(shù)據(jù)雖具有存儲和播放結(jié)構(gòu),但這種結(jié)構(gòu)不適合進(jìn)行上下文語義分析和搜索。傳統(tǒng)的數(shù)據(jù)分析算法在處理同構(gòu)數(shù)據(jù)方面比較成熟,是否將各種類型的數(shù)據(jù)內(nèi)容轉(zhuǎn)化為同構(gòu)的格式以供日后分析?此外,考慮到當(dāng)今大多數(shù)數(shù)據(jù)是直接以數(shù)字格式生成的,是否可以干預(yù)數(shù)據(jù)的產(chǎn)生過程以方便日后的數(shù)據(jù)分析?在數(shù)據(jù)分析之前還要對數(shù)據(jù)進(jìn)行清洗和糾錯(cuò),還必須對缺失和錯(cuò)誤數(shù)據(jù)進(jìn)行處理等。AnIntroductiontoDatabaseSystem快變(Velocity)快變性也稱為實(shí)時(shí)性一方面指數(shù)據(jù)到達(dá)的速度很快。另一方面指能夠進(jìn)行處理的時(shí)間很短,或者要求響應(yīng)速度很快,即實(shí)時(shí)響應(yīng)。許多大數(shù)據(jù)往往以數(shù)據(jù)流的形式動態(tài)、快速地產(chǎn)生和演變,具有很強(qiáng)的時(shí)效性,要想立即得到分析結(jié)果,對流數(shù)據(jù)的采集、過濾、存儲和利用需要充分考慮和掌控它們的快變性。例如,在進(jìn)行信用卡交易時(shí),如果懷疑該信用卡涉嫌欺詐,應(yīng)該在交易完成之前做出判斷,以防止非法交易的產(chǎn)生。這就要求系統(tǒng)具有極強(qiáng)的處理能力和妥當(dāng)?shù)奶幚聿呗?。事先對歷史交易數(shù)據(jù)進(jìn)行分析和預(yù)計(jì)算,再結(jié)合新數(shù)據(jù)進(jìn)行少量的增量計(jì)算便可迅速做出判斷。對于大數(shù)據(jù)上的實(shí)時(shí)分析處理,大數(shù)據(jù)查詢和分析中的優(yōu)化技術(shù)具有極大的挑戰(zhàn)性,需要借鑒傳統(tǒng)數(shù)據(jù)庫中非常成功的查詢優(yōu)化技術(shù)以及索引技術(shù)等。AnIntroductiontoDatabaseSystem價(jià)值(Value)大數(shù)據(jù)的價(jià)值是潛在的、巨大的。數(shù)據(jù)就是資源,數(shù)據(jù)就是財(cái)富。大數(shù)據(jù)價(jià)值的潛在性,是指數(shù)據(jù)蘊(yùn)含的巨大價(jià)值只有通過對大數(shù)據(jù)以及數(shù)據(jù)之間蘊(yùn)含的聯(lián)系進(jìn)行復(fù)雜的分析、反復(fù)深入的挖掘才能獲得。巨大潛力和目標(biāo)實(shí)現(xiàn)之間還存在著巨大的鴻溝。大數(shù)據(jù)規(guī)模巨大、異構(gòu)多樣、快變復(fù)雜,隱私等自身的問題,以及數(shù)據(jù)孤島、信息私有、缺乏共享的客觀現(xiàn)實(shí)都阻礙了數(shù)據(jù)價(jià)值的創(chuàng)造。大數(shù)據(jù)具有巨大的經(jīng)濟(jì)價(jià)值和產(chǎn)業(yè)價(jià)值已經(jīng)開始顯現(xiàn)。AnIntroductiontoDatabaseSystem價(jià)值(Value)大數(shù)據(jù)研究的科學(xué)價(jià)值數(shù)據(jù)科學(xué)是以大數(shù)據(jù)為研究對象,橫跨信息科學(xué)、社會科學(xué)、網(wǎng)絡(luò)科學(xué)、系統(tǒng)科學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)等諸多領(lǐng)域的新興交叉學(xué)科。大數(shù)據(jù)的研究方式(2007年1月11日J(rèn)amesGray在加州山景城召開的NRC-CSTB上的演講提出)幾千年前的實(shí)驗(yàn)科學(xué)(第一范式)以模型和歸納為特征的理論科學(xué)(第二范式)幾十年來以模擬仿真為特征的計(jì)算科學(xué)(第三范式大數(shù)據(jù)研究的第四范式(thefourthparadigm)數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(dataintensivescientificdiscovery)科研第四范式將不僅是研究方式的轉(zhuǎn)變,也是人們思維方式的大變化。AnIntroductiontoDatabaseSystem14.2大數(shù)據(jù)的應(yīng)用案例14.2.1感知現(xiàn)在預(yù)測未來——互聯(lián)網(wǎng)文本大數(shù)據(jù)管理與挖掘14.2.2數(shù)據(jù)服務(wù)實(shí)時(shí)推薦——基于大數(shù)據(jù)分析的用戶建模AnIntroductiontoDatabaseSystem14.2.1感知現(xiàn)在預(yù)測未來——互聯(lián)網(wǎng)文本大數(shù)據(jù)管理與挖掘互聯(lián)網(wǎng)媒體又稱網(wǎng)絡(luò)媒體、第四媒體,是以互聯(lián)網(wǎng)為傳輸平臺,以計(jì)算機(jī)、移動電話、便攜設(shè)備等為終端,以文字、聲音、圖像等形式來傳播新聞信息的一種數(shù)字化、多媒體的傳播媒介。如何處理和分析互聯(lián)網(wǎng)媒體大數(shù)據(jù),幫助人們在海量數(shù)據(jù)中獲取及分析真實(shí)有價(jià)值的信息,從而正確感知現(xiàn)在,迅速預(yù)測未來,做好應(yīng)急事件的預(yù)案和防范是一個(gè)具有重大價(jià)值并且亟待解決的研究問題。1.互聯(lián)網(wǎng)媒體文本大數(shù)據(jù)應(yīng)用:時(shí)事探針2.互聯(lián)網(wǎng)文本大數(shù)據(jù)管理的挑戰(zhàn)3.互聯(lián)網(wǎng)文本大數(shù)據(jù)管理系統(tǒng)AnIntroductiontoDatabaseSystem時(shí)事探針系統(tǒng)時(shí)事探針系統(tǒng)是中國人民大學(xué)研制開發(fā)的一個(gè)互聯(lián)網(wǎng)輿情分析系統(tǒng)。該系統(tǒng)可以實(shí)時(shí)監(jiān)控、收集互聯(lián)網(wǎng)媒體數(shù)據(jù),并對數(shù)據(jù)進(jìn)行深入的挖掘和分析??梢杂行У貛椭脩簟⑵髽I(yè)以及政府機(jī)構(gòu)對所關(guān)注的新聞話題在互聯(lián)網(wǎng)媒體中的報(bào)道進(jìn)行感知、獲取、跟蹤、預(yù)警和深入分析,具有極大的應(yīng)用價(jià)值。其主要功能包括動態(tài)數(shù)據(jù)抓取、歷史數(shù)據(jù)保留、數(shù)據(jù)深度智能分析、數(shù)據(jù)可視化展示、敏感信息實(shí)時(shí)捕捉、預(yù)定閾值報(bào)警等。AnIntroductiontoDatabaseSystem時(shí)事探針系統(tǒng)“高考”話題進(jìn)行分析圖14.1顯示,媒體對于高考這一話題整體關(guān)注度較高,從2014年5月份開始,隨著高考的臨近,報(bào)道量持續(xù)增加。AnIntroductiontoDatabaseSystem時(shí)事探針系統(tǒng)“高考”熱議話題的多維分析圖14.2展示了對“高考”熱議話題的多維分析。該圖顯示了與“高考”有關(guān)的主要人物、主要相關(guān)地點(diǎn)、主要相關(guān)機(jī)構(gòu)、相關(guān)話題AnIntroductiontoDatabaseSystem時(shí)事探針多維度交叉分析圖14.3顯示了有關(guān)該“英語退出高考”話題的正面報(bào)道、負(fù)面報(bào)道和中性報(bào)道的分布情況。相關(guān)報(bào)道集中在5月19日左右,熱門人物是顧明遠(yuǎn),討論最多的地點(diǎn)為上海和北京,核心報(bào)道內(nèi)容為顧明遠(yuǎn)和教育部否認(rèn)“英語退出高考”。AnIntroductiontoDatabaseSystem2.互聯(lián)網(wǎng)文本大數(shù)據(jù)管理的挑戰(zhàn)挑戰(zhàn)首先,文本數(shù)據(jù)中的主題開放多樣且無直接關(guān)聯(lián),無法事先預(yù)定義關(guān)系模式和值域。其次,文本大數(shù)據(jù)一般由自然語言生成,沒有確定的結(jié)構(gòu),無法直接用關(guān)系型數(shù)據(jù)進(jìn)行存儲和查詢。最后,互聯(lián)網(wǎng)上的數(shù)據(jù)量巨大、變化速度快,對數(shù)據(jù)管理系統(tǒng)的可擴(kuò)展性和實(shí)時(shí)性提出了很高的要求?,F(xiàn)狀對于文本大數(shù)據(jù)處理,目前廣泛使用的互聯(lián)網(wǎng)搜索引擎(包括新聞搜索引擎)只是對文本數(shù)據(jù)的簡單索引和查找,不能滿足用戶對所關(guān)注的話題進(jìn)行實(shí)時(shí)監(jiān)測、深入分析以及決策支持等需求。AnIntroductiontoDatabaseSystem3.互聯(lián)網(wǎng)文本大數(shù)據(jù)管理系統(tǒng)互聯(lián)網(wǎng)文本大數(shù)據(jù)管理的特點(diǎn)如下:(1)蘊(yùn)含著豐富的社會信息,可以看作是對真實(shí)社會的網(wǎng)絡(luò)映射。(2)通過實(shí)時(shí)、深入分析能幫助人們在海量數(shù)據(jù)中獲取有價(jià)值的信息,發(fā)現(xiàn)蘊(yùn)含的規(guī)律,可以更好地感知現(xiàn)在、預(yù)測未來,體現(xiàn)了第四范式數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)的研究方式和思維方式。(3)對大數(shù)據(jù)系統(tǒng)和技術(shù)的挑戰(zhàn)是全面的、跨學(xué)科跨領(lǐng)域的,需要創(chuàng)新,也要繼承傳統(tǒng)數(shù)據(jù)管理技術(shù)和數(shù)據(jù)倉庫分析技術(shù)的精華。設(shè)計(jì)策略需要參考并融合傳統(tǒng)信息檢索系統(tǒng)、數(shù)據(jù)庫系統(tǒng)以及數(shù)據(jù)分析系統(tǒng)(如數(shù)據(jù)倉庫和OLAP)的特長和技術(shù)來設(shè)計(jì)數(shù)據(jù)處理的模型、存儲、索引、查詢等機(jī)制。同時(shí),需要吸收和借鑒分布式大數(shù)據(jù)處理系統(tǒng)(如Hadoop和NoSQL系統(tǒng))的設(shè)計(jì)和經(jīng)驗(yàn)以滿足可擴(kuò)展性和實(shí)時(shí)性的需求,。AnIntroductiontoDatabaseSystem時(shí)事探針系統(tǒng)結(jié)構(gòu)AnIntroductiontoDatabaseSystem時(shí)事探針系統(tǒng)核心設(shè)計(jì)理念通用的管理和分析平臺使用信息檢索技術(shù)對無結(jié)構(gòu)的互聯(lián)網(wǎng)文本數(shù)據(jù)進(jìn)行索引以滿足用戶查找相關(guān)新聞的需求;同時(shí),對相關(guān)文檔中包含的關(guān)鍵信息進(jìn)行挖掘和抽取以生成結(jié)構(gòu)化數(shù)據(jù),并對這些數(shù)據(jù)進(jìn)行匯總和分析,以輔助用戶對報(bào)道中包含的高階知識進(jìn)行理解。整個(gè)系統(tǒng)分為離線處理和在線處理兩個(gè)部分,其中離線部分是設(shè)計(jì)的重點(diǎn)。AnIntroductiontoDatabaseSystem時(shí)事探針系統(tǒng)-功能(1)多源異構(gòu)網(wǎng)絡(luò)大數(shù)據(jù)的感知和獲取(2)文檔理解及結(jié)構(gòu)化數(shù)據(jù)集成和抽取(3)數(shù)據(jù)存儲和索引(4)離線主題文本立方體建立及更新AnIntroductiontoDatabaseSystem(1)多源異構(gòu)網(wǎng)絡(luò)大數(shù)據(jù)的感知和獲取由于互聯(lián)網(wǎng)內(nèi)在的分布性和自組織性,數(shù)據(jù)的感知和獲取是網(wǎng)絡(luò)大數(shù)據(jù)處理非常重要的第一步。和傳統(tǒng)搜索引擎一樣,使用網(wǎng)絡(luò)爬蟲對互聯(lián)網(wǎng)媒體網(wǎng)站內(nèi)容進(jìn)行抓取并存儲到原始文檔庫中。主要挑戰(zhàn)如何針對給定的主題實(shí)時(shí)智能地收集相關(guān)的網(wǎng)絡(luò)數(shù)據(jù),從而為后續(xù)的處理提供準(zhǔn)確豐富的數(shù)據(jù)來源。AnIntroductiontoDatabaseSystem(2)文檔理解及結(jié)構(gòu)化數(shù)據(jù)集成和抽取數(shù)據(jù)集成和抽取是指將在多個(gè)數(shù)據(jù)源中以不同的形式表示同一個(gè)實(shí)體或概念的缺乏統(tǒng)一結(jié)構(gòu)、質(zhì)量良莠不齊、“大而低質(zhì)量”的無結(jié)構(gòu)數(shù)據(jù)進(jìn)行深入分析,采用相應(yīng)數(shù)據(jù)抽取技術(shù)從中挖掘出高質(zhì)量的結(jié)構(gòu)化信息的過程。數(shù)據(jù)集成和抽取技術(shù),具體包括文檔編碼檢測及HTML文本轉(zhuǎn)換、文檔語言(如中文、日文或者英文)檢測、正文及相關(guān)屬性(標(biāo)題、時(shí)間、作者、主要圖片等)抽取、文檔內(nèi)容段落及句子切分、文本分詞、命名實(shí)體(時(shí)間、地點(diǎn)、人物、機(jī)構(gòu)等)識別、動詞專有名詞抽取、情感分析、話題檢測、知識庫實(shí)體匹配及消歧、事件檢測及抽取等。AnIntroductiontoDatabaseSystem(3)數(shù)據(jù)存儲和索引原始文檔庫主要用于保存抓取下來的原始網(wǎng)頁。原始文檔庫上主要進(jìn)行文檔的寫入和讀取,無刪除操作,并發(fā)計(jì)算和查詢的需求不大,可直接使用關(guān)系型數(shù)據(jù)庫或者NoSQL數(shù)據(jù)庫。由于原始文檔庫中的文檔在寫入時(shí)一般按照時(shí)間順序?qū)懭?,在對原始文檔庫中的文檔進(jìn)行處理時(shí),也一般按照時(shí)間順序進(jìn)行,因此需要對文檔抓取時(shí)間進(jìn)行索引。結(jié)構(gòu)化文檔庫主要存儲對文檔進(jìn)行深入理解后所抽取的信息,包括文檔標(biāo)題、文檔正文、文檔時(shí)間、文檔作者、主要圖片等文檔級別的信息,也包括句子級別的信息,如句子文本、情感值、句子所包含的命名實(shí)體、關(guān)鍵詞等。AnIntroductiontoDatabaseSystem(3)數(shù)據(jù)存儲和索引增加部分?jǐn)?shù)據(jù)冗余來降低交叉查詢的代價(jià),提高數(shù)據(jù)查詢的效率例如,冗余存儲“文檔正文”和句子中的“句子文本”。在傳統(tǒng)的關(guān)系數(shù)據(jù)庫中,關(guān)系一般遵循范式的要求以盡可能地節(jié)省存儲空間并保證數(shù)據(jù)一致性。互聯(lián)網(wǎng)文本數(shù)據(jù)量巨大,若嚴(yán)格按照范式的要求進(jìn)行設(shè)計(jì),查詢時(shí)可能需要大量的連接(join)操作和隨機(jī)讀取,寫入時(shí)也可能需要在多個(gè)表上進(jìn)行査找和加鎖,導(dǎo)致大大降低系統(tǒng)性能。結(jié)構(gòu)化文檔庫上盡量減少讀寫鎖并采用較低的事務(wù)隔離級別在結(jié)構(gòu)化文檔庫上會有大量的并發(fā)讀寫和查詢操作。針對互聯(lián)網(wǎng)文本數(shù)據(jù)的特點(diǎn),對數(shù)據(jù)一致性和完整性的要求可適當(dāng)放寬。在一定程度上能夠容忍丟失更新、不可重復(fù)讀和讀“臟”數(shù)據(jù)等不一致性問題。AnIntroductiontoDatabaseSystem(4)離線主題文本立方體建立及更新文本立方體對特定主題建立的多維度數(shù)據(jù)立方體,是時(shí)事探針系統(tǒng)的主要分析模型。和傳統(tǒng)的RDW上建立的單個(gè)數(shù)據(jù)立方體不同,系統(tǒng)中每個(gè)主題都可以建立一個(gè)對應(yīng)的文本立方體以對該主題進(jìn)行分析操作。文本立方體可根據(jù)用戶查詢在匹配的所有文檔上對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行高效并行統(tǒng)計(jì)而建立。每個(gè)維度中的項(xiàng)由所有文檔中出現(xiàn)的實(shí)例構(gòu)成。和傳統(tǒng)的數(shù)據(jù)立方體不同,在文本立方體中不具有直接的度量值可以使用。如時(shí)事探針系統(tǒng)通過比較文檔(記錄)和維度值的緊密程度來計(jì)算度量值。對于相關(guān)人物A,考慮A在文檔D中出現(xiàn)的次數(shù)、位置、所在句子的長短等特征,并同時(shí)考慮報(bào)道的來源來計(jì)算A在D中的度量值。在線處理部分負(fù)責(zé)接收用戶查詢,檢索相關(guān)文檔及文本立方體并返回給用戶。其主要模塊包括關(guān)鍵詞分詞、倒排表文檔匹配及排序、文本立方體生成及緩存、文檔及文本立方體展示及交互等。AnIntroductiontoDatabaseSystem14.2.2數(shù)據(jù)服務(wù)實(shí)時(shí)推薦—基于大數(shù)據(jù)分析的用戶建?;诖髷?shù)據(jù)分析的用戶建模是指面向大眾的信息服務(wù)類應(yīng)用在為用戶提供信息服務(wù)的同時(shí),依托龐大的用戶群,通過用戶原創(chuàng)內(nèi)容(UserGeneratedContent,UGC)或者系統(tǒng)日志等方式不斷地收集數(shù)據(jù),利用這些與用戶的行為緊密相關(guān)的數(shù)據(jù)來分析用戶的興趣特征,創(chuàng)建用戶的描述文件(userprofile)。用戶建模的目標(biāo)是為了準(zhǔn)確把握用戶的行為特征、興趣愛好等,進(jìn)而較為精準(zhǔn)地向用戶提供個(gè)性化的信息服務(wù)或信息推薦?;ヂ?lián)網(wǎng)網(wǎng)站通過對用戶點(diǎn)擊日志的分析,識別用戶的偏好,以支持個(gè)性化的頁面布局、進(jìn)行精準(zhǔn)的廣告投放等;電信行業(yè)通過對用戶消費(fèi)信息、當(dāng)前位置、使用習(xí)慣等數(shù)據(jù)的分析,為用戶及時(shí)推薦符合用戶需求的服務(wù)、產(chǎn)品、內(nèi)容等。AnIntroductiontoDatabaseSystem基于大數(shù)據(jù)分析的用戶建模1.面向用戶建模的大數(shù)據(jù)系統(tǒng)架構(gòu)2.數(shù)據(jù)分析:用戶建模的基礎(chǔ)工具3.數(shù)據(jù)服務(wù):用戶建模的價(jià)值體現(xiàn)AnIntroductiontoDatabaseSystem1.面向用戶建模的大數(shù)據(jù)系統(tǒng)架構(gòu)在大數(shù)據(jù)采集和存儲的基礎(chǔ)上,使用在線分析和離線分析兩類技術(shù),從大數(shù)據(jù)中發(fā)現(xiàn)用戶的興趣屬性,構(gòu)建動態(tài)的用戶興趣模型,以數(shù)據(jù)服務(wù)的方式管理和維護(hù)用戶興趣模型中的數(shù)據(jù),支持上層的信息推薦等各種各樣的應(yīng)用。這類系統(tǒng)中數(shù)據(jù)分析和數(shù)據(jù)服務(wù)構(gòu)成了大數(shù)據(jù)系統(tǒng)的兩類典型的負(fù)載。AnIntroductiontoDatabaseSystem2.數(shù)據(jù)分析:用戶建模的基礎(chǔ)工具靜態(tài)的用戶建模方法系統(tǒng)在構(gòu)建之初就定義好了用戶興趣模型所包含的屬性維度。被傳統(tǒng)的信息服務(wù)類應(yīng)用廣泛采用。動態(tài)的用戶建模方法從用戶行為相關(guān)的實(shí)時(shí)大數(shù)據(jù)中使用數(shù)據(jù)分析和挖掘技術(shù),得到能夠反映用戶興趣和其變化的動態(tài)用戶興趣模型。動態(tài)性不僅包含屬性值的變化,還包含用戶興趣模型中屬性類型、屬性數(shù)量的變化。依賴大數(shù)據(jù)的用戶建模方法通常會為每個(gè)用戶生成高維度的興趣屬性向量,維度可以達(dá)到數(shù)百甚至數(shù)千以上??梢暂^為細(xì)致和深入地刻畫用戶在眾多方面的興趣屬性。針對不同屬性,系統(tǒng)會運(yùn)行很多不同的用戶建模任務(wù),一個(gè)用戶建模任務(wù)為用戶或用戶群生成一部分屬性值。AnIntroductiontoDatabaseSystem2.數(shù)據(jù)分析:用戶建模的基礎(chǔ)工具用戶興趣建模方法-離線分析對結(jié)構(gòu)化或半結(jié)構(gòu)化的歷史日志數(shù)據(jù)進(jìn)行SQL分析或者使用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的深度分析方法。特點(diǎn)數(shù)據(jù)量大、分析復(fù)雜度高、處理代價(jià)巨大,不能夠頻繁調(diào)用。適合于分析那些通過大規(guī)模數(shù)據(jù)得出的相對穩(wěn)定的用戶屬性。典型應(yīng)用Hadoop+MapReduce+SQLAnIntroductiontoDatabaseSystem2.數(shù)據(jù)分析:用戶建模的基礎(chǔ)工具用戶興趣建模方法-實(shí)時(shí)的在線分析方法數(shù)據(jù)即來即分析,更強(qiáng)調(diào)數(shù)據(jù)的實(shí)時(shí)分析處理能力和時(shí)效性。數(shù)據(jù)以流的形式持續(xù)不斷地涌入系統(tǒng),系統(tǒng)要在很短的時(shí)間內(nèi)處理完大量流數(shù)據(jù),獲取和分析用戶屬性,。數(shù)據(jù)采集、聚集計(jì)算等實(shí)時(shí)用戶建模方法并不復(fù)雜,但有時(shí)會涉及一些在線分析的方法,比如時(shí)序分析、在線回歸分析等,相應(yīng)的計(jì)算負(fù)載就會高很多。AnIntroductiontoDatabaseSystem3.數(shù)據(jù)服務(wù):用戶建模的價(jià)值體現(xiàn)數(shù)據(jù)服務(wù)是指管理維護(hù)各種數(shù)據(jù)分析任務(wù)得到的用戶建模的結(jié)果,利用這些高價(jià)值的用戶興趣模型數(shù)據(jù),為以信息推薦為代表的眾多上層應(yīng)用提供數(shù)據(jù)訪問服務(wù),從而將大數(shù)據(jù)的價(jià)值與上層應(yīng)用需求打通。類似于傳統(tǒng)意義上的數(shù)據(jù)管理,為下層的數(shù)據(jù)分析任務(wù)和上層的各種應(yīng)用提供高吞吐的數(shù)據(jù)讀寫服務(wù)。AnIntroductiontoDatabaseSystem3.數(shù)據(jù)服務(wù):用戶建模的價(jià)值體現(xiàn)用戶建模背景下的數(shù)據(jù)服務(wù)VS傳統(tǒng)數(shù)據(jù)管理首先,被管理的對象是一張高維度、大規(guī)模的用戶屬性寬表,而且表中的列不是固定的:其次,很多屬性值存在空值或多值的情況:最后,這張表的數(shù)據(jù)讀寫負(fù)載非常巨大。用戶屬性表管理解決方案采用Key/Value模型下的NoSQL數(shù)據(jù)庫,以適應(yīng)高并發(fā)的讀寫負(fù)載和可變的數(shù)據(jù)模式。犧牲了數(shù)據(jù)一致性和SQL查詢分析功能優(yōu)勢采用NewSQL數(shù)據(jù)庫技術(shù)。在內(nèi)存數(shù)據(jù)庫基礎(chǔ)上,保持事務(wù)的ACID特性,通過事務(wù)串行化和去除封鎖等技術(shù)簡化事務(wù)處理過程,提高系統(tǒng)的事務(wù)吞吐能力,以應(yīng)對大規(guī)模數(shù)據(jù)并發(fā)讀寫的挑戰(zhàn)。AnIntroductiontoDatabaseSystem基于大數(shù)據(jù)分析的用戶建模(1)模型的建立來自對大數(shù)據(jù)的分析結(jié)果,通俗地講是“用數(shù)據(jù)說話”。建模的過程是動態(tài)的,隨著實(shí)際對象的變化,模型也在變化。(2)數(shù)據(jù)處理既有對歷史數(shù)據(jù)的離線分析和挖掘,又有對實(shí)時(shí)流數(shù)據(jù)的在線采集和分析,體現(xiàn)了大數(shù)據(jù)上不同層次的分析:流分析、SQL分析、深度分析的需求。(3)用戶模型本身也是大數(shù)據(jù),維度高,信息稀疏,用戶模型的存儲、管理是數(shù)據(jù)服務(wù)的重要任務(wù),要滿足大規(guī)模應(yīng)用需要的高并發(fā)數(shù)據(jù)更新與讀取。AnIntroductiontoDatabaseSystem14.3大數(shù)據(jù)管理系統(tǒng)14.3.1NoSQL數(shù)據(jù)管理系統(tǒng)14.3.2NewSQL數(shù)據(jù)庫系統(tǒng)14.3.3MapReduce技術(shù)14.3.4大數(shù)據(jù)管理系統(tǒng)的新格局AnIntroductiontoDatabaseSystem14.3.1NoSQL數(shù)據(jù)管理系統(tǒng)NoSQL是以互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用為背景發(fā)展起來的分布式數(shù)據(jù)管理系統(tǒng)。NoSQL有兩種解釋:Non-Relational,即非關(guān)系數(shù)據(jù)庫;NotOnlySQL,即數(shù)據(jù)管理技術(shù)不僅僅是SQL。特點(diǎn)NoSQL系統(tǒng)為了提高存儲能力和并發(fā)讀寫能力采用了極其簡單的數(shù)據(jù)模型,支持簡單的查詢操作,而將復(fù)雜操作留給應(yīng)用層實(shí)現(xiàn)。數(shù)據(jù)進(jìn)行分區(qū)和備份,以應(yīng)對結(jié)點(diǎn)可能的失敗,提高系統(tǒng)可用性;通過大量結(jié)點(diǎn)的并行處理獲得高性能,采用的是橫向擴(kuò)展的方式(scaleout)。AnIntroductiontoDatabaseSystemNoSQL數(shù)據(jù)模型(1)Key-Value模型采用KV(Key,Value)數(shù)據(jù)模型。每個(gè)Key值對應(yīng)一個(gè)Value。Value可以是任意類型的數(shù)據(jù)值。支持按照Key值來存儲和提取Value值。Value值是無結(jié)構(gòu)的二進(jìn)制碼或純字符串,通常需要在應(yīng)用層去解析相應(yīng)的結(jié)構(gòu)。(2)BigTable模型、又稱ColumnsOriented模型,能夠支持結(jié)構(gòu)化的數(shù)據(jù),包括列、列簇、時(shí)間戳以及版本控制等元數(shù)據(jù)的存儲。特點(diǎn)是列簇式,即按列存儲,每一行數(shù)據(jù)的各項(xiàng)被存儲在不同的列中,這些列的集合稱作列簇。每一列的每一個(gè)數(shù)據(jù)項(xiàng)都包含一個(gè)時(shí)間戳屬性,以便保存同一個(gè)數(shù)據(jù)項(xiàng)的多個(gè)版本。AnIntroductiontoDatabaseSystemNoSQL數(shù)據(jù)模型(3)文檔(document)模型該模型在存儲方面有以下改進(jìn):Value值支持復(fù)雜的結(jié)構(gòu)定義,通常是被轉(zhuǎn)換成JSON或者類似于JSON格式的結(jié)構(gòu)化文檔;支持?jǐn)?shù)據(jù)庫索引的定義,其索引主要是按照字段名來組織的。(4)圖(graph)模型記為G (V,E),K為結(jié)點(diǎn)(node)集合,每個(gè)結(jié)點(diǎn)具有若干屬性,E為邊(edge)集合,也可以具有若干屬性。該模型支持圖結(jié)構(gòu)的各種基本算法??梢灾庇^地表達(dá)和展示數(shù)據(jù)之間的聯(lián)系。AnIntroductiontoDatabaseSystem14.3.2NewSQL數(shù)據(jù)庫系統(tǒng)NewSQL系統(tǒng)是融合了NoSQL系統(tǒng)和傳統(tǒng)數(shù)據(jù)庫事務(wù)管理功能的新型數(shù)據(jù)庫系統(tǒng)。SQL應(yīng)用廣泛,擴(kuò)展性差、成本高,難以應(yīng)對海量數(shù)據(jù)的挑戰(zhàn)。NoSQL數(shù)據(jù)管理系統(tǒng)具有靈活性和良好的擴(kuò)展性,不支持SQL,不支持事務(wù)ACID特性,導(dǎo)致應(yīng)用程序開發(fā)困難。NewSQL將SQL和NoSQL的優(yōu)勢結(jié)合,充分利用計(jì)算機(jī)硬件的新技術(shù)、新結(jié)構(gòu),技術(shù)上實(shí)現(xiàn)若干創(chuàng)新。提出了串行執(zhí)行事務(wù),避免加鎖開銷和全內(nèi)存日志處理等技術(shù);改進(jìn)體系架構(gòu),結(jié)合計(jì)算機(jī)多核、多CPU、大內(nèi)存的特點(diǎn),融合關(guān)系數(shù)據(jù)庫和內(nèi)存數(shù)據(jù)庫的優(yōu)勢,充分利用固態(tài)硬盤技術(shù),從而顯著提高了對海量數(shù)據(jù)的事務(wù)處理性能和吞吐量。關(guān)系數(shù)據(jù)庫在分布式環(huán)境下為實(shí)現(xiàn)事務(wù)一致性使用了兩階段提交協(xié)議,這種技術(shù)在保證事務(wù)強(qiáng)一致性的同時(shí)造成系統(tǒng)性能和可靠性的降低。AnIntroductiontoDatabaseSystemSQL系統(tǒng)、NoSQL系統(tǒng)與NewSQL系統(tǒng)的比較AnIntroductiontoDatabaseSystem14.3.3MapReduce技術(shù)Google公司于2004年提出的大規(guī)模并行計(jì)算解決方案,主要應(yīng)用于大規(guī)模廉價(jià)集群上的大數(shù)據(jù)并行處理。如Google中的文檔抓取、創(chuàng)建倒排索引、計(jì)算pagerank等操作。由于其簡單而強(qiáng)大的數(shù)據(jù)處理接口和對大規(guī)模并行執(zhí)行、容錯(cuò)及負(fù)載均衡等實(shí)現(xiàn)細(xì)節(jié)的隱藏,該技術(shù)一經(jīng)推出便迅速在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)分析等領(lǐng)域得到應(yīng)用。是一種簡單易用的軟件框架。基于它可以開發(fā)出運(yùn)行在成千上萬個(gè)結(jié)點(diǎn)上,并以容錯(cuò)的方式并行處理海量數(shù)據(jù)的算法和軟件。通常,計(jì)算結(jié)點(diǎn)和存儲結(jié)點(diǎn)是同一個(gè)結(jié)點(diǎn),即MapReduce框架和Hadoop分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS)運(yùn)行于相同的結(jié)點(diǎn)集。以key/value的分布式存儲系統(tǒng)為基礎(chǔ),通過元數(shù)據(jù)集中存儲、數(shù)據(jù)以chunk為單位分布存儲和數(shù)據(jù)chunk冗余復(fù)制來保證其高可用性。設(shè)計(jì)的初衷解決大數(shù)據(jù)在大規(guī)模并行計(jì)算集群上的高可擴(kuò)展性和高可用性分析處理,其處理模式以離線式批量處理為主。AnIntroductiontoDatabaseSystemMapReduce并行計(jì)算過程AnIntroductiontoDatabaseSystemMapReduce并行計(jì)算過程計(jì)算過程分解為兩個(gè)階段,即Map階段和Reduce階段。首先對輸入的數(shù)據(jù)源進(jìn)行分塊,交給多個(gè)Map任務(wù)去執(zhí)行,Map任務(wù)執(zhí)行Map函數(shù),根據(jù)某種規(guī)則對數(shù)據(jù)分類,寫入本地硬盤。然后進(jìn)入Reduce階段,在該階段由Reduce函數(shù)將Map階段具有相同key值的中間結(jié)果收集到相同的Reduce結(jié)點(diǎn)進(jìn)行合并處理,并將結(jié)果寫入本地磁盤。程序的最終結(jié)果可以通過合并所有Reduce任務(wù)的輸出得到。Map函數(shù)和Reduce函數(shù)是用戶根據(jù)應(yīng)用的具體需求編寫的。AnIntroductiontoDatabaseSystemMapReduce不足(1)使用成本高基于MapReduce的應(yīng)用軟件較少,許多數(shù)據(jù)分析功能需要用戶自行開發(fā)。(2)程序員負(fù)擔(dān)過重,程序與數(shù)據(jù)缺乏獨(dú)立性。原來由DBMS完成的工作,如文件存儲格式的設(shè)計(jì)、模式信息的記錄、數(shù)據(jù)處理算法的實(shí)現(xiàn)等都轉(zhuǎn)移給了程序員,(3)在同等硬件條件下,性能遠(yuǎn)低于并行數(shù)據(jù)庫。由于采取基于掃描的處理模式和對中間結(jié)果步步物化的執(zhí)行策略,從而導(dǎo)致較高的I/O代價(jià)。(4)MapReduce處理連接的性能尤其不盡如人意在數(shù)據(jù)分析領(lǐng)域,連接是關(guān)鍵操作(如傳統(tǒng)的星形查詢和雪片查詢均是依賴于連接來處理查詢)。AnIntroductiontoDatabaseSystem并行數(shù)據(jù)庫+MapReduce的三種架構(gòu)近年來大量研究著手將并行數(shù)據(jù)庫和MapReduce兩者結(jié)合起來,設(shè)計(jì)兼具兩者優(yōu)點(diǎn)的大數(shù)據(jù)分析平臺。AnIntroductiont
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 盲人探路活動策劃方案(3篇)
- 小米充值活動方案策劃(3篇)
- 水壩面板施工方案(3篇)
- 樓施工方案模板(3篇)
- 飲品活動方案策劃模板(3篇)
- 多孔模塊施工方案(3篇)
- 愛耳日老人活動策劃方案(3篇)
- 滲漏處理專項(xiàng)方案
- 工程電井安全培訓(xùn)
- 中學(xué)學(xué)生社團(tuán)活動對外合作制度
- 2026國家電投招聘試題及答案
- 2024年人教版七7年級下冊數(shù)學(xué)期末質(zhì)量檢測題(附答案)
- 2025 AHA 心肺復(fù)蘇與心血管急救指南 - 第6部分:兒童基本生命支持解讀
- 航空公司招聘筆試行測題
- 員工工資明細(xì)表Excel模板
- DB32-T 4086-2021 特種設(shè)備風(fēng)險(xiǎn)分級管控工作規(guī)范
- JJG 945-2010微量氧分析儀
- GB/T 38537-2020纖維增強(qiáng)樹脂基復(fù)合材料超聲檢測方法C掃描法
- “多規(guī)合一”實(shí)用性村莊規(guī)劃質(zhì)檢軟件建設(shè)方案
- GB/T 20727-2006封閉管道中流體流量的測量熱式質(zhì)量流量計(jì)
- GB/T 16770.1-2008整體硬質(zhì)合金直柄立銑刀第1部分:型式與尺寸
評論
0/150
提交評論