版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等技術(shù)和應(yīng)用的興起,全球范圍內(nèi)數(shù)據(jù)量迅猛增長(zhǎng), 大數(shù)據(jù)(Big Data)時(shí)代己經(jīng)來(lái)臨 伴隨著大數(shù)據(jù)的產(chǎn)生,其在現(xiàn)代社會(huì)和經(jīng)濟(jì)活動(dòng)中發(fā)揮著極 其重要的作用,同時(shí)有效的利用會(huì)使大數(shù)據(jù)產(chǎn)生不可估量的 價(jià)值,因此大數(shù)據(jù)被稱(chēng)為新的經(jīng)濟(jì)資產(chǎn)類(lèi)別。海量的電子政務(wù)數(shù)據(jù)、移動(dòng)終端數(shù)據(jù)、網(wǎng)站日志、社交媒體數(shù)據(jù)、來(lái)自物 聯(lián)網(wǎng)傳感器的流式數(shù)據(jù)、企業(yè)長(zhǎng)期積累的業(yè)務(wù)數(shù)據(jù)等都是大數(shù)據(jù)的主要來(lái)源,如果能夠使這些數(shù)據(jù)互通共享、融合分析,將會(huì)產(chǎn)生巨大的經(jīng)濟(jì)和社會(huì)效益。大數(shù)據(jù)服務(wù)(Big Data-as-a-Service , BDaaS)是一種數(shù)據(jù)使用 模式,是在對(duì)大數(shù)據(jù)統(tǒng)一建?;A(chǔ)上,將各類(lèi)數(shù)
2、據(jù)操作進(jìn)行 封裝,對(duì)外提供無(wú)處不在的、標(biāo)準(zhǔn)化的、隨需的檢索、分析 或可視化服務(wù)交付。大數(shù)據(jù)服務(wù)不僅是一種新技術(shù),也是一 種新的數(shù)據(jù)資源使用模式和一種新的服務(wù)經(jīng)濟(jì)模式。在大數(shù)據(jù)時(shí)代,對(duì)大數(shù)據(jù)進(jìn)行統(tǒng)一表示,實(shí)現(xiàn)大數(shù)據(jù)處理、 查詢(xún)、分析和可視化是亟需解決的關(guān)鍵問(wèn)題,這就為大數(shù)據(jù) 服務(wù)的研究指明了方向。目前,對(duì)外提供數(shù)據(jù)服務(wù)的既有政府、企業(yè),也存科研機(jī)構(gòu),其提供的數(shù)據(jù)服務(wù)集中在三方面,分別是數(shù)據(jù)查詢(xún)/驗(yàn)證服務(wù),面向企業(yè)的數(shù)據(jù)分析服務(wù)和數(shù)據(jù)集市。一般來(lái)說(shuō),輿情監(jiān)測(cè)是比較典型的面向企業(yè)的數(shù)據(jù)分析服務(wù)。部分輿情監(jiān)測(cè)公司及系統(tǒng)公司名稱(chēng)產(chǎn)品名稱(chēng)北京拓爾思信息技術(shù)股份有限公司TRS互聯(lián)網(wǎng)輿情管理系統(tǒng)北京麥克斯泰科
3、技有限公司訊庫(kù)輿情監(jiān)測(cè)系統(tǒng)深圳市廣道高新技術(shù)有限公司圖靈輿情監(jiān)測(cè)服務(wù)平臺(tái)中科點(diǎn)擊(北京)科技有限公司軍犬網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)北京優(yōu)捷達(dá)信息科技有限公司網(wǎng)絡(luò)監(jiān)控分析系統(tǒng)北京一飛科達(dá)軟件有限公司Rank輿情監(jiān)測(cè)系統(tǒng)優(yōu)迅時(shí)代(北京)網(wǎng)絡(luò)技術(shù)有限公司優(yōu)迅全媒體輿情監(jiān)測(cè)系統(tǒng)一一以樂(lè)思網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)為例圖該類(lèi)服務(wù)是以幫助企業(yè)分析數(shù)據(jù)為目的的服務(wù),其數(shù)據(jù)來(lái)源 可能是企業(yè)數(shù)據(jù)也可能是企業(yè)數(shù)據(jù)與互聯(lián)網(wǎng)數(shù)據(jù)的融合。例如,Precog提供大數(shù)據(jù)分析服務(wù),可以從各種數(shù)據(jù)源抓取輸 入數(shù)據(jù),同時(shí)還使用人群統(tǒng)計(jì)、態(tài)度、位置和其他信息使數(shù) 據(jù)更為豐富,最后綜合進(jìn)行分析。伴隨著海量非結(jié)構(gòu)化數(shù)據(jù)的由現(xiàn),大數(shù)據(jù)服務(wù)需要能夠面向 結(jié)構(gòu)
4、化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)提供統(tǒng)一的服務(wù),那么良 好的數(shù)據(jù)模型就成為了實(shí)現(xiàn)大數(shù)據(jù)服務(wù)的最底層能力支持。對(duì)于結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)而言,已經(jīng)產(chǎn)生了E-R模型和XML等成熟的數(shù)據(jù)模型。 而對(duì)于非結(jié)構(gòu)化數(shù)據(jù)而言, 目前已 有的數(shù)據(jù)模塑大多是針對(duì)特定數(shù)據(jù)類(lèi)型,極少數(shù)的通用非結(jié) 構(gòu)化數(shù)據(jù)模型注重對(duì)數(shù)據(jù)本身特征的標(biāo)識(shí),這就為非結(jié)構(gòu)化 數(shù)據(jù)的識(shí)別帶來(lái)較大困難,更增加了面向非結(jié)構(gòu)化數(shù)據(jù)的大 數(shù)據(jù)服務(wù)的應(yīng)用復(fù)雜度。亟待解決的問(wèn)題大數(shù)據(jù)服務(wù)架構(gòu)中如何從存儲(chǔ)和數(shù)據(jù)模型設(shè)計(jì)上實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的支持。模型設(shè)計(jì)非結(jié)構(gòu)化數(shù)據(jù)的星系模型 Galaxy Data Model (GDM) : GDM 包括數(shù)據(jù)對(duì)象空間和屬性空間。
5、數(shù)據(jù)對(duì)象空間DataSourceSpace:即非結(jié)構(gòu)化數(shù)據(jù)對(duì)象的集合,屬性空間AttributeSpace:即非結(jié)構(gòu)化數(shù)據(jù)屬性的集合 ,在星系模型中,一個(gè)非結(jié)構(gòu)化數(shù)據(jù)包括一個(gè)數(shù)據(jù)對(duì)象和五個(gè) 屬性類(lèi),并且一個(gè)屬性可以被多個(gè)數(shù)據(jù)對(duì)象共享。一個(gè)數(shù)據(jù) 對(duì)象具有唯一標(biāo)識(shí)。五個(gè)屬性類(lèi)分別是:基本屬性、內(nèi)容屬 性、特征屬性、行為屬性、環(huán)境屬性。每個(gè)屬性類(lèi)包含多組 屬性,每個(gè)屬性根據(jù)其取值分為多種類(lèi)型。屬性類(lèi)屬性基本屬性類(lèi)文件、權(quán)限、源內(nèi)容屬性類(lèi)描述、語(yǔ)義特征屬性類(lèi)媒體、文檔、音頻、視頻、圖像行為屬性類(lèi)文件熱度、任務(wù)、上下文、交互信息環(huán)境屬性類(lèi)主題熱度、相似主體在實(shí)現(xiàn)星系模型過(guò)程中,可通過(guò)多種方式為數(shù)據(jù)屬性賦
6、值。 可以手動(dòng)添加數(shù)據(jù)屬性值,也可以通過(guò)大數(shù)據(jù)服務(wù)架構(gòu)中的 用戶(hù)實(shí)體和行為庫(kù)來(lái)進(jìn)行屬性提取,主體行為分析引擎通過(guò) 對(duì)上網(wǎng)瀏覽、Windows系統(tǒng)使用、辦公軟件、郵件客戶(hù)端等 應(yīng)用程序使用、最近看過(guò)的視頻音頻等用戶(hù)行為進(jìn)行日志記 錄并分析,屬性標(biāo)識(shí)器則是將日志分析結(jié)果自動(dòng)轉(zhuǎn)換為相關(guān) 非結(jié)構(gòu)化數(shù)據(jù)的屬性值。目前在非結(jié)構(gòu)化數(shù)據(jù)模型方面已經(jīng)有很多研究成果,大多面向特定數(shù)據(jù)類(lèi)型(網(wǎng)頁(yè)、文本、多媒體數(shù)據(jù)等 )進(jìn)行建模,而通用的非結(jié)構(gòu)化數(shù)據(jù)模型研究較少。 其中較為典型的是 MDM 和TDM。星系模型 GDM與TDM和MDM相比有很多不同之 處,下表從七方面對(duì)這三種非結(jié)構(gòu)化數(shù)據(jù)模型進(jìn)行了對(duì)比。數(shù)據(jù)模型GDMT
7、DMMDM數(shù)據(jù)類(lèi)型非結(jié)構(gòu)化數(shù)據(jù)/半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)/半結(jié) 構(gòu)化數(shù)據(jù)多媒體數(shù)據(jù)數(shù)據(jù)屬性基本屬性 內(nèi)容屬性 特征屬性 行為屬性 環(huán)境屬性基本屬性 語(yǔ)義特征 底層特征語(yǔ)文描述底層特征主體特征堇點(diǎn)考慮用戶(hù)行為 對(duì)數(shù)據(jù)演化的影晌未考慮未考慮實(shí)現(xiàn)結(jié)構(gòu)JSONXML、三維寬表未考慮數(shù)據(jù)操作語(yǔ)杳JAQLUDQL (基于XQuery)MMSQL粒索結(jié)構(gòu)基本檢索、復(fù)雜條 件檢索基本查詢(xún)r(jià)關(guān)聯(lián)宣詢(xún)、智能查詢(xún)比較,復(fù)雜條件 檢索對(duì)新型文件系統(tǒng)的支持支持面向HDFS中 的非結(jié)構(gòu)化數(shù)據(jù)進(jìn) 行數(shù)據(jù)建模和檢索未考慮未考慮提由的非結(jié)構(gòu)化數(shù)據(jù)模型 GDM,為大數(shù)據(jù)服務(wù)模型解決了 方面的難題。而大數(shù)據(jù)服務(wù)模型是構(gòu)建大數(shù)據(jù)服務(wù)
8、的理論基 礎(chǔ)和實(shí)現(xiàn)規(guī)范。大數(shù)據(jù)服務(wù)模型構(gòu)建設(shè)計(jì)思路大數(shù)據(jù)服務(wù)在實(shí)現(xiàn)時(shí)應(yīng)該具備三方面特性:(1)應(yīng)該為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等各類(lèi)數(shù)據(jù)源均提供 良好的數(shù)據(jù)模型和服務(wù)模型支持;(2)應(yīng)能夠?qū)?shù)據(jù)特征相關(guān)的各方面屬性進(jìn)行完善的描述和 形式化定義,支持對(duì)輸生結(jié)果進(jìn)行蹄選、分類(lèi)等操作(3)應(yīng)支持分析型和可視化型數(shù)據(jù)服務(wù)的構(gòu)建。為了使大數(shù)據(jù)服務(wù)更容易被發(fā)現(xiàn)和組合,需要在服務(wù)描述中 盡可能完整地對(duì)數(shù)據(jù)源信息進(jìn)行描述,例如數(shù)據(jù)提供者、數(shù) 據(jù)質(zhì)量、數(shù)據(jù)模型等。同時(shí),數(shù)據(jù)服務(wù)本身的描述也很重要, 包括對(duì)數(shù)據(jù)服務(wù)契約、 QOS隱私條例等方面內(nèi)容的規(guī)定。此外,由于大數(shù)據(jù)服務(wù)的輸生結(jié)果也是數(shù)據(jù)集,這就需要定義多種不同
9、操作以便滿(mǎn)足用戶(hù)多樣化需求,例如定義蹄選、排序 等操作。因此,從大數(shù)據(jù)服務(wù)實(shí)現(xiàn)的角度,首先明確定義大 數(shù)據(jù)服務(wù)應(yīng)覆蓋的數(shù)據(jù)源、服務(wù)內(nèi)容和服務(wù)操作三方面屬性。數(shù)據(jù)源(s)屬性基本廄性Basic Am標(biāo)識(shí)1名稱(chēng)描述是否必須1_subject數(shù)據(jù)主題數(shù)據(jù)源內(nèi)容的主題是-2sourceType數(shù)據(jù)類(lèi)型結(jié)構(gòu)化or非結(jié)構(gòu)化or半鰭 構(gòu)化是3schema數(shù)據(jù)模式關(guān)系數(shù)據(jù)庫(kù)or XML or星 系模型GDM4size數(shù)據(jù)量描述數(shù)據(jù)大小是5lifetime收集周期數(shù)據(jù)收集的起始時(shí)間和截止 時(shí)間是6updawFrequen cy更新頻率描述數(shù)據(jù)服務(wù)更新的頻率是7 timeline時(shí)間線(xiàn)僅提供一段時(shí)期的數(shù)據(jù)還是 從
10、過(guò)去某時(shí)間點(diǎn)到現(xiàn)在的所 有數(shù)據(jù)否gsummary摘要對(duì)數(shù)據(jù)源內(nèi)容的文字性描述否9tags標(biāo)簽描述數(shù)據(jù)源內(nèi)容的關(guān)鍵詞否10provider提供者服務(wù)提供商.可能是數(shù)據(jù)擁 有者.也可能是第三方數(shù)據(jù) 服務(wù)提供商1是!11dataCreatorit物產(chǎn)生者在除私條件允詐的情況下,該項(xiàng)描述與數(shù)據(jù)相關(guān)聯(lián)或者產(chǎn)生數(shù)據(jù)的用戶(hù)實(shí)體12business業(yè)務(wù)背景產(chǎn)生數(shù)據(jù)的系統(tǒng)和數(shù)據(jù)1杳13language語(yǔ)言數(shù)據(jù)服務(wù)內(nèi)容的主要瘠離, 可能有多種香X 一area領(lǐng)域)數(shù)據(jù)源所屬領(lǐng)域否服務(wù)內(nèi)容(ServiceContent )屬性標(biāo)識(shí)名稱(chēng)描述是否必須ID唯一標(biāo)識(shí)I唯一標(biāo)識(shí)該數(shù)據(jù)服務(wù)是.2subClassof服務(wù)類(lèi)如果潼服務(wù)是數(shù)據(jù)服務(wù)類(lèi)s 1的實(shí)例,該項(xiàng)指向5是3service items服務(wù)契約服務(wù)內(nèi)容描述是14QOS服務(wù)鷹量性能和可靠性否5scrvicQlype服務(wù)類(lèi)型查詢(xún)型/分析型:可視化型;是6privacy隱私信息對(duì)該數(shù)據(jù)服務(wù)許可信息、加 密信息的描述是服務(wù)操作屬性操作表示方法描述1篩選FILTERlr. cond)根據(jù)用戶(hù)限交的condition表達(dá)式過(guò)就出 用戶(hù)所需數(shù)據(jù),若是關(guān)系數(shù)據(jù)源,attr對(duì) 應(yīng)關(guān)系數(shù)據(jù)庫(kù)的某一列,若是汴結(jié)構(gòu)化 數(shù)據(jù),創(chuàng)tr對(duì)應(yīng)星系模型中的某類(lèi)屬性.排序SORT attntype)根據(jù)數(shù)據(jù)源的某屬性atti乘以方式type 對(duì)數(shù)據(jù)服務(wù)數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 再保險(xiǎn)實(shí)務(wù)與再保險(xiǎn)經(jīng)紀(jì)
- 易班培訓(xùn)教學(xué)
- 早教培訓(xùn)內(nèi)容課件
- 肝心脾肺腎養(yǎng)生課件
- 護(hù)理專(zhuān)業(yè)護(hù)理危機(jī)干預(yù)
- 箭牌衛(wèi)浴培訓(xùn)課件
- 2026年汽車(chē)底盤(pán)培訓(xùn)
- 肺炎課件培訓(xùn)
- 簡(jiǎn)單培訓(xùn)課件
- 醫(yī)患關(guān)系主題寫(xiě)作示范
- 新疆三校生考試題及答案
- 2026年《必背60題》腫瘤內(nèi)科醫(yī)師高頻面試題包含答案
- 2025新疆亞新煤層氣投資開(kāi)發(fā)(集團(tuán))有限責(zé)任公司第三批選聘/招聘筆試歷年參考題庫(kù)附帶答案詳解
- 圍手術(shù)期心肌梗塞的護(hù)理
- 超市門(mén)口鑰匙管理制度
- 代貼現(xiàn)服務(wù)合同范本
- 2025小學(xué)六年級(jí)英語(yǔ)時(shí)態(tài)綜合練習(xí)卷
- 垃圾清運(yùn)補(bǔ)充合同范本
- 病蟲(chóng)害防治操作規(guī)程編制
- 九年級(jí)上學(xué)期數(shù)學(xué)壓軸必考題型-反比例函數(shù)(含答案)
- 上海市旅館從業(yè)人員考試及答案解析
評(píng)論
0/150
提交評(píng)論