版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、.大數(shù)據(jù)共享研究 摘 要:文章介紹了大數(shù)據(jù)及大數(shù)據(jù)共享的含義,詳細(xì)介紹了實(shí)現(xiàn)大數(shù)據(jù)共享的硬件及軟件條件。在硬件方面著重介紹了大數(shù)據(jù)中心的模塊建設(shè)方式,在軟件方面比較系統(tǒng)地介紹了大數(shù)據(jù)共享的相關(guān)技術(shù)手段等,對(duì)大數(shù)據(jù)相關(guān)立法和政策進(jìn)行了討論和展望,文章緊貼當(dāng)下大數(shù)據(jù)的發(fā)展,在此基礎(chǔ)上積極探索目前還尚未成熟的大數(shù)據(jù)共享領(lǐng)域。 關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)共享;平臺(tái) 1 大數(shù)據(jù)共享的含義 1.1 大數(shù)據(jù)共享介紹 大數(shù)據(jù)共享,是讓不同地方使用不同計(jì)算機(jī)、不同軟件的用戶(hù),即不同終端,按照一定的規(guī)定和安全共享機(jī)制,通過(guò)網(wǎng)絡(luò)(局域網(wǎng)或互聯(lián)網(wǎng))等讀取他人共享的數(shù)據(jù)并進(jìn)行各種操作、運(yùn)算、分析和管理的行為。從廣義上理解,大
2、數(shù)據(jù)共享在內(nèi)容上不僅包含了海量數(shù)據(jù)的共享,還涉及到大數(shù)據(jù)軟件程序、大數(shù)據(jù)科學(xué)和工程系統(tǒng)及大數(shù)據(jù)的應(yīng)用實(shí)踐等內(nèi)容。數(shù)據(jù)開(kāi)放利用程度越高,信息知識(shí)作為生產(chǎn)要素就會(huì)越高。 1.2 大數(shù)據(jù)共享的意義 大數(shù)據(jù)共享,涉及大數(shù)據(jù)技術(shù)及大數(shù)據(jù)應(yīng)用,在實(shí)際應(yīng)用上大數(shù)據(jù)共享具體體現(xiàn)在海量數(shù)據(jù)的共享、大數(shù)據(jù)平臺(tái)的共享、大數(shù)據(jù)技術(shù)的共享和大數(shù)據(jù)應(yīng)用共享。大數(shù)據(jù)共享的特點(diǎn),也更合理地體現(xiàn)了大數(shù)據(jù)自身的重要價(jià)值。大數(shù)據(jù)共享使得不同層次、不同部門(mén)信息系統(tǒng)更加合理地進(jìn)行資源配置、節(jié)約社會(huì)成本、創(chuàng)造更多價(jià)值,不僅能提高信息資源利用率,避免在信息采集、存貯和管理上的重復(fù)浪費(fèi),有利于更合理安排物力和財(cái)力,發(fā)揮人的更大價(jià)值。從發(fā)展上
3、看,工信部電信研究院政經(jīng)所馬志剛認(rèn)為數(shù)據(jù)開(kāi)放與共享是提高社會(huì)生產(chǎn)力的重要前提,這里所探討的大數(shù)據(jù)共享也更清晰地把數(shù)據(jù)共享這項(xiàng)發(fā)展性的工作落到實(shí)處。 2 大數(shù)據(jù)共享的軟實(shí)力建設(shè) 大數(shù)據(jù)共享軟實(shí)力包含大數(shù)據(jù)共享平臺(tái)架構(gòu)之Hadoop技術(shù)、流計(jì)算、數(shù)據(jù)倉(cāng)庫(kù)、信息整合、大數(shù)據(jù)搜索引擎、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用程序開(kāi)發(fā)、管理系統(tǒng)和共享安全機(jī)制等。 2.1 大數(shù)據(jù)共享平臺(tái)架構(gòu)之Hadoop技術(shù) Hadoop是Apache基金會(huì)開(kāi)發(fā)的一個(gè)開(kāi)源分布式系統(tǒng)基礎(chǔ)架構(gòu)項(xiàng)目, Hadoop主要核心由HDFS、MapReduce組成,包含HBase和Hive等經(jīng)典子項(xiàng)目。Hadoop底部利用分布式存儲(chǔ)系統(tǒng)(HDFS)將
4、文件分布式存儲(chǔ)到硬盤(pán),上部MapReduce將大的數(shù)據(jù)分成小塊逐個(gè)分析,再提取出數(shù)據(jù)匯總分析,編寫(xiě)簡(jiǎn)單的需求命令獲得所需數(shù)據(jù)內(nèi)容。 2.2 流計(jì)算 流計(jì)算面對(duì)的是存貯在硬盤(pán)、內(nèi)存或者其他地方的已存數(shù)據(jù)。流計(jì)算是指數(shù)據(jù)和控制在一個(gè)分布式網(wǎng)絡(luò)中以某種流的形式傳遞,網(wǎng)絡(luò)中的節(jié)點(diǎn)對(duì)流進(jìn)行處理和分發(fā),同時(shí)這些流往往具有高實(shí)時(shí)和高流量的特點(diǎn),再形象化一點(diǎn)描述就是在數(shù)據(jù)產(chǎn)生并流入系統(tǒng)時(shí)就進(jìn)行處理并馬上得出結(jié)果。因而區(qū)別于以往基于RPC和RMI的分布式系統(tǒng),也區(qū)別于Hadoop的相對(duì)靜態(tài)的處理系統(tǒng)。流計(jì)算面對(duì)的是沒(méi)有存儲(chǔ)下來(lái)的實(shí)時(shí)的網(wǎng)路數(shù)據(jù)流,計(jì)算意義在于對(duì)數(shù)據(jù)挖掘處理后選取可以提取有價(jià)值的信息存儲(chǔ)下來(lái),不會(huì)
5、對(duì)原始數(shù)據(jù)進(jìn)行存儲(chǔ),并且數(shù)據(jù)流的價(jià)值隨時(shí)間流逝而降低?;趯?shí)時(shí)數(shù)據(jù)的流處理是大數(shù)據(jù)發(fā)展到現(xiàn)在已經(jīng)相對(duì)成熟的技術(shù)。 2.3 數(shù)據(jù)倉(cāng)庫(kù) 有關(guān)大數(shù)據(jù)的共享,必須依賴(lài)一定硬件條件,這里引入數(shù)據(jù)倉(cāng)庫(kù)的概念,數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)集成的、面向主題的、隨時(shí)間變化、非易失的數(shù)據(jù)集合。數(shù)據(jù)倉(cāng)庫(kù)區(qū)別于數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)相當(dāng)于一個(gè)環(huán)境,為用戶(hù)提供用于決策支持的非結(jié)構(gòu)化和半結(jié)構(gòu)化的當(dāng)前或歷史數(shù)據(jù)(傳統(tǒng)的操作型數(shù)據(jù)庫(kù)中很難或無(wú)法得到)組成數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的要素簡(jiǎn)單概括為數(shù)據(jù)倉(cāng)庫(kù)式數(shù)據(jù)庫(kù)、數(shù)據(jù)載入工具、數(shù)據(jù)抽取工具、信息發(fā)布系統(tǒng)、操作型數(shù)據(jù)、外界數(shù)據(jù)、訪(fǎng)問(wèn)工具、數(shù)據(jù)集市、操縱平臺(tái)、元數(shù)據(jù)及管理平臺(tái)。 2.4 信息整合 信息整合,是指通
6、過(guò)邏輯或者物理的方式把某一范圍內(nèi)多元的、異構(gòu)的、離散的、分布的信息資源,組為一個(gè)整體,使其有利于管理、利用和服務(wù)。信息整合包含三種方式,分別是數(shù)據(jù)整合、過(guò)程整合及內(nèi)容整合。內(nèi)容整合通過(guò)建立一個(gè)內(nèi)容管理平臺(tái),進(jìn)而對(duì)圖片、多媒體等非結(jié)構(gòu)化信息進(jìn)行編輯、審核、校驗(yàn)以及分類(lèi)管理,這樣就可以控制信息發(fā)布和與訪(fǎng)問(wèn)的權(quán)限。數(shù)據(jù)整合將有價(jià)值的數(shù)據(jù)傳遞給分析系統(tǒng)或其他應(yīng)用系統(tǒng),再進(jìn)行信息加工,集合不同的核心業(yè)務(wù)數(shù)據(jù)庫(kù)為一個(gè)單一的數(shù)據(jù)庫(kù)。 2.5 大數(shù)據(jù)搜索引擎 大數(shù)據(jù)搜索引擎基于大數(shù)據(jù)庫(kù),需要具備在大數(shù)據(jù)共享分析中充分發(fā)揮人工智能作用的軟件技術(shù)能力,采用網(wǎng)頁(yè)抓取技術(shù)智能地從互聯(lián)網(wǎng)搜集信息,通過(guò)對(duì)結(jié)構(gòu)化的數(shù)據(jù)、圖
7、表及視頻等非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行檢索,搜索引擎借助Reduce等工具,將數(shù)據(jù)聚合并采取并行處理,供給用戶(hù),構(gòu)建搜索引擎服務(wù)。排序是搜索引擎最關(guān)鍵的技術(shù),排序策略和算法決定了排序效果的優(yōu)劣,其中搜索結(jié)果的排序作用重要,利用關(guān)鍵詞在文檔中出現(xiàn)的頻率和位置以及基于鏈接分析排序等排序。 2.6 大數(shù)據(jù)可視化 大數(shù)據(jù)可視化主要是將收集、存儲(chǔ)的海量數(shù)據(jù)信息通過(guò)圖形化等數(shù)據(jù)視覺(jué)表現(xiàn)形式進(jìn)行清晰、有效的信息傳遞,在大數(shù)據(jù)共享中既屬于科學(xué)技術(shù)應(yīng)用,也屬于科學(xué)技術(shù)研究,可視化硬件包含圖形工作站及超級(jí)可視化計(jì)算機(jī)??梢暬浖?層,分別是操作系統(tǒng)層?p可視化軟件工具開(kāi)發(fā)層及行業(yè)性可視化軟件應(yīng)用層。 2.7
8、大數(shù)據(jù)應(yīng)用程序開(kāi)發(fā) 大數(shù)據(jù)應(yīng)用程序是指添加、查看、修改和刪除數(shù)據(jù)倉(cāng)庫(kù)指定數(shù)據(jù)庫(kù)中數(shù)據(jù)的應(yīng)用程序。大數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用程序一般包括3個(gè)部分:一是為應(yīng)用程序提供數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù);二是實(shí)現(xiàn)與用戶(hù)交互的前臺(tái)界面;三是實(shí)現(xiàn)具體業(yè)務(wù)的軟件。 2.8 大數(shù)據(jù)共享的管理系統(tǒng) 大數(shù)據(jù)共享的管理系統(tǒng)是大數(shù)據(jù)共享系統(tǒng)的關(guān)鍵系統(tǒng)之一。通過(guò)大數(shù)據(jù)共享管理系統(tǒng),可以方便管理者實(shí)現(xiàn)對(duì)共享資源的管理、共享關(guān)系的管理及共享行為的管理。其中,共享資源管理包括6類(lèi),分別是共享集群命名管理、共享系統(tǒng)模板管理、共享節(jié)點(diǎn)資源管理、共享應(yīng)用命名管理、共享應(yīng)用資源管理、共享用戶(hù)狀態(tài)等。 3 結(jié)語(yǔ) 本文主要描述大數(shù)據(jù)共享的平臺(tái)軟實(shí)力構(gòu)造,從一個(gè)系統(tǒng)化
9、角度去闡述大數(shù)據(jù)共享的技術(shù)需求,為大數(shù)據(jù)共享產(chǎn)業(yè)的運(yùn)作提供了一種建模參考,關(guān)于大數(shù)據(jù)共享的安全保密和法規(guī)政策的研究也會(huì)在以后進(jìn)一步討論,本文為大數(shù)據(jù)共享領(lǐng)域的基礎(chǔ)性發(fā)展拋磚引玉。 參考文獻(xiàn) 1馬建光,姜巍.大數(shù)據(jù)的概念、特征及其應(yīng)用J.國(guó)防科技,2013(2):18-20. 2周楓.大數(shù)據(jù)時(shí)代檔案館的特征及發(fā)展策略J.檔案與建設(shè),2013(8):25-40. 3宋永剛.大數(shù)據(jù)時(shí)代加快出版業(yè)轉(zhuǎn)型升級(jí)的思考J.中國(guó)編輯,2013(5):20-22. 4張春磊,楊小牛.大數(shù)據(jù)分析(BDA)及其在情報(bào)領(lǐng)域的應(yīng)用J.中國(guó)電子科學(xué)研究院學(xué)報(bào),2013(1):10-15. 5李晨暉,崔建明,陳超泉.大數(shù)據(jù)知
10、識(shí)服務(wù)平臺(tái)構(gòu)建關(guān)鍵技術(shù)研究J.情報(bào)資料工作,2013(2):9-13. 6王珊,王會(huì)舉,覃雄派,等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望J.計(jì)算機(jī)學(xué)報(bào),2011(10):3-15. Study on Big Data Sharing Wei Cuihong (91746 PLA Troops, Beijing 102206, China) Abstract: This paper analyzes the implement of big data sharing software conditions, actively explore it is not yet mature field of big data sharing, systematically intro
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年廣州鐵路職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能筆試備考試題帶答案解析
- 腫瘤患者護(hù)理特點(diǎn)與護(hù)理策略
- 基礎(chǔ)護(hù)理工作總結(jié)與質(zhì)量提升
- 2026年安徽工貿(mào)職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試備考試題帶答案解析
- 財(cái)管課件音頻
- 人工智能在臨床決策支持系統(tǒng)中的應(yīng)用
- 兒科護(hù)理工作方法與技巧
- 醫(yī)院后勤保障工作創(chuàng)新成果匯報(bào)
- 口腔種植牙技術(shù)探討
- 護(hù)理信息化建設(shè)與護(hù)理管理創(chuàng)新探討
- 2025年11月中國(guó)質(zhì)量協(xié)會(huì)質(zhì)量專(zhuān)業(yè)能力考試QC小組活動(dòng)專(zhuān)業(yè)能力復(fù)習(xí)題庫(kù)及答案
- 養(yǎng)老院9防培訓(xùn)課件
- 浙江軍轉(zhuǎn)考試試題及答案
- 2025海康威視內(nèi)容安全管控系統(tǒng)使用手冊(cè)
- 生物安全培訓(xùn)試題(含答案)
- 分局輔警服裝購(gòu)置項(xiàng)目方案投標(biāo)文件(技術(shù)標(biāo))
- 滑行工具好玩也危險(xiǎn)
- 員工工時(shí)管控方案(3篇)
- 監(jiān)控證考試題庫(kù)及答案
- GB/T 33474-2025物聯(lián)網(wǎng)參考體系結(jié)構(gòu)
- 投資境外股權(quán)管理辦法
評(píng)論
0/150
提交評(píng)論