大數(shù)據(jù)處理技術(shù)發(fā)展現(xiàn)狀及其應(yīng)用展望_第1頁(yè)
大數(shù)據(jù)處理技術(shù)發(fā)展現(xiàn)狀及其應(yīng)用展望_第2頁(yè)
大數(shù)據(jù)處理技術(shù)發(fā)展現(xiàn)狀及其應(yīng)用展望_第3頁(yè)
大數(shù)據(jù)處理技術(shù)發(fā)展現(xiàn)狀及其應(yīng)用展望_第4頁(yè)
大數(shù)據(jù)處理技術(shù)發(fā)展現(xiàn)狀及其應(yīng)用展望_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

.大數(shù)據(jù)處技術(shù)發(fā)展現(xiàn)及其應(yīng)用展望一、定義著名的管理咨詢公司麥肯錫曾預(yù)測(cè)到經(jīng)透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素們于量數(shù)據(jù)的挖掘和運(yùn)用示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來是數(shù)據(jù)的最早定義。業(yè)界(2012年,高德納修改了對(duì)大數(shù)據(jù)的定義大據(jù)的特征歸納為4VVolume樣Variety價(jià)值Value速Velocity或者說特點(diǎn)有四個(gè)層面:第一,海量數(shù)據(jù)量。大數(shù)據(jù)計(jì)量單位至少是級(jí)別第二,數(shù)據(jù)類型繁多。比如,網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等都是囊括進(jìn)來。第三,商業(yè)價(jià)值高。第四,處理速度快。在大數(shù)據(jù)時(shí)代三技術(shù),七分據(jù),得數(shù)據(jù)者得天下數(shù)據(jù)時(shí)代已經(jīng)到來的時(shí)候要用大數(shù)據(jù)思維去發(fā)掘大數(shù)據(jù)的潛在價(jià)值Google用人們的搜索記錄挖掘數(shù)據(jù)二次利用價(jià)值,比如預(yù)測(cè)某地流感爆發(fā)的趨勢(shì)Amazon利用戶的購(gòu)買和瀏覽歷史數(shù)據(jù)進(jìn)行有針對(duì)性的書籍購(gòu)買推薦,以此有效提升銷售量Farecast利用過去十年所有的航線機(jī)票價(jià)格打折數(shù)據(jù),來預(yù)測(cè)用戶購(gòu)買機(jī)票的時(shí)機(jī)是否合適。大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用具有數(shù)據(jù)量大查詢分析復(fù)雜等特點(diǎn)。對(duì)于“大數(shù)據(jù)data)研究機(jī)構(gòu)Gartner給了這樣的定義據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。二、大數(shù)的技術(shù)技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石將分別從云計(jì)算分布式處理技術(shù)存儲(chǔ)技術(shù)和感知技術(shù)的發(fā)展來說明大數(shù)據(jù)從采集、處理、存儲(chǔ)到形成結(jié)果的整個(gè)過程。2.1、云技術(shù)大數(shù)據(jù)常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要分布式處理框架來向數(shù)十、數(shù)百或甚至數(shù)萬的電腦分配工作以說云計(jì)算充當(dāng)了工業(yè)革命時(shí)期的發(fā)動(dòng)機(jī)的角色而大數(shù)據(jù)則是電。云計(jì)算思想的起源是麥卡錫在上世紀(jì)60代提出的:把計(jì)算能力作為一種像水和電一樣的公用事業(yè)提供給用戶。如今,在GoogleAmazonFacebook等一互聯(lián)網(wǎng)企業(yè)引領(lǐng)下,一種行之有效的模式出現(xiàn)了:云計(jì)算提供基礎(chǔ)架構(gòu)平臺(tái),大數(shù)據(jù)應(yīng)用運(yùn)行在這個(gè)平臺(tái)上。業(yè)內(nèi)是這么形容兩者的關(guān)系沒大數(shù)據(jù)的信息積淀則計(jì)算的計(jì)算能力再?gòu)?qiáng)大也難以找到用武之地有云計(jì)算的處理能力大數(shù)據(jù)的信息積淀再豐富終只是鏡花水月。那么大數(shù)據(jù)到底需要哪些云計(jì)算技術(shù)呢?這里暫且列舉一些如擬化技術(shù)分布式處理技術(shù),海量數(shù)據(jù)的存儲(chǔ)和管理技術(shù)NoSQL實(shí)時(shí)流數(shù)據(jù)處理、智能分析技術(shù)(類似模式識(shí),..

.別以及自然語(yǔ)言理解)等。2.2、分布式處理技分布式處理系統(tǒng)可以將不同地點(diǎn)的或具有不同功能的或擁有不同數(shù)據(jù)的多臺(tái)計(jì)算機(jī)用通信網(wǎng)絡(luò)連接起來控制系統(tǒng)的統(tǒng)一管理控制下調(diào)地完成信息處理任務(wù)—這就是分布式處理系統(tǒng)的定義。以(Yahoo為進(jìn)行說Hadoop是一個(gè)實(shí)現(xiàn)了MapReduce模的能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,是以一種可靠、高效、可伸縮的方式進(jìn)行處理的。而MapReduce是提的種云計(jì)算的核心計(jì)算模式,是一種分布式運(yùn)算技術(shù),也是簡(jiǎn)化的分布式編程模式MapReduce模的主要思想是將自動(dòng)分割要執(zhí)行的問如序)拆解成(射)和reduce(簡(jiǎn))的方式,在據(jù)被分割后通過Map函的程序?qū)?shù)據(jù)映射成不同的區(qū)塊,分配給計(jì)算機(jī)機(jī)群處理達(dá)到分布式運(yùn)算的效果,在通Reduce函的程序?qū)⒔Y(jié)果匯整,從而輸出開發(fā)者需要的結(jié)果。再來看看Hadoop的性,第一,它是可靠的,因?yàn)樗僭O(shè)計(jì)算元素和存儲(chǔ)會(huì)失敗,因此它維護(hù)多個(gè)工作數(shù)據(jù)副本確保能針對(duì)失敗的節(jié)點(diǎn)重新分布處理其次Hadoop是效的,因?yàn)樗圆⑿械姆绞焦ぷ餍刑幚砑涌焯幚硭俣冗€是可伸縮的處PB級(jí)數(shù)據(jù)。此外,Hadoop依賴社區(qū)服務(wù)器,因此它的成本比較低,任何人都可以使用。你也可以這么理解Hadoop的成Hadoop=HDFS文件系統(tǒng),數(shù)據(jù)存儲(chǔ)技術(shù)相關(guān))+HBase(數(shù)據(jù)庫(kù))+MapReduce(數(shù)據(jù)處理)2.3、存儲(chǔ)技術(shù)大數(shù)據(jù)可以抽象的分為大數(shù)據(jù)存儲(chǔ)和大數(shù)據(jù)分析兩的關(guān)系是數(shù)存儲(chǔ)的目的是支撐大數(shù)據(jù)分析到前為止還兩種截然不同的計(jì)算機(jī)技術(shù)領(lǐng)域數(shù)存儲(chǔ)致力于研發(fā)可以擴(kuò)展至PB甚至EB級(jí)別的數(shù)存儲(chǔ)平臺(tái)據(jù)析關(guān)注在最短時(shí)間內(nèi)處理大量不同類型的數(shù)據(jù)集。提到存儲(chǔ),有一個(gè)著名的摩爾定律相信大家都聽過月集成電路的復(fù)雜性就增加一倍。所以存儲(chǔ)器的成本大約每18-24個(gè)就下降一半本的不斷下降也造就了大數(shù)據(jù)的可存儲(chǔ)性。比如,大管理著超過50臺(tái)服務(wù)器和100塊硬盤,而且Google還不斷的擴(kuò)大計(jì)算能力和存儲(chǔ)能力很的擴(kuò)展都是基于在廉價(jià)服務(wù)器和普通存儲(chǔ)硬盤的基礎(chǔ)上進(jìn)行的,這大大降低了其服務(wù)成本,因此可以將更多的資金投入到技術(shù)的研發(fā)當(dāng)中。以Amazon舉,S3是種面向Internet的儲(chǔ)服務(wù)。該服務(wù)旨在讓開發(fā)人員能更輕松的進(jìn)行網(wǎng)絡(luò)規(guī)模計(jì)算。供一個(gè)簡(jiǎn)明的Web服務(wù)面,用戶可通過它隨時(shí)在Web上任何位置存儲(chǔ)和索的任意大小的數(shù)據(jù)此服務(wù)讓所有開發(fā)人員都能訪問同一個(gè)具備高擴(kuò)展性、可靠性、安全性和快速價(jià)廉的基礎(chǔ)設(shè)施Amazon用來運(yùn)行其全球的,..

.網(wǎng)站網(wǎng)絡(luò)再看看S3的計(jì)指標(biāo)特定年度內(nèi)為數(shù)據(jù)元提供99.999999999%的久性和99.99%的可性,并能夠承受個(gè)設(shè)施中的數(shù)據(jù)同時(shí)丟失。S3很功也確實(shí)卓有成效S3云的存儲(chǔ)對(duì)象已達(dá)到萬億級(jí)別,而且性能表現(xiàn)相當(dāng)良好S3云已經(jīng)擁萬億跨地域存儲(chǔ)對(duì)象時(shí)AWS對(duì)象執(zhí)行請(qǐng)求也達(dá)到百萬的峰值數(shù)量前球范圍內(nèi)已經(jīng)有數(shù)以十萬計(jì)的企業(yè)在通過運(yùn)行自己的全部或者部分日常業(yè)務(wù)企業(yè)用戶遍布190多個(gè)國(guó)家,幾乎世界的每個(gè)角落都有Amazon用戶的身影。2.4、預(yù)測(cè)技術(shù)大數(shù)據(jù)的核心在于“預(yù)測(cè)計(jì)算使數(shù)據(jù)從“小樣本”轉(zhuǎn)變成有機(jī)會(huì)對(duì)所有可能的數(shù)據(jù)進(jìn)行分析,預(yù)測(cè)將基于“據(jù)間的關(guān)聯(lián)性”而“為什么是這樣的因果性們只需要按照預(yù)測(cè)出來的趨勢(shì)去響應(yīng),使用這些結(jié)果。比如預(yù)測(cè)機(jī)票價(jià)格的走勢(shì),并給出可信度,幫助用戶來決定什么時(shí)間購(gòu)買機(jī)票最省錢。它不用關(guān)心為什么機(jī)票會(huì)有差異因?yàn)榧竟?jié)性還是因?yàn)槠渌裁丛騼H是預(yù)測(cè)當(dāng)前的機(jī)票未來一段時(shí)間會(huì)上漲還是下降果機(jī)票價(jià)格有上漲的趨勢(shì)統(tǒng)系統(tǒng)用戶立即購(gòu)買機(jī)票。而原始的數(shù)據(jù)可以從機(jī)票預(yù)訂數(shù)據(jù)庫(kù)或者行業(yè)網(wǎng)站上扒下來。這項(xiàng)預(yù)測(cè)技術(shù)可以用在類似的相關(guān)領(lǐng)域。比如賓館預(yù)訂,商品購(gòu)買等。比如通過汽車引擎的散熱和振動(dòng)來預(yù)測(cè)引擎是否會(huì)出現(xiàn)故障。亞馬遜的推薦系統(tǒng)是很好的例子馬遜從每一個(gè)客戶身上捕獲了大量的數(shù)據(jù)史買了什么哪商品只是瀏覽卻沒有買,瀏覽停留的時(shí)間些品是合并購(gòu)買的它做的是找到產(chǎn)品之間的關(guān)聯(lián)性。在零售行業(yè),銷售數(shù)據(jù)的統(tǒng)計(jì)分析,可以讓供應(yīng)商監(jiān)控銷售速率、數(shù)量、以及存貨情況,可以知道什么貨物和什么貨物擺在一起在什么位置銷量最好特的季節(jié)什么產(chǎn)品銷量最高。公共設(shè)施領(lǐng)域不是隨機(jī)的巡而是針對(duì)設(shè)施上報(bào)的數(shù)據(jù)以及故障發(fā)生的歷史數(shù)據(jù)環(huán)境數(shù)據(jù)進(jìn)行分析和預(yù)測(cè)中人力和物力優(yōu)先檢查最有可能出現(xiàn)問題的那些設(shè)施少體平均的故障發(fā)生率。最近的”棱計(jì)劃“,音視頻、圖片、郵件、文檔以及連接信息中分析個(gè)人可能對(duì)國(guó)家安全造成威脅的行動(dòng)。三、大數(shù)處理技術(shù)的望3.1、對(duì)于企業(yè),..

.對(duì)于企業(yè)的大數(shù)據(jù)著數(shù)據(jù)逐漸成為企業(yè)的一種資產(chǎn)據(jù)產(chǎn)業(yè)會(huì)向傳統(tǒng)企業(yè)的供應(yīng)鏈模式發(fā)展,最終形成“數(shù)據(jù)供應(yīng)鏈其有兩個(gè)明顯的現(xiàn)象1)外部數(shù)據(jù)的重要性日益超過內(nèi)部數(shù)據(jù)互聯(lián)互通的互聯(lián)網(wǎng)時(shí)代一企業(yè)的內(nèi)部數(shù)據(jù)與整個(gè)互聯(lián)網(wǎng)數(shù)據(jù)比較起來只是滄海一粟;能提包括數(shù)據(jù)供應(yīng)、數(shù)據(jù)整合與加工、數(shù)據(jù)應(yīng)用等多環(huán)節(jié)服務(wù)的公司會(huì)有明顯的綜合競(jìng)爭(zhēng)優(yōu)勢(shì)。以IBM舉,上一個(gè)十年,他們拋棄了PC成功轉(zhuǎn)向了軟件和服務(wù),而這次將遠(yuǎn)離服務(wù)與咨詢多地專注于因大數(shù)據(jù)分析軟件而帶來的全新業(yè)務(wù)增長(zhǎng)點(diǎn)執(zhí)行總裁羅睿蘭認(rèn)為,“數(shù)據(jù)將成為一切行業(yè)當(dāng)中決定勝負(fù)的根本因素,最終數(shù)據(jù)將成為人類至關(guān)重要的自然資源積的提出了“大數(shù)平臺(tái)”架構(gòu)。該平臺(tái)的四大核心能力包括Hadoop系統(tǒng)流計(jì)算(StreamComputing據(jù)庫(kù)DataWarehouse和信息整合與治理InformationIntegrationandGovernance)3.2、對(duì)于個(gè)人個(gè)人的大數(shù)據(jù)個(gè)人相關(guān)聯(lián)的各種有價(jià)值數(shù)據(jù)信息被有效采集后由人授權(quán)提供第三方進(jìn)行處理和使用,并獲得第三方提供的數(shù)據(jù)服務(wù)。未來每用戶可以在互聯(lián)網(wǎng)上冊(cè)個(gè)人的數(shù)據(jù)中心存儲(chǔ)個(gè)人的大數(shù)據(jù)信息用戶可確定哪些個(gè)人數(shù)據(jù)可被采集過可穿戴設(shè)備或植入芯片等感知技術(shù)來采集捕獲個(gè)人的大數(shù)據(jù),比如,牙齒監(jiān)控?cái)?shù)據(jù),心率數(shù)據(jù),體溫?cái)?shù)據(jù),視力數(shù)據(jù),記憶能力,地理位置信息,社會(huì)關(guān)系數(shù)據(jù),運(yùn)動(dòng)數(shù)據(jù)食數(shù)據(jù)購(gòu)物數(shù)據(jù)等等。用戶可以將其中的牙齒監(jiān)測(cè)數(shù)據(jù)授權(quán)給XX牙診所使用,由他們監(jiān)控和使用這些數(shù)據(jù),進(jìn)而為用戶制定有效的牙齒防治和維護(hù)計(jì)劃以個(gè)人的運(yùn)動(dòng)數(shù)據(jù)授權(quán)提供給某運(yùn)動(dòng)健身機(jī)構(gòu)監(jiān)測(cè)自己的身體運(yùn)動(dòng)機(jī)能,并有針對(duì)的制定和調(diào)整個(gè)人的運(yùn)動(dòng)計(jì)劃可將個(gè)人的消費(fèi)數(shù)據(jù)授權(quán)給金融理財(cái)機(jī)構(gòu)他們幫你制定合理的理財(cái)計(jì)劃并對(duì)收益進(jìn)行預(yù)測(cè)然中有一部分個(gè)人數(shù)據(jù)是無需個(gè)人授權(quán)即可提供給國(guó)家相關(guān)部門進(jìn)行實(shí)時(shí)監(jiān)控的罪案預(yù)防監(jiān)控中心可以實(shí)時(shí)的監(jiān)控本地區(qū)每個(gè)人的情緒和心理狀態(tài),以預(yù)防自殺和犯罪的發(fā)生。3.3、對(duì)于政府近期奧馬政府宣布投資2億元拉動(dòng)大數(shù)據(jù)相關(guān)產(chǎn)業(yè)發(fā)展,大據(jù)戰(zhàn)略上為國(guó)家意志。奧巴馬政府將數(shù)據(jù)定義為“未來的新石油示一個(gè)國(guó)家擁有數(shù)據(jù)的規(guī)模、活性及解釋運(yùn)用的能力將成為綜合國(guó)力的重要組成部分來對(duì)數(shù)據(jù)的占有和控制甚至將成為陸權(quán)、海權(quán)、空權(quán)之外的另一種國(guó)家核心資產(chǎn)。在國(guó)內(nèi),政府各個(gè)部門都握有構(gòu)成社會(huì)基礎(chǔ)的原始數(shù)據(jù),比如,氣象數(shù)據(jù),金融數(shù)據(jù),信用數(shù)據(jù),電力數(shù)據(jù),煤氣數(shù)據(jù),自來水?dāng)?shù)據(jù),道路交通數(shù)據(jù),客運(yùn)數(shù)據(jù),安全刑事案件數(shù)據(jù),住房數(shù)據(jù),海關(guān)數(shù)據(jù),出入境數(shù)據(jù),旅游數(shù)據(jù),醫(yī)療數(shù)據(jù),教育數(shù)據(jù),環(huán)保數(shù)據(jù)等等。這些數(shù)據(jù)在每個(gè)政府部門里面看起來是單一的態(tài)的但是果政府可以將這些數(shù)據(jù)關(guān)聯(lián)起來并這些數(shù)據(jù)進(jìn)行有效的關(guān)聯(lián)分析和統(tǒng)一管理些數(shù)據(jù)必定將獲得新生其價(jià)值是無法估量的。,..

.具體來說,現(xiàn)在城市都在走向智能和智慧,比如,智能電網(wǎng)、智慧交通、智慧醫(yī)療、智慧環(huán)保、智慧城市,這些都依托于大數(shù)據(jù),可以說大數(shù)據(jù)是智慧的核心能源。從國(guó)內(nèi)整體投資規(guī)模來看,到2012年底全國(guó)開建智慧城市的城市數(shù)超過180個(gè)通信網(wǎng)絡(luò)和數(shù)據(jù)平臺(tái)等基礎(chǔ)設(shè)施建設(shè)投資規(guī)模接近5000億元期間智慧城市建設(shè)拉動(dòng)的設(shè)備投資規(guī)模將達(dá)1萬元人民幣數(shù)據(jù)為智慧城市的各個(gè)領(lǐng)域提供決策支持城規(guī)劃方面通過對(duì)城市地理氣象等然

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論