版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
#B0JINGINSTTTUTEOFPHROCHEMJCALTECHNOLOGY專題報(bào)告項(xiàng)目名稱:課程名稱:大數(shù)據(jù)技術(shù)及其應(yīng)用計(jì)算機(jī)網(wǎng)絡(luò)班級: 測111 姓名: 學(xué)號: 教師:張曉明 信息工程學(xué)院計(jì)算機(jī)系目錄TOC\o"1-5"\h\z刖言 3\o"CurrentDocument"1大數(shù)據(jù)的概念 3\o"CurrentDocument"1.1大數(shù)據(jù)的四個(gè)特性 4\o"CurrentDocument"1.2大數(shù)據(jù)的三個(gè)特征 4\o"CurrentDocument"2大數(shù)據(jù)的關(guān)鍵術(shù) 5\o"CurrentDocument"2.1可視化分析 5\o"CurrentDocument"2.2數(shù)據(jù)挖掘算法 5\o"CurrentDocument"2.3數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理 5\o"CurrentDocument"3大數(shù)據(jù)的應(yīng)用案例 5.\o"CurrentDocument"4大數(shù)據(jù)價(jià)值與隱私保護(hù) 8\o"CurrentDocument"5大數(shù)據(jù)的發(fā)展前景 8\o"CurrentDocument"6結(jié)論 10\o"CurrentDocument"7參考文獻(xiàn) 10大數(shù)據(jù)技術(shù)及應(yīng)用引言進(jìn)入2012年以來,大數(shù)據(jù)(BigData)—詞越來越多地被提及與使用,人們用它來描述
和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù), 它已經(jīng)出現(xiàn)過在《紐約時(shí)報(bào)》、《華爾街時(shí)報(bào)》的專欄封面,進(jìn)入美國白宮網(wǎng)的新聞, 現(xiàn)身在國內(nèi)一些互聯(lián)網(wǎng)主題的講座沙龍中, 甚至被嗅覺靈敏的國君證券、國泰君安、銀河證券等寫進(jìn)了投資推薦報(bào)告,大數(shù)據(jù)時(shí)代來臨據(jù)。有人說21世紀(jì)是數(shù)據(jù)信息時(shí)代,移動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)大大拓展了互聯(lián)網(wǎng)的疆界和應(yīng)用領(lǐng)域。我們在享受便利的同時(shí),也無償貢獻(xiàn)了自己的“行蹤” 。現(xiàn)在互聯(lián)網(wǎng)不但知道對面是一只狗,還知道這只狗喜歡什么食物, 幾點(diǎn)出去遛彎,幾點(diǎn)回窩睡覺。我們不得不接受這個(gè)現(xiàn)實(shí),每個(gè)人在互聯(lián)網(wǎng)進(jìn)入到大數(shù)據(jù)時(shí)代, 都將是透明性存在。各種數(shù)據(jù)正在迅速膨脹并變大,它決定著企業(yè)的未來發(fā)展, 雖然現(xiàn)在企業(yè)可能并沒有意識到數(shù)據(jù)爆炸性增長帶來問題的隱患,但是隨著時(shí)間的推移, 人們將越來越多的意識到數(shù)據(jù)對企業(yè)的重要性。 大數(shù)據(jù)時(shí)代對人類的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn), 也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。 正如《紐約時(shí)報(bào)》2012年2月的一篇專欄中所稱,“大數(shù)據(jù)”時(shí)代已經(jīng)降臨,在商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域中,決策將日益基于數(shù)據(jù)和分析而作出, 而并非基于經(jīng)驗(yàn)和直覺。哈佛大學(xué)社會學(xué)教授加里?金說: “這是一場革命,龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開始了量化進(jìn)程,無論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進(jìn)程。 ”1大數(shù)據(jù)的概念"大數(shù)據(jù)"是一個(gè)體量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對其內(nèi)容進(jìn)行抓取、管理和處理。從圖 1模型不難看出,大數(shù)據(jù)從本質(zhì)上來講包含數(shù)量、類型、速度3個(gè)維度的問題,事實(shí)上,要想從根本上區(qū)別這 3個(gè)維度是不可能的。因?yàn)椋髷?shù)據(jù)概念的提出是源于技術(shù)的發(fā)展。大數(shù)據(jù)的本質(zhì)構(gòu)建如圖1所示。"大數(shù)據(jù)”首先是指數(shù)據(jù)體量(volumes)大,指代大型數(shù)據(jù)集,一般在10TB規(guī)模左右,但在實(shí)際應(yīng)用中,很多企業(yè)用戶把多個(gè)數(shù)據(jù)集放在一起,已經(jīng)形成了 PB級的數(shù)據(jù)量;其次是指數(shù)據(jù)類別(variety)大,數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富,已沖破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。接著是數(shù)據(jù)處理速度(Velocity)快,在數(shù)據(jù)量非常龐大的情況下,也能夠做到數(shù)據(jù)的實(shí)時(shí)處理。最后一個(gè)特點(diǎn)是指數(shù)據(jù)真實(shí)性(Veracity)高,隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興趣,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實(shí)性及安全性。1.1大數(shù)據(jù)的四個(gè)特性大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。這也是一個(gè)描述性的定義,在對數(shù)據(jù)描述的基礎(chǔ)上加入了處理此類數(shù)據(jù)的一些特征, 用這些特征來描述大數(shù)據(jù)。 當(dāng)前,較為統(tǒng)一的認(rèn)識是大數(shù)據(jù)有四個(gè)基本特征:數(shù)據(jù)規(guī)模大(Volume),數(shù)據(jù)種類多(Variety),數(shù)據(jù)要求處理速度快(Velocity),數(shù)據(jù)價(jià)值密度低(Value),即所謂的四V特性。(一)數(shù)據(jù)規(guī)模大(Volume):企業(yè)面臨著數(shù)據(jù)量的大規(guī)模增長。例如, IDC最近的報(bào)告預(yù)測稱,到2020年,全球數(shù)據(jù)量將擴(kuò)大50倍。目前,大數(shù)據(jù)的規(guī)模尚是一個(gè)不斷變化的指標(biāo),單一數(shù)據(jù)集的規(guī)模范圍從幾十 TB到數(shù)PB不等。簡而言之,存儲1PB數(shù)據(jù)將需要兩萬臺配備50GB硬盤的個(gè)人電腦。此外,各種意想不到的來源都能產(chǎn)生數(shù)據(jù)。(二) 數(shù)據(jù)種類多(Variety):一個(gè)普遍觀點(diǎn)認(rèn)為,人們使用互聯(lián)網(wǎng)搜索是形成數(shù)據(jù)多樣性的主要原因,這一看法部分正確。然而, 數(shù)據(jù)多樣性的增加主要是由于新型多結(jié)構(gòu)數(shù)據(jù),以及包括網(wǎng)絡(luò)日志、社交媒體、互聯(lián)網(wǎng)搜索、手機(jī)通話記錄及傳感器網(wǎng)絡(luò)等數(shù)據(jù)類型造成。其中,部分傳感器安裝在火車、汽車和飛機(jī)上,每個(gè)傳感器都增加了數(shù)據(jù)的多樣性。(三) 處理速度快(Velocity):高速描述的是數(shù)據(jù)被創(chuàng)建和移動的速度。 在高速網(wǎng)絡(luò)時(shí)代,通過基于實(shí)現(xiàn)軟件性能優(yōu)化的高速電腦處理器和服務(wù)器,創(chuàng)建實(shí)時(shí)數(shù)據(jù)流已成為流行趨勢。企業(yè)不僅需要了解如何快速創(chuàng)建數(shù)據(jù), 還必須知道如何快速處理、分析并返回給用戶,以滿足他們的實(shí)時(shí)需求。根據(jù)IMSResearch關(guān)于數(shù)據(jù)創(chuàng)建速度的調(diào)查,據(jù)預(yù)測,到2020年全球?qū)碛?20億部互聯(lián)網(wǎng)連接設(shè)備。(四) 數(shù)據(jù)價(jià)值密度低(Value):大數(shù)據(jù)具有多層結(jié)構(gòu),這意味著大數(shù)據(jù)會呈現(xiàn)出多變的形式和類型。相較傳統(tǒng)的業(yè)務(wù)數(shù)據(jù),大數(shù)據(jù)存在不規(guī)則和模糊不清的特性, 造成很難甚至無法使用傳統(tǒng)的應(yīng)用軟件進(jìn)行分析。 傳統(tǒng)業(yè)務(wù)數(shù)據(jù)隨時(shí)間演變已擁有標(biāo)準(zhǔn)的格式, 能夠被標(biāo)準(zhǔn)的商務(wù)智能軟件識別。目前,企業(yè)面臨的挑戰(zhàn)是處理并從各種形式呈現(xiàn)的復(fù)雜數(shù)據(jù)中挖掘價(jià)值。1.2大數(shù)據(jù)的三個(gè)特征除了有四個(gè)特性之外,大數(shù)據(jù)時(shí)代的數(shù)據(jù)還呈現(xiàn)出其他三個(gè)特征。第一個(gè)特征是數(shù)據(jù)類型繁多。包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等,多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高的要求第二個(gè)特征是數(shù)據(jù)價(jià)值密度相對較低。如隨著物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無處不在,信息海量,但價(jià)值密度較低,如何通過強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”是大數(shù)據(jù)時(shí)代亟待解決的難題。第三個(gè)特征是處理速度快,時(shí)效性要求高。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。2大數(shù)據(jù)的關(guān)鍵技術(shù)從所周知,大數(shù)據(jù)已經(jīng)不簡簡單單是數(shù)據(jù)大的事實(shí)了, 而最重要的現(xiàn)實(shí)是對大數(shù)據(jù)進(jìn)行分析,只有通過分析才能獲取很多智能的,深入的,有價(jià)值的信息。那么越來越多的應(yīng)用涉及到大數(shù)據(jù),而這些大數(shù)據(jù)的屬性, 包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要, 可以說是決定最終信息是否有價(jià)值的決定性因素?;谌绱说恼J(rèn)識,大數(shù)據(jù)分析普遍存在的方法理論有哪些呢?2.1可視化分析大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家, 同時(shí)還有普通用戶,但是他們二者對于大數(shù)據(jù)分析最基本的要求就是可視化分析, 因?yàn)榭梢暬治瞿軌蛑庇^的呈現(xiàn)大數(shù)據(jù)特點(diǎn), 同時(shí)能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了2.2數(shù)據(jù)挖掘算法大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘算法, 各種數(shù)據(jù)挖掘的算法基于不同的數(shù)據(jù)類型和格式才能更加科學(xué)的呈現(xiàn)出數(shù)據(jù)本身具備的特點(diǎn), 也正是因?yàn)檫@些被全世界統(tǒng)計(jì)學(xué)家所公認(rèn)的各種統(tǒng)計(jì)方法(可以稱之為真理)才能深入數(shù)據(jù)內(nèi)部,挖掘出公認(rèn)的價(jià)值。另外一個(gè)方面也是因?yàn)橛羞@些數(shù)據(jù)挖掘的算法才能更快速的處理大數(shù)據(jù), 如果一個(gè)算法得花上好幾年才能得出結(jié)論,那大數(shù)據(jù)的價(jià)值也就無從說起了。2.3數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理大數(shù)據(jù)分析離不開數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理,無論是在學(xué)術(shù)研究還是在商業(yè)應(yīng)用領(lǐng)域,都能夠保證分析結(jié)果的真實(shí)和有價(jià)值。 大數(shù)據(jù)分析的基礎(chǔ)就是以上五個(gè)方面,當(dāng)然更加深入大數(shù)據(jù)分析的話,還有很多很多更加有特點(diǎn)的、更加深入的、更加專業(yè)的大數(shù)據(jù)分析方法。3大數(shù)據(jù)的應(yīng)用案例麥肯錫在大數(shù)據(jù)的研究報(bào)告中指出,大數(shù)據(jù)的應(yīng)用已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為了重要的生產(chǎn)因素。按照專業(yè)領(lǐng)域劃分,信息技術(shù)、互聯(lián)網(wǎng)行業(yè)、商業(yè)、遙感探測已經(jīng)開始應(yīng)用大數(shù)據(jù)技術(shù)來進(jìn)行研究和生產(chǎn)效益; 生物信息技術(shù)、科研情報(bào)所、圖書情報(bào)領(lǐng)域已經(jīng)對大數(shù)據(jù)展開了研究, 并進(jìn)行了規(guī)劃;其他專業(yè)和行業(yè)對大數(shù)據(jù)可能仍處于了解階段,但大數(shù)據(jù)的浪潮很快就會波及大部分的行業(yè)領(lǐng)域。大數(shù)據(jù)應(yīng)用的關(guān)鍵,也是其必要條件,就在于"IT"與"經(jīng)營”的融合,當(dāng)然,這里的經(jīng)營的內(nèi)涵可以非常廣泛,小至一個(gè)零售門店的經(jīng)營,大至一個(gè)城市的經(jīng)營。 以下是關(guān)于各行各業(yè),不同的組織機(jī)構(gòu)在大數(shù)據(jù)方面的應(yīng)用的案例, 在此申明,以下案例均來源于網(wǎng)絡(luò),本文僅作引用,并在此基礎(chǔ)上作簡單的梳理和分類。
【醫(yī)療方面】:甲型H1N1是2009年出現(xiàn)的一種新的病毒,并短短幾周就迅速傳播開來。 谷歌公司把5000萬條美國人最頻繁檢索的詞條和美國疾控中心在 2003年至2008年間季節(jié)性流感傳播時(shí)期的數(shù)據(jù)進(jìn)行了比較。 一一2008年就做出了預(yù)判。圖 2為谷歌公司流感疫情的分析圖(2)【智慧能源】:維斯塔斯風(fēng)力系統(tǒng),依靠的是Biglnsights軟件和IBM超級計(jì)算機(jī),然后對氣象數(shù)據(jù)進(jìn)行分析,找出安裝風(fēng)力渦輪機(jī)和整個(gè)風(fēng)電場最佳的地點(diǎn)。利用大數(shù)據(jù),以往需要數(shù)周的分析工作,現(xiàn)在僅需要不足 1小時(shí)便可完成。圖3為維斯塔推崇的智慧能源電網(wǎng)結(jié)構(gòu)圖。圖(3)【交通方面】:美國、英國和我國的深圳對大數(shù)據(jù)在交通管理中的應(yīng)用進(jìn)行了實(shí)踐與探索。通過大數(shù)據(jù)進(jìn)行公共交通管理將面臨著如何開放公共交通數(shù)據(jù)、 如何保護(hù)個(gè)人隱私、如何進(jìn)行交通數(shù)據(jù)的存取等問題,可通過注意保護(hù)個(gè)人私密信息、提高交通數(shù)據(jù)存取的多樣性、提高交通數(shù)據(jù)質(zhì)量等途徑去解決。圖 4為交通信息采樣、分析系統(tǒng)。圖(4)【互聯(lián)網(wǎng)應(yīng)用】互聯(lián)網(wǎng)企業(yè)引領(lǐng)大數(shù)據(jù)應(yīng)用,并逐步深入其他行業(yè)。互聯(lián)網(wǎng)企業(yè)開展大數(shù)據(jù)應(yīng)用具有得天獨(dú)厚的優(yōu)勢。一是互聯(lián)網(wǎng)企業(yè)如谷歌和亞馬遜等擁有豐富的數(shù)據(jù)和強(qiáng)大的技術(shù)平臺; 二是互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用不是飛躍型的, 而是靠獲取長期的累積效益; 三是累積效益的獲取,主要靠持續(xù)不斷的快速技術(shù)迭代。 互聯(lián)網(wǎng)企業(yè)一直奉行敏捷開發(fā)、 快速迭代的軟件開發(fā)理念; 四是技術(shù)和應(yīng)用一體化組織, 是快速迭代的保障。基于以上的優(yōu)勢,掌握大量用戶行為數(shù)據(jù)的谷歌、亞馬遜、Twitter、淘寶、新浪等互聯(lián)網(wǎng)企業(yè)已廣泛開展定向廣告、個(gè)性推薦等較成熟的大數(shù)據(jù)應(yīng)用。在此基礎(chǔ)上, 2012年谷歌發(fā)布了其大數(shù)據(jù)的跨界應(yīng)用一一無人駕駛汽車,依靠龐大的道路信息數(shù)據(jù)(每秒鐘會采集超過 750M的數(shù)據(jù)),無人駕駛汽車可以智能地選擇路徑和駕駛等。國內(nèi)互聯(lián)網(wǎng)企業(yè)以阿里巴巴為代表, 在2012年7月推出數(shù)據(jù)分享平臺“聚石塔”,為天貓、淘寶平臺上的電商等提供數(shù)據(jù)云服務(wù),并擴(kuò)展到金融領(lǐng)域和物流行業(yè)。阿里巴巴基于對用戶交易行為的大數(shù)據(jù)分析, 提供面向中小企業(yè)的信用貸款, 據(jù)透露,截至目前已經(jīng)放貸300多億元,壞賬率僅為0.3%左右。而2013年5月阿里巴巴剛剛成立的“菜鳥”網(wǎng)絡(luò)物流,也是基于大數(shù)據(jù)平臺分析,聯(lián)手各大物流企業(yè),選擇最高效的送達(dá)方式?!倦娦艖?yīng)用】電信運(yùn)營商和互聯(lián)網(wǎng)企業(yè)的較量也蔓延到了大數(shù)據(jù)應(yīng)用。 其實(shí)電信行業(yè)一直有數(shù)據(jù)分析的應(yīng)用,只不過主要用于優(yōu)化自身業(yè)務(wù),價(jià)值提升度不大。比如,智能管道中基于用戶、業(yè)務(wù)及流量分級的多維管控機(jī)制, 以及精準(zhǔn)的客戶分析及營銷(如離網(wǎng)預(yù)警、 套餐適配、廣告精準(zhǔn)投放等),這些應(yīng)用大多數(shù)電信運(yùn)營商已踐行。由于互聯(lián)網(wǎng)大數(shù)據(jù)的成功,電信業(yè)重新審視自身的數(shù)據(jù)優(yōu)勢,一是用戶的真實(shí)信息(用戶身份、用戶賬戶等) ;二是用戶行為的全維度信息(所有Web的訪問記錄、位置信息等),基于這些優(yōu)勢,一些服務(wù)公共社會的應(yīng)用逐步展開,像智慧城市、利用位置和軌跡信息服務(wù)社會、 為智慧城市提供海量數(shù)據(jù)預(yù)測服務(wù)(例如西班牙電信、中國電信、中國移動等都已開展人口流量模型、城市人口流量等) 。而最新的應(yīng)用,向其他行業(yè)提供數(shù)據(jù)分析結(jié)果,似乎為電信運(yùn)營商大數(shù)據(jù)應(yīng)用展現(xiàn)一縷曙光。Verizon推出的PrecisionMarketInsights包括位置和Web瀏覽信息在內(nèi)的用戶分組信息(并非用戶原始信息),被以有償方式提供給體育場館、商場等需要做營銷的公司,如太陽隊(duì)就用它來了解觀眾賽后是否更有意愿光顧比賽的贊助商。 面對自身數(shù)據(jù)不足,不易獲得用戶互聯(lián)網(wǎng)或其他行業(yè)某一維度的深度行為信息, 部分運(yùn)營商也開始與互聯(lián)網(wǎng)企業(yè)展開合作, 引入用戶的深度行為信息。 Orange與Facebook合作推出PartyCall,F(xiàn)acebook賬號與電話號碼綁定,將Facebook的開放社交圖譜引入電信,為其他行業(yè)提供 API或加工后的用戶行為特征信息。【金融應(yīng)用】在傳統(tǒng)行業(yè)的大數(shù)據(jù)應(yīng)用中, 金融的大數(shù)據(jù)應(yīng)用走在前列。 金融行業(yè)很早就有將客戶交易行為錄制后進(jìn)行分析的傳統(tǒng)。我國金融行業(yè)也多采購國外的錄制設(shè)備(比如 NICE和彭博的產(chǎn)品),國內(nèi)廠商的產(chǎn)品不多。 2013年5月,全球最大的金融信息服務(wù)供應(yīng)商彭博涉嫌泄露用戶的行為信息,引發(fā)中國央行、歐洲央行、德國央行的高度關(guān)注。彭博數(shù)據(jù)終端被全球央行、投資銀行和基金公司廣泛使用, 能夠監(jiān)測到客戶所熱衷查詢的信息頁面, 例如美聯(lián)儲主席伯南克以及前財(cái)長蓋特納登錄彭博終端的情況, 并可由此用大數(shù)據(jù)技術(shù)推測其將采取的行動??梢姡髷?shù)據(jù)的安全愈發(fā)重要,我國金融行業(yè)對國內(nèi)廠商的產(chǎn)品需求會增大?!菊畱?yīng)用】美國等先進(jìn)國家政府部門開展大數(shù)據(jù)應(yīng)用。 美國國家科學(xué)基金會、 國家衛(wèi)生研究院、國防部、能源部、國防部高級研究局、地質(zhì)勘探局等 6個(gè)聯(lián)邦政府的部門和機(jī)構(gòu)投資 2億美元,開展大數(shù)據(jù)政府應(yīng)用。 美國國防部開展與網(wǎng)絡(luò)安全相關(guān)的若干大數(shù)據(jù)項(xiàng)目, 進(jìn)行情報(bào)搜集和分析。美國國家衛(wèi)生研究院著手建立健康與疾病相關(guān)的數(shù)據(jù)集、 基因組信息系統(tǒng)、公眾健康分析系統(tǒng)以及老齡化電子圖書數(shù)據(jù)庫等醫(yī)療大數(shù)據(jù)系統(tǒng)。國際上,早在 2009年,聯(lián)合國就啟動全球脈搏項(xiàng)目,跟蹤和監(jiān)控全球和各地區(qū)的社會經(jīng)濟(jì)數(shù)據(jù), 采用大數(shù)據(jù)技術(shù)進(jìn)行分析處理,以便更加及時(shí)地對危機(jī)做出反應(yīng)。 我國政府尚未把大數(shù)據(jù)上升到戰(zhàn)略高度, 政府部門的大數(shù)據(jù)應(yīng)用案例也較少。4大數(shù)據(jù)價(jià)值與隱私保護(hù)大數(shù)據(jù)在各行業(yè)的價(jià)值愈發(fā)重要, 并出現(xiàn)了數(shù)據(jù)市場。一種是公眾數(shù)據(jù)市場,比如美國政府倡導(dǎo)的政府開放數(shù)據(jù)計(jì)劃 的數(shù)據(jù)門戶,用戶在該門戶上可以免費(fèi)獲得某方面社會的數(shù)據(jù);一種是有價(jià)交易市場,像 上Salesforce有價(jià)提供用戶的分析結(jié)果的數(shù)據(jù),還有MicrosoftAzure的Marketplace。電信運(yùn)營商目前探索的向其他行業(yè)有價(jià)提供數(shù)據(jù)分析結(jié)果也屬于此類。另一方面,大數(shù)據(jù)的收集和使用中有關(guān)用戶個(gè)人隱私數(shù)據(jù)也是各界廣泛爭論的焦點(diǎn)。2013年1月,瑞士達(dá)沃斯世界經(jīng)濟(jì)論壇題為“解鎖個(gè)人信息的價(jià)值:從收集到使用”的報(bào)告建議,要將大數(shù)據(jù)監(jiān)管重心從收集環(huán)節(jié)轉(zhuǎn)移到限制數(shù)據(jù)的使用。 但是,剛剛披露的美國“棱鏡門”事件,更是讓大數(shù)據(jù)的收集和使用蒙上了一層陰影, 也使得數(shù)據(jù)安全在國家間的競爭中顯得尤為重要??梢?,要平衡大數(shù)據(jù)的使用和保護(hù)是一項(xiàng)艱巨的議題。5大數(shù)據(jù)的發(fā)展前景大數(shù)據(jù)的概念來源于、發(fā)展于美國,并向全球擴(kuò)展,必將給我國未來的科技與經(jīng)濟(jì)發(fā)展帶來深遠(yuǎn)影響。根據(jù)IDC統(tǒng)計(jì),目前數(shù)據(jù)量在全球比例為 :美國32%西歐19%中國13%預(yù)計(jì)到2020年中國將產(chǎn)生全球21%的數(shù)據(jù),我國是僅次于美國的數(shù)據(jù)大國,而我國大數(shù)據(jù)方面的研究尚處在起步階段, 如何開發(fā)、利用保護(hù)好大數(shù)據(jù)這一重要的戰(zhàn)略資源, 是我國當(dāng)前亟待解決的問題。表1為我國互聯(lián)網(wǎng)行業(yè)與電信行業(yè)大數(shù)據(jù)應(yīng)用場景的統(tǒng)計(jì)信息。40%罄U犧 40%罄U犧 7F<i%lHlfiihi:血517%買時(shí)百搟娛辭監(jiān)隹 t務(wù)整樓暫搭廉軽CCW買時(shí)百搟娛辭監(jiān)隹 t務(wù)整樓暫搭廉軽CCW欣機(jī)毗,”1駅R^?r<L201JZ4表(1)而大數(shù)據(jù)未來的發(fā)展趨勢則從以下幾個(gè)方面進(jìn)行:(1) 開放源代碼大數(shù)據(jù)獲得動力,關(guān)鍵在于開放源代碼,幫助分解和分析數(shù)據(jù)。 Hadoop和NoSQL數(shù)據(jù)庫便是其中的贏家,他們讓其他技術(shù)商望而卻步、處境很被動。 畢竟,我們需要清楚怎樣創(chuàng)建一個(gè)平臺,既能解開所有的數(shù)據(jù),克服數(shù)據(jù)相互獨(dú)立的障礙,又能將數(shù)據(jù)重新上鎖。(2) 市場細(xì)分當(dāng)今,許多通用的大數(shù)據(jù)分析平臺已投入市場, 人們同時(shí)期望更多平臺的出現(xiàn), 可以運(yùn)用在特殊領(lǐng)域,如藥物創(chuàng)新、客戶關(guān)系管理、應(yīng)用性能的監(jiān)控和使用。若市場逐步成熟,在通用分析平臺之上,開發(fā)特定的垂直應(yīng)用將會實(shí)現(xiàn)。 但現(xiàn)在的技術(shù)有限,除非考慮利用潛在的數(shù)據(jù)庫技術(shù)作為通用平臺 (如Hadoop、NoSQL)。人們期望更多特定的垂直應(yīng)用出現(xiàn),把目標(biāo)定為特定領(lǐng)域的數(shù)據(jù)分析,這些特定領(lǐng)域包括航運(yùn)業(yè)、 銷售業(yè)、網(wǎng)上購物、社交媒體用戶的情緒分析等。同時(shí),其他公司正在研發(fā)小規(guī)模分析引擎的軟件套件。 比如,社交媒體管理工具,這些工具以數(shù)據(jù)分析做為基礎(chǔ)。(3) 預(yù)測分析建模、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析和大數(shù)據(jù)經(jīng)常被聯(lián)系起來, 用以預(yù)測即將發(fā)生的事情和行為。有些事情是很容易被預(yù)測的, 比如壞天氣可以影響選民的投票率, 但是有些卻很難被準(zhǔn)確預(yù)測。例如,中間選民改變投票決定的決定性因素。但是,當(dāng)數(shù)據(jù)累加時(shí),我們基本上有能力可以大規(guī)模嘗試一個(gè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鐵路車站售票流程優(yōu)化方案
- 企業(yè)市場開拓策略與執(zhí)行方案
- (2025年)新疆醫(yī)療單位考試真題及答案
- 2025年貴州省民法專升本真題及答案
- 2025 年大學(xué)軟件工程(軟件工程概論)期末考核卷
- 數(shù)字資源保護(hù)誠信承諾書(6篇)
- 移動互聯(lián)網(wǎng)產(chǎn)品運(yùn)營方案案例分析
- 餐廳節(jié)能減排執(zhí)行方案
- 室內(nèi)裝修合同風(fēng)險(xiǎn)防范與管理方案
- 健康環(huán)保生活方式承諾函4篇
- 高壓避雷器課件
- 體檢中心收費(fèi)與財(cái)務(wù)一體化管理方案
- 四川省內(nèi)江市2024-2025學(xué)年高二上學(xué)期期末檢測化學(xué)試題
- 廣東省深圳市龍崗區(qū)2024-2025學(xué)年二年級上學(xué)期學(xué)科素養(yǎng)期末綜合數(shù)學(xué)試卷(含答案)
- 臨床成人吞咽障礙患者口服給藥護(hù)理
- 兒童呼吸道合胞病毒感染診斷治療和預(yù)防專家共識 4
- 雨課堂在線學(xué)堂《大數(shù)據(jù)技術(shù)與應(yīng)用》作業(yè)單元考核答案
- 全國計(jì)算機(jī)等級考試一級WPS Office真題題庫及答案
- 義警法律知識培訓(xùn)總結(jié)課件
- 實(shí)施指南(2025)《DZT 0462.5-2023 礦產(chǎn)資源“三率”指標(biāo)要求 第 5 部分:金、銀、鈮、鉭、鋰、鋯、鍶、稀土、鍺》解讀
- 棉塵安全培訓(xùn)課件
評論
0/150
提交評論