版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1章高維大數(shù)據(jù)1.1-大數(shù)據(jù)介紹1.2大數(shù)據(jù)分析挖掘技術(shù)1.3大數(shù)據(jù)高維特征處理
1.1-大數(shù)據(jù)介紹
1.1.1-大數(shù)據(jù)產(chǎn)生的背景半個(gè)世紀(jì)以來(lái),隨著計(jì)算機(jī)技術(shù)融入社會(huì)生活,信息爆炸已經(jīng)積累到了開(kāi)始引發(fā)變革的程度。不僅世界充斥著比以往更多的信息,而且信息增長(zhǎng)速度也在加快。進(jìn)入21世紀(jì)后,數(shù)據(jù)信息更迎來(lái)了大發(fā)展的時(shí)代,移動(dòng)互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大地拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)迅速膨脹并變大。
1.1.2大數(shù)據(jù)的重要性
隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等技術(shù)和應(yīng)用的興起。學(xué)術(shù)界和工業(yè)界都對(duì)大數(shù)據(jù)賦予大量的關(guān)注并展開(kāi)了深刻的討論。Nature于2008年第一次推出BigData專(zhuān)刊[4]。Science在2011年2月推出專(zhuān)刊《DealingwithData》,主要圍繞著科學(xué)研究中大數(shù)據(jù)的問(wèn)題展開(kāi)討論,說(shuō)明了大數(shù)據(jù)對(duì)于科學(xué)研究的重要性。
計(jì)劃在科學(xué)研究、環(huán)境、生物醫(yī)學(xué)等領(lǐng)域利用大數(shù)據(jù)技術(shù)進(jìn)行突破。奧巴馬政府的這一計(jì)劃使大數(shù)據(jù)上升到國(guó)家戰(zhàn)略。Gartner在一年一度的技術(shù)成熟度曲線(xiàn)(見(jiàn)圖1-1)報(bào)告中指出,大數(shù)據(jù)已進(jìn)入膨脹期,并將在未來(lái)2~5年進(jìn)入發(fā)展高峰期。由此可見(jiàn),大數(shù)據(jù)是未來(lái)信息技術(shù)的重要發(fā)展方向之一。圖1-1-技術(shù)成熟度曲線(xiàn)
1.1.3大數(shù)據(jù)的定義和特征
麥肯錫說(shuō):“大數(shù)據(jù)指的是所涉及的數(shù)據(jù)集規(guī)模已經(jīng)超過(guò)了傳統(tǒng)數(shù)據(jù)庫(kù)軟件獲取、存儲(chǔ)、管理和分析的能力。這是一個(gè)被故意設(shè)計(jì)成主觀(guān)性的定義,并且是一個(gè)關(guān)于多大的數(shù)據(jù)集才能被認(rèn)為是大數(shù)據(jù)的可變定義,即:并不定義大于一個(gè)特定TB數(shù)字的數(shù)據(jù)集才叫大數(shù)據(jù)。因?yàn)殡S著技術(shù)的不斷發(fā)展,符合大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集容量也會(huì)增長(zhǎng),并且其定義隨不同的行業(yè)也有變化,這依賴(lài)于在一個(gè)特定行業(yè)通常使用何種軟件和數(shù)據(jù)集有多大。因此,大數(shù)據(jù)在今天不同行業(yè)中的范圍可以從數(shù)十太(TB)字節(jié)到數(shù)拍(PB)字節(jié)?!?/p>
IBM說(shuō):“可以用3個(gè)特征相結(jié)合來(lái)定義大數(shù)據(jù):數(shù)量(Volume)、種類(lèi)(Variety)和速度(Velocity),或者就是簡(jiǎn)單的3V或V3,即龐大容量、種類(lèi)豐富和極快速度生成及處理的數(shù)據(jù)?!比鐖D1-2所示。
圖1-2按數(shù)量、種類(lèi)和速度來(lái)定義大數(shù)據(jù)
數(shù)據(jù)量:如今存儲(chǔ)的數(shù)據(jù)數(shù)量正在急劇增長(zhǎng),使我們深陷在數(shù)據(jù)之中。我們存儲(chǔ)所有事物:環(huán)境數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、醫(yī)療數(shù)據(jù)、監(jiān)控?cái)?shù)據(jù)等。有關(guān)數(shù)據(jù)量已從太字節(jié)(TB)級(jí)別轉(zhuǎn)向拍字節(jié)(PB)級(jí)別,并且不可避免地會(huì)轉(zhuǎn)向ZB級(jí)別?,F(xiàn)在經(jīng)常聽(tīng)到一些企業(yè)使用存儲(chǔ)集群來(lái)保存數(shù)拍字節(jié)(PB)的數(shù)據(jù)??晒┢髽I(yè)使用的數(shù)據(jù)量不斷增長(zhǎng),而可處理、理解和分析的數(shù)據(jù)比例卻不斷下降。
數(shù)據(jù)的多樣性:與大數(shù)據(jù)現(xiàn)象有關(guān)的數(shù)據(jù)量為嘗試處理它的數(shù)據(jù)中心帶來(lái)了新的挑戰(zhàn):數(shù)據(jù)多樣的種類(lèi)。隨著傳感器、智能設(shè)備以及社交協(xié)作技術(shù)的激增,企業(yè)中的數(shù)據(jù)也變得更加復(fù)雜,因?yàn)樗粌H包含傳統(tǒng)的關(guān)系型數(shù)據(jù),還包含來(lái)自網(wǎng)頁(yè)、互聯(lián)網(wǎng)日志文件(包括單擊流數(shù)據(jù))、搜索索引、社交媒體論壇、電子郵件、文檔、主動(dòng)和被動(dòng)系統(tǒng)的傳感器數(shù)據(jù)等原始、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
數(shù)據(jù)的處理速度:就像我們收集和存儲(chǔ)的數(shù)據(jù)量及種類(lèi)發(fā)生了變化一樣,生成和需要處理數(shù)據(jù)的速度也在變化。速度的概念不能限定為與數(shù)據(jù)存儲(chǔ)相關(guān)的增長(zhǎng)速率,應(yīng)動(dòng)態(tài)地將此定義應(yīng)用到數(shù)據(jù)———數(shù)據(jù)流動(dòng)的速度。有效處理大數(shù)據(jù)需要在數(shù)據(jù)變化的過(guò)程中對(duì)它的數(shù)量和種類(lèi)進(jìn)行分析,而不只是在它靜止后進(jìn)行分析。
IDC指出:“大數(shù)據(jù)是一個(gè)貌似不知道從哪里冒出來(lái)的大的動(dòng)力。但是實(shí)際上,大數(shù)據(jù)并不是新生事物。然而,它確實(shí)正在走入主流,并得到重大關(guān)注,這是有原因的。廉價(jià)的存儲(chǔ)、傳感器和數(shù)據(jù)采集技術(shù)的快速發(fā)展,通過(guò)云和虛擬化存儲(chǔ)設(shè)施增加的信息鏈路,以及創(chuàng)新軟件和分析工具,正在驅(qū)動(dòng)著大數(shù)據(jù)。大數(shù)據(jù)不是一個(gè)‘事物’,而是一個(gè)跨多個(gè)信息技術(shù)領(lǐng)域的動(dòng)力和活動(dòng)。大數(shù)據(jù)技術(shù)描述了新一代的技術(shù)和架構(gòu),其被設(shè)計(jì)用于:通過(guò)使用高速(Velocity)的采集、發(fā)現(xiàn)或分析,從超大容量(Volume)的多樣(Variety)數(shù)據(jù)中經(jīng)濟(jì)地提取其價(jià)值(Value)?!?/p>
IDC的定義除了揭示了大數(shù)據(jù)傳統(tǒng)的3V基本特征,即Volume、Variety、Velocity,還增添了一個(gè)新特征:Value。
一個(gè)大數(shù)據(jù)實(shí)現(xiàn)的主要價(jià)值可以基于下面三個(gè)評(píng)價(jià)準(zhǔn)則中的一個(gè)或多個(gè)進(jìn)行評(píng)判:
?它提供了更有用的信息嗎?
?它改進(jìn)了信息的精確性嗎?
?它改進(jìn)了響應(yīng)的及時(shí)性嗎?
Gartner說(shuō):“實(shí)際上,大數(shù)據(jù)或者說(shuō)‘極限信息’(ExtremeInformation)具有12個(gè)維度。”圖1-3展示了極限信息管理的3個(gè)層次和12個(gè)象限。圖1-3Gartner極限信息管理的3個(gè)層次和12個(gè)象限
圖1-3中的最下面一層“量化指標(biāo)”指的是大數(shù)據(jù)的基本特征,即大數(shù)據(jù)量、多樣性和高速,這也就是傳統(tǒng)的3V的概念。另外還加上了復(fù)雜性,包括空間維、時(shí)間維等多種數(shù)據(jù)復(fù)雜性。大數(shù)據(jù)解決方案應(yīng)首先考慮以這些問(wèn)題為出發(fā)點(diǎn)。然而,解決這4個(gè)方面的問(wèn)題只是大數(shù)據(jù)解決方案的基礎(chǔ),用以支撐起大數(shù)據(jù)平臺(tái),在這之上還有很多問(wèn)題需要解決。
第二層“訪(fǎng)問(wèn)權(quán)限管理和控制”有很多關(guān)于訪(fǎng)問(wèn)權(quán)限的問(wèn)題。數(shù)據(jù)的敏感性是一個(gè)很基礎(chǔ)的問(wèn)題,但到現(xiàn)在為止,基于現(xiàn)有的技術(shù)和管理手段,還沒(méi)有對(duì)數(shù)據(jù)的敏感性進(jìn)行分析的優(yōu)秀解決方案。
共享協(xié)議:數(shù)據(jù)將會(huì)以什么形式、什么格式和時(shí)間點(diǎn),通過(guò)什么樣的接口實(shí)現(xiàn)這些共享和數(shù)據(jù)的交換,這是大數(shù)據(jù)的重點(diǎn)問(wèn)題之一。數(shù)據(jù)交換的所有方式都是以標(biāo)準(zhǔn)的協(xié)議來(lái)支持的,因?yàn)樵诖髷?shù)據(jù)的時(shí)代,數(shù)據(jù)的來(lái)源本身是多樣性的,數(shù)據(jù)的格式甚至是無(wú)法管理的,還有很多的數(shù)據(jù)是來(lái)自于企業(yè)的外部,來(lái)自于互聯(lián)網(wǎng)的提供商。
熱點(diǎn)數(shù)據(jù):在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的管理與傳統(tǒng)的方式有了非常明顯的差別。傳統(tǒng)的數(shù)據(jù)管理會(huì)把單獨(dú)的時(shí)間點(diǎn)作為一個(gè)熱點(diǎn)數(shù)據(jù),但是在大數(shù)據(jù)時(shí)代,熱點(diǎn)數(shù)據(jù)有可能是并行的多個(gè)。這些熱點(diǎn)數(shù)據(jù)本身之間實(shí)際上是有可能有聯(lián)系的。
最上面一層“質(zhì)量管理”在傳統(tǒng)的數(shù)據(jù)管理里是非常重要的一個(gè)方面。這里面提到的有效性、有效期限,都有明確的技術(shù)工具來(lái)解決。但到現(xiàn)在為止,在這些方面,還是非常地依賴(lài)于傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)的工具,沒(méi)有專(zhuān)門(mén)針對(duì)大數(shù)據(jù)的工具和技術(shù)能夠解決這些問(wèn)題。所以產(chǎn)生的結(jié)果是,現(xiàn)在產(chǎn)生的大數(shù)據(jù)的應(yīng)用,一方面受制于用戶(hù)接受的程度本身,另外一方面也受制于技術(shù)。
EMC指出:“大數(shù)據(jù)并不是一個(gè)準(zhǔn)確的術(shù)語(yǔ),相反,它是對(duì)各種數(shù)據(jù)(其中大多數(shù)是非結(jié)構(gòu)化的)永不休止的積聚的一種表征。它用以描述那些呈指數(shù)級(jí)增長(zhǎng),并且因太大、太原始或非結(jié)構(gòu)化程度太高而無(wú)法使用關(guān)系數(shù)據(jù)庫(kù)方法進(jìn)行分析的數(shù)據(jù)集。不論是數(shù)TB的數(shù)據(jù)量還是數(shù)PB的數(shù)據(jù)量,數(shù)據(jù)的精確數(shù)量不如最終結(jié)果及數(shù)據(jù)如何使用來(lái)得重要。”
EMC的大數(shù)據(jù)定義更強(qiáng)調(diào)大數(shù)據(jù)中的價(jià)值,特別是商業(yè)價(jià)值。大數(shù)據(jù)之所以流行,其主要的原因就是它能夠給企業(yè)的核心業(yè)務(wù)帶來(lái)直接的價(jià)值。具體的講,大數(shù)據(jù)能夠幫助企業(yè)做到以下3點(diǎn):
?發(fā)現(xiàn)新的收入增長(zhǎng)點(diǎn);
?優(yōu)化和完善現(xiàn)有的收入或利潤(rùn)空間;
?獲得超過(guò)其競(jìng)爭(zhēng)對(duì)手的競(jìng)爭(zhēng)優(yōu)勢(shì)。
上述定義中已經(jīng)提到大數(shù)據(jù)有多種特征,其中最具代表性的是3個(gè)V。除了上述業(yè)內(nèi)主流的以大數(shù)據(jù)3V特征為基礎(chǔ)的定義,還有使用3S或者3I描述大數(shù)據(jù)特征的定義。
3S分別是Size(大小)、Speed(速度)和Structure(結(jié)構(gòu))。實(shí)際上,這個(gè)維度的特征與3V是異曲同工的,除了用詞的不同,并沒(méi)有太大的差別。
大數(shù)據(jù)的3I指的是:
(1)Ill-defined(定義不明確的):多個(gè)主流的大數(shù)據(jù)定義都強(qiáng)調(diào)了數(shù)據(jù)的規(guī)模需要超過(guò)傳統(tǒng)方法的處理能力。
(2)Intimidatin大數(shù)據(jù)的過(guò)程充滿(mǎn)了g各(令種人挑生戰(zhàn)畏。的):從管理大數(shù)據(jù)到使用正確的工具獲取它的價(jià)值,利用
(3)Immediate(即時(shí)的):數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間快速衰減。因此為了保證大數(shù)據(jù)的可控性,需要通過(guò)減少數(shù)據(jù)收集到獲得數(shù)據(jù)使用之間的時(shí)間,使得大數(shù)據(jù)成為真正的即時(shí)大數(shù)據(jù)。這意味著能盡快地分析數(shù)據(jù)對(duì)獲得競(jìng)爭(zhēng)優(yōu)勢(shì)是至關(guān)重要的。
總而言之,大數(shù)據(jù)是個(gè)動(dòng)態(tài)的定義,不同行業(yè)根據(jù)其應(yīng)用的不同有著不同的理解,其衡量標(biāo)準(zhǔn)也在隨著技術(shù)的進(jìn)步而改變。
1.1.4大數(shù)據(jù)的構(gòu)成
大數(shù)據(jù)既是數(shù)據(jù)量的一個(gè)激增(從最開(kāi)始的ERP/CRM數(shù)據(jù),逐步擴(kuò)大到增加互聯(lián)網(wǎng)數(shù)據(jù),再到物聯(lián)網(wǎng)的傳感器等相關(guān)信息數(shù)據(jù)),同時(shí)也是數(shù)據(jù)復(fù)雜性的提升。大數(shù)據(jù)可以說(shuō)是量積累到一定程度后形成的規(guī)模化質(zhì)變。
大數(shù)據(jù)包含了“海量數(shù)據(jù)”的含義,在內(nèi)容上超越了海量數(shù)據(jù),簡(jiǎn)而言之,大數(shù)據(jù)是“海量數(shù)據(jù)”和復(fù)雜類(lèi)型的數(shù)據(jù)。大數(shù)據(jù)包括交易和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集,其規(guī)?;驈?fù)雜程度超出了常用技術(shù)按照合理的成本和時(shí)限捕捉、管理及處理這些數(shù)據(jù)集的能力。
大數(shù)據(jù)由三類(lèi)主要數(shù)據(jù)匯聚組成:
(1)海量交易數(shù)據(jù):在從ERP應(yīng)用程序到數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用程序的在線(xiàn)交易處理(OLTP)與分析系統(tǒng)中,傳統(tǒng)的關(guān)系數(shù)據(jù)以及非結(jié)構(gòu)化和半結(jié)構(gòu)化信息仍在繼續(xù)增長(zhǎng)。
(2)海量交互數(shù)據(jù):這一新生力量由源于Facebook、Twitter、LinkedIn及其他來(lái)源的社交媒體數(shù)據(jù)構(gòu)成。
(3)海量數(shù)據(jù)處理:利用多種輕型數(shù)據(jù)庫(kù)來(lái)接收發(fā)自客戶(hù)端的數(shù)據(jù),并將其導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù)或者分布式存儲(chǔ)集群,然后利用分布式數(shù)據(jù)庫(kù)對(duì)存儲(chǔ)于其內(nèi)的集中的海量數(shù)據(jù)進(jìn)行普通的查詢(xún)和分類(lèi)匯總等,以此滿(mǎn)足用戶(hù)對(duì)大多數(shù)常見(jiàn)數(shù)據(jù)的分析需求,同時(shí)對(duì)基于前面的查詢(xún)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,能滿(mǎn)足高級(jí)別的數(shù)據(jù)分析需求。
1.1.5大數(shù)據(jù)的機(jī)遇和挑戰(zhàn)
1.大數(shù)據(jù)的機(jī)遇
在很多應(yīng)用領(lǐng)域,數(shù)據(jù)正以史無(wú)前例的規(guī)模匯集,與以往基于猜測(cè)或模型進(jìn)行決策不同,如今,人們大多是根據(jù)數(shù)據(jù)本身進(jìn)行決策。大數(shù)據(jù)分析現(xiàn)在幾乎遍及著社會(huì)生活的方方面面,包括移動(dòng)服務(wù)、零售業(yè)、制造業(yè)、金融服務(wù)、生命科學(xué)和物質(zhì)科學(xué)等。
大數(shù)據(jù)在給科學(xué)研究帶來(lái)變革的同時(shí),也為教育帶來(lái)了變革。
另外,通過(guò)連續(xù)監(jiān)測(cè)、提前預(yù)防和個(gè)性化醫(yī)療,信息技術(shù)及大數(shù)據(jù)在降低醫(yī)療成本的同時(shí)可以提高醫(yī)療質(zhì)量。
大數(shù)據(jù)還可以為很多商業(yè)提供如下服務(wù):
(1)精準(zhǔn)廣告投放。
(2)醫(yī)療衛(wèi)生體系更加精密。
(3)個(gè)性化教育可能真正實(shí)現(xiàn)。
2.大數(shù)據(jù)的挑戰(zhàn)
面對(duì)大數(shù)據(jù)的洶涌來(lái)襲,傳統(tǒng)的數(shù)據(jù)處理方式應(yīng)對(duì)起來(lái)顯得越來(lái)越困難,我們?cè)诤芏鄷r(shí)候就像面對(duì)一個(gè)金礦,卻沒(méi)有有效的工具和手段,只能望“數(shù)據(jù)”興嘆。傳統(tǒng)分析技術(shù)面對(duì)大數(shù)據(jù)的困惑主要有:
(1)由于分析手段限制,不能充分利用所有數(shù)據(jù);
(2)受限于分析能力而無(wú)法獲取復(fù)雜問(wèn)題的答案;
(3)因?yàn)闀r(shí)限要求而不得不采用某項(xiàng)簡(jiǎn)單的建模技術(shù);
(4)因?yàn)闆](méi)有足夠時(shí)間運(yùn)算,只好對(duì)模型精度進(jìn)行妥協(xié)。
1)對(duì)技術(shù)架構(gòu)的挑戰(zhàn)
對(duì)現(xiàn)有數(shù)據(jù)庫(kù)管理技術(shù)的挑戰(zhàn)。傳統(tǒng)的數(shù)據(jù)庫(kù)部署不能處理數(shù)個(gè)大字節(jié)(TB)級(jí)別的數(shù)據(jù),也不能很好地支持高級(jí)別的數(shù)據(jù)分析。急速膨脹的數(shù)據(jù)體量即將超越傳統(tǒng)數(shù)據(jù)庫(kù)的管理能力。
2)對(duì)實(shí)時(shí)性的技術(shù)挑戰(zhàn)
一般而言,像數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)、商業(yè)智能應(yīng)用,對(duì)處理時(shí)間的要求并不高。因此這類(lèi)應(yīng)用往往運(yùn)行一兩天獲得結(jié)果依然是可行的。
3)對(duì)數(shù)據(jù)存儲(chǔ)及軟硬件的挑戰(zhàn)
人們每天創(chuàng)建的數(shù)據(jù)量正呈爆炸式增長(zhǎng),但就數(shù)據(jù)保存來(lái)說(shuō),現(xiàn)有的技術(shù)改進(jìn)不大,而數(shù)據(jù)丟失的可能性卻不斷增加。
4)對(duì)分析技術(shù)的挑戰(zhàn)
傳統(tǒng)意義上的數(shù)據(jù)分析主要針對(duì)結(jié)構(gòu)化數(shù)據(jù)展開(kāi),并已經(jīng)形成了一整套行之有效的分析體系。通過(guò)數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),用數(shù)據(jù)挖掘的聚類(lèi)、關(guān)聯(lián)分析等技術(shù)梳理、分析、提煉、獲取進(jìn)一步層面的知識(shí),這一系列的方法在處理一般結(jié)構(gòu)化數(shù)據(jù)時(shí)極為高效,但在處理大數(shù)據(jù)的過(guò)程中,由于非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)量的極大增長(zhǎng),給傳統(tǒng)的分析技術(shù)帶來(lái)了巨大的沖擊和挑戰(zhàn),主要體現(xiàn)在以下幾個(gè)方面:
(1)數(shù)據(jù)處理的實(shí)時(shí)性。
(2)動(dòng)態(tài)變化環(huán)境中索引的設(shè)計(jì)。
(3)先驗(yàn)知識(shí)的缺乏。
而在面對(duì)大數(shù)據(jù)分析時(shí),一方面是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存在,這些數(shù)據(jù)很難以類(lèi)似結(jié)構(gòu)化數(shù)據(jù)的方式構(gòu)建出其內(nèi)部的正式關(guān)系;另一方面很多數(shù)據(jù)以流的形式源源不斷地到來(lái),這些需要實(shí)時(shí)處理的數(shù)據(jù)很難有足夠的時(shí)間去建立先驗(yàn)知識(shí)。而無(wú)先驗(yàn)知識(shí)的數(shù)據(jù)更需要發(fā)現(xiàn)知識(shí)。
3.應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)
針對(duì)技術(shù)領(lǐng)域的挑戰(zhàn),科技工作者取得了很多研究成果。現(xiàn)有面向大數(shù)據(jù)的研究主要針對(duì)存儲(chǔ)、處理、分析、可視化等某一方面的關(guān)鍵技術(shù)。在大數(shù)據(jù)存儲(chǔ)方面,已有研究主要集中在各類(lèi)NoSQL和分布式文件系統(tǒng)。隨著互聯(lián)網(wǎng)和云計(jì)算的不斷發(fā)展,各種類(lèi)型的應(yīng)用層出不窮,對(duì)數(shù)據(jù)庫(kù)技術(shù)提出了更多要求,主要體現(xiàn)在以下方面:
(1)高并發(fā)讀寫(xiě)需求。
(2)海量數(shù)據(jù)的高效存儲(chǔ)和訪(fǎng)問(wèn)需求。
(3)高可擴(kuò)展性和高可用性需求。
1.1.6大數(shù)據(jù)應(yīng)用的發(fā)展方向
美國(guó)政府在2012年3月29日宣布投資兩億美元拉動(dòng)大數(shù)據(jù)相關(guān)產(chǎn)業(yè)發(fā)展,將“大數(shù)據(jù)戰(zhàn)略”上升為國(guó)家意志。美國(guó)奧巴馬政府在白宮網(wǎng)站發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》,提出“通過(guò)收集、處理龐大而復(fù)雜的數(shù)據(jù)信息,從中獲得知識(shí)和洞見(jiàn),提升能力,加快科學(xué)、工程領(lǐng)域的創(chuàng)新步伐,強(qiáng)化美國(guó)國(guó)土安全,轉(zhuǎn)變教育和學(xué)習(xí)模式”;中國(guó)工程院院士鄔賀銓指出:智慧城市是使用智能計(jì)算技術(shù)使得城市的關(guān)鍵基礎(chǔ)設(shè)施的組成和服務(wù)更智能、互聯(lián)和有效,隨著智慧城市的建設(shè),社會(huì)將步入“大數(shù)據(jù)”時(shí)代。
政府方面,大數(shù)據(jù)引起了政府職能變革,重視應(yīng)用大數(shù)據(jù)技術(shù),盤(pán)活各地云計(jì)算中心資產(chǎn),把原來(lái)大規(guī)模投資產(chǎn)業(yè)園、物聯(lián)網(wǎng)產(chǎn)業(yè)園從政績(jī)工程改造成智慧工程;在安防領(lǐng)域,應(yīng)用大數(shù)據(jù)技術(shù),提高應(yīng)急處置能力和安全防范能力;在民生領(lǐng)域,應(yīng)用大數(shù)據(jù)技術(shù),提升服務(wù)能力和運(yùn)作效率以及個(gè)性化的服務(wù),比如醫(yī)療、衛(wèi)生、教育等部門(mén);解決在金融、電信等領(lǐng)域中數(shù)據(jù)分析的問(wèn)題,原先受困于存儲(chǔ)能力和計(jì)算能力的限制,只局限在交易類(lèi)型數(shù)據(jù)的統(tǒng)計(jì)分析上,在預(yù)測(cè)與數(shù)據(jù)分析的領(lǐng)域?qū)㈤_(kāi)啟更加廣闊的應(yīng)用。
1.2大數(shù)據(jù)分析挖掘技術(shù)
大數(shù)據(jù)分析挖掘技術(shù)包括:改進(jìn)已有數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù);開(kāi)發(fā)數(shù)據(jù)網(wǎng)絡(luò)挖掘、特異群組挖掘、圖挖掘等新型數(shù)據(jù)挖掘技術(shù);突破基于對(duì)象的數(shù)據(jù)連接、相似性連接等大數(shù)據(jù)融合技術(shù);突破用戶(hù)興趣分析、網(wǎng)絡(luò)行為分析、情感語(yǔ)義分析等面向領(lǐng)域的大數(shù)據(jù)挖掘技術(shù)。
1.可視化分析
大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專(zhuān)家,同時(shí)還有普通用戶(hù),他們二者對(duì)于大數(shù)據(jù)分析最基本的要求就是可視化分析(AnalyticVisualizations),因?yàn)榭梢暬治瞿軌蛑庇^(guān)地呈現(xiàn)大數(shù)據(jù)的特點(diǎn),同時(shí)能夠非常容易地被讀者所接受,就如同看圖說(shuō)話(huà)一樣簡(jiǎn)單明了。
2.數(shù)據(jù)挖掘算法
大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘算法(DataMiningAlgorithms),各種數(shù)據(jù)挖掘算法基于不同的數(shù)據(jù)類(lèi)型和格式才能更加科學(xué)地呈現(xiàn)出數(shù)據(jù)本身具備的特點(diǎn),也正是因?yàn)檫@些被全世界統(tǒng)計(jì)學(xué)家所公認(rèn)的各種統(tǒng)計(jì)方法(可以稱(chēng)之為真理)才能深入數(shù)據(jù)內(nèi)部,挖掘出公認(rèn)的價(jià)值。另外一個(gè)方面也是因?yàn)橛羞@些數(shù)據(jù)挖掘算法才能更快速地處理大數(shù)據(jù),如果一個(gè)算法得花上好幾年才能得出結(jié)論,那大數(shù)據(jù)的價(jià)值也就無(wú)從說(shuō)起了。
3.預(yù)測(cè)性分析
大數(shù)據(jù)分析最重要的應(yīng)用領(lǐng)域之一就是預(yù)測(cè)性分析(PredictiveAnalyticCapabilities),從大數(shù)據(jù)中挖掘出特點(diǎn),通過(guò)科學(xué)地建立模型,之后便可以通過(guò)模型帶入新的數(shù)據(jù),從而預(yù)測(cè)未來(lái)的數(shù)據(jù)。
4.語(yǔ)義引擎
非結(jié)構(gòu)化數(shù)據(jù)的多元化給數(shù)據(jù)分析帶來(lái)新的挑戰(zhàn),我們需要一套工具系統(tǒng)地去分析、提煉數(shù)據(jù)。語(yǔ)義引擎(SemanticEngines)需要設(shè)計(jì)到有足夠的人工智能以足以從數(shù)據(jù)中主動(dòng)地提取信息。
5.數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理
大數(shù)據(jù)分析離不開(kāi)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理(DataQualityandMasterDataManagement)。高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理,無(wú)論是在學(xué)術(shù)研究還是在商業(yè)應(yīng)用領(lǐng)域,都能夠保證分析結(jié)果的真實(shí)和有價(jià)值。
1.3大數(shù)據(jù)高維特征處理
1.3.1-大數(shù)據(jù)分析挖掘過(guò)程大數(shù)據(jù)分析挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。大數(shù)據(jù)分析挖掘涉及的技術(shù)方法很多,有多種分類(lèi)法。
根據(jù)挖掘任務(wù)可分為分類(lèi)或預(yù)測(cè)模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類(lèi)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴(lài)關(guān)系或依賴(lài)模型發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)等等;根據(jù)挖掘?qū)ο罂煞譃殛P(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、遺產(chǎn)數(shù)據(jù)庫(kù)以及環(huán)球網(wǎng)Web;根據(jù)挖掘方法分,可粗分為機(jī)器學(xué)習(xí)方法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法。機(jī)器學(xué)習(xí)中,可細(xì)分為歸納學(xué)習(xí)方法(決策樹(shù)、規(guī)則歸納等)、基于范例的學(xué)習(xí)、遺傳算法等。
分為回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費(fèi)歇爾判別、非參數(shù)判別等)、聚類(lèi)分析(系統(tǒng)聚類(lèi)、動(dòng)態(tài)聚類(lèi)等)、探索性分析(主元分析法、相關(guān)分析法等)等。神經(jīng)網(wǎng)絡(luò)方法中,可細(xì)分為前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競(jìng)爭(zhēng)學(xué)習(xí)等)等。數(shù)據(jù)庫(kù)方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。大數(shù)據(jù)分析挖掘包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)建模以及知識(shí)評(píng)價(jià)等處理過(guò)程,如圖1-4所示。圖1-4大數(shù)據(jù)分析挖掘過(guò)程
從圖1-4可以看出,大數(shù)據(jù)分析挖掘?qū)嶋H上是數(shù)據(jù)“模型”的發(fā)現(xiàn)過(guò)程。其中數(shù)據(jù)有多種存儲(chǔ)形式,可以集中存儲(chǔ)于數(shù)據(jù)庫(kù)中,可以分布存儲(chǔ)于“云端”,也可以以數(shù)據(jù)流的形式存儲(chǔ);數(shù)據(jù)預(yù)處理的主要功能是消除數(shù)據(jù)噪聲,提高大數(shù)據(jù)分析挖掘的質(zhì)量。
常用的數(shù)據(jù)預(yù)處理的方法包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)降維等;數(shù)據(jù)建模主要利用統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)等方法提取數(shù)據(jù)的模式,數(shù)據(jù)建模方法可以歸納為兩種形式:
一是對(duì)數(shù)據(jù)進(jìn)行間接的近似的匯總形式,
二是從數(shù)據(jù)中抽取最突出的特征利用聚類(lèi)來(lái)匯總的形式;模型評(píng)價(jià)是利用預(yù)先設(shè)定的評(píng)價(jià)函數(shù)進(jìn)行模型的測(cè)試,對(duì)所建立的數(shù)據(jù)模型給出相當(dāng)?shù)脑u(píng)價(jià)。
大數(shù)據(jù)分析挖掘技術(shù)通過(guò)對(duì)數(shù)據(jù)的建模,挖掘出人們事先未知的、但又是潛在有用的信息,因此,其理論研究的具有非常重要的意義。
大數(shù)據(jù)分析挖掘是一個(gè)動(dòng)態(tài)的、強(qiáng)勢(shì)快速擴(kuò)展的領(lǐng)域,很多學(xué)者致力于研究大數(shù)據(jù)分析挖掘方法。大數(shù)據(jù)分析挖掘的主要研究?jī)?nèi)容包括:
(1)處理數(shù)據(jù)的不確定性、噪聲。實(shí)際的數(shù)據(jù)通常具有高維、噪聲、不確定性等特點(diǎn)。必要的數(shù)據(jù)清理、數(shù)據(jù)降維、不確定性的推理需要與大數(shù)據(jù)分析挖掘過(guò)程集成。
(2)挖掘新的知識(shí)類(lèi)型。根據(jù)數(shù)據(jù)的特征和數(shù)據(jù)分析任務(wù)對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)、分類(lèi)、回歸、關(guān)聯(lián)分析、離群點(diǎn)檢測(cè)等分析。由于應(yīng)用的多樣性,可以使用不同的大數(shù)據(jù)分析挖掘方法分析數(shù)據(jù)。
(3)挖掘多維數(shù)據(jù)的知識(shí)。多維數(shù)據(jù)可以從不同抽象層的多維屬性組合挖掘不同的模式。
此外,利用機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等其他學(xué)科的知識(shí)提高大數(shù)據(jù)分析挖掘的能力,大
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 電子商務(wù)平臺(tái)建設(shè)流程與關(guān)鍵節(jié)點(diǎn)
- 2026年作家文學(xué)素養(yǎng)測(cè)試題目
- 2026年生物信息學(xué)算法應(yīng)用基因序列分析測(cè)試題
- 2026年機(jī)械設(shè)計(jì)工程師晉升考試題庫(kù)及答案
- 2026年數(shù)據(jù)科學(xué)家考試數(shù)據(jù)挖掘與分析實(shí)操題
- 2026年經(jīng)濟(jì)專(zhuān)業(yè)考研試題國(guó)際金融國(guó)際投資模擬題
- 2026年食品安全考試食品加工與保存規(guī)范題集
- 2026年軟件工程實(shí)踐軟件開(kāi)發(fā)流程與項(xiàng)目管理實(shí)操題庫(kù)
- 2026年地理知識(shí)綜合考試題庫(kù)及答案解析
- 2026年現(xiàn)代化學(xué)基礎(chǔ)知識(shí)預(yù)測(cè)試題庫(kù)
- 廣西小額貸管理辦法
- 海南省醫(yī)療衛(wèi)生機(jī)構(gòu)數(shù)量基本情況數(shù)據(jù)分析報(bào)告2025版
- 電影院消防安全制度范本
- 酒店工程維修合同協(xié)議書(shū)
- 2025年版?zhèn)€人與公司居間合同范例
- 電子商務(wù)平臺(tái)項(xiàng)目運(yùn)營(yíng)合作協(xié)議書(shū)范本
- 動(dòng)設(shè)備監(jiān)測(cè)課件 振動(dòng)狀態(tài)監(jiān)測(cè)技術(shù)基礎(chǔ)知識(shí)
- 第六講-女性文學(xué)的第二次崛起-80年代女性文學(xué)
- 專(zhuān)題15平面解析幾何(選擇填空題)(第一部分)(解析版) - 大數(shù)據(jù)之十年高考真題(2014-2025)與優(yōu) 質(zhì)模擬題(新高考卷與全國(guó)理科卷)
- 部門(mén)考核方案
- 苗木種子采購(gòu)合同范本
評(píng)論
0/150
提交評(píng)論