大數(shù)據(jù)與統(tǒng)計學_第1頁
大數(shù)據(jù)與統(tǒng)計學_第2頁
大數(shù)據(jù)與統(tǒng)計學_第3頁
大數(shù)據(jù)與統(tǒng)計學_第4頁
大數(shù)據(jù)與統(tǒng)計學_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據(jù)與統(tǒng)計學浙江工商大學李金昌引言

作為歸納分析的科學,統(tǒng)計學可以從亞里士多德的“城邦政情”算起,但作為一門數(shù)據(jù)分析的科學則應從配第的《政治算術》算起。

300多年來,統(tǒng)計學圍繞如何收集、整理和分析數(shù)據(jù)這一主線而發(fā)展,構建起了龐大、多元、融合的應用方法體系,幫助解決了各個領域大量復雜的現(xiàn)實問題。統(tǒng)計學的發(fā)展,是根據(jù)數(shù)據(jù)的型態(tài)和問題的本質(zhì)來改變的,不是因為我們會做他背后的數(shù)學而發(fā)展的。不要因為(統(tǒng)計的)問題困難而去做它;也不要因為它難而不做。(賀吉士J.L.Hodges,1922-2000)

R.C.Rao:統(tǒng)計的分析形式隨時代的推移而變化著,但是“從數(shù)據(jù)中提取一切信息”或者“歸納和揭示”作為統(tǒng)計分析的目的卻一直沒有改變。大數(shù)據(jù)時代的來臨,迫使統(tǒng)計學站在一個新的起點上。

1998年,《科學》雜志刊登的一篇介紹計算機軟件HiQ的文章《大數(shù)據(jù)的處理程序》中第一次正式使用了大數(shù)據(jù)(bigdata)一詞。2008年9月《自然》雜志出版“bigdata”???。最近幾年,關于大數(shù)據(jù)的文獻迅速增加,但絕大多數(shù)出于計算機領域的學者之手,較少有基于統(tǒng)計學視角的深度學術討論。一、對大數(shù)據(jù)的認識

最早與大數(shù)據(jù)概念有關的學科:天文學、氣象學和基因?qū)W,一開始就依賴于海量數(shù)據(jù)分析方法。但從現(xiàn)代意義上看,大數(shù)據(jù)可以說是計算機與互聯(lián)網(wǎng)相結合的產(chǎn)物,前者實現(xiàn)了數(shù)據(jù)的數(shù)字化,后者實現(xiàn)了數(shù)據(jù)的網(wǎng)絡化。大數(shù)據(jù)的本意是,所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。

4V特點:Volume、Velocity、Variety、Value。大數(shù)據(jù)自古有之?人類曾經(jīng)開展過的人口普查、產(chǎn)業(yè)普查等數(shù)據(jù),是否屬于大數(shù)據(jù)?在計算機技術與網(wǎng)絡化未得到充分發(fā)展以前,人們自然難以聯(lián)想出大數(shù)據(jù)這個概念。從統(tǒng)計學的角度看,大數(shù)據(jù)不是主要基于人工設計而獲得有限、固定、不連續(xù)、不可擴充的結構型數(shù)據(jù),而是主要基于現(xiàn)代信息技術與工具自動記錄、儲存、能連續(xù)擴充、大大超出傳統(tǒng)統(tǒng)計記錄與儲存能力的一切類型的數(shù)據(jù),最大特征是數(shù)字化基礎上的數(shù)據(jù)化。一定程度上看,大數(shù)據(jù)并不是一個嚴格的概念,而是一個比喻式的稱呼。(一)如何理解大數(shù)據(jù)的“大”一是“全體”的意思,即大數(shù)據(jù)就是全體數(shù)據(jù),并且數(shù)據(jù)量必須達到一定的規(guī)模。二是“可擴充”的意思,即大數(shù)據(jù)就是可以不斷擴充容量的數(shù)據(jù),任何數(shù)據(jù)一旦發(fā)生就可以被記錄、被吸收。三是“有待挖掘”的意思,即大數(shù)據(jù)就是有待挖掘的數(shù)據(jù)。大數(shù)據(jù)可能包含著豐富的、具有大價值的信息,但被超大量的數(shù)據(jù)所掩蓋、所分散而導致價值密度低,只有挖掘才能發(fā)現(xiàn)。(二)如何理解大數(shù)據(jù)的“數(shù)據(jù)”歷史告訴我們,數(shù)據(jù)的含義是隨著人類認識社會與自然現(xiàn)象的視野的變化、以及認識能力與技術水平的提升而改變的,經(jīng)歷了從傳統(tǒng)運算型數(shù)據(jù)到現(xiàn)代數(shù)字化數(shù)據(jù)的變化過程。把一切信息都看成數(shù)據(jù)是當今社會的一個特征,是一個自然進化的結果。大數(shù)據(jù)中的數(shù)據(jù)其實就是一切可以通過數(shù)字化手段記錄的信息。大數(shù)據(jù)除了結構型數(shù)據(jù)與非結構型數(shù)據(jù)的分類外,還可作以下分類:如果從大數(shù)據(jù)產(chǎn)生的途徑或渠道來看,大數(shù)據(jù)可以分為社交網(wǎng)絡數(shù)據(jù)、人機交換數(shù)據(jù)和感應數(shù)據(jù)(機器數(shù)據(jù))。如果從功能上看,大數(shù)據(jù)可以分為交易型數(shù)據(jù)、流程型數(shù)據(jù)和交互型數(shù)據(jù)。需要特別指出的是,網(wǎng)絡數(shù)據(jù)在大數(shù)據(jù)中占有特殊的份量,又可分為自媒體數(shù)據(jù)、日志數(shù)據(jù)和富媒體數(shù)據(jù)三類。從時間維度上,還可以把網(wǎng)絡大數(shù)據(jù)分為以用戶數(shù)據(jù)、日志數(shù)據(jù)為代表的歷史數(shù)據(jù),以及以視頻監(jiān)控數(shù)據(jù)和流媒體數(shù)據(jù)等為代表的流式數(shù)據(jù),其中歷史數(shù)據(jù)蘊含著大量有價值的信息?;跀?shù)據(jù)的分類,儲存數(shù)據(jù)與管理的方式——數(shù)據(jù)庫也有兩種類型:關系型數(shù)據(jù)庫(SQL接口)和非關系型數(shù)據(jù)庫(NOSQL接口)。(三)大數(shù)據(jù)是不是好數(shù)據(jù)?首先,大數(shù)據(jù)不會自動產(chǎn)生好的分析結果,不會自動把隱藏其中的秘密呈現(xiàn)出來,如果數(shù)據(jù)不完整、取舍不當或遭受破壞,那么就會產(chǎn)生錯誤的結論。其次,大數(shù)據(jù)是動態(tài)的,具有階段性特征,同樣的關聯(lián)詞在不同時段可能具有不同的含義,圍繞關聯(lián)詞的話題會隨著時間的推移而會發(fā)生某些偏離,從而導致有偏的結論。第三,對于我們所關心的研究主題,可能會受到大量沒有實際意義、實際內(nèi)容甚至虛假信息的干擾,讓我們面對一堆數(shù)據(jù)無從下手,大數(shù)據(jù)變成了大迷惑,甚至變成了大錯誤。第四,大數(shù)據(jù)中有很多小數(shù)據(jù)問題,這些問題并不會隨著數(shù)據(jù)的增加而消失,反而可能更嚴重。二、數(shù)據(jù)的變化與統(tǒng)計分析方法的發(fā)展(一)數(shù)據(jù)的變化回顧歷史可以發(fā)現(xiàn),數(shù)據(jù)的變化與統(tǒng)計分析方法的發(fā)展呈現(xiàn)高度吻合的關系。有一種觀點認為,數(shù)據(jù)的變化過程可以分為三大階段:數(shù)據(jù)的產(chǎn)生、科學數(shù)據(jù)的形成和大數(shù)據(jù)的誕生。數(shù)據(jù)據(jù)的的產(chǎn)產(chǎn)生生::數(shù)的的產(chǎn)產(chǎn)生生基基于于以以下下三三個個要要素素,,一一是是數(shù)數(shù),,二二是是量量,,三三是是計計量量單單位位。。數(shù)起起源源于于人人類類祖祖先先對對“多”或“少”的認認識識,,阿阿拉拉伯伯數(shù)數(shù)字字的的產(chǎn)產(chǎn)生生實實現(xiàn)現(xiàn)了了數(shù)數(shù)的的抽抽象象性性和和可可計計算算性性。。數(shù)的的概概念念及及數(shù)數(shù)的的基基本本邏邏輯輯關關系系形形成成以以后后,,人人們們將將數(shù)數(shù)的的神神秘秘性性作作為為探探尋尋與與研研究究的的目目標標之之一一,,不不斷斷建建立立起起更更加加完完備備的的、、抽抽象象的的數(shù)數(shù)的的體體系系。。以數(shù)數(shù)為為基基礎礎,,測測量量、、計計量量和和比比較較事事物物就就有有了了精精確確表表達達的的語語言言,,這這在在實實踐踐中中就就表表現(xiàn)現(xiàn)為為量量,,它它是是客客觀觀事事物物所所具具有有的的能能體體現(xiàn)現(xiàn)差差異異程程度度的的一一種種屬屬性性,,是是事事物物可可以以用用數(shù)數(shù)來來表表現(xiàn)現(xiàn)的的規(guī)規(guī)定定性性,,包包括括量量的的規(guī)規(guī)模模、、量量的的關關系系、、量量的的變變化化、、量量的的界界限限與與量量的的規(guī)規(guī)律律。。在以以數(shù)數(shù)來來表表示示事事物物的的特特征征并并采采用用了了科科學學的的計計量量單單位位后后,,就就產(chǎn)產(chǎn)生生了了真真正正意意義義上上的的數(shù)數(shù)據(jù)據(jù)———有根根據(jù)據(jù)的的數(shù)數(shù)。??茖W學數(shù)數(shù)據(jù)據(jù)的的形形成成::科學學數(shù)數(shù)據(jù)據(jù)的的形形成成得得益益于于對對數(shù)數(shù)據(jù)據(jù)的的科科學學研研究究,,是是在在科科學學研研究究過過程程中中基基于于科科學學設設計計、、通通過過有有針針對對的的觀觀察察和和測測量量獲獲得得的的、、用用以以認認知知自自然然現(xiàn)現(xiàn)象象和和社社會會現(xiàn)現(xiàn)象象的的變變化化規(guī)規(guī)律律或或用用以以驗驗證證已已有有理理論論假假設設的的數(shù)數(shù)據(jù)據(jù)。。哲學學家家培培根根所所倡倡導導的的“實驗驗觀觀察察-歸納納分分析析”的方法思思想和笛笛卡爾所所倡導的的數(shù)理演演繹方法法,將數(shù)數(shù)據(jù)的使使用提高高到了科科學方法法論的地地位,使使數(shù)據(jù)成成為了科科學研究究的基本本要素,,并使如如何科學學收集數(shù)數(shù)據(jù)成為為了研究究課題。。近代科學學將數(shù)據(jù)據(jù)融于自自然科學學研究范范式的實實踐,不不僅提高高了人類類認識事事物的精精確性,,更為重重要的是是其逐步步形成的的數(shù)學化化思維與與方程表表達式解解決了不不同物理理量之間間的數(shù)值值關系表表達問題題,從而而為開展展相關事事物之間間的定量量研究提提供了途途徑。17世紀的自自然哲學學家開普普勒對第第谷大量量的天文文觀察數(shù)數(shù)據(jù)的使使用,推推導出了了行星運運動三大大定律;;伽利略略對地球球表面物物體運動動的數(shù)據(jù)據(jù)測量建建立了自自由落體體運動規(guī)規(guī)律;牛牛頓利用用大量的的天文觀觀察數(shù)據(jù)據(jù)和實驗驗測量數(shù)數(shù)據(jù),創(chuàng)創(chuàng)立了牛牛頓力學學體系。??茖W數(shù)據(jù)據(jù)因其所所具有的的共享性性與精確確性等特特點而成成為了科科學研究究的普適適語言。。在自然科科學對數(shù)數(shù)據(jù)進行行科學研研究的同同時,社社會科學學領域也也對數(shù)據(jù)據(jù)進行了了科學范范式的研研究,并并發(fā)現(xiàn)了了例如平平均人、、恩格爾爾系數(shù)、、基尼系系數(shù)等定定律。就統(tǒng)計學學而言,,它的產(chǎn)產(chǎn)生與發(fā)發(fā)展過程程就是對對科學數(shù)數(shù)據(jù)進行行研究的的過程,,每一種種統(tǒng)計分分析方法法都是在在對科學學數(shù)據(jù)進進行科學學研究的的基礎上上形成的的。大數(shù)據(jù)的的誕生::20世紀中期期開始的的生物基基因測序序研究所所積累的的大量數(shù)數(shù)據(jù),面面臨著如如何理解解和處理理的新挑挑戰(zhàn)。同同樣的問問題逐漸漸蔓延到到各個學學科領域域,包括括天文學學研究,,基本粒粒子研究究,氣象象學研究究和社會會學研究究等。1966年,國際際科技數(shù)數(shù)據(jù)委員員會(CODATA)成立,,旨在促促進全球球科技數(shù)數(shù)據(jù)的共共享。面面對海量量數(shù)據(jù)、、快速增增加的數(shù)數(shù)據(jù),人人們開始始重新審審視和定定義數(shù)據(jù)據(jù)。如果果說計算算機技術術等的快快速發(fā)展展,是大大數(shù)據(jù)產(chǎn)產(chǎn)生的基基礎因素素,那么么人類對對數(shù)據(jù)理理念的深深化、對對數(shù)據(jù)多多樣性的的追求、、對信息息的永不不滿足,,是大數(shù)數(shù)據(jù)產(chǎn)生生的內(nèi)在在因素。。以非結構構化數(shù)據(jù)據(jù)為主體體的大數(shù)數(shù)據(jù),正正在改變變著一切切,而以以大數(shù)據(jù)據(jù)為研究究對象,,通過挖挖掘、提提取等手手段探尋尋現(xiàn)象內(nèi)內(nèi)在規(guī)律律的學科科——數(shù)據(jù)科學學也應運運而生。??偨Y:數(shù)數(shù)據(jù)產(chǎn)生生之初,,其根本本的功能能就是體體現(xiàn)事物物或現(xiàn)象象的量的的大小或或多少,,便于計計數(shù)與比比較,數(shù)數(shù)據(jù)大多多自然獲獲得、被被動利用用;科學學數(shù)據(jù)以以研究與與管理為為目的,,一般是是主動獲獲得、主主動利用用;而大大數(shù)據(jù)的的特征則則是豐富富的數(shù)據(jù)據(jù)資源與與主動獲獲得數(shù)據(jù)據(jù)相結合合,數(shù)據(jù)據(jù)類型多多樣化。。當然,,數(shù)據(jù)的的演變是是一個漸漸進的過過程,它它不是簡簡單的一一種形式式代替另另一種形形式,而而是一個個由簡單單到復雜雜的各種種形式相相互包容容、不斷斷豐富的的過程。。(二)統(tǒng)統(tǒng)計分析析方法的的發(fā)展如果說數(shù)數(shù)據(jù)是表表現(xiàn)事物物特征的的精確語語言、認認知世界界的重要要工具、、治理國國家的必必備依據(jù)據(jù)和科學學研究的的必備條條件,那那么數(shù)據(jù)據(jù)分析則則是讓數(shù)數(shù)據(jù)充分分說話、、最大限限度發(fā)揮揮功能、、有效滿滿足不同同需要的的根本要要求。在在科學數(shù)數(shù)據(jù)研究究基礎上上形成的的具有通通用性質(zhì)質(zhì)的方法法就是統(tǒng)統(tǒng)計方法法??v觀統(tǒng)計計學發(fā)展展史,統(tǒng)統(tǒng)計數(shù)據(jù)據(jù)大體上上經(jīng)歷了了這樣一一個過程程:只能能收集到到少量的的數(shù)據(jù)—盡量多地地收集數(shù)數(shù)據(jù)—科學利用用樣本數(shù)數(shù)據(jù)—綜合利用用各類數(shù)數(shù)據(jù)—選擇使用用大數(shù)據(jù)據(jù),而統(tǒng)統(tǒng)計分析析經(jīng)歷了了不同階階段,相相應地產(chǎn)產(chǎn)生了大大量觀察察法、統(tǒng)統(tǒng)計分組組法、綜綜合指標標法、歸歸納推斷斷法、模模型方程程法和數(shù)數(shù)據(jù)挖掘掘法等分分析方法法,并且且借助計計算機及及其軟件件的程度度也越來來越深。。配第的《政治算術術》和格朗特特的《關于死亡亡表的自自然觀察察和政治治觀察》,開啟了了社會經(jīng)經(jīng)濟現(xiàn)象象數(shù)據(jù)分分析的先先河。但但他們所所能運用用的數(shù)據(jù)據(jù)資源非非常有限限,只能能算是最最初級形形態(tài)的數(shù)數(shù)據(jù)而非非真正意意義上的的科學數(shù)數(shù)據(jù)。他們的分分析方法法現(xiàn)在看看來十分分簡單,,但在當當時非常常了不起起,其數(shù)數(shù)據(jù)加方方法的思思想影響響至今,,特別是是他們所所倡導的的大量觀觀察法、、統(tǒng)計分分組法成成為了統(tǒng)統(tǒng)計學最最基本的的研究方方法。特別是,,格朗特特通過不不完整但但足夠量量的登記記數(shù)據(jù)初初步發(fā)現(xiàn)現(xiàn)了大數(shù)數(shù)法則,,提出了了數(shù)據(jù)簡簡約的概概念,通通過推算算方法初初創(chuàng)了生生命表,,探討了了數(shù)據(jù)的的可信性性問題,,并提出出了人口口數(shù)的推推算公式式。沒有他們們這種將將數(shù)據(jù)與與方法相相結合的的“形”,就不可可能產(chǎn)生生統(tǒng)計的的“學”。隨著數(shù)據(jù)據(jù)分析意意義的顯顯現(xiàn),以以及受到到大量觀觀察法的的影響,,人們開開始盡可可能多地地收集數(shù)數(shù)據(jù),包包括登記記數(shù)據(jù)、、普查數(shù)數(shù)據(jù)、測測量數(shù)據(jù)據(jù)、實驗驗數(shù)據(jù)和和觀察數(shù)數(shù)據(jù)。統(tǒng)統(tǒng)計學也也進入到到了科學學數(shù)據(jù)研研究階段段。社會經(jīng)濟濟領域的的數(shù)據(jù)一一般都是是登記數(shù)數(shù)據(jù)與調(diào)調(diào)查數(shù)據(jù)據(jù),為了了科學表表明數(shù)據(jù)據(jù)的意義義,實現(xiàn)現(xiàn)數(shù)據(jù)表表現(xiàn)與現(xiàn)現(xiàn)象內(nèi)涵涵的統(tǒng)一一,就產(chǎn)產(chǎn)生了用用統(tǒng)計指指標來表表現(xiàn)數(shù)據(jù)據(jù)特征的的方法,,即統(tǒng)計計指標法法。隨著分工工細化、、記錄數(shù)數(shù)據(jù)增加加,在社社會經(jīng)濟濟領域出出現(xiàn)了成成組、成成群相關關的數(shù)據(jù)據(jù),以及及專門調(diào)調(diào)查獲得得的數(shù)據(jù)據(jù)(例如如人口調(diào)調(diào)查、產(chǎn)產(chǎn)業(yè)調(diào)查查等),,逐漸產(chǎn)產(chǎn)生了各各種運用用統(tǒng)計指指標體系系進行綜綜合分析析的方法法,例如如綜合評評價法、、主成分分分析法法、聚類類評判法法等。為了從數(shù)數(shù)量上弄弄清楚經(jīng)經(jīng)濟運行行過程中中各部門門、各環(huán)環(huán)節(jié)之間間的關系系,人們們研究發(fā)發(fā)明了投投入產(chǎn)出出分析法法。為了科學學核算經(jīng)經(jīng)濟活動動成果,,掌握經(jīng)經(jīng)濟總產(chǎn)產(chǎn)出的構構成與去去向,在在經(jīng)濟學學原理和和科學指指標內(nèi)涵涵的基礎礎上,產(chǎn)產(chǎn)生和發(fā)發(fā)展了國國民經(jīng)濟濟核算法法。為了掌握握物價的的綜合變變動,反反映復雜雜現(xiàn)象的的發(fā)展方方向,產(chǎn)產(chǎn)生了綜綜合指數(shù)數(shù)分析法法。為了掌握握社會經(jīng)經(jīng)濟現(xiàn)象象變動規(guī)規(guī)律、預預測未來來發(fā)展趨趨勢,產(chǎn)產(chǎn)生了時時間序列列分析法法?;趯嶒烌灁?shù)據(jù),,統(tǒng)計學學產(chǎn)生了了概率論論、分布布理論、、回歸分分析方法法、小樣樣本分布布理論和和假設檢檢驗方法法。眾所周知知,14世紀歐洲洲以骰子子為工具具的賭博博非常盛盛行,圍圍繞骰子子可能出出現(xiàn)的情情況和賭賭本分配配問題,,再加上上取球、、拋擲硬硬幣等實實驗,帕帕斯卡、、費馬、、惠更斯斯、伯努努利、狄狄莫弗等等人共同同研究建建立了概概率論,,發(fā)明了了大數(shù)定定律,發(fā)發(fā)現(xiàn)了二二項分布布與超幾幾何分布布,并為為正態(tài)分分布理論論的建立立奠定了了基礎。。隨著概率率論被引引入到統(tǒng)統(tǒng)計學中中,幫助助解決了了人口推推算、壽壽命保險險、生命命表編制制、產(chǎn)品品質(zhì)量控控制等諸諸多比賭賭博更為為復雜的的現(xiàn)實問問題。同樣,高高爾頓通通過對遺遺傳學實實驗數(shù)據(jù)據(jù)(甜豌豌豆種植植的實驗驗數(shù)據(jù)))以及抽抽樣觀察察數(shù)據(jù)((親子身身高的觀觀察數(shù)據(jù)據(jù)),發(fā)發(fā)現(xiàn)了回回歸現(xiàn)象象,發(fā)明明了在各各個領域域得到廣廣泛應用用的回歸歸分析法法并提出出了相關關系數(shù)的的初步概概念(相相關指數(shù)數(shù)),奠奠定了模模型方程程法的基基礎,極極大地提提高了人人們開展展統(tǒng)計分分析的能能力。戈賽特則則利用釀釀酒公司司僅有的的小樣本本實驗數(shù)數(shù)據(jù),發(fā)發(fā)明了著著名的小小樣本“t”分布理論論,推進進了推斷斷統(tǒng)計方方法的發(fā)發(fā)展。費歇爾基基于人為為的女士士品茶的的實驗數(shù)數(shù)據(jù)和達達爾文關關于施肥肥方法影影響作物物高度的的實驗數(shù)數(shù)據(jù)的研研究,構構建了假假設檢驗驗的基本本方法并并得到了了廣泛的的應用。?;谟^察察數(shù)據(jù),,統(tǒng)計學學產(chǎn)生了了誤差正正態(tài)分布布和最小小平方法法。對天文觀觀察數(shù)據(jù)據(jù)研究而而形成的的誤差正正態(tài)分布布和最小小平方法法在統(tǒng)計計學中具具有極重重要的地地位。開開普勒的的觀察數(shù)數(shù)據(jù),經(jīng)經(jīng)過伽利利略、辛辛普森、、拉普拉拉斯等人人的探求求,最終終由高斯斯導出了了著名的的誤差正正態(tài)分布布。凱特勒等等統(tǒng)計學學家及時時地將拉拉普拉斯斯的中心心極限定定理與高高斯的誤誤差正態(tài)態(tài)理論運運用于社社會數(shù)據(jù)據(jù)的研究究,使正正態(tài)分布布的應用用盛行一一時。在誤差理理論基礎礎上,高高斯、勒勒讓德等等人發(fā)現(xiàn)現(xiàn)了最小小平方法法,并迅迅速從天天文學和和測地學學的數(shù)據(jù)據(jù)研究應應用擴展展到其他他領域,,尤其是是與回歸歸分析相相結合后后成為了了統(tǒng)計分分析最常常用的方方法,至至今仍為為主流。。皮爾遜對對生物觀觀察數(shù)據(jù)據(jù)的研究究,形成成了皮爾爾遜分布布族,提提出了參參數(shù)估計計矩法,,發(fā)展了了相關分分析法。。數(shù)據(jù)的獲獲得需要要投入,,并且有有些數(shù)據(jù)據(jù)難以得得到全體體數(shù)據(jù)。。人們自自然想到到:能否否通過總總體中部部分個體體的數(shù)據(jù)據(jù)來達到到認識總總體特征征、繼而而進行統(tǒng)統(tǒng)計分析析的目的的?隨著著概率論論、中心心極限定定理與正正態(tài)分布布理論的的產(chǎn)生與與發(fā)展,,這種愿愿望成為為了可能能。經(jīng)過拉普普拉斯、、凱爾、、馬哈拉拉諾比斯斯、鮑萊萊、費歇歇爾、尼尼曼等人人的抽樣樣實踐與與理論探探求,隨隨機抽樣樣理論在在20世紀得到了迅迅速發(fā)展,并并產(chǎn)生了多種種具體的抽樣樣方式?;跇颖緮?shù)據(jù)據(jù)的歸納推斷斷方法—包括參數(shù)估計計與假設檢驗驗在實踐中得得到了廣泛的的應用,抽樣樣調(diào)查數(shù)據(jù)一一度成為了統(tǒng)統(tǒng)計分析的主主要數(shù)據(jù)來源源,如何用盡盡量小的樣本本得到盡量精精確的推斷成成為了抽樣研研究的核心問問題。用抽樣法獲取取數(shù)據(jù)已得到到了100年的充分肯定定。如今,人類邁邁入了智能化化的時代,數(shù)數(shù)據(jù)的產(chǎn)生有有了新的方式式——電子化、數(shù)字字化、多樣化化、可保存、、可擴充、可可兼容的大數(shù)數(shù)據(jù)。這是一一種基于科學學技術而產(chǎn)生生的、既具有有科學數(shù)據(jù)的的特征又超越越于科學數(shù)據(jù)據(jù)的、完全不不一樣的數(shù)據(jù)據(jù)。2007年,已故圖靈靈獎獲得者吉吉姆·格雷(JimGray)在題為《第四科學研究究范式:密集集型數(shù)據(jù)挖掘掘》的演講中提到到,科學經(jīng)歷歷幾千年的歷歷史演變形成成了四個關鍵鍵性的科學范范式,第四個個就是近幾年年出現(xiàn)的數(shù)據(jù)據(jù)挖掘或eScience范式。顯然,從第二二個研究范式式開始都依賴賴于數(shù)據(jù)的研研究。新的研研究范式需要要新的數(shù)據(jù)研研究方法,這這對統(tǒng)計學來來說既是機遇遇又是挑戰(zhàn)。??偨Y:之前,,我們手中的的數(shù)據(jù)量相對對不足,對數(shù)數(shù)據(jù)的研究是是“由薄變厚”,把“小”數(shù)據(jù)變“大”,而在“數(shù)據(jù)大爆炸”時代,我們要要做的是把數(shù)數(shù)據(jù)“由厚變薄”,去冗分類、、去粗存精。。大數(shù)據(jù)時代代,將呈現(xiàn)出出“一方面數(shù)據(jù)很很豐富、但另另一方面信息息又很匱乏”的現(xiàn)象,迫使使人們對數(shù)據(jù)據(jù)分析產(chǎn)生強強烈的需求。。所以,大數(shù)據(jù)據(jù)分析實際上上可以理解為為兩個過程,,一是把數(shù)據(jù)據(jù)由大變小的的過程,比喻喻為物理過程程;二是從處處理過的數(shù)據(jù)據(jù)中提取價值值的過程,比比喻為化學過過程。三、統(tǒng)計學的的新發(fā)展——大數(shù)據(jù)分析(一)大數(shù)據(jù)據(jù)分析是數(shù)據(jù)據(jù)科學賦予統(tǒng)統(tǒng)計學的新任任務目前,人們對對大數(shù)據(jù)的研研究主要是將將其作為一種種研究方法或或一種新的知知識發(fā)現(xiàn)工具具,還沒有把把數(shù)據(jù)本身作作為主要的研研究目標。大數(shù)據(jù)分析的的目的就是要要通過對歷史史數(shù)據(jù)的分析析和挖掘,科科學總結與發(fā)發(fā)現(xiàn)其中蘊藏藏的規(guī)律和模模式,并結合合源源不斷的的動態(tài)數(shù)據(jù)去去預測事物未未來的發(fā)展趨趨勢。如果說說從商業(yè)的角角度看,大數(shù)數(shù)據(jù)要求我們們改變數(shù)據(jù)思思維、重視數(shù)數(shù)據(jù)資產(chǎn)、實實現(xiàn)數(shù)據(jù)價值值(數(shù)據(jù)變現(xiàn)現(xiàn)),那么統(tǒng)統(tǒng)計學的任務務就是通過大大數(shù)據(jù)分析去去幫助實現(xiàn)這這個目的。對于統(tǒng)計學來來說,開展大大數(shù)據(jù)分析就就是積極投身身于數(shù)據(jù)科學學研究之中。。數(shù)據(jù)科學(datascience或dataology)一詞早在1960年就由彼得·諾爾提出。1996年,在日本東東京召開的題題為“數(shù)據(jù)科學,分分類和相關方方法”的分類國際聯(lián)聯(lián)合會上,第第一次將數(shù)據(jù)據(jù)科學作為會會議的主題詞詞。2001年,美國統(tǒng)計計學教授威廉廉.S.克利夫蘭首次次將數(shù)據(jù)科學學作為一門獨獨立的學科,,認為數(shù)據(jù)科科學是統(tǒng)計學學領域擴展到到與以數(shù)據(jù)作作為先進計算算對象相結合合的部分,并并建立了數(shù)據(jù)據(jù)科學的6個技術領域。。2001年以后,國際際科技數(shù)據(jù)委委員會,以及有關學者者創(chuàng)辦的了關于數(shù)據(jù)科科學的刊物,發(fā)表以統(tǒng)計計應用方法研研究所有與數(shù)數(shù)據(jù)有關的成成果。2012年由springer出版集團創(chuàng)辦辦了“EPJDataScience”??梢灶A見,數(shù)數(shù)據(jù)科學的產(chǎn)產(chǎn)生將催生一一批新的研究究方向,如地地理信息科學學、生物信息息科學、生命命組學等。數(shù)據(jù)科學的重重點是數(shù)據(jù)處處理技術問題題還是數(shù)據(jù)分分析問題?開展大數(shù)據(jù)分分析、發(fā)展數(shù)數(shù)據(jù)科學并不不是要否定原原來的統(tǒng)計分分析方法,而而是要補充、、完善和創(chuàng)新新統(tǒng)計分析方方法。事實上上,統(tǒng)計學業(yè)業(yè)已形成的一一些思想與方方法在大數(shù)據(jù)據(jù)分析中仍有有用武之地,,只是要求統(tǒng)統(tǒng)計學者具有有更加廣闊的的視野,更加加重視統(tǒng)計分分布背后的知知識和規(guī)律。。(二)大數(shù)據(jù)據(jù)分析面臨的的挑戰(zhàn)對于習慣于結結構化數(shù)據(jù)研研究的統(tǒng)計學學來說,大數(shù)數(shù)據(jù)分析顯然然是一種嶄新新的挑戰(zhàn)。挑挑戰(zhàn)來自于大大數(shù)據(jù)的復雜雜性、不確定定性和涌現(xiàn)性性,其中復雜雜性最為根本本。復雜性是大數(shù)數(shù)據(jù)區(qū)別于傳傳統(tǒng)數(shù)據(jù)的根根本所在,它它主要表現(xiàn)為為類型復雜性性、結構復雜雜性和內(nèi)在模模式復雜性三三個方面,從從而使得大數(shù)數(shù)據(jù)的存儲與與分析產(chǎn)生多多方面的困難難。另外,網(wǎng)網(wǎng)絡大數(shù)據(jù)通通常是高維的的。復雜性必然帶帶來不確定性性。大數(shù)據(jù)的的不確定性表表現(xiàn)為數(shù)據(jù)本本身的不確定定性、模型的的不確定性和和學習的不確確定性,從而而給大數(shù)據(jù)建建模和學習造造成困難。大數(shù)據(jù)的不確確定性與傳統(tǒng)統(tǒng)數(shù)據(jù)的不確確定性有何不不同?是否存在“可能世界模型型”?——在一定的結構構規(guī)范下將數(shù)數(shù)據(jù)的每一種種狀態(tài)都加以以刻畫?針對學習的不不確定性,非非參模型方法法的提出為自自動學習提供供了一種思路路,但如何分分布式、并行行地應用到網(wǎng)網(wǎng)絡大數(shù)據(jù)的的處理上?涌現(xiàn)性是網(wǎng)絡絡大數(shù)據(jù)有別別于其它數(shù)據(jù)據(jù)的關鍵特性性,是大數(shù)據(jù)據(jù)動態(tài)變化、、擴展、演化化的結果,表表現(xiàn)為模式的的涌現(xiàn)性、行行為的涌現(xiàn)性性和智慧的涌涌現(xiàn)性,其在在度量、研判判與預測上的的困難使得網(wǎng)網(wǎng)絡數(shù)據(jù)難以以被駕馭。模式的涌現(xiàn)性性——社會網(wǎng)絡模型型的變化行為的涌現(xiàn)性性——有較大相似性性的個體之間間容易建立社社會關系,使使得網(wǎng)絡在演演化過程中自自發(fā)地形成相相互分離的連連通塊。智慧的涌現(xiàn)性性——對來自大量自自發(fā)個體的語語義進行互相相融合和連接接而形成通用用語義,整個個過程隨著數(shù)數(shù)據(jù)的變化而而持續(xù)演進。??偨Y:在大數(shù)數(shù)據(jù)環(huán)境下,,傳統(tǒng)的高維維表達、結構構描述和群體體行為分析方方法不能準確確表示網(wǎng)絡大大數(shù)據(jù)在異構構性、交互性性、時效性、、突發(fā)性等方方面的特點,,傳統(tǒng)的“假假設-模型-檢驗”的統(tǒng)統(tǒng)計方法受到到了質(zhì)疑,而而從“數(shù)據(jù)””到“數(shù)據(jù)””的第四范式式還沒有真正正建立,急需需一個新的理理論體系來指指導,建立新新的分析模型型。(三)大數(shù)據(jù)據(jù)分析的突破破口大數(shù)據(jù)分析涉涉及三個維度度——時間、空間和和數(shù)據(jù)本身,,其中時間維維度又包含生生命周期、數(shù)數(shù)據(jù)的時間態(tài)態(tài)、流化與增增量、時效等等元素,空間間維度又包含含三元空間、、粒度、數(shù)據(jù)據(jù)傳輸與遷移移、數(shù)據(jù)空間間等元素,數(shù)數(shù)據(jù)維度則體體現(xiàn)為多源、、異質(zhì)、異構構。如何從三個維維度的整體上上對大數(shù)據(jù)的的特性與復雜雜性進行深入入的解析,系系統(tǒng)掌握大數(shù)數(shù)據(jù)的不確定定性特征,繼繼而構建高效效的大數(shù)據(jù)計計算模型,成成為了大數(shù)據(jù)據(jù)分析的突破破口,具體表表現(xiàn)為以下幾幾個方面:首先,要系統(tǒng)統(tǒng)了解大數(shù)據(jù)據(jù)的基礎性問問題。大數(shù)據(jù)據(jù)的基礎性問問題包括:大大數(shù)據(jù)的內(nèi)在在機理——大大數(shù)據(jù)的演化化與傳播規(guī)律律、生命周期期,數(shù)據(jù)科學學與社會學、、經(jīng)濟學等之之間的互動機機制,以及大大數(shù)據(jù)的結構構與效能的規(guī)規(guī)律性等等。。將與計算機機科學、統(tǒng)計計學、人工智智能、數(shù)學、、社會科學等等有關,離不不開對相關學學科領域知識識與研究方法法的借鑒。同時,由于大大數(shù)據(jù)往往以以獨特的、復復雜關聯(lián)的網(wǎng)網(wǎng)絡形式出現(xiàn)現(xiàn),因此還必必須對大數(shù)據(jù)據(jù)背后的網(wǎng)絡絡進行深入的的分析,例如如能刻畫出大大數(shù)據(jù)背后網(wǎng)網(wǎng)絡共性的網(wǎng)網(wǎng)絡平均路徑徑長度、度分分布、聚集系系數(shù)、核數(shù)、、介數(shù)等性質(zhì)質(zhì)和參數(shù),這這是開展復雜雜網(wǎng)絡數(shù)據(jù)分分析的基礎。。其次,要深入入研究大數(shù)據(jù)據(jù)的復雜性規(guī)規(guī)律。包括數(shù)數(shù)據(jù)的時間規(guī)規(guī)律、空間規(guī)規(guī)律和數(shù)據(jù)本本身規(guī)律。再再復雜的數(shù)據(jù)據(jù)也有規(guī)律可可循。只有掌掌握數(shù)據(jù)的復復雜性規(guī)律,,才能找到大大數(shù)據(jù)分析的的切入口,才才能理解大數(shù)數(shù)據(jù)復雜模式式的本質(zhì)特征征和生成機理理,進而簡化化大數(shù)據(jù)的表表征,指導大大數(shù)據(jù)計算模模型和算法的的設計。就統(tǒng)計學而言言,就是要研研究大數(shù)據(jù)在在時空維度上上的數(shù)據(jù)分布布、內(nèi)在結構構、動態(tài)變化化和相關相聯(lián)聯(lián)的復雜性規(guī)規(guī)律,對表現(xiàn)現(xiàn)多元變量分分布規(guī)律的方方法加以改進進,關注大數(shù)數(shù)據(jù)處理的可可擴展性,探探索多型態(tài)關關聯(lián)數(shù)據(jù)之間間的多維、異異構、隱性的的關聯(lián)特征,,并基于統(tǒng)計計設想和大數(shù)數(shù)據(jù)驅(qū)動相結結合的方式去去探索大數(shù)據(jù)據(jù)復雜模式的的生成機理及及其背后的物物理意義,最最終形成大數(shù)數(shù)據(jù)計算與分分析的方法論論。再次,要科學學度量大數(shù)據(jù)據(jù)的復雜性特特征。數(shù)據(jù)分分析的前提是是研究對象特特征的度量與與計算,但大大數(shù)據(jù)的復雜雜性導致了大大數(shù)據(jù)分析計計算的復雜程程度猛烈激增增,單靠傳統(tǒng)統(tǒng)的數(shù)據(jù)計算算模式基本不不行,亟需建建立面向大數(shù)數(shù)據(jù)計算分析析的復雜性度度量理論,探探索大數(shù)據(jù)高高效計算模型型和方法。因因此,我們要要尋找科學度度量復雜性特特征的方法。。就統(tǒng)計學而言言,需要運用用各種統(tǒng)計方方法剖析異構構關聯(lián)大數(shù)據(jù)據(jù)的復雜性特特征的基本因因素,以及這這些因素之間間的內(nèi)在聯(lián)系系、外在指標標和度量方法法,進而研究究基于先進計計算技術的數(shù)數(shù)據(jù)復雜性度度量模型,尋尋求近似計算算理論和優(yōu)化化算法框架,,構建尋找面面向計算的數(shù)數(shù)據(jù)內(nèi)核或者者數(shù)據(jù)邊界的的基本方法。??傊?,研究究有效易行的的數(shù)據(jù)表示方方法是開展大大數(shù)據(jù)分析必必須解決的技技術難題之一一。第四,大膽創(chuàng)創(chuàng)新大數(shù)據(jù)的的計算模式。。大數(shù)據(jù)計算算模式即數(shù)據(jù)據(jù)密集型計算算模式。面對對大數(shù)據(jù),傳傳統(tǒng)的“假設設—采樣—驗驗證”的模式式已經(jīng)難以有有效分析大數(shù)數(shù)據(jù)的內(nèi)在規(guī)規(guī)律、提取其其蘊含的真實實價值,因為為數(shù)據(jù)的可計計算性與可度度量性基礎已已經(jīng)發(fā)生了很很大的變化,,需要重新定定義和構建。。為此,需要要突破傳統(tǒng)的的“數(shù)據(jù)圍繞繞機器轉”的的計算模式,,發(fā)展以數(shù)據(jù)據(jù)為中心的、、推送式的大大數(shù)據(jù)計算理理論與模式,,設計可行的的、有利于深深度分析的計計算算法。就統(tǒng)計學而而言,需要要研究針對對大數(shù)據(jù)的的非確定性性理論,突突破傳統(tǒng)的的“獨立同同分布”假假設,在探探討分布式式、流式算算法的基礎礎上,構建建大數(shù)據(jù)分分析的計算算框架??偪傊?,要基基于數(shù)據(jù)的的智能方法法,著力研研究解決復復雜問題的的“海量數(shù)數(shù)據(jù)+簡單邏輯””的方法。。(四)需要要達成的幾幾點共識要把數(shù)據(jù)處處理技術的的突破與統(tǒng)統(tǒng)計分析方方法的創(chuàng)新新相結合。。要把碎片化化數(shù)據(jù)處理理與整體統(tǒng)統(tǒng)計分析相相結合。要把大數(shù)據(jù)據(jù)分析與小小數(shù)據(jù)研究究相結合。。要把時空維維度和數(shù)據(jù)據(jù)維度相結結合。要把相關關關系的發(fā)現(xiàn)現(xiàn)與因果規(guī)規(guī)律的研究究相結合。。要把探索性性分析與驗驗證性分析析、抽樣分分析與全數(shù)數(shù)據(jù)分析相相結合。四、改變統(tǒng)統(tǒng)計思維統(tǒng)計思維的的變化應該該以一個永恒恒不變的主主題為前提提,那就是是通過數(shù)據(jù)據(jù)分析揭示示事物的真真相,這個真相相就是事物物的生存規(guī)規(guī)律、聯(lián)系系規(guī)律和發(fā)發(fā)展規(guī)律。。也就是說說要以數(shù)據(jù)據(jù)背后的數(shù)數(shù)據(jù)去還原原事物的本本來面目,,達到求真真的目的。。首先,認識識數(shù)據(jù)的思思維要變化化從來源上看看,傳統(tǒng)的數(shù)數(shù)據(jù)收集具具有很強的的針對性,,數(shù)據(jù)的提提供者大多多確定,身身份特征可可識別,有有的還可以以進行事后后核對;但大數(shù)據(jù)通通常來源于于物聯(lián)網(wǎng),,不是為了了特定的數(shù)數(shù)據(jù)收集目目的而產(chǎn)生生,而是人人們一切可可記錄的信信號,并且且身份識別別十分困難難。從某種種意義上講講,大數(shù)據(jù)據(jù)來源的微微觀基礎是是很難追溯溯的。從類型上看看,傳統(tǒng)數(shù)據(jù)據(jù)基本上是是結構型數(shù)數(shù)據(jù),格式式化、有標標準;但大數(shù)據(jù)更更多的是非非結構型數(shù)數(shù)據(jù)或異構構數(shù)據(jù),包包括了一切切可記錄、、可存儲的的標識,多多樣化、無無標準,并并且不同的的網(wǎng)絡信息息系統(tǒng)有不不同的數(shù)據(jù)據(jù)識別方式式,相互之之間也沒用用統(tǒng)一的數(shù)數(shù)據(jù)分類標標準。而且且,現(xiàn)在有有的數(shù)據(jù)庫庫是非關系系型的數(shù)據(jù)據(jù)庫,不需需要預先設設定記錄結結構。結構化數(shù)據(jù)據(jù),可用二維維表結構來來邏輯表達達實現(xiàn)的數(shù)數(shù)據(jù),如數(shù)數(shù)字、符號號??芍苯咏佑嫈?shù)、計計量、計算算的數(shù)據(jù)。。特點:先先有結構、、再有數(shù)據(jù)據(jù);非結構化數(shù)數(shù)據(jù),不方便用用數(shù)據(jù)庫二二維邏輯表表來表現(xiàn)的的數(shù)據(jù),包包括所有格格式的辦公公文檔、文文本、圖片片、XML、HTML、各類報表表、圖像和和音頻/視頻信息等等等,特點點:先有數(shù)數(shù)據(jù)、再有有結構;半結構化數(shù)數(shù)據(jù),介于完全全結構化數(shù)數(shù)據(jù)和完全全無結構的的數(shù)據(jù)(如如聲音、圖圖像文件等等)之間的的數(shù)據(jù),例例如HTML文檔。它一一般是自描描述的,數(shù)數(shù)據(jù)的結構構和內(nèi)容混混在一起,,沒有明顯顯的區(qū)分。。從量化方式式上看,傳統(tǒng)數(shù)據(jù)據(jù)的量化處處理方式已已經(jīng)較為完完善,但大大數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論