大數(shù)據(jù)與統(tǒng)計(jì)學(xué)_第1頁(yè)
大數(shù)據(jù)與統(tǒng)計(jì)學(xué)_第2頁(yè)
大數(shù)據(jù)與統(tǒng)計(jì)學(xué)_第3頁(yè)
大數(shù)據(jù)與統(tǒng)計(jì)學(xué)_第4頁(yè)
大數(shù)據(jù)與統(tǒng)計(jì)學(xué)_第5頁(yè)
已閱讀5頁(yè),還剩45頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)與統(tǒng)計(jì)學(xué),浙江工商大學(xué)李金昌,引言作為歸納分析的科學(xué),統(tǒng)計(jì)學(xué)可以從亞里士多德的“城邦政情”算起,但作為一門數(shù)據(jù)分析的科學(xué)則應(yīng)從配第的政治算術(shù)算起。300多年來(lái),統(tǒng)計(jì)學(xué)圍繞如何收集、整理和分析數(shù)據(jù)這一主線而發(fā)展,構(gòu)建起了龐大、多元、融合的應(yīng)用方法體系,幫助解決了各個(gè)領(lǐng)域大量復(fù)雜的現(xiàn)實(shí)問(wèn)題。統(tǒng)計(jì)學(xué)的發(fā)展,是根據(jù)數(shù)據(jù)的型態(tài)和問(wèn)題的本質(zhì)來(lái)改變的,不是因?yàn)槲覀儠?huì)做他背后的數(shù)學(xué)而發(fā)展的。不要因?yàn)?統(tǒng)計(jì)的)問(wèn)題困難而去做它;也不要因?yàn)樗y而不做。(賀吉士J.L.Hodges,1922-2000)R.C.Rao:統(tǒng)計(jì)的分析形式隨時(shí)代的推移而變化著,但是“從數(shù)據(jù)中提取一切信息”或者“歸納和揭示”作為統(tǒng)計(jì)分析的目的卻一直沒(méi)有改變。大數(shù)據(jù)時(shí)代的來(lái)臨,迫使統(tǒng)計(jì)學(xué)站在一個(gè)新的起點(diǎn)上。,1998年,科學(xué)雜志刊登的一篇介紹計(jì)算機(jī)軟件HiQ的文章大數(shù)據(jù)的處理程序中第一次正式使用了大數(shù)據(jù)(bigdata)一詞。2008年9月自然雜志出版“bigdata”專刊。最近幾年,關(guān)于大數(shù)據(jù)的文獻(xiàn)迅速增加,但絕大多數(shù)出于計(jì)算機(jī)領(lǐng)域的學(xué)者之手,較少有基于統(tǒng)計(jì)學(xué)視角的深度學(xué)術(shù)討論。,一、對(duì)大數(shù)據(jù)的認(rèn)識(shí),最早與大數(shù)據(jù)概念有關(guān)的學(xué)科:天文學(xué)、氣象學(xué)和基因?qū)W,一開(kāi)始就依賴于海量數(shù)據(jù)分析方法。但從現(xiàn)代意義上看,大數(shù)據(jù)可以說(shuō)是計(jì)算機(jī)與互聯(lián)網(wǎng)相結(jié)合的產(chǎn)物,前者實(shí)現(xiàn)了數(shù)據(jù)的數(shù)字化,后者實(shí)現(xiàn)了數(shù)據(jù)的網(wǎng)絡(luò)化。大數(shù)據(jù)的本意是,所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。4V特點(diǎn):Volume、Velocity、Variety、Value。,大數(shù)據(jù)自古有之?人類曾經(jīng)開(kāi)展過(guò)的人口普查、產(chǎn)業(yè)普查等數(shù)據(jù),是否屬于大數(shù)據(jù)?在計(jì)算機(jī)技術(shù)與網(wǎng)絡(luò)化未得到充分發(fā)展以前,人們自然難以聯(lián)想出大數(shù)據(jù)這個(gè)概念。從統(tǒng)計(jì)學(xué)的角度看,大數(shù)據(jù)不是主要基于人工設(shè)計(jì)而獲得有限、固定、不連續(xù)、不可擴(kuò)充的結(jié)構(gòu)型數(shù)據(jù),而是主要基于現(xiàn)代信息技術(shù)與工具自動(dòng)記錄、儲(chǔ)存、能連續(xù)擴(kuò)充、大大超出傳統(tǒng)統(tǒng)計(jì)記錄與儲(chǔ)存能力的一切類型的數(shù)據(jù),最大特征是數(shù)字化基礎(chǔ)上的數(shù)據(jù)化。一定程度上看,大數(shù)據(jù)并不是一個(gè)嚴(yán)格的概念,而是一個(gè)比喻式的稱呼。,(一)如何理解大數(shù)據(jù)的“大”一是“全體”的意思,即大數(shù)據(jù)就是全體數(shù)據(jù),并且數(shù)據(jù)量必須達(dá)到一定的規(guī)模。二是“可擴(kuò)充”的意思,即大數(shù)據(jù)就是可以不斷擴(kuò)充容量的數(shù)據(jù),任何數(shù)據(jù)一旦發(fā)生就可以被記錄、被吸收。三是“有待挖掘”的意思,即大數(shù)據(jù)就是有待挖掘的數(shù)據(jù)。大數(shù)據(jù)可能包含著豐富的、具有大價(jià)值的信息,但被超大量的數(shù)據(jù)所掩蓋、所分散而導(dǎo)致價(jià)值密度低,只有挖掘才能發(fā)現(xiàn)。,(二)如何理解大數(shù)據(jù)的“數(shù)據(jù)”歷史告訴我們,數(shù)據(jù)的含義是隨著人類認(rèn)識(shí)社會(huì)與自然現(xiàn)象的視野的變化、以及認(rèn)識(shí)能力與技術(shù)水平的提升而改變的,經(jīng)歷了從傳統(tǒng)運(yùn)算型數(shù)據(jù)到現(xiàn)代數(shù)字化數(shù)據(jù)的變化過(guò)程。把一切信息都看成數(shù)據(jù)是當(dāng)今社會(huì)的一個(gè)特征,是一個(gè)自然進(jìn)化的結(jié)果。大數(shù)據(jù)中的數(shù)據(jù)其實(shí)就是一切可以通過(guò)數(shù)字化手段記錄的信息。大數(shù)據(jù)除了結(jié)構(gòu)型數(shù)據(jù)與非結(jié)構(gòu)型數(shù)據(jù)的分類外,還可作以下分類:,如果從大數(shù)據(jù)產(chǎn)生的途徑或渠道來(lái)看,大數(shù)據(jù)可以分為社交網(wǎng)絡(luò)數(shù)據(jù)、人機(jī)交換數(shù)據(jù)和感應(yīng)數(shù)據(jù)(機(jī)器數(shù)據(jù))。如果從功能上看,大數(shù)據(jù)可以分為交易型數(shù)據(jù)、流程型數(shù)據(jù)和交互型數(shù)據(jù)。需要特別指出的是,網(wǎng)絡(luò)數(shù)據(jù)在大數(shù)據(jù)中占有特殊的份量,又可分為自媒體數(shù)據(jù)、日志數(shù)據(jù)和富媒體數(shù)據(jù)三類。從時(shí)間維度上,還可以把網(wǎng)絡(luò)大數(shù)據(jù)分為以用戶數(shù)據(jù)、日志數(shù)據(jù)為代表的歷史數(shù)據(jù),以及以視頻監(jiān)控?cái)?shù)據(jù)和流媒體數(shù)據(jù)等為代表的流式數(shù)據(jù),其中歷史數(shù)據(jù)蘊(yùn)含著大量有價(jià)值的信息。基于數(shù)據(jù)的分類,儲(chǔ)存數(shù)據(jù)與管理的方式數(shù)據(jù)庫(kù)也有兩種類型:關(guān)系型數(shù)據(jù)庫(kù)(SQL接口)和非關(guān)系型數(shù)據(jù)庫(kù)(NOSQL接口)。,(三)大數(shù)據(jù)是不是好數(shù)據(jù)?首先,大數(shù)據(jù)不會(huì)自動(dòng)產(chǎn)生好的分析結(jié)果,不會(huì)自動(dòng)把隱藏其中的秘密呈現(xiàn)出來(lái),如果數(shù)據(jù)不完整、取舍不當(dāng)或遭受破壞,那么就會(huì)產(chǎn)生錯(cuò)誤的結(jié)論。其次,大數(shù)據(jù)是動(dòng)態(tài)的,具有階段性特征,同樣的關(guān)聯(lián)詞在不同時(shí)段可能具有不同的含義,圍繞關(guān)聯(lián)詞的話題會(huì)隨著時(shí)間的推移而會(huì)發(fā)生某些偏離,從而導(dǎo)致有偏的結(jié)論。第三,對(duì)于我們所關(guān)心的研究主題,可能會(huì)受到大量沒(méi)有實(shí)際意義、實(shí)際內(nèi)容甚至虛假信息的干擾,讓我們面對(duì)一堆數(shù)據(jù)無(wú)從下手,大數(shù)據(jù)變成了大迷惑,甚至變成了大錯(cuò)誤。第四,大數(shù)據(jù)中有很多小數(shù)據(jù)問(wèn)題,這些問(wèn)題并不會(huì)隨著數(shù)據(jù)的增加而消失,反而可能更嚴(yán)重。,二、數(shù)據(jù)的變化與統(tǒng)計(jì)分析方法的發(fā)展,(一)數(shù)據(jù)的變化回顧歷史可以發(fā)現(xiàn),數(shù)據(jù)的變化與統(tǒng)計(jì)分析方法的發(fā)展呈現(xiàn)高度吻合的關(guān)系。有一種觀點(diǎn)認(rèn)為,數(shù)據(jù)的變化過(guò)程可以分為三大階段:數(shù)據(jù)的產(chǎn)生、科學(xué)數(shù)據(jù)的形成和大數(shù)據(jù)的誕生。,數(shù)據(jù)的產(chǎn)生:數(shù)的產(chǎn)生基于以下三個(gè)要素,一是數(shù),二是量,三是計(jì)量單位。數(shù)起源于人類祖先對(duì)“多”或“少”的認(rèn)識(shí),阿拉伯?dāng)?shù)字的產(chǎn)生實(shí)現(xiàn)了數(shù)的抽象性和可計(jì)算性。數(shù)的概念及數(shù)的基本邏輯關(guān)系形成以后,人們將數(shù)的神秘性作為探尋與研究的目標(biāo)之一,不斷建立起更加完備的、抽象的數(shù)的體系。以數(shù)為基礎(chǔ),測(cè)量、計(jì)量和比較事物就有了精確表達(dá)的語(yǔ)言,這在實(shí)踐中就表現(xiàn)為量,它是客觀事物所具有的能體現(xiàn)差異程度的一種屬性,是事物可以用數(shù)來(lái)表現(xiàn)的規(guī)定性,包括量的規(guī)模、量的關(guān)系、量的變化、量的界限與量的規(guī)律。在以數(shù)來(lái)表示事物的特征并采用了科學(xué)的計(jì)量單位后,就產(chǎn)生了真正意義上的數(shù)據(jù)有根據(jù)的數(shù)。,科學(xué)數(shù)據(jù)的形成:科學(xué)數(shù)據(jù)的形成得益于對(duì)數(shù)據(jù)的科學(xué)研究,是在科學(xué)研究過(guò)程中基于科學(xué)設(shè)計(jì)、通過(guò)有針對(duì)的觀察和測(cè)量獲得的、用以認(rèn)知自然現(xiàn)象和社會(huì)現(xiàn)象的變化規(guī)律或用以驗(yàn)證已有理論假設(shè)的數(shù)據(jù)。哲學(xué)家培根所倡導(dǎo)的“實(shí)驗(yàn)觀察-歸納分析”的方法思想和笛卡爾所倡導(dǎo)的數(shù)理演繹方法,將數(shù)據(jù)的使用提高到了科學(xué)方法論的地位,使數(shù)據(jù)成為了科學(xué)研究的基本要素,并使如何科學(xué)收集數(shù)據(jù)成為了研究課題。近代科學(xué)將數(shù)據(jù)融于自然科學(xué)研究范式的實(shí)踐,不僅提高了人類認(rèn)識(shí)事物的精確性,更為重要的是其逐步形成的數(shù)學(xué)化思維與方程表達(dá)式解決了不同物理量之間的數(shù)值關(guān)系表達(dá)問(wèn)題,從而為開(kāi)展相關(guān)事物之間的定量研究提供了途徑。,17世紀(jì)的自然哲學(xué)家開(kāi)普勒對(duì)第谷大量的天文觀察數(shù)據(jù)的使用,推導(dǎo)出了行星運(yùn)動(dòng)三大定律;伽利略對(duì)地球表面物體運(yùn)動(dòng)的數(shù)據(jù)測(cè)量建立了自由落體運(yùn)動(dòng)規(guī)律;牛頓利用大量的天文觀察數(shù)據(jù)和實(shí)驗(yàn)測(cè)量數(shù)據(jù),創(chuàng)立了牛頓力學(xué)體系??茖W(xué)數(shù)據(jù)因其所具有的共享性與精確性等特點(diǎn)而成為了科學(xué)研究的普適語(yǔ)言。在自然科學(xué)對(duì)數(shù)據(jù)進(jìn)行科學(xué)研究的同時(shí),社會(huì)科學(xué)領(lǐng)域也對(duì)數(shù)據(jù)進(jìn)行了科學(xué)范式的研究,并發(fā)現(xiàn)了例如平均人、恩格爾系數(shù)、基尼系數(shù)等定律。就統(tǒng)計(jì)學(xué)而言,它的產(chǎn)生與發(fā)展過(guò)程就是對(duì)科學(xué)數(shù)據(jù)進(jìn)行研究的過(guò)程,每一種統(tǒng)計(jì)分析方法都是在對(duì)科學(xué)數(shù)據(jù)進(jìn)行科學(xué)研究的基礎(chǔ)上形成的。,大數(shù)據(jù)的誕生:20世紀(jì)中期開(kāi)始的生物基因測(cè)序研究所積累的大量數(shù)據(jù),面臨著如何理解和處理的新挑戰(zhàn)。同樣的問(wèn)題逐漸蔓延到各個(gè)學(xué)科領(lǐng)域,包括天文學(xué)研究,基本粒子研究,氣象學(xué)研究和社會(huì)學(xué)研究等。1966年,國(guó)際科技數(shù)據(jù)委員會(huì)(CODATA)成立,旨在促進(jìn)全球科技數(shù)據(jù)的共享。面對(duì)海量數(shù)據(jù)、快速增加的數(shù)據(jù),人們開(kāi)始重新審視和定義數(shù)據(jù)。如果說(shuō)計(jì)算機(jī)技術(shù)等的快速發(fā)展,是大數(shù)據(jù)產(chǎn)生的基礎(chǔ)因素,那么人類對(duì)數(shù)據(jù)理念的深化、對(duì)數(shù)據(jù)多樣性的追求、對(duì)信息的永不滿足,是大數(shù)據(jù)產(chǎn)生的內(nèi)在因素。以非結(jié)構(gòu)化數(shù)據(jù)為主體的大數(shù)據(jù),正在改變著一切,而以大數(shù)據(jù)為研究對(duì)象,通過(guò)挖掘、提取等手段探尋現(xiàn)象內(nèi)在規(guī)律的學(xué)科數(shù)據(jù)科學(xué)也應(yīng)運(yùn)而生。,總結(jié):數(shù)據(jù)產(chǎn)生之初,其根本的功能就是體現(xiàn)事物或現(xiàn)象的量的大小或多少,便于計(jì)數(shù)與比較,數(shù)據(jù)大多自然獲得、被動(dòng)利用;科學(xué)數(shù)據(jù)以研究與管理為目的,一般是主動(dòng)獲得、主動(dòng)利用;而大數(shù)據(jù)的特征則是豐富的數(shù)據(jù)資源與主動(dòng)獲得數(shù)據(jù)相結(jié)合,數(shù)據(jù)類型多樣化。當(dāng)然,數(shù)據(jù)的演變是一個(gè)漸進(jìn)的過(guò)程,它不是簡(jiǎn)單的一種形式代替另一種形式,而是一個(gè)由簡(jiǎn)單到復(fù)雜的各種形式相互包容、不斷豐富的過(guò)程。,(二)統(tǒng)計(jì)分析方法的發(fā)展如果說(shuō)數(shù)據(jù)是表現(xiàn)事物特征的精確語(yǔ)言、認(rèn)知世界的重要工具、治理國(guó)家的必備依據(jù)和科學(xué)研究的必備條件,那么數(shù)據(jù)分析則是讓數(shù)據(jù)充分說(shuō)話、最大限度發(fā)揮功能、有效滿足不同需要的根本要求。在科學(xué)數(shù)據(jù)研究基礎(chǔ)上形成的具有通用性質(zhì)的方法就是統(tǒng)計(jì)方法??v觀統(tǒng)計(jì)學(xué)發(fā)展史,統(tǒng)計(jì)數(shù)據(jù)大體上經(jīng)歷了這樣一個(gè)過(guò)程:只能收集到少量的數(shù)據(jù)盡量多地收集數(shù)據(jù)科學(xué)利用樣本數(shù)據(jù)綜合利用各類數(shù)據(jù)選擇使用大數(shù)據(jù),而統(tǒng)計(jì)分析經(jīng)歷了不同階段,相應(yīng)地產(chǎn)生了大量觀察法、統(tǒng)計(jì)分組法、綜合指標(biāo)法、歸納推斷法、模型方程法和數(shù)據(jù)挖掘法等分析方法,并且借助計(jì)算機(jī)及其軟件的程度也越來(lái)越深。,配第的政治算術(shù)和格朗特的關(guān)于死亡表的自然觀察和政治觀察,開(kāi)啟了社會(huì)經(jīng)濟(jì)現(xiàn)象數(shù)據(jù)分析的先河。但他們所能運(yùn)用的數(shù)據(jù)資源非常有限,只能算是最初級(jí)形態(tài)的數(shù)據(jù)而非真正意義上的科學(xué)數(shù)據(jù)。他們的分析方法現(xiàn)在看來(lái)十分簡(jiǎn)單,但在當(dāng)時(shí)非常了不起,其數(shù)據(jù)加方法的思想影響至今,特別是他們所倡導(dǎo)的大量觀察法、統(tǒng)計(jì)分組法成為了統(tǒng)計(jì)學(xué)最基本的研究方法。特別是,格朗特通過(guò)不完整但足夠量的登記數(shù)據(jù)初步發(fā)現(xiàn)了大數(shù)法則,提出了數(shù)據(jù)簡(jiǎn)約的概念,通過(guò)推算方法初創(chuàng)了生命表,探討了數(shù)據(jù)的可信性問(wèn)題,并提出了人口數(shù)的推算公式。沒(méi)有他們這種將數(shù)據(jù)與方法相結(jié)合的“形”,就不可能產(chǎn)生統(tǒng)計(jì)的“學(xué)”。,隨著數(shù)據(jù)分析意義的顯現(xiàn),以及受到大量觀察法的影響,人們開(kāi)始盡可能多地收集數(shù)據(jù),包括登記數(shù)據(jù)、普查數(shù)據(jù)、測(cè)量數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)和觀察數(shù)據(jù)。統(tǒng)計(jì)學(xué)也進(jìn)入到了科學(xué)數(shù)據(jù)研究階段。社會(huì)經(jīng)濟(jì)領(lǐng)域的數(shù)據(jù)一般都是登記數(shù)據(jù)與調(diào)查數(shù)據(jù),為了科學(xué)表明數(shù)據(jù)的意義,實(shí)現(xiàn)數(shù)據(jù)表現(xiàn)與現(xiàn)象內(nèi)涵的統(tǒng)一,就產(chǎn)生了用統(tǒng)計(jì)指標(biāo)來(lái)表現(xiàn)數(shù)據(jù)特征的方法,即統(tǒng)計(jì)指標(biāo)法。隨著分工細(xì)化、記錄數(shù)據(jù)增加,在社會(huì)經(jīng)濟(jì)領(lǐng)域出現(xiàn)了成組、成群相關(guān)的數(shù)據(jù),以及專門調(diào)查獲得的數(shù)據(jù)(例如人口調(diào)查、產(chǎn)業(yè)調(diào)查等),逐漸產(chǎn)生了各種運(yùn)用統(tǒng)計(jì)指標(biāo)體系進(jìn)行綜合分析的方法,例如綜合評(píng)價(jià)法、主成分分析法、聚類評(píng)判法等。,為了從數(shù)量上弄清楚經(jīng)濟(jì)運(yùn)行過(guò)程中各部門、各環(huán)節(jié)之間的關(guān)系,人們研究發(fā)明了投入產(chǎn)出分析法。為了科學(xué)核算經(jīng)濟(jì)活動(dòng)成果,掌握經(jīng)濟(jì)總產(chǎn)出的構(gòu)成與去向,在經(jīng)濟(jì)學(xué)原理和科學(xué)指標(biāo)內(nèi)涵的基礎(chǔ)上,產(chǎn)生和發(fā)展了國(guó)民經(jīng)濟(jì)核算法。為了掌握物價(jià)的綜合變動(dòng),反映復(fù)雜現(xiàn)象的發(fā)展方向,產(chǎn)生了綜合指數(shù)分析法。為了掌握社會(huì)經(jīng)濟(jì)現(xiàn)象變動(dòng)規(guī)律、預(yù)測(cè)未來(lái)發(fā)展趨勢(shì),產(chǎn)生了時(shí)間序列分析法。,基于實(shí)驗(yàn)數(shù)據(jù),統(tǒng)計(jì)學(xué)產(chǎn)生了概率論、分布理論、回歸分析方法、小樣本分布理論和假設(shè)檢驗(yàn)方法。眾所周知,14世紀(jì)歐洲以骰子為工具的賭博非常盛行,圍繞骰子可能出現(xiàn)的情況和賭本分配問(wèn)題,再加上取球、拋擲硬幣等實(shí)驗(yàn),帕斯卡、費(fèi)馬、惠更斯、伯努利、狄莫弗等人共同研究建立了概率論,發(fā)明了大數(shù)定律,發(fā)現(xiàn)了二項(xiàng)分布與超幾何分布,并為正態(tài)分布理論的建立奠定了基礎(chǔ)。隨著概率論被引入到統(tǒng)計(jì)學(xué)中,幫助解決了人口推算、壽命保險(xiǎn)、生命表編制、產(chǎn)品質(zhì)量控制等諸多比賭博更為復(fù)雜的現(xiàn)實(shí)問(wèn)題。,同樣,高爾頓通過(guò)對(duì)遺傳學(xué)實(shí)驗(yàn)數(shù)據(jù)(甜豌豆種植的實(shí)驗(yàn)數(shù)據(jù))以及抽樣觀察數(shù)據(jù)(親子身高的觀察數(shù)據(jù)),發(fā)現(xiàn)了回歸現(xiàn)象,發(fā)明了在各個(gè)領(lǐng)域得到廣泛應(yīng)用的回歸分析法并提出了相關(guān)系數(shù)的初步概念(相關(guān)指數(shù)),奠定了模型方程法的基礎(chǔ),極大地提高了人們開(kāi)展統(tǒng)計(jì)分析的能力。戈賽特則利用釀酒公司僅有的小樣本實(shí)驗(yàn)數(shù)據(jù),發(fā)明了著名的小樣本“t”分布理論,推進(jìn)了推斷統(tǒng)計(jì)方法的發(fā)展。費(fèi)歇爾基于人為的女士品茶的實(shí)驗(yàn)數(shù)據(jù)和達(dá)爾文關(guān)于施肥方法影響作物高度的實(shí)驗(yàn)數(shù)據(jù)的研究,構(gòu)建了假設(shè)檢驗(yàn)的基本方法并得到了廣泛的應(yīng)用。,基于觀察數(shù)據(jù),統(tǒng)計(jì)學(xué)產(chǎn)生了誤差正態(tài)分布和最小平方法。對(duì)天文觀察數(shù)據(jù)研究而形成的誤差正態(tài)分布和最小平方法在統(tǒng)計(jì)學(xué)中具有極重要的地位。開(kāi)普勒的觀察數(shù)據(jù),經(jīng)過(guò)伽利略、辛普森、拉普拉斯等人的探求,最終由高斯導(dǎo)出了著名的誤差正態(tài)分布。凱特勒等統(tǒng)計(jì)學(xué)家及時(shí)地將拉普拉斯的中心極限定理與高斯的誤差正態(tài)理論運(yùn)用于社會(huì)數(shù)據(jù)的研究,使正態(tài)分布的應(yīng)用盛行一時(shí)。在誤差理論基礎(chǔ)上,高斯、勒讓德等人發(fā)現(xiàn)了最小平方法,并迅速?gòu)奶煳膶W(xué)和測(cè)地學(xué)的數(shù)據(jù)研究應(yīng)用擴(kuò)展到其他領(lǐng)域,尤其是與回歸分析相結(jié)合后成為了統(tǒng)計(jì)分析最常用的方法,至今仍為主流。皮爾遜對(duì)生物觀察數(shù)據(jù)的研究,形成了皮爾遜分布族,提出了參數(shù)估計(jì)矩法,發(fā)展了相關(guān)分析法。,數(shù)據(jù)的獲得需要投入,并且有些數(shù)據(jù)難以得到全體數(shù)據(jù)。人們自然想到:能否通過(guò)總體中部分個(gè)體的數(shù)據(jù)來(lái)達(dá)到認(rèn)識(shí)總體特征、繼而進(jìn)行統(tǒng)計(jì)分析的目的?隨著概率論、中心極限定理與正態(tài)分布理論的產(chǎn)生與發(fā)展,這種愿望成為了可能。經(jīng)過(guò)拉普拉斯、凱爾、馬哈拉諾比斯、鮑萊、費(fèi)歇爾、尼曼等人的抽樣實(shí)踐與理論探求,隨機(jī)抽樣理論在20世紀(jì)得到了迅速發(fā)展,并產(chǎn)生了多種具體的抽樣方式?;跇颖緮?shù)據(jù)的歸納推斷方法包括參數(shù)估計(jì)與假設(shè)檢驗(yàn)在實(shí)踐中得到了廣泛的應(yīng)用,抽樣調(diào)查數(shù)據(jù)一度成為了統(tǒng)計(jì)分析的主要數(shù)據(jù)來(lái)源,如何用盡量小的樣本得到盡量精確的推斷成為了抽樣研究的核心問(wèn)題。用抽樣法獲取數(shù)據(jù)已得到了100年的充分肯定。,如今,人類邁入了智能化的時(shí)代,數(shù)據(jù)的產(chǎn)生有了新的方式電子化、數(shù)字化、多樣化、可保存、可擴(kuò)充、可兼容的大數(shù)據(jù)。這是一種基于科學(xué)技術(shù)而產(chǎn)生的、既具有科學(xué)數(shù)據(jù)的特征又超越于科學(xué)數(shù)據(jù)的、完全不一樣的數(shù)據(jù)。2007年,已故圖靈獎(jiǎng)獲得者吉姆格雷(JimGray)在題為第四科學(xué)研究范式:密集型數(shù)據(jù)挖掘的演講中提到,科學(xué)經(jīng)歷幾千年的歷史演變形成了四個(gè)關(guān)鍵性的科學(xué)范式,第四個(gè)就是近幾年出現(xiàn)的數(shù)據(jù)挖掘或eScience范式。顯然,從第二個(gè)研究范式開(kāi)始都依賴于數(shù)據(jù)的研究。新的研究范式需要新的數(shù)據(jù)研究方法,這對(duì)統(tǒng)計(jì)學(xué)來(lái)說(shuō)既是機(jī)遇又是挑戰(zhàn)。,總結(jié):之前,我們手中的數(shù)據(jù)量相對(duì)不足,對(duì)數(shù)據(jù)的研究是“由薄變厚”,把“小”數(shù)據(jù)變“大”,而在“數(shù)據(jù)大爆炸”時(shí)代,我們要做的是把數(shù)據(jù)“由厚變薄”,去冗分類、去粗存精。大數(shù)據(jù)時(shí)代,將呈現(xiàn)出“一方面數(shù)據(jù)很豐富、但另一方面信息又很匱乏”的現(xiàn)象,迫使人們對(duì)數(shù)據(jù)分析產(chǎn)生強(qiáng)烈的需求。所以,大數(shù)據(jù)分析實(shí)際上可以理解為兩個(gè)過(guò)程,一是把數(shù)據(jù)由大變小的過(guò)程,比喻為物理過(guò)程;二是從處理過(guò)的數(shù)據(jù)中提取價(jià)值的過(guò)程,比喻為化學(xué)過(guò)程。,三、統(tǒng)計(jì)學(xué)的新發(fā)展大數(shù)據(jù)分析,(一)大數(shù)據(jù)分析是數(shù)據(jù)科學(xué)賦予統(tǒng)計(jì)學(xué)的新任務(wù)目前,人們對(duì)大數(shù)據(jù)的研究主要是將其作為一種研究方法或一種新的知識(shí)發(fā)現(xiàn)工具,還沒(méi)有把數(shù)據(jù)本身作為主要的研究目標(biāo)。大數(shù)據(jù)分析的目的就是要通過(guò)對(duì)歷史數(shù)據(jù)的分析和挖掘,科學(xué)總結(jié)與發(fā)現(xiàn)其中蘊(yùn)藏的規(guī)律和模式,并結(jié)合源源不斷的動(dòng)態(tài)數(shù)據(jù)去預(yù)測(cè)事物未來(lái)的發(fā)展趨勢(shì)。如果說(shuō)從商業(yè)的角度看,大數(shù)據(jù)要求我們改變數(shù)據(jù)思維、重視數(shù)據(jù)資產(chǎn)、實(shí)現(xiàn)數(shù)據(jù)價(jià)值(數(shù)據(jù)變現(xiàn)),那么統(tǒng)計(jì)學(xué)的任務(wù)就是通過(guò)大數(shù)據(jù)分析去幫助實(shí)現(xiàn)這個(gè)目的。,對(duì)于統(tǒng)計(jì)學(xué)來(lái)說(shuō),開(kāi)展大數(shù)據(jù)分析就是積極投身于數(shù)據(jù)科學(xué)研究之中。數(shù)據(jù)科學(xué)(datascience或dataology)一詞早在1960年就由彼得諾爾提出。1996年,在日本東京召開(kāi)的題為“數(shù)據(jù)科學(xué),分類和相關(guān)方法”的分類國(guó)際聯(lián)合會(huì)上,第一次將數(shù)據(jù)科學(xué)作為會(huì)議的主題詞。2001年,美國(guó)統(tǒng)計(jì)學(xué)教授威廉.S.克利夫蘭首次將數(shù)據(jù)科學(xué)作為一門獨(dú)立的學(xué)科,認(rèn)為數(shù)據(jù)科學(xué)是統(tǒng)計(jì)學(xué)領(lǐng)域擴(kuò)展到與以數(shù)據(jù)作為先進(jìn)計(jì)算對(duì)象相結(jié)合的部分,并建立了數(shù)據(jù)科學(xué)的6個(gè)技術(shù)領(lǐng)域。2001年以后,國(guó)際科技數(shù)據(jù)委員會(huì),以及有關(guān)學(xué)者創(chuàng)辦的了關(guān)于數(shù)據(jù)科學(xué)的刊物,發(fā)表以統(tǒng)計(jì)應(yīng)用方法研究所有與數(shù)據(jù)有關(guān)的成果。2012年由springer出版集團(tuán)創(chuàng)辦了“EPJDataScience”。,可以預(yù)見(jiàn),數(shù)據(jù)科學(xué)的產(chǎn)生將催生一批新的研究方向,如地理信息科學(xué)、生物信息科學(xué)、生命組學(xué)等。數(shù)據(jù)科學(xué)的重點(diǎn)是數(shù)據(jù)處理技術(shù)問(wèn)題還是數(shù)據(jù)分析問(wèn)題?開(kāi)展大數(shù)據(jù)分析、發(fā)展數(shù)據(jù)科學(xué)并不是要否定原來(lái)的統(tǒng)計(jì)分析方法,而是要補(bǔ)充、完善和創(chuàng)新統(tǒng)計(jì)分析方法。事實(shí)上,統(tǒng)計(jì)學(xué)業(yè)已形成的一些思想與方法在大數(shù)據(jù)分析中仍有用武之地,只是要求統(tǒng)計(jì)學(xué)者具有更加廣闊的視野,更加重視統(tǒng)計(jì)分布背后的知識(shí)和規(guī)律。,(二)大數(shù)據(jù)分析面臨的挑戰(zhàn)對(duì)于習(xí)慣于結(jié)構(gòu)化數(shù)據(jù)研究的統(tǒng)計(jì)學(xué)來(lái)說(shuō),大數(shù)據(jù)分析顯然是一種嶄新的挑戰(zhàn)。挑戰(zhàn)來(lái)自于大數(shù)據(jù)的復(fù)雜性、不確定性和涌現(xiàn)性,其中復(fù)雜性最為根本。復(fù)雜性是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的根本所在,它主要表現(xiàn)為類型復(fù)雜性、結(jié)構(gòu)復(fù)雜性和內(nèi)在模式復(fù)雜性三個(gè)方面,從而使得大數(shù)據(jù)的存儲(chǔ)與分析產(chǎn)生多方面的困難。另外,網(wǎng)絡(luò)大數(shù)據(jù)通常是高維的。,復(fù)雜性必然帶來(lái)不確定性。大數(shù)據(jù)的不確定性表現(xiàn)為數(shù)據(jù)本身的不確定性、模型的不確定性和學(xué)習(xí)的不確定性,從而給大數(shù)據(jù)建模和學(xué)習(xí)造成困難。大數(shù)據(jù)的不確定性與傳統(tǒng)數(shù)據(jù)的不確定性有何不同?是否存在“可能世界模型”?在一定的結(jié)構(gòu)規(guī)范下將數(shù)據(jù)的每一種狀態(tài)都加以刻畫(huà)?針對(duì)學(xué)習(xí)的不確定性,非參模型方法的提出為自動(dòng)學(xué)習(xí)提供了一種思路,但如何分布式、并行地應(yīng)用到網(wǎng)絡(luò)大數(shù)據(jù)的處理上?,涌現(xiàn)性是網(wǎng)絡(luò)大數(shù)據(jù)有別于其它數(shù)據(jù)的關(guān)鍵特性,是大數(shù)據(jù)動(dòng)態(tài)變化、擴(kuò)展、演化的結(jié)果,表現(xiàn)為模式的涌現(xiàn)性、行為的涌現(xiàn)性和智慧的涌現(xiàn)性,其在度量、研判與預(yù)測(cè)上的困難使得網(wǎng)絡(luò)數(shù)據(jù)難以被駕馭。模式的涌現(xiàn)性社會(huì)網(wǎng)絡(luò)模型的變化行為的涌現(xiàn)性有較大相似性的個(gè)體之間容易建立社會(huì)關(guān)系,使得網(wǎng)絡(luò)在演化過(guò)程中自發(fā)地形成相互分離的連通塊。智慧的涌現(xiàn)性對(duì)來(lái)自大量自發(fā)個(gè)體的語(yǔ)義進(jìn)行互相融合和連接而形成通用語(yǔ)義,整個(gè)過(guò)程隨著數(shù)據(jù)的變化而持續(xù)演進(jìn)。,總結(jié):在大數(shù)據(jù)環(huán)境下,傳統(tǒng)的高維表達(dá)、結(jié)構(gòu)描述和群體行為分析方法不能準(zhǔn)確表示網(wǎng)絡(luò)大數(shù)據(jù)在異構(gòu)性、交互性、時(shí)效性、突發(fā)性等方面的特點(diǎn),傳統(tǒng)的“假設(shè)-模型-檢驗(yàn)”的統(tǒng)計(jì)方法受到了質(zhì)疑,而從“數(shù)據(jù)”到“數(shù)據(jù)”的第四范式還沒(méi)有真正建立,急需一個(gè)新的理論體系來(lái)指導(dǎo),建立新的分析模型。,(三)大數(shù)據(jù)分析的突破口大數(shù)據(jù)分析涉及三個(gè)維度時(shí)間、空間和數(shù)據(jù)本身,其中時(shí)間維度又包含生命周期、數(shù)據(jù)的時(shí)間態(tài)、流化與增量、時(shí)效等元素,空間維度又包含三元空間、粒度、數(shù)據(jù)傳輸與遷移、數(shù)據(jù)空間等元素,數(shù)據(jù)維度則體現(xiàn)為多源、異質(zhì)、異構(gòu)。如何從三個(gè)維度的整體上對(duì)大數(shù)據(jù)的特性與復(fù)雜性進(jìn)行深入的解析,系統(tǒng)掌握大數(shù)據(jù)的不確定性特征,繼而構(gòu)建高效的大數(shù)據(jù)計(jì)算模型,成為了大數(shù)據(jù)分析的突破口,具體表現(xiàn)為以下幾個(gè)方面:,首先,要系統(tǒng)了解大數(shù)據(jù)的基礎(chǔ)性問(wèn)題。大數(shù)據(jù)的基礎(chǔ)性問(wèn)題包括:大數(shù)據(jù)的內(nèi)在機(jī)理大數(shù)據(jù)的演化與傳播規(guī)律、生命周期,數(shù)據(jù)科學(xué)與社會(huì)學(xué)、經(jīng)濟(jì)學(xué)等之間的互動(dòng)機(jī)制,以及大數(shù)據(jù)的結(jié)構(gòu)與效能的規(guī)律性等等。將與計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、人工智能、數(shù)學(xué)、社會(huì)科學(xué)等有關(guān),離不開(kāi)對(duì)相關(guān)學(xué)科領(lǐng)域知識(shí)與研究方法的借鑒。同時(shí),由于大數(shù)據(jù)往往以獨(dú)特的、復(fù)雜關(guān)聯(lián)的網(wǎng)絡(luò)形式出現(xiàn),因此還必須對(duì)大數(shù)據(jù)背后的網(wǎng)絡(luò)進(jìn)行深入的分析,例如能刻畫(huà)出大數(shù)據(jù)背后網(wǎng)絡(luò)共性的網(wǎng)絡(luò)平均路徑長(zhǎng)度、度分布、聚集系數(shù)、核數(shù)、介數(shù)等性質(zhì)和參數(shù),這是開(kāi)展復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)分析的基礎(chǔ)。,其次,要深入研究大數(shù)據(jù)的復(fù)雜性規(guī)律。包括數(shù)據(jù)的時(shí)間規(guī)律、空間規(guī)律和數(shù)據(jù)本身規(guī)律。再?gòu)?fù)雜的數(shù)據(jù)也有規(guī)律可循。只有掌握數(shù)據(jù)的復(fù)雜性規(guī)律,才能找到大數(shù)據(jù)分析的切入口,才能理解大數(shù)據(jù)復(fù)雜模式的本質(zhì)特征和生成機(jī)理,進(jìn)而簡(jiǎn)化大數(shù)據(jù)的表征,指導(dǎo)大數(shù)據(jù)計(jì)算模型和算法的設(shè)計(jì)。就統(tǒng)計(jì)學(xué)而言,就是要研究大數(shù)據(jù)在時(shí)空維度上的數(shù)據(jù)分布、內(nèi)在結(jié)構(gòu)、動(dòng)態(tài)變化和相關(guān)相聯(lián)的復(fù)雜性規(guī)律,對(duì)表現(xiàn)多元變量分布規(guī)律的方法加以改進(jìn),關(guān)注大數(shù)據(jù)處理的可擴(kuò)展性,探索多型態(tài)關(guān)聯(lián)數(shù)據(jù)之間的多維、異構(gòu)、隱性的關(guān)聯(lián)特征,并基于統(tǒng)計(jì)設(shè)想和大數(shù)據(jù)驅(qū)動(dòng)相結(jié)合的方式去探索大數(shù)據(jù)復(fù)雜模式的生成機(jī)理及其背后的物理意義,最終形成大數(shù)據(jù)計(jì)算與分析的方法論。,再次,要科學(xué)度量大數(shù)據(jù)的復(fù)雜性特征。數(shù)據(jù)分析的前提是研究對(duì)象特征的度量與計(jì)算,但大數(shù)據(jù)的復(fù)雜性導(dǎo)致了大數(shù)據(jù)分析計(jì)算的復(fù)雜程度猛烈激增,單靠傳統(tǒng)的數(shù)據(jù)計(jì)算模式基本不行,亟需建立面向大數(shù)據(jù)計(jì)算分析的復(fù)雜性度量理論,探索大數(shù)據(jù)高效計(jì)算模型和方法。因此,我們要尋找科學(xué)度量復(fù)雜性特征的方法。就統(tǒng)計(jì)學(xué)而言,需要運(yùn)用各種統(tǒng)計(jì)方法剖析異構(gòu)關(guān)聯(lián)大數(shù)據(jù)的復(fù)雜性特征的基本因素,以及這些因素之間的內(nèi)在聯(lián)系、外在指標(biāo)和度量方法,進(jìn)而研究基于先進(jìn)計(jì)算技術(shù)的數(shù)據(jù)復(fù)雜性度量模型,尋求近似計(jì)算理論和優(yōu)化算法框架,構(gòu)建尋找面向計(jì)算的數(shù)據(jù)內(nèi)核或者數(shù)據(jù)邊界的基本方法??傊芯坑行б仔械臄?shù)據(jù)表示方法是開(kāi)展大數(shù)據(jù)分析必須解決的技術(shù)難題之一。,第四,大膽創(chuàng)新大數(shù)據(jù)的計(jì)算模式。大數(shù)據(jù)計(jì)算模式即數(shù)據(jù)密集型計(jì)算模式。面對(duì)大數(shù)據(jù),傳統(tǒng)的“假設(shè)采樣驗(yàn)證”的模式已經(jīng)難以有效分析大數(shù)據(jù)的內(nèi)在規(guī)律、提取其蘊(yùn)含的真實(shí)價(jià)值,因?yàn)閿?shù)據(jù)的可計(jì)算性與可度量性基礎(chǔ)已經(jīng)發(fā)生了很大的變化,需要重新定義和構(gòu)建。為此,需要突破傳統(tǒng)的“數(shù)據(jù)圍繞機(jī)器轉(zhuǎn)”的計(jì)算模式,發(fā)展以數(shù)據(jù)為中心的、推送式的大數(shù)據(jù)計(jì)算理論與模式,設(shè)計(jì)可行的、有利于深度分析的計(jì)算算法。就統(tǒng)計(jì)學(xué)而言,需要研究針對(duì)大數(shù)據(jù)的非確定性理論,突破傳統(tǒng)的“獨(dú)立同分布”假設(shè),在探討分布式、流式算法的基礎(chǔ)上,構(gòu)建大數(shù)據(jù)分析的計(jì)算框架??傊跀?shù)據(jù)的智能方法,著力研究解決復(fù)雜問(wèn)題的“海量數(shù)據(jù)+簡(jiǎn)單邏輯”的方法。,(四)需要達(dá)成的幾點(diǎn)共識(shí)要把數(shù)據(jù)處理技術(shù)的突破與統(tǒng)計(jì)分析方法的創(chuàng)新相結(jié)合。要把碎片化數(shù)據(jù)處理與整體統(tǒng)計(jì)分析相結(jié)合。要把大數(shù)據(jù)分析與小數(shù)據(jù)研究相結(jié)合。要把時(shí)空維度和數(shù)據(jù)維度相結(jié)合。要把相關(guān)關(guān)系的發(fā)現(xiàn)與因果規(guī)律的研究相結(jié)合。要把探索性分析與驗(yàn)證性分析、抽樣分析與全數(shù)據(jù)分析相結(jié)合。,四、改變統(tǒng)計(jì)思維,統(tǒng)計(jì)思維的變化應(yīng)該以一個(gè)永恒不變的主題為前提,那就是通過(guò)數(shù)據(jù)分析揭示事物的真相,這個(gè)真相就是事物的生存規(guī)律、聯(lián)系規(guī)律和發(fā)展規(guī)律。也就是說(shuō)要以數(shù)據(jù)背后的數(shù)據(jù)去還原事物的本來(lái)面目,達(dá)到求真的目的。,首先,認(rèn)識(shí)數(shù)據(jù)的思維要變化,從來(lái)源上看,傳統(tǒng)的數(shù)據(jù)收集具有很強(qiáng)的針對(duì)性,數(shù)據(jù)的提供者大多確定,身份特征可識(shí)別,有的還可以進(jìn)行事后核對(duì);但大數(shù)據(jù)通常來(lái)源于物聯(lián)網(wǎng),不是為了特定的數(shù)據(jù)收集目的而產(chǎn)生,而是人們一切可記錄的信號(hào),并且身份識(shí)別十分困難。從某種意義上講,大數(shù)據(jù)來(lái)源的微觀基礎(chǔ)是很難追溯的。,從類型上看,傳統(tǒng)數(shù)據(jù)基本上是結(jié)構(gòu)型數(shù)據(jù),格式化、有標(biāo)準(zhǔn);但大數(shù)據(jù)更多的是非結(jié)構(gòu)型數(shù)據(jù)或異構(gòu)數(shù)據(jù),包括了一切可記錄、可存儲(chǔ)的標(biāo)識(shí),多樣化、無(wú)標(biāo)準(zhǔn),并且不同的網(wǎng)絡(luò)信息系統(tǒng)有不同的數(shù)據(jù)識(shí)別方式,相互之間也沒(méi)用統(tǒng)一的數(shù)據(jù)分類標(biāo)準(zhǔn)。而且,現(xiàn)在有的數(shù)據(jù)庫(kù)是非關(guān)系型的數(shù)據(jù)庫(kù),不需要預(yù)先設(shè)定記錄結(jié)構(gòu)。,結(jié)構(gòu)化數(shù)據(jù),可用二維表結(jié)構(gòu)來(lái)邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù),如數(shù)字、符號(hào)??芍苯佑?jì)數(shù)、計(jì)量、計(jì)算的數(shù)據(jù)。特點(diǎn):先有結(jié)構(gòu)、再有數(shù)據(jù);非結(jié)構(gòu)化數(shù)據(jù),不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報(bào)表、圖像和音頻/視頻信息等等,特點(diǎn):先有數(shù)據(jù)、再有結(jié)構(gòu);半結(jié)構(gòu)化數(shù)據(jù),介于完全結(jié)構(gòu)化數(shù)據(jù)和完全無(wú)結(jié)構(gòu)的數(shù)據(jù)(如聲音、圖像文件等)之間的數(shù)據(jù),例如HTML文檔。它一般是自描述的,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起,沒(méi)有明顯的區(qū)分。,從量化方式上看,傳統(tǒng)數(shù)據(jù)的量化處理方式已經(jīng)較為完善

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論