版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)理統(tǒng)計(jì)與數(shù)據(jù)分析的總結(jié)
數(shù)理統(tǒng)計(jì)的數(shù)據(jù)分析應(yīng)用實(shí)際在于提高數(shù)理概念研究能力,通過數(shù)理統(tǒng)計(jì)內(nèi)
容的完善及統(tǒng)計(jì)的科學(xué)配置解決數(shù)據(jù)研究理論問題,為數(shù)理統(tǒng)計(jì)實(shí)踐提供更多元
的信息分析模塊。本文將以數(shù)理統(tǒng)計(jì)的數(shù)據(jù)分析為基礎(chǔ),對(duì)數(shù)理統(tǒng)計(jì)的數(shù)據(jù)分析
應(yīng)用發(fā)展及內(nèi)容等做逐一闡述,以此為數(shù)理統(tǒng)計(jì)的數(shù)理分析科學(xué)運(yùn)用提供部分參
考性研究建議。
伴隨著社會(huì)的不斷進(jìn)步和科學(xué)技術(shù)的飛速發(fā)展,數(shù)理統(tǒng)計(jì)也在完善和進(jìn)步,
并逐漸應(yīng)用于眾多不同的領(lǐng)域。作為統(tǒng)計(jì)工作中一項(xiàng)非常重要的內(nèi)容,數(shù)理統(tǒng)計(jì)
的方法和研究數(shù)理統(tǒng)計(jì)問題的理念在社會(huì)企業(yè)發(fā)展過程中發(fā)揮著巨大的作用,這
些都可以通過數(shù)理統(tǒng)計(jì)工作體現(xiàn)出來。本文通過對(duì)數(shù)理統(tǒng)計(jì)內(nèi)容、統(tǒng)計(jì)方法及數(shù)
據(jù)分析發(fā)展的歷程等不同方面,對(duì)數(shù)理統(tǒng)計(jì)進(jìn)行研究,闡述了現(xiàn)在統(tǒng)計(jì)學(xué)的發(fā)展
和統(tǒng)計(jì)學(xué)對(duì)于社會(huì)政治經(jīng)濟(jì)生活中各個(gè)領(lǐng)域的重要性。
數(shù)理統(tǒng)計(jì)的發(fā)展背景及現(xiàn)狀:數(shù)理統(tǒng)計(jì)有著非常悠久的歷史,最開始以“統(tǒng)
而計(jì)之”這個(gè)簡單的理念出現(xiàn),經(jīng)過幾千年的積累和發(fā)展,加上科技的進(jìn)步和社
會(huì)生產(chǎn)力以及經(jīng)濟(jì)的不斷進(jìn)步,當(dāng)代數(shù)理統(tǒng)計(jì)分析的應(yīng)用范圍也逐漸擴(kuò)大,不單
單局限于“統(tǒng)而計(jì)之”的方面,其在人文科學(xué)、化會(huì)科學(xué)和自然科學(xué)等眾多領(lǐng)域
均有涉及。在統(tǒng)計(jì)內(nèi)容、統(tǒng)計(jì)方法及數(shù)據(jù)統(tǒng)計(jì)的思想發(fā)展中,數(shù)理統(tǒng)計(jì)占據(jù)著非
常重要的地位,其作用不可小覷。
在進(jìn)行科學(xué)研究的過程中,經(jīng)常會(huì)遇到描述兩個(gè)或多個(gè)隨機(jī)變量的關(guān)系、描
述隨機(jī)變量的分布特征、離散性質(zhì)或變量的大小等類似的問題,而數(shù)理統(tǒng)計(jì)這一
數(shù)學(xué)工具的出現(xiàn),能夠特定的描述隨機(jī)變量間的關(guān)系和隨機(jī)變量,成功的解決了
這些問題,促進(jìn)科學(xué)領(lǐng)域的進(jìn)步。因此,如何將數(shù)理統(tǒng)計(jì)方法更好地應(yīng)用于科學(xué)
研究工作,有效的利用運(yùn)用數(shù)理統(tǒng)計(jì)分析解決具體的科學(xué)研究問題,成為數(shù)據(jù)分
析過程中非常關(guān)鍵的部分,也是研究現(xiàn)代數(shù)理統(tǒng)計(jì)過程中迫切需要解決的問題。
數(shù)理統(tǒng)計(jì)的研究內(nèi)容:基于數(shù)據(jù)分析及數(shù)理統(tǒng)計(jì)的基本定義和概念,以數(shù)據(jù)分析
中數(shù)理統(tǒng)計(jì)的廣泛應(yīng)用為重點(diǎn),對(duì)數(shù)據(jù)統(tǒng)計(jì)的相關(guān)理論進(jìn)行論述,總結(jié)出數(shù)據(jù)統(tǒng)
計(jì)的特點(diǎn),突出體現(xiàn)了數(shù)據(jù)統(tǒng)計(jì)在統(tǒng)計(jì)學(xué)中發(fā)揮著不可替代的作用。此外,還將
數(shù)據(jù)統(tǒng)計(jì)同現(xiàn)代企業(yè)進(jìn)行綜合考慮,研究數(shù)據(jù)統(tǒng)計(jì)的應(yīng)用對(duì)企業(yè)發(fā)展的價(jià)值和意
義。
數(shù)理統(tǒng)計(jì)和數(shù)據(jù)分析的概念及特點(diǎn):對(duì)數(shù)理統(tǒng)計(jì)內(nèi)容的定義及概念的理解程
度是學(xué)習(xí)數(shù)據(jù)分析知識(shí)的關(guān)鍵性問題,直接關(guān)系著能否學(xué)好這門學(xué)科,如果不能
1
做到很好的理解數(shù)理統(tǒng)計(jì)的概念,就更不用談如何有效的運(yùn)用數(shù)理統(tǒng)計(jì)方法。統(tǒng)
計(jì)方法及統(tǒng)計(jì)思想這兩個(gè)方面是數(shù)據(jù)統(tǒng)計(jì)學(xué)中的主要內(nèi)容,而對(duì)基本概念和相關(guān)
定義的理解和認(rèn)識(shí),則是掌握和運(yùn)用統(tǒng)計(jì)方法和統(tǒng)計(jì)思想的基礎(chǔ)。
總體是全部研究對(duì)象的統(tǒng)稱,利用樣本中包含的信息,進(jìn)而統(tǒng)計(jì)推斷總體的
信息是數(shù)理統(tǒng)計(jì)的基本思想,所以,數(shù)理統(tǒng)計(jì)中欄本和總體的概念也是最根本和
最重要的。然而,人們在解決實(shí)際問題的過程中,由于忽視總體的重要性,不能
很好的對(duì)總體進(jìn)行深入了解,從而造成盲目性統(tǒng)計(jì)分析的后果。
利用研究對(duì)象中的一個(gè)或若干個(gè)數(shù)量指標(biāo)形成的隨機(jī)變量,對(duì)總體進(jìn)行描述
是數(shù)理統(tǒng)計(jì)的常用方法,其中由于總體的特性而制定了統(tǒng)計(jì)模型及統(tǒng)計(jì)問題這兩
個(gè)概念。推斷總體的統(tǒng)計(jì)處理過程中可以體現(xiàn)出統(tǒng)計(jì)思想,推斷總體的具體操作
中運(yùn)用了統(tǒng)計(jì)方法,因此,根據(jù)以上理論,可以將數(shù)理統(tǒng)計(jì)的概念定義為:在有
限次的試驗(yàn)和觀察隨機(jī)現(xiàn)象后,總結(jié)歸納隨機(jī)現(xiàn)象中出現(xiàn)的數(shù)據(jù),根據(jù)這些有限
數(shù)據(jù)推斷出其中的規(guī)律,并由總結(jié)的成果判定和推斷整體的數(shù)量規(guī)律性和相應(yīng)現(xiàn)
象的學(xué)科。
將概率論作為基礎(chǔ)理論,根據(jù)試驗(yàn)和觀察隨機(jī)現(xiàn)象得到的數(shù)據(jù)資料,對(duì)隨機(jī)
現(xiàn)象進(jìn)行研究,這個(gè)過程即為數(shù)理統(tǒng)計(jì)的特點(diǎn)。具體表現(xiàn)為:參考數(shù)據(jù)資料將合
適的數(shù)學(xué)模型應(yīng)用到隨機(jī)現(xiàn)象中,并通過資料來檢驗(yàn)數(shù)學(xué)模型的合理性,確認(rèn)合
理的基礎(chǔ)上進(jìn)行對(duì)數(shù)學(xué)模型規(guī)律性、性質(zhì)及特點(diǎn)等內(nèi)容的研究。在現(xiàn)實(shí)生活中的
應(yīng)用,可以通過測試燈泡生產(chǎn)企業(yè)檢測燈泡使用時(shí)間的例子來證明,首先在不清
楚該燈泡廠的燈泡使用時(shí)間的情況下,隨機(jī)抽取某天該廠生產(chǎn)的幾個(gè)燈泡作為樣
本,然后進(jìn)行壽命檢測的實(shí)驗(yàn),最后統(tǒng)計(jì)這幾個(gè)燈泡的平均使用時(shí)間。根據(jù)這幾
個(gè)燈泡使用時(shí)間的數(shù)學(xué)資料,來對(duì)生產(chǎn)的所有燈泡的合格率及壽命等指標(biāo)進(jìn)行推
算。在概率論的支撐下,通過創(chuàng)建數(shù)學(xué)模型的方式對(duì)燈泡使用時(shí)間的分步進(jìn)行計(jì)
算,然后,根據(jù)數(shù)學(xué)資料建立分布圖,在之后的一段時(shí)間內(nèi)反復(fù)抽取幾個(gè)樣本進(jìn)
行測試,從而觀察指數(shù)的分布是否合理。
作為應(yīng)用數(shù)學(xué)中最活躍的一個(gè)學(xué)科,數(shù)理統(tǒng)計(jì)學(xué)的特征使其具有非常高的應(yīng)
用價(jià)值,與其他學(xué)科不同的是,數(shù)理統(tǒng)計(jì)學(xué)在研究數(shù)學(xué)方法及理論之外,還注重
的是實(shí)際應(yīng)用,其他學(xué)科側(cè)重的是數(shù)學(xué)的演繹法,而數(shù)理統(tǒng)計(jì)這一學(xué)科則強(qiáng)調(diào)歸
納法的應(yīng)用。因此,站在學(xué)科劃分的角度來看,數(shù)理統(tǒng)計(jì)可以作為數(shù)學(xué)學(xué)科的內(nèi)
容。
參考統(tǒng)計(jì)學(xué)多年的發(fā)展歷史,可以看出,人們認(rèn)識(shí)社會(huì)的初期主要是通過數(shù)
2
據(jù)分析實(shí)現(xiàn)的,隨著不斷發(fā)展,現(xiàn)代社會(huì)除了地質(zhì)學(xué)、工農(nóng)業(yè)生產(chǎn)、氣象與災(zāi)害
預(yù)報(bào)及醫(yī)學(xué)等領(lǐng)域應(yīng)用到了數(shù)據(jù)分析,人工智能、信息論、金融數(shù)學(xué)及醫(yī)藥統(tǒng)計(jì)
等新興學(xué)科也普遍涉及到數(shù)理統(tǒng)計(jì)知識(shí)。數(shù)據(jù)分析和數(shù)理統(tǒng)計(jì)二者之間有很大的
聯(lián)系,如果僅僅通過簡單、固定的統(tǒng)計(jì)來應(yīng)對(duì)不同學(xué)科領(lǐng)域的實(shí)際問題是不可能
完成的,因?yàn)楦鱾€(gè)學(xué)科都有各自的特征,利用全面調(diào)查的方式研究多樣化的學(xué)科,
必定會(huì)存在局限性。所以,因數(shù)據(jù)分析的需要而逐漸產(chǎn)生了數(shù)理統(tǒng)計(jì)方法,為實(shí)
現(xiàn)通過部分樣本來推測整體的數(shù)理統(tǒng)計(jì)作鋪墊,其統(tǒng)計(jì)思想也為現(xiàn)代統(tǒng)計(jì)學(xué)發(fā)展
做出了巨大貢獻(xiàn),應(yīng)用于許多實(shí)際問題的處理。數(shù)理統(tǒng)計(jì)方法的出現(xiàn)順應(yīng)了社會(huì)
發(fā)展的需要,可以幫助我們了解不同學(xué)科間的數(shù)據(jù)規(guī)律及聯(lián)系,使我們更好地對(duì)
每個(gè)學(xué)科的概況進(jìn)行全面而細(xì)致的分析。
數(shù)理統(tǒng)計(jì)在數(shù)據(jù)分析中的應(yīng)用:在對(duì)某個(gè)學(xué)科領(lǐng)域研究的過程中會(huì)應(yīng)用到許
多數(shù)據(jù)分析方法,通過多種不同的數(shù)據(jù)分析方法,我們才能更好的掌握該學(xué)科的
特點(diǎn),對(duì)研究社會(huì)活動(dòng)領(lǐng)域和不同學(xué)科研究有非常大的幫助。止因?yàn)閿?shù)理統(tǒng)計(jì)具
有解決實(shí)際問題的功能,所以,其在數(shù)據(jù)分析中占據(jù)著非常重要的地位,隨著不
斷發(fā)展,也就逐漸形成了數(shù)理統(tǒng)計(jì)方法,應(yīng)用于數(shù)據(jù)分析。數(shù)理統(tǒng)計(jì)和數(shù)據(jù)分析
之間主要是通過大數(shù)定律面產(chǎn)生緊密的聯(lián)系,總體的相對(duì)數(shù)及平均數(shù)等相關(guān)指標(biāo)
在數(shù)據(jù)分析中之所以能發(fā)揮作用,體現(xiàn)其價(jià)值,都是建立在大量觀察的基礎(chǔ)上實(shí)
現(xiàn)的。大量觀察法是大數(shù)定律形成的根基,大數(shù)定律在數(shù)據(jù)分析過程中主要運(yùn)用
到了大量觀察這個(gè)基本方法。
數(shù)理統(tǒng)計(jì)在數(shù)據(jù)分析過程中發(fā)揮著非常重要的作用,同時(shí),數(shù)理統(tǒng)計(jì)也會(huì)對(duì)
數(shù)據(jù)分析產(chǎn)生一些影響。一方面,數(shù)理統(tǒng)計(jì)會(huì)對(duì)總體分布形態(tài)、方差分析和正交
設(shè)計(jì)、相關(guān)與回歸分析、一個(gè)或兩個(gè)總體參數(shù)的假設(shè)檢驗(yàn)及參數(shù)或非參數(shù)估計(jì)等
方面產(chǎn)生顯著的影響;另一方面,還可以影響相對(duì)數(shù)及平均數(shù)等統(tǒng)計(jì)學(xué)中計(jì)算原
理的基本描述指標(biāo)。
數(shù)理統(tǒng)計(jì)對(duì)企業(yè)發(fā)展的影響:前期進(jìn)行資料的搜集,然后加工處理相關(guān)數(shù)據(jù),
最后進(jìn)行分析預(yù)測是統(tǒng)計(jì)工作的基本流程,在應(yīng)用數(shù)理統(tǒng)計(jì)理論解決實(shí)際問題的
過程中,需要不同部門和方面的共同努力。在社會(huì)及自然等學(xué)科領(lǐng)域中均涉及到
了數(shù)理統(tǒng)計(jì)方法,其應(yīng)用十分廣泛。但作為一種輔助工具,要想合理的運(yùn)用數(shù)理
統(tǒng)計(jì)方法來解決實(shí)際上的問題,就要求我們對(duì)所研究的內(nèi)容踐行充分的了解,根
據(jù)相關(guān)專業(yè)的知識(shí)和多年積累的經(jīng)驗(yàn),或是有效的工作組織來科學(xué)的規(guī)劃,由實(shí)
際情況來決定數(shù)理統(tǒng)計(jì)方法,將數(shù)理統(tǒng)計(jì)方法視為一種輔助工具,這樣才能發(fā)揮
3
統(tǒng)計(jì)處理應(yīng)有的作用。
生產(chǎn)型企業(yè)在應(yīng)用數(shù)理統(tǒng)計(jì)學(xué)方法對(duì)數(shù)據(jù)進(jìn)行分析時(shí),主要可以體現(xiàn)在以下
兩個(gè)方面:(1)統(tǒng)計(jì)質(zhì)量管理法的應(yīng)用。在生產(chǎn)過程中,面對(duì)分析大批生產(chǎn)元件
的可靠性、控制工序、檢測系統(tǒng)(含有多種元件)可靠性及抽樣檢測成批產(chǎn)品的
方案等,在生產(chǎn)企業(yè)中連續(xù)制造和大批量生產(chǎn)等實(shí)際問題,可以采取不同形式的
可靠性統(tǒng)計(jì)分析、抽樣檢驗(yàn)統(tǒng)計(jì)分析和質(zhì)量控制圖統(tǒng)計(jì)分析等方法來解決。(2)
在處理產(chǎn)品工藝流程的改革、研究影響產(chǎn)品質(zhì)量的次要因素和關(guān)鍵因素、對(duì)舊產(chǎn)
品進(jìn)行改進(jìn)、選取恰當(dāng)?shù)呐浞?、最?yōu)生產(chǎn)條件的組合、新產(chǎn)品的試制和替代材料
的應(yīng)用等問題的過程中,可以利用多元統(tǒng)計(jì)分析、正交設(shè)計(jì)、方差分析及回歸分
析等統(tǒng)計(jì)方法。
數(shù)據(jù)分析不僅在企業(yè)生產(chǎn)過程中發(fā)揮著巨大的作用,還有助于企業(yè)的管理,
凡是涉及到數(shù)據(jù)的方面都能通過數(shù)據(jù)分析來解決,在企業(yè)的生產(chǎn)、加工和銷售等
多個(gè)環(huán)節(jié)中都可以看到數(shù)據(jù)分析的存在。企業(yè)內(nèi)部數(shù)據(jù)分析方法的應(yīng)用得到完善
和發(fā)展后,在產(chǎn)品質(zhì)量管理和控制、開發(fā)新產(chǎn)品及開拓市場等企業(yè)經(jīng)營管理方面
都涉及到數(shù)據(jù)分析。其中在開拓市場方面,通過數(shù)據(jù)分析的方法可以掌握更多關(guān)
于競爭對(duì)手和產(chǎn)品的信息及數(shù)據(jù),將準(zhǔn)確的數(shù)據(jù)分析說明提供給企業(yè),有利于企
業(yè)對(duì)市場的研究和行情的判定,提高企業(yè)的競爭力,為企業(yè)構(gòu)建合理的發(fā)展目標(biāo)
奠定基礎(chǔ),推動(dòng)企業(yè)發(fā)展壯大。綜上所述,基于數(shù)理統(tǒng)計(jì)理論形成的數(shù)據(jù)統(tǒng)計(jì)分
析方法和理論,隨著科學(xué)技術(shù)的不斷進(jìn)步和社會(huì)經(jīng)濟(jì)的發(fā)展也得到了完善和充實(shí),
在數(shù)據(jù)分析中的應(yīng)用中發(fā)揮著非常重要的作用。在現(xiàn)代科技的幫助下,數(shù)據(jù)統(tǒng)計(jì)
分析方法也會(huì)不斷地發(fā)展進(jìn)步,應(yīng)用于不同領(lǐng)域,為社會(huì)經(jīng)濟(jì)的發(fā)展做出巨大的
貝獻(xiàn)。
大數(shù)據(jù)與數(shù)理統(tǒng)計(jì)之間的比較:大數(shù)據(jù)分析與數(shù)理統(tǒng)計(jì)都是圍繞數(shù)據(jù)展開的,
這是兩者之間的一種內(nèi)在的聯(lián)系?!耙磺幸詳?shù)據(jù)說話”是其共同的本質(zhì),兩者都
是從數(shù)據(jù)分析中發(fā)現(xiàn)隱含的規(guī)律,以便透過事物表象的記錄來認(rèn)識(shí)其本質(zhì)。作為
發(fā)掘規(guī)律和認(rèn)知世界的基本方法,兩者有以下三個(gè)方面的共同點(diǎn)。
(1)數(shù)據(jù)科學(xué)是以數(shù)據(jù)解析的方法來進(jìn)行研究的科學(xué),可以簡單概括為“用
數(shù)據(jù)的方法來研究科學(xué)和用科學(xué)的方法來研究數(shù)據(jù)”。雖然數(shù)據(jù)科學(xué)因大數(shù)據(jù)才
被人們所熟知,但其研究內(nèi)容卻涵蓋了應(yīng)用數(shù)學(xué)、數(shù)理統(tǒng)計(jì)、計(jì)算機(jī)等學(xué)科,被
稱為繼實(shí)驗(yàn)科學(xué)、理論科學(xué)和計(jì)算科學(xué)之后乂一新的科學(xué)研究范式。數(shù)理統(tǒng)計(jì)被
稱為“收集和分析數(shù)據(jù)的科學(xué)與藝術(shù)”,是數(shù)據(jù)科學(xué)的理論基礎(chǔ)。過去,由于受
4
到技術(shù)條件的限制,一般只能獲得有限的數(shù)據(jù),即“樣本”,為了根據(jù)有限的樣
本作出盡量科學(xué)的判斷,就需要借助概率論,排除隨機(jī)性對(duì)分析?、推斷的干擾,
以正確揭示隱藏在數(shù)據(jù)背后的總體規(guī)律,這便是數(shù)理統(tǒng)計(jì)的主要任務(wù)。隨著大數(shù)
據(jù)時(shí)代的到來,在許多領(lǐng)域獲得了全面、完整和系統(tǒng)的數(shù)據(jù),而大數(shù)據(jù)分析作為
數(shù)據(jù)科學(xué)的發(fā)展前沿,也成為了知識(shí)創(chuàng)新的重要方法。對(duì)于新時(shí)代的數(shù)據(jù)科學(xué)而
言,雖然對(duì)數(shù)理統(tǒng)計(jì)提出了許多新的挑戰(zhàn),但大數(shù)據(jù)分析與數(shù)理統(tǒng)計(jì)仍然具有共
同的出發(fā)點(diǎn)和最終目標(biāo),并在應(yīng)用實(shí)踐中不斷為數(shù)據(jù)科學(xué)提供新的思想、方法和
技術(shù)。
(2)兩者都是定量研究的具體方法定量研究是科學(xué)研究的基本方法之一
其實(shí)質(zhì)就是按照一定的標(biāo)準(zhǔn)對(duì)研究對(duì)象的特征進(jìn)行量化比較,從而推定其性質(zhì)或
某些因素間的變化規(guī)律。在常規(guī)數(shù)據(jù)條件下,數(shù)理統(tǒng)計(jì)一直是定量研究的主要方
法。大數(shù)據(jù)的出現(xiàn),不僅是量的增長,更是質(zhì)的變化,而大數(shù)據(jù)分析則為定量研
究提供了全新的思路和方法。量化是大數(shù)據(jù)分析和數(shù)理統(tǒng)計(jì)的基礎(chǔ),在具體的應(yīng)
用中,兩者都形成了一整套指導(dǎo)數(shù)據(jù)量化處理的科學(xué)系統(tǒng)的理論。在數(shù)理統(tǒng)計(jì)中,
按照量化水平的高低,分為名義數(shù)據(jù)、順序數(shù)據(jù)、等距數(shù)據(jù)和比率數(shù)據(jù),不同的
數(shù)據(jù)類型適用不同的統(tǒng)計(jì)分析方法。而對(duì)于大數(shù)據(jù)來說,其包含的數(shù)據(jù)類型更為
夏雜,不僅有結(jié)構(gòu)化數(shù)據(jù),更多的則是文字、網(wǎng)頁、圖像、視頻等半結(jié)構(gòu)化、非
結(jié)構(gòu)化數(shù)據(jù),后兩類數(shù)據(jù)必須按照數(shù)據(jù)模型的要求,經(jīng)過量化轉(zhuǎn)換才能進(jìn)入數(shù)據(jù)
分析的環(huán)節(jié)。大數(shù)據(jù)分析和數(shù)理統(tǒng)計(jì)都圍繞著量化后的數(shù)據(jù)展開,按照相應(yīng)的分
布規(guī)律或數(shù)據(jù)模型,以數(shù)為據(jù),由量定性,力圖精確展現(xiàn)研究對(duì)象的內(nèi)在特征與
發(fā)展規(guī)律,以優(yōu)化和改進(jìn)決策,這也是兩者之間的一種內(nèi)在聯(lián)系。
(3)兩者均與計(jì)算機(jī)技術(shù)緊密結(jié)合大數(shù)據(jù)因計(jì)算機(jī)和網(wǎng)絡(luò)的普及而產(chǎn)生,
并伴隨著云計(jì)算、物聯(lián)網(wǎng)的發(fā)展日漸成熟。要實(shí)現(xiàn)對(duì)大數(shù)據(jù)的分析,不僅需要支
撐海量數(shù)據(jù)處理的計(jì)算平臺(tái),還要有專業(yè)的程序和算法,可以說大數(shù)據(jù)分析既要
依靠計(jì)算機(jī)技術(shù)來實(shí)現(xiàn),同時(shí),又給計(jì)算機(jī)技術(shù)帶來了許多新的挑戰(zhàn)。近年來,
圍繞著大數(shù)據(jù)分析問題,在計(jì)算機(jī)領(lǐng)域形成了分布式存儲(chǔ)、并行計(jì)算、數(shù)據(jù)挖掘
算法和數(shù)據(jù)可視化等研究熱點(diǎn),并產(chǎn)生了若干大數(shù)據(jù)計(jì)算平臺(tái)和分析工具,其中
以Hadoop和Hive的應(yīng)用最為廣泛。數(shù)理統(tǒng)計(jì)雖然先于計(jì)算機(jī)而產(chǎn)生,但早已走
出了依靠手工計(jì)算進(jìn)行分析的時(shí)代,并隨著計(jì)算機(jī)技術(shù)的發(fā)展而發(fā)展。一方面,
由于統(tǒng)計(jì)數(shù)據(jù)和統(tǒng)計(jì)方法具有很強(qiáng)的規(guī)范性,非常適合用計(jì)算機(jī)來進(jìn)行快速處理
和計(jì)算;另一方面,計(jì)算機(jī)技術(shù)能夠通過嚴(yán)格的程序確保數(shù)據(jù)處理的準(zhǔn)確性。因
5
此,當(dāng)計(jì)算機(jī)產(chǎn)生以后,就被迅速應(yīng)用于數(shù)理統(tǒng)計(jì)之中,并實(shí)現(xiàn)了日趨緊密的結(jié)
合。當(dāng)前,以SAS、SPSS等為代表的數(shù)據(jù)管理軟件,提供了豐富、完善的分析算
法和交互式的操作過程,極大地提高了統(tǒng)計(jì)的效率。
大數(shù)據(jù)分析與數(shù)理統(tǒng)計(jì)的主要區(qū)別:從數(shù)理統(tǒng)計(jì)到大數(shù)據(jù)分析,不是一種簡
單的技術(shù)演進(jìn),大數(shù)據(jù)已超出了現(xiàn)有數(shù)理統(tǒng)計(jì)的處理能力,而大數(shù)據(jù)分析則穎覆
了傳統(tǒng)的數(shù)據(jù)處理模式,使數(shù)據(jù)思維和分析方法等都發(fā)生了革命性的變化。
(1)兩者所依據(jù)的原理不同對(duì)于任意一種隨機(jī)現(xiàn)象,如果能夠進(jìn)行充分的
觀察或?qū)嶒?yàn),積累足夠多的數(shù)據(jù),那么一定可以清楚地發(fā)現(xiàn)和掌握其中的規(guī)律。
但在過去很長的?段時(shí)間內(nèi),數(shù)據(jù)的稀缺性比較突出,數(shù)理統(tǒng)計(jì)只能依據(jù)隨機(jī)變
量的概率分布理論,特別是其中的大數(shù)定律、中心極限定理和抽樣分布定理等,
通過模型和假設(shè)來科學(xué)合理地推斷總體。而在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的獲取能力大大
提升,對(duì)于某些研究對(duì)象,可以進(jìn)行詳盡的觀察和記錄,從而獲得海量的數(shù)據(jù),
甚至是全部數(shù)據(jù),因此,可以通過對(duì)數(shù)據(jù)的整合和理解,直接提煉其中所蘊(yùn)含的
規(guī)律。大數(shù)據(jù)分析不再需要作任何假設(shè)或判斷,而是利用挖掘算法去自動(dòng)尋找數(shù)
據(jù)中隱藏的關(guān)系或規(guī)律,其原理就包含在所使用的算法之中。以對(duì)流感疫情的預(yù)
測為例,在互聯(lián)網(wǎng)普及之前,要根據(jù)數(shù)理統(tǒng)計(jì)的要求,通過對(duì)人群和醫(yī)院的抽樣
調(diào)查來獲得數(shù)據(jù),然后根據(jù)其抽樣分布和經(jīng)驗(yàn)?zāi)P蛠磉M(jìn)行預(yù)測。而谷歌公司則另
辟蹊徑,運(yùn)用大數(shù)據(jù)分析的方法來展開預(yù)測。谷歌公司每天會(huì)執(zhí)行超過數(shù)十億次
的搜索,從累積的搜索記錄中篩選出了5000萬條頻繁集,然后與美國疾控中心
公布的流感數(shù)據(jù)相對(duì)比,挖掘出了高度相關(guān)的45種搜索詞組合,從而構(gòu)建了流
感預(yù)測的挖掘算法,并在2007-2008年,根據(jù)網(wǎng)民的搜索記錄進(jìn)行準(zhǔn)確的預(yù)測。
由此可見,與數(shù)理統(tǒng)計(jì)相比,大數(shù)據(jù)分析不需要具備概率分布的先驗(yàn)知識(shí),其限
制條件更少,更為靈活高效。
(2)兩者所處理的對(duì)象不同首先,從數(shù)據(jù)本身的特點(diǎn)來看,數(shù)理統(tǒng)計(jì)所涉
及的數(shù)據(jù)量一般較小,且數(shù)據(jù)類型相對(duì)單一,屬于普通數(shù)據(jù)。大數(shù)據(jù)則是與普通
數(shù)據(jù)相對(duì)應(yīng)的概念,具有容量大、種類多、生成速度快和價(jià)值密度低的“4V”特
征,這標(biāo)志著大數(shù)據(jù)完全不同于普通的數(shù)據(jù)形態(tài),與普通數(shù)據(jù)有著本質(zhì)的差別。
其次,從分析對(duì)象所占的比例來看,數(shù)理統(tǒng)計(jì)的主要對(duì)象是樣本,是從總體中抽
取的部分?jǐn)?shù)據(jù)。樣本容量、抽樣方法和數(shù)據(jù)的精確性是影響其質(zhì)量的重要因素。
由于樣本的容量不可能太大,因此,一般通過科學(xué)的抽樣方法來確保樣本的代表
性,以提高有限數(shù)據(jù)條件下統(tǒng)計(jì)推斷的質(zhì)量。舍恩伯格在《大數(shù)據(jù)時(shí)代》中指出:
6
“大數(shù)據(jù)指不用隨機(jī)分析(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)的方法?!?/p>
雖然大家對(duì)“所有數(shù)據(jù)”的表述存在一定的爭議,但這已足以表明大數(shù)據(jù)分析與
數(shù)理統(tǒng)計(jì)的處理對(duì)象截然不同,由樣本轉(zhuǎn)向了總體。此外,兩者對(duì)數(shù)據(jù)的精確性
也有著不同的要求。因?yàn)闃颖局械腻e(cuò)誤很容易在計(jì)算過程中被放大,所以數(shù)理統(tǒng)
計(jì)特別強(qiáng)調(diào)數(shù)據(jù)的精確性,而對(duì)于大數(shù)據(jù)來說,數(shù)據(jù)量的增加有助于消除少量錯(cuò)
誤的影響,因此,降低了對(duì)個(gè)體精確性的要求。以國家統(tǒng)計(jì)局的農(nóng)民工市民化統(tǒng)
計(jì)為例,調(diào)查范圍是按照一定方法抽取的4萬多戶進(jìn)城農(nóng)民工樣本,由調(diào)查員直
接入戶面訪,這就屬于典型的抽樣統(tǒng)計(jì)。而國家統(tǒng)計(jì)局開展的利用百度搜索數(shù)據(jù)
預(yù)測房地產(chǎn)價(jià)格的研究,則是試圖利用搜索大數(shù)據(jù)來獲取真實(shí)的房地產(chǎn)走勢信息,
并在北京地區(qū)的二手房價(jià)格預(yù)測中取得了很好的效果。
(3)兩者所應(yīng)用的平臺(tái)不同現(xiàn)在,雖然傳統(tǒng)的數(shù)理統(tǒng)計(jì)也是借助計(jì)算機(jī)和
網(wǎng)絡(luò)來實(shí)現(xiàn),并且可以處理來自多個(gè)數(shù)據(jù)源的數(shù)據(jù),但一般是基于集中式的系統(tǒng)
環(huán)境,其數(shù)據(jù)存儲(chǔ)、計(jì)算主要利用關(guān)系型數(shù)據(jù)庫,仍然屬于集中式的計(jì)算環(huán)境。
而對(duì)于大數(shù)據(jù)來說,所需要的計(jì)算資源已遠(yuǎn)遠(yuǎn)超出了集中式系統(tǒng)的性能,主要是
通過分布式的云計(jì)算來完成。云計(jì)算是大數(shù)據(jù)處理的基礎(chǔ)性技術(shù),大數(shù)據(jù)分析的
平臺(tái)就是云計(jì)算平臺(tái),只有在云平臺(tái)之上,依托分布式數(shù)據(jù)庫和并行計(jì)算等技術(shù),
才能對(duì)大數(shù)據(jù)進(jìn)行整合、管理和分析。大數(shù)據(jù)與云計(jì)算可以說是同一枚硬幣的正
反兩面,在實(shí)際應(yīng)用中兩者是密不可分的。例如,廣泛應(yīng)用的大數(shù)據(jù)處理平臺(tái)
Hadoop,就實(shí)現(xiàn)了分布式文件系統(tǒng)、并行計(jì)算框架等云計(jì)算技術(shù)。很多傳統(tǒng)的
數(shù)據(jù)統(tǒng)計(jì)軟件也在向大數(shù)據(jù)分析領(lǐng)域演進(jìn),如有著近60年發(fā)展歷史的SAS,也
增加了基于Hadoop平臺(tái)的大數(shù)據(jù)分析功能。
兩者所采用的方法不同:數(shù)理統(tǒng)計(jì)主要通過對(duì)樣本數(shù)據(jù)進(jìn)行分析,并將分析
結(jié)果延伸至整體,從而得出一般結(jié)論,是一種以小見大、以簡馭繁的推理方法。
其整個(gè)過程可以歸結(jié)為“假設(shè)一采樣一驗(yàn)證〃,即提出假設(shè)、隨機(jī)抽樣、問卷調(diào)查
或?qū)嶒?yàn)、驗(yàn)證假設(shè)等步驟。其中對(duì)數(shù)據(jù)分布和變量間的關(guān)系作出假設(shè)以及對(duì)參數(shù)
進(jìn)行顯著性檢驗(yàn)是最具技術(shù)含量的內(nèi)容。
大數(shù)據(jù)分析一般不作預(yù)先假定、不抽取樣本、不注重精確、不追尋因果關(guān)系,
而是直接進(jìn)行開放式分析,通過搜索、聚類和分類、神經(jīng)網(wǎng)絡(luò)等算法,提煉其中
的知識(shí),形成對(duì)數(shù)據(jù)的理解。其過程可以歸納為〃整合一分析一發(fā)現(xiàn)〃,這與數(shù)理
統(tǒng)計(jì)的方法是完全不同的。例如,對(duì)于商品銷售類的大數(shù)據(jù),可以通過關(guān)聯(lián)關(guān)系
的自動(dòng)挖掘,在購買行為中找出更多的相關(guān)性,眾所周知的沃爾瑪從超市的購物
7
清單中發(fā)掘出啤酒與尿布之間的相關(guān)性,便是關(guān)聯(lián)規(guī)則挖掘的典型事例。對(duì)海量、
雜亂的數(shù)據(jù)而言,大數(shù)據(jù)分析具有明顯的應(yīng)用優(yōu)勢。以神經(jīng)網(wǎng)絡(luò)分析技術(shù)為例,
其中的隱蔽層就是一個(gè)〃黑箱“,用戶不必理解其中實(shí)際的自變量組合過程,而直
接接受其結(jié)果。
正確把握兩者之間的關(guān)系大數(shù)據(jù)分析與數(shù)理統(tǒng)計(jì)雖然在產(chǎn)生的時(shí)間上有先
后,但它們既不是簡單的繼承關(guān)系,也不是包含關(guān)系,在今后的發(fā)展中,兩者將
形成相互滲透、相互促進(jìn)的關(guān)系。
大數(shù)據(jù)分析離不開數(shù)理統(tǒng)計(jì)的支持〃在大數(shù)據(jù)時(shí)代,統(tǒng)計(jì)學(xué)依然是數(shù)據(jù)分析
的靈魂?!ㄊ紫?,現(xiàn)實(shí)問題總是具有超越已有技術(shù)的復(fù)雜性,大數(shù)據(jù)并不完全等
同于全部數(shù)據(jù),還不能全面、準(zhǔn)確、真實(shí)地反映所有的事物。其次,即使獲得了
某一事物的所有數(shù)據(jù),要挖掘出其中的信息也還存在一定的難度,還取決于數(shù)據(jù)
挖掘的方法和手段。因此,需要將大數(shù)據(jù)分析與數(shù)理統(tǒng)計(jì)學(xué)相結(jié)合,利用數(shù)理統(tǒng)
計(jì)思想優(yōu)化后的大數(shù)據(jù)分析,要優(yōu)于單純依靠大數(shù)據(jù)技術(shù)的分析結(jié)果,能有效提
高預(yù)測的精準(zhǔn)度。例如,在谷歌利用大數(shù)據(jù)對(duì)流感的預(yù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 變壓器安裝調(diào)試技術(shù)要點(diǎn)
- 施工機(jī)械考試題及答案
- 實(shí)驗(yàn)五升六考試題及答案
- 森林公安執(zhí)法試題及答案
- 北京市通州區(qū)2024-2025學(xué)年八年級(jí)上學(xué)期期末地理試卷(含答案)
- 輔警安全防護(hù)培訓(xùn)課件
- 小兒肺炎的護(hù)理跨文化研究與護(hù)理實(shí)踐
- 2026年大學(xué)大二(康復(fù)治療技術(shù))康復(fù)評(píng)定綜合階段測試試題及答案
- 2026年深圳中考物理答題規(guī)范特訓(xùn)試卷(附答案可下載)
- 2026年深圳中考數(shù)學(xué)函數(shù)專項(xiàng)提分試卷(附答案可下載)
- (網(wǎng)絡(luò)收集)2025年全國一卷數(shù)學(xué)高考真題圖片版
- 小兒過敏性休克的護(hù)理
- 2024年度廣東省三支一扶之公共基礎(chǔ)知識(shí)能力檢測試卷A卷附答案
- 2019海灣消防GST-GM9200TGST-QG-GM9200 GST-QT-GM9200 GST-G-GM9200T GST-QT-GM9200T消防控制室圖形顯示裝置
- 花卉學(xué)教案及講稿
- 保利入職培訓(xùn)
- 牛羊肉精深加工項(xiàng)目可行性研究報(bào)告
- 普通國省道養(yǎng)護(hù)工程(線預(yù)防養(yǎng)護(hù))設(shè)計(jì)說明
- FZT 43046-2017 錦綸彈力絲織物
- 無人駕駛(從想象到現(xiàn)實(shí))
- 三片罐行業(yè)分析
評(píng)論
0/150
提交評(píng)論