數(shù)據(jù)分析必備——統(tǒng)計學(xué)入門基礎(chǔ)知識_第1頁
數(shù)據(jù)分析必備——統(tǒng)計學(xué)入門基礎(chǔ)知識_第2頁
數(shù)據(jù)分析必備——統(tǒng)計學(xué)入門基礎(chǔ)知識_第3頁
數(shù)據(jù)分析必備——統(tǒng)計學(xué)入門基礎(chǔ)知識_第4頁
數(shù)據(jù)分析必備——統(tǒng)計學(xué)入門基礎(chǔ)知識_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余5頁可下載查看

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)分析必備一一統(tǒng)計學(xué)入門基礎(chǔ)知識編輯導(dǎo)語:不論在什么崗位,都要懂得本崗位的基礎(chǔ)知識,打牢基礎(chǔ)后面才能穩(wěn)步發(fā)展;數(shù)據(jù)分析也是如此,數(shù)據(jù)分析必須要掌握統(tǒng)計學(xué)的基礎(chǔ)知識;本文是作者分享的關(guān)于統(tǒng)計學(xué)入門基礎(chǔ)的知識,我們一起來學(xué)習(xí)一下吧。要做好數(shù)據(jù)分析,除了自身技術(shù)硬以及數(shù)據(jù)思維靈活外,還得學(xué)會必備的統(tǒng)計學(xué)基礎(chǔ)知識!因此,統(tǒng)計學(xué)是數(shù)據(jù)分析必須掌握的基礎(chǔ)知識,即通過搜索、整理、分析、描述數(shù)據(jù)等手段,以達(dá)到推斷所測對象的本質(zhì),甚至預(yù)測對象未來的一門綜合性科學(xué)。統(tǒng)計學(xué)用到了大量的數(shù)學(xué)及其它學(xué)科的專業(yè)知識,其應(yīng)用范圍幾乎覆蓋了社會科學(xué)和自然科學(xué)的各個領(lǐng)域,而在數(shù)據(jù)量極大的互聯(lián)網(wǎng)領(lǐng)域也不例外;因此扎實(shí)的統(tǒng)計學(xué)基

2、礎(chǔ)是一個優(yōu)秀的數(shù)據(jù)人必備的技能。但是,統(tǒng)計學(xué)的知識包括了圖形信息化、數(shù)據(jù)的集中趨勢、概率計算、排列組合、連續(xù)型概率分布、離散型概率分布、假設(shè)檢驗(yàn)、相關(guān)和回歸等知識;對于具體的知識點(diǎn),本文就不一一介紹了,感興趣的同學(xué)請參考深入淺出統(tǒng)計學(xué)、統(tǒng)計學(xué):從數(shù)據(jù)到結(jié)論等等專業(yè)書籍。1/10統(tǒng)計學(xué)分為描述性統(tǒng)計學(xué)和推斷性統(tǒng)計學(xué)。一、描述性統(tǒng)計定義:使用特定的數(shù)字或圖表來體現(xiàn)數(shù)據(jù)的集中程度和離散程度。1 .集中趨勢集中趨勢集中趨勢是指一組數(shù)據(jù)所趨向的中心數(shù)值,用到的指標(biāo)有:算數(shù)均數(shù)、幾何均數(shù)、中位數(shù)。算數(shù)均數(shù):即為均數(shù),用以反映一組呈對稱分布的變量值在數(shù)量上的平均水平。幾何均數(shù):常用以反映一組經(jīng)對數(shù)轉(zhuǎn)換后呈對

3、稱分布的變量值在數(shù)量上的平均水平。中位數(shù):適用于偏態(tài)分布資料和一端或兩端無確切的數(shù)值的資料,是第50百分位數(shù)。百分位數(shù):為一界值,用以確定醫(yī)學(xué)參考值范圍。2 .離散趨勢離散趨勢是反映數(shù)據(jù)的變異程度,常用指標(biāo)有極差、四分位間距、方差與標(biāo)準(zhǔn)差、變異系數(shù)。2/10極差:為一組數(shù)據(jù)的最大值和最小值之差,但極差不能反映所有數(shù)據(jù)的變異大小,且極易受樣本含量的影響。常用以描述偏態(tài)分布。四分位數(shù)間距:它是由第3四分位數(shù)與第1四分位數(shù)相減得到,常和中位數(shù)一起描述偏態(tài)分布資料的分布。方差與標(biāo)準(zhǔn)差:反映一組數(shù)據(jù)的平均離散水平,消除了樣本含量的影響,常和均數(shù)一起用來描述一組數(shù)據(jù)中的離散和集中趨勢。變異系數(shù):也稱作異常

4、值,多用于觀察指標(biāo)單位不同時,可消除因單位不同而不能進(jìn)行比較的困難。例如箱線圖就可以很好反映其中部分重點(diǎn)統(tǒng)計值:3 .抽樣方法和中心極限定理抽樣方法:我們在做產(chǎn)品檢驗(yàn)的時候,不可能把所有的產(chǎn)品都打開檢驗(yàn)一遍看是否合格,我們只能從全部的產(chǎn)品中抽取部分樣本進(jìn)行檢驗(yàn),依據(jù)樣本的質(zhì)量估算整體的產(chǎn)品質(zhì)量,這個就是抽樣,抽樣的定義是為了檢驗(yàn)整體從整體中抽離部分樣本進(jìn)行檢測,以樣本的檢測結(jié)果進(jìn)行整體質(zhì)量的估算的方法。3/10抽樣有多種方法,針對不同的目的和場景,需要運(yùn)用不同的方法進(jìn)行檢測,常見的抽樣方法有:1 )概率抽樣簡單隨機(jī)抽樣;分層抽樣;整群抽樣(先將總體中若干個單位合并為組,這樣的組稱為群,冉直接對

5、群進(jìn)行抽樣);系統(tǒng)抽樣(將總體中所有單位按一定順序排列,在規(guī)定的范圍內(nèi)隨機(jī)抽取一個單位作為初始單位,然后再按事先指定好的規(guī)則確定其他樣本單位);階段抽樣(先抽群,然后在群內(nèi)進(jìn)行二階段抽樣)。2 )非概率抽樣方便抽樣(依據(jù)方便原則自行確定);判斷抽樣(依據(jù)專業(yè)知識進(jìn)行判斷);自愿樣本(調(diào)查者自愿參加);4/10滾雪球樣本(類似樹結(jié)構(gòu));配額樣本(類似分層抽樣);3)兩者抽樣方法之間的比較:非概率抽樣適合探索性的研究,為更深入的數(shù)據(jù)分析做準(zhǔn)備,特點(diǎn)是操作簡便、時效快、成本低;而且對于抽樣中的統(tǒng)計專業(yè)技術(shù)要求不是很高;概率抽樣的技術(shù)含量更高,調(diào)查成本更高,統(tǒng)計學(xué)專業(yè)知識要求更高,適合調(diào)查目的為研究對

6、象總體,得到總體參數(shù)的置信區(qū)問。4)中心極限定理:若給定樣本量的所有樣本來自任意整體,則樣本均值的抽樣分布近似服從正態(tài)分布,且樣本量越大,近似性越強(qiáng)。以30為界限,當(dāng)樣本量大于30的時候符合中心極限定理,樣本服從正態(tài)分布;當(dāng)樣本量小于30的時候,總體近似正態(tài)分布時,此時樣本服從t分布。樣本的分布形態(tài)決定了我們在假設(shè)檢驗(yàn)中采用什么方法去檢驗(yàn)它。5/10二、推斷性統(tǒng)計定義:根據(jù)樣本數(shù)據(jù)推斷總體的數(shù)據(jù)特征。1.基本步驟產(chǎn)品質(zhì)檢的時候用的幾乎都是抽樣方法的推斷性統(tǒng)計,推斷性的過程就是一種假設(shè)檢驗(yàn),在做推斷性統(tǒng)計的時候我們需要明確幾點(diǎn):問題是什么?需要明確的證據(jù)是什么?判斷標(biāo)準(zhǔn)是什么?明確后可以對應(yīng)我們

7、假設(shè)檢驗(yàn)的幾個步驟了:提出原假設(shè)(HQ)和備選假設(shè)(H1),確定顯著性水平(原假設(shè)為正確時,人們把它拒絕了的概率);選擇檢驗(yàn)方法,確定檢驗(yàn)統(tǒng)計量;確定P值,作出統(tǒng)計推理;假設(shè)對于某一個器件,國家標(biāo)準(zhǔn)要求:平均值要低于20。6/10某公司制造出10個器件,相關(guān)數(shù)值如下:15.6、16.2、22.5、20.5、16.4、19.4、 16.6、17.9、12.7、13.9。運(yùn)用假設(shè)檢驗(yàn)判斷該公司器件是否符合國家標(biāo)準(zhǔn):1 )設(shè)假設(shè):原假設(shè):器件平均值=20;備擇假設(shè):器件平均值20;2 )總體為正態(tài)分布,方差未知,樣本為小樣本,因此采用T檢驗(yàn)。3 )計算檢驗(yàn)統(tǒng)計量:樣本平均值17.17,樣本標(biāo)準(zhǔn)差2.

8、98,檢驗(yàn)統(tǒng)計量為(17.17-20)/(2.98/,10)=-3.00314 )當(dāng)置信度選擇97.5%,自由度為9,此時為單尾檢驗(yàn),臨界值為2.262。5 )由于-3.0031-2.262,拒絕原假設(shè),因此接受備擇假設(shè),該器件滿足國家標(biāo)準(zhǔn)。7/102 .假設(shè)檢驗(yàn)類型單樣本檢驗(yàn):檢驗(yàn)單個樣本的平均值是否等于目標(biāo)值;相關(guān)配對檢驗(yàn):檢驗(yàn)相關(guān)或配對觀測之差的平均值是否等于目標(biāo)值;獨(dú)立雙樣本檢驗(yàn):檢驗(yàn)兩個獨(dú)立樣本的平均值之差是否等于目標(biāo)值;3 .統(tǒng)計檢驗(yàn)方法Z檢驗(yàn):一般用于大樣本(即樣本容量大于30)平均值差異性檢驗(yàn)的方法。它是用標(biāo)準(zhǔn)正態(tài)分布的理論來推斷差異發(fā)生的概率,從而比較兩個平均數(shù)平均數(shù)的差異是

9、否顯著。T檢驗(yàn):用于樣本含量較?。ɡ鏽30),總體標(biāo)準(zhǔn)差6未知的正態(tài)分布樣本F檢驗(yàn):F檢驗(yàn)又叫方差齊性檢驗(yàn)。在兩樣本t檢驗(yàn)中要用到F檢驗(yàn)。檢驗(yàn)兩個樣本的方差是否有顯著性差異這是選擇何種T檢驗(yàn)(等方差雙樣本檢驗(yàn),異方差雙樣本檢驗(yàn))的前提條件。(T檢驗(yàn)用來檢測數(shù)據(jù)的準(zhǔn)確度,檢測系統(tǒng)誤差;F檢驗(yàn)用來檢測數(shù)據(jù)的精密度,檢測偶然誤差。)卡方檢驗(yàn):主要用于檢驗(yàn)兩個或兩個以上樣本率或構(gòu)成比之間差別的顯著性,也可檢驗(yàn)兩類事物之間是否存在一定的關(guān)系。8/104 .雙尾檢測和單尾檢測這個和我們提出的原假設(shè)相關(guān),例如我們檢測的原假設(shè):器件平均值=20我們需要拒絕的假設(shè)就是器件平均值20,此時就是單尾檢驗(yàn);如果我們的原假設(shè)是器件平均值20,則我們需要拒絕的假設(shè)就是器件平均值20和器件平均值=20,此時就是雙尾檢測。5 .置信區(qū)間和置信水平在統(tǒng)計學(xué)中,幾乎都是依據(jù)樣本來推斷總體的情況的,但在推斷的過程中,我們會遇到各種各樣的阻礙和干擾;所以我們推斷出的結(jié)果不是一個切確的數(shù)字,而是在某個合理的區(qū)間內(nèi),這個范圍就是置信區(qū)間。但整體中所有的數(shù)據(jù)都在這個范圍也不現(xiàn)實(shí),我們只需要絕大多數(shù)出現(xiàn)在置信區(qū)間就可以了,這里的絕大多數(shù)就是置信水平的概念,通常情況我們的置信水平是95%置信區(qū)間a,b的計算方法為:(z分?jǐn)?shù):由置信水平?jīng)Q定,查表

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。