統(tǒng)計(jì)成對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析知識(shí)點(diǎn)易錯(cuò)點(diǎn)總結(jié)-高考三輪復(fù)習(xí)沖刺_第1頁(yè)
統(tǒng)計(jì)成對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析知識(shí)點(diǎn)易錯(cuò)點(diǎn)總結(jié)-高考三輪復(fù)習(xí)沖刺_第2頁(yè)
統(tǒng)計(jì)成對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析知識(shí)點(diǎn)易錯(cuò)點(diǎn)總結(jié)-高考三輪復(fù)習(xí)沖刺_第3頁(yè)
統(tǒng)計(jì)成對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析知識(shí)點(diǎn)易錯(cuò)點(diǎn)總結(jié)-高考三輪復(fù)習(xí)沖刺_第4頁(yè)
統(tǒng)計(jì)成對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析知識(shí)點(diǎn)易錯(cuò)點(diǎn)總結(jié)-高考三輪復(fù)習(xí)沖刺_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì).成對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析

一、隨機(jī)抽樣

1.簡(jiǎn)單隨機(jī)抽樣

(1)簡(jiǎn)單隨機(jī)抽樣分為放回簡(jiǎn)單隨機(jī)抽樣和不放回簡(jiǎn)單隨機(jī)抽樣。

(2)簡(jiǎn)單隨機(jī)樣本:通過(guò)簡(jiǎn)單隨機(jī)抽樣獲得的樣本稱為簡(jiǎn)單隨機(jī)樣本。

(3)簡(jiǎn)單隨機(jī)抽樣的常用方法。實(shí)現(xiàn)簡(jiǎn)單隨機(jī)抽樣的方法有很多,抽簽法和隨機(jī)數(shù)法是比較常用的兩種方法。

注意:除非特殊聲明,本章簡(jiǎn)單隨機(jī)抽樣指不放回簡(jiǎn)單隨機(jī)抽樣。

2.總體平均數(shù)與樣本平均數(shù)

名稱定義

一股地,總體中有N個(gè)個(gè)體,它們的變量值分別為九匕,…,人則稱

丫-丫弋…+YJ:匕為總體均值,又稱總體平均數(shù)。

總體均值(總體平均

如果總體的N個(gè)變量值中、不同的值共有〃(欄」V)個(gè),不妨記為

數(shù))

…,萬(wàn)其中匕出現(xiàn)的頻數(shù)為網(wǎng)=12…用,則總體均值還可以寫成

加權(quán)平均數(shù)的形式丫總£:

N乙1=1

樣本均值(樣本平均如果從總體中抽取一個(gè)容量為〃的樣本,它們的變量值分別為

數(shù))卜母…出〃則稱白9戶個(gè)£二H,為樣本均值又稱樣本平均數(shù)

注意:①在簡(jiǎn)單隨機(jī)抽樣中、我們常用樣本平均數(shù)y去估計(jì)總體平均數(shù)匕②總體平均數(shù)是一個(gè)確定的數(shù),樣本

平均數(shù)具有隨機(jī)性(因?yàn)闃颖揪哂须S機(jī)性);③一般情況下,樣本量越大,估計(jì)越準(zhǔn)確。

3.分層隨機(jī)抽樣

(1)定義:一般地,按一個(gè)或多個(gè)變量把總體劃分成若干個(gè)子總體,每個(gè)個(gè)體屬于且僅屬于一個(gè)子總體、在每個(gè)

子總體中獨(dú)立地進(jìn)行簡(jiǎn)單隨機(jī)抽樣,再把所有子總體中抽取的樣本合在一起作為總樣本,這樣的抽樣方法稱

為分層隨機(jī)抽樣,每一個(gè)子總體稱為層。在分層隨機(jī)抽樣中,如果每層樣本量都與層的大小成比例,那么稱這

種樣本量的分配方式為比例分配。

(2)分層隨機(jī)抽樣的應(yīng)用范圍:當(dāng)總體是由差異明顯的幾個(gè)部分組成時(shí)彳主往選用分層隨機(jī)抽樣。

(3)分層隨機(jī)抽樣的平均數(shù)計(jì)算

在比例分配的分層隨機(jī)抽樣中,如果層數(shù)分為2層,第1層和第2層包含的個(gè)體數(shù)分別為M和N抽取的樣本

量分別為和〃,樣本平均數(shù)分別為尺又總體的樣本平均數(shù)為取則T產(chǎn)捻產(chǎn)品;社后九

注意:①隨機(jī)抽樣時(shí)、總體中的每個(gè)個(gè)體入樣的概率相同。②比例分配的分層隨機(jī)抽樣,每一層入樣的個(gè)體數(shù)

為該層的個(gè)體數(shù)乘以抽樣比。

【重點(diǎn)難點(diǎn)易錯(cuò)點(diǎn)】

1.簡(jiǎn)單隨機(jī)抽樣的要點(diǎn):?簡(jiǎn)單隨機(jī)抽樣需滿足:①被抽取的樣本和總體的個(gè)體數(shù)有限;②逐個(gè)抽取;③等可能

抽取。2.在使用隨機(jī)數(shù)法時(shí).如遇到三四(或四位數(shù)),可從選擇的隨機(jī)數(shù)表中的某行某列的數(shù)字計(jì)起、每三個(gè)

(或四個(gè))作為一個(gè)單位、按某種順序依次選取,有超過(guò)總體號(hào)碼或出現(xiàn)重復(fù)號(hào)碼的數(shù)字舍去。3.簡(jiǎn)單隨機(jī)抽樣

常用抽簽法(適用于總體中個(gè)體數(shù)較少的情況)、隨機(jī)數(shù)法(適用于總體中個(gè)體數(shù)較多的情況)。

樣本容量—各層樣本數(shù)量

2.比例分配的分層隨機(jī)抽樣的計(jì)算應(yīng)根據(jù)抽樣比構(gòu)造方程求解其中、抽樣比

總體容量各層個(gè)體數(shù)量?

3.樣本平均數(shù)可以依據(jù)定義求解。對(duì)于分兩層的分層隨機(jī)抽樣的平均數(shù)也可以依據(jù)公式求

解而就;又扁?(其中〃八〃分別為兩層的樣本量,又彳分別為兩層的樣本平均數(shù))。

二、用樣本估計(jì)總體

1.統(tǒng)計(jì)圖表

(1)常見的統(tǒng)計(jì)圖表有條形圖、扇形圖、折線圖、頻率分布直方圖等。

⑵作頻率分布直方圖的步驟:①求極差;②決定組距與組數(shù):③將數(shù)據(jù)分組;④列頻率分布表;⑤畫頻

率分布直方圖。

2.百分位數(shù)

⑴一般地,一組數(shù)據(jù)的第P百分位數(shù)是這樣一個(gè)值,它使得這組數(shù)據(jù)中至少有P%的數(shù)據(jù)小于蟾于這個(gè)值.

且至少有(10?!ǎサ臄?shù)據(jù)大于或等于這個(gè)值。

⑵四分位數(shù)。常用的分位數(shù)有第25百分位數(shù),第50百分位數(shù)(即中位數(shù)),第75百分位數(shù)。這三個(gè)分位數(shù)把

一組由小到大排列后的數(shù)據(jù)分成四等份、因此稱為四分位數(shù)。其中第②百分位數(shù)也稱為第一四分位數(shù)或下

四分位數(shù)等.第百分位數(shù)也稱為第三四分位數(shù)或上四分位數(shù)等。

3.總體集中趨勢(shì)的估計(jì)

眾數(shù)、中位數(shù)、平均數(shù)

數(shù)字特征樣本數(shù)據(jù)頻率分布直方圖

眾數(shù)出現(xiàn)次數(shù)最多的數(shù)據(jù)取最高的小矩形底邊中點(diǎn)的橫坐標(biāo)

將數(shù)據(jù)按大小依次排列.處在最中間位置的把頻率分布直方圖劃分為左右兩個(gè)面積相等

中位數(shù)

一個(gè)數(shù)據(jù)(或最中間兩個(gè)數(shù)據(jù)的平均數(shù))的部分,分界線與X軸交點(diǎn)的橫坐標(biāo)

每個(gè)小矩形的面積乘小矩形底邊中點(diǎn)的橫坐

平均數(shù)樣本數(shù)據(jù)的算術(shù)平均數(shù)盯上+=+...+與)

標(biāo)之和

4.總體離散程度的估計(jì)一方差和標(biāo)準(zhǔn)差

⑴假設(shè)一組數(shù)據(jù)是羽4…即用了表示這組數(shù)據(jù)的平均數(shù)則我們稱」工:小立_為這組數(shù)據(jù)的方差。有時(shí)

n1=1

為了計(jì)算方差的方便,我們還把方差寫曜2二辭爐的形式。為了與原始數(shù)據(jù)的單位一致,我們對(duì)方差開平

方.取它的算術(shù)平方恨夕二(芍-工)2_,稱為這組數(shù)據(jù)的標(biāo)本差。

(2)方差和標(biāo)準(zhǔn)差刻畫了數(shù)據(jù)的離散程度或波動(dòng)幅度。

方差:S2」|~(X[%F+(X2*F+...+G7TF]C

H

標(biāo)準(zhǔn)差:s=j;[(%1-元)2+(%2-次)2+…+(4一元)2]。

注意:方差和標(biāo)準(zhǔn)差描述了一組數(shù)據(jù)的離散程度,反映了一組數(shù)據(jù)相對(duì)于平均數(shù)的波動(dòng)情況,標(biāo)準(zhǔn)差和方差越

大,說(shuō)明這組:的波動(dòng)性越大。

【重點(diǎn)難點(diǎn)易錯(cuò)點(diǎn)】

1.統(tǒng)計(jì)圖表的主要應(yīng)用:扇形圖:直觀描述各類數(shù)據(jù)占總數(shù)的比例。折線圖:描述數(shù)據(jù)隨時(shí)間的變化趨勢(shì)。

條形圖和直方圖:直觀描述不同類別或分組數(shù)據(jù)的頻數(shù)和頻率。

2.總體百分位數(shù)的估計(jì)需要注意的兩個(gè)問(wèn)題:(1)總體百分位數(shù)的怙計(jì)的基礎(chǔ)是樣本百分位數(shù)的計(jì)算.因此計(jì)算

準(zhǔn)確是關(guān)鍵;(2)由于樣本量比較少,因此對(duì)總體的估計(jì)可能存在誤差.因此對(duì)總體百分位數(shù)的估計(jì)一般是估計(jì)

值而非精確值。

3.確定要求的〃%分位數(shù)所在分組[48),由頻率分布表或頻率分布直方圖可知.樣本中小于力的頻率為”,小于

B的頻率為A所以P%分位數(shù)=力+組距年F

4.頻率分布直方圖的數(shù)字特征1.眾數(shù):最高矩形的底邊中點(diǎn)的橫坐標(biāo)。2.中位數(shù):中位數(shù)左邊和右邊的矩形的

面積和應(yīng)該相等。3.平均數(shù):平均數(shù)在頻率分布直方圖中等于各組區(qū)間的中點(diǎn)值與對(duì)應(yīng)頻率之積的和。

5.利用樣本的數(shù)字特征解決優(yōu)化決策問(wèn)題的依據(jù):1.平均數(shù)反映了數(shù)據(jù)取值的平均水平;標(biāo)準(zhǔn)差、方差描述了

一組:圍繞平均數(shù)波動(dòng)的大小。標(biāo)準(zhǔn)差、方差越大.數(shù)據(jù)的離散程度越大、越不穩(wěn)定:標(biāo)準(zhǔn)差、方差越小、數(shù)

據(jù)的離散程度越小、越穩(wěn)定。2用樣本估計(jì)總體就是利用樣本的數(shù)字特征來(lái)描述總體的數(shù)字特征。

三、成對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析

1.變量的相關(guān)關(guān)系

(1)相關(guān)關(guān)系

兩個(gè)變量有關(guān)系,但又沒有確切到可由其中的一個(gè)去精確地決定另一個(gè)的程度.這種關(guān)系稱為相關(guān)關(guān)系。

(2)相關(guān)關(guān)系的分類:正相關(guān)和負(fù)相關(guān)。

(3)線性相關(guān)

一般地.如果兩個(gè)變量的取值呈現(xiàn)正相關(guān)或負(fù)相關(guān).而且散點(diǎn)落在二線附近?我們就稱這兩個(gè)變量線性相

(4)非線性相關(guān)

一般地.如果兩個(gè)變量具有相關(guān)性,但不是線性相關(guān)、那么我們輛這兩個(gè)變量非線性相關(guān)或曲線相關(guān)。

2.樣本相關(guān)系數(shù)

(1)樣本相關(guān)系數(shù)廠的計(jì)算

變量x和變量y的樣本相關(guān)系數(shù)「的計(jì)算公式如下:

「(XOC/L?)____

吐;](y(-y)2

(2)樣本相關(guān)系數(shù)廠的性質(zhì)

①當(dāng)r>0時(shí),稱成對(duì)樣本數(shù)據(jù)正相關(guān);當(dāng)r<0時(shí),稱成對(duì)樣本數(shù)據(jù)負(fù)相關(guān);當(dāng)尸0時(shí)、稱成對(duì)樣本數(shù)據(jù)間沒有線性

相關(guān)關(guān)系。

②樣本相關(guān)系數(shù)r的取值范圍為回。

當(dāng)川越接近1時(shí).成對(duì)樣本數(shù)據(jù)的線性相關(guān)程度越強(qiáng):

當(dāng)川越接近0時(shí),成對(duì)樣本數(shù)據(jù)的線性相關(guān)程度越弱。

3一元線性回歸模型

(I)經(jīng)驗(yàn)回歸方程與最小二乘法

我們將卡加+4稱為>'關(guān)于工的經(jīng)驗(yàn)回歸方程也稱經(jīng)驗(yàn)回歸函數(shù)或經(jīng)驗(yàn)回歸公式其圖形稱為經(jīng)臉回歸直線。

這種求經(jīng)驗(yàn)回歸方程的方法叫做最小二乘法,求得的B淖叫做b,a的最小二乘估計(jì)。其中

(7_E).i(Ar(-x)(y(-y)_x^t-nxy

D—n-n">

Z,=i(々一鏟Em鏟序

a=y-bxo

n

⑵利用決定系數(shù)心表示模型的擬合效果。解=1空A”空點(diǎn)越大即模型的擬合效果越好R越小即模型

Eg(y.-y)2

的擬合效果越差。

4?列聯(lián)表與獨(dú)立性檢驗(yàn)

(1)2x2列聯(lián)表

一般地,假設(shè)有兩個(gè)分類變量X和K它們的取值分別為⑺向和g必}.其2x2列聯(lián)表為

Y

X合計(jì)

Y=y\y=F2

X=x\aba+b

X=X2cdc+d

合計(jì)4+Cb+dn=a+b+c+d

(2)臨界值

仁鬲瞿蒜而忽略獷的實(shí)際分布與該近似分布的誤差后,對(duì)于任何小概率值/可以找到相應(yīng)的正實(shí)

數(shù)x“,使得P〃2=a成立。我們稱心為。的臨界值.這個(gè)臨界值就可作為判斷Z2大小的標(biāo)準(zhǔn)。

(3)獨(dú)立性檢驗(yàn)

基于小概率值〃的檢驗(yàn)規(guī)則是:

當(dāng)Z2紗〃時(shí)、我們就推斷兒不成立.即認(rèn)為X和丫不獨(dú)立,該推斷犯錯(cuò)誤的概率不超過(guò)a;

當(dāng)〃時(shí)、我們沒有充分證據(jù)推斷以不成立.可以認(rèn)為X和丫獨(dú)立。

這種利用Z2的取值推斷分類變量X和丫是否獨(dú)立的方法稱為片獨(dú)立性檢驗(yàn),讀作“卡方獨(dú)立性檢驗(yàn)二簡(jiǎn)稱獨(dú)立

性檢驗(yàn)。

下表給出了獨(dú)立性檢驗(yàn)中幾個(gè)常用的小概率值和相應(yīng)的臨界值

0.10.050.010.0050.001

xa2.7063.8416.6357.87910.828

【重點(diǎn)難點(diǎn)易錯(cuò)點(diǎn)】

l.r的絕對(duì)值越接近0,表示兩個(gè)變量的線性相關(guān)性越弱。通常當(dāng)r的絕對(duì)值大于0.75時(shí).便

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論