版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第八章成對數(shù)據(jù)的統(tǒng)計分析
一、思維導圖
最小
經(jīng)驗回
歸方程
數(shù)值[轉(zhuǎn)化
相關(guān)性
變顯非線性回
成歸模型
科
數(shù)
據(jù)
X?公式
二、知識記誦
知識點一、變量間的相關(guān)關(guān)系
1.變量與變量間的兩種關(guān)系:
(1)函數(shù)關(guān)系:這是一種確定性的關(guān)系,即一個變量能被另一個變量按照某種對應法則唯一確定.例
如圓的面積.S與半徑r之間的關(guān)系s=n1為函數(shù)關(guān)系.
(2)相關(guān)關(guān)系:這是一種非確定性關(guān)系.當一個變量取值一定時,另一個變量的取值帶有一定的隨機
性,這兩個變量之間的關(guān)系叫做相關(guān)關(guān)系。例如人的身高不能確定體重,但一般來說“身高者,體重也重”,
我們說身高與體重這兩個變量具有相關(guān)關(guān)系.
2.相關(guān)關(guān)系的分類:
(1)在兩個變量中,一個變量是可控制變量,另一個變量是隨機變量,如施肥量與水稻產(chǎn)量;
(2)兩個變量均為隨機變量,如某學生的語文成績與化學成績.
3.散點圖:
將兩個變量的各對數(shù)據(jù)在直角坐標系中描點而得到的圖形叫做散點圖.它直觀地描述了兩個變量之間有
沒有相關(guān)關(guān)系.這是我們判斷的一種依據(jù).
4.回歸分析:
與函數(shù)關(guān)系不同,相關(guān)關(guān)系是一種非確定性關(guān)系,對具有相關(guān)關(guān)系的兩個變量進行統(tǒng)計分析的方法叫
做回歸分析。
知識點二、線性回歸方程:
1.回歸直線
如果散點圖中點的分布從整體上看大致在一條直線附近,我們就稱這兩個變量之間具有線性相關(guān)關(guān)系,
這條直線叫作回歸直線。
2.回歸直線方程.£=以+&
對于一組具有線性相關(guān)關(guān)系的數(shù)據(jù)(x”y),],……,(x”,y“),其回歸直線?=b+S的截距
和斜率的最小二乘法估計公式分別為:
b=-.-------------,a=y-bx
力(X,「X)2
/=!
其中最表示數(shù)據(jù)X;(i=l,2,…,n)的均值,7表示數(shù)據(jù)%(i=l,2,…,n)的均值,石表示數(shù)據(jù)
XiV(i=l,2,…,n)的均值.
a、。的意義是:以。為基數(shù),x每增加一個單位,y相應地平均變化辦個單位.
3.求回歸直線方程的一般步驟:
①作出散點圖
由樣本點是否呈條狀分布來判斷兩個量是否具有線性相關(guān)關(guān)系,若存在線性相關(guān)關(guān)系,進行第二步。
②求回歸系數(shù)5、a
-1-1
計算X=-(X]+X,++x?),y=-(x+%++片),
nn
±%%=玉*+*2%+=片+考++x;,
f=li=\
--
-〃xy
利用公式辦=與---------求出5,
22
xi-nx
Zi=l
再由4=y-bx求出2的值;
③寫出回歸直線方程;
④利用回歸直線方程y=ci+bx預報在X取某一個值時y的估計值。
知識點三、相關(guān)性檢驗
(1)相關(guān)系數(shù)r的定義
對于變量x與y隨機抽取到的n對數(shù)據(jù)(x,y),,……,(xn,yn),稱
Z(七一x)(y-y)£Xa-nxy
“t"為x與y的樣本相關(guān)系數(shù)。
應(七-幻吃(X7尸-〃{)(£(片
Vz=1i=lVi=l/=1
(2)相關(guān)系數(shù)r的作用
樣本相關(guān)系數(shù)r用于衡量兩個變量之間是否具有線性相關(guān)關(guān)系,描述線性相關(guān)關(guān)系的強弱:
①|(zhì)小1
|川越接近b表明兩個變量之間的線性相關(guān)程度越強;|川越接近0,表明兩個變量之間的線性相關(guān)
程度越弱。
②當r>0時,表明兩個變量正相關(guān),即x增加,y隨之相應地增加,若x減少,y隨之相應地減少.
當r<0時,表明兩個變量負相關(guān),即x增加,y隨之相應地減少;若x減少,y隨之相應地增加.
若r=0,則稱x與y不相關(guān)。
③當|川〉0.75,認為x與y之間具有很強的線性相關(guān)關(guān)系。
④當|八大于&15時,表明有95%的把握認為x與y之間具有線性相關(guān)關(guān)系,這時求回歸直線方程有必
要也有意義,當|廠區(qū)6()5時,尋找回歸直線方程就沒有意義。
(3)利用相關(guān)系數(shù)r檢驗的一般步驟:
法一:
①作統(tǒng)計假設:x與y不具有線性相關(guān)關(guān)系。
②根據(jù)樣本相關(guān)系數(shù)計算公式算出r的值。
③比較I川與0.75的大小關(guān)系,得出統(tǒng)計結(jié)論。如果|川>0.75,認為x與y之間具有很強的線性相關(guān)
關(guān)系。
法二:
①作統(tǒng)計假設:x與y不具有線性相關(guān)關(guān)系。
②根據(jù)樣本相關(guān)系數(shù)計算公式算出r的值。
③根據(jù)小概率0.05與n-2在相關(guān)性檢驗的臨界值表中查出r的一個臨界值而a<n未數(shù)據(jù)的對數(shù))。
④比較IrI與行心,作統(tǒng)計推斷,如果I川>石心,表明有95%的把握認為x與y之間具有線性相關(guān)關(guān)系。
如果Ir飪&)5,我們沒有理由拒絕原來的假設,即不認為x與y之間具有線性相關(guān)關(guān)系。這時尋找回歸直
線方程是毫無意義的。
知識點四、線性回歸分析與非線性回歸分析
1.線性回歸分析
對于回歸分析問題,在解題時應首先利用散點圖或相關(guān)性檢驗判斷x與y是否具有線性相關(guān)關(guān)系,如
果線性相關(guān),才能求解后面的問題.否則求線性回歸方程沒有實際意義,它不能反映變量x與y,之間的變
化規(guī)律.只有在x與y之間具有相關(guān)關(guān)系時,求線性回歸方程才有實際意義.
相關(guān)性檢驗的依據(jù):主要利用檢驗統(tǒng)計量
__
_L1一一再藥4
V/=1i=l
(其中化簡式容易記也好用)求出檢驗統(tǒng)計量的樣本相關(guān)系數(shù),再利用r的性質(zhì)確定x和y是否具有
線性相關(guān)關(guān)系,r具有的性質(zhì)為:|r|Wl且|r|越接近于1,線性相關(guān)程度越強;|r|越接近于0,線性相關(guān)
程度越弱.
2.線性回歸分析的一般步驟
(1)確定研究對象,明確哪個變量是解釋變量,哪個變量是預報變量;
(2)判斷兩變量是否具有線性相關(guān)關(guān)系
①作散點圖
由樣本點是否呈條狀分布來判斷兩個量是否具有線性相關(guān)關(guān)系。
②求相關(guān)系數(shù)r
當|r|>0.75,認為x與y之間具有很強的線性相關(guān)關(guān)系。
(3)若兩變量存在線性相關(guān)關(guān)系,設所求的線性回歸方程為9=晟+&,求回歸系數(shù)B、a.
(4)寫出回歸直線方程;
(5)利用回歸直線方程y=a+bx預報在x取某一個值時y的估計值。
3.非線性回歸分析
(1)對于非線性回歸分析問題,如果給出了經(jīng)驗公式可直接利用換元,使新元與y具有線性相關(guān)關(guān)系,
進一步求出,,對新元的線性回歸方程,換回x即可得y對x的回歸曲線方程.
(2)非線性回歸問題有時并不給出經(jīng)驗公式,這時按以下步驟求回歸方程:
①畫出已知數(shù)據(jù)的散點圖,看是否是線性回歸分析問題,如果不是,把它與必修數(shù)學中學過的函數(shù)(塞
函數(shù)、指數(shù)函數(shù)、對數(shù)函數(shù)等)圖像作比較,挑選一種跟這些散點擬合得最好的函數(shù),采用適當?shù)淖兞恐?/p>
換,把非線性回歸分析問題化為線性回歸分析問題.
②作相關(guān)性檢驗,即判斷尋找線性回歸方程是否有意義.
③當尋找線性回歸方程有意義時,計算系數(shù)a,b,得到線性回歸方程.
④代回x得y對x的回歸曲線方程.
知識點五列聯(lián)表
1.列聯(lián)表
用表格列出的分類變量的頻數(shù)表,叫做列聯(lián)表。
2.2X2列聯(lián)表
對于兩個事件A,B,列出兩個事件在兩種狀態(tài)下的數(shù)據(jù),如下表所示:
事件B事件》合計
事件Aaba+b
事件入Cdc+d
合計a+cb+da+b+c+d
這樣的表格稱為2義2列聯(lián)表。
知識點六卡方統(tǒng)計量公式
為了研究分類變量X與Y的關(guān)系,經(jīng)調(diào)查得到一張2X2列聯(lián)表,如下表所示
YiY2合計
Xiaba+b
x2cdc+d
合計a+cb+dn=a+b+c+d
統(tǒng)計中有一個有用的(讀做“卡方”)統(tǒng)計量,它的表達式是:
K?----機)--(〃=a+8+c+。為樣本容量)。
(a+b)(c+d)(a+c)(b+d)
知識點七獨立性檢驗
1.獨立性檢驗
通過2X2列聯(lián)表,再通過卡方統(tǒng)計量公式計算K2的值,利用隨機變量K?來確定在多大程度上可
以認為“兩個分類變量有關(guān)系”的方法稱為兩個分類變量的獨立性檢驗。
2.變量獨立性的判斷
通過對K2統(tǒng)計量分布的研究,已經(jīng)得到兩個臨界值:3.841和6.635。當數(shù)據(jù)量較大時一,在統(tǒng)計中,用
以下結(jié)果對變量的獨立性進行判斷:
①如果K2W3.841時,認為事件A與B是無關(guān)的。
②如果K2>3.841時,有95%的把握說事件A與事件B有關(guān);
③如果K?>6.635時,有99%的把握說事件A與事件B有關(guān);
3.獨立性檢驗的基本步驟及簡單應用
獨立性檢驗的步驟:
要推斷“A與B是否有關(guān)”,可按下面步驟進行:
(1)提出統(tǒng)計假設H。:事件A與B無關(guān)(相互獨立);
(2)抽取樣本(樣本容量不要太小,每個數(shù)據(jù)都要大于5);
(3)列出2X2列聯(lián)表;
n(ad-be)2
(4)根據(jù)2X2列聯(lián)表,利用公式:計算出K2的值;
(a+c)3+d)(a+b)(c+d)
(5)統(tǒng)計推斷:當K?>3.841時,有95%的把握說事件A與B有關(guān);
當K?>6.635時,有99%的把握說事件A與B有關(guān);
當K?>10.828時,有99.9%的把握說事件A與B有關(guān);
當K?W3.841時,認為事件A與B是無關(guān)的.
三、能力培養(yǎng)
類型一回歸分析及相關(guān)檢驗
例1根據(jù)如下樣本數(shù)據(jù)
X345678
y4.02.5-0.50.5-2.0-3.0
得到的回歸方程為y=6x+a,則()
A.a>0,h>0B.a>O,h<0C.a<0,h>0D.a<0,/?<0
解析:樣本點的散點圖如圖3-1.由散點圖可知,a>O,b<().
4■
3-
2■
2345678.v
-2
-3
答案:B
規(guī)律總結(jié):由散點圖不僅可以直觀地看出兩個變量是否相關(guān),而且可以判斷兩個線性相關(guān)的變量是正
相關(guān)還是負相關(guān).當兩個變量正相關(guān)時,b>0;當兩個變量負相關(guān)時,匕<0.
例2假設某農(nóng)作物基本苗數(shù)x與有效穗數(shù)y之間存在相關(guān)關(guān)系,今測得5組數(shù)據(jù)如下:
X15.025.830.036.644.4
y39.442.942.943.149.2
(1)以x為解釋變量,y為預報變童,畫出散點圖:
(2)求y與x之間的回歸方程,對于基本苗數(shù)56.7預報有效穗數(shù);
(3)計算各組殘差;
(4)求R2,并說明隨機誤差對有效穗數(shù)的影響占百分之幾?
解:(1)散點圖如圖3-2所示.
f有效幅數(shù)
50-?
45-
??*
40?
35.
301-----?-----1-----?-----?—*上
515253545城本苗數(shù)
(2)由圖看出,樣本點呈條狀分布,有比較好的線性相關(guān)關(guān)系
因此可以用線性回歸方程來建立兩個變量之間的關(guān)系.
設線性回歸方程為y=法+。,由表中數(shù)據(jù)可得,b~0.29.“=34.66.
故y與x之間的回歸方程為y=0.29x+34.66.當x=56.7時,y=0.29x56.7+34.66=51.103.
估計有效穗數(shù)為51.103.
⑶各組數(shù)據(jù)的殘差分別為4=039,62g0.76,e3Q-0.46,e4*-2.170=1.66e:二0.39,
5
E(%-%)2
I8.4058
(4)X0.832
R?=1-號-------―_50.18
X(y-y)2
>=i
故解釋變量(農(nóng)作物基本苗數(shù))對有效穗數(shù)的影響約占了83.2%
所以隨機誤差對有效穗數(shù)的影響約占1-83.2%=16.8%.
規(guī)律總結(jié):進行線性回歸分析的關(guān)鍵是先畫出樣本點的散點圖,確定出變量具有線性相關(guān)關(guān)系,再求出
線性回歸方程.如果x,y的線性相關(guān)關(guān)系具有統(tǒng)計意義,就可以用線性回歸方程作出預測和控制.預測是
指對于x的取值范圍內(nèi)的任一個%,y取相應值y0的估計;控制是指通過控制x的值把y的值控制在指定
范圍內(nèi).
類型二獨立性檢驗
例3某工廠有25周歲以上(含25周歲)工人300名,25周歲以下工人200名.為研究工人的日平均生產(chǎn)量
是否與年齡有關(guān),現(xiàn)采用分層抽樣的方法,從中抽取了100名工人,先統(tǒng)計了他們某月的日平均生產(chǎn)
件數(shù),然后按工人年齡在“25周歲以上(含25周歲)”和“25周歲以下”分為兩組,再將兩組工人的
日平均生產(chǎn)件數(shù)分成5組:[50,60),[60,70),[70,80),[80,90),[90,100]分別加以統(tǒng)計,得
(D從樣本中日平均生產(chǎn)件數(shù)不足60件的工人中隨機抽取2人,求至少抽到一名“25周歲以下組”工
人的概率;
⑵規(guī)定日平均生產(chǎn)件數(shù)不少于80件者為“生產(chǎn)能手”,請你根據(jù)已知條件完成2x2列聯(lián)表,并判斷能
否在犯錯誤的概率不超過0.1的前提下認為“生產(chǎn)能手與工人所在的年齡組有關(guān)”
分析:(1)利用列舉法列出基本事件,結(jié)合古典概型求解;(2)利用獨立性檢驗公式計算求解.
解:(1)由已知可得,樣本中有25周歲以上組工人60名,25周歲以下組工人40名,所以樣本中日平均
生產(chǎn)件數(shù)不足60件的工人中,25周歲以上組工人有60x0.005x10=3(人),記為人,人,A;25周歲以
下組工人有40x0.005x10=2(人),記為耳,名.
從中隨機抽取2名工人,所有的可能結(jié)果共有10種,分別是
(4,4),(4,4),(4,43),(4,耳),(4,5),(4,即,(4,&),(4,4),(怎當),(旦也)
其中,至少有一名“25周歲以下組”工人的可能結(jié)果共有7種,
分別是(4,4),(4也),(&,耳),(&,鳥),(人,男),(4也),(練員)
故所求的概率P='7.
10
⑵由頻率分布直方圖可知,在抽取的100名工人中,“25周歲以上組”中的生產(chǎn)能手有
60x(0.0200+0.0050)xl0=15(人),“25周歲以下組”中的生產(chǎn)能手有40x(0.0325+0.0050)x10=15
(人),據(jù)此可得2x2列聯(lián)表如下:
生產(chǎn)能手非生產(chǎn)能手總計
25周歲以上組154560
25周歲以下組152540
總計3070100
—,,,,、、,、,、.>n(ad-bc\-c,,,、,100x(15x25-15x45)'
所以代入公式K-=-——、%——-,得K-的觀測值為k=——--------------x1.79
(4+/?)(c+d)(a+c)(b+d)60x40x30x70
因為1.79<2.706,
所以不能在犯錯誤的概率不超過0.1的前提下認為“生產(chǎn)能手與工人所在的年齡組有關(guān)”
解后反思:解決獨立性檢驗問題的基本步驟:
(1)找出相關(guān)數(shù)據(jù),作列聯(lián)表;
(2)求隨機變量片的觀測值;
(3)判斷可能性,注意與臨界值進行比較,得出事件有關(guān)的可信度.
例4為了比較注射A,B兩種藥物后產(chǎn)生的皮膚皰疹的面積,選200只家兔做試驗.將這200只家兔隨機地
分成兩組,每組100只,其中一組注射藥物A,另一組注射藥物B.
(1)甲、乙是200只家兔中的2只,求甲、乙分在不同組的概率;
(2)下表1和表2分別表示注射藥物A和B后的試驗結(jié)果(皰疹面積單位:加/).
表1:注射藥物A后皮膚皰疹面積的頻數(shù)分布表
皰疹面積[60,65)[65,70)[70,75)[75,80)
頻數(shù)30402010
表2:注射藥物B后皮膚皰疹面積的頻數(shù)分布表
皰疹面積[60,65)[65,70)[70,75)[75,80)[80,85)
頻數(shù)1025203015
①完成下面頻率分布直方圖(圖3-4和圖3-5),并比較注射兩種藥物后皰疹面積的中位數(shù)大小;
注射藥物A后皮膚皰疹面積的頻率分布直方圖
頻率
組距f
0.08----------?--------?--------?------r---------------r-----
0.07...........…二」…
??IIfI
0.06--------1-—--------j-—1—-?"—:—
0.05---------1-4-
0.04---------;--------—?-—;一一
0.03--------4一」…
0.02---------;--------—--?--;—
0.01...........
606570758085皰疹面積
注射藥物B后皮膚皰疹面積的頻率分布直方圖
頻率
組距]
0.08---------?-------?--------?--------I------v------r-----
It?III
0.07...........j--,.J...
0.06------------------:---------—-—?-—??—
0.05---------L—?—4—
0.04------------------j-—:-—:一—?-—?—
0.03---------——i——
0.02----------—?-------------—?>—
0.01..........…一:…
人,■,???
G7;)758085]疹面積
②完成下面2x2列聯(lián)表,并回答能否在犯錯誤的概率不超過0.001的前提下認為“注射藥物A后的皰疹
面積與注射藥物B后的皰疹面積有差異”.
表3:
皰疹面積小于70mm2皰疹面積不小于70mm2總計
注射藥物Aa=
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 量化投資視角下的久期與信用風險研究-洞察及研究
- 跨境電商物流自動化的挑戰(zhàn)與對策-洞察及研究
- 績效獎金與員工敬業(yè)度的聯(lián)系-洞察及研究
- 汽車市場細分策略-洞察及研究
- 腸結(jié)核治療對腸道菌群功能的影響評估-洞察及研究
- 肥胖低氧癥與干細胞調(diào)節(jié)-洞察及研究
- 骨髓炎治療中的藥物經(jīng)濟學分析-洞察及研究
- 氣候變暖下冷凝器能效提升-洞察及研究
- 電子商務與傳統(tǒng)板材分銷模式的融合研究-洞察及研究
- 外科護理個案比賽
- 2025年鹽城中考歷史試卷及答案
- 2025年鄭州工業(yè)應用技術(shù)學院馬克思主義基本原理概論期末考試模擬試卷
- 2026年七年級歷史上冊期末考試試卷及答案(共六套)
- 2025年六年級上冊道德與法治期末測試卷附答案(完整版)
- 附件二;吊斗安全計算書2.16
- 2025年全載錄丨Xsignal 全球AI應用行業(yè)年度報告-
- 學校食堂改造工程施工組織設計方案
- 資產(chǎn)評估期末試題及答案
- 鄭州大學《大學英語》2023-2024學年第一學期期末試卷
- 腦出血診療指南2025
- 2025年開放大學化工原理試題庫及答案
評論
0/150
提交評論