統(tǒng)計案例與線性回歸分析_第1頁
統(tǒng)計案例與線性回歸分析_第2頁
統(tǒng)計案例與線性回歸分析_第3頁
統(tǒng)計案例與線性回歸分析_第4頁
統(tǒng)計案例與線性回歸分析_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第62講:統(tǒng)計案例與線性回歸分析

一、課程標準

1、會作兩個有關聯(lián)變量的數(shù)據(jù)的散點圖,并利用散點圖認識變量間的相關關系.

2、了解最小二乘法的思想,能根據(jù)給出的線性回歸方程系數(shù)公式建立線性回歸方程.

3、了解獨立性檢驗的基本思想、方法及其簡單應用,能通過計算判斷兩個變量的相關程度.

二、基礎知識回顧

1.變量間的相關關系

(1)常見的兩變晟之間的關系有兩類:一類是函數(shù)關系,另一類是相關關系;與函數(shù)關系不同,相關關系

是一種非確定性關系.闌體現(xiàn)的不一定是因果關系

(2)從散點圖上看,點散布在從左下角到右上角的區(qū)域內(nèi),兩個變量的這種相關關系稱為正相關;點散布

在左上角到右下角的區(qū)域內(nèi),兩個變量的這種相關關系為負相關.

2.兩個變量的線性相關

(1)從散點圖上看,如果這些點從整體上看大致分布在通過散點圖中心的一條直線附近,稱兩個變量之間

具有線性相關關系,這條直線叫做回歸宜?線.

(2)1可歸方程為H=yx+aA,其中其中aA,B是待定參數(shù),錯誤!(yLbxi-a)2的最小值而得到回歸直線

的方法,即使得樣本數(shù)據(jù)的點到回歸直線的距離的平方和最小,這一方法叫做最小二乘法.

(4)相關系數(shù):

當r>0時,表明兩個變量正J眩;當rVO時,表明兩個變量負相關.

I?的絕對值越接近于1,表明兩個變量的線性相關性越強.r的絕對值越接近于。,表明兩個變量之間幾乎

不存在線性相關關系.通常卜|大于0.75時,認為兩個變量有很強的線性相關性.

3.獨立性檢驗

⑴2X2列聯(lián)表

(2)獨立性檢驗

n(nd—he)2

利用隨機變量K2(也可表示為片)的觀測值k=(a+b)91c)(b+d)(其中n=a+b+

c+d為樣本容量)來判斷“兩個變量有關系”的方法稱為獨立性檢驗.

常用結論

(I)求解回歸方程的關鍵是確定回歸系數(shù)心,bA,應充分利用歸I歸直線過樣本中心點(X-,丫一).

(2)根據(jù)Y的值可以判斷兩個分類變最有關的可信程度,若K?越大,則兩分類變最有關的把握越大.

(3)根據(jù)回歸方程計算的b人值,僅是一個預報值,不是真實發(fā)生的值.

三、自主熱身、歸納總結

1、根據(jù)如下樣本數(shù)據(jù)

X345678

y4.02.5-0.50.5-2.0-3.0

得到的回歸方程為y=bx+a,則()

A.a>(),b>()B.aX),b<()

C.a<0?b>0D.a<0,b<0

2、為了解某社區(qū)居民的家庭年收入與年支出的關系,隨機調(diào)查了該社區(qū)5戶家庭,得到如下統(tǒng)計數(shù)據(jù)表:

收入x(萬元)8.28.610.011.311.9

支出y(萬元)6.27.58.08.59.8

根據(jù)卜表可得回歸直線方程y=hx+a,其中b=0.76*a=y---hx—.據(jù)此估計,該社區(qū)一戶年收入為15

萬元家庭的年支出為()

4.11.4萬元4.11.8萬元

C.12.0萬元D12.2萬元

3、己知x,y的取值如下表,從散點圖可以看出y與x具有線性相關關系,且回歸方程為y/\=0.95x+a八,

則aA=________

X0134

y2.2434.86.7

5、為了判斷高中三年級學生是否選修文科與性別的關系,現(xiàn)隨機抽取50名學生,得到如下2X2列聯(lián)表:

理科文科

男1310

女720

已知P(K223.841)弋0.05,P(IC25.024)=0.025.根據(jù)表中數(shù)據(jù),得到K2的觀測值1<=

年胃,4.844.則認為選修文科與性別有關系出錯的可能性為.

X乙3'八//入ZX)入3U

四、例題選講

考點一線性回歸方程

例1、已知變量x與y正相關,且由觀測數(shù)據(jù)算得樣本平均數(shù)元=3,y=3.5,則由該觀測的數(shù)據(jù)算得的線

性回歸方程可能是

A.y=0.4x+2.3B.y=2x-2A

C.?=-2x+9.5D.y=-0.3x+4.4

變式1、有下列數(shù)據(jù):

X-2〃3-

y,3-5.99-12.0產(chǎn)

下列四個函數(shù)中,模擬效果最好的為(

A.y=3x2'TB.y=log,xC.y=3xD.y=x2

變式2、某公司為確定下一年度投入某種產(chǎn)品的宣傳費,需了解年宣傳費工(單位:千元)對年捎售量)'(單位:

/)和年利潤Z(單位:千元)的影響.對近8年的年宣傳費占和年銷售量x(i=l,2,...8)數(shù)據(jù)作了初步處理,得

到下面的散點圖及一些統(tǒng)計量的值.

//

62c

5HO

3r>o

口3■

520

5CX).

4f4363k4()4亍AA-4K50525ft,

《I:力傳快/TTC

kiX

有下列5個曲線類型:①了二位+G:②歹=cJ7+d;③y=〃+t/lnx:?y=k[+e;⑤>二^^十6,

則較適宜作為年銷售量)'關于年宣傳費x的回歸方程的是()

A.①@B.②③C.②④D.③⑤

變式3、對具有線性相關關系的兩個變量”和丁,測得一組數(shù)據(jù)如卜表所示:根據(jù)表格,利用最小二乘法得到

回歸直線方程為y=10.5x+L5,則小一()

X24568

y20406070in

A.85.5B.80C.85D.90

方法總結:數(shù)據(jù)處理,要求結合散點圖,初步建立線性回歸的直觀感知:

(1)依托數(shù)據(jù),結合公式準確計算線性回歸方程的相關系數(shù)值;

(2)根據(jù)線性回歸方程,正確使用回歸方程進行估計.

考點二獨立性檢驗

看書運動合計

男82028

女161228

合計243256

例2、在對人們休閑方式的一次調(diào)杳中,根據(jù)數(shù)據(jù)建立如下的2x2列聯(lián)表:

根據(jù)表中數(shù)據(jù),得到K?=56x(8x1276x20);4.667,所以我們至少有()的把握判定休閑方式與

28x28x24x32

性別有關系.(參考數(shù)據(jù):P(K2>3.841)?0.05,P(K2>6.635)^0.01)

A.99%B.95%C.1%D.5%

變式1、某研究性學習小組調(diào)杳研究學生使用智能手機對學習的影響,部分統(tǒng)計數(shù)據(jù)如表

不使用智能手機”

使用智能手機合計

:學刀龍績優(yōu)秀4812

學習成績不優(yōu)秀16■218

合計?201030

(參考公式:K~=------------------------------,其中〃=4+Z?+c+d.)

(〃+b)(c+d)(Q+c)(b+d)

附表:

2

P(K>k0)0.150.100.050.0250.0100.0050.001

2.0722.7063.8415.0246.6357.87910.828

則下列選項正確的是()

A.芍99.5%的把握認為使用智能手機對學習有影響

B.有99.5%的把握認為使用智能手機對學習無影響

c.有99.9%的把握認為使用智能手機對學習有影響

D.芍99.9%的把握認為使用智能手機對學習無影響

變式2、在吸煙與患肺病這兩個分類變量的計算中,下列說法正確的是()

A.若K?的觀測值為〃=6.635,我們有99%的把握認為吸煙與患肺病有關系,那么在100個吸煙的人中必有99

人患有肺??;

B.從獨立性檢驗可知有99%的把握認為吸煙與患肺病有關系時,我們說某人吸煙,那么他有99%的可.能患有

肺??;

C.若從統(tǒng)計量中求出有95%的把握認為吸煙與患肺病有關系,是指有5%的可能性使得推判出現(xiàn)錯誤;

D.以上三種說法都不正確.

變式3、為考察某種疫苗預防疾病的效果,進行動物試驗,得到統(tǒng)計數(shù)據(jù)如卜.:

未發(fā)病發(fā)病總計

未注射疫苗20XA

注射疫苗30yB

總計5050100

2

現(xiàn)從所有試驗動物中任取一只,取到“注射疫苗”動物的概率為

(I)求2X2列聯(lián)表中的數(shù)據(jù)x,y,A,B的值.

(2)繪制發(fā)病率的條形統(tǒng)計圖,并判斷疫苗是否影響到了發(fā)病率?

(3)能否在犯錯誤的概率不超過0.001的前提卜認為疫苗有效?

n(ad-be)2

附:附=,n=a+b+c+d.

(a+b)(c+d)(a+c)(b+d)

臨界值表:

P(K2^k0)0.050.010.0050.001

k03.8416.6357.87910.828

方法總結:(1)根據(jù)題意完善2X2列聯(lián)表,再計算觀測值K2,對照臨界值表即可得出結論;

(2)理解右的運算過程以及在實際問題中的統(tǒng)計學意義.

考點二、統(tǒng)計案例與線性回歸分析的綜合

例3、某大學餐飲中心為了了解新生的飲食習慣,在某學院大一年級100名學生中進行了抽樣調(diào)查,發(fā)現(xiàn)喜歡

甜品的占70%.這100名學生中南方學生共80人。南方學生中有20人不喜歡甜品.(1)完成下列2x2列聯(lián)表:

喜歡甜品不喜歡甜品合計

南方學生

北方學生

合計

(2)根據(jù)表中數(shù)據(jù),問是否有95%的把握認為“南方學生和北方學生在選用甜品的飲食習慣方面有差異〃;

(3)已知在被調(diào)查的南方學生中有6名數(shù)學系的學生,其中2名不喜歡甜品;有5名物理系的學生,其中1名

小喜歡甜品.現(xiàn)從這兩個系的學生中,各隨機抽取2人,記抽出的4人中小喜歡甜品的人數(shù)為X,求X的分

布列和數(shù)學期望.

附:*(Q+Z?、)/(c+叱d)(〃*+c)(/?+d)

0.150.1000.0500.0250.010

k。2.0722.7063.8415.0246.635

變式1、【吉林省梅河口市第五中學2017-2018學年高二下學期期末】某中學一名數(shù)學老師對全班50名學生某

次考試成績分男女生進行統(tǒng)計,其中120分(含120分)以上為優(yōu)秀,繪制了如圖所示的兩個頻率分布直方

圖:

男生女生

(1)根據(jù)以上兩個直方圖完成下面的2x2列聯(lián)表:

性別成績優(yōu)秀不優(yōu)秀總計

男生

女生

總計

(2)根據(jù)(1)中表格的數(shù)據(jù)計算,你有多大把握認為學生的數(shù)學成績與性別之間有關系?

k。2.0722.7063.8415.0246.6357.87910.828

尸(片居)0.150.100.050.0250.0100.0050.001

n(ad-bc)~

附:K2其中〃=〃+〃+c+d.

(a+b)(^c+cl)(a+c)(b+d)

變式2、(2020屆山東省德州市高三上期末)某公司為了了解年研發(fā)資金投人量X(單位:億元)對年銷售額

V(單位:億元)的影響.對公司近12年的年研發(fā)資金投入量X:和年銷售額%的數(shù)據(jù),進行了對比分析,建

立了兩個函數(shù)模型:①y-a+4%2,②y=/x”,其中。、0、義、/均為常數(shù),e為自然對數(shù)的底數(shù).并得

到一些統(tǒng)計量的值.令〃匕=lny.(i=l,2,…,12),經(jīng)計算得如下數(shù)據(jù):

2

Xy拈T白…)’WV

1=11=1

20667724604.20

£(';-V)2白玉-磯匕T

2(%-祖%-5)

11=1r?l

312502153.0814

(1)請從相關系數(shù)的角度,分析哪一個模型擬合程度更好?

(2)(0)根據(jù)(1)的選擇及表中數(shù)據(jù),建立),關于X的I可歸方程;

(0)若下一年銷售額)'需達到90億元,預測下一年的研發(fā)資金投入量x是多少億元?

附:①相關系數(shù)廠二1日

丁…)5(…『

回歸直線^陞江菽中公式分別為:人=J--------:—,S=y-K:

Z")

1=1

②參考數(shù)據(jù):308=4x77,廊*9.4868,e44998?90.

變式3、(2020?湖北高三期末(理))某土特產(chǎn)超市為預估2020年元旦期間游客購買土特產(chǎn)的情況,對2019

年元旦期間的90位游客購買情況進行統(tǒng)計,得到如卜.人數(shù)分布表.

購買金額(元)[0J5)[15,30)[30,45)[45,60)[60,75)[75,90]

人數(shù)101520152010

(1)根據(jù)以上數(shù)據(jù)完成2x2列聯(lián)表,并判斷是否有95%的把握認為購買金額是否少于60元與性別有關.

不少于60元少于60元合計

男40

女18

合計

(2)為吸引游客,該超市推出一種優(yōu)惠方案,購買金額不少于60元可抽獎3次,每次中獎概率為〃(每次

抽獎互不影響,且〃的值等于人數(shù)分布表中購買金額不少于60元的頻率),中獎1次減5元,中獎2次減10

元,中獎3次減15元.若游客甲卜劃購買80元的土特產(chǎn),請列出實際付款數(shù)X(元)的分布列并求其數(shù)學期

望.

附:參考公式和數(shù)據(jù):K2=(i)(L)(」c)("d)'…+"c+"?附表:

即2.0722.7063.8416.6357.879

pR..k°)0.1500.1000.0500.0100.005

方法總結:統(tǒng)計案例與線性回歸分析的綜合往往涉及到直方圖、概率等綜合性問題,對于此類問題可以從以

下兩個方面入手:1、理解直方圖具體時間頻率與概率的對應關系,獨立事件的概率計算過程;理解列聯(lián)表的

數(shù)據(jù)生成,以及使用公式進行基本運算,學會利用運算結果進行簡單的數(shù)據(jù)分析:2、數(shù)學期望是離散型隨機

變量中重要的數(shù)學概念,反映隨磯變量取值的平均水平.求解離散型隨機變量的分布列、數(shù)學期望時,首先

要分清事件的構成與性質(zhì),確定離散型隨機變量的所有取值,然后根據(jù)概率類型選擇公式,計算每個變量取

每個值的概率,列出對應的分布列,最后求出數(shù)學期望.正態(tài)分布是一種重要的分布,之前考過一次,尤其

是正態(tài)分布的3。原則.

五、優(yōu)化提升與真題演練

1、(2020年高考全國⑦卷理數(shù))某校一個課外學習小組為研究某作物種子的發(fā)芽率y和溫度x(單位:°C)的

關系,在20個不同的溫度條件下進行種子發(fā)芽實驗,由實驗數(shù)據(jù)(K,£)(i=L2,…,20)得到下面的散點圖:

由此散點圖,在10℃至40<之間,下面四個回歸方程類型中最適宜作為發(fā)芽率y和溫度*的回歸方程類

型的是

A.y=a+bxB.y=a+bx2C.y=a+be'D.y=?+Z?lnx

2、(2018年高考全國H卷理數(shù))下圖是某地區(qū)2000年至2016年環(huán)境基礎設施投資額(單位:億元)的折

線圖.

為了預測該地區(qū)2018年的環(huán)境基礎設施投資額,建立了y與時間變吊/的兩個線性回歸模型.根據(jù)2000年至

2016年的數(shù)據(jù)(時間變量,的值依次為1,2,…,17)建立模型①:y=-30.4+13.5/:根據(jù)2010年至2016年

的數(shù)據(jù)(時間變量/的值依次為1,2,…,7)建立模型②:》=99+17.5/.

(1)分別利用這兩個模型,求該地區(qū)2018年的環(huán)境基礎設施投資額的預測值;

(2)你認為用哪個模型得到的預測值更可靠?并說明理由.

3、(2020年高考全國團卷理數(shù))某沙漠地區(qū)經(jīng)過治理,生態(tài)系統(tǒng)得到很大改善,野生動物數(shù)量有所增加.為

調(diào)查該地區(qū)某種野生動物的數(shù)量,將其分成面積相近的200個地塊,從這些地塊中用簡單隨機抽樣的方

法抽取20個作為樣區(qū),調(diào)查得到樣本數(shù)據(jù)依,2,...?20),其中為和力分別表示第/?個樣區(qū)的植

物覆蓋面積(單位:公頃)和這種野生動物的數(shù)量,并計算得£七二60,£^.=1200,£(A;-X)2=80,

1=1/=||=|

2020

2(其一了)2=9000,「衿=800.

I=II=I

(1)求該地區(qū)這種野生動物數(shù)量的估計值(這種野生動物數(shù)量的估計值等于樣區(qū)這種野生動物數(shù)量的平

均數(shù)乘以地塊數(shù));

(2)求樣本(x”y))(i=l,2.......20)的相關系數(shù)(精確到Q01);

(3)根據(jù)現(xiàn)有統(tǒng)計資料,各地塊間植物覆蓋面積差異很大.為提高樣本的代表性以獲得該地區(qū)這種野生

動物數(shù)最更準確的估計,請給出一種你認為更合理的抽樣方法,并說明理由.

?(%-無)(y-刃

附:相關系數(shù)旦-----------------V2?1.414.

j七(七-1)2次

V(=1/=1

4、(2020年高考全國III卷理數(shù))某學生興趣小組隨機調(diào)查了某市100天中每天的空氣質(zhì)量等級和當天到某公

園鍛煉的人次,整理數(shù)據(jù)得到下表(單位:天):

鍛煉人次

人次

[0,200](200,400](400,600]

空氣質(zhì)量等級

1(優(yōu))21625

2(良)51012

3(輕度污染)678

4(中度污染)720

(1)分別估計該市一天的空氣質(zhì)量等級為1,2,3,4的概率;

(2)求一天中到該公園鍛煉的平均人次的估計值(同一組中的數(shù)據(jù)用該組區(qū)間的中點值為代表);

(3)若某天的空氣質(zhì)量等級為1或2,則稱這天“空氣質(zhì)量好”;若某天的空氣質(zhì)量等級為3或4,則稱

這天“空氣質(zhì)量不好”.根據(jù)所給數(shù)據(jù),完成下面的2x2列聯(lián)表,并根據(jù)列聯(lián)表,判斷是否有95%的把握

認為一天中到該公園鍛煉的人次與該市當天的空氣質(zhì)量有關?

人次“00人次>400

空氣質(zhì)量好

空氣質(zhì)量不好

,n(ad-bcY。(K2》)0.0500.0100.001

附:K------1~-----

(U1UjC十Cl)\Cl\C1(Tu1

k3.8416.63510.828.

5、(2020年高考山東)為加強環(huán)境保護,治理空氣污染,環(huán)境監(jiān)測部門對某市空氣質(zhì)量進行調(diào)研,隨機抽查

了100天空氣中的PM2.5和SO?濃度(單位:|ig/m3),得下表:

so,[0.501(5O,15O|(150.4751

PM2.5^\

[0,35]32184

(35,75]6812

(75,115]3710

(1)估計事件“該市一天空氣中PM2.5濃度不超過75,且SO?濃度不超過150〃的概率;

(2)根據(jù)所給數(shù)據(jù),完成卜.面的2x2列聯(lián)表:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論