2025年統(tǒng)計(jì)學(xué)專業(yè)期末考試題庫(kù):統(tǒng)計(jì)推斷與檢驗(yàn)習(xí)題與解析_第1頁(yè)
2025年統(tǒng)計(jì)學(xué)專業(yè)期末考試題庫(kù):統(tǒng)計(jì)推斷與檢驗(yàn)習(xí)題與解析_第2頁(yè)
2025年統(tǒng)計(jì)學(xué)專業(yè)期末考試題庫(kù):統(tǒng)計(jì)推斷與檢驗(yàn)習(xí)題與解析_第3頁(yè)
2025年統(tǒng)計(jì)學(xué)專業(yè)期末考試題庫(kù):統(tǒng)計(jì)推斷與檢驗(yàn)習(xí)題與解析_第4頁(yè)
2025年統(tǒng)計(jì)學(xué)專業(yè)期末考試題庫(kù):統(tǒng)計(jì)推斷與檢驗(yàn)習(xí)題與解析_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年統(tǒng)計(jì)學(xué)專業(yè)期末考試題庫(kù):統(tǒng)計(jì)推斷與檢驗(yàn)習(xí)題與解析考試時(shí)間:______分鐘總分:______分姓名:______一、單項(xiàng)選擇題(本大題共20小題,每小題1分,共20分。在每小題列出的四個(gè)選項(xiàng)中,只有一個(gè)是符合題目要求的,請(qǐng)將正確選項(xiàng)字母填在題干后的括號(hào)內(nèi)。錯(cuò)選、多選或未選均無分。)1.在假設(shè)檢驗(yàn)中,第一類錯(cuò)誤是指()A.拒絕了實(shí)際上正確的原假設(shè)B.沒有拒絕實(shí)際上錯(cuò)誤的原假設(shè)C.接受了實(shí)際上正確的原假設(shè)D.沒有接受實(shí)際上錯(cuò)誤的原假設(shè)2.樣本均值的抽樣分布的方差等于總體方差除以樣本量,這個(gè)性質(zhì)被稱為()A.中心極限定理B.大數(shù)定律C.貝葉斯定理D.奧卡姆剃刀原理3.在進(jìn)行兩個(gè)正態(tài)分布總體均值差的假設(shè)檢驗(yàn)時(shí),如果總體方差未知但相等,應(yīng)選擇的檢驗(yàn)統(tǒng)計(jì)量是()A.t統(tǒng)計(jì)量B.Z統(tǒng)計(jì)量C.F統(tǒng)計(jì)量D.卡方統(tǒng)計(jì)量4.在置信區(qū)間估計(jì)中,置信水平越高,置信區(qū)間的寬度()A.越窄B.越寬C.不變D.無法確定5.對(duì)于一個(gè)正態(tài)分布總體,如果樣本量為100,樣本均值為50,樣本標(biāo)準(zhǔn)差為5,構(gòu)建95%置信區(qū)間,則置信區(qū)間的下限約為()A.48.5B.49.5C.51.5D.52.56.在單樣本t檢驗(yàn)中,如果檢驗(yàn)的p值小于顯著性水平α,那么應(yīng)該()A.接受原假設(shè)B.拒絕原假設(shè)C.無法確定D.需要更大的樣本量7.在兩樣本t檢驗(yàn)中,如果兩組數(shù)據(jù)的樣本量相同,且兩組數(shù)據(jù)的方差相等,那么應(yīng)該使用()A.獨(dú)立樣本t檢驗(yàn)B.配對(duì)樣本t檢驗(yàn)C.單樣本t檢驗(yàn)D.卡方檢驗(yàn)8.在方差分析中,如果檢驗(yàn)的p值大于顯著性水平α,那么應(yīng)該()A.拒絕原假設(shè)B.接受原假設(shè)C.無法確定D.需要更多的數(shù)據(jù)9.在回歸分析中,如果自變量的系數(shù)顯著不為零,那么意味著()A.自變量對(duì)因變量有顯著影響B(tài).自變量與因變量之間存在線性關(guān)系C.自變量是因變量的唯一影響因素D.自變量與因變量之間存在非線性關(guān)系10.在線性回歸模型中,如果殘差平方和較大,那么意味著()A.模型的擬合優(yōu)度較好B.模型的擬合優(yōu)度較差C.自變量對(duì)因變量的影響較大D.自變量對(duì)因變量的影響較小11.在多元回歸分析中,如果某個(gè)自變量的p值大于顯著性水平α,那么意味著()A.該自變量對(duì)因變量有顯著影響B(tài).該自變量對(duì)因變量沒有顯著影響C.該自變量是因變量的唯一影響因素D.該自變量與因變量之間存在非線性關(guān)系12.在邏輯回歸中,如果某個(gè)自變量的系數(shù)為正,那么意味著()A.該自變量對(duì)因變量的影響為負(fù)B.該自變量對(duì)因變量的影響為正C.該自變量對(duì)因變量沒有影響D.該自變量與因變量之間存在線性關(guān)系13.在假設(shè)檢驗(yàn)中,第二類錯(cuò)誤是指()A.拒絕了實(shí)際上正確的原假設(shè)B.沒有拒絕實(shí)際上錯(cuò)誤的原假設(shè)C.接受了實(shí)際上正確的原假設(shè)D.沒有接受實(shí)際上錯(cuò)誤的原假設(shè)14.在置信區(qū)間估計(jì)中,樣本量越大,置信區(qū)間的寬度()A.越窄B.越寬C.不變D.無法確定15.對(duì)于一個(gè)正態(tài)分布總體,如果樣本量為50,樣本均值為30,樣本標(biāo)準(zhǔn)差為4,構(gòu)建99%置信區(qū)間,則置信區(qū)間的上限約為()A.31.6B.32.6C.33.6D.34.616.在單樣本t檢驗(yàn)中,如果檢驗(yàn)的p值大于顯著性水平α,那么應(yīng)該()A.接受原假設(shè)B.拒絕原假設(shè)C.無法確定D.需要更大的樣本量17.在兩樣本t檢驗(yàn)中,如果兩組數(shù)據(jù)的樣本量不同,且兩組數(shù)據(jù)的方差不等,那么應(yīng)該使用()A.獨(dú)立樣本t檢驗(yàn)B.配對(duì)樣本t檢驗(yàn)C.單樣本t檢驗(yàn)D.游程檢驗(yàn)18.在方差分析中,如果檢驗(yàn)的p值小于顯著性水平α,那么應(yīng)該()A.拒絕原假設(shè)B.接受原假設(shè)C.無法確定D.需要更多的數(shù)據(jù)19.在回歸分析中,如果因變量的方差較大,那么意味著()A.模型的擬合優(yōu)度較好B.模型的擬合優(yōu)度較差C.自變量對(duì)因變量的影響較大D.自變量對(duì)因變量的影響較小20.在線性回歸模型中,如果回歸系數(shù)的t值較小,那么意味著()A.模型的擬合優(yōu)度較好B.模型的擬合優(yōu)度較差C.自變量對(duì)因變量的影響較大D.自變量對(duì)因變量的影響較小二、多項(xiàng)選擇題(本大題共10小題,每小題2分,共20分。在每小題列出的五個(gè)選項(xiàng)中,有多項(xiàng)是符合題目要求的,請(qǐng)將正確選項(xiàng)字母填在題干后的括號(hào)內(nèi)。多選、少選或未選均無分。)1.在假設(shè)檢驗(yàn)中,以下哪些因素會(huì)影響檢驗(yàn)的p值()A.樣本量B.總體方差C.樣本均值D.顯著性水平E.檢驗(yàn)統(tǒng)計(jì)量2.在置信區(qū)間估計(jì)中,以下哪些因素會(huì)影響置信區(qū)間的寬度()A.樣本量B.顯著性水平C.總體方差D.樣本均值E.檢驗(yàn)統(tǒng)計(jì)量3.在單樣本t檢驗(yàn)中,以下哪些情況需要使用t分布而不是Z分布()A.樣本量較小B.總體方差未知C.樣本量較大D.總體方差已知E.檢驗(yàn)的p值較小4.在兩樣本t檢驗(yàn)中,以下哪些情況需要使用獨(dú)立樣本t檢驗(yàn)而不是配對(duì)樣本t檢驗(yàn)()A.兩組數(shù)據(jù)來自同一總體B.兩組數(shù)據(jù)來自不同總體C.兩組數(shù)據(jù)的樣本量相同D.兩組數(shù)據(jù)的樣本量不同E.兩組數(shù)據(jù)的方差相等5.在方差分析中,以下哪些因素會(huì)影響F統(tǒng)計(jì)量的值()A.組間方差B.組內(nèi)方差C.樣本量D.顯著性水平E.檢驗(yàn)統(tǒng)計(jì)量6.在回歸分析中,以下哪些因素會(huì)影響回歸系數(shù)的顯著性()A.樣本量B.自變量的方差C.因變量的方差D.回歸系數(shù)的t值E.檢驗(yàn)統(tǒng)計(jì)量7.在多元回歸分析中,以下哪些情況需要使用多重共線性檢驗(yàn)()A.自變量之間存在高度相關(guān)性B.自變量之間存在低度相關(guān)性C.樣本量較小D.樣本量較大E.檢驗(yàn)的p值較小8.在邏輯回歸中,以下哪些因素會(huì)影響回歸系數(shù)的顯著性()A.自變量的方差B.自變量的系數(shù)C.因變量的方差D.回歸系數(shù)的t值E.檢驗(yàn)統(tǒng)計(jì)量9.在假設(shè)檢驗(yàn)中,以下哪些情況會(huì)導(dǎo)致第二類錯(cuò)誤的概率增加()A.樣本量較小B.顯著性水平較高C.樣本量較大D.顯著性水平較低E.檢驗(yàn)統(tǒng)計(jì)量較大10.在置信區(qū)間估計(jì)中,以下哪些情況會(huì)導(dǎo)致置信區(qū)間的寬度變窄()A.樣本量增加B.顯著性水平降低C.總體方差減小D.樣本均值變化E.檢驗(yàn)統(tǒng)計(jì)量變化三、簡(jiǎn)答題(本大題共5小題,每小題4分,共20分。請(qǐng)將答案寫在答題紙上。)1.簡(jiǎn)述假設(shè)檢驗(yàn)的基本步驟。在咱們統(tǒng)計(jì)學(xué)里頭,搞假設(shè)檢驗(yàn)?zāi)强墒莻€(gè)基本功。首先呢,得根據(jù)題意提出原假設(shè)和備擇假設(shè)。原假設(shè)一般就是那個(gè)默認(rèn)的、沒啥驚喜的假設(shè),比如認(rèn)為啥都沒變化,備擇假設(shè)呢,就是那個(gè)可能有點(diǎn)意思的,覺得有變化的假設(shè)。接著呢,得選個(gè)合適的檢驗(yàn)統(tǒng)計(jì)量,這得看數(shù)據(jù)是啥樣,是正態(tài)分布還是別的,樣本量大不大,方差知不知道,這些都得考慮進(jìn)去。然后,根據(jù)顯著性水平α,找到拒絕域,也就是臨界值。最后,把算出來的檢驗(yàn)統(tǒng)計(jì)量跟臨界值比一比,或者算出p值看看跟α比大小,如果檢驗(yàn)統(tǒng)計(jì)量在拒絕域里,或者p值小于α,那就拒絕原假設(shè),不然就接受原假設(shè)。2.解釋什么是置信區(qū)間,并說明置信水平的作用。咱們搞置信區(qū)間,其實(shí)就是為了估計(jì)一下總體參數(shù)大概在哪兒。簡(jiǎn)單說,就是根據(jù)樣本數(shù)據(jù),算出一個(gè)區(qū)間,這個(gè)區(qū)間里頭包含了真真正正的總體參數(shù)的可能性有多大,這個(gè)可能性就是置信水平。比如,咱們說95%置信區(qū)間,意思就是如果反復(fù)抽樣,每次都算一個(gè)95%的置信區(qū)間,那大約有95%的區(qū)間會(huì)包含真總體參數(shù)。置信水平越高,咱們對(duì)估計(jì)的信心就越足,但同時(shí),置信區(qū)間也會(huì)變寬,估計(jì)就不那么精確了。所以啊,這中間得有個(gè)權(quán)衡。3.在進(jìn)行兩樣本t檢驗(yàn)時(shí),什么情況下需要使用獨(dú)立樣本t檢驗(yàn),什么情況下需要使用配對(duì)樣本t檢驗(yàn)?請(qǐng)簡(jiǎn)述理由。哎,這個(gè)獨(dú)立樣本t檢驗(yàn)和配對(duì)樣本t檢驗(yàn)啊,得看數(shù)據(jù)是咋來的。如果兩組數(shù)據(jù)是獨(dú)立的,也就是說,一組數(shù)據(jù)跟另一組數(shù)據(jù)沒啥關(guān)系,互相不影響,那咱們就得用獨(dú)立樣本t檢驗(yàn)。比如,咱們比較男性和女性在某個(gè)成績(jī)上的差異,他們倆是兩個(gè)不同的群體,這就得用獨(dú)立樣本t檢驗(yàn)。如果兩組數(shù)據(jù)不是獨(dú)立的,而是同一個(gè)對(duì)象在不同時(shí)間或者不同條件下的測(cè)量,也就是說,數(shù)據(jù)是成對(duì)出現(xiàn)的,那咱們就得用配對(duì)樣本t檢驗(yàn)。比如,咱們比較一個(gè)人在吃了某種藥前后某個(gè)指標(biāo)的變化,這前后兩個(gè)測(cè)量值就是一對(duì),得用配對(duì)樣本t檢驗(yàn)。為啥這么分呢?因?yàn)楠?dú)立樣本t檢驗(yàn)假設(shè)兩組數(shù)據(jù)的方差相等,而且數(shù)據(jù)是獨(dú)立的,而配對(duì)樣本t檢驗(yàn)?zāi)兀瑪?shù)據(jù)是相關(guān)的,可以用同一個(gè)個(gè)體的變化來減少個(gè)體差異帶來的影響,這樣估計(jì)更精確些。4.簡(jiǎn)述線性回歸模型中R平方和調(diào)整R平方的區(qū)別。在線性回歸模型里,R平方和調(diào)整R平方都是衡量模型擬合優(yōu)度的指標(biāo),但它們有區(qū)別。R平方,也就是決定系數(shù),它表示因變量的方差中能被自變量解釋的百分比,R平方越大,說明模型擬合得越好。但是呢,R平方有個(gè)缺點(diǎn),那就是不管你加多少個(gè)自變量,R平方只會(huì)變大或者保持不變,這就會(huì)導(dǎo)致R平方虛高,看起來模型擬合得很好,但實(shí)際上可能加的那些自變量沒啥用。為了解決這個(gè)問題,就來了個(gè)調(diào)整R平方,它考慮了模型中自變量的個(gè)數(shù),如果加的自變量對(duì)模型的改善不大,甚至沒有改善,那調(diào)整R平方就會(huì)比R平方小。所以啊,調(diào)整R平方比R平方更可靠一些,尤其是在比較不同模型的時(shí)候。5.解釋什么是多重共線性,并說明多重共線性可能帶來什么問題。多重共線性,說白了,就是多元回歸分析中,幾個(gè)自變量之間存在高度線性相關(guān)的關(guān)系。這就像你手里拿著幾把尺子,它們都差不多長(zhǎng),你用它們量東西,結(jié)果肯定不準(zhǔn)。為啥呢?因?yàn)樗鼈兲峁┑男畔⒅丿B了,沒法區(qū)分各自的貢獻(xiàn)。多重共線性可能帶來幾個(gè)問題。首先,它會(huì)使得回歸系數(shù)的估計(jì)值非常不穩(wěn)定,一點(diǎn)點(diǎn)的數(shù)據(jù)變化,或者去掉一個(gè)自變量,都可能導(dǎo)致系數(shù)大幅變化。其次,它會(huì)使得回歸系數(shù)的顯著性檢驗(yàn)變得不可靠,即使某個(gè)自變量對(duì)因變量有真實(shí)影響,也可能因?yàn)楣簿€性而被誤判為不顯著。最后,它會(huì)影響模型的解釋力,因?yàn)樽宰兞恐g高度相關(guān),咱們很難判斷每個(gè)自變量對(duì)因變量的獨(dú)立影響。四、計(jì)算題(本大題共4小題,每小題10分,共40分。請(qǐng)將答案寫在答題紙上。)1.某燈泡廠生產(chǎn)的一種燈泡,其壽命服從正態(tài)分布,過去經(jīng)驗(yàn)表明平均壽命為1500小時(shí)。為了檢驗(yàn)該廠生產(chǎn)的一種新燈泡的壽命是否有顯著提高,隨機(jī)抽取了25只燈泡進(jìn)行測(cè)試,得到樣本均值為1530小時(shí),樣本標(biāo)準(zhǔn)差為100小時(shí)。取顯著性水平α=0.05,檢驗(yàn)新燈泡的壽命是否有顯著提高。好的,這個(gè)題啊,咱們得先看看題目給出的信息。燈泡壽命是正態(tài)分布,這個(gè)很重要。過去平均壽命是1500小時(shí),這就是μ0?,F(xiàn)在抽樣了25只,樣本均值是1530小時(shí),樣本標(biāo)準(zhǔn)差是100小時(shí)。我們要檢驗(yàn)的是新燈泡壽命有沒有顯著提高,也就是檢驗(yàn)H0:μ=1500vsH1:μ>1500。這明顯是一個(gè)單樣本t檢驗(yàn),而且是右邊檢驗(yàn)。顯著性水平α=0.05。那么,第一步,提出假設(shè):H0:μ=1500,H1:μ>1500。第二步,選檢驗(yàn)統(tǒng)計(jì)量。因?yàn)榭傮w方差未知,樣本量也不大(n=25<30),所以用t檢驗(yàn)。t統(tǒng)計(jì)量為t=(x?-μ0)/(s/√n)=(1530-1500)/(100/√25)=5/20=0.25。第三步,找拒絕域。這是右邊檢驗(yàn),所以拒絕域在t分布右側(cè)。α=0.05,自由度df=n-1=25-1=24。查t分布表,得到t0.05,24≈1.714。所以拒絕域是t>1.714。第四步,做決策。算出來的t統(tǒng)計(jì)量是0.25,它沒有落在拒絕域里(0.25<1.714),所以不能拒絕原假設(shè)。也就是說,沒有足夠證據(jù)表明新燈泡的壽命有顯著提高。2.某醫(yī)生想比較兩種不同的治療方法對(duì)降低血壓的效果。他隨機(jī)選取了20名高血壓患者,將他們隨機(jī)分為兩組,每組10人。一組采用方法A治療,另一組采用方法B治療。治療一段時(shí)間后,測(cè)得兩組患者的收縮壓(單位:毫米汞柱)如下:方法A:150,152,148,155,149,151,153,147,150,154方法B:160,162,165,158,161,159,164,157,160,163假設(shè)兩種方法的血壓變化服從正態(tài)分布,且方差相等。取顯著性水平α=0.05,檢驗(yàn)兩種方法的降壓效果是否有顯著差異。哎,這個(gè)題得用兩樣本t檢驗(yàn),而且方差相等的那種。首先,得計(jì)算兩組的均值和方差。方法A的均值x?A=150.5,方差s2A≈20.25。方法B的均值x?B=160.5,方差s2B≈20.25。因?yàn)轭}目說方差相等,所以可以用兩樣本t檢驗(yàn)(假設(shè)方差相等)。第一步,提出假設(shè):H0:μA=μB(兩種方法效果相同),H1:μA≠μB(兩種方法效果不同)。第二步,選檢驗(yàn)統(tǒng)計(jì)量。因?yàn)榉讲钕嗟?,所以用合并方差的t檢驗(yàn)。合并方差s2p=(9s2A+9s2B)/(9+9)=(20.25+20.25)/18≈22.25。檢驗(yàn)統(tǒng)計(jì)量t=(x?A-x?B)/(sp√(1/10+1/10))=(150.5-160.5)/√(22.25*0.2)=-10/√(4.45)≈-10/2.11≈-4.74。第三步,找拒絕域。α=0.05,自由度df=n1+n2-2=10+10-2=18。這是雙邊檢驗(yàn),所以拒絕域是t<-2.101或t>2.101(查t分布表得t0.025,18≈2.101)。第四步,做決策。算出來的t統(tǒng)計(jì)量是-4.74,它落在拒絕域里(-4.74<-2.101),所以拒絕原假設(shè)。也就是說,有足夠證據(jù)表明兩種方法的降壓效果有顯著差異。3.某公司想了解員工的年齡(歲)和工作經(jīng)驗(yàn)(年)對(duì)其月收入(元)是否有影響。隨機(jī)抽取了15名員工,得到如下數(shù)據(jù):年齡:25,30,35,40,45,50,55,60,65,70,75,80,85,90,95工作經(jīng)驗(yàn):1,3,5,7,9,11,13,15,17,19,21,23,25,27,29月收入:3000,3500,4000,4500,5000,5500,6000,6500,7000,7500,8000,8500,9000,9500,10000建立月收入對(duì)年齡和工作經(jīng)驗(yàn)的線性回歸模型,并解釋回歸系數(shù)的含義。好的,這個(gè)題要建線性回歸模型。因變量是月收入Y,自變量是年齡X1和工作經(jīng)驗(yàn)X2。模型形式是Y=β0+β1X1+β2X2+ε。首先,得用統(tǒng)計(jì)軟件或者計(jì)算器算出回歸系數(shù)β0,β1,β2。假設(shè)算出來的結(jié)果是:β0=1000,β1=20,β2=150。那么,回歸方程就是月收入=1000+20*年齡+150*工作經(jīng)驗(yàn)?,F(xiàn)在來解釋一下回歸系數(shù)的含義。β0是截距,它表示當(dāng)年齡和工作經(jīng)驗(yàn)都是0時(shí),員工的月收入大概是1000元。當(dāng)然,現(xiàn)實(shí)中年齡和工作經(jīng)驗(yàn)不可能為0,所以β0的實(shí)際意義不大,更多是用于方程的擬合。β1是年齡的系數(shù),它表示當(dāng)工作經(jīng)驗(yàn)不變時(shí),年齡每增加1歲,月收入平均增加20元。β2是工作經(jīng)驗(yàn)的系數(shù),它表示當(dāng)年齡不變時(shí),工作經(jīng)驗(yàn)每增加1年,月收入平均增加150元。這兩個(gè)系數(shù)反映了年齡和工作經(jīng)驗(yàn)對(duì)月收入的影響程度。比如,工作經(jīng)驗(yàn)對(duì)收入的影響(150元/年)比年齡的影響(20元/年)要大得多。4.某快餐店想了解顧客的性別(男=1,女=0)和用餐時(shí)間(早=1,晚=0)是否會(huì)影響其點(diǎn)餐金額(元)。隨機(jī)抽取了20位顧客,得到如下數(shù)據(jù):性別:1,0,1,0,1,1,0,1,0,1,1,0,1,0,1,1,0,1,0,1用餐時(shí)間:1,0,1,0,1,1,0,1,0,1,1,0,1,0,1,1,0,1,0,1點(diǎn)餐金額:30,40,50,35,45,55,40,60,35,65,70,45,80,50,60,75,40,85,55,90建立點(diǎn)餐金額對(duì)性別和用餐時(shí)間的邏輯回歸模型,并解釋模型中各個(gè)系數(shù)的含義。這個(gè)題要用邏輯回歸,因?yàn)辄c(diǎn)餐金額是連續(xù)變量,但題目問的是性別和用餐時(shí)間對(duì)點(diǎn)餐金額的“影響”,而且系數(shù)(β)可以解釋為對(duì)數(shù)幾率,所以用邏輯回歸可能不太合適,更像是線性回歸。但如果題目確實(shí)是問邏輯回歸,那得假設(shè)點(diǎn)餐金額被分類了,比如高于60元為“高消費(fèi)”,低于60元為“低消費(fèi)”,然后Y變?yōu)?-1變量。假設(shè)我們按照高于60為1,低于60為0,重新定義Y,然后做邏輯回歸。假設(shè)算出來的模型是:log(P(Y=1)/P(Y=0))=β0+β1*性別+β2*用餐時(shí)間。假設(shè)結(jié)果是β0=-1.5,β1=0.8,β2=1.2。那么,對(duì)數(shù)幾率就是-1.5+0.8*性別+1.2*用餐時(shí)間。解釋系數(shù):β0=-1.5,表示當(dāng)性別和用餐時(shí)間都為0時(shí)(即女性,早餐廳),點(diǎn)餐金額為“高消費(fèi)”(Y=1)的對(duì)數(shù)幾率是-1.5。β1=0.8,表示當(dāng)用餐時(shí)間不變時(shí),男性(性別=1)比女性(性別=0)點(diǎn)餐金額為“高消費(fèi)”的對(duì)數(shù)幾率多0.8。β2=1.2,表示當(dāng)性別不變時(shí),晚上(用餐時(shí)間=1)比早上(用餐時(shí)間=0)點(diǎn)餐金額為“高消費(fèi)”的對(duì)數(shù)幾率多1.2。對(duì)數(shù)幾率不直觀,可以取指數(shù)得到比數(shù)(Odds),比如P(Y=1)/P(Y=0)=exp(β0)=exp(-1.5)≈0.223,P(Y=1)/P(Y=0)=exp(β0+β1)=exp(-1.5+0.8)≈0.223*2.29≈0.512,P(Y=1)/P(Y=0)=exp(β0+β2)=exp(-1.5+1.2)≈0.223*3.32≈0.741。這表示,對(duì)于早餐廳的女性顧客,點(diǎn)餐金額為“高消費(fèi)”的概率是0.223;對(duì)于早餐廳的男性顧客,是0.512;對(duì)于晚餐廳的女性顧客,是0.741。本次試卷答案如下一、單項(xiàng)選擇題答案及解析1.A解析:第一類錯(cuò)誤就是咱們統(tǒng)計(jì)里常說的“冤枉好人”,本來假設(shè)是對(duì)的,結(jié)果咱們把它給拒了。2.A解析:中心極限定理可是個(gè)重要定理,它說了不管總體啥分布,樣本均值這小子取的樣本量一大,它的分布就趨向正態(tài)分布了,而且這分布的方差是總體方差除以樣本量,這可是很多統(tǒng)計(jì)推斷方法的基礎(chǔ)啊。3.A解析:兩個(gè)正態(tài)分布總體均值差假設(shè)檢驗(yàn),方差未知但相等,那當(dāng)然用t統(tǒng)計(jì)量啦,這t統(tǒng)計(jì)量考慮了樣本均值的差異,還考慮了樣本方差的估計(jì),比Z統(tǒng)計(jì)量更穩(wěn)妥。4.B解析:置信水平越高,咱們對(duì)估計(jì)的信心就越足,為了有這信心,就得給總體參數(shù)留個(gè)更大的空間,所以置信區(qū)間自然就寬了。5.C解析:構(gòu)建95%置信區(qū)間,樣本量100,均值50,標(biāo)準(zhǔn)差5,這是正態(tài)分布,所以區(qū)間是均值加減標(biāo)準(zhǔn)誤,標(biāo)準(zhǔn)誤是標(biāo)準(zhǔn)差除以根號(hào)下樣本量,也就是5除以10等于0.5,所以區(qū)間是50加減0.5乘以1.96(95%置信區(qū)間的Z值),下限就是50-0.98,約等于49.02,最接近的是49.5。6.B解析:p值小于顯著性水平α,說明樣本結(jié)果太極端了,發(fā)生在這極端情況下的概率小于咱們能容忍的犯第一類錯(cuò)誤的概率,所以得拒絕原假設(shè),不然就接受原假設(shè)。7.A解析:獨(dú)立樣本t檢驗(yàn)就是兩組數(shù)據(jù)來自不同的人群,互相獨(dú)立,比如比較男性和女性的平均身高;配對(duì)樣本t檢驗(yàn)就是同一群人在不同時(shí)間或條件下測(cè)量的數(shù)據(jù),比如比較一個(gè)人吃藥前后的血壓,這倆數(shù)據(jù)是配對(duì)的,得用配對(duì)樣本t檢驗(yàn)。8.B解析:p值大于顯著性水平α,說明樣本結(jié)果不太極端,發(fā)生在這不太極端情況下的概率大于咱們能容忍的犯第一類錯(cuò)誤的概率,所以沒理由拒絕原假設(shè),只能接受原假設(shè)。9.A解析:回歸系數(shù)顯著不為零,意味著自變量對(duì)因變量有統(tǒng)計(jì)上顯著的影響,也就是說,自變量的變化能引起因變量的變化,不能說有影響,但也不能說沒有影響。10.B解析:殘差平方和越大,說明模型預(yù)測(cè)的值跟實(shí)際值差距越大,模型擬合得就越差,跟“擬合優(yōu)度較好”正好相反。11.B解析:多元回歸里,某個(gè)自變量的p值大于α,說明這個(gè)自變量對(duì)因變量的影響在統(tǒng)計(jì)上不顯著,也就是說,加入這個(gè)自變量或者不加入這個(gè)自變量,對(duì)模型解釋力提升不大。12.B解析:邏輯回歸系數(shù)為正,表示自變量對(duì)因變量發(fā)生某事件的“對(duì)數(shù)幾率”有正向影響,也就是自變量越大,發(fā)生某事件的“對(duì)數(shù)幾率”就越大,換算成概率,就是發(fā)生概率增加了。13.B解析:第二類錯(cuò)誤就是咱們統(tǒng)計(jì)里常說的“放跑壞人”,本來假設(shè)是錯(cuò)的,結(jié)果咱們沒把它給拒了。14.A解析:樣本量越大,樣本均值這小子就越接近總體均值,標(biāo)準(zhǔn)誤(標(biāo)準(zhǔn)差除以根號(hào)下樣本量)就越小,置信區(qū)間自然就越窄了。15.C解析:構(gòu)建99%置信區(qū)間,樣本量50,均值30,標(biāo)準(zhǔn)差4,這是正態(tài)分布,所以區(qū)間是均值加減標(biāo)準(zhǔn)誤,標(biāo)準(zhǔn)誤是標(biāo)準(zhǔn)差除以根號(hào)下樣本量,也就是4除以7.07(根號(hào)下50),約等于0.566,所以區(qū)間是30加減0.566乘以2.576(99%置信區(qū)間的Z值),上限就是30+1.46,約等于31.46,最接近的是33.6。16.A解析:p值大于α,說明樣本結(jié)果不太極端,發(fā)生在這不太極端情況下的概率大于咱們能容忍的犯第一類錯(cuò)誤的概率,所以沒理由拒絕原假設(shè),只能接受原假設(shè)。17.A解析:獨(dú)立樣本t檢驗(yàn)就是兩組數(shù)據(jù)來自不同的人群,互相獨(dú)立,比如比較男性和女性的平均身高;配對(duì)樣本t檢驗(yàn)就是同一群人在不同時(shí)間或條件下測(cè)量的數(shù)據(jù),比如比較一個(gè)人吃藥前后的血壓,這倆數(shù)據(jù)是配對(duì)的,得用配對(duì)樣本t檢驗(yàn)。18.A解析:p值小于α,說明樣本結(jié)果太極端了,發(fā)生在這極端情況下的概率小于咱們能容忍的犯第一類錯(cuò)誤的概率,所以得拒絕原假設(shè),不然就接受原假設(shè)。19.B解析:因變量方差大,意味著數(shù)據(jù)點(diǎn)散得比較開,模型預(yù)測(cè)的誤差就比較大,所以模型的擬合優(yōu)度就較差。20.B解析:回歸系數(shù)的t值小,意味著回歸系數(shù)的估計(jì)值比較小,而且這個(gè)估計(jì)值的不確定性比較大(標(biāo)準(zhǔn)誤比較大),所以模型的擬合優(yōu)度就較差,或者說模型解釋力不強(qiáng)。二、多項(xiàng)選擇題答案及解析1.A,B,C,E解析:p值受樣本量、總體方差、樣本均值這些因素影響。樣本量越大,標(biāo)準(zhǔn)誤會(huì)越小,p值可能越??;總體方差越大,標(biāo)準(zhǔn)誤會(huì)越大,p值可能越大;樣本均值跟總體均值差異越大,p值可能越小。檢驗(yàn)統(tǒng)計(jì)量本身也是影響p值的關(guān)鍵,但它是根據(jù)樣本量、總體方差、樣本均值等算出來的。2.A,B,C解析:置信區(qū)間寬度跟樣本量、顯著性水平、總體方差有關(guān)。樣本量越大,標(biāo)準(zhǔn)誤會(huì)越小,區(qū)間越窄;顯著性水平越高,區(qū)間越寬;總體方差越大,標(biāo)準(zhǔn)誤會(huì)越大,區(qū)間越寬。樣本均值只影響區(qū)間的中心位置,不影響寬度。3.A,B解析:?jiǎn)螛颖総檢驗(yàn)需要樣本量較?。╪<30)和總體方差未知時(shí)使用。如果樣本量很大(n>=30),根據(jù)中心極限定理,樣本均值分布近似正態(tài),可以用Z統(tǒng)計(jì)量。如果總體方差已知,那就用Z統(tǒng)計(jì)量,t統(tǒng)計(jì)量是總體方差未知時(shí)的估計(jì)。4.B,D解析:獨(dú)立樣本t檢驗(yàn)適用于兩組數(shù)據(jù)來自不同的人群,互相獨(dú)立。如果兩組數(shù)據(jù)來自同一總體,那就是配對(duì)樣本t檢驗(yàn)。如果兩組數(shù)據(jù)的樣本量不同,這本身不影響用哪種t檢驗(yàn),關(guān)鍵看數(shù)據(jù)來源是否獨(dú)立。如果兩組數(shù)據(jù)的樣本量相同,同樣得看數(shù)據(jù)來源是否獨(dú)立。5.A,B解析:F統(tǒng)計(jì)量是組間方差除以組內(nèi)方差。組間方差越大,F(xiàn)值越大;組內(nèi)方差越小,F(xiàn)值越大。所以組間方差和組內(nèi)方差都會(huì)影響F統(tǒng)計(jì)量的值。樣本量影響自由度,但不直接影響F值本身的大小。顯著性水平是做決策的依據(jù),不是影響F值的因素。6.A,D解析:回歸系數(shù)的顯著性(p值)受樣本量、自變量的方差、回歸系數(shù)的t值影響。樣本量越大,標(biāo)準(zhǔn)誤會(huì)越小,p值可能越小。自變量的方差影響標(biāo)準(zhǔn)誤,進(jìn)而影響p值?;貧w系數(shù)的t值直接就是p值計(jì)算的一部分,t值越大,p值越小。7.A,C解析:多重共線性是指自變量之間存在高度線性相關(guān)。如果自變量之間存在高度相關(guān)性,就會(huì)導(dǎo)致回歸系數(shù)的估計(jì)值非常不穩(wěn)定,顯著性檢驗(yàn)不可靠,模型解釋力下降。樣本量大小會(huì)影響共線性的影響程度,但不是判斷是否存在共線性的標(biāo)準(zhǔn)。p值大小是共線性影響的結(jié)果,不是原因。8.B,D解析:邏輯回歸系數(shù)的顯著性(p值或t值)受自變量的系數(shù)(β)和回歸系數(shù)的t值影響。系數(shù)越大,對(duì)數(shù)幾率越大,顯著性可能越強(qiáng)。t值是檢驗(yàn)系數(shù)是否顯著的關(guān)鍵,t值越大,p值越小,系數(shù)越顯著。9.A,D解析:第二類錯(cuò)誤的概率(β)受樣本量、顯著性水平影響。樣本量越小,標(biāo)準(zhǔn)誤會(huì)越大,檢驗(yàn)力(1-β)越小,β就越大。顯著性水平α越高,拒絕域越寬,沒拒絕原假設(shè)的情況就越多,β就越大。樣本量越大,檢驗(yàn)力越強(qiáng),β越小。顯著性水平α越低,拒絕域越窄,沒拒絕原假設(shè)的情況就越少,β越小。10.A,B,C解析:置信區(qū)間寬度跟樣本量、顯著性水平、總體方差有關(guān)。樣本量越大,標(biāo)準(zhǔn)誤會(huì)越小,區(qū)間越窄;顯著性水平越低,區(qū)間越窄;總體方差越小,標(biāo)準(zhǔn)誤會(huì)越小,區(qū)間越窄。樣本均值和檢驗(yàn)統(tǒng)計(jì)量只影響區(qū)間的中心位置或標(biāo)準(zhǔn)誤的計(jì)算,不直接影響區(qū)間的寬度。三、簡(jiǎn)答題答案及解析1.假設(shè)檢驗(yàn)一般得先根據(jù)題意提出原假設(shè)H0和備擇假設(shè)H1。然后選個(gè)合適的檢驗(yàn)統(tǒng)計(jì)量,這得看數(shù)據(jù)是啥分布,樣本量大不大,方差知不知道啥的。接著,根據(jù)顯著性水平α,找到拒絕域,這得查表或者用軟件算出來。最后,把算出來的檢驗(yàn)統(tǒng)計(jì)量跟臨界值比一比,或者算出p值看看跟α比大小,如果檢驗(yàn)統(tǒng)計(jì)量在拒絕域里,或者p值小于α,那就拒絕原假設(shè),不然就接受原假設(shè)。2.置信區(qū)間呢,就是根據(jù)樣本數(shù)據(jù),估計(jì)一個(gè)范圍,這個(gè)范圍里頭包含了真真正正的總體參數(shù)的可能性有多大,這個(gè)可能性就是置信水平。比如咱們說95%置信區(qū)間,意思就是如果反復(fù)抽樣,每次都算一個(gè)95%的置信區(qū)間,那大約有95%的區(qū)間會(huì)包含真總體參數(shù)。置信水平越高,咱們對(duì)估計(jì)的信心就越足,但同時(shí),置信區(qū)間也會(huì)變寬,估計(jì)就不那么精確了。所以啊,這中間得有個(gè)權(quán)衡。3.哎,這個(gè)獨(dú)立樣本t檢驗(yàn)和配對(duì)樣本t檢驗(yàn)啊,得看數(shù)據(jù)是咋來的。如果兩組數(shù)據(jù)是獨(dú)立的,也就是說,一組數(shù)據(jù)跟另一組數(shù)據(jù)沒啥關(guān)系,互相不影響,那咱們就得用獨(dú)立樣本t檢驗(yàn)。比如,咱們比較男性和女性在某個(gè)成績(jī)上的差異,他們倆是兩個(gè)不同的群體,這就得用獨(dú)立樣本t檢驗(yàn)。如果兩組數(shù)據(jù)不是獨(dú)立的,而是同一個(gè)對(duì)象在不同時(shí)間或者不同條件下的測(cè)量,也就是說,數(shù)據(jù)是成對(duì)出現(xiàn)的,那咱們就得用配對(duì)樣本t檢驗(yàn)。比如,咱們比較一個(gè)人在吃了某種藥前后某個(gè)指標(biāo)的變化,這前后兩個(gè)測(cè)量值就是一對(duì),得用配對(duì)樣本t檢驗(yàn)。為啥這么分呢?因?yàn)楠?dú)立樣本t檢驗(yàn)假設(shè)兩組數(shù)據(jù)的方差相等,而且數(shù)據(jù)是獨(dú)立的,而配對(duì)樣本t檢驗(yàn)?zāi)?,?shù)據(jù)是相關(guān)的,可以用同一個(gè)個(gè)體的變化來減少個(gè)體差異帶來的影響,這樣估計(jì)更精確些。4.在線性回歸模型里,R平方和調(diào)整R平方都是衡量模型擬合優(yōu)度的指標(biāo),但它們有區(qū)別。R平方,也就是決定系數(shù),它表示因變量的方差中能被自變量解釋的百分比,R平方越大,說明模型擬合得越好。但是呢,R平方有個(gè)缺點(diǎn),那就是不管你加多少個(gè)自變量,R平方只會(huì)變大或者保持不變,這就會(huì)導(dǎo)致R平方虛高,看起來模型擬合得很好,但實(shí)際上可能加的那些自變量沒啥用。為了解決這個(gè)問題,就來了個(gè)調(diào)整R平方,它考慮了模型中自變量的個(gè)數(shù),如果加的自變量對(duì)模型的改善不大,甚至沒有改善,那調(diào)整R平方就會(huì)比R平方小。所以啊,調(diào)整R平方比R平方更可靠一些,尤其是在比較不同模型的時(shí)候。5.多重共線性,說白了,就是多元回歸分析中,幾個(gè)自變量之間存在高度線性相關(guān)的關(guān)系。這就像你手里拿著幾把尺子,它們都差不多長(zhǎng),你用它們量東西,結(jié)果肯定不準(zhǔn)。為啥呢?因?yàn)樗鼈兲峁┑男畔⒅丿B了,沒法區(qū)分各自的貢獻(xiàn)。多重共線性可能帶來幾個(gè)問題。首先,它會(huì)使得回歸系數(shù)的估計(jì)值非常不穩(wěn)定,一點(diǎn)點(diǎn)的數(shù)據(jù)變化,或者去掉一個(gè)自變量,都可能導(dǎo)致系數(shù)大幅變化。其次,它會(huì)使得回歸系數(shù)的顯著性檢驗(yàn)變得不可靠,即使某個(gè)自變量對(duì)因變量有真實(shí)影響,也可能因?yàn)楣簿€性而被誤判為不顯著。最后,它會(huì)影響模型的解釋力,因?yàn)樽宰兞恐g高度相關(guān),咱們很難判斷每個(gè)自變量對(duì)因變量的獨(dú)立影響。四、計(jì)算題答案及解析1.好的,這個(gè)題得用單樣本t檢驗(yàn)。首先,得看看題目給出的信息。燈泡壽命是正態(tài)分布,這個(gè)很重要。過去平均壽命是1500小時(shí),這就是μ0?,F(xiàn)在抽樣了25只,樣本均值是1530小時(shí),樣本標(biāo)準(zhǔn)差是100小時(shí)。我們要檢驗(yàn)的是新燈泡壽命是否有顯著提高,也就是檢驗(yàn)H0:μ=1500vsH1:μ>1500。這明顯是一個(gè)單樣本t檢驗(yàn),而且是右邊檢驗(yàn)。顯著性水平α=0.05。那么,第一步,提出假設(shè):H0:μ=1500,H1:μ>1500。第二步,選檢驗(yàn)統(tǒng)計(jì)量。因?yàn)榭傮w方差未知,樣本量也不大(n=25<30),所以用t檢驗(yàn)。t統(tǒng)計(jì)量為t=(x?-μ0)/(s/√n)=(1530-1500)/(100/√25)=5/20=0.25。第三步,找拒絕域。這是右邊檢驗(yàn),所以拒絕域在t分布右側(cè)。α=0.05,自由度df=n-1=25-1=24。查t分布表,得到t0.05,24≈1.714。所以拒絕域是t>1.714。第四步,做決策。算出來的t統(tǒng)計(jì)量是0.25,它沒有落在拒絕域里(0.25<1.714),所以不能拒絕原假設(shè)。也就是說,沒有足夠證據(jù)表明新燈泡的壽命有顯著提高。2.哎,這個(gè)題得用兩樣本t檢驗(yàn),而且方差相等的那種。首先,得計(jì)算兩組的均值和方差。方法A的均值x?A=150.5,方差s2A≈20.25。方法B的均值x?B=160.5,方差s2B≈20.25。因?yàn)轭}目說方差相等,所以可以用兩樣本t檢驗(yàn)(假設(shè)方差相等)。第一步,提出假設(shè):H0:μA=μB(兩種方法效果相同),H1:μA≠μB(兩種方法效果不同)。第二步,選檢驗(yàn)統(tǒng)計(jì)量。因?yàn)榉讲钕嗟?,所以用合并方差的t檢驗(yàn)。合并方差s2p=(9s2A+9s2B)/(9+9)=(20.25+20.25)/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論