版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
統(tǒng)計(jì)與決策在數(shù)據(jù)挖掘中的應(yīng)用,2025年大學(xué)期末考試試題型考試時(shí)間:______分鐘總分:______分姓名:______一、選擇題(每題2分,共30分)1.下列關(guān)于總體參數(shù)和樣本統(tǒng)計(jì)量的描述,正確的是()。A.總體參數(shù)是隨機(jī)變量,樣本統(tǒng)計(jì)量是確定的數(shù)值B.總體參數(shù)是確定的數(shù)值,樣本統(tǒng)計(jì)量是隨機(jī)變量C.總體參數(shù)和樣本統(tǒng)計(jì)量都是隨機(jī)變量D.總體參數(shù)和樣本統(tǒng)計(jì)量都是確定的數(shù)值2.設(shè)事件A和B互斥,P(A)=0.3,P(B)=0.5,則P(A∪B)=()。A.0.15B.0.8C.0.3D.0.23.樣本均值的標(biāo)準(zhǔn)誤反映了()。A.總體均值的大小B.樣本均值的離散程度C.總體方差的估計(jì)精度D.樣本方差的離散程度4.在進(jìn)行假設(shè)檢驗(yàn)時(shí),第一類錯(cuò)誤是指()。A.統(tǒng)計(jì)量計(jì)算錯(cuò)誤B.接受原假設(shè),但原假設(shè)為假C.拒絕原假設(shè),但原假設(shè)為真D.原假設(shè)為真,但接受備擇假設(shè)5.對(duì)于正態(tài)分布總體,當(dāng)總體方差未知時(shí),檢驗(yàn)總體均值應(yīng)使用的統(tǒng)計(jì)量是()。A.Z統(tǒng)計(jì)量B.t統(tǒng)計(jì)量C.χ2統(tǒng)計(jì)量D.F統(tǒng)計(jì)量6.在方差分析中,F(xiàn)檢驗(yàn)的零假設(shè)是()。A.各組均值相等B.各組均值不等C.組內(nèi)方差相等D.組間方差相等7.一元線性回歸模型y=β?+β?x+ε中,ε代表()。A.自變量xB.因變量yC.模型的誤差項(xiàng)D.回歸系數(shù)β?8.最小二乘法估計(jì)回歸系數(shù)的基本思想是使()。A.觀察值與回歸值的絕對(duì)離差之和最小B.觀察值與回歸值的平方離差之和最小C.回歸值與均值之差之和最小D.觀察值與均值之差之和最小9.已知一組樣本數(shù)據(jù)的相關(guān)系數(shù)r=-0.8,則說明這兩個(gè)變量之間()。A.線性關(guān)系很強(qiáng),且正相關(guān)B.線性關(guān)系很強(qiáng),且負(fù)相關(guān)C.線性關(guān)系很弱,且正相關(guān)D.線性關(guān)系很弱,且負(fù)相關(guān)10.決策樹方法在數(shù)據(jù)挖掘中屬于()。A.聚類方法B.分類方法C.關(guān)聯(lián)規(guī)則方法D.主成分分析11.貝葉斯決策理論中,用于衡量一個(gè)決策方案好壞的指標(biāo)是()。A.概率分布B.先驗(yàn)概率C.損失函數(shù)D.后驗(yàn)概率12.在風(fēng)險(xiǎn)型決策中,期望值法選擇最優(yōu)方案的標(biāo)準(zhǔn)是()。A.期望收益最大或期望損失最小B.風(fēng)險(xiǎn)最小C.確定性等價(jià)值最大D.變異系數(shù)最小13.抽樣調(diào)查中,造成抽樣誤差的主要原因是()。A.樣本量過小B.調(diào)查人員工作失誤C.抽樣方法不當(dāng)D.總體變異14.若一個(gè)統(tǒng)計(jì)量的分布不受總體分布形態(tài)的影響,則稱該統(tǒng)計(jì)量服從()。A.正態(tài)分布B.t分布C.χ2分布D.漸進(jìn)分布(如中心極限定理下的分布)15.對(duì)一組數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理(減去均值再除以標(biāo)準(zhǔn)差),其主要目的是()。A.壓縮數(shù)據(jù)范圍B.增大數(shù)據(jù)均值C.消除量綱影響D.提高數(shù)據(jù)相關(guān)性二、填空題(每空2分,共10分)1.若事件A發(fā)生的概率P(A)=0.6,事件B發(fā)生的概率P(B)=0.7,且A、B至少有一個(gè)發(fā)生的概率P(A∪B)=0.85,則事件A和事件B同時(shí)發(fā)生的概率P(A∩B)=_______。2.在95%的置信水平下構(gòu)造總體均值μ的置信區(qū)間,意味著如果反復(fù)抽樣,大約有95%的置信區(qū)間會(huì)包含真值μ。這里的置信水平α=_______。3.進(jìn)行假設(shè)檢驗(yàn)時(shí),假設(shè)檢驗(yàn)的顯著性水平α表示犯第一類錯(cuò)誤的概率,即當(dāng)原假設(shè)為真時(shí),拒絕原假設(shè)的概率,α通常取值如_______。4.在一元線性回歸分析中,判定系數(shù)R2表示因變量的變異中能被回歸方程解釋的比率,其取值范圍是_______。5.在貝葉斯決策中,給定觀察到的樣本信息后,條件概率P(θ|D)稱為_______概率。三、簡(jiǎn)答題(每題8分,共24分)1.簡(jiǎn)述假設(shè)檢驗(yàn)的基本步驟。2.解釋什么是回歸模型的異方差性?它會(huì)對(duì)回歸分析的推斷帶來什么影響?3.簡(jiǎn)述決策樹模型在分類問題中的基本思想。四、計(jì)算題(每題12分,共24分)1.某工廠生產(chǎn)一批零件,隨機(jī)抽取50個(gè)進(jìn)行檢驗(yàn),測(cè)得樣本平均壽命為1000小時(shí),樣本標(biāo)準(zhǔn)差為150小時(shí)。假設(shè)零件壽命服從正態(tài)分布,試以95%的置信水平估計(jì)該批零件平均壽命的置信區(qū)間。2.某研究者想探究廣告投入(萬元)與產(chǎn)品銷售額(萬元)之間的關(guān)系,收集了10對(duì)數(shù)據(jù),計(jì)算得到:Σx=60,Σy=800,Σx2=460,Σy2=68000,Σxy=5000。假設(shè)數(shù)據(jù)符合一元線性回歸模型,求:(1)回歸方程y^=b?+b?x;(2)當(dāng)廣告投入為8萬元時(shí),預(yù)測(cè)產(chǎn)品銷售額的點(diǎn)估計(jì)值。五、綜合應(yīng)用題(共22分)某公司想評(píng)估兩種營(yíng)銷策略(策略A和策略B)的效果。收集了最近三個(gè)月的數(shù)據(jù),記錄了采用不同策略時(shí)的銷售額(萬元)和營(yíng)銷成本(萬元),數(shù)據(jù)如下表所示(部分?jǐn)?shù)據(jù)省略,請(qǐng)自行補(bǔ)充完整以構(gòu)成有效計(jì)算,例如補(bǔ)充策略A銷售額為80,成本為30;策略B銷售額為90,成本為40等,確保能完成計(jì)算):|策略|月份數(shù)|平均銷售額(萬元)|平均成本(萬元)||---|---|---|---||策略A|3||||策略B|3|||已知總銷售額Σy_A=240,Σy_B=270,總成本Σx_A=120,Σx_B=150,策略A的樣本方差s2_A=400,策略B的樣本方差s2_B=500,樣本量n_A=n_B=3。(1)請(qǐng)問該公司應(yīng)使用什么統(tǒng)計(jì)方法來比較兩種策略的平均銷售額是否存在顯著差異?為什么?(6分)(2)假設(shè)選擇了合適的方法,請(qǐng)完成必要的計(jì)算(需明確寫出所使用的公式和計(jì)算過程),并判斷在顯著性水平α=0.05下,兩種策略的平均銷售額是否存在顯著差異。(16分)試卷答案一、選擇題1.B解析:總體參數(shù)是描述總體特征的固定數(shù)值,而樣本統(tǒng)計(jì)量是基于樣本數(shù)據(jù)計(jì)算得出的,會(huì)隨樣本不同而變化。2.B解析:由于A和B互斥,P(A∪B)=P(A)+P(B)=0.3+0.5=0.8。3.B解析:樣本均值的標(biāo)準(zhǔn)誤衡量的是樣本均值作為總體均值估計(jì)量的抽樣波動(dòng)性或離散程度。4.C解析:第一類錯(cuò)誤是指原假設(shè)H?為真,但根據(jù)樣本信息拒絕了H?。5.B解析:當(dāng)總體服從正態(tài)分布但總體方差未知時(shí),應(yīng)使用t統(tǒng)計(jì)量進(jìn)行均值檢驗(yàn)。6.A解析:方差分析中的F檢驗(yàn)是為了檢驗(yàn)不同組別均值是否相等(即檢驗(yàn)組間差異是否顯著大于組內(nèi)隨機(jī)誤差)。7.C解析:ε代表模型中無法被自變量x解釋的隨機(jī)誤差項(xiàng)。8.B解析:最小二乘法通過最小化觀測(cè)值y與回歸值y^之間的平方離差之和來確定回歸系數(shù)。9.B解析:相關(guān)系數(shù)r的絕對(duì)值越接近1,表示線性關(guān)系越強(qiáng);r為負(fù)值表示負(fù)相關(guān)。10.B解析:決策樹是一種常用的分類算法,通過樹狀結(jié)構(gòu)進(jìn)行決策。11.C解析:損失函數(shù)定義了不同決策結(jié)果帶來的損失大小,是貝葉斯決策中評(píng)估方案優(yōu)劣的關(guān)鍵。12.A解析:期望值法通過計(jì)算各個(gè)方案在不同狀態(tài)下的期望收益或期望損失來選擇最優(yōu)方案。13.D解析:抽樣誤差是由于抽樣導(dǎo)致樣本統(tǒng)計(jì)量與總體參數(shù)之間的差異,根本原因是總體本身存在變異。14.D解析:根據(jù)中心極限定理,無論總體分布如何,樣本均值的分布會(huì)漸近于正態(tài)分布,這是許多統(tǒng)計(jì)推斷方法的基礎(chǔ)。15.C解析:標(biāo)準(zhǔn)化處理可以消除不同變量量綱和數(shù)量級(jí)的影響,使數(shù)據(jù)具有可比性,便于后續(xù)分析。二、填空題1.0.25解析:P(A∩B)=P(A)+P(B)-P(A∪B)=0.6+0.7-0.85=0.45。2.0.05解析:置信水平為95%,則α=1-0.95=0.05。3.0.05解析:α是犯第一類錯(cuò)誤的概率,常用值有0.05、0.01等。4.[0,1]解析:R2衡量回歸解釋的變異比例,最小為0(完全無解釋力),最大為1(完全解釋)。5.后驗(yàn)三、簡(jiǎn)答題1.假設(shè)檢驗(yàn)的基本步驟:(1)提出原假設(shè)H?和備擇假設(shè)H?;(2)選擇合適的檢驗(yàn)統(tǒng)計(jì)量,并確定其在H?成立下的分布;(3)根據(jù)顯著性水平α確定拒絕域(臨界值或P值臨界值);(4)計(jì)算樣本數(shù)據(jù)對(duì)應(yīng)的檢驗(yàn)統(tǒng)計(jì)量值或P值;(5)做出決策:若統(tǒng)計(jì)量落入拒絕域或P值≤α,則拒絕H?;否則不拒絕H?。2.回歸模型的異方差性是指回歸模型的誤差項(xiàng)ε的方差不是常數(shù),而是隨著自變量的取值變化。異方差性會(huì)帶來以下影響:(1)OLS估計(jì)量(最小二乘估計(jì))不再具有最小方差性(即不再是BLUE,BestLinearUnbiasedEstimator),即存在更有效的無偏估計(jì);(2)原假設(shè)(如H?:β?=0)的t檢驗(yàn)和F檢驗(yàn)的方差估計(jì)有偏,導(dǎo)致檢驗(yàn)結(jié)果不準(zhǔn)確,可能犯第二類錯(cuò)誤(接受錯(cuò)誤的H?);(3)回歸預(yù)測(cè)的精度可能受到影響,尤其是在自變量取值遠(yuǎn)離樣本均值時(shí)。3.決策樹模型在分類問題中的基本思想是利用樹狀圖結(jié)構(gòu)進(jìn)行決策。它從根節(jié)點(diǎn)開始,通過一系列基于特征(屬性)的判斷(分裂)將數(shù)據(jù)劃分成越來越小的子集(葉節(jié)點(diǎn))。每個(gè)內(nèi)部節(jié)點(diǎn)代表一個(gè)特征上的判斷,每個(gè)分支代表該特征的一個(gè)取值,每個(gè)葉節(jié)點(diǎn)代表一個(gè)最終的分類結(jié)果(類別標(biāo)簽)。決策過程是從根節(jié)點(diǎn)開始,根據(jù)實(shí)例的特征值沿著分支向下遍歷樹,直到到達(dá)一個(gè)葉節(jié)點(diǎn),該葉節(jié)點(diǎn)的類別標(biāo)簽即為模型的預(yù)測(cè)結(jié)果。常用的決策樹算法有ID3、C4.5、CART等。四、計(jì)算題1.計(jì)算總體均值μ的95%置信區(qū)間:(1)計(jì)算標(biāo)準(zhǔn)誤:SE=s/sqrt(n)=150/sqrt(50)≈21.21(2)查t分布表,df=n-1=49,α/2=0.025,t_(0.025,49)≈2.0096(3)計(jì)算置信區(qū)間半寬:ME=t_(0.025,49)*SE≈2.0096*21.21≈42.58(4)置信區(qū)間為:x?±ME=1000±42.58=(957.42,1042.58)答:以95%的置信水平估計(jì)該批零件平均壽命的置信區(qū)間為(957.42小時(shí),1042.58小時(shí))。2.計(jì)算一元線性回歸方程:(1)計(jì)算回歸系數(shù)b?:b?=nΣxy-ΣxΣy/(nΣx2-(Σx)2)b?=10*5000-60*800/(10*460-602)b?=50000-48000/(4600-3600)b?=2000/1000=2(2)計(jì)算回歸系數(shù)b?:b?=y?-b?x?(其中x?=Σx/n=60/10=6,y?=Σy/n=800/10=80)b?=80-2*6=80-12=68(3)回歸方程為:y^=68+2x(4)預(yù)測(cè)x=8時(shí)的銷售額:y^=68+2*8=68+16=84答:回歸方程為y^=68+2x;當(dāng)廣告投入為8萬元時(shí),預(yù)測(cè)產(chǎn)品銷售額的點(diǎn)估計(jì)值為84萬元。五、綜合應(yīng)用題(1)方法選擇及理由:應(yīng)使用兩組獨(dú)立樣本的均值比較的t檢驗(yàn)(如雙樣本t檢驗(yàn))。理由是:比較兩種策略(策略A和策略B)的平均銷售額(屬于連續(xù)性數(shù)據(jù)),數(shù)據(jù)來自兩個(gè)獨(dú)立的組(采用不同策略的樣本),目的是檢驗(yàn)兩組樣本所代表的總體均值是否存在顯著差異。(注:如果題目中數(shù)據(jù)是配對(duì)設(shè)計(jì),則應(yīng)使用配對(duì)樣本t檢驗(yàn)。此處按獨(dú)立樣本處理。)(2)計(jì)算過程與判斷:(1)計(jì)算兩組樣本的均值和方差(假設(shè)補(bǔ)充數(shù)據(jù)為:策略A平均銷售額=80,成本=30;策略B平均銷售額=90,成本=40):x?_A=80,s2_A=400=>s_A=20x?_B=90,s2_B=500=>s_B=√500≈22.36n_A=3,n_B=3(2)計(jì)算合并方差估計(jì)(使用Welch近似方差,或假設(shè)方差相等使用pooledvariance,此處采用Welch方法更穩(wěn)?。簊_p2=[(n_A-1)s2_A+(n_B-1)s2_B]/(n_A-1+n_B-1)s_p2=[(3-1)400+(3-1)500]/(3-1+3-1)=[800+1000]/4=1800/4=450s_p=√450≈21.21(3)計(jì)算t統(tǒng)計(jì)量(使用Welch公式):t=(x?_A-x?_B)/sqrt[s_p2*(1/n_A+1/n_B)]t=(80-90)/sqrt[450*(1/3+1/3)]t=-10/sqrt[450*(2/3)]t=-10/sqrt[300]t=-10/17.32≈-0.577(4)計(jì)算自由度(使用Welch近似df):df≈[s_p2_A/n_A+s_p2_B/n_B]2/[(s_p2_A/n_A)2/(n_A-1)+(s_p2_B/n_B)2/(n_B-1)]df≈[400/3+500/3]2/[(400/3)2/2+(500/3)2/2]
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/Z 110-2025固定鉛酸蓄電池和蓄電池組用射頻識(shí)別(RFID)試驗(yàn)要求
- 員工試用期轉(zhuǎn)正工作總結(jié)15篇
- 2025年昆明市官渡區(qū)云南大學(xué)附屬中學(xué)星耀學(xué)校招聘?jìng)淇碱}庫附答案詳解
- 人民警察基本級(jí)執(zhí)法資格考試題型及答案
- 2025國(guó)考國(guó)家稅務(wù)總局滁州市南譙區(qū)稅務(wù)局面試試題及答案解析
- 2025年廣州市民政局直屬事業(yè)單位第一次公開招聘工作人員25人備考題庫及一套答案詳解
- 三亞市公安局招聘下屬事業(yè)單位工作人員考試真題2024
- 2024年鞍山海城市教育局畢業(yè)生招聘考試真題
- 《CB 1153-1993金屬波形膨脹節(jié)》專題研究報(bào)告
- 2025廣西北海銀灘開發(fā)投資股份有限公司招聘2人考試核心題庫及答案解析
- 2025年農(nóng)業(yè)農(nóng)村部耕地質(zhì)量和農(nóng)田工程監(jiān)督保護(hù)中心度面向社會(huì)公開招聘工作人員12人備考題庫有答案詳解
- 2025年護(hù)士長(zhǎng)護(hù)理管理考核題目及答案
- 三年級(jí)數(shù)學(xué)上冊(cè) (提高版)第8章《分?jǐn)?shù)的初步認(rèn)識(shí)》單元培優(yōu)拔高測(cè)評(píng)試題(教師版含解析)(人教版)
- 19計(jì)科機(jī)器學(xué)習(xí)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 全國(guó)職業(yè)院校技能大賽賽項(xiàng)規(guī)程(高職)農(nóng)產(chǎn)品質(zhì)量安全檢測(cè)
- DB51∕T 3179-2024 杵針技術(shù)操作規(guī)范
- 專利共同申請(qǐng)合同模板(2024版)
- 國(guó)開機(jī)考答案21-人文英語1(閉卷)
- AQ∕T 7009-2013 機(jī)械制造企業(yè)安全生產(chǎn)標(biāo)準(zhǔn)化規(guī)范
- MOOC 近代物理實(shí)驗(yàn)-西南大學(xué) 中國(guó)大學(xué)慕課答案
- 教科版三年級(jí)科學(xué)上冊(cè)課件《運(yùn)動(dòng)和位置》
評(píng)論
0/150
提交評(píng)論