2025年統(tǒng)計(jì)學(xué)期末考試題庫(kù):數(shù)據(jù)可視化與人工智能試題_第1頁(yè)
2025年統(tǒng)計(jì)學(xué)期末考試題庫(kù):數(shù)據(jù)可視化與人工智能試題_第2頁(yè)
2025年統(tǒng)計(jì)學(xué)期末考試題庫(kù):數(shù)據(jù)可視化與人工智能試題_第3頁(yè)
2025年統(tǒng)計(jì)學(xué)期末考試題庫(kù):數(shù)據(jù)可視化與人工智能試題_第4頁(yè)
2025年統(tǒng)計(jì)學(xué)期末考試題庫(kù):數(shù)據(jù)可視化與人工智能試題_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年統(tǒng)計(jì)學(xué)期末考試題庫(kù):數(shù)據(jù)可視化與人工智能試題考試時(shí)間:______分鐘總分:______分姓名:______一、選擇題(每題2分,共20分。請(qǐng)將正確選項(xiàng)的字母填在題后的括號(hào)內(nèi))1.在進(jìn)行參數(shù)估計(jì)時(shí),增大置信水平會(huì)()。A.增大估計(jì)的精確度B.減小估計(jì)的精確度C.不影響估計(jì)的精確度D.可能增大也可能減小估計(jì)的精確度2.對(duì)于分類(lèi)問(wèn)題,以下哪項(xiàng)不是監(jiān)督學(xué)習(xí)的主要任務(wù)?()A.回歸分析B.聚類(lèi)分析C.邏輯回歸D.支持向量機(jī)3.在數(shù)據(jù)可視化中,使用顏色來(lái)表示數(shù)據(jù)類(lèi)別或數(shù)值大小,這屬于數(shù)據(jù)編碼中的()。A.位置編碼B.長(zhǎng)度/寬度編碼C.顏色編碼D.視角編碼4.當(dāng)數(shù)據(jù)集中存在較多異常值時(shí),以下哪種圖表可能更有效地展示數(shù)據(jù)的分布中心?()A.柱狀圖B.散點(diǎn)圖C.箱線(xiàn)圖D.餅圖5.決策樹(shù)模型在處理非線(xiàn)性關(guān)系時(shí)表現(xiàn)出較好的能力,其主要缺點(diǎn)是()。A.對(duì)數(shù)據(jù)尺度敏感B.容易過(guò)擬合C.計(jì)算復(fù)雜度高D.需要大量標(biāo)記數(shù)據(jù)6.缺失值處理方法中,簡(jiǎn)單隨機(jī)抽樣刪除缺失值記錄的方法,其主要風(fēng)險(xiǎn)是()。A.改變數(shù)據(jù)分布B.引入偏差C.增加計(jì)算量D.難以實(shí)施7.在進(jìn)行探索性數(shù)據(jù)分析時(shí),繪制散點(diǎn)圖的主要目的是()。A.精確預(yù)測(cè)目標(biāo)變量B.展示數(shù)據(jù)類(lèi)別比例C.探索變量之間的關(guān)系D.比較不同組別的均值差異8.以下哪種可視化方法最適合展示時(shí)間序列數(shù)據(jù)的變化趨勢(shì)?()A.熱力圖B.餅圖C.散點(diǎn)圖D.折線(xiàn)圖9.交叉驗(yàn)證(Cross-Validation)在機(jī)器學(xué)習(xí)中主要用于()。A.數(shù)據(jù)預(yù)處理B.特征選擇C.模型選擇與評(píng)估D.參數(shù)調(diào)優(yōu)10.可解釋性較差是以下哪種機(jī)器學(xué)習(xí)模型的主要問(wèn)題?()A.線(xiàn)性回歸B.K-均值聚類(lèi)C.隨機(jī)森林D.神經(jīng)網(wǎng)絡(luò)二、填空題(每空2分,共20分。請(qǐng)將答案填在橫線(xiàn)上)1.統(tǒng)計(jì)推斷的兩大基本內(nèi)容是________和________。2.在散點(diǎn)圖中,如果兩個(gè)變量的觀(guān)測(cè)點(diǎn)呈現(xiàn)出從左上角到右下角的帶狀分布,則表明這兩個(gè)變量之間存在________關(guān)系。3.數(shù)據(jù)可視化設(shè)計(jì)應(yīng)遵循的原則包括清晰性、準(zhǔn)確性和________。4.用于衡量分類(lèi)模型預(yù)測(cè)準(zhǔn)確率的指標(biāo),除了準(zhǔn)確率外,還有精確率、召回率和________。5.在PCA(主成分分析)中,目標(biāo)是找到能夠最大化數(shù)據(jù)方差的新坐標(biāo)軸,這些新坐標(biāo)軸稱(chēng)為_(kāi)_______。6.對(duì)于名義變量,常用的可視化方法是________和________。7.缺失值的存在可能導(dǎo)致統(tǒng)計(jì)估計(jì)的偏差增大,常用的處理方法包括刪除法、插補(bǔ)法和________。8.機(jī)器學(xué)習(xí)模型過(guò)擬合是指模型對(duì)訓(xùn)練數(shù)據(jù)學(xué)習(xí)得過(guò)于充分,以至于也學(xué)習(xí)到了________。9.在數(shù)據(jù)編碼中,通過(guò)改變圖形元素的大小(如圓圈、條形)來(lái)表示數(shù)據(jù)大小的方法稱(chēng)為_(kāi)_______編碼。10.將統(tǒng)計(jì)學(xué)中的假設(shè)檢驗(yàn)思想應(yīng)用于機(jī)器學(xué)習(xí)模型評(píng)估,形成了________檢驗(yàn)。三、簡(jiǎn)答題(每題5分,共20分)1.簡(jiǎn)述假設(shè)檢驗(yàn)的基本步驟。2.比較并說(shuō)明線(xiàn)性回歸和邏輯回歸在應(yīng)用場(chǎng)景和目標(biāo)上的主要區(qū)別。3.解釋數(shù)據(jù)可視化的“過(guò)度可視化”問(wèn)題及其潛在危害。4.簡(jiǎn)述使用K-均值聚類(lèi)算法進(jìn)行數(shù)據(jù)分群時(shí),選擇合適的K值的一般方法。四、計(jì)算題(每題10分,共20分)1.某公司想估計(jì)其平均每位客戶(hù)的年消費(fèi)額。隨機(jī)抽取了100位客戶(hù),得到樣本均值\$8000,樣本標(biāo)準(zhǔn)差\$1200。假設(shè)客戶(hù)年消費(fèi)額服從正態(tài)分布。請(qǐng)計(jì)算:(1)置信水平為95%時(shí),該公司平均每位客戶(hù)年消費(fèi)額的置信區(qū)間。(2)如果要求置信區(qū)間寬度不超過(guò)\$1000,至少需要抽取多少位客戶(hù)的樣本?2.對(duì)于一組二維數(shù)據(jù)點(diǎn),使用K-均值聚類(lèi)算法將其分為3類(lèi)(K=3)。初始聚類(lèi)中心點(diǎn)分別為C1(1,1),C2(5,5),C3(9,1)。經(jīng)過(guò)一次迭代后,得到新的樣本分配:類(lèi)1包含點(diǎn)(2,2),(1.5,1.5);類(lèi)2包含點(diǎn)(5.5,5.5),(5,6);類(lèi)3包含點(diǎn)(9,0),(8.5,1.5)。請(qǐng)計(jì)算迭代后得到的新的聚類(lèi)中心點(diǎn)。五、應(yīng)用題(每題10分,共30分)1.假設(shè)你是一名市場(chǎng)分析師,手頭有一組關(guān)于顧客購(gòu)買(mǎi)行為的數(shù)據(jù),包含顧客年齡、性別、購(gòu)買(mǎi)頻率(每月次數(shù))、上次購(gòu)買(mǎi)金額(元)以及購(gòu)買(mǎi)的產(chǎn)品類(lèi)別(用數(shù)字1-4表示)。請(qǐng):(1)描述你會(huì)選擇哪些圖表來(lái)初步探索這組數(shù)據(jù)?并簡(jiǎn)要說(shuō)明選擇理由。(2)如果要分析不同年齡段的顧客在購(gòu)買(mǎi)頻率和上次購(gòu)買(mǎi)金額上是否存在顯著差異,你會(huì)考慮使用什么統(tǒng)計(jì)方法?請(qǐng)說(shuō)明理由。2.在評(píng)估一個(gè)用于預(yù)測(cè)客戶(hù)流失風(fēng)險(xiǎn)的邏輯回歸模型時(shí),得到了以下輸出信息(部分):*模型預(yù)測(cè)某客戶(hù)流失的概率為0.6。*模型的準(zhǔn)確率為85%。*在所有實(shí)際流失的客戶(hù)中,模型正確預(yù)測(cè)了其中的70%。*在所有未流失的客戶(hù)中,模型正確預(yù)測(cè)了其中的90%。請(qǐng):(1)解釋模型準(zhǔn)確率、召回率和精確率的含義。(2)基于給出的信息,計(jì)算該模型的召回率和精確率。3.某網(wǎng)站運(yùn)營(yíng)人員希望分析用戶(hù)在首頁(yè)停留時(shí)間與后續(xù)點(diǎn)擊“加入購(gòu)物車(chē)”行為之間的關(guān)系。他們收集了1000名用戶(hù)的首頁(yè)停留時(shí)間和是否點(diǎn)擊“加入購(gòu)物車(chē)”的數(shù)據(jù)。通過(guò)簡(jiǎn)單的可視化發(fā)現(xiàn),首頁(yè)停留時(shí)間較長(zhǎng)的用戶(hù)更傾向于點(diǎn)擊“加入購(gòu)物車(chē)”。請(qǐng):(1)提出一種可能的統(tǒng)計(jì)方法來(lái)檢驗(yàn)首頁(yè)停留時(shí)間與點(diǎn)擊“加入購(gòu)物車(chē)”行為之間是否存在顯著關(guān)聯(lián)。(2)如果統(tǒng)計(jì)檢驗(yàn)結(jié)果表明兩者存在顯著關(guān)聯(lián),運(yùn)營(yíng)人員可以基于此得出什么結(jié)論?并簡(jiǎn)要說(shuō)明如何利用這個(gè)結(jié)論(例如,在網(wǎng)站設(shè)計(jì)或營(yíng)銷(xiāo)策略上)。---試卷答案一、選擇題1.B2.B3.C4.C5.B6.B7.C8.D9.C10.D二、填空題1.參數(shù)估計(jì);假設(shè)檢驗(yàn)2.負(fù)相關(guān)3.意義性/目的性4.F1分?jǐn)?shù)5.主成分6.餅圖;條形圖7.基于模型插補(bǔ)8.噪聲/干擾項(xiàng)9.長(zhǎng)度/寬度10.極端值三、簡(jiǎn)答題1.假設(shè)檢驗(yàn)的基本步驟包括:提出原假設(shè)和備擇假設(shè);選擇合適的檢驗(yàn)統(tǒng)計(jì)量;確定檢驗(yàn)統(tǒng)計(jì)量的分布(在原假設(shè)成立時(shí));設(shè)定顯著性水平α;計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀(guān)測(cè)值及對(duì)應(yīng)的p值;根據(jù)p值與α的比較結(jié)果,做出拒絕或不拒絕原假設(shè)的決策。2.線(xiàn)性回歸主要用于預(yù)測(cè)連續(xù)型數(shù)值變量,其模型輸出是一個(gè)數(shù)值估計(jì)。邏輯回歸主要用于預(yù)測(cè)二元(是/否)或分類(lèi)變量,其模型輸出是一個(gè)概率值或類(lèi)別預(yù)測(cè)。線(xiàn)性回歸假設(shè)因變量與自變量之間存在線(xiàn)性關(guān)系,而邏輯回歸通過(guò)Sigmoid函數(shù)將線(xiàn)性組合映射到[0,1]區(qū)間,符合概率解釋。3.過(guò)度可視化是指創(chuàng)建過(guò)于復(fù)雜、信息密度過(guò)低、干擾元素過(guò)多或與數(shù)據(jù)關(guān)系不大的圖表,導(dǎo)致觀(guān)眾難以理解核心信息,甚至產(chǎn)生誤導(dǎo)。其潛在危害包括:分散注意力、混淆重點(diǎn)、歪曲數(shù)據(jù)事實(shí)、降低溝通效率。4.選擇合適的K值的一般方法有:肘部法則(ElbowMethod)——計(jì)算不同K值下的聚類(lèi)內(nèi)平方和(SSE),繪制K與SSE的關(guān)系圖,選擇肘部拐點(diǎn)處的K值;輪廓系數(shù)法(SilhouetteScore)——計(jì)算不同K值下的平均輪廓系數(shù),選擇輪廓系數(shù)最大的K值。四、計(jì)算題1.(1)樣本量n=100,均值μ?=\$8000,標(biāo)準(zhǔn)差s=\$1200,置信水平為95%,查Z分布表得Zα/2=1.96。置信區(qū)間=μ?±Zα/2*(s/√n)=\$8000±1.96*(\$1200/√100)=\$8000±1.96*\$120=\$8000±\$235.2置信區(qū)間為(\$7764.8,\$8235.2)。(2)要求置信區(qū)間寬度W≤\$1000,即2*Zα/2*(s/√n)≤\$1000。2*1.96*(\$1200/√n)≤\$10003.92*(\$1200/√n)≤\$1000\$4704/√n≤\$1000√n≥\$4704/\$1000√n≥4.704n≥4.7042n≥22.13由于樣本量必須是整數(shù),且要保證寬度不超過(guò)1000,向上取整,需要抽取的樣本量至少為23。2.計(jì)算每個(gè)類(lèi)中所有點(diǎn)的均值作為新的聚類(lèi)中心。新類(lèi)1中心=((2+1.5)/2,(2+1.5)/2)=(1.75,1.75)新類(lèi)2中心=((5.5+5)/2,(5.5+6)/2)=(5.25,5.75)新類(lèi)3中心=((9+8.5)/2,(0+1.5)/2)=(8.75,0.75)迭代后的新的聚類(lèi)中心點(diǎn)分別為C1'(1.75,1.75),C2'(5.25,5.75),C3'(8.75,0.75)。五、應(yīng)用題1.(1)可選擇的圖表:*年齡分布:直方圖或箱線(xiàn)圖(探索年齡分布形態(tài)和離散程度)。*性別分布:餅圖或條形圖(展示不同性別的比例)。*購(gòu)買(mǎi)頻率:箱線(xiàn)圖(比較不同年齡段的購(gòu)買(mǎi)頻率分布)。*上次購(gòu)買(mǎi)金額:箱線(xiàn)圖(比較不同年齡段的購(gòu)買(mǎi)金額分布)。*產(chǎn)品類(lèi)別與購(gòu)買(mǎi)行為關(guān)系:交叉表(或堆疊條形圖、分組柱狀圖)展示不同產(chǎn)品類(lèi)別下客戶(hù)流失與未流失的數(shù)量/比例。選擇理由:這些圖表能夠有效地展示不同變量的分布特征、變量間的關(guān)聯(lián)性,以及不同分組間的比較,有助于初步發(fā)現(xiàn)數(shù)據(jù)中的模式和信息。(2)可使用的統(tǒng)計(jì)方法:卡方檢驗(yàn)(如果購(gòu)買(mǎi)行為是分類(lèi)變量,且要檢驗(yàn)?zāi)挲g段與購(gòu)買(mǎi)行為是否獨(dú)立)或方差分析(ANOVA,如果購(gòu)買(mǎi)頻率/金額是連續(xù)變量,要檢驗(yàn)不同年齡段在購(gòu)買(mǎi)頻率/金額上是否存在顯著差異)。選擇理由:卡方檢驗(yàn)用于分析分類(lèi)變量間的關(guān)聯(lián)性;ANOVA用于分析一個(gè)連續(xù)因變量與一個(gè)或多個(gè)分類(lèi)自變量間的差異是否存在統(tǒng)計(jì)學(xué)意義。2.(1)準(zhǔn)確率:模型正確預(yù)測(cè)的樣本數(shù)占總樣本數(shù)的比例。精確率:在模型預(yù)測(cè)為正類(lèi)的樣本中,實(shí)際為正類(lèi)的比例。召回率:在實(shí)際為正類(lèi)的樣本中,模型正確預(yù)測(cè)為正類(lèi)的比例。(2)召回率=(實(shí)際流失且預(yù)測(cè)流失的客戶(hù)數(shù))/(總實(shí)際流失的客戶(hù)數(shù))=70%。精確率=(預(yù)測(cè)流失且實(shí)際流失的客戶(hù)數(shù))/(總預(yù)測(cè)流失的客戶(hù)數(shù))=(模型預(yù)測(cè)流失的客戶(hù)數(shù))/(總實(shí)際流失的客戶(hù)數(shù))=0.6/(0.6*實(shí)際流失數(shù)+0.4*實(shí)際未流失數(shù))。由于只知道在所有實(shí)際流失的客戶(hù)中預(yù)測(cè)正確的比例(召回率70%),且準(zhǔn)確率85%,無(wú)法直接計(jì)算精確率,除非有更多數(shù)據(jù)信息。但根據(jù)題目要求,僅解釋含義并計(jì)算給定信息下的召回率即可。所以,召回率=70%,精確率無(wú)法從給定信息中直接完整計(jì)算。3.(1)可

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論