2025年大學(xué)《應(yīng)用統(tǒng)計(jì)學(xué)》專(zhuān)業(yè)題庫(kù)- 社交媒體數(shù)據(jù)統(tǒng)計(jì)分析與挖掘_第1頁(yè)
2025年大學(xué)《應(yīng)用統(tǒng)計(jì)學(xué)》專(zhuān)業(yè)題庫(kù)- 社交媒體數(shù)據(jù)統(tǒng)計(jì)分析與挖掘_第2頁(yè)
2025年大學(xué)《應(yīng)用統(tǒng)計(jì)學(xué)》專(zhuān)業(yè)題庫(kù)- 社交媒體數(shù)據(jù)統(tǒng)計(jì)分析與挖掘_第3頁(yè)
2025年大學(xué)《應(yīng)用統(tǒng)計(jì)學(xué)》專(zhuān)業(yè)題庫(kù)- 社交媒體數(shù)據(jù)統(tǒng)計(jì)分析與挖掘_第4頁(yè)
2025年大學(xué)《應(yīng)用統(tǒng)計(jì)學(xué)》專(zhuān)業(yè)題庫(kù)- 社交媒體數(shù)據(jù)統(tǒng)計(jì)分析與挖掘_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年大學(xué)《應(yīng)用統(tǒng)計(jì)學(xué)》專(zhuān)業(yè)題庫(kù)——社交媒體數(shù)據(jù)統(tǒng)計(jì)分析與挖掘考試時(shí)間:______分鐘總分:______分姓名:______一、選擇題1.從某社交媒體平臺(tái)隨機(jī)抽取100名用戶(hù),記錄其每天平均使用時(shí)長(zhǎng)。該100名用戶(hù)的平均使用時(shí)長(zhǎng)是()。A.總體參數(shù)B.樣本統(tǒng)計(jì)量C.總體變量D.樣本量2.在社交媒體數(shù)據(jù)分析中,對(duì)用戶(hù)帖子的“點(diǎn)贊數(shù)”進(jìn)行變換,使其服從正態(tài)分布,常用的變換方法不包含()。A.對(duì)數(shù)變換B.平方根變換C.Box-Cox變換D.線性變換3.為檢驗(yàn)不同性別(男、女)用戶(hù)在“評(píng)論頻率”上是否存在顯著差異,應(yīng)選擇的假設(shè)檢驗(yàn)方法是()。A.單樣本t檢驗(yàn)B.配對(duì)樣本t檢驗(yàn)C.獨(dú)立樣本t檢驗(yàn)D.卡方檢驗(yàn)4.當(dāng)社交媒體數(shù)據(jù)存在多重共線性時(shí),影響線性回歸模型估計(jì)的主要問(wèn)題是()。A.模型預(yù)測(cè)精度下降B.模型參數(shù)估計(jì)不唯一C.模型解釋力減弱D.以上都是5.在對(duì)社交媒體用戶(hù)進(jìn)行聚類(lèi)分析時(shí),選擇“K-means”算法的主要依據(jù)之一是其對(duì)初始聚類(lèi)中心的選擇敏感,屬于()。A.劃分方法B.層次方法C.密度方法D.基于模型的方法6.若要預(yù)測(cè)用戶(hù)是否會(huì)在未來(lái)一個(gè)月內(nèi)“取消關(guān)注”,最適合使用的回歸模型是()。A.線性回歸B.多項(xiàng)式回歸C.邏輯回歸D.樸素貝葉斯7.社交媒體數(shù)據(jù)中,“粉絲數(shù)”與“關(guān)注數(shù)”之間的關(guān)系最可能是()。A.線性正相關(guān)B.線性負(fù)相關(guān)C.非線性關(guān)系D.不相關(guān)關(guān)系8.下列關(guān)于描述性統(tǒng)計(jì)量的說(shuō)法,錯(cuò)誤的是()。A.均值對(duì)異常值敏感B.中位數(shù)可以用來(lái)衡量數(shù)據(jù)的集中趨勢(shì)C.標(biāo)準(zhǔn)差只能衡量數(shù)據(jù)的離散程度D.變異系數(shù)可以用來(lái)比較不同單位或不同均值數(shù)據(jù)的離散程度9.在進(jìn)行社交媒體用戶(hù)行為關(guān)聯(lián)規(guī)則挖掘時(shí),“支持度”和“置信度”是兩個(gè)關(guān)鍵的評(píng)價(jià)指標(biāo),它們分別衡量了()。A.規(guī)則的普遍性和規(guī)則的強(qiáng)度B.規(guī)則的強(qiáng)度和規(guī)則的普遍性C.規(guī)則的可行性性和規(guī)則的準(zhǔn)確性D.規(guī)則的復(fù)雜性和規(guī)則的效率10.對(duì)社交媒體評(píng)論數(shù)據(jù)進(jìn)行情感分析后,得到積極評(píng)論占比為70%,消極評(píng)論占比為30%,這屬于()。A.分類(lèi)問(wèn)題B.回歸問(wèn)題C.聚類(lèi)問(wèn)題D.關(guān)聯(lián)規(guī)則問(wèn)題二、填空題1.從社交媒體數(shù)據(jù)庫(kù)中抽取一部分用戶(hù)數(shù)據(jù)進(jìn)行分析,這一過(guò)程稱(chēng)為_(kāi)_______。2.在處理缺失值時(shí),刪除含有缺失值的觀測(cè)值的方法稱(chēng)為_(kāi)_______。3.樣本均值的標(biāo)準(zhǔn)誤差是總體標(biāo)準(zhǔn)差除以樣本量的________乘根號(hào)。4.在方差分析中,用于檢驗(yàn)多個(gè)總體均值是否相等的方法,其零假設(shè)是所有總體均值________。5.若兩個(gè)變量之間的相關(guān)系數(shù)為-0.8,說(shuō)明這兩個(gè)變量之間存在________的線性關(guān)系。6.線性回歸模型中,自變量的系數(shù)表示在其他變量不變的情況下,該自變量每變化一個(gè)單位,因變量平均變化________個(gè)單位。7.聚類(lèi)分析的目標(biāo)是將數(shù)據(jù)對(duì)象劃分為不同的組,使得組內(nèi)對(duì)象相似度較高,組間對(duì)象相似度較低,這體現(xiàn)了聚類(lèi)分析的________原則。8.邏輯回歸模型輸出的結(jié)果通常是一個(gè)概率值,該概率值表示事件發(fā)生的________。9.在進(jìn)行假設(shè)檢驗(yàn)時(shí),犯第一類(lèi)錯(cuò)誤是指拒絕了實(shí)際上________的原假設(shè)。10.社交媒體數(shù)據(jù)具有“大數(shù)據(jù)”特征,主要體現(xiàn)在其數(shù)據(jù)量巨大、產(chǎn)生速度快、類(lèi)型多樣等,其中“類(lèi)型多樣”指的是數(shù)據(jù)不僅包括數(shù)值型,還包括________、文本等。三、計(jì)算題1.某研究者欲調(diào)查某社交媒體平臺(tái)用戶(hù)平均每天發(fā)布帖子的數(shù)量。隨機(jī)抽取200名用戶(hù),得到樣本數(shù)據(jù)如下(單位:篇):10,8,12,6,9,7,11,5,10,8。假設(shè)發(fā)布帖子數(shù)量服從正態(tài)分布,且已知總體標(biāo)準(zhǔn)差σ=3篇。(1)計(jì)算樣本均值。(2)求總體均值μ的95%置信區(qū)間。(3)以α=0.05的顯著性水平,檢驗(yàn)總體均值是否顯著大于8篇。2.為研究用戶(hù)性別(X:男=0,女=1)與用戶(hù)是否參與某個(gè)線上活動(dòng)(Y:參與=1,未參與=0)之間的關(guān)系,收集了100名用戶(hù)的數(shù)據(jù),得到以下列聯(lián)表(部分?jǐn)?shù)據(jù)):||參與活動(dòng)(Y=1)|未參與活動(dòng)(Y=0)|合計(jì)||---------|----------------|------------------|------||男性(X=0)|30|?|50||女性(X=1)|?|25|50||合計(jì)|60|40|100|假設(shè)數(shù)據(jù)完整。(1)補(bǔ)全列聯(lián)表。(2)計(jì)算性別與參與活動(dòng)的卡方統(tǒng)計(jì)量(χ2)。(3)以α=0.05的顯著性水平,檢驗(yàn)性別與參與活動(dòng)是否獨(dú)立。3.假設(shè)通過(guò)分析發(fā)現(xiàn)用戶(hù)每天使用時(shí)長(zhǎng)(X,單位:小時(shí))與每天發(fā)布的帖子數(shù)(Y,單位:篇)之間存在線性關(guān)系,收集了15對(duì)樣本數(shù)據(jù),得到的線性回歸方程為:Y?=0.5+2X。已知樣本均值為X?=2小時(shí),?=8篇,SSE=20。(1)計(jì)算回歸系數(shù)2的標(biāo)準(zhǔn)化統(tǒng)計(jì)量(t統(tǒng)計(jì)量)。(2)給定一個(gè)用戶(hù)每天使用時(shí)長(zhǎng)為3小時(shí),預(yù)測(cè)其大概會(huì)發(fā)布多少篇帖子?(保留一位小數(shù))(3)計(jì)算該回歸模型的判定系數(shù)R2,并解釋其含義。四、分析題1.假設(shè)你是一名社交媒體分析師,需要分析某應(yīng)用內(nèi)兩種不同的推薦算法(A和B)對(duì)用戶(hù)點(diǎn)擊率(%)的影響。收集了該應(yīng)用內(nèi)100名用戶(hù)的周點(diǎn)擊數(shù)據(jù),數(shù)據(jù)如下(部分):推薦算法A:5.2,4.8,5.0,6.1,4.9,...(共50個(gè)數(shù)據(jù))推薦算法B:6.0,5.8,6.3,5.5,6.2,...(共50個(gè)數(shù)據(jù))(注:此處僅為示意,非真實(shí)數(shù)據(jù))請(qǐng)簡(jiǎn)述你會(huì)如何運(yùn)用統(tǒng)計(jì)方法來(lái)分析這兩種算法的效果差異?需要計(jì)算哪些統(tǒng)計(jì)量?如何進(jìn)行假設(shè)檢驗(yàn)?并說(shuō)明分析結(jié)果可能帶來(lái)的業(yè)務(wù)啟示。2.假設(shè)你正在對(duì)某社交媒體平臺(tái)的用戶(hù)評(píng)論數(shù)據(jù)進(jìn)行情感分析,得到了如下分類(lèi)結(jié)果(部分):總計(jì):1000條評(píng)論積極評(píng)論:650條消極評(píng)論:300條中性評(píng)論:50條在分析中,你發(fā)現(xiàn)“積極評(píng)論”中提及產(chǎn)品的占40%,“中性評(píng)論”中提及產(chǎn)品的占60%,“消極評(píng)論”中提及產(chǎn)品的占50%。請(qǐng)簡(jiǎn)述你會(huì)如何利用這些信息來(lái)評(píng)估情感分析的效果?除了總體比例外,你還會(huì)關(guān)注哪些指標(biāo)?并解釋這些指標(biāo)如何幫助你理解用戶(hù)對(duì)產(chǎn)品的看法以及情感分析的價(jià)值。試卷答案一、選擇題1.B2.D3.C4.D5.A6.C7.C8.C9.A10.A二、填空題1.抽樣2.刪除法3.分之根號(hào)4.相等5.強(qiáng)負(fù)相關(guān)6.單位7.相似性8.概率9.正確10.文本三、計(jì)算題1.(1)樣本均值=(10+8+12+6+9+7+11+5+10+8)/200=87/200=0.435篇。(2)因?yàn)榭傮w標(biāo)準(zhǔn)差已知,所以用Z分布構(gòu)建置信區(qū)間。Z_(α/2)=Z_(0.025)=1.96。置信區(qū)間=X?±Z_(α/2)*(σ/√n)=0.435±1.96*(3/√200)=0.435±1.96*0.2121=0.435±0.4155=[0.0195,0.8505]篇。(3)檢驗(yàn)假設(shè)H?:μ≤8,H?:μ>8。檢驗(yàn)統(tǒng)計(jì)量Z=(X?-μ?)/(σ/√n)=(0.435-8)/(3/√200)=-7.565/0.2121=-35.46。由于Z=-35.46<-1.96,且此題為單尾檢驗(yàn),拒絕原假設(shè)。結(jié)論:總體均值顯著大于8篇。2.(1)補(bǔ)全列聯(lián)表:||參與活動(dòng)(Y=1)|未參與活動(dòng)(Y=0)|合計(jì)||---------|----------------|------------------|------||男性(X=0)|30|20|50||女性(X=1)|30|20|50||合計(jì)|60|40|100|(2)卡方統(tǒng)計(jì)量χ2=Σ((O-E)2/E)=[(30-30)2/30]+[(20-20)2/20]+[(30-30)2/30]+[(20-20)2/20]=0+0+0+0=0。(3)檢驗(yàn)假設(shè)H?:性別與參與活動(dòng)獨(dú)立,H?:性別與參與活動(dòng)不獨(dú)立。χ2=0<3.841(α=0.05,df=(2-1)*(2-1)=1的臨界值),拒絕原假設(shè)。結(jié)論:性別與參與活動(dòng)不獨(dú)立。3.(1)標(biāo)準(zhǔn)化統(tǒng)計(jì)量t=b/(s_b)=2/(SSE/(n-2)*√(Σ(X-X?)2/(n-1)))。需要計(jì)算Σ(X-X?)2=Σ(X2)-nX?2。假設(shè)Σ(X)=30,Σ(X2)=64。Σ(X-X?)2=64-15*(22)=64-60=4。SSE=20,n-2=13。s_b=√(20/13*(4/14))=√(20/13*4/14)=√(80/182)=√(40/91)。t=2/(√(40/91))=2*√(91/40)=√(182/10)=√18.2≈4.27。(2)預(yù)測(cè)值Y?=0.5+2*3=0.5+6=6.5篇。(3)R2=1-SSE/SST。SST=Σ(Y-Y?)2=Σ(Y2)-n?2。假設(shè)Σ(Y)=120,Σ(Y2)=980。SST=980-15*(82)=980-960=20。R2=1-20/20=1。含義:模型解釋了總變異的100%,自變量X能完美預(yù)測(cè)因變量Y。四、分析題1.分析思路:首先,需要確認(rèn)數(shù)據(jù)是否滿(mǎn)足線性回歸假設(shè)(正態(tài)性、方差齊性、線性關(guān)系)。然后,比較兩種算法下用戶(hù)點(diǎn)擊率的均值。計(jì)算兩種算法點(diǎn)擊率的樣本均值和標(biāo)準(zhǔn)差。使用獨(dú)立樣本t檢驗(yàn),檢驗(yàn)兩種算法點(diǎn)擊率總體均值是否存在顯著差異。假設(shè)檢驗(yàn)零假設(shè)H?:μ_A=μ_B,備擇假設(shè)H?:μ_A≠μ_B。計(jì)算t統(tǒng)計(jì)量,并與t分布臨界值比較或查看p值。如果p值小于顯著性水平α(如0.05),則拒絕H?,認(rèn)為兩種算法效果有顯著差異。業(yè)務(wù)啟示:根據(jù)檢驗(yàn)結(jié)果,可以判斷哪種算法在提升用戶(hù)點(diǎn)擊率方面更有效,從而為算法選擇或優(yōu)化提供數(shù)據(jù)支持。如果差異顯著,應(yīng)考慮推廣更有效的算法或進(jìn)一步分析差異原因。2.評(píng)估指標(biāo):首先,關(guān)注各類(lèi)評(píng)論(積極、消極、中性)的數(shù)量和占比,了解整體評(píng)論分布。然后,重點(diǎn)關(guān)注提及產(chǎn)品的評(píng)論在各類(lèi)中的占比。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論