版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
《商務(wù)數(shù)據(jù)分析》期末考試復(fù)習(xí)題及答案一、單項選擇題(每題2分,共20分)1.以下哪項不屬于商務(wù)數(shù)據(jù)分析的核心目標(biāo)?A.發(fā)現(xiàn)業(yè)務(wù)規(guī)律B.預(yù)測未來趨勢C.替代人工決策D.支持精準(zhǔn)營銷答案:C2.數(shù)據(jù)清洗中處理缺失值的方法不包括?A.直接刪除含缺失值的記錄B.用變量均值填充缺失值C.將缺失值標(biāo)記為特殊類別D.擴(kuò)大樣本量以覆蓋缺失值答案:D3.某電商平臺用戶消費金額的偏度系數(shù)為2.3,說明數(shù)據(jù)分布呈現(xiàn)?A.對稱分布B.左偏(負(fù)偏)C.右偏(正偏)D.均勻分布答案:C(偏度>0為右偏,數(shù)據(jù)右側(cè)有較長尾巴)4.相關(guān)系數(shù)r=0.85表示兩個變量之間?A.無線性相關(guān)關(guān)系B.高度正線性相關(guān)C.高度負(fù)線性相關(guān)D.完全線性相關(guān)答案:B(|r|>0.8為高度相關(guān),r>0為正相關(guān))5.在邏輯回歸模型中,因變量的取值通常是?A.連續(xù)數(shù)值B.二分類(0/1)C.有序類別D.名義類別答案:B6.以下哪種可視化圖表最適合展示某品牌全年各月銷售額的變化趨勢?A.散點圖B.柱狀圖C.折線圖D.餅圖答案:C(折線圖適合展示時間序列的趨勢變化)7.K-means聚類算法的核心步驟是?A.計算數(shù)據(jù)點間的曼哈頓距離B.預(yù)先設(shè)定聚類數(shù)k并迭代優(yōu)化質(zhì)心C.基于樹結(jié)構(gòu)劃分?jǐn)?shù)據(jù)子集D.通過密度閾值識別簇答案:B8.A/B測試的關(guān)鍵是?A.保證兩組樣本量相同B.控制唯一變量差異C.選擇高流量頁面作為測試環(huán)境D.僅比較轉(zhuǎn)化率指標(biāo)答案:B(A/B測試需控制單一變量,其他條件一致)9.數(shù)據(jù)倉庫(DataWarehouse)與數(shù)據(jù)湖(DataLake)的主要區(qū)別是?A.數(shù)據(jù)倉庫存儲結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)湖存儲非結(jié)構(gòu)化數(shù)據(jù)B.數(shù)據(jù)倉庫用于實時分析,數(shù)據(jù)湖用于歷史分析C.數(shù)據(jù)倉庫支持多源數(shù)據(jù)集成,數(shù)據(jù)湖僅支持單源數(shù)據(jù)D.數(shù)據(jù)倉庫的訪問權(quán)限更寬松答案:A(數(shù)據(jù)倉庫以結(jié)構(gòu)化數(shù)據(jù)為主,數(shù)據(jù)湖可存儲多類型數(shù)據(jù))10.某企業(yè)用RFM模型分析客戶價值,其中“M”指的是?A.最近購買時間(Recency)B.購買頻率(Frequency)C.購買金額(Monetary)D.客戶留存率(Retention)答案:C二、判斷題(每題1分,共10分,正確打“√”,錯誤打“×”)1.商務(wù)數(shù)據(jù)分析中,樣本量越大越好,因此無需考慮抽樣方法。(×)(需根據(jù)研究目標(biāo)選擇合適抽樣方法,過大樣本可能增加成本)2.標(biāo)準(zhǔn)差越小,數(shù)據(jù)的離散程度越高。(×)(標(biāo)準(zhǔn)差越小,數(shù)據(jù)越集中)3.混淆矩陣中,“真陽性率(TPR)”等于“召回率(Recall)”。(√)(TPR=TP/(TP+FN)=Recall)4.決策樹模型容易解釋,但對缺失值敏感。(√)(決策樹可可視化展示規(guī)則,但缺失值可能影響劃分)5.熱力圖主要用于展示兩個變量的相關(guān)關(guān)系。(×)(熱力圖適合展示矩陣中不同區(qū)域的數(shù)值大小,如用戶行為熱點)6.時間序列分析中,季節(jié)成分是指數(shù)據(jù)隨時間呈現(xiàn)的周期性波動(周期≤1年)。(√)7.主成分分析(PCA)的目的是降維,同時保留原始數(shù)據(jù)的主要方差。(√)8.在關(guān)聯(lián)規(guī)則分析中,支持度(Support)越高,規(guī)則的實用性越強。(×)(支持度高僅說明頻繁出現(xiàn),需結(jié)合置信度和提升度綜合判斷)9.數(shù)據(jù)可視化的核心是“美觀”,因此應(yīng)優(yōu)先選擇復(fù)雜圖表。(×)(核心是清晰傳遞信息,需根據(jù)數(shù)據(jù)類型選擇合適圖表)10.預(yù)測模型的準(zhǔn)確率(Accuracy)是評價模型性能的唯一指標(biāo)。(×)(需結(jié)合精確率、召回率、F1值等綜合評價)三、簡答題(每題6分,共30分)1.簡述數(shù)據(jù)清洗的主要步驟及常見方法。答案:數(shù)據(jù)清洗的主要步驟包括識別異常值、處理缺失值、糾正數(shù)據(jù)錯誤、統(tǒng)一數(shù)據(jù)格式。常見方法:(1)異常值處理:通過Z-score、IQR(四分位距)識別,可刪除、修正或保留;(2)缺失值處理:刪除記錄、均值/中位數(shù)填充、回歸預(yù)測填充;(3)錯誤糾正:檢查邏輯矛盾(如年齡為-5),通過業(yè)務(wù)規(guī)則修正;(4)格式統(tǒng)一:如將“2023/12/31”與“2023-12-31”統(tǒng)一為標(biāo)準(zhǔn)日期格式。2.說明相關(guān)分析與回歸分析的區(qū)別與聯(lián)系。答案:區(qū)別:(1)相關(guān)分析衡量變量間線性關(guān)聯(lián)程度(用相關(guān)系數(shù)r),不區(qū)分自變量和因變量;(2)回歸分析建立變量間的數(shù)學(xué)模型(如y=ax+b),需明確自變量和因變量,用于預(yù)測。聯(lián)系:均研究變量間的線性關(guān)系,相關(guān)分析是回歸分析的基礎(chǔ)(相關(guān)系數(shù)顯著時,回歸模型才有意義)。3.列舉5種常用的商務(wù)數(shù)據(jù)分析工具,并說明其適用場景。答案:(1)Excel:基礎(chǔ)描述性統(tǒng)計、簡單圖表(如柱狀圖、折線圖),適合小數(shù)據(jù)量;(2)Python(Pandas、Scikit-learn):數(shù)據(jù)清洗、機器學(xué)習(xí)模型(如線性回歸、聚類),適合中大數(shù)據(jù)量;(3)Tableau:交互式可視化(如動態(tài)儀表盤),適合業(yè)務(wù)人員快速分析;(4)SQL:數(shù)據(jù)庫查詢與數(shù)據(jù)提?。ㄈ鐝腗ySQL中篩選用戶行為數(shù)據(jù));(5)SPSS:統(tǒng)計檢驗(如t檢驗、方差分析),適合學(xué)術(shù)研究或需要簡化操作的場景。4.簡述K-means聚類算法的基本流程,并說明其優(yōu)缺點。答案:流程:(1)設(shè)定聚類數(shù)k,隨機選擇k個初始質(zhì)心;(2)計算每個數(shù)據(jù)點到質(zhì)心的距離(如歐氏距離),將其分配到最近的簇;(3)重新計算各簇的質(zhì)心;(4)重復(fù)步驟(2)-(3)直至質(zhì)心不再變化或達(dá)到迭代次數(shù)。優(yōu)點:計算效率高,適合大數(shù)據(jù)量;結(jié)果易解釋。缺點:需預(yù)先設(shè)定k值;對初始質(zhì)心敏感,可能陷入局部最優(yōu);對非凸形狀的簇劃分效果差。5.解釋A/B測試的核心思想,并說明實施A/B測試的關(guān)鍵步驟。答案:核心思想:通過控制單一變量,比較兩個版本(A版與B版)在相同條件下的表現(xiàn),判斷哪個版本更優(yōu)。關(guān)鍵步驟:(1)明確測試目標(biāo)(如提升轉(zhuǎn)化率);(2)定義核心指標(biāo)(如轉(zhuǎn)化率、點擊量);(3)劃分實驗組(B版)與對照組(A版),確保樣本隨機且同質(zhì);(4)收集數(shù)據(jù)并進(jìn)行統(tǒng)計檢驗(如t檢驗);(5)分析結(jié)果,確定是否推廣最優(yōu)版本。四、計算題(每題10分,共30分)1.某零售企業(yè)2023年1-6月銷售額(單位:萬元)如下:32、35、38、42、45、48。(1)計算銷售額的均值、中位數(shù)和標(biāo)準(zhǔn)差(保留2位小數(shù));(2)判斷數(shù)據(jù)分布的偏態(tài)(提示:用均值與中位數(shù)的關(guān)系)。答案:(1)均值=(32+35+38+42+45+48)/6=240/6=40萬元;中位數(shù):排序后為32、35、38、42、45、48,中間兩個數(shù)為38和42,中位數(shù)=(38+42)/2=40萬元;標(biāo)準(zhǔn)差:先計算方差,各數(shù)據(jù)與均值的差的平方和:(32-40)2=64,(35-40)2=25,(38-40)2=4,(42-40)2=4,(45-40)2=25,(48-40)2=64;平方和=64+25+4+4+25+64=186;方差=186/(6-1)=37.2(樣本方差);標(biāo)準(zhǔn)差=√37.2≈6.10萬元。(2)均值=中位數(shù)=40,數(shù)據(jù)分布近似對稱。2.某電商平臺收集了10個用戶的廣告點擊次數(shù)(x)與購買金額(y,單位:元)數(shù)據(jù),經(jīng)計算得:∑x=50,∑y=2000,∑xy=11000,∑x2=300,n=10。(1)計算相關(guān)系數(shù)r,并判斷相關(guān)程度;(2)建立線性回歸方程y=a+bx,并解釋b的經(jīng)濟(jì)意義。答案:(1)相關(guān)系數(shù)r公式:r=[n∑xy-∑x∑y]/√[n∑x2-(∑x)2][n∑y2-(∑y)2]需先計算∑y2:題目未直接給出,但可通過已知條件簡化。不過,也可通過協(xié)方差與標(biāo)準(zhǔn)差的比值計算:均值x?=50/10=5,?=2000/10=200;協(xié)方差Cov(x,y)=[∑(xi-x?)(yi-?)]/(n-1)=[∑xy-nx??]/(n-1)=[11000-10×5×200]/9=(11000-10000)/9=1000/9≈111.11;x的樣本標(biāo)準(zhǔn)差Sx=√[∑x2/n-(x?)2]=√[300/10-25]=√(30-25)=√5≈2.236;y的樣本標(biāo)準(zhǔn)差Sy需計算∑y2:由∑(yi-?)2=∑y2-n?2→∑y2=∑(yi-?)2+n?2,但題目未給∑(yi-?)2,需換用另一種方式。實際上,相關(guān)系數(shù)也可通過:r=(n∑xy-∑x∑y)/√[(n∑x2-(∑x)2)(n∑y2-(∑y)2)]代入已知值:分子=10×11000-50×2000=110000-100000=10000;分母=√[(10×300-502)(10∑y2-20002)]但缺少∑y2,可能題目假設(shè)數(shù)據(jù)滿足線性關(guān)系,或通過回歸系數(shù)計算。另一種方法:回歸系數(shù)b=(n∑xy-∑x∑y)/(n∑x2-(∑x)2)=(10000)/(3000-2500)=10000/500=20;則r=b×(Sx/Sy),但需Sy。由于題目可能簡化,假設(shè)數(shù)據(jù)完美線性,則r=1,但實際需重新檢查。正確計算:分子=10×11000-50×2000=10000;分母=√[(10×300-502)(10∑y2-20002)]假設(shè)∑y2=(∑y)2/n+(n-1)Sy2,但無法計算。可能題目數(shù)據(jù)設(shè)計為:n∑x2-(∑x)2=10×300-2500=500;n∑y2-(∑y)2=10∑y2-4,000,000;假設(shè)y的方差已知,或題目實際想考察回歸方程,可能相關(guān)系數(shù)計算條件不足,改為直接計算回歸方程。(2)回歸系數(shù)b=(n∑xy-∑x∑y)/(n∑x2-(∑x)2)=(10×11000-50×2000)/(10×300-502)=(110000-100000)/(3000-2500)=10000/500=20;a=?-bx?=200-20×5=200-100=100;回歸方程:y=100+20x;b=20表示廣告點擊次數(shù)每增加1次,購買金額平均增加20元。3.某銀行用K-means算法對10個客戶的“月收入(萬元)”和“信用卡欠款(萬元)”數(shù)據(jù)進(jìn)行聚類,初始質(zhì)心為C1(1.2,0.8)和C2(3.5,2.5),部分客戶數(shù)據(jù)如下:客戶A(1.5,1.0),客戶B(2.8,2.0),客戶C(4.0,3.0)。(1)計算客戶A、B、C到兩個質(zhì)心的歐氏距離;(2)將客戶分配到最近的簇。答案:(1)歐氏距離公式:d=√[(x1-x2)2+(y1-y2)2]客戶A到C1的距離:√[(1.5-1.2)2+(1.0-0.8)2]=√[0.09+0.04]=√0.13≈0.36;客戶A到C2的距離:√[(1.5-3.5)2+(1.0-2.5)2]=√[4+2.25]=√6.25=2.5;客戶B到C1的距離:√[(2.8-1.2)2+(2.0-0.8)2]=√[2.56+1.44]=√4=2;客戶B到C2的距離:√[(2.8-3.5)2+(2.0-2.5)2]=√[0.49+0.25]=√0.74≈0.86;客戶C到C1的距離:√[(4.0-1.2)2+(3.0-0.8)2]=√[7.84+4.84]=√12.68≈3.56;客戶C到C2的距離:√[(4.0-3.5)2+(3.0-2.5)2]=√[0.25+0.25]=√0.5≈0.71;(2)分配結(jié)果:客戶A到C1更近(0.36<2.5),分配到簇1;客戶B到C2更近(0.86<2),分配到簇2;客戶C到C2更近(0.71<3.56),分配到簇2。五、案例分析題(20分)某母嬰電商平臺希望通過數(shù)據(jù)分析優(yōu)化營銷策略,現(xiàn)收集到以下數(shù)據(jù):-用戶基本信息:年齡、地域、購買次數(shù)、最近一次購買時間;-行為數(shù)據(jù):頁面瀏覽時長、加購商品數(shù)、優(yōu)惠券使用情況;-交易數(shù)據(jù):客單價、購買商品類別(奶粉/尿布/玩具等)。請設(shè)計分析方案,回答以下問題:(1)如何識別“高價值用戶”?需用到哪些指標(biāo)和方法?(2)如何分析不同商品類別的銷售關(guān)聯(lián)(如購買奶粉的用戶是否更可能購買尿布)?需用到什么分析方法?(3)若要預(yù)測用戶下一次購買時間,應(yīng)選擇哪種模型?需注意哪些問題?答案:(1)識別高價值用戶:指標(biāo):采用RFM模型(最近購買時間Recency、購買頻率Frequency、購買金額Monetary),結(jié)合平臺業(yè)務(wù)補充指標(biāo)(如客單價、優(yōu)惠券敏感度)。方法:①計算每個用戶的R、F、M值,進(jìn)行標(biāo)準(zhǔn)化處理;②使用K-m
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 頸動脈竇綜合癥的內(nèi)分泌調(diào)節(jié)
- 小學(xué)生防拐騙安全教育課件
- 成人泌尿造口護(hù)理解讀(TCNAS+49─2025)
- VSD負(fù)壓吸引術(shù)的護(hù)理實踐案例
- 2025年標(biāo)準(zhǔn)員之專業(yè)管理實務(wù)考試題庫附完整答案(奪冠)
- 2026年消防條令綱要知識考試題庫附參考答案【輕巧奪冠】
- 2026年一級造價師考試題庫300道含答案
- 2026年勞務(wù)員之勞務(wù)員基礎(chǔ)知識考試題庫200道附答案【綜合題】
- 2026年證券分析師之發(fā)布證券研究報告業(yè)務(wù)考試題庫300道附完整答案(易錯題)
- 硬件組成更明了課件
- 住院病人陪檢流程標(biāo)準(zhǔn)化指南
- 《中餐宴會主題設(shè)計方案》
- 呼吸介入治療進(jìn)修報告
- 暨南大學(xué)《機器學(xué)習(xí)》2021-2022學(xué)年期末試卷
- 紅薯創(chuàng)業(yè)項目計劃書
- DB43 3001-2024 工業(yè)廢水高氯酸鹽污染物排放標(biāo)準(zhǔn)
- 五彩斑斕的世界
- 健美操運動智慧樹知到期末考試答案2024年
- Web設(shè)計與應(yīng)用智慧樹知到期末考試答案2024年
- 中醫(yī)院物業(yè)管理服務(wù)項目招標(biāo)文件
- 營養(yǎng)支持在ICU的應(yīng)用課件
評論
0/150
提交評論