1+X數(shù)據(jù)分析模塊二綜合試題及答案_第1頁
1+X數(shù)據(jù)分析模塊二綜合試題及答案_第2頁
1+X數(shù)據(jù)分析模塊二綜合試題及答案_第3頁
1+X數(shù)據(jù)分析模塊二綜合試題及答案_第4頁
1+X數(shù)據(jù)分析模塊二綜合試題及答案_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1+X數(shù)據(jù)分析模塊二綜合試題及答案一、單項選擇題(每題2分,共20分)1.以下哪種方法最適合處理數(shù)值型數(shù)據(jù)中的異常值?A.直接刪除所有異常值B.用該變量的均值替換C.根據(jù)業(yè)務(wù)邏輯判斷后修正或保留D.用相鄰值的中位數(shù)替換2.在進(jìn)行卡方檢驗時,若期望頻數(shù)小于5的單元格比例超過20%,應(yīng)采取的措施是?A.增加樣本量B.合并類別C.改用t檢驗D.不做處理直接計算3.某電商平臺用戶年齡數(shù)據(jù)的偏度系數(shù)為-1.2,說明數(shù)據(jù)分布為?A.右偏(正偏)B.左偏(負(fù)偏)C.正態(tài)分布D.均勻分布4.以下哪項不屬于數(shù)據(jù)清洗的主要任務(wù)?A.處理缺失值B.轉(zhuǎn)換數(shù)據(jù)格式C.計算相關(guān)系數(shù)D.識別并處理異常值5.在Pandas中,若要將DataFrame的“日期”列從字符串格式(如“2023-10-01”)轉(zhuǎn)換為datetime格式,應(yīng)使用的函數(shù)是?A.pd.to_datetime()B.pd.to_timedelta()C.df.astype('datetime')D.df.convert_dtypes()6.SQL中,若要查詢每個客戶的累計消費(fèi)金額(按消費(fèi)時間排序),應(yīng)使用的窗口函數(shù)是?A.ROW_NUMBER()B.RANK()C.SUM()OVER(PARTITIONBY客戶IDORDERBY消費(fèi)時間)D.AVG()OVER(ORDERBY消費(fèi)時間)7.某數(shù)據(jù)集的峰度系數(shù)為3.5,說明數(shù)據(jù)分布比正態(tài)分布?A.更陡峭(尖峰)B.更平緩(平峰)C.無差異D.無法判斷8.在相關(guān)性分析中,Pearson相關(guān)系數(shù)適用于?A.兩個分類變量B.一個分類變量和一個連續(xù)變量C.兩個連續(xù)變量且線性相關(guān)D.兩個有序分類變量9.若要分析“廣告投入”對“銷售額”的影響,且數(shù)據(jù)存在異方差性,應(yīng)優(yōu)先選擇的回歸模型是?A.普通線性回歸(OLS)B.加權(quán)最小二乘回歸(WLS)C.邏輯回歸D.嶺回歸10.以下哪種可視化圖表最適合展示各地區(qū)銷售額占總銷售額的比例?A.折線圖B.柱狀圖C.散點(diǎn)圖D.餅圖二、判斷題(每題1分,共10分)1.缺失值處理時,若缺失數(shù)據(jù)是隨機(jī)的(MAR),直接刪除缺失行不會影響分析結(jié)果的準(zhǔn)確性。()2.箱線圖中,超過Q3+1.5IQR的值一定是異常值,必須刪除。()3.卡方檢驗的原假設(shè)是“兩個變量獨(dú)立”,若p值小于0.05,則拒絕原假設(shè),認(rèn)為變量相關(guān)。()4.標(biāo)準(zhǔn)化(Z-score)后的數(shù)據(jù)均值為0,標(biāo)準(zhǔn)差為1;歸一化(Min-Max)后的數(shù)據(jù)范圍在[0,1]。()5.在Pandas中,df.groupby('類別').sum()會自動排除非數(shù)值型列。()6.SQL的HAVING子句用于過濾分組前的行,WHERE子句用于過濾分組后的結(jié)果。()7.時間序列數(shù)據(jù)的平穩(wěn)性檢驗可使用ADF檢驗,若p值小于0.05,則拒絕原假設(shè)(存在單位根),認(rèn)為數(shù)據(jù)平穩(wěn)。()8.邏輯回歸的因變量是連續(xù)型變量,線性回歸的因變量是二分類變量。()9.熱力圖(Heatmap)常用于展示多個變量間的相關(guān)系數(shù)矩陣。()10.主成分分析(PCA)的主要目的是降維,保留原始數(shù)據(jù)的大部分方差。()三、簡答題(每題5分,共20分)1.簡述數(shù)據(jù)清洗中處理缺失值的常用方法及其適用場景。2.說明t檢驗與方差分析(ANOVA)的區(qū)別與聯(lián)系。3.解釋混淆矩陣中TP、TN、FP、FN的含義,并寫出準(zhǔn)確率(Accuracy)和召回率(Recall)的計算公式。4.列舉Pandas中用于數(shù)據(jù)合并的4種方法,并說明各自的適用場景。四、SQL操作題(共20分)背景:某電商數(shù)據(jù)庫包含以下3張表:`用戶表(user)`:user_id(用戶ID,主鍵)、gender(性別)、age(年齡)、注冊時間(reg_time)`訂單表(order)`:order_id(訂單ID,主鍵)、user_id(外鍵)、order_time(下單時間)、total_amount(訂單金額)`商品表(product)`:product_id(商品ID,主鍵)、category(商品類別)、price(單價)、庫存(stock)`訂單詳情表(order_detail)`:order_id(外鍵)、product_id(外鍵)、quantity(購買數(shù)量),主鍵(order_id,product_id)要求:根據(jù)以下需求寫出SQL語句。1.(5分)查詢2023年注冊的女性用戶數(shù)量。2.(5分)查詢每個用戶的累計消費(fèi)金額(按user_id分組,顯示user_id和總金額)。3.(5分)查詢2023年訂單中,購買數(shù)量超過10件的商品類別及其總銷量(需關(guān)聯(lián)訂單時間、訂單詳情和商品表)。4.(5分)查詢2023年客單價(總銷售額/訂單數(shù))最高的前10個用戶(客單價保留2位小數(shù))。五、Python數(shù)據(jù)分析題(共30分)背景:某零售公司提供了2023年的銷售數(shù)據(jù)集(sales_data.csv),字段包括:日期(date,格式“YYYY-MM-DD”)、門店ID(store_id)、商品類別(category)、銷售額(sales,單位:元)、客流量(customers)、促銷標(biāo)志(promotion,1=促銷,0=未促銷)。要求:使用Python的Pandas、Matplotlib和Seaborn庫完成以下分析。1.(5分)讀取sales_data.csv文件,查看數(shù)據(jù)基本信息(行數(shù)、列數(shù)、各字段類型、缺失值數(shù)量)。2.(5分)處理缺失值:若“銷售額”缺失,用同門店、同類別商品的日均銷售額填補(bǔ);若“客流量”缺失,用該門店的月均客流量填補(bǔ)(需先提取月份)。3.(5分)計算各門店的月均銷售額,并按降序排序(輸出前5名門店)。4.(5分)繪制2023年各月份總銷售額的折線圖,添加標(biāo)題、坐標(biāo)軸標(biāo)簽,設(shè)置圖例(月份用“1月”“2月”…表示)。5.(5分)分析促銷對銷售額的影響:計算促銷與非促銷期間的平均銷售額,并用t檢驗驗證差異是否顯著(α=0.05),輸出結(jié)論。6.(5分)計算商品類別與銷售額的相關(guān)性(若類別為分類變量,需先進(jìn)行編碼),并繪制熱圖展示。六、綜合分析題(共20分)背景:某銀行想分析客戶流失(churn,1=流失,0=未流失)的影響因素,收集了10000條客戶數(shù)據(jù),字段包括:年齡(age)、性別(gender)、賬戶余額(balance)、月均交易次數(shù)(trans_freq)、是否有信用卡(credit_card,1=是,0=否)、客戶層級(level,A/B/C三級)、月收入(income)。任務(wù):根據(jù)以下步驟完成分析。1.(4分)數(shù)據(jù)預(yù)處理:檢查“年齡”字段是否存在異常值(如負(fù)數(shù)或超過120歲),并處理;將“客戶層級”轉(zhuǎn)換為數(shù)值變量(A=3,B=2,C=1);對“月收入”進(jìn)行標(biāo)準(zhǔn)化(Z-score)處理。2.(4分)描述性統(tǒng)計分析:計算流失客戶與未流失客戶的年齡均值、賬戶余額中位數(shù);統(tǒng)計不同性別、客戶層級的流失率(流失率=流失客戶數(shù)/總客戶數(shù))。3.(4分)可視化分析:繪制年齡與月收入的散點(diǎn)圖,按流失狀態(tài)分組(顏色區(qū)分);繪制各客戶層級的流失率柱狀圖(顯示具體百分比)。4.(4分)假設(shè)檢驗:檢驗流失客戶與未流失客戶的月均交易次數(shù)是否有顯著差異(α=0.05);檢驗客戶層級與流失狀態(tài)是否相關(guān)(需選擇合適的檢驗方法)。5.(4分)建立邏輯回歸模型預(yù)測客戶流失:選擇年齡、賬戶余額、月均交易次數(shù)、是否有信用卡、客戶層級(數(shù)值化后)、標(biāo)準(zhǔn)化后的月收入作為自變量;輸出模型的混淆矩陣和準(zhǔn)確率;解釋模型中“月均交易次數(shù)”系數(shù)的含義。---答案一、單項選擇題1.C2.B3.B4.C5.A6.C7.A8.C9.B10.D二、判斷題1.×(MAR需謹(jǐn)慎刪除,可能導(dǎo)致偏差)2.×(異常值需結(jié)合業(yè)務(wù)判斷)3.√4.√5.√6.×(WHERE過濾行,HAVING過濾分組)7.√8.×(邏輯回歸因變量是二分類,線性回歸是連續(xù))9.√10.√三、簡答題1.常用方法及場景:刪除法:缺失比例低(如<5%)且無規(guī)律;均值/中位數(shù)/眾數(shù)填充:數(shù)值型用均值/中位數(shù)(無極端值),分類型用眾數(shù);插值法(如線性插值):時間序列數(shù)據(jù);模型預(yù)測填充:缺失數(shù)據(jù)與其他變量強(qiáng)相關(guān)時(如用回歸模型預(yù)測缺失值)。2.區(qū)別:t檢驗用于兩組均值比較,ANOVA用于三組及以上;聯(lián)系:均基于正態(tài)分布假設(shè),ANOVA可視為t檢驗的擴(kuò)展,且組間兩兩比較可用t檢驗(需校正)。3.TP(真正例):實際正類預(yù)測為正;TN(真反例):實際反類預(yù)測為反;FP(假正例):實際反類預(yù)測為正;FN(假反例):實際正類預(yù)測為反。準(zhǔn)確率=(TP+TN)/(TP+TN+FP+FN);召回率=TP/(TP+FN)。4.合并方法:merge():按鍵連接(類似SQL的JOIN),適用于多表關(guān)聯(lián);concat():按行或列堆疊,適用于結(jié)構(gòu)相同的表合并;append():行方向追加(已棄用,推薦concat);join():按索引連接,適用于索引對齊的表合并。四、SQL操作題1.`SELECTCOUNT()FROMuserWHEREgender='女'ANDYEAR(reg_time)=2023;`2.`SELECTo.user_id,SUM(o.total_amount)AS總金額FROMorderoGROUPBYo.user_id;`3.```sqlSELECTp.category,SUM(od.quantity)AS總銷量FROMorderoJOINorder_detailodONo.order_id=od.order_idJOINproductpONduct_id=duct_idWHEREYEAR(o.order_time)=2023ANDod.quantity>10GROUPBYp.category;```4.```sqlSELECTo.user_id,ROUND(SUM(o.total_amount)/COUNT(o.order_id),2)AS客單價FROMorderoWHEREYEAR(o.order_time)=2023GROUPBYo.user_idORDERBY客單價DESCLIMIT10;```五、Python數(shù)據(jù)分析題(關(guān)鍵代碼)1.```pythonimportpandasaspddf=pd.read_csv('sales_data.csv')print(f"行數(shù):{df.shape[0]},列數(shù):{df.shape[1]}")print(df.dtypes)print(df.isnull().sum())```2.```python處理銷售額缺失(同門店、同類別日均銷售額)df['date']=pd.to_datetime(df['date'])df['day']=df['date'].dt.dayavg_sales=df.groupby(['store_id','category','day'])['sales'].transform('mean')df['sales']=df['sales'].fillna(avg_sales)處理客流量缺失(門店月均客流量)df['month']=df['date'].dt.monthavg_customers=df.groupby(['store_id','month'])['customers'].transform('mean')df['customers']=df['customers'].fillna(avg_customers)```3.```pythondf['month']=df['date'].dt.monthmonthly_sales=df.groupby(['store_id','month'])['sales'].sum().reset_index()store_avg=monthly_sales.groupby('store_id')['sales'].mean().sort_values(ascending=False).head(5)print(store_avg)```4.```pythonimportmatplotlib.pyplotaspltmonth_total=df.groupby('month')['sales'].sum()plt.plot(month_total.index,month_total.values,marker='o')plt.title('2023年月度總銷售額趨勢')plt.xlabel('月份')plt.ylabel('銷售額(元)')plt.xticks(range(1,13),[f'{i}月'foriinrange(1,13)])plt.legend(['總銷售額'])plt.show()```5.```pythonfromscipyimportstatspromo_sales=df[df['promotion']==1]['sales']non_promo_sales=df[df['promotion']==0]['sales']t_stat,p_value=stats.ttest_ind(promo_sales,non_promo_sales)print(f"促銷平均銷售額:{promo_sales.mean():.2f},非促銷:{non_promo_sales.mean():.2f}")print(f"t檢驗p值:{p_value:.4f}")ifp_value<0.05:print("結(jié)論:促銷對銷售額有顯著影響")else:print("結(jié)論:促銷對銷售額無顯著影響")```6.```pythonimportseabornassns類別編碼(獨(dú)熱編碼)category_encoded=pd.get_dummies(df['category'],prefix='category')df_encoded=pd.concat([df,category_encoded],axis=1)計算相關(guān)性corr=df_encoded[['sales']+list(category_encoded.columns)].corr()繪制熱圖plt.figure(figsize=(10,6))sns.heatmap(corr,annot=True,cmap='coolwarm')plt.title('商品類別與銷售額相關(guān)性熱圖')plt.show()```六、綜合分析題(關(guān)鍵步驟)1.數(shù)據(jù)預(yù)處理:`df=df[(df['age']>0)&(df['age']<=120)]`(刪除異常年齡);`df['level']=df['level'].map({'A':3,'B':2,'C':1})`;`df['income_z']=(df['income']df['income'].mean())/df['income'].std()`。2.描述性統(tǒng)計:流失客戶年齡均值:`df[df['churn']==1]['age'].mean()`;未流失:`df[df['churn']==0]['age'].mean()`;賬戶余額中位數(shù):`df.groupby('churn')['balance'].median()`;流失率計算:`df.groupby(['gender','chur

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論