版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
尚硅谷數(shù)據(jù)分析練習(xí)題答案卷b及解析一、選擇題(每題2分,共10題)1.在進(jìn)行數(shù)據(jù)清洗時(shí),以下哪項(xiàng)操作不屬于重復(fù)值的處理方法?A.使用“去重”功能刪除完全相同的記錄B.根據(jù)關(guān)鍵指標(biāo)計(jì)算平均值或中位數(shù)填充缺失值C.通過邏輯判斷篩選出具有相同唯一標(biāo)識(shí)符的記錄D.利用聚類算法識(shí)別并合并高度相似的條目答案:B解析:B選項(xiàng)屬于缺失值處理,A、C、D均涉及重復(fù)值識(shí)別或合并。清洗數(shù)據(jù)時(shí)需嚴(yán)格區(qū)分操作類型,避免混淆。2.以下哪個(gè)指標(biāo)最適合衡量數(shù)據(jù)分布的集中趨勢(shì)?A.標(biāo)準(zhǔn)差(StandardDeviation)B.方差(Variance)C.均值(Mean)D.分位數(shù)(Quantile)答案:C解析:均值是衡量集中趨勢(shì)的核心指標(biāo),標(biāo)準(zhǔn)差和方差反映離散程度,分位數(shù)用于描述分布位置,需根據(jù)分析目標(biāo)選擇。3.在使用Python進(jìn)行數(shù)據(jù)透視時(shí),以下哪個(gè)庫(kù)的pandas方法最常用?A.`groupby()`B.`merge()`C.`concat()`D.`resample()`答案:A解析:`groupby()`通過分組實(shí)現(xiàn)數(shù)據(jù)透視功能,`merge()`用于合并數(shù)據(jù),`concat()`拼接序列,`resample()`針對(duì)時(shí)間序列重采樣,場(chǎng)景不符。4.SQL中,以下哪個(gè)函數(shù)可用于計(jì)算分組后的非重復(fù)條目數(shù)量?A.`SUM()`B.`COUNT(DISTINCT...)`C.`AVG()`D.`MAX()`答案:B解析:`COUNT(DISTINCT...)`統(tǒng)計(jì)唯一值數(shù)量,其他函數(shù)分別用于求和、平均、最大值,需結(jié)合業(yè)務(wù)場(chǎng)景選擇。5.在進(jìn)行異常值檢測(cè)時(shí),以下哪種方法對(duì)數(shù)據(jù)正態(tài)性假設(shè)最為敏感?A.箱線圖(Boxplot)B.Z-score法C.IQR法D.DBSCAN聚類答案:B解析:Z-score基于正態(tài)分布計(jì)算,當(dāng)數(shù)據(jù)偏離正態(tài)性時(shí)結(jié)果偏差較大;IQR和箱線圖不依賴分布假設(shè);DBSCAN為無(wú)監(jiān)督方法。二、判斷題(每題2分,共10題)6.數(shù)據(jù)抽樣時(shí),分層抽樣適用于總體內(nèi)部差異較大的情況。答案:正確解析:分層抽樣通過按類別比例抽取樣本,確保各層代表性,適用于變量分布不均的場(chǎng)景(如地域差異)。7.相比Python,R語(yǔ)言在處理大規(guī)模數(shù)據(jù)時(shí)通常具有更好的性能。答案:錯(cuò)誤解析:Python借助Pandas和Dask等框架已支持超大規(guī)模數(shù)據(jù)處理,R在統(tǒng)計(jì)建模方面優(yōu)勢(shì)明顯,但性能非絕對(duì)領(lǐng)先。8.交叉表(Crosstab)主要用于展示分類數(shù)據(jù)的頻數(shù)分布。答案:正確解析:交叉表通過行列維度展示多分類變量的關(guān)系,是探索性分析常用工具(如用戶地域-購(gòu)買行為分析)。9.標(biāo)準(zhǔn)化(Standardization)和歸一化(Normalization)本質(zhì)上完全相同。答案:錯(cuò)誤解析:標(biāo)準(zhǔn)化將數(shù)據(jù)轉(zhuǎn)換為均值為0、方差為1的分布(Z-score);歸一化通常指縮放到[0,1]區(qū)間(Min-Max),應(yīng)用場(chǎng)景不同。10.邏輯回歸模型適用于處理多分類目標(biāo)變量問題。答案:錯(cuò)誤解析:邏輯回歸僅支持二分類,多分類需使用softmax回歸或決策樹等方法。三、簡(jiǎn)答題(每題5分,共5題)11.簡(jiǎn)述數(shù)據(jù)預(yù)處理中缺失值處理的常用方法及其適用場(chǎng)景。答案:-刪除:直接移除含缺失值的記錄(適用于缺失比例極低時(shí));-填充:-均值/中位數(shù)/眾數(shù)(適用于數(shù)值型且分布正態(tài));-分組填充(按類別計(jì)算統(tǒng)計(jì)值填充);-插值法(時(shí)間序列常用);-估算:KNN或模型預(yù)測(cè)缺失值(適用于缺失規(guī)律性強(qiáng)但數(shù)據(jù)量大的情況)。12.解釋數(shù)據(jù)探索性分析(EDA)的核心步驟及其目的。答案:1.描述性統(tǒng)計(jì)(均值、分布、離散度等):了解數(shù)據(jù)基本特征;2.可視化分析(直方圖、箱線圖、散點(diǎn)圖等):發(fā)現(xiàn)異常和模式;3.相關(guān)性分析(相關(guān)系數(shù)矩陣):識(shí)別變量間關(guān)系;4.分組比較:檢驗(yàn)類別變量影響。目的:快速把握數(shù)據(jù)質(zhì)量與潛在規(guī)律,為建模提供依據(jù)。13.列舉三種常見的特征工程方法并說明其作用。答案:-特征組合:如“年齡收入”可反映消費(fèi)能力;-降維:PCA或LDA減少冗余變量,提升模型效率;-交互特征:創(chuàng)建乘積或多項(xiàng)式特征,捕捉非線性關(guān)系。14.在進(jìn)行時(shí)間序列分析時(shí),如何處理季節(jié)性波動(dòng)?答案:-差分法:計(jì)算相鄰周期差值消除趨勢(shì);-拆分:分離年/季/周周期成分;-特征工程:添加季節(jié)虛擬變量;-ARIMA模型:內(nèi)置季節(jié)性參數(shù)(如SARIMA)。15.什么是過擬合?如何通過模型調(diào)優(yōu)緩解過擬合問題?答案:過擬合指模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)極好,但泛化能力差(測(cè)試集誤差顯著增大)。緩解方法:-減少模型復(fù)雜度(如減少樹深度);-正則化(L1/L2懲罰);-增加訓(xùn)練數(shù)據(jù);-早停法(EarlyStopping)。四、操作題(每題10分,共2題)16.假設(shè)你獲取了某電商平臺(tái)2023年1-12月的訂單數(shù)據(jù)(CSV格式),要求完成以下任務(wù):(1)清洗數(shù)據(jù):刪除訂單狀態(tài)為“已取消”的記錄;(2)分析:計(jì)算每月客單價(jià)(總金額/訂單數(shù)),并繪制折線圖;(3)分組:按用戶城市分組,統(tǒng)計(jì)活躍用戶(購(gòu)買頻次>3次)占比。答案:pythonimportpandasaspdimportmatplotlib.pyplotasplt1.數(shù)據(jù)清洗data=pd.read_csv('orders.csv')data=data[data['status']!='已取消']2.計(jì)算客單價(jià)并繪圖data['month']=pd.to_datetime(data['order_date']).dt.monthmonthly_avg=data.groupby('month')['amount'].mean()monthly_avg.plot(title='月度客單價(jià)趨勢(shì)',xlabel='月份',ylabel='客單價(jià)')plt.show()3.活躍用戶占比user_activity=data.groupby('user_city')['user_id'].transform('count')active_users=data[user_activity>3]city_active_ratio=active_users.groupby('user_city')['user_id'].count()/data.groupby('user_city')['user_id'].count()print(city_active_ratio)17.使用以下SQL查詢訂單表,要求實(shí)現(xiàn):(1)按產(chǎn)品類別分組,統(tǒng)計(jì)訂單總量和金額;(2)篩選出金額最高的前3個(gè)類別,并顯示其訂單占比。答案:sql--1.分組統(tǒng)計(jì)SELECTcategory,COUNT()ASorder_count,SUM(amount)AStotal_amountFROMordersGROUPBYcategory;--2.篩選并計(jì)算占比WITHrankedAS(SELECTcategory,COUNT()ASorder_count,SUM(amount)AStotal_amount,RANK()OVER(ORDERBYSUM(amount)DESC)ASrankFROMordersGROUPBYcateg
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《GA 872-2010防爆球》專題研究報(bào)告
- 企業(yè)設(shè)備管理規(guī)范制度
- 企業(yè)財(cái)務(wù)預(yù)算與審核制度
- 2026湖北省定向湖南大學(xué)選調(diào)生招錄參考題庫(kù)附答案
- 2026湖南益陽(yáng)沅江市衛(wèi)生事業(yè)單位編外臨聘人員招聘9人備考題庫(kù)附答案
- 2026福建省面向北京師范大學(xué)選調(diào)生選拔工作參考題庫(kù)附答案
- 公共交通智能調(diào)度管理制度
- 2026貴州黔南州長(zhǎng)順縣醫(yī)療集團(tuán)中心醫(yī)院招聘?jìng)浒妇幹迫藛T21人備考題庫(kù)附答案
- 紀(jì)檢監(jiān)察知識(shí)講課課件
- 2026陜西省面向中南大學(xué)招錄選調(diào)生考試備考題庫(kù)附答案
- 2025年公民素質(zhì)養(yǎng)成知識(shí)考察試題及答案解析
- 老年人營(yíng)養(yǎng)和飲食
- 《關(guān)鍵軟硬件自主可控產(chǎn)品名錄》
- 2025年濟(jì)南市九年級(jí)中考語(yǔ)文試題卷附答案解析
- 信息安全風(fēng)險(xiǎn)評(píng)估及應(yīng)對(duì)措施
- 紅藍(lán)黃光治療皮膚病臨床應(yīng)用專家共識(shí)(2025版)解讀
- 錄音棚項(xiàng)目可行性研究報(bào)告
- (標(biāo)準(zhǔn))警局賠償協(xié)議書
- GB/T 20921-2025機(jī)器狀態(tài)監(jiān)測(cè)與診斷詞匯
- 人教版英語(yǔ)九年級(jí)全一冊(cè)單詞表
- 護(hù)工培訓(xùn)課件內(nèi)容
評(píng)論
0/150
提交評(píng)論