版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
機器學習實操練習題集引言:從理論到實踐的橋梁機器學習的價值源于落地能力——能否將算法思路轉化為可運行的代碼,能否從數(shù)據(jù)中挖掘規(guī)律并解決真實問題。本練習題集覆蓋數(shù)據(jù)預處理、傳統(tǒng)模型、深度學習、綜合實戰(zhàn)四大模塊,通過“場景化問題+階梯式難度”設計,幫助讀者從“能跑通代碼”進階到“能優(yōu)化業(yè)務”。一、數(shù)據(jù)預處理實操題數(shù)據(jù)是模型的“燃料”,預處理的質量直接決定模型上限。本模塊聚焦清洗、編碼、變換三大核心環(huán)節(jié),結合經(jīng)典數(shù)據(jù)集設計實操任務。1.數(shù)據(jù)清洗:缺失值與異常值處理題目1:泰坦尼克號數(shù)據(jù)集的缺失值分析與填充給定泰坦尼克號乘客數(shù)據(jù)集(含`Age`、`Cabin`、`Embarked`等字段缺失),完成以下操作:分析各字段缺失比例(如`Cabin`缺失率超70%)及業(yè)務原因(底層乘客無艙位記錄);對`Age`字段,分別用均值填充、中位數(shù)填充、隨機森林回歸填充(以`Pclass`、`SibSp`等非缺失特征為輸入),可視化填充后`Age`的分布差異;對`Cabin`字段,用`'Unknown'`標記缺失并提取艙位首字母(如`Cabin`為`C123`則提取`C`),作為新特征;對`Embarked`字段,用最頻繁值填充后,結合`Fare`和`Pclass`驗證登船港口的分布合理性。題目2:波士頓房價數(shù)據(jù)集的異常值修正波士頓房價數(shù)據(jù)集包含`RM`(房間數(shù))、`LSTAT`(低收入比例)、`MEDV`(房價)等特征,完成:用箱線圖和Z-score法(|Z|>3)識別`RM`、`LSTAT`、`MEDV`的異常值;對`MEDV`的異常值(極高房價),分別用截斷法(替換為第95百分位數(shù))和對數(shù)轉換處理;訓練線性回歸模型預測`MEDV`,比較兩種處理方式對`RMSE`的影響。2.特征工程:編碼與變換題目3:鳶尾花數(shù)據(jù)集的特征優(yōu)化鳶尾花數(shù)據(jù)集含4個數(shù)值特征和1個分類標簽,完成:對標簽做獨熱編碼,觀察維度變化(從1列變?yōu)?列);對數(shù)值特征分別做標準化(`StandardScaler`)和歸一化(`MinMaxScaler`),訓練`KNN`模型(k=5),比較測試集準確率;用PCA降維至2維,可視化數(shù)據(jù)分布(按標簽著色),計算解釋方差占比。二、傳統(tǒng)機器學習模型實操題傳統(tǒng)模型是“理解機器學習本質”的最佳載體。本模塊圍繞分類、回歸、調參設計任務,強化對算法原理的實踐認知。1.分類模型:從邏輯回歸到SVM題目4:信用卡欺詐檢測的邏輯回歸優(yōu)化信用卡交易數(shù)據(jù)集(類別不平衡:欺詐樣本<1%),完成:用SMOTE上采樣少數(shù)類,對比處理前后的類別分布;用L1正則化篩選特征,觀察非零系數(shù)的特征數(shù)量;調整`C`(正則化強度),繪制學習曲線(訓練/驗證準確率隨`C`的變化),選擇最優(yōu)`C`;計算測試集的精確率、召回率、F1-score,分析欺詐場景下指標的業(yè)務意義(如召回率低會導致漏檢)。題目5:鳶尾花分類的模型對比用鳶尾花數(shù)據(jù)集,分別訓練邏輯回歸、決策樹、隨機森林、SVM(RBF核),完成:用`StratifiedKFold`(5折)交叉驗證,記錄`AUC-ROC`和`F1-score`;繪制ROC曲線(同一圖中),分析模型的“分類邊界”差異(如SVM的非線性邊界);對決策樹模型,可視化樹結構(用`graphviz`),解釋特征分裂的邏輯(如花瓣寬度是核心分類依據(jù))。2.回歸模型:從線性回歸到隨機森林題目6:自行車租賃量的隨機森林預測自行車共享數(shù)據(jù)集(含日期、溫度、濕度等特征),完成:提取時間特征(星期幾、是否周末、季節(jié));訓練隨機森林回歸模型(`n_estimators=100`,`max_depth=10`),輸出特征重要性(前5名);用網(wǎng)格搜索優(yōu)化`max_depth`(5~15)和`min_samples_split`(2~10),對比優(yōu)化前后的`RMSE`;分析特征重要性與業(yè)務邏輯的一致性(如溫度、季節(jié)對租賃量的影響)。三、模型評估與優(yōu)化實操題“模型效果差?90%是評估或調參的問題?!北灸K聚焦評估指標、超參數(shù)優(yōu)化、過擬合解決,提升模型“工業(yè)化能力”。1.多模型評估與業(yè)務分析題目7:糖尿病預測的模型競賽分析糖尿病數(shù)據(jù)集(預測是否患病),完成:訓練邏輯回歸、決策樹、隨機森林、SVM,用5折交叉驗證記錄`AUC-ROC`和`F1-score`;繪制ROC曲線并排序,分析AUC最高模型的優(yōu)勢(如隨機森林的特征交互能力);用混淆矩陣分析誤分類樣本:高BMI但未患病的樣本,是否因“運動習慣”等未采集特征導致?2.超參數(shù)優(yōu)化與模型壓縮題目8:MNIST手寫數(shù)字識別的CNN優(yōu)化用PyTorch搭建CNN(2個卷積層+2個全連接層),完成:用貝葉斯優(yōu)化(`Hyperopt`庫)優(yōu)化`學習率`(0.0001~0.01)、`批量大小`(32~128)、`dropout率`(0~0.5),以驗證集準確率為目標;對比優(yōu)化前后的訓練時間和測試集準確率;用模型剪枝(`torch.nn.utils.prune`)壓縮模型,觀察參數(shù)減少比例與準確率變化。四、深度學習基礎實操題深度學習是“數(shù)據(jù)驅動”的典型代表。本模塊圍繞CNN、LSTM、遷移學習設計任務,強化對“深度模型設計與訓練”的實踐能力。1.卷積神經(jīng)網(wǎng)絡(CNN)實戰(zhàn)題目9:花卉分類的自定義CNN與遷移學習Oxford102Flowers數(shù)據(jù)集(102類花卉,圖像大小不等),完成:用OpenCV預處理:resize到224×224、歸一化、數(shù)據(jù)增強(旋轉/翻轉);搭建自定義CNN(`Conv2D(32,3)→MaxPool→Conv2D(64,3)→MaxPool→Flatten→Dense(128)→Dense(102)`),選擇`categorical_crossentropy`和`Adam`優(yōu)化器;訓練模型,繪制訓練/驗證損失曲線,分析過擬合(如驗證損失持續(xù)上升);用VGG16預訓練模型(凍結前10層,替換頂層分類器)重新訓練,對比準確率與訓練時間。2.LSTM文本情感分析題目10:IMDB影評的情感分類IMDB影評數(shù)據(jù)集(5萬條,正負情感),完成:用`Tokenizer`分詞(最大詞匯量5000,序列長度100);搭建LSTM模型(嵌入層→LSTM(128)→Dropout→Dense→Sigmoid),訓練并記錄準確率;用雙向LSTM替換單向LSTM,對比驗證集準確率;分析誤分類案例:模型對“notgood”(否定詞)的預測是否準確?強情感詞(如“excellent”)的識別是否穩(wěn)定?五、綜合實戰(zhàn)項目“實戰(zhàn)是最好的老師?!北灸K提供3個真實場景項目,覆蓋時間序列、計算機視覺、半監(jiān)督學習,強化“全流程解決問題”的能力。項目1:智能家居設備能耗預測(時間序列+多模型融合)背景:某平臺記錄設備類型(空調、冰箱)、使用時長、環(huán)境溫度等,目標是預測日能耗。任務分解:1.數(shù)據(jù)探索:可視化不同設備的能耗分布,分析溫度與能耗的相關性(熱力圖/散點圖);2.特征工程:提取周循環(huán)(星期幾)、月循環(huán)(月份),對溫度分箱(低/中/高);3.模型選擇:用ARIMA(時間序列)、XGBoost(回歸)、LSTM(序列模型)訓練,記錄`MAE`和`RMSE`;4.模型融合:用加權平均(如ARIMA權重0.3,XGBoost權重0.5,LSTM權重0.2)融合結果,對比單模型誤差;5.業(yè)務優(yōu)化:根據(jù)預測結果,給出設備調度建議(如高溫天提前啟動空調,減少峰值能耗)。項目2:工業(yè)質檢缺陷檢測(計算機視覺+半監(jiān)督學習)背景:工廠電路板存在焊點缺陷(虛焊、短路),標注數(shù)據(jù)1000張,未標注數(shù)據(jù)10萬張。任務分解:1.數(shù)據(jù)預處理:用OpenCV檢測并裁剪電路板區(qū)域,resize到統(tǒng)一尺寸;2.半監(jiān)督訓練:用自編碼器預訓練未標注數(shù)據(jù)(提取特征),再用標注數(shù)據(jù)微調分類器(SVM/CNN);3.模型評估:在測試集(500張標注圖)上計算`精確率、召回率、F1-score`,對比全監(jiān)督訓練效果;4.缺陷定位:用Grad-CAM可視化模型關注的缺陷區(qū)域,驗證與人工標注的一致性;5.部署優(yōu)化:轉換為TensorRT格式,測試推理速度(FPS),確保產(chǎn)線實時檢測(FPS>30)。結語:從練習到實戰(zhàn)的進階之路機器學習的核心是“實踐→反思→再實踐”。本練習題集覆蓋從數(shù)據(jù)到部署的全流程,建議:1.優(yōu)先選擇小而精的數(shù)據(jù)集(如Kaggle的Titanic、MNIST)入門,再挑戰(zhàn)復雜項目;2.遇到問題時,結合官方文檔(Scikit-learn、TensorFlow/PyTorch)和社區(qū)資源(StackOverflow、GitHub)分析解決;3.定期復盤代碼,嘗試更簡潔的實現(xiàn)(如Pandas鏈式操作、PyTorch混合精度訓練),提升工程效率。數(shù)據(jù)集推薦:K
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鋼絲pe施工方案(3篇)
- 合理的施工方案(3篇)
- 企業(yè)財務管理與內部控制制度實施指南
- 2025年大學大二(管理學)財務管理綜合測試題及解析
- 2025年大學護理(護理效果測試)試題及答案
- T-CNLIC 0109-2023 綠色設計產(chǎn)品評價技術規(guī)范 涂覆鍍錫或鍍鉻薄鋼板
- 2025年中職旅游服務與管理(導游業(yè)務)試題及答案
- 2025年大學大三(家政學)家庭服務管理基礎階段測試題及答案
- 2025年大學護理(靜脈采血技術)試題及答案
- 2025年大學四年級(網(wǎng)絡工程)網(wǎng)絡技能綜合測試題及答案
- 集團有限公司安全生產(chǎn)責任清單(全員)
- 陜西能源職業(yè)技術學院2026年教師公開招聘備考題庫及答案詳解(奪冠系列)
- 2026屆全國新高考語文沖刺復習:疑問的三種情況作文講評
- 地質鉆探施工方案
- 2026年1月上海市春季高考數(shù)學試題卷(含答案)
- 高壓供電協(xié)議中的合同
- 2026年植物保護(植物檢疫)考題及答案
- 2025年長護險考試試題及答案
- 11837《行政法與行政訴訟法》國家開放大學期末題庫
- 高純水制取工創(chuàng)新應用能力考核試卷含答案
- 四川省德陽市2026屆高三12月第一次診斷考試數(shù)學試卷(含答案)
評論
0/150
提交評論