版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
2025年P(guān)ython機器學(xué)習(xí)專項訓(xùn)練試卷:特征工程解析考試時間:______分鐘總分:______分姓名:______一、選擇題(每題2分,共20分)1.在處理分類特征時,如果某個類別出現(xiàn)的頻率非常低,使用獨熱編碼(One-HotEncoding)可能導(dǎo)致什么問題?A.編碼后的特征維度急劇增加B.模型難以學(xué)習(xí)到該稀有類別的信息C.可能引入噪聲D.以上都是2.對于包含大量類別(例如幾百個)的特征,以下哪種編碼方式通常更合適?A.獨熱編碼B.標(biāo)簽編碼(LabelEncoding)C.二進制編碼(BinaryEncoding)D.目標(biāo)編碼(TargetEncoding)3.在機器學(xué)習(xí)建模前,對數(shù)值型特征進行標(biāo)準(zhǔn)化(Standardization)的主要目的是什么?A.消除缺失值B.將所有特征的均值變?yōu)?C.縮放特征范圍至[0,1],并減少特征間的尺度差異,使基于距離的算法或使用梯度下降的算法表現(xiàn)更穩(wěn)定D.將所有特征轉(zhuǎn)換為分類特征4.以下哪種方法不屬于特征選擇(FeatureSelection)的范疇?A.基于模型的特征選擇(例如使用Lasso回歸系數(shù))B.遞歸特征消除(RecursiveFeatureElimination,RFE)C.基于統(tǒng)計檢驗的特征選擇(例如使用卡方檢驗選擇分類特征)D.特征交互生成5.當(dāng)數(shù)據(jù)集中存在大量缺失值時,以下哪種簡單填充方法可能會引入較大偏差?A.使用特征列的眾數(shù)(Mode)填充類別型特征的缺失值B.使用特征列的均值(Mean)或中位數(shù)(Median)填充數(shù)值型特征的缺失值C.使用常數(shù)(如-1或特定標(biāo)識值)填充缺失值D.使用其他特征通過模型預(yù)測缺失值6.以下哪個庫是Python進行數(shù)據(jù)分析和機器學(xué)習(xí)中最常用的基礎(chǔ)庫之一?A.MatplotlibB.TensorFlowC.PandasD.Seaborn7.在特征工程中,"特征交互"指的是什么?A.對單個特征進行變換,如創(chuàng)建多項式特征B.將多個特征組合在一起,創(chuàng)建新的、能夠捕捉原始特征之間關(guān)系的特征C.選擇出最重要的特征D.對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理8.使用`Scikit-learn`的`Pipeline`主要目的是什么?A.對數(shù)據(jù)進行可視化B.簡化模型訓(xùn)練和評估流程C.實現(xiàn)特征工程步驟(如預(yù)處理和建模)的串聯(lián),保證數(shù)據(jù)流轉(zhuǎn)的一致性,防止數(shù)據(jù)泄露D.自動進行特征選擇9.對于稀疏矩陣(例如大量類別特征經(jīng)過獨熱編碼后),以下哪種編碼方式更節(jié)省內(nèi)存?A.獨熱編碼B.標(biāo)簽編碼C.二進制編碼D.HashingEncoding10.在處理時間序列數(shù)據(jù)時,以下哪個操作是常見的特征工程步驟?A.對非時間特征進行主成分分析(PCA)B.提取日期/時間相關(guān)的特征,如年份、月份、星期幾、小時、是否節(jié)假日等C.對所有特征進行標(biāo)準(zhǔn)化D.使用決策樹進行特征選擇二、簡答題(每題5分,共20分)1.簡述處理數(shù)值型特征中缺失值的不同方法及其適用場景。2.解釋特征縮放(包括標(biāo)準(zhǔn)化和歸一化)的必要性,并說明適用于哪些類型的機器學(xué)習(xí)模型。3.列舉三種常見的類別型特征編碼方法,并簡述其中兩種的主要區(qū)別。4.描述特征工程在機器學(xué)習(xí)工作流程中的大致順序和作用。三、編程題(共30分)假設(shè)你獲得了一份包含以下特征的數(shù)據(jù)集(數(shù)據(jù)已加載到名為`df`的PandasDataFrame中):*`age`(數(shù)值型):年齡*`income`(數(shù)值型):年收入,單位萬元*`gender`(類別型):'Male','Female'*`education`(類別型):'HighSchool','Bachelor','Master','PhD'*`purchased`(目標(biāo)變量,類別型):'Yes','No'*部分?jǐn)?shù)據(jù)存在缺失。請完成以下特征工程任務(wù):1.數(shù)據(jù)清洗(5分):對于`age`特征,使用中位數(shù)填充其缺失值。對于`income`特征,如果缺失值超過30%,則刪除該行數(shù)據(jù)。對于`gender`和`education`特征,使用眾數(shù)填充其缺失值。2.特征編碼(10分):對`gender`特征進行編碼,可以使用適合的方法。對`education`特征進行編碼,并解釋你選擇的方法及其原因。注意保持編碼結(jié)果的一致性(例如,如果選擇有序編碼,需定義明確的順序)。3.特征轉(zhuǎn)換(10分):對`age`和`income`特征進行標(biāo)準(zhǔn)化處理。使用`Scikit-learn`的`Pipeline`和`ColumnTransformer`,將上述步驟(清洗、編碼、轉(zhuǎn)換)組織成一個完整的工作流,能夠應(yīng)用于新的、具有相同結(jié)構(gòu)的、但包含缺失值的數(shù)據(jù)。4.(可選,不計入總分)嘗試基于`age`和`income`創(chuàng)建一個新的特征,例如年齡段或收入水平分類,并簡單說明理由。四、分析題(20分)假設(shè)你需要為一個電商平臺預(yù)測用戶購買某件特定商品的概率。你收集了用戶的歷史行為數(shù)據(jù),包括:瀏覽時長(數(shù)值型)、加入購物車次數(shù)(數(shù)值型)、歷史購買該商品次數(shù)(數(shù)值型)、用戶年齡段(類別型:'18-24','25-34','35-44','45+')、是否為會員(類別型:'Yes','No'),以及一些缺失值。請設(shè)計一個特征工程方案,包括至少三個主要步驟,并詳細說明每個步驟要執(zhí)行的操作、原因以及可能使用的工具/方法。你的目標(biāo)是提升后續(xù)機器學(xué)習(xí)模型的預(yù)測準(zhǔn)確率。試卷答案一、選擇題1.D解析思路:獨熱編碼為每個類別創(chuàng)建一個新列,若類別多,維度爆炸嚴(yán)重(A)。對于稀有類別,雖然編碼后有一列,但模型仍能通過該列學(xué)習(xí)其信息(B錯誤)。維度爆炸可能導(dǎo)致計算成本高、過擬合風(fēng)險增加,稀有類別信息可能被稀釋(C部分正確)。因此D最全面。2.C解析思路:獨熱編碼維度極高(A錯誤)。標(biāo)簽編碼對所有類別進行排序編號,可能引入人為的順序關(guān)系,不適合大量類別(B錯誤)。二進制編碼將類別編碼為k位二進制數(shù),有效降低維度,同時保留了類別信息(C正確)。目標(biāo)編碼直接用目標(biāo)變量的統(tǒng)計量替換類別,易導(dǎo)致過擬合(D錯誤)。3.C解析思路:標(biāo)準(zhǔn)化將特征轉(zhuǎn)換為均值為0,標(biāo)準(zhǔn)差為1的分布,主要目的是解決不同特征量綱或取值范圍差異過大問題(正確)?;诰嚯x的算法(如KNN,SVM)和依賴梯度的優(yōu)化算法(如邏輯回歸,神經(jīng)網(wǎng)絡(luò))對特征尺度敏感,標(biāo)準(zhǔn)化有助于這些模型收斂更快、性能更好。4.D解析思路:A,B,C都是直接減少特征數(shù)量或提取重要性的方法,屬于特征選擇。D是創(chuàng)建新特征的方法,屬于特征工程的其他范疇,如特征變換或特征交互。5.B解析思路:均值/中位數(shù)填充適用于數(shù)值分布大致對稱的情況。但如果缺失值并非隨機產(chǎn)生,而是與某些未觀測到的因素相關(guān),用均值/中位數(shù)填充會掩蓋這種關(guān)聯(lián),引入系統(tǒng)性偏差(可能)。眾數(shù)填充適用于類別特征,對數(shù)值特征不適用(A錯誤)。使用常數(shù)填充可能引入極端值或特定標(biāo)識(C錯誤)。模型預(yù)測填充可能更準(zhǔn)確,但也可能引入模型偏差(D錯誤)。但相對而言,均值/中位數(shù)填充在缺失機制未知時引入偏差的風(fēng)險通常被認(rèn)為較大。6.C解析思路:Pandas是Python數(shù)據(jù)處理的核心庫,提供了DataFrame等高效數(shù)據(jù)結(jié)構(gòu),是進行數(shù)據(jù)清洗、轉(zhuǎn)換和特征工程的基礎(chǔ)。Matplotlib和Seaborn是可視化庫。TensorFlow是深度學(xué)習(xí)框架。7.B解析思路:特征交互是指利用原始特征組合生成新的特征,以捕捉特征間可能存在的非線性關(guān)系或交互效應(yīng)。例如,創(chuàng)建"年齡*收入"特征,或"瀏覽時長_購買次數(shù)"組合特征。A是特征變換。C是特征選擇。D是特征縮放。8.C解析思路:`Pipeline`的核心作用是將多個步驟(如預(yù)處理、特征工程、模型訓(xùn)練)封裝成一個單一的可調(diào)參對象,確保數(shù)據(jù)在步驟間傳遞時不會發(fā)生“數(shù)據(jù)泄露”,使流程更清晰、易于調(diào)優(yōu)和復(fù)用。A是可視化功能。B是簡化評估流程的一部分,但不是`Pipeline`的主要目的。D是特征選擇的一種方法。9.D解析思路:HashingEncoding通過哈希函數(shù)將類別映射到固定數(shù)量的列中,對于高基數(shù)類別特征,能顯著降低維度,且內(nèi)存效率高,尤其適合稀疏矩陣。獨熱編碼和標(biāo)簽編碼會為每個類別創(chuàng)建一列,維度隨類別數(shù)線性增長(A,B錯誤)。二進制編碼雖然維度低于獨熱,但高于Hashing(C錯誤)。10.B解析思路:處理時間序列數(shù)據(jù)時,從原始時間戳或日期中提取有信息量的組件(年、月、日、時、星期幾、節(jié)假日等)是常見的特征工程步驟,這些特征可能對預(yù)測目標(biāo)有顯著影響。A、C、D雖然也是特征工程操作,但不是針對時間序列數(shù)據(jù)特有的核心步驟。二、簡答題1.簡述處理數(shù)值型特征中缺失值的不同方法及其適用場景。答:處理數(shù)值型特征缺失值的方法主要有:*刪除:刪除含有缺失值的行(ListwiseDeletion)。適用于缺失比例很小,或缺失隨機且不關(guān)聯(lián)其他特征的情況。*填充:*填充固定值(如0或-1)。適用于知道缺失代表特定含義,或數(shù)據(jù)中大部分缺失值是同一種情況。*填充均值/中位數(shù)/眾數(shù)(對于非時間序列數(shù)據(jù)的數(shù)值特征)。適用于特征分布大致對稱,缺失隨機,且特征變化范圍不大。*插值方法(如線性插值、多項式插值)。適用于數(shù)據(jù)有某種趨勢或模式,或缺失值相鄰。*使用其他特征通過模型預(yù)測缺失值(模型預(yù)測填充)。適用于缺失值與非缺失值之間存在明顯關(guān)聯(lián),或缺失并非隨機。適用場景需根據(jù)缺失機制、數(shù)據(jù)特性、缺失比例和后續(xù)模型要求綜合判斷。2.解釋特征縮放(包括標(biāo)準(zhǔn)化和歸一化)的必要性,并說明適用于哪些類型的機器學(xué)習(xí)模型。答:特征縮放的必要性主要在于:*消除量綱影響:不同特征原始單位或數(shù)值范圍差異大,可能導(dǎo)致模型訓(xùn)練時某些特征權(quán)重過大,影響模型性能和收斂速度。*統(tǒng)一尺度:使所有特征處于相似的范圍,對于依賴距離計算的模型(如K-近鄰(KNN)、支持向量機(SVM))或基于梯度下降優(yōu)化的模型(如邏輯回歸、神經(jīng)網(wǎng)絡(luò)),能保證計算公平性,提高模型穩(wěn)定性和效率。標(biāo)準(zhǔn)化(Standardization,Z-scorenormalization)將特征轉(zhuǎn)換為均值為0,標(biāo)準(zhǔn)差為1的分布。歸一化(Normalization,Min-Maxscaling)將特征縮放到[0,1]或[-1,1]區(qū)間。適用于:KNN、SVM、邏輯回歸、神經(jīng)網(wǎng)絡(luò)、線性回歸、嶺回歸、Lasso回歸等。不適用于決策樹及其集成(如隨機森林、梯度提升樹),因為它們不直接依賴特征間的距離或梯度信息。3.列舉三種常見的類別型特征編碼方法,并簡述其中兩種的主要區(qū)別。答:三種常見編碼方法:*標(biāo)簽編碼(LabelEncoding):將每個類別映射到一個整數(shù)。例如,'Red'->0,'Green'->1,'Blue'->2。*獨熱編碼(One-HotEncoding):為每個類別創(chuàng)建一個新的二元(0或1)列。例如,'Red'->[1,0,0],'Green'->[0,1,0],'Blue'->[0,0,1]。*二進制編碼(BinaryEncoding):先進行標(biāo)簽編碼,再將整數(shù)轉(zhuǎn)換為二進制,最后將二進制的每一位拆分成單獨的列。主要區(qū)別:*標(biāo)簽編碼引入了人為的順序關(guān)系(如'Blue'>'Green'>'Red'),不適用于表示類別間無序關(guān)系。獨熱編碼沒有引入順序關(guān)系,適用于大多數(shù)無序類別特征,但可能導(dǎo)致維度爆炸。*獨熱編碼為每個類別創(chuàng)建一列,每個樣本在對應(yīng)列上為1,其余為0。二進制編碼則通過更少的列(比獨熱少)來表示,但需要理解其編碼解碼過程。4.描述特征工程在機器學(xué)習(xí)工作流程中的大致順序和作用。答:特征工程通常按以下順序進行:數(shù)據(jù)理解與探索->數(shù)據(jù)清洗->特征編碼/轉(zhuǎn)換->特征創(chuàng)建(交互、變換)->特征選擇->(模型訓(xùn)練與評估)。作用:特征工程是連接原始數(shù)據(jù)和最終模型性能的關(guān)鍵橋梁。它通過清洗、轉(zhuǎn)換、選擇和創(chuàng)造更有信息量、更有效的特征,提升數(shù)據(jù)質(zhì)量,增強模型的學(xué)習(xí)能力,最終目標(biāo)是構(gòu)建性能更優(yōu)、更魯棒、更具可解釋性的機器學(xué)習(xí)模型。它是模型成功的重要前提。三、編程題(此處因無法執(zhí)行代碼,僅提供代碼框架和思路)```pythonimportpandasaspdfromsklearn.imputeimportSimpleImputerfromsklearn.preprocessingimportStandardScaler,OneHotEncoderfromposeimportColumnTransformer#假設(shè)df是已經(jīng)加載的DataFrame#1.數(shù)據(jù)清洗#處理age缺失值(中位數(shù)填充)age_imputer=SimpleImputer(strategy='median')df['age']=age_imputer.fit_transform(df[['age']]).ravel()#處理income缺失值(>30%刪除行)threshold=len(df)*0.3df=df.dropna(subset=['income'],thresh=threshold)#處理gender和education缺失值(眾數(shù)填充)cat_imputer=SimpleImputer(strategy='most_frequent')df['gender']=cat_imputer.fit_transform(df[['gender']]).ravel()df['education']=cat_imputer.fit_transform(df[['education']]).ravel()#2.特征編碼#對gender編碼(例如使用OneHotEncoder或LabelEncoder)#選擇OneHotEncoder因為其無序gender_encoder=OneHotEncoder(sparse_output=False,handle_unknown='ignore')gender_encoded=gender_encoder.fit_transform(df[['gender']])#創(chuàng)建新列名gender_feature_names=gender_encoder.get_feature_names_out(['gender'])#添加到DataFramedf=pd.concat([df,pd.DataFrame(gender_encoded,columns=gender_feature_names,index=df.index)],axis=1)#刪除原gender列df.drop('gender',axis=1,inplace=True)#對education編碼(例如使用OrdinalEncoder或OneHotEncoder)#假設(shè)'HighSchool'<'Bachelor'<'Master'<'PhD'(需要確認(rèn)是否有此隱含順序)#如果確定順序,可用OrdinalEncoder#否則,推薦使用OneHotEncodereducation_order=['HighSchool','Bachelor','Master','PhD']#確認(rèn)此順序是否正確education_encoder=OneHotEncoder(sparse_output=False,categories=[education_order],handle_unknown='ignore')education_encoded=education_encoder.fit_transform(df[['education']])education_feature_names=education_encoder.get_feature_names_out(['education'])df=pd.concat([df,pd.DataFrame(education_encoded,columns=education_feature_names,index=df.index)],axis=1)df.drop('education',axis=1,inplace=True)#3.特征轉(zhuǎn)換#對age和income進行標(biāo)準(zhǔn)化scaler=StandardScaler()df[['age','income']]=scaler.fit_transform(df[['age','income']])#構(gòu)建Pipeline和ColumnTransformer#定義數(shù)值型和類別型特征列(根據(jù)實際DataFrame列名調(diào)整)num_features=['age','income']#假設(shè)age,income經(jīng)過標(biāo)準(zhǔn)化后仍用這些名cat_features=list(gender_feature_names)+list(education_feature_names)#創(chuàng)建預(yù)處理流程preprocessor=ColumnTransformer(transformers=[('num',scaler,num_features),#對數(shù)值型特征應(yīng)用StandardScaler('cat',gender_encoder,cat_features)#對類別型特征應(yīng)用OneHotEncoder(這里復(fù)用gender_encoder)#注意:education編碼已在前面完成,并已加入df,此處ColumnTransformer不再處理education,#但需要確保education的編碼器和gender的編碼器是相同的實例(如上面定義的gender_encoder)#或者定義一個包含education的單獨transformer并復(fù)用encoder。#簡化起見,這里假設(shè)只對gender應(yīng)用OHE,或前面已處理完所有類別特征。#如果需要同時處理education,應(yīng)添加另一個transformer。])#應(yīng)用preprocessor(例如,df_processed=preprocessor.fit_transform(df[original_feature_columns]))#注意:需要明確original_feature_columns是哪些列#4.(可選)特征創(chuàng)建示例#df['age_group']=pd.cut(df['age'],bins=[18,24,34,44,100],labels=['18-24','25-34','35-44','45+'])#df['high_income
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026廣西旅發(fā)大健康產(chǎn)業(yè)集團有限公司招聘16人參考考試試題及答案解析
- 2026年陜西交通職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試備考題庫含詳細答案解析
- 2026年上海興偉學(xué)院單招綜合素質(zhì)考試備考試題含詳細答案解析
- 2026年山東協(xié)和學(xué)院單招綜合素質(zhì)考試模擬試題含詳細答案解析
- 2026年青海柴達木職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測試備考試題及答案詳細解析
- 2026年甘肅農(nóng)業(yè)職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測試備考試題及答案詳細解析
- 2026年四川大學(xué)錦江學(xué)院單招綜合素質(zhì)考試模擬試題含詳細答案解析
- 2026年昆明衛(wèi)生職業(yè)學(xué)院單招職業(yè)技能考試備考題庫含詳細答案解析
- 2026年江蘇海事職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)考試參考題庫含詳細答案解析
- 2026年石家莊郵電職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試備考題庫含詳細答案解析
- 2026年陜西眉太麟法高速項目招聘(11人)備考題庫及答案1套
- 2026年中國航空傳媒有限責(zé)任公司市場化人才招聘備考題庫帶答案詳解
- 2026年交管12123學(xué)法減分復(fù)習(xí)考試題庫附答案(黃金題型)
- 雷火灸培訓(xùn)課件
- 未來停車新設(shè)施-探索機械式停車設(shè)備市場
- 林木清理施工方案(3篇)
- 護理不良事件防范制度
- 2025年香云紗市場環(huán)境分析
- 數(shù)據(jù)中心設(shè)備部署管理指南
- 《 基本權(quán)利的規(guī)范建構(gòu)》讀書筆記
- 高新技術(shù)企業(yè)專項審計操作手冊
評論
0/150
提交評論