大數(shù)據(jù)題庫-機(jī)器學(xué)習(xí)練習(xí)測試卷_第1頁
大數(shù)據(jù)題庫-機(jī)器學(xué)習(xí)練習(xí)測試卷_第2頁
大數(shù)據(jù)題庫-機(jī)器學(xué)習(xí)練習(xí)測試卷_第3頁
大數(shù)據(jù)題庫-機(jī)器學(xué)習(xí)練習(xí)測試卷_第4頁
大數(shù)據(jù)題庫-機(jī)器學(xué)習(xí)練習(xí)測試卷_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第頁大數(shù)據(jù)題庫-機(jī)器學(xué)習(xí)練習(xí)測試卷1.機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過程中對某種類型假設(shè)的偏好稱為()。A、訓(xùn)練偏好B、歸納偏好C、分析偏好D、假設(shè)偏好【正確答案】:B2.如果兩個(gè)變量相關(guān),則它們之間的關(guān)系是()。A、一定是線性關(guān)系B、不一定是線性關(guān)系C、一定是非線性關(guān)系D、不一定是非線性關(guān)系【正確答案】:B解析:

相關(guān)不一定是線性關(guān)系,也有可能是非線性相關(guān)。3.下列關(guān)于K均值與DBSCAN比較的說法不正確的是()。A、K均值丟棄被它識(shí)別為噪聲的對象,而DBSCAN一般聚類所有對象B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念C、K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇D、K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會(huì)合并有重疊的簇【正確答案】:A解析:

DBSCAN與K均值都是將每個(gè)對象指派到單個(gè)簇的劃分聚類算法,但K均值一般聚類所有對象,而DBSCAN丟棄被它識(shí)別為噪聲的對象。4.()是二維隨機(jī)變量的分布。A、正態(tài)分布B、二項(xiàng)分布C、邊緣分布D、指數(shù)分布【正確答案】:C解析:

二維隨機(jī)變量的分布有邊緣分布和條件分布。5.機(jī)器學(xué)習(xí)中,基于樣本分布的距離是()。A、馬氏距離B、歐式距離C、曼哈頓距離D、閔可夫斯基距離【正確答案】:A解析:

馬氏距離是基于樣本分布的一種距離。6.緩解過擬合的一個(gè)辦法是允許支持向量機(jī)在一些樣本上出錯(cuò),()形式適合這種方法。A、硬間隔支持向量機(jī)B、軟間隔支持向量機(jī)C、線性核函數(shù)支持向量機(jī)D、多項(xiàng)式核函數(shù)支持向量機(jī)【正確答案】:B解析:

軟間隔允許某些樣本不滿足約束,可緩解過擬合。7.()算法可以用于特征選擇。A、樸素貝葉斯B、感知器C、支持向量機(jī)D、決策樹【正確答案】:D解析:

使用決策樹也可以計(jì)算每個(gè)特征的相對重要性。這些重要性能夠輔助進(jìn)行特征選擇。8.對參數(shù)進(jìn)行L2正則,是機(jī)器學(xué)習(xí)常用的防止過擬合的方法。對參數(shù)做L2正則時(shí),()是對參數(shù)本身做先驗(yàn)分布假設(shè)。A、高斯分布B、拉普拉斯分布C、泊松分布D、均勻分布【正確答案】:A解析:

L2正則假設(shè)參數(shù)的先驗(yàn)分布是高斯分布,可以保證模型的穩(wěn)定性,也就是參數(shù)的值不會(huì)太大或太小。9.某單位運(yùn)用隨機(jī)森林算法思想建立搶修熱點(diǎn)模型,該模型主要預(yù)測下期臺(tái)區(qū)工單數(shù)量,構(gòu)建搶修熱點(diǎn)。模型構(gòu)建步驟如下:①將歷史數(shù)據(jù)進(jìn)行隨機(jī)自助法重抽樣,生成N個(gè)訓(xùn)練樣本集;②將N個(gè)訓(xùn)練樣本集分別做決策樹,生成N棵決策樹;③將N棵決策樹隨機(jī)構(gòu)成隨機(jī)森林;④未來根據(jù)預(yù)測樣本氣候環(huán)境、設(shè)備屬性、設(shè)備工況進(jìn)行隨機(jī)森林決策投票,得出針對該預(yù)測樣本最優(yōu)的決策樹進(jìn)行運(yùn)算,并計(jì)算出最終結(jié)果。則上列模型算法構(gòu)建步驟合理的順序是()。A、①②③④B、①③②④C、④①②③D、④②①③【正確答案】:A10.()是交叉驗(yàn)證法的一種特例。A、自助法B、留一法C、交叉驗(yàn)證法D、錯(cuò)誤率分析【正確答案】:B11.核矩陣是()的。A、沒有規(guī)律B、半正定C、正定D、樣本矩陣【正確答案】:B解析:

只要一個(gè)對稱函數(shù)所對應(yīng)的核矩陣半正定,它就能作為核函數(shù)使用。12.假設(shè)有n組數(shù)據(jù)集,每組數(shù)據(jù)集中x的平均值都是9,x的方差都是11,y的平均值都是7.50,x與y的相關(guān)系數(shù)都是0.816,擬合的線性回歸方程都是

Y=3.00+0.500x。那么這n組數(shù)據(jù)集()。A、一樣B、不一樣C、無法確定是否一樣D、以上都不對【正確答案】:C解析:

只比較平均值、方差、相關(guān)系數(shù)和回歸方程,無法確定數(shù)據(jù)集是否相同,還需比較Anscombe'squartet。13.學(xué)習(xí)率對機(jī)器學(xué)習(xí)模型結(jié)果會(huì)產(chǎn)生影響,通常希望學(xué)習(xí)率()。A、越小越好B、越大越好C、較小而迭代次數(shù)較多D、較大而迭代次數(shù)較小【正確答案】:C14.機(jī)器學(xué)習(xí)中L1正則化和L2正則化的區(qū)別是()。A、使用L1可以得到稀疏的權(quán)值,使用L2可以得到平滑的權(quán)值B、使用Ll可以得到平滑的權(quán)值,使用L2可以得到平滑的權(quán)值C、使用Ll可以得到平滑的權(quán)值,使用L2可以得到稀疏的權(quán)值D、使用L1可以得到稀疏的權(quán)值,使用L2可以得到稀疏的權(quán)值【正確答案】:A解析:

使用L1可以得到稀疏的權(quán)值,使用L2可以得到平滑的權(quán)值。15.已知一組數(shù)據(jù)的協(xié)方差矩陣P,下列關(guān)于主分量的說法錯(cuò)誤的是()。A、主分量分析的最佳準(zhǔn)則是對一組數(shù)據(jù)進(jìn)行按一組正交基分解,在只取相同數(shù)量分量的條件下,以均方誤差計(jì)算截尾誤差最小B、經(jīng)主分量分解后,協(xié)方差矩陣成為對角矩陣C、主分量分析就是K-L變換D、主分量是通過求協(xié)方差矩陣的特征值得到【正確答案】:C解析:

主分量分析的變換矩陣是協(xié)方差矩陣,K-L變換的變換矩陣可以有很多種(二階矩陣、協(xié)方差矩陣、總類內(nèi)離散度矩陣等)。當(dāng)K-L變換矩陣為協(xié)方差矩陣時(shí),等同于PCA。16.如果自變量X和因變量Y之間存在高度的非線性和復(fù)雜關(guān)系,那么樹模型很可能優(yōu)于經(jīng)典回歸方法。則以上說法()。A、正確B、錯(cuò)誤C、無法確定D、模型效果差別不大【正確答案】:A解析:

當(dāng)數(shù)據(jù)非線性時(shí),經(jīng)典回歸模型泛化能力不強(qiáng),而基于樹的模型通常表現(xiàn)更好。17.()算法是分類算法。A、DBSCANB、C4.5C、K-meansD、EM【正確答案】:B解析:

C4.5是分類算法;DBSCAN、K-means、EM是聚類算法。18.聚類算法的性能度量可稱為()。A、密度估計(jì)B、異常檢測C、有效性指標(biāo)D、分布結(jié)構(gòu)【正確答案】:C19.多分類學(xué)習(xí)中,最經(jīng)典的三種拆分策略不包括()。A、一對一B、一對其余C、一對多D、多對多【正確答案】:A解析:

多分類學(xué)習(xí)中,最經(jīng)典的三種拆分策略包括一對多、多對多、一對其余。20.假設(shè)你需要調(diào)整參數(shù)來最小化代價(jià)函數(shù)(costfunction),會(huì)使用()技術(shù)。A、窮舉搜索B、隨機(jī)搜索C、Bayesian優(yōu)化D、以上全是【正確答案】:D21.隨機(jī)森林中的隨機(jī)是指()。A、隨便構(gòu)建樹模B、隨機(jī)選擇一個(gè)樹模型C、隨機(jī)選擇多個(gè)樹模型D、在構(gòu)建每個(gè)樹模型時(shí)隨機(jī)選擇樣本和特征【正確答案】:D解析:

隨機(jī)森林里的隨機(jī)包含的意思是樣本隨機(jī)、特征隨機(jī)、參數(shù)隨機(jī)、模型隨機(jī)(ID3,C4.5)。22.決策樹模型的規(guī)模應(yīng)當(dāng)是()。A、越復(fù)雜越好B、越簡單越好C、適當(dāng)限制其復(fù)雜程度D、盡可能利用所有特征【正確答案】:C解析:

決策樹模型的規(guī)模復(fù)雜可能產(chǎn)生過擬合,因此并非越復(fù)雜做好,應(yīng)適當(dāng)限制其復(fù)雜程度。23.下列描述中能反映出X和Y之間的強(qiáng)相關(guān)性的是()。A、相關(guān)系數(shù)為0.9B、對于無效假設(shè),β=0的為0.0001C、對于無效假設(shè),β=0的t為30D、以上說法都不對【正確答案】:A解析:

相關(guān)系數(shù)反映了不同變量之間線性相關(guān)程度,取值范圍為[-1,1],值越大表示相關(guān)程度越高。因此,A選項(xiàng)中r=0.9,表示X和Y之間有較強(qiáng)的相關(guān)性。p和t的數(shù)值大小沒有統(tǒng)計(jì)意義,只是將其與某一個(gè)閾值進(jìn)行比對,以得到二選一的結(jié)論。24.如果一個(gè)SVM模型出現(xiàn)欠擬合,那么()能解決這一問題。A、增大懲罰參數(shù)CB、減小懲罰參數(shù)CC、減小核系數(shù)(gamma參數(shù))D、增大核系數(shù)(gamma參數(shù))【正確答案】:A解析:

SVM模型出現(xiàn)欠擬合,表明模型過于簡單,需要提高模型復(fù)雜度。C越大,相應(yīng)的模型越復(fù)雜。25.通過聚集多個(gè)分類器的預(yù)測來提高分類準(zhǔn)確率的技術(shù)稱為()。A、組合B、聚集C、合并D、投票【正確答案】:A26.為了允許支持向量機(jī)在一些樣本上出錯(cuò),引入()的概念。A、軟間隔B、硬間隔C、間隔D、誤差【正確答案】:A27.采樣分析的精確性隨著采樣隨機(jī)性的增加而(),但與樣本數(shù)量的增加關(guān)系不大。A、降低B、不變C、提高D、無關(guān)【正確答案】:C解析:

采樣分析的精確性隨著采樣隨機(jī)性的增加而提高,但與樣本數(shù)量的增加關(guān)系不大。當(dāng)樣本數(shù)量達(dá)到某個(gè)值后,我們從新個(gè)體上得到的信息會(huì)越來越少。28.下列關(guān)于隨機(jī)森林和GBDT的說法正確的是()。A、在隨機(jī)森林的單個(gè)樹中,樹和樹之間是有依賴的,而GBDT中的單個(gè)樹之間是沒有依賴的B、這兩個(gè)模型都使用隨機(jī)特征子集,來生成許多單個(gè)的樹C、我們可以并行地生成GBDT單個(gè)樹,因?yàn)樗鼈冎g是沒有依賴的D、GBDT訓(xùn)練模型的表現(xiàn)總是比隨機(jī)森林好【正確答案】:B解析:

組成隨機(jī)森林的樹可以并行生成;而GBDT只能是串行生成。29.信息熵是度量()的最常用的一種指標(biāo)。A、樣本的個(gè)數(shù)B、樣本的維度C、樣本的純度D、樣本的冗余度【正確答案】:C30.一監(jiān)獄人臉識(shí)別準(zhǔn)入系統(tǒng)用來識(shí)別待進(jìn)入人員的身份,此系統(tǒng)能識(shí)別獄警、小偷、送餐員、其他人員4種不同人員。下列學(xué)習(xí)方法最適合此種應(yīng)用需求的是()。A、二分類問題B、層次聚類問題C、多分類問題D、回歸問題【正確答案】:C解析:

涉及4種人員類別屬于多分類問題。31.下列算法中不屬于外推法的是()。A、移動(dòng)平均法B、回歸分析法C、指數(shù)平滑法D、季節(jié)指數(shù)法【正確答案】:B解析:

外推法(Extrapolation)是根據(jù)過去和現(xiàn)在的發(fā)展趨勢推斷未來的一類方法的總稱,回歸分析法不屬于外推法。32.決策樹中的葉節(jié)點(diǎn)對應(yīng)于決策樹結(jié)果,其他節(jié)點(diǎn)對應(yīng)于()。A、屬性測試B、學(xué)習(xí)測試C、學(xué)習(xí)測試D、分類測試【正確答案】:A解析:

決策樹包含一個(gè)根節(jié)點(diǎn)、若干內(nèi)部節(jié)點(diǎn)和若千葉節(jié)點(diǎn)。葉節(jié)點(diǎn)對應(yīng)于決策結(jié)果,其他每個(gè)節(jié)點(diǎn)則對應(yīng)于一個(gè)屬性測試。33.機(jī)器學(xué)習(xí)中發(fā)生過擬合的主要原因不包括()。A、使用過于復(fù)雜的模型B、數(shù)據(jù)噪聲較大C、訓(xùn)練數(shù)據(jù)少D、訓(xùn)練數(shù)據(jù)充足【正確答案】:D解析:

訓(xùn)練數(shù)據(jù)充足可以降低過擬合。34.在支持向量機(jī)中,軟間隔支持向量機(jī)的目標(biāo)函數(shù)比硬間隔支持向量機(jī)多了一個(gè)()。A、偏置項(xiàng)B、系數(shù)C、松弛變量D、兩種情況的目標(biāo)函數(shù)相同【正確答案】:C35.()先對數(shù)據(jù)集進(jìn)行特征選擇,然后再訓(xùn)練學(xué)習(xí)器。A、過濾式選擇B、包裹式選擇C、稀疏表示D、嵌入式選擇【正確答案】:A36.考慮這么一種情況:一個(gè)對象碰巧與另一個(gè)對象相對接近,但屬于不同的類,因?yàn)檫@兩個(gè)對象一般不會(huì)共享許多近鄰,所以應(yīng)該選擇()的相似度計(jì)算方法。A、平方歐幾里德距離B、余弦距離C、直接相似度D、共享最近鄰【正確答案】:D解析:

SNN相似度通過共享最近鄰的個(gè)數(shù)考慮了對象的環(huán)境,因此可以處理兩個(gè)對象相對接近卻不屬于同一類的情況。37.變量的不確定性越大,相對應(yīng)信息熵的變化是()。A、熵變小B、熵變大C、不變D、以上答案都不正確【正確答案】:B解析:

信息熵(informationentropy)是度量樣本集合純度最常用的一種指標(biāo),信息熵越大,變量的不確定性越大。38.()的系數(shù)沒有封閉形式(closed-form)的解。A、Ridge回歸B、LassoC、Ridge回歸和LassoD、以上答案都不正確【正確答案】:B解析:

Ridge回歸是一般的線性回歸再加上L2正則項(xiàng),它具有封閉形式的解,可以基于最小二乘法求解。39.絕對多數(shù)投票法的基本思想是()。A、對于若干和弱學(xué)習(xí)器的輸出進(jìn)行平均得到最終的預(yù)測輸出B、少數(shù)服從多數(shù),數(shù)量最多的類別為最終的分類類別C、不光要求獲得最高票,還要求票過半數(shù)D、將訓(xùn)練集弱學(xué)習(xí)器的學(xué)習(xí)結(jié)果作為輸入,將訓(xùn)練集的輸出作為輸出,重新訓(xùn)練一個(gè)學(xué)習(xí)器來得到最終結(jié)果【正確答案】:C解析:

絕對多數(shù)投票法:若某標(biāo)記得票過半數(shù),則預(yù)測為該標(biāo)記;否則拒絕預(yù)測。40.可用信息增益來進(jìn)行決策樹的()。A、樹高B、葉子結(jié)點(diǎn)數(shù)C、總結(jié)點(diǎn)數(shù)D、劃分屬性選擇【正確答案】:D41.下列說法錯(cuò)誤的是()。A、當(dāng)目標(biāo)函數(shù)是凸函數(shù)時(shí),梯度下降算法的解一般就是全局最優(yōu)解B、進(jìn)行PCA降維時(shí),需要計(jì)算協(xié)方差矩陣C、沿負(fù)梯度的方向一定是最優(yōu)的方向D、利用拉格朗日函數(shù)能解帶約束的優(yōu)化問題【正確答案】:C解析:

沿負(fù)梯度的方向是函數(shù)值減少最快的方向但不一定就是最優(yōu)方向。42.()是以樣本統(tǒng)計(jì)量作為未知總體參數(shù)的估計(jì)量,并通過對樣本單位的實(shí)際觀察取得樣本數(shù)據(jù),計(jì)算樣本統(tǒng)計(jì)量的取值作為被估計(jì)參數(shù)的估計(jì)值。A、參數(shù)估計(jì)B、邏輯分析C、方差分析D、回歸分析【正確答案】:A解析:

參數(shù)估計(jì)是統(tǒng)計(jì)推斷的一種,根據(jù)從總體中抽取的隨機(jī)樣本來估計(jì)總體分布中未知參數(shù)。43.用決策樹法訓(xùn)練大量數(shù)據(jù)集時(shí),()最節(jié)約時(shí)間。A、增加樹的深度B、增加學(xué)習(xí)率C、減少數(shù)的深度D、減少樹的個(gè)數(shù)【正確答案】:C解析:

減少樹的深度,相當(dāng)于加入了一個(gè)正則化項(xiàng),可以降低模型復(fù)雜度。44.隨薦集成中個(gè)體分類器(相互獨(dú)立)數(shù)目T的增大,集成的錯(cuò)誤率將呈()下降,最終趨向于零。A、指數(shù)級B、對數(shù)級C、線性級D、平方級【正確答案】:A45.假如使用一個(gè)較復(fù)雜的回歸模型來擬合樣本數(shù)據(jù),使用Ridge回歸,調(diào)試正則化參數(shù)入,來降低模型復(fù)雜度。在入較大時(shí),下列關(guān)于偏差(bias)和方差(variance)關(guān)系的說法正確的是()。A、偏差減小,方差減小B、偏差減小,方差增大C、偏差增大,方差減小D、偏差增大,方差增大【正確答案】:C解析:

入較小,偏差減小,方差增大,容易發(fā)生過擬合;入較大,偏差增大,方差減小,容易發(fā)生欠擬合。46.AUC是衡量()模型優(yōu)劣的一種評價(jià)指標(biāo)。A、回歸B、分類C、二分類D、聚類【正確答案】:C47.在k近鄰學(xué)習(xí)算法中,隨著k的增加,上界將逐漸降低,當(dāng)k區(qū)域無窮大時(shí),上界和下界碰到一起,k近鄰法就達(dá)到了()。A、貝葉斯錯(cuò)誤率B、漸進(jìn)錯(cuò)誤率C、最優(yōu)值D、上界【正確答案】:A48.下列關(guān)于Logistic回歸和SVM的描述不正確的是()。A、Logistic回歸本質(zhì)上是一種根據(jù)樣本對權(quán)值進(jìn)行極大似然估計(jì)的方法,用先驗(yàn)概率的乘積代替后驗(yàn)概率B、Logistic回歸的輸出就是樣本屬于正類別的概率C、SVM的目標(biāo)是找到使得訓(xùn)練數(shù)據(jù)盡可能分開且分類間隔最大的超平面,屬于結(jié)構(gòu)風(fēng)險(xiǎn)最小化D、SVM可以通過正則化系數(shù)控制模型的復(fù)雜度,避免過擬合【正確答案】:A解析:

Logistic回歸目標(biāo)函數(shù)是最小化后驗(yàn)概率,Logistic回歸可以用于預(yù)測事件發(fā)生概率的大小,SVM目標(biāo)是結(jié)構(gòu)風(fēng)險(xiǎn)最小化,SVM可以有效避免模型過擬合。49.任何一個(gè)核函數(shù)都隱式地定義了一個(gè)()空間。A、希爾伯特空間B、再生希爾伯特空間C、再生核希爾伯特空間D、歐式空間【正確答案】:C50.使用似然函數(shù)的目的是()。A、求解目標(biāo)函數(shù)B、得到最優(yōu)數(shù)據(jù)樣本C、找到最適合數(shù)據(jù)的參數(shù)D、改變目標(biāo)函數(shù)分布【正確答案】:C解析:

似然估計(jì)是一種確定模型參數(shù)值的方法。確定參數(shù)值的過程,是找到使模型產(chǎn)生真實(shí)觀察數(shù)據(jù)可能性最大的那一組參數(shù)。51.下列不適合使用機(jī)器學(xué)習(xí)方法解決的是()。A、判斷電子郵件是否是垃圾郵件B、判斷給定的圖中是否有環(huán)C、判斷是否給指定用戶辦理信用卡D、對滴滴拼車乘客分簇【正確答案】:B解析:

判斷給定的圖中是否有環(huán)采用深度學(xué)習(xí)。52.主成分分析的優(yōu)化目標(biāo)是一個(gè)()。A、不含約束條件的二次規(guī)劃問題B、含有約束條件的二次規(guī)劃問題C、不含約束條件的線性規(guī)劃問題D、含有約束條件的線性規(guī)劃問題【正確答案】:B53.在多元線性回歸模型中,若某個(gè)解釋變量對其余解釋變量的判定系數(shù)接近于1,則表明模型中存在()。A、異方差B、序列相關(guān)C、多重共線性D、高擬合優(yōu)度【正確答案】:C54.所有預(yù)測模型在廣義上都可稱為一個(gè)或一組()。A、公式B、邏輯C、命題D、規(guī)則【正確答案】:D解析:

在集成學(xué)習(xí)中,對于數(shù)據(jù)型輸出,最常見的結(jié)合策略是平均法。對于分類任務(wù)來說,最常見的結(jié)合策略是投票法。當(dāng)訓(xùn)練數(shù)據(jù)很多時(shí)一種更為強(qiáng)大的結(jié)合策略是學(xué)習(xí)法。55.當(dāng)合適的樣本容量很難確定時(shí),可以使用的抽樣方法是()。A、有放回的簡單隨機(jī)抽樣B、無放回的簡單隨機(jī)抽樣C、分層抽樣D、漸進(jìn)抽樣【正確答案】:D56.如果線性回歸模型中的隨機(jī)誤差存在異方差性,那么參數(shù)的OLS估計(jì)量是()。A、無偏的、有效的B、無偏的、非有效的C、有偏的、有效的D、有偏的、非有效的【正確答案】:B解析:

OLS即普通最小二乘法,由高斯-馬爾可夫定理可知,在給定經(jīng)典線性回歸的假定下,最小二乘估計(jì)量是具有最小方差的線性無偏估計(jì)量。根據(jù)證明過程可知,隨機(jī)誤差中存在異方差性不會(huì)影響其無偏性,而有效性證明中涉及同方差性,即異方差性會(huì)影響參數(shù)OLS估計(jì)量的有效性,得到的參數(shù)估計(jì)量不是有效估計(jì)量。57.回歸方程判定系數(shù)的計(jì)算公式R2=SSR/SST=1-SSE/S1-SSE/SST,對判定系數(shù)描述錯(cuò)誤的是()。A、SSE指殘差平方和B、SSR指總離差平方和C、判定系數(shù)用來衡量回歸方程的擾合優(yōu)度D、判定系數(shù)R2等于相關(guān)系數(shù)的平方【正確答案】:B解析:

SSR指回歸平方和。58.()不屬于聚類性能度量外部指標(biāo)。A、Jaccard系數(shù)B、FM系數(shù)C、Rand指數(shù)DB指數(shù)【正確答案】:D解析:

聚類常用的外部指標(biāo)包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù);聚類常用的內(nèi)部指標(biāo)包括DB指數(shù)、Dunn指數(shù)。59.下列不屬于特征選擇的標(biāo)準(zhǔn)方法的是()。A、嵌入B、過濾C、包裹D、抽樣【正確答案】:D解析:

特征選擇的三種方法分別是過濾式(flter)、包裹式(wrapper)和嵌入式(embedded)。60.基于Bagging的集成學(xué)習(xí)代表算法有()。AdaboostB、GBDTC、XGBOOSTD、隨機(jī)森林【正確答案】:D解析:

基于Boosting的集成學(xué)習(xí)算法的集成學(xué)習(xí)代表算法包含Adaboost、GBDT、XGBOOST,隨機(jī)森林是基于Bagging。61.下列關(guān)于Apriori算法原理的敘述錯(cuò)誤的是()。Apriori算法通常使用先驗(yàn)知識(shí)或者假設(shè)B、如果某個(gè)項(xiàng)集是頻繁的,那么它的所有子集也是頻繁的C、如果一個(gè)項(xiàng)集是非頻繁集,那么它的所有超集也是非頻繁的D、Apriori算法不可以用來發(fā)現(xiàn)頻繁集【正確答案】:D解析:

Apriori算法可以用來發(fā)現(xiàn)頻繁集。62.決策樹中的葉結(jié)點(diǎn)對應(yīng)于()。A、屬性B、樣本C、決策結(jié)果D、標(biāo)簽值【正確答案】:C63.在其他條件不變的前提下,()容易引起機(jī)器學(xué)習(xí)中的過擬合問題。A、增加訓(xùn)練集量B、減少神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點(diǎn)數(shù)C、刪除稀疏的特征D、SVM算法中使用高斯核/RBF核代替線性核【正確答案】:D解析:

神經(jīng)網(wǎng)絡(luò)減少隱藏層節(jié)點(diǎn),就是在減少參數(shù),只會(huì)將訓(xùn)練誤差變高,不會(huì)導(dǎo)致過擬合。D選項(xiàng)中SVM高斯核函數(shù)比線性核函數(shù)模型更復(fù)雜,容易過擬合。64.可用作數(shù)據(jù)挖掘分析中的關(guān)聯(lián)規(guī)則算法有()。A、機(jī)器學(xué)習(xí)、對數(shù)回歸、關(guān)聯(lián)模式B、K均值法、SOM機(jī)器學(xué)習(xí)C、Apriori算法、FP-Tree算法D、RBF機(jī)器學(xué)習(xí)、K均值法、機(jī)器學(xué)習(xí)【正確答案】:C解析:

關(guān)聯(lián)規(guī)則包括Apriori、FP-Tree等算法。65.在邏輯回歸輸出與目標(biāo)對比的情況下,下列評估指標(biāo)不適用的是()。AUC-ROCB、準(zhǔn)確度C、LoglossD、均方誤差【正確答案】:D解析:

LogisticRegression是一個(gè)分類算法,所以它的輸出不能是實(shí)時(shí)值,所以均方誤差不能用于評估它。66.下列關(guān)于降維算法中主成分分析的說法錯(cuò)誤的是()。A、有監(jiān)督算法B、可以指定降維的維度C、基于方差來計(jì)算D、根據(jù)特征值大小來篩選特征【正確答案】:A解析:

主成分分析法屬于無監(jiān)督算法。67.在同歸模型中,()在權(quán)衡欠擬合(under-fitting)和過擬合(over-fitting)中影響最大。A、多項(xiàng)式階數(shù)B、更新權(quán)重w時(shí),使用的是矩陣求逆C、使用常數(shù)項(xiàng)D、使用梯度下降法【正確答案】:A解析:

選擇合適的多項(xiàng)式階數(shù)非常重要。如果階數(shù)過大,模型就會(huì)更加復(fù)雜,容易發(fā)生過擬合;如果階數(shù)較小,模型就會(huì)過于簡單,容易發(fā)生欠擬合。68.留出法直接將數(shù)據(jù)集劃分為()個(gè)互斥的集合。A、一B、二C、三D、四【正確答案】:B解析:

留出法(hold-out)直接將數(shù)據(jù)集D劃分為兩個(gè)互斥的集合,其中一個(gè)集合作為訓(xùn)練集,另一個(gè)作為測試集T。69.隨機(jī)森林是在()上的一個(gè)擴(kuò)展變體。A、BoostingB、AdasBoostC、RFD、Bagging【正確答案】:D70.假設(shè)使用原始的非線性可分版本的Soft-SVM目標(biāo)函數(shù)作為最優(yōu)化對象,則可通過()來保證得到的模型是線性可分離的。A、設(shè)C=C=0B、設(shè)C=1C、設(shè)C正無窮大D、設(shè)C負(fù)無窮大【正確答案】:C解析:

C為分類錯(cuò)誤項(xiàng)的參數(shù),即正則化中的懲罰因子,C越大,邊界越窄,盡可能把更多點(diǎn)正確分類,分類錯(cuò)誤越少。C越小,邊界越寬,分類錯(cuò)誤點(diǎn)的個(gè)數(shù)增加。因此,C正無窮大時(shí),可以實(shí)現(xiàn)沒有分類錯(cuò)誤的點(diǎn),模型線性可分。71.有N個(gè)樣本,一半用于訓(xùn)練,一半用于測試。若N增大,則訓(xùn)練誤差和測試誤差之間的差距會(huì)()。A、增大B、減小C、無法確定D、無明顯變化【正確答案】:B解析:

增加數(shù)據(jù),能夠有效減小過擬合,減小訓(xùn)練樣本誤差和測試樣本誤差之間的差距。72.Apriori算法的核心思想是()。A、通過頻繁項(xiàng)集生成和情節(jié)的向下封閉檢測兩個(gè)階段來挖掘候選集B、通過候選集生成和情節(jié)的向下封閉檢測兩個(gè)階段來挖掘頻繁項(xiàng)集C、數(shù)據(jù)集中包含該項(xiàng)集的數(shù)據(jù)所占數(shù)據(jù)集的比例,度量一個(gè)集合在原始數(shù)據(jù)中出現(xiàn)的頻率D、若某條規(guī)則不滿足最小置信度要求,則該規(guī)則的所有子集也不滿足最小置信度要求【正確答案】:B解析:

Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個(gè)階段來挖掘頻繁項(xiàng)集。73.基于Boosting的集成學(xué)習(xí)代表算法不包含()。AdaboostB、GBDTC、XGBOOSTD、隨機(jī)森林【正確答案】:D解析:

基于Boosting的集成學(xué)習(xí)代表算法包含Adaboost、GBDT、XGBOOST,隨機(jī)森林是基于Bagging的集成學(xué)習(xí)算法。74.AGNES是一種采用()策略的層次聚類算法。A、自頂向下B、自底向上C、自左至右D、自右至左【正確答案】:B75.KNN近鄰算法在()的情況下效果較好。A、樣本較多但典型性不好B、樣本較少但典型性好C、樣本呈團(tuán)狀分布D、樣本呈鏈狀分布【正確答案】:B解析:

KNN算法主要依靠的是周圍的點(diǎn),因此如果樣本過多,則難以區(qū)分,典型性好的容易區(qū)分。樣本都是呈團(tuán)狀分布,KNN就發(fā)揮不出其求近鄰的優(yōu)勢了,整體樣本應(yīng)該具有典型性好,樣本較少,比較適宜。76.若A與B是任意的兩個(gè)事件,且,則可稱事件A與B()。A、等價(jià)B、互不相容C、相互獨(dú)立D、相互對立【正確答案】:C解析:

P(A+B)=P(A)+P(B)P(A+B)=P(A)+P(B)-P(AB若A與B為互斥事件,則有概率加法公式);若A與B不為互斥事件,則有公式);若A與B為相互獨(dú)立事件,則有概率乘法公式FP(AB)=P(A)P(77.已知一個(gè)數(shù)據(jù)集,n為特征數(shù),m為訓(xùn)練樣本數(shù),如果n較小,而且m大小中等(例如n為1~1000,而m為10~10000),則一般選擇()。A、邏輯回歸模型B、不帶核的支持向量機(jī)C、高斯核的支持向量機(jī)D、多項(xiàng)式核的支持向量機(jī)【正確答案】:C解析:

高斯核函數(shù)需要選擇合適的參數(shù)o,適用于少量特征、大量樣本的情況,可以擬合出非常復(fù)雜的非線性決策邊界。78.通常來說,()能夠用來預(yù)測連續(xù)因變量。A、線性回歸B、邏輯回歸C、線性回歸和邏輯回歸D、以上答案都不正確【正確答案】:A解析:

邏輯回歸被用來處理分類問題。79.Relief是為()問題設(shè)計(jì)的。A、二分類B、多分類C、回歸D、降維【正確答案】:A80.下列關(guān)于PCA的說法中:①我們須在使用PCA前標(biāo)準(zhǔn)化數(shù)據(jù);②我們應(yīng)該選擇使得模型有最大variance的主成分;③我們應(yīng)該選擇使得模型有最小variance的主成分;④我們可以使用PCA在低維度上做數(shù)據(jù)可視化。正確的是()。A、①②④B、②④C、③④D、①③【正確答案】:A解析:

須在使用PCA前標(biāo)準(zhǔn)化數(shù)據(jù),應(yīng)選擇使得模型有最大variance的主成分,PCA在低維度上做數(shù)據(jù)可視化。81.()特征選擇是直接把最終將要使用的學(xué)習(xí)器的性能作為特征子集的評價(jià)準(zhǔn)則。A、嵌入式B、過濾式C、包裹式D、一體式【正確答案】:C解析:

包裹式特征選擇直接把最終將要使用的學(xué)習(xí)器的性能作為特征子集的評價(jià)準(zhǔn)則。82.下列可分解為偏差、方差與噪聲之和的是()。A、訓(xùn)練誤差(trainingerror)B、經(jīng)驗(yàn)誤差(empiricalerror)C、均方誤差(meansquarederror)D、泛化誤差(generalizationerror)【正確答案】:D解析:

泛化誤差可分解為偏差、方差與噪聲之和。83.K-means++算法選擇初始sceds的基本思想就是初始的聚類中心之間的相互距離要盡可能的遠(yuǎn)。對以下步驟:①從輸入的數(shù)據(jù)點(diǎn)集合中隨機(jī)選擇一個(gè)點(diǎn)作為第一個(gè)聚類中心;②對于數(shù)據(jù)集中的每一個(gè)點(diǎn)x,計(jì)算它與最近聚類中心(指已選擇的聚類中心)的距離D(x);③選擇一個(gè)新的數(shù)據(jù)點(diǎn)作為新的聚類中心,選擇的原則是D(x)較大的點(diǎn),被選取作為聚類中心的概率較大;④重復(fù)②和③直到k個(gè)聚類中心被選出來;⑤利用這k個(gè)初始的聚類中心米運(yùn)行標(biāo)準(zhǔn)的K-means算法。K-means++算法的正確流程為()。A、②⑤④③①B、①⑤④②③C、①②③④⑤D、④③②①⑤【正確答案】:C解析:

K-means++算法基本流程為:①從輸入的數(shù)據(jù)點(diǎn)集合中隨機(jī)選擇一個(gè)點(diǎn)作為第一個(gè)聚類中心;②對于數(shù)據(jù)集中的每一個(gè)點(diǎn)x,計(jì)算它與最近聚類中心(指已選擇的聚類中心)的距離D(x);③選擇一個(gè)新的數(shù)據(jù)點(diǎn)作為新的聚類中心,選擇的原則是D(x)較大的點(diǎn),被選取作為聚類中心的概率較大;④重復(fù)②和③直到k個(gè)聚類中心被選出來;⑤利用這k個(gè)初始的聚類中心來運(yùn)行標(biāo)準(zhǔn)的K-mcans算法。84.下列關(guān)于層次聚類算法的過程:①不斷重復(fù)直到達(dá)到預(yù)設(shè)的聚類簇?cái)?shù);②不斷合并距離最近的聚類簇;③對初始聚類簇和相應(yīng)的距離矩陣初始化;④對合并得到的聚類簇進(jìn)行更新。正確的執(zhí)行順序?yàn)椋ǎ?。A、①②③④B、①③②④C、③②④①D、③④①②【正確答案】:C解析:

層次聚類算法的過程是對初始聚類簇和相應(yīng)的距離矩陣初始化;不斷合并距離最近的聚類簇;對合并得到的聚類簇進(jìn)行更新;不斷重復(fù)直到達(dá)到預(yù)設(shè)的聚類簇?cái)?shù)。85.()試圖學(xué)得一個(gè)通過屬性的線性組合來進(jìn)行預(yù)測的函數(shù)。A、決策樹B、貝葉斯分類器C、神經(jīng)網(wǎng)絡(luò)D、線性模型【正確答案】:D86.()在劃分屬性時(shí)是在當(dāng)前結(jié)點(diǎn)的屬性集合中選擇一個(gè)最優(yōu)屬性。AdaBoostB、RFC、BaggingD、傳統(tǒng)決策樹【正確答案】:D87.對于SVM分類算法,待分樣本集中的大部分樣本不支持向量,下列說法正確的是()。A、需要將這些樣本全部強(qiáng)制轉(zhuǎn)換為支持向量B、需要將這些樣本中可以轉(zhuǎn)化的樣本轉(zhuǎn)換為支持向量,不能轉(zhuǎn)換的直接刪除C、移去或者減少這些樣本對分類結(jié)果沒有影響D、以上都不對【正確答案】:C解析:

支持向量機(jī)的一個(gè)重要性質(zhì)是訓(xùn)練完成后,大部分的訓(xùn)練樣本都不需保留,最終模型僅與支持向量有關(guān)。88.()是表現(xiàn)數(shù)據(jù)分布對稱性的指標(biāo)。A、斜率B、偏斜度C、偏度D、偏離度【正確答案】:B解析:

偏斜度是對統(tǒng)計(jì)數(shù)據(jù)分布偏斜方向及程度的度量。在偏態(tài)分布中,當(dāng)偏斜度為正值時(shí),分布正偏,即眾數(shù)位于算術(shù)平均數(shù)的左側(cè);當(dāng)偏斜度為負(fù)值時(shí),分布負(fù)偏,即眾數(shù)位于算術(shù)平均數(shù)的右側(cè)。89.在Apriori算法中,候選項(xiàng)集劃分為不同的桶,存放在()中。A、字典B、集合C、Hash樹D、列表【正確答案】:C90.有兩個(gè)樣本點(diǎn),第一個(gè)點(diǎn)為正樣本,它的特征向量是(0,-1);第二個(gè)點(diǎn)為負(fù)樣本,它的特征向量是(2,3)。從這兩個(gè)樣本點(diǎn)組成的訓(xùn)練集構(gòu)建一個(gè)線性SVM分類器的分類面方程是()。A、2x+y=4B、x+2y=5C、x+2y=3D、2x-y=0【正確答案】:C解析:

(-1-3)/(0-2)=-1/2Y=-(1/2)x+c,對于兩個(gè)點(diǎn)來說,最大間隔就是垂直平分線,因此求出垂直平分線即可。斜率是兩點(diǎn)連線的斜率的負(fù)倒數(shù)。即-1,可得,過中點(diǎn)[((0+2)/2,(-1+3)/2)]=(1,1),,可得C=3/2,故方程為x+2y=3。91.當(dāng)訓(xùn)練樣本近似線性可分時(shí),()。A、通過硬間隔最大化,學(xué)習(xí)一個(gè)非線性支持向量機(jī)B、通過軟間隔最大化,學(xué)習(xí)一個(gè)線性支持向量機(jī)C、通過硬間隔最大化,學(xué)習(xí)一個(gè)線性支持向量機(jī)D、通過軟間隔最大化,學(xué)習(xí)一個(gè)非線性支持向量機(jī)【正確答案】:B92.()可在保證訓(xùn)練精度的情況下降低模型的復(fù)雜度。A、正則化系數(shù)無窮大B、正則化系數(shù)幾乎為0C、選擇合適的正則化參數(shù)D、以上答案都不正確【正確答案】:C解析:

選擇合適的正則化參數(shù)可在保證訓(xùn)練精度的情況下降低模型的復(fù)雜度。93.假定訓(xùn)練了一個(gè)線性SVM并推斷出這個(gè)模型出現(xiàn)了欠擬合現(xiàn)象,在下--次訓(xùn)練時(shí),應(yīng)該采取的措施是()。A、增加數(shù)據(jù)點(diǎn)B、減少數(shù)據(jù)點(diǎn)C、增加特征D、減少特征【正確答案】:C解析:

欠擬合是指模型擬合程度不高,數(shù)據(jù)距離擬合曲線較遠(yuǎn),或指模型沒有很好地捕捉到數(shù)據(jù)特征,不能夠很好地?cái)M合數(shù)據(jù)??赏ㄟ^增加特征解決。94.在大型數(shù)據(jù)集上訓(xùn)練決策樹時(shí),為了花費(fèi)更少的時(shí)間來訓(xùn)練這個(gè)模型,下列做法正確的是()。A、增加樹的深度B、增加學(xué)習(xí)率C、減小樹的深度D、減少樹的數(shù)量【正確答案】:C解析:

決策樹深度越深,在訓(xùn)練集上誤差會(huì)越小,準(zhǔn)確率越高。但是容易造成過擬合,而且增加模型的訓(xùn)練時(shí)間。對決策樹進(jìn)行修剪,減小樹的深度,能夠提高模型的訓(xùn)練速度,有效避免過擬合。95.著名的C4.5決策樹算法使用()來選擇最優(yōu)劃分屬性。A、信息增益B、增益率C、基尼指數(shù)D、均值【正確答案】:B96.對分類任務(wù)來說,學(xué)習(xí)器從類別標(biāo)記集合中預(yù)測出一個(gè)標(biāo)記,最常見的結(jié)合策略是()。A、投票法B、平均法C、學(xué)習(xí)法D、排序法【正確答案】:A97.線性判別分析(LDA)從貝葉斯決策理論闡釋,當(dāng)兩類數(shù)據(jù)同先驗(yàn)且滿足()時(shí),LDA達(dá)到最優(yōu)分類。A、高斯分布B、協(xié)方差相等C、高斯分布且協(xié)方差相等D、協(xié)方差不等【正確答案】:C98.檢測一元正態(tài)分布中的離群點(diǎn),屬于異常檢測中的基于()的離群點(diǎn)檢測。A、統(tǒng)計(jì)方法B、鄰近度C、密度D、聚類技術(shù)【正確答案】:A99.下列機(jī)器學(xué)習(xí)算法中,不需要?dú)w一化處理的是()。A、DecisionTreeB、SVMC、K-meansD、LogisticRegression【正確答案】:A解析:

DecisionTree屬于概率模型,不需要?dú)w一化處理;SVM、K-means和LogisticRegression之類的最優(yōu)化問題需要?dú)w一化處理。100.為了觀察測試Y與X之間的線性關(guān)系,若X是連續(xù)變量,則使用()比較適合。A、散點(diǎn)圖B、柱形圖C、直方圖D、以上答案都不正確【正確答案】:A解析:

散點(diǎn)圖反映了兩個(gè)變量之間的相互關(guān)系,在測試Y與X之間的線性關(guān)系時(shí),使用散點(diǎn)圖最為直觀。1.對于主成分分析方法,確定降維后低維空間的維數(shù)d的方法有()。A、由用戶事先指定B、通過在d不同的低維空間中對開銷較小的學(xué)習(xí)器進(jìn)行交叉驗(yàn)證來選取C、可從重構(gòu)的角度設(shè)置一個(gè)重構(gòu)閾值,選取使得特定公式成立的最小值D、隨機(jī)設(shè)置【正確答案】:ABC解析:

降維后低維空間的維數(shù)通常是由用戶事先指定,或通過在d不同的低維空間中對k近鄰分類器(或其他開銷較小的學(xué)習(xí)器)進(jìn)行交叉驗(yàn)證來選取較好的d。還可從重構(gòu)的角度設(shè)置一個(gè)重構(gòu)閾值,選取使得特定公式成立的最小值。2.集成學(xué)習(xí)中增強(qiáng)多樣性的常見做法有()。A、數(shù)據(jù)樣本擾動(dòng)B、輸入屬性擾動(dòng)C、輸出表示擾動(dòng)D、算法參數(shù)擾動(dòng)【正確答案】:ABCD解析:

集成學(xué)習(xí)中增強(qiáng)多樣性的常見做法主要有對數(shù)據(jù)樣本、輸入屬性、輸出表示、算法參數(shù)進(jìn)行擾動(dòng)。3.特征選擇方法有()。AIC赤池信息準(zhǔn)則B、LARS嵌入式特征選擇方法C、LVW包裹式特征選擇方法D、Relief過濾式特征選擇方法【正確答案】:BCD解析:

AIC赤池信息準(zhǔn)則是常用的模型選擇方法。4.下列關(guān)于相關(guān)與線性關(guān)系的說法正確的有()。A、相關(guān)不一定是線性關(guān)系,可能是非線性關(guān)系B、相關(guān)一定是線性關(guān)系,不可能是非線性關(guān)系C、相關(guān)時(shí)若有相關(guān)系數(shù)為0,說明兩個(gè)變量之間不存在線性關(guān)系,仍可能存在非線性關(guān)系D、相關(guān)系數(shù)為0是兩個(gè)變量獨(dú)立的必要不充分條件【正確答案】:ACD解析:

相關(guān)不一定是線性關(guān)系,可能是非線性關(guān)系。5.如果將A、B、C三個(gè)分類器的P-R曲線畫在一個(gè)圖中,其中A、B的P-R曲線可以完全包含住C的P-R曲線,A、B的P-R曲線有交點(diǎn),A、B、C的平衡點(diǎn)分別為0.79、0.66、0.58,則下列說法中正確的有()。A、學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器CB、學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器BC、學(xué)習(xí)器B的性能優(yōu)于學(xué)習(xí)器CD、學(xué)習(xí)器C的性能優(yōu)于學(xué)習(xí)器B【正確答案】:ABC解析:

若一個(gè)學(xué)習(xí)器的P-R曲線被另一個(gè)學(xué)習(xí)器的曲線完全包住,則可斷官后者的性能優(yōu)于前者,如果兩個(gè)學(xué)習(xí)器的P-R曲線發(fā)生了交叉,則可用平衡點(diǎn)度量。6.下列關(guān)于密度聚類的說法錯(cuò)誤的有()。A、DBSCAN是一種著名的密度聚類算法B、密度聚類從樣本數(shù)量的角度來考察樣本之間的可連接性C、密度聚類基于不可連接樣本不斷擴(kuò)展聚類簇,以獲得最終的聚類結(jié)果D、密度直達(dá)關(guān)系通常滿足對稱性【正確答案】:BCD解析:

密度聚類從樣本密度的角度來考察樣本之間的可連接性;密度聚類基于可連接樣本不斷擴(kuò)展聚類簇,以獲得最終的聚類結(jié)果;密度直達(dá)關(guān)系通常不滿足對稱性;密度可達(dá)關(guān)系滿足直遞性,但不滿足對稱性;密度相連關(guān)系滿足對稱性。7.可以幫助解決訓(xùn)練集在特征空間中線性不可分的問題的方法有()。A、硬間隔B、軟間隔C、核函數(shù)D、拉格朗日乘子法【正確答案】:BC解析:

核函數(shù)解決線性不可分的本質(zhì)思想就是把原始的樣本通過核函數(shù)映射到高維空間中,讓樣本在高維特征空間中是線性可分的。軟間隔允許某些樣本不滿足約束,使得樣本在特征空間中不是線性可分。8.下列說法正確的有()。A、條件獨(dú)立性假設(shè)不成立時(shí),樸素貝葉斯分類器仍有可能產(chǎn)生最優(yōu)貝葉斯分類器B、在估計(jì)概率值時(shí)使用的拉普拉斯修正避免了因訓(xùn)練集樣本不充分而導(dǎo)致概率估值為零的問題C、由于馬爾可夫鏈通常很快就能趨于平穩(wěn)分布,因此吉布斯采樣算法的收斂速度很快D、二分類任務(wù)中兩類數(shù)據(jù)滿足高斯分布且方差相同時(shí),線性判別分析產(chǎn)生貝葉斯最優(yōu)分類器【正確答案】:ABD解析:

由于馬爾可夫鏈通常需要很長時(shí)間才能趨于平穩(wěn)分布,因此吉布斯采樣算法的收斂速度較慢。9.做一個(gè)二分類預(yù)測問題,先設(shè)定閾值為0.5,概率不小于0.5的樣本歸入正例類(即1),小于0.5的樣本歸入反例類(即0)。然后,用閾值n((n>0.5.5)重新劃分樣本到正例類和反例類。下列說法正確的有()。A、增加閾值不會(huì)提高召回率B、增加閾值會(huì)提高召回率C、增加閾值不會(huì)降低查準(zhǔn)率D、增加閾值會(huì)降低查準(zhǔn)率【正確答案】:AC解析:

召回率=TP/TP+FN,查準(zhǔn)率=TP/TP+FP。當(dāng)概率固值增加時(shí),TP、FP減少或者持平,TP+FN不變,所以召回率不會(huì)增加。10.決策樹的劃分選擇有()。A、增益系數(shù)B、信息增益C、增益率D、基尼系數(shù)【正確答案】:BCD11.常見的聚類性能度量外部指標(biāo)有()。A、Jaccard系數(shù)B、DB指數(shù)C、FM指數(shù)D、以上答案都正確【正確答案】:AC解析:

聚類常用的外部指標(biāo)包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù)。12.下列關(guān)于特征數(shù)據(jù)歸一化的說法正確的有()。A、特征數(shù)據(jù)歸一化加速梯度下降優(yōu)化的速度B、特征數(shù)據(jù)歸一化有可能提高模型的精度C、線性歸一化適用于特征數(shù)值分化比較大的情況D、概率模型不需要做歸一化處理【正確答案】:ABD解析:

歸一化方法比較適用于數(shù)值比較集中的情況,這種方法的缺陷是如果max和min不穩(wěn)定,很容易使得歸一化結(jié)果不穩(wěn)定,使得后續(xù)使用效果也不穩(wěn)定。實(shí)際使用中可以用經(jīng)驗(yàn)常量值來替代max和min。非線性歸一化經(jīng)常用在數(shù)據(jù)分化比較大的場景,有些數(shù)值很大,有些很小。13.下列可以用來評估線性回歸模型的指標(biāo)有()。A、R-SquaredB、AdjustedR-SquaredC、FStatisticsD、RMSE/MSE/MAE【正確答案】:ABCD解析:

R-Squared、AdjustedR-Squared、FStatistics和RMSE/MSE/MAE指標(biāo)均可以評估線性回歸模型。14.下列對模型性能提高有幫助的有()。A、數(shù)據(jù)預(yù)處理B、特征工程C、機(jī)器學(xué)習(xí)算法D、模型集成【正確答案】:ABCD解析:

數(shù)據(jù)預(yù)處理、特征工程、機(jī)器學(xué)習(xí)算法、模型集成均可提高模型性能。15.下列屬于機(jī)器學(xué)習(xí)生成式模型的有()。A、樸素貝葉斯B、隱馬爾科夫模型C、線性回歸模型D、深度信念網(wǎng)絡(luò)【正確答案】:ABD解析:

機(jī)器學(xué)習(xí)生成式模型包括樸素貝葉斯、隱馬爾科夫模型和深度信念網(wǎng)絡(luò)等。線性回歸屬于判別式模型。16.下列不屬于聚類性能度量內(nèi)部指標(biāo)的有()。A、DB指數(shù)B、Dunn指數(shù)C、Jaccard系數(shù)D、FM系數(shù)【正確答案】:CD解析:

聚類常用的外部指標(biāo)包括Jaccard系數(shù)、FM系數(shù)、Rand指數(shù);聚類常用的內(nèi)部指標(biāo)包括DB指數(shù)、Dunn指數(shù)。17.按照涉及自變量的多少,可以將回歸分析分為()。A、線性回歸分析B、非線性回歸分析C、一元回歸分析D、多元回歸分析【正確答案】:CD解析:

按照涉及自變量的多少,可以將回歸分析分為一元回歸分析和多元回歸分析。18.影響聚類算法效果的主要原因有()。A、特征選取B、模式相似性測度C、分類準(zhǔn)則D、已知類別的樣本質(zhì)量【正確答案】:ABC解析:

聚類算法是無監(jiān)督的學(xué)習(xí)算法,訓(xùn)練樣本的標(biāo)記信息是未知的。19.下列關(guān)于Ridge回歸的說法正確的有()。A、若λ=0,則等價(jià)于一般的線性回歸B、若λ=0,則不等價(jià)于一般的線性回歸C、o+=YD、若,則得到的權(quán)重系數(shù)很小,接近于零E、8+ルF、若,則得到的權(quán)重系數(shù)很大,接近與無窮大【正確答案】:AC解析:

λ=+0Ridge回歸中,若λ=0,則等價(jià)于一般的線性回歸;若,則得到的權(quán)重系數(shù)很小,接近于零。20.針對維數(shù)災(zāi)難,主要采用的降維方法有()。A、多維縮放B、主成分分析C、核化線性降維D、流形學(xué)習(xí)【正確答案】:ABCD21.影響Apriori算法的計(jì)算復(fù)雜度的有()。A、支持度閾值B、項(xiàng)數(shù)(維度)C、事務(wù)數(shù)D、事務(wù)平均寬度【正確答案】:ABCD22.下列方法中適合減少數(shù)據(jù)集中的特征數(shù)即降維的有()。A、使用前向特征選擇方法B、使用后向特征排除方法C、我們先把所有特征都使用,去訓(xùn)練一個(gè)模型,得到測試集上的表現(xiàn)。然后我們?nèi)サ粢粋€(gè)特征,再去訓(xùn)練,用交叉驗(yàn)證看看測試集上的表現(xiàn)。如果表現(xiàn)比原來還要好,我們可以去除這個(gè)特征D、查看相關(guān)性表,去除相關(guān)性最高的一些特征【正確答案】:ABCD解析:

前向特征選擇方法和后向特征排除方法是特征選擇的常用方法。如果前向特征選擇方法和后向特征排除方法在大數(shù)據(jù)上不適用,可以用選項(xiàng)C的方法。用相關(guān)性的度量去刪除多余特征也是一個(gè)可行的方法。23.K均值聚類算法和層次聚類算法在一些方面有重大差異,下列關(guān)于兩種算法的說法正確的有()。A、在K均值聚類算法中,必須在運(yùn)行算法前選定想要的簇的個(gè)數(shù)B、在K均值聚類算法中,可以在運(yùn)行算法后選定想要的簇的個(gè)數(shù)C、在層次聚類算法中,可以在運(yùn)行算法后選定想要的簇的個(gè)數(shù)D、K均值聚類算法所需的計(jì)算量比層次聚類算法小得多【正確答案】:ACD解析:

在K均值聚類算法中,需要在運(yùn)行算法前確定想要的簇的個(gè)數(shù)k。24.特征向量的歸一化方法有()。A、線性函數(shù)轉(zhuǎn)換B、對數(shù)函數(shù)轉(zhuǎn)換C、反余切函數(shù)轉(zhuǎn)換D、減去均值,除以方差【正確答案】:ABCD25.隨機(jī)森林在做數(shù)據(jù)處理方面的優(yōu)勢有()。A、不需要做缺失值處理B、不需要處理噪聲C、不需要做特征選擇D、不需要平衡數(shù)據(jù)集【正確答案】:ACD解析:

理論上隨機(jī)森林不會(huì)產(chǎn)生過擬合現(xiàn)象,但噪聲是不能忽略的,增加樹雖然能夠減小過擬合,但樹的數(shù)目不可能無限增加,沒有辦法完全消除過擬合。26.如果想要訓(xùn)練一個(gè)ML模型,樣本數(shù)量為100萬個(gè),特征維度為5000個(gè),面對如此大數(shù)據(jù),那么有效地訓(xùn)練模型可以采取的措施有()。A、對訓(xùn)練集隨機(jī)采樣,在隨機(jī)采樣的數(shù)據(jù)上建立模型B、嘗試使用在線機(jī)器學(xué)習(xí)算法C、使用PCA算法減少特征維度【正確答案】:ABC解析:

大數(shù)據(jù)可以采用對訓(xùn)練集隨機(jī)采樣,在隨機(jī)采樣的數(shù)據(jù)上建立模型,嘗試使用在線機(jī)器學(xué)習(xí)算法,使用PCA算法減少特征維度。27.下列屬于數(shù)值優(yōu)化算法的有()。A、梯度下降法B、牛頓法C、極大似然法D、邏輯回歸【正確答案】:AB解析:

在機(jī)器學(xué)習(xí)的優(yōu)化問題中,梯度下降法和牛頓法是常用的兩種凸函數(shù)求極值的方法,他們都是為了求得目標(biāo)函數(shù)的近似解。極大似然法是一種應(yīng)用非常廣泛的參數(shù)估計(jì)方法。邏輯回歸是一種廣義的線性回歸分析模型,常用于分類問題。28.()是通過對無標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來進(jìn)行分類的。A、密度估計(jì)B、異常檢測C、線性回歸D、聚類分析【正確答案】:ABD29.下列關(guān)于機(jī)器學(xué)習(xí)的理解正確的有()。A、非監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是要求帶標(biāo)簽的B、監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的區(qū)別在于是否要求樣本數(shù)據(jù)帶標(biāo)簽C、強(qiáng)化學(xué)習(xí)以輸入數(shù)據(jù)作為對模型的反饋D、卷積神經(jīng)網(wǎng)絡(luò)一般用于圖像處理等局部特征相關(guān)的數(shù)據(jù)【正確答案】:BCD解析:

非監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是不要求帶標(biāo)簽的,監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是要求帶標(biāo)簽的。30.一個(gè)監(jiān)督觀測值集合會(huì)被劃分為()。A、訓(xùn)練集B、驗(yàn)證集C、測試集D、預(yù)處理集【正確答案】:ABC解析:

一個(gè)監(jiān)督觀測值集合會(huì)被劃分為訓(xùn)練集、測試集、預(yù)測集。其中測試集來測試學(xué)習(xí)器對新樣本的判別能力,然后以測試集上的測試誤差(testingerror)作為泛化誤差的近似。31.數(shù)據(jù)再利用的意義有()。A、挖掘數(shù)據(jù)的潛在價(jià)值B、提高社會(huì)效益,優(yōu)化社會(huì)管理C、實(shí)現(xiàn)數(shù)據(jù)重組的創(chuàng)新價(jià)值D、優(yōu)化存儲(chǔ)設(shè)備,降低設(shè)備成本【正確答案】:ACD解析:

數(shù)據(jù)的再利用可以挖掘數(shù)據(jù)的潛在價(jià)值、實(shí)現(xiàn)數(shù)據(jù)組重組的創(chuàng)新價(jià)值,并且可以利用數(shù)據(jù)的可拓展性拓展業(yè)務(wù)領(lǐng)域32.如果希望減少數(shù)據(jù)集中的特征數(shù)量,則可以采取的措施有()。A、使用正向選擇法(ForwardSelection)B、使用反向消除法(BackwardElimination)C、逐步選擇消除法(Stepwise)D、計(jì)算不同特征之間的相關(guān)系數(shù),刪去相關(guān)系數(shù)高的特征之一【正確答案】:ABCD解析:

正向選擇法(ForwardSelection)是首先選擇一個(gè)特征,每個(gè)特征都試一遍,選擇對模型準(zhǔn)確率提升最高的那個(gè)特征;然后再在這個(gè)特征基礎(chǔ)上添加另外一個(gè)特征,方法類似,直到模型準(zhǔn)確率不再提示為止。反向消除法(BackwardElimination)是首先包含了所有的特征,然后嘗試刪除每個(gè)特征,最終刪掉對模型準(zhǔn)確率提升最高的一個(gè)特征(如果刪除這個(gè)特征模型準(zhǔn)確率反而增加了,則說明這個(gè)特征是無用特征)。以此類推,直到刪除特征并不能提升模型為止。相對于正向選擇法,反向消除法的優(yōu)點(diǎn)在于其允許-些低貢獻(xiàn)值的特征能夠進(jìn)到模型中去(有時(shí)候低貢獻(xiàn)值的特征能在組合中有更大的貢獻(xiàn)值,而正向選擇法忽略了這種組合的可能性),因此反向消除法能夠避免受一兩個(gè)占主導(dǎo)地位的特征的干擾。另外還有一種特征選擇方法是逐步選擇消除法(Stepwise),該方法結(jié)合上述兩者的方法,新加入一個(gè)特征之后,再嘗試刪去一個(gè)特征,直至達(dá)到某個(gè)預(yù)設(shè)的標(biāo)準(zhǔn)。這種方法的缺點(diǎn)是預(yù)設(shè)的標(biāo)準(zhǔn)不好定,而且容易陷入到過擬合當(dāng)中。除此之外,也可以使用基于相關(guān)性的特征選擇,可以去除多重線性特征。33.下列屬于數(shù)據(jù)挖掘與分析工具的有()。A、TableauB、PythonC、SPSSD、Alteyx【正確答案】:ABCD解析:

常用的數(shù)據(jù)挖掘工具有RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的數(shù)據(jù)分析工具有Tableau、Alteyx、R&Python語言、FineReport、PowerBI。三、(共33題)34.在正則化公式中,入為正則化參數(shù)。下列關(guān)于入的描述正確的有()。A、若正則化參數(shù)入過大,可能會(huì)導(dǎo)致出現(xiàn)欠擬合現(xiàn)象B、若入太大,則梯度下降可能不收斂C、取一個(gè)合理的λ,可以更好地應(yīng)用正則化D、如果令λ很大的話,為了使CostFunction盡可能的小,所有0(不包括0。)都會(huì)在一定程度上減小【正確答案】:ABCD解析:

正則化參數(shù)太小容易產(chǎn)生過擬合,太大容易產(chǎn)生欠擬合。35.下列關(guān)于AUC面積的描述正確的有()。AUC被定義為ROC曲線下與坐標(biāo)軸圍成的面積B、AUC面積的值大于1C、AUC面積的值等于0.5時(shí),真實(shí)性最低,無應(yīng)用價(jià)值D、AUC面積的值越接近1.0,檢測方法真實(shí)性越高【正確答案】:ACD解析:

AUC面積的值不大于1。36.下列可以用于特征降維的方法有()。A、主成分分析PCAB、線性判別分析LDAC、深度學(xué)習(xí)SparseAutoEncoderD、矩陣奇異值分解SVD【正確答案】:ABD37.下列關(guān)于非頻繁模式的說法正確的有()。A、其支持度小于閾值B、都是不讓人感興趣的C、包含負(fù)模式和負(fù)相關(guān)模式D、對異常數(shù)據(jù)項(xiàng)敏感【正確答案】:AD解析:

非頻繁模式是一個(gè)項(xiàng)集或規(guī)則,其支持度小于閾值。絕大部分的頻繁模式不是令人感興趣的,但其中有些分析是有用的,特別是涉及數(shù)據(jù)中的負(fù)相關(guān)時(shí)。非頻繁模式對異常數(shù)據(jù)項(xiàng)敏感。38.下列關(guān)于范數(shù)規(guī)則化的描述正確的有()。A、LO是指向量中0的元素的個(gè)數(shù)B、L1范數(shù)是指向量中各個(gè)元素絕對值之和C、L2范數(shù)向量元素絕對值的平方和再開平方D、LO是指向量中非0的元素的個(gè)數(shù)【正確答案】:BCD解析:

LO是指向量中非0的元素的個(gè)數(shù),Ll范數(shù)是指向量中各個(gè)元素絕對值之和,L2范數(shù)向量元素絕對值的平方和再開平方。39.下列關(guān)于學(xué)習(xí)器結(jié)合的描述正確的有()。A、避免單學(xué)習(xí)器可能因誤選而導(dǎo)致泛化性能不佳B、降低陷入局部極小點(diǎn)的風(fēng)險(xiǎn)C、假設(shè)空間擴(kuò)大有可能學(xué)得更好的近似D、多學(xué)習(xí)器結(jié)合有可能沖突【正確答案】:ABC解析:

學(xué)習(xí)器結(jié)合可能會(huì)從三個(gè)方面帶來好處。從統(tǒng)計(jì)方面來看,由于學(xué)習(xí)任務(wù)的假設(shè)空間往往很大,可能有多個(gè)假設(shè)在訓(xùn)練集上達(dá)到同等性能,此時(shí)若使用單學(xué)習(xí)器可能因誤選而導(dǎo)致泛化性能不佳,結(jié)合多個(gè)學(xué)習(xí)器則會(huì)減小這一風(fēng)險(xiǎn);從計(jì)算方面來看,學(xué)習(xí)算法往往會(huì)陷入局部極小,有的局部極小點(diǎn)所對應(yīng)的泛化性能可能很糟糕。而通過多次運(yùn)行之后進(jìn)行結(jié)合,可降低陷入糟糕局部極小點(diǎn)的風(fēng)險(xiǎn);從表示方面來看,某些學(xué)習(xí)任務(wù)的真實(shí)假設(shè)可能不在當(dāng)前學(xué)習(xí)算法所考慮的假設(shè)空間中,此時(shí)若使用單學(xué)習(xí)器則肯定無效,而通過結(jié)合多個(gè)學(xué)習(xí)器,由于相應(yīng)的假設(shè)空間有所擴(kuò)大,有可能學(xué)得更好的近似。40.下列關(guān)于集成學(xué)習(xí)的說法正確的有()。A、隨機(jī)森林是減少模型的方差,而GBDT是減少模型的偏差B、組成隨機(jī)森林的樹可以并行生成,而GBDT是串行生成C、隨機(jī)森林的結(jié)果是多數(shù)表決的,而GBDT則是多棵樹累加之和D、隨機(jī)森林對異常值不敏感,而GBDT對異常值比較敏感【正確答案】:ABCD解析:

隨機(jī)森林與GBDT之間的區(qū)別:①組成隨機(jī)森林的樹可以是分類樹也可以是回歸樹,而GBDT只由回歸樹組成;②組成隨機(jī)森林的樹可以并行生成,而GBDT是串行生成;③隨機(jī)森林的結(jié)果是多數(shù)表決的,而GBDT則是多棵樹累加之和;④隨機(jī)森林對異常值不敏感,而GBDT對異常值比較敏感;⑤隨機(jī)森林是通過減少模型的方差來提高性能,而GBDT是減少模型的偏差來提高性能的;⑥隨機(jī)森林不需要進(jìn)行數(shù)據(jù)預(yù)處理即特征歸一心而GBDT則需要進(jìn)行特征歸一化。41.常見的回歸分析的種類有()。A、線性回歸B、系數(shù)回歸C、邏輯回歸D、曲線回歸【正確答案】:ACD42.下列關(guān)于神經(jīng)網(wǎng)絡(luò)的說法正確的有()。A、增加網(wǎng)絡(luò)層數(shù),可能會(huì)增加測試集分類錯(cuò)誤率B、增加網(wǎng)絡(luò)層數(shù),一定會(huì)增加訓(xùn)練集分類錯(cuò)誤率C、減少網(wǎng)絡(luò)層數(shù),可能會(huì)減少測試集分類錯(cuò)誤率D、減少網(wǎng)絡(luò)層數(shù),一定會(huì)減少訓(xùn)練集分類錯(cuò)誤率【正確答案】:AC解析:

增加網(wǎng)絡(luò)層數(shù)可能造成訓(xùn)練誤差和測試誤差減小,但神經(jīng)網(wǎng)絡(luò)層數(shù)過多容易造成過擬合、訓(xùn)練誤差小,但是測試誤差很大。43.決策樹在()情況下會(huì)導(dǎo)致遞歸返回。A、當(dāng)前節(jié)點(diǎn)包含的樣本全屬于同一類B、當(dāng)前屬性集為空C、當(dāng)前節(jié)點(diǎn)包含的樣本集合為空D、所有樣本在所有屬性上取值相同【正確答案】:ABCD解析:

決策樹的生成是一個(gè)遞歸過程。在決策樹基本算法中,有三種情形會(huì)導(dǎo)致遞歸返回:①當(dāng)前節(jié)點(diǎn)包含的樣本全屬于同一類別,無須劃分;②當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;③當(dāng)前節(jié)點(diǎn)包含的樣本集合為空,不能劃分。44.在監(jiān)督式學(xué)習(xí)中使用聚類算法的方法有()。A、首先可以創(chuàng)建聚類,然后分別在不同的集群上應(yīng)用監(jiān)督式學(xué)習(xí)算法B、在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,可以將其類別ID作為特征空間中的一個(gè)額外的特征C、在應(yīng)用監(jiān)督式學(xué)習(xí)之前,不能創(chuàng)建聚類D、在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,不能將其類別ID作為特征空間中的一個(gè)額外的特征【正確答案】:AB解析:

我們可以為不同的集群構(gòu)建獨(dú)立的機(jī)器學(xué)習(xí)模型,并且可以提高預(yù)測精度。將每個(gè)類別的ID作為特征空間中的一個(gè)額外的特征可能會(huì)提高的精度結(jié)果。45.聚類性能度量的指標(biāo)主要分為外部指標(biāo)和內(nèi)部指標(biāo),其中屬于內(nèi)部指標(biāo)的是()。A、Jaccard指數(shù)B、FM指數(shù)C、DB指數(shù)Dunn指數(shù)【正確答案】:CD解析:

AB為外部指標(biāo)。46.HighBias(高偏差)的解決方式有()。A、BoostingB、復(fù)雜模型(非線性模型、增加神經(jīng)網(wǎng)絡(luò)中的層)C、更多特征D、以上選項(xiàng)都不正確【正確答案】:ABC解析:

偏差刻畫了學(xué)習(xí)算法本身的擬合能力,高偏差意味著欠擬合,可通過Boosting、復(fù)雜模型(非線性模型、增加神經(jīng)網(wǎng)絡(luò)中的層)、更多特征等方式解決。47.常見的原型聚類算法包括()。A、K均值算法B、學(xué)習(xí)向量量化C、高斯混合聚類D、密度聚類【正確答案】:ABC48.數(shù)據(jù)挖掘的主要功能包括概念描述、趨勢分析、孤立點(diǎn)分析、()等方面。A、關(guān)聯(lián)分析B、分類和預(yù)測分析C、聚類分析D、偏差分析【正確答案】:ABCD49.特征選擇的目的有()。A、減少特征數(shù)量、降維B、使模型泛化能力更強(qiáng)C、增強(qiáng)模型擬合能力D、減少過擬合?!菊_答案】:ABD解析:

特征選擇的主要目的是減少特征的數(shù)量、降低特征維度、使模型泛化能力更強(qiáng)、減少過擬合。50.下列關(guān)于EM算法的描述正確的有()。A、EM算法是常用的估計(jì)參數(shù)隱變量的利器B、EM算法即是期望最大化算法C、EM算法常被用來學(xué)習(xí)高斯混合模型的參數(shù)D、EM算法是一種迭代式的方法【正確答案】:ABCD51.隨機(jī)森林的隨機(jī)性主要體現(xiàn)在()。A、決策樹選擇的隨機(jī)性B、數(shù)據(jù)集的隨機(jī)性C、待選特征的隨機(jī)性D、參數(shù)選擇的隨機(jī)性【正確答案】:BC解析:

隨機(jī)森林算法的隨機(jī)性主要體現(xiàn)在兩個(gè)方面,即子模型的訓(xùn)練樣本是隨機(jī)抽取的、子模型的特征變量也是隨機(jī)抽取的。52.下列關(guān)于LDA判別分析思想的描述正確的有()。A、同類樣例的投影點(diǎn)盡可能近B、異類樣例的投影點(diǎn)盡可能遠(yuǎn)C、同類樣例的投影點(diǎn)盡可能遠(yuǎn)D、異類樣例的投影點(diǎn)盡可能近【正確答案】:AB解析:

LDA的思想非常樸素,即給定訓(xùn)練樣例集,設(shè)法將樣例投影到一條直線上,使得同類樣例的投影點(diǎn)盡可能接近、異類樣例的投影點(diǎn)盡可能遠(yuǎn)離。在對新樣本進(jìn)行分類時(shí),將其投影到同樣的這條直線上,再根據(jù)投影點(diǎn)的位置來確定新樣本的類別。53.下列屬于數(shù)據(jù)挖掘方法的有()。A、聚類B、回歸分析C、神經(jīng)網(wǎng)絡(luò)D、決策樹算法【正確答案】:ABCD解析:

利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)則、特征、變化和偏差分析、Web頁挖掘等。分類方法有決策樹算法、KNN算法(k-nearestneighbor)、SVM算法、VSM算*Bayes算法、神經(jīng)網(wǎng)絡(luò)等。聚類算法有基于密度、基于層次、基于模型、基于網(wǎng)格等。關(guān)聯(lián)規(guī)則算法有Apriori算法、FP-Growth算法。54.關(guān)于特征向量的缺失值處理方式如下:缺失值較多,直接將該特征舍棄掉,否則可能會(huì)帶入較大的noise,對結(jié)果造成不良影響;缺失值較少,其余的特征缺失值都在10%以內(nèi),可以采取的處理方式有()。A、把NaN直接作為一個(gè)特征,假設(shè)用0表示B、用均值填充C、用隨機(jī)森林等算法預(yù)測填充D、以上選項(xiàng)都不正確【正確答案】:ABC解析:

缺失值較少的處理方式:①把NAN直接作為一個(gè)特征,假設(shè)用0表示;②用均值填充;③用隨機(jī)森林等算法預(yù)測填充;④用插值法填充。55.當(dāng)構(gòu)造線性模型時(shí),應(yīng)注意變量間的相關(guān)性。在相關(guān)矩陣中搜索相關(guān)系數(shù)時(shí),如果發(fā)現(xiàn)3對變址的相關(guān)系數(shù)是(Varl和Var2、Var2和Var3、Var3和Varl),相關(guān)系數(shù)分別是-0.98、0.45、1.23,則可以得出的結(jié)論有()。A、Varl和Var2是非常相關(guān)的B、因?yàn)閂arl和Var2是非常相關(guān)的,可以去除其中一個(gè)C、Var3和Varl的相關(guān)系數(shù)1.23是不可能的【正確答案】:ABC解析:

Varl和Var2之間的相關(guān)性非常高,并且是負(fù)的,可視為多重共線性的情況,可以去掉一個(gè)。一般來說,如果相關(guān)大于0.7或小于-0.7,則認(rèn)為特征之間有很高的相關(guān)性。相關(guān)系數(shù)范圍為[-1,1],C選項(xiàng)中1.23明顯有誤。56.下列關(guān)于決策樹的優(yōu)點(diǎn)的描述正確的有()。A、可讀性強(qiáng)B、分類速度快C、只用于回歸問題D、是無監(jiān)督學(xué)習(xí)【正確答案】:AB解析:

決策樹也可用于回歸,屬于有監(jiān)督的機(jī)器學(xué)習(xí)算法。57.下列屬于范數(shù)規(guī)則化作用的有()。A、保證模型盡可能的簡單,避免過擬合B、約束模型特征C、最小化問題D、最大化問題【正確答案】:AB58.許多功能更為強(qiáng)大的非線性模型可在線性模型基礎(chǔ)上通過引入()而得。A、層級結(jié)構(gòu)B、高維映射C、降維D、分類【正確答案】:AB59.線性模型的基本形式有()。A、線性回歸B、對數(shù)幾率回歸(二分類問題)C、線性判別分析(Fisher判別分析)D、多分類學(xué)習(xí)【正確答案】:ABCD60.可作為決策樹選擇劃分屬性的參數(shù)有()。A、信息增益B、信息增益率C、基尼指數(shù)D、密度函數(shù)【正確答案】:ABC解析:

特征選擇的準(zhǔn)則主要有信息增益、信息增益率、基尼指數(shù)三種。61.在統(tǒng)計(jì)模式分類問題中,當(dāng)先驗(yàn)概率未知時(shí),可以使用()。A、最小最大損失準(zhǔn)則B、最小誤判概率準(zhǔn)則C、最小損失準(zhǔn)則D、N-P判決【正確答案】:AD62.下列關(guān)于PCA的說法正確的有()。A、在使用PCA之前,我們必須標(biāo)準(zhǔn)化數(shù)據(jù)B、應(yīng)該選擇具有最大方差的主成分C、應(yīng)該選擇具有最小方差的主成分D、可以使用PCA在低維空間中可視化數(shù)據(jù)【正確答案】:ABD解析:

PCA對數(shù)據(jù)中變量的尺度非常敏感,因此需要對各個(gè)變量進(jìn)行標(biāo)準(zhǔn)化。方差越大,說明在該特征上分布越廣泛,說明該特征越有用,影響越大。PCA有時(shí)在較低維度上繪制數(shù)據(jù)是非常有用的,可以提取前2個(gè)主要組成部分,在二維平面上使用散點(diǎn)圖可視化數(shù)據(jù)。63.下列關(guān)于降維方法的敘述正確的有()。A、主成分分析是一種常用的非線性降維方法B、核化線性降維是一種常用的線性降維方法C、流形學(xué)習(xí)是一種借鑒拓?fù)淞餍胃拍畹慕稻S方法D、度量學(xué)習(xí)繞過降維的過程,將學(xué)習(xí)目標(biāo)轉(zhuǎn)化為對距離度量計(jì)算的權(quán)重矩陣的學(xué)習(xí)【正確答案】:CD解析:

本質(zhì)上講,主成分分析是一種線性降維方法,在處理非線性問題時(shí),效果不太理想。核化線性降維是一種非線性降維方法。64.一個(gè)回歸模型存在多重共線問題,在不損失過多信息的情況下,可采取的措施有()。A、剔除所有的共線性變量B、別除共線性變量中的一個(gè)C、通過計(jì)算方差膨脹因子(varianceinflationfactor,VIF)來檢查共線性程度,并采取相應(yīng)措施D、刪除相關(guān)變量可能會(huì)有信息損失,我們可以不刪除相關(guān)變量,而使用一些正則化方法來解決多重共線性問題,例如Ridge或Lasso回歸【正確答案】:BCD解析:

為了檢查多重共線性,我們可以創(chuàng)建相關(guān)系數(shù)矩陣來辨別和移除相關(guān)系數(shù)大于75%的變量(閾值根據(jù)情況設(shè)定)。除此之外,可以使用VIF方法來檢查當(dāng)前存在的共線變量。VIF≤4表明沒有多種共線,VIF≥10表明有著嚴(yán)重的多重共線性,也可以使用公差(tolcrance)作為評估指標(biāo)。但是,移除相關(guān)變量可能導(dǎo)致信息的丟失,為了保留這些變量,可以使用帶懲罰的回歸方法。可以在相關(guān)變量之間隨機(jī)加入噪聲,使得變量之間存在差異,但增加噪聲可能影響準(zhǔn)確度,因此這種方法應(yīng)該小心使用。65.下列關(guān)于L1和L2范數(shù)的描述正確的有()。)A、L1范數(shù)為x向量各個(gè)元素絕對值之和B、L2范數(shù)為x向量各個(gè)元素平方和的1/2次方,L2范數(shù)又稱Euclidean范數(shù)或Frobenius范數(shù)C、L1范數(shù)可以使權(quán)值稀疏,方便特征提取D、L2范數(shù)可以防止過擬合,提升模型的泛化能力【正確答案】:ABCD解析:

LO是指向量中非0的元素的個(gè)數(shù),L1范數(shù)是指向量中各個(gè)元素絕對值之和,L2范數(shù)向量元素絕對值的平方和再開平方。L1范數(shù)可以使權(quán)值稀疏,方便特征提取。L2范數(shù)可以防止過擬合,提升模型的泛化能力。66.鑒別多元共線特征后,下一步可能的操作有()。A、移除兩個(gè)共線變量B、不移除兩個(gè)變量,而是移除一個(gè)C、移除相關(guān)變量可能會(huì)導(dǎo)致信息損失,可以使用懲罰線性回歸模型(如ridge或lassoregression)【正確答案】:BC解析:

移除兩個(gè)變量會(huì)損失一切信息,所以只能移除一個(gè)特征,或者也可以使用正則化算法。67.決策樹遞歸返回的條件有()。A、訓(xùn)練數(shù)據(jù)集使用完B、所有的類標(biāo)簽完全相同C、特征用完D、遇到丟失值【正確答案】:BC解析:

決策樹的生成是一個(gè)遞歸過程。在決策樹基本算法中,有三種情形會(huì)導(dǎo)致遞歸返回:①節(jié)點(diǎn)包含的樣本全屬于同一類別,無須劃分;②當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;③當(dāng)前節(jié)點(diǎn)包含的樣本集合為空,不能劃分。68.預(yù)剪枝使得決策樹的很多分子都沒有展開,則會(huì)導(dǎo)致的結(jié)果有()。A、顯著減少訓(xùn)練時(shí)間開銷B、顯著減少測試時(shí)間開銷C、降低過擬合風(fēng)險(xiǎn)D、提高欠擬合風(fēng)險(xiǎn)【正確答案】:ABCD解析:

預(yù)剪枝使得決策樹的很多分支都沒有展開,這不僅降低了過擬合的風(fēng)險(xiǎn),還顯著減少了決策樹的訓(xùn)練時(shí)間開銷和測試時(shí)間開銷。但另一方面,有些分支的當(dāng)前劃分雖不能提升泛化性能,甚至可能導(dǎo)致泛化性能暫時(shí)下降,但在其基礎(chǔ)上進(jìn)行的后續(xù)劃分卻有可能導(dǎo)致性能顯著提高;預(yù)剪枝基于貪心原則,禁止這些分支展開,提高了欠擬合的風(fēng)險(xiǎn)。69.特征選擇在子集生成與搜索方面引入了人工智能搜索技術(shù)和子集評價(jià)方法。其中人工智能搜索技術(shù)有()。A、分支界限法B、浮動(dòng)搜索法C、信息熵D、AIC【正確答案】:ABCD解析:

特征選擇在子集生成與搜索方面引入了很多人工智能搜索技術(shù),如分支界限法、浮動(dòng)搜索法等;在子集評價(jià)方法則采用了很多源于信息論的準(zhǔn)則,如信息熵、AIC等。70.機(jī)器學(xué)習(xí)的三個(gè)關(guān)鍵組成要素包含()。A、任務(wù)TB、性能指標(biāo)PC、目標(biāo)函數(shù)VD、經(jīng)驗(yàn)來源E【正確答案】:ABD71.下列關(guān)于特征的稀疏性的說法正確的有()。A、稀疏性指的是矩陣中有許多列與當(dāng)前學(xué)習(xí)任務(wù)無關(guān)B、稀疏樣本可減少學(xué)習(xí)任務(wù)的計(jì)算開銷C、學(xué)習(xí)任務(wù)難度可能有所降低D、稀疏矩陣沒有高效的存儲(chǔ)方法【正確答案】:ABC解析:

在一個(gè)矩陣中,若非零元素的個(gè)數(shù)遠(yuǎn)遠(yuǎn)小于零元素的個(gè)數(shù),且非零元素的分布沒有規(guī)律,則稱之為稀疏矩陣。為了節(jié)省存儲(chǔ)空間并且加快并行程序處理速度,可對稀疏矩陣進(jìn)行壓縮存儲(chǔ)。72.聚類性能度量外部指標(biāo)包括()。A、Jaccard系數(shù)B、FM指數(shù)C、Dunn指數(shù)D、Rand指數(shù)【正確答案】:ABD解析:

常用的聚類性能度量外部指標(biāo)包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù)。73.常用的代價(jià)函數(shù)有()。A、均方誤差B、均方根誤差C、平均絕對誤差D、交叉熵【正確答案】:ABCD74.常用的沖突消解策略包括()。A、投票法B、排序法C、元規(guī)則法D、調(diào)研法【正確答案】:ABC75.常見的核函數(shù)包括()。A、多項(xiàng)式核B、高斯核C、線性核D、拉普拉斯核【正確答案】:ABCD76.深度學(xué)習(xí)方法不適用的數(shù)據(jù)集有()。A、數(shù)據(jù)樣本充足B、數(shù)據(jù)樣本不足C、數(shù)據(jù)集具有局部相關(guān)特性D、數(shù)據(jù)集沒有局部相關(guān)特性【正確答案】:BD解析:

以下數(shù)據(jù)集不適用于深度學(xué)習(xí):①數(shù)據(jù)集太小,數(shù)據(jù)樣本不足時(shí),深度學(xué)習(xí)相對其他機(jī)器學(xué)習(xí)算法沒有明顯優(yōu)勢;②數(shù)據(jù)集沒有局部相關(guān)特性,目前深度學(xué)習(xí)表現(xiàn)比較好的領(lǐng)域主要是圖像、語音、自然語言處理等領(lǐng)域,這些領(lǐng)域的一個(gè)共性是局部相關(guān)性。圖像中像素組成物體,語音信號中音位組合成單詞,文本數(shù)據(jù)中單詞組合成句子,這些特征元素的組合一旦被打亂,表示的含義同時(shí)也被改變。對于沒有這樣的局部相關(guān)性的數(shù)據(jù)集,不適用于使用深度學(xué)習(xí)算法進(jìn)行處理。77.假設(shè)目標(biāo)遍歷的類別非常不平衡,即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的99%,假設(shè)現(xiàn)在模型在訓(xùn)練集上表現(xiàn)為99%的準(zhǔn)確度,那么下列說法正確的有()。A、準(zhǔn)確度并不適合衡量不平衡類別問題B、準(zhǔn)確度適合衡量不平衡類別問題C、精確度和召回率適合于衡量不平衡類別問題D、精確度和召回率不適合衡量不平衡類別問題【正確答案】:AC解析:

精確度和召回率適合于衡量不平衡類別問題,準(zhǔn)確度并不適合衡量不平衡類別問題。1.機(jī)器學(xué)習(xí)對噪聲數(shù)據(jù)具有高承受能力,并能對未經(jīng)過訓(xùn)練的數(shù)據(jù)具有分類能力,但其需要很長的訓(xùn)練時(shí)間,因而對于有足夠長訓(xùn)練時(shí)間的應(yīng)用更合適。()A、正確B、錯(cuò)誤【正確答案】:A2.LogisticRegression和SupportVectprMachine都可以處理分類問題,且一般都用于處理線性二分類問題。()A、正確B、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論