【答案】《數(shù)據(jù)挖掘與python實踐》(中央財經(jīng)大學)章節(jié)期末慕課答案_第1頁
【答案】《數(shù)據(jù)挖掘與python實踐》(中央財經(jīng)大學)章節(jié)期末慕課答案_第2頁
【答案】《數(shù)據(jù)挖掘與python實踐》(中央財經(jīng)大學)章節(jié)期末慕課答案_第3頁
【答案】《數(shù)據(jù)挖掘與python實踐》(中央財經(jīng)大學)章節(jié)期末慕課答案_第4頁
【答案】《數(shù)據(jù)挖掘與python實踐》(中央財經(jīng)大學)章節(jié)期末慕課答案_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

【答案】《數(shù)據(jù)挖掘與python實踐》(中央財經(jīng)大學)章節(jié)期末慕課答案有些題目順序不一致,下載后按鍵盤ctrl+F進行搜索第一單元導(dǎo)言第一單元測驗1.單選題:為了避免包的依賴關(guān)系和系統(tǒng)兼容性等方面出現(xiàn)問題,本課程推薦的Python安裝方式為()。

選項:

A、通過Anaconda安裝

B、直接下載Python安裝

C、通過瀏覽器查找處理過的Python安裝包

D、直接安裝Pycharm

答案:【通過Anaconda安裝】2.單選題:以下Python包中,提供了DataFrame數(shù)據(jù)類型的是()。

選項:

A、Pandas

B、Scikit-learn

C、Numpy

D、Matplotlib

答案:【Pandas】3.單選題:以下Python包中,最適合用于機器學習的是()。

選項:

A、Scikit-learn

B、Pandas

C、Numpy

D、Matplotlib

答案:【Scikit-learn】4.單選題:以下Python包中,繪圖功能最強大的是()。

選項:

A、Matplotlib

B、Pandas

C、Scikit-learn

D、Numpy

答案:【Matplotlib】5.單選題:Python科學計算的基本包是()。

選項:

A、Numpy

B、Pandas

C、Scikit-learn

D、Matplotlib

答案:【Numpy】6.單選題:Python語言的創(chuàng)始人是()。

選項:

A、GuidovanRossum

B、BillGates

C、SergeyBrin

D、LarryPage

答案:【GuidovanRossum】7.單選題:下列應(yīng)用場景不屬于分類的是()。

選項:

A、對信用卡申請者判斷其信譽高低

B、醫(yī)生根據(jù)患者的癥狀判斷所患疾病類型

C、推廣新產(chǎn)品時預(yù)測已有客戶是否對新產(chǎn)品感興趣

D、為了解用戶特點,公司將客戶分群

答案:【為了解用戶特點,公司將客戶分群】8.單選題:數(shù)值預(yù)測用于連續(xù)變量的取值,常用的預(yù)測方法是()。

選項:

A、回歸分析

B、聚類

C、關(guān)聯(lián)

D、分類

答案:【回歸分析】9.單選題:結(jié)構(gòu)化的數(shù)據(jù)是指一些數(shù)據(jù)通過統(tǒng)一的()的形式存儲的,這類數(shù)據(jù)我們稱為結(jié)構(gòu)化的數(shù)據(jù)。

選項:

A、文檔

B、二維表格

C、圖像

D、聲音

答案:【二維表格】10.單選題:一般數(shù)據(jù)挖掘的流程順序,下列正確的是()。①選擇數(shù)據(jù)挖掘的技術(shù)、功能和合適的算法②選擇數(shù)據(jù),數(shù)據(jù)清洗和預(yù)處理③了解應(yīng)用領(lǐng)域,了解相關(guān)的知識和應(yīng)用目標④尋找感興趣的模式、模式評估、知識表示⑤創(chuàng)建目標數(shù)據(jù)集

選項:

A、③④①⑤②

B、⑤④②①③

C、③②⑤①④

D、③⑤②①④

答案:【③⑤②①④】11.單選題:數(shù)據(jù)挖掘又稱從數(shù)據(jù)中發(fā)現(xiàn)知識,前者英文簡稱為()。

選項:

A、KPP

B、DM

C、KDD

D、DD

答案:【DM】12.單選題:數(shù)據(jù)挖掘又稱從數(shù)據(jù)中發(fā)現(xiàn)知識,后者英文簡稱為()。

選項:

A、KPP

B、KDP

C、KDD

D、KPD

答案:【KDD】13.多選題:數(shù)據(jù)挖掘和哪些學科領(lǐng)域有關(guān)系()。

選項:

A、統(tǒng)計

B、機器學習

C、數(shù)據(jù)庫

D、優(yōu)化

答案:【統(tǒng)計;機器學習;數(shù)據(jù)庫;優(yōu)化】14.多選題:數(shù)據(jù)挖掘包括下面哪些方法()。

選項:

A、分類

B、聚類

C、關(guān)聯(lián)

D、異常發(fā)現(xiàn)

答案:【分類;聚類;關(guān)聯(lián);異常發(fā)現(xiàn)】15.單選題:關(guān)聯(lián)分析是數(shù)據(jù)分析中常用的分析方法。

選項:

A、正確

B、錯誤

答案:【正確】16.單選題:序列分析經(jīng)常會用在購物籃分析中。

選項:

A、正確

B、錯誤

答案:【錯誤】17.單選題:分類就是根據(jù)物以類聚的原理,將沒有類別的對象根據(jù)對象的特征自動聚成不同簇的過程。

選項:

A、正確

B、錯誤

答案:【錯誤】18.單選題:分類和回歸都可用于預(yù)測,分類的輸出是離散的類別值。

選項:

A、正確

B、錯誤

答案:【正確】19.單選題:聚類針對有標簽的數(shù)據(jù)。

選項:

A、正確

B、錯誤

答案:【錯誤】20.預(yù)測的模型構(gòu)建需要來進行分析。

答案:【歷史數(shù)據(jù)】21.從存儲方式對數(shù)據(jù)類型進行分類,可分為數(shù)據(jù)和數(shù)據(jù)。(輸入兩個位置的答案時,以一個空格作為分隔符)

答案:【結(jié)構(gòu)化非結(jié)構(gòu)化】22.在這個大數(shù)據(jù)爆炸的時代,我們期待能夠從這些數(shù)據(jù)中提煉出有用的知識,解決的方法就是技術(shù)和數(shù)據(jù)挖掘技術(shù)。

答案:【數(shù)據(jù)倉庫】23.在這個大數(shù)據(jù)爆炸的時代,我們期待能夠從這些數(shù)據(jù)中提煉出有用的知識,解決的方法就是數(shù)據(jù)倉庫技術(shù)和技術(shù)。

答案:【數(shù)據(jù)挖掘】24.就是根據(jù)有類別的數(shù)據(jù)提供的信息,來概括類別的主要特征,構(gòu)建模型或者規(guī)則,根據(jù)該模型或者規(guī)則預(yù)測對象的類別。

答案:【分類】第二單元認識數(shù)據(jù)第二章單元測驗1.單選題:為了避免包的依賴關(guān)系和系統(tǒng)兼容性等方面出現(xiàn)問題,本課程推薦的Python安裝方式為()。

選項:

A、直接下載Python安裝

B、通過Anaconda安裝

C、通過瀏覽器查找處理過的Python安裝包

D、直接安裝Pycharm

答案:【通過Anaconda安裝】2.單選題:以下Python包中,提供了DataFrame數(shù)據(jù)類型的是()。

選項:

A、Pandas

B、Scikit-learn

C、Numpy

D、Matplotlib

答案:【Pandas】3.單選題:以下Python包中,最適合用于機器學習的是()。

選項:

A、Pandas

B、Scikit-learn

C、Numpy

D、Matplotlib

答案:【Scikit-learn】4.單選題:以下Python包中,繪圖功能最強大的是()。

選項:

A、Pandas

B、Scikit-learn

C、Numpy

D、Matplotlib

答案:【Matplotlib】5.單選題:Python科學計算的基本包是()。

選項:

A、Pandas

B、Scikit-learn

C、Numpy

D、Matplotlib

答案:【Numpy】6.單選題:Python語言在創(chuàng)始人是()。

選項:

A、BillGates

B、SergeyBrin

C、LarryPage

D、GuidovanRossum

答案:【GuidovanRossum】7.單選題:度量作為一種測度,滿足以下哪些條件:

選項:

A、同一性

B、對稱性

C、三角不等式

D、以上均是

答案:【以上均是】8.單選題:4人喜歡服飾的顏色如下,屬性是標稱屬性。李四和孫六的相似性是()。姓名帽子顏色上衣顏色褲子顏色鞋子顏色圍巾顏色張三紅藍藍綠紅李四紅藍藍紅粉王五黃綠藍綠紅孫六藍藍藍紅粉

選項:

A、1/5

B、2/5

C、3/5

D、4/5

答案:【4/5】9.單選題:()可以觀察從一個分布到另一分布是否有漂移。

選項:

A、直方圖

B、散點圖

C、盒圖

D、分位數(shù)-分位數(shù)圖

答案:【分位數(shù)-分位數(shù)圖】10.單選題:下列哪些選項能表示序數(shù)屬性的數(shù)據(jù)集中趨勢度量()。

選項:

A、眾數(shù)

B、均值

C、四分位數(shù)

D、標準差

答案:【眾數(shù)】11.單選題:下列對學生相關(guān)屬性描述中,不是標稱屬性的是()。

選項:

A、頭發(fā)顏色

B、婚姻狀況

C、身高

D、學號

答案:【身高】12.多選題:在探索性數(shù)據(jù)分析中,認為最有代表性,最能反映數(shù)據(jù)重要特征的五數(shù)概括,包括:

選項:

A、中位數(shù)Q2

B、四分位數(shù)Q1

C、四分位數(shù)Q3

D、最小值

E、最大值

答案:【中位數(shù)Q2;四分位數(shù)Q1;四分位數(shù)Q3;最小值;最大值】13.多選題:下列哪些指標可以度量數(shù)據(jù)的離散趨勢度量:

選項:

A、極差

B、四分位數(shù)

C、四分位數(shù)極差

D、五數(shù)概括

答案:【極差;四分位數(shù);四分位數(shù)極差;五數(shù)概括】14.多選題:下列對學生的描述屬性中,標稱屬性的屬性是:

選項:

A、頭發(fā)顏色

B、婚姻狀況

C、身高

D、學號

答案:【頭發(fā)顏色;婚姻狀況;學號】15.單選題:序數(shù)屬性的值存在有意義的序。相鄰兩者之間的差是已知的。

選項:

A、正確

B、錯誤

答案:【錯誤】16.單選題:二元屬性是一種特殊的標稱屬性,分為對稱和不對稱兩種。

選項:

A、正確

B、錯誤

答案:【正確】17.單選題:在文獻中,屬性、維、特征和變量通??梢曰Q地使用。

選項:

A、正確

B、錯誤

答案:【正確】18.單選題:在計算混合類型屬性的相異性時,一般是通過將所有有意義的屬性轉(zhuǎn)換到共同的區(qū)間[0.0,1.0]上,實現(xiàn)在單個相異性矩陣中進行計算。

選項:

A、正確

B、錯誤

答案:【正確】19.單選題:相異性矩陣又稱對象-對象結(jié)構(gòu),存放n個對象兩兩之間的鄰近度。

選項:

A、正確

B、錯誤

答案:【正確】20.單選題:一般來說數(shù)據(jù)庫中行對應(yīng)于數(shù)據(jù)對象,而列對應(yīng)于屬性。

選項:

A、正確

B、錯誤

答案:【正確】21.單選題:對于非對稱的二元屬性,兩個都取值1的情況(正匹配)被認為比兩個都取值0的情況(負匹配)更有意義,其中負匹配數(shù)t被認為是不重要的,因此在計算時可以忽略。

選項:

A、正確

B、錯誤

答案:【正確】22.單選題:盒圖用來考察兩個屬性之間是否存在正相關(guān)和負相關(guān)。

選項:

A、正確

B、錯誤

答案:【錯誤】23.單選題:四分位數(shù)極差(IQR)是第1個和第2個四分位數(shù)之間的距離。

選項:

A、正確

B、錯誤

答案:【錯誤】24.單選題:如果屬性不是離散的,則它是連續(xù)的。

選項:

A、正確

B、錯誤

答案:【正確】25.x=(5,0,3,0,2,0,0,2,0,0)和y=(3,0,2,0,1,1,0,1,0,1),使用余弦相似度公式計算這兩個向量之間的相似性等于?!救绻嬎憬Y(jié)果是小數(shù),則保留一位;如果是整數(shù),則直接填寫整數(shù)】

答案:【0.9】26.給定兩個數(shù)據(jù)對象(19,4,5)和(22,6,3),則兩個對象之間的上確界距離。【如果計算結(jié)果是小數(shù),則保留一位;如果是整數(shù),則直接填寫整數(shù)】

答案:【3】27.給定兩個數(shù)據(jù)對象(19,4,5)和(22,6,3),則兩個對象之間的曼哈頓距離?!救绻嬎憬Y(jié)果是小數(shù),則保留一位;如果是整數(shù),則直接填寫整數(shù)】

答案:【7】28.給定兩個數(shù)據(jù)對象(19,4,5)和(22,6,3),則兩個對象之間的歐氏距離。【如果計算結(jié)果是小數(shù),則保留一位;如果是整數(shù),則直接填寫整數(shù)】

答案:【4.1】29.中列數(shù)是數(shù)據(jù)集的最大值和的平均值。

答案:【最小值】30.為了抵消少數(shù)極端值對均值計算的影響,我們可以使用。

答案:【截尾均值】第三單元數(shù)據(jù)預(yù)處理第三單元測驗1.單選題:運行以下代碼fromsklearn.datasetsimportload_irisiris_data=load_iris()iris_data.data.shape輸出結(jié)果為(150,4)。則表示iris數(shù)據(jù)集包括樣本特征數(shù)為()。

選項:

A、150

B、4

C、600

D、154

答案:【4】2.單選題:運行以下代碼fromsklearn.datasetsimportload_irisiris_data=load_iris()iris_data.data.shape輸出結(jié)果為(150,4)。則表示iris數(shù)據(jù)集包括樣本個數(shù)為()。

選項:

A、150

B、4

C、600

D、154

答案:【150】3.單選題:主成分分析方法PCA屬于屬于python中的哪個包()。

選項:

A、sklearn

B、pandas

C、numpy

D、scipy

答案:【sklearn】4.單選題:最小最大規(guī)范化方法MinMaxScaler屬于python中的哪個包()。

選項:

A、sklearn

B、pandas

C、numpy

D、scipy

答案:【sklearn】5.單選題:使用python處理缺失值的方法中敘述錯誤的是()。

選項:

A、isnull()判斷缺失值

B、dropna()刪除缺失值

C、fillna()填充缺失值

D、interpolate()使用中位數(shù)填充缺失值

答案:【interpolate()使用中位數(shù)填充缺失值】6.單選題:數(shù)據(jù)預(yù)處理的任務(wù)不包括()。

選項:

A、數(shù)據(jù)分類

B、數(shù)據(jù)清洗

C、數(shù)據(jù)規(guī)范化和離散化

D、特征提取與特征選擇

答案:【數(shù)據(jù)分類】7.單選題:下列關(guān)于等距離分箱的說法中錯誤的是()。

選項:

A、又稱為等寬度分箱

B、若區(qū)間個數(shù)為k,每個區(qū)間的間距為I=(max-min)/k

C、等距離分箱能使每個區(qū)間內(nèi)包含的取值個數(shù)大致相同

D、等距離分箱可能導(dǎo)致屬于某些的取值非常多,而某些又非常少

答案:【等距離分箱能使每個區(qū)間內(nèi)包含的取值個數(shù)大致相同】8.單選題:最小-最大法中,假設(shè)需要映射到目標區(qū)間為[L,R],原來的取值范圍為[l,r]。一個值x映射到新區(qū)間后的值v的計算方法是()。

選項:

A、

B、

C、

D、

答案:【】9.單選題:主成分分析的步驟是()。

選項:

A、中心化數(shù)據(jù)集-計算主成分矩陣-計算協(xié)方差矩陣-計算特征根-得到降維后的數(shù)據(jù)集

B、中心化數(shù)據(jù)集-計算協(xié)方差矩陣-計算特征根-計算主成分矩陣-得到降維后的數(shù)據(jù)集

C、計算協(xié)方差矩陣-計算主成分矩陣-計算特征根-中心化數(shù)據(jù)集-得到降維后的數(shù)據(jù)集

D、計算協(xié)方差矩陣-計算特征根-中心化數(shù)據(jù)集-計算主成分矩陣-得到降維后的數(shù)據(jù)集

答案:【中心化數(shù)據(jù)集-計算協(xié)方差矩陣-計算特征根-計算主成分矩陣-得到降維后的數(shù)據(jù)集】10.單選題:缺失值處理方法中錯誤的是()。

選項:

A、對于分類屬性,使用同類對象屬性值的均值

B、對于離散屬性或定性屬性,使用眾數(shù)

C、對于所有屬性都可以使用均值

D、轉(zhuǎn)換為分類問題或數(shù)值預(yù)測問題

答案:【對于所有屬性都可以使用均值】11.單選題:下列關(guān)于數(shù)據(jù)規(guī)范化說法錯誤的是()。

選項:

A、數(shù)據(jù)規(guī)范化又稱為數(shù)據(jù)標準化

B、數(shù)據(jù)規(guī)范化是將屬性的取值范圍統(tǒng)一

C、數(shù)據(jù)規(guī)范化是為了給重要的屬性賦予更大的權(quán)重

D、數(shù)據(jù)規(guī)范化是為了避免不同屬性的不平等地位

答案:【數(shù)據(jù)規(guī)范化是為了給重要的屬性賦予更大的權(quán)重】12.單選題:下列不屬于數(shù)據(jù)預(yù)處理原因的是()。

選項:

A、數(shù)據(jù)可能存在缺失、錯誤、不一致等問題

B、數(shù)據(jù)有可能不能很好地反映潛在的模式

C、有些數(shù)據(jù)屬性是無用的或者冗余的

D、數(shù)據(jù)量過于龐大

答案:【數(shù)據(jù)量過于龐大】13.單選題:()是指對描述對象的屬性進行重新組合,獲得一組反映事物本質(zhì)的少量的新的屬性的過程。()是指從屬性集合中選擇那些重要的、與分析任務(wù)相關(guān)的子集的過程。

選項:

A、特征提?。惶卣鬟x擇

B、特征選擇;特征提取

C、數(shù)據(jù)提??;數(shù)據(jù)選擇

D、數(shù)據(jù)選擇;數(shù)據(jù)提取

答案:【特征提??;特征選擇】14.單選題:關(guān)聯(lián)規(guī)則的挖掘算法只能處理()類型的取值,為此()是繼續(xù)其知識發(fā)現(xiàn)過程的必要步驟。

選項:

A、離散;數(shù)據(jù)離散化

B、連續(xù);數(shù)據(jù)離散化

C、離散;數(shù)據(jù)規(guī)范化

D、連續(xù);數(shù)據(jù)規(guī)范化

答案:【離散;數(shù)據(jù)離散化】15.單選題:運行以下代碼”importmatplotlib.pyplotasplt”引入plt后,要繪制散點圖,需要利用的函數(shù)為()。

選項:

A、plt.bar()

B、plt.scatter()

C、plt.plot()

D、plt.hist()

答案:【plt.scatter()】16.單選題:運行以下代碼”importmatplotlib.pyplotasplt”引入plt后,要繪制直方圖,需要利用的函數(shù)為()。

選項:

A、plt.bar()

B、plt.pie()

C、plt.plot()

D、plt.hist()

答案:【plt.hist()】17.單選題:運行以下代碼”importmatplotlib.pyplotasplt”引入plt后,要繪制折線圖,需要利用的函數(shù)為()。

選項:

A、plt.bar()

B、plt.pie()

C、plt.plot()

D、plt.hist()

答案:【plt.plot()】18.單選題:運行以下代碼”importmatplotlib.pyplotasplt”引入plt后,要繪制餅狀圖,需要利用的函數(shù)為()。

選項:

A、plt.bar()

B、plt.pie()

C、plt.plot()

D、plt.hist()

答案:【plt.pie()】19.單選題:給定df是一個DataFrame對象,對df所有字段進行描述性統(tǒng)計,可以利用的方法為()。

選項:

A、df.summary()

B、df.statistics()

C、df.mean()

D、df.describe()

答案:【df.describe()】20.單選題:在Numpy包中,計算標準差的函數(shù)為()。

選項:

A、numpy.mean()

B、numpy.median()

C、numpy.std()

D、numpy.var()

答案:【numpy.std()】21.單選題:在Numpy包中,計算中位數(shù)的函數(shù)為()。

選項:

A、numpy.mean()

B、numpy.median()

C、numpy.std()

D、numpy.var()

答案:【numpy.median()】22.單選題:在使用主成分分析法進行數(shù)據(jù)屬性特征提取中,在對數(shù)據(jù)集進行中心化處理后,為了去除冗余和降低噪音,應(yīng)將協(xié)方差矩陣非對角線上的元素化為()。

選項:

A、-1/2

B、0

C、1/2

D、不用處理

答案:【0】23.單選題:特征選擇方法中,一般的啟發(fā)式方法有()。

選項:

A、逐步增加法

B、逐步遞減法

C、隨機選擇

D、以上都是

答案:【以上都是】24.單選題:使用等距離分箱法進行數(shù)據(jù)離散化,數(shù)據(jù)范圍為20,40,50,58,65,80,80,82,86,90,96,105,120,200,區(qū)間個數(shù)為4。下列屬于4個箱的區(qū)間是()。

選項:

A、[20,65]

B、(65,110)

C、[110,155)

D、(155,200]

答案:【[110,155)】25.單選題:使用零均值規(guī)范化方法,年收入屬性的均值為65,標準差為12,則年收入59萬元規(guī)范化后為()。

選項:

A、-0.5

B、-0.2

C、0.3

D、0.5

答案:【-0.5】26.單選題:使用最小-最大法進行數(shù)據(jù)規(guī)范化,需要映射的目標區(qū)間為[0,100],原來的取值范圍是[-10,10]。根據(jù)等比映射的原理,一個值8映射到新區(qū)間后的值是()。

選項:

A、80

B、85

C、90

D、95

答案:【90】27.多選題:數(shù)據(jù)清洗的主要目的是將數(shù)據(jù)集中存在的()和()進行處理,降低其對后續(xù)數(shù)據(jù)分析處理的影響。

選項:

A、缺失

B、噪聲

C、最大值

D、最小值

答案:【缺失;噪聲】28.多選題:數(shù)據(jù)規(guī)范化方法有哪些()。

選項:

A、最小-最大法

B、z-score

C、聚類

D、分類

答案:【最小-最大法;z-score】29.多選題:數(shù)據(jù)預(yù)處理的任務(wù)有哪些()。

選項:

A、數(shù)據(jù)離散化

B、數(shù)據(jù)規(guī)范化

C、數(shù)據(jù)清洗

D、特征提取與特征選擇

答案:【數(shù)據(jù)離散化;數(shù)據(jù)規(guī)范化;數(shù)據(jù)清洗;特征提取與特征選擇】30.多選題:在利用中文文本繪制詞云時,需要在anaoncda的基礎(chǔ)上安裝哪些工具包()。

選項:

A、Wordcloud

B、Scikit-learn

C、Jieba

D、Matplotlib

答案:【W(wǎng)ordcloud;Jieba】31.單選題:選擇屬性子集的方法一般采用啟發(fā)式方法,只檢驗部分可能性比較大的子集,這樣可以快速完成屬性的選擇。

選項:

A、正確

B、錯誤

答案:【正確】32.單選題:基于熵的離散化方法是常用的有監(jiān)督的離散化方法。

選項:

A、正確

B、錯誤

答案:【正確】33.單選題:分箱離散化是一種有監(jiān)督離散化方法。

選項:

A、正確

B、錯誤

答案:【錯誤】34.單選題:在主成分分析中,每個主成分都是原始變量的線性組合,且各個主成分之間互不相關(guān)。

選項:

A、正確

B、錯誤

答案:【正確】35.單選題:將數(shù)據(jù)分為n個等頻的箱中,可以?箱均值、箱中位數(shù)或箱邊界光滑數(shù)據(jù)。

選項:

A、正確

B、錯誤

答案:【正確】36.單選題:主成分分析能夠達到去除冗余、降低噪音和降維的目的,但無法得到反映事物本質(zhì)的新變量。

選項:

A、正確

B、錯誤

答案:【錯誤】37.單選題:一種簡單的填補缺失值的方法為,將屬于同一類的對象的該屬性值的均值賦予此缺失值。

選項:

A、正確

B、錯誤

答案:【正確】38.單選題:基于熵的方法可以被看做是自頂向下的分裂方法,ChiMerge則屬于自底向上的合并方法。

選項:

A、正確

B、錯誤

答案:【正確】39.單選題:有監(jiān)督的離散化方法常用的有分箱法和ChiMerge方法。

選項:

A、正確

B、錯誤

答案:【錯誤】40.單選題:通過數(shù)據(jù)離散化,可以實現(xiàn)縮減數(shù)據(jù)量的效果。

選項:

A、正確

B、錯誤

答案:【正確】41.單選題:特征選擇過程是描述同一對象的多個屬性的取值范圍,統(tǒng)一到相同的范圍,避免某些屬性的作用大于其它屬性。

選項:

A、正確

B、錯誤

答案:【錯誤】42.一組數(shù)據(jù):20,40,50,58,65,80,80,82,86,90,96,105,120,200。使用最大-最小法進行數(shù)據(jù)規(guī)范化,目標區(qū)間為[0,1],則80映射到新區(qū)間后的值為___。(四舍五入保留小數(shù)點后兩位)

答案:【0.33】43.一組數(shù)據(jù):20,40,50,58,65,80,80,82,86,90,96,105,120,200。采用等距分箱法分為4箱,其中82位于第____個箱。(填寫阿拉伯數(shù)字)

答案:【2】44.使用主成分分析法進行數(shù)據(jù)屬性特征提取中,每個新的特征是原有特征的。

答案:【線性組合】45.面對噪音,一類是識別出噪音,將其去除;另一類是可以使用方法,用于平滑噪音。

答案:【分箱】46.等距離分箱可能導(dǎo)致屬于某些區(qū)間的取值非常多,而某些區(qū)間的取值又非常少。則能夠解決此問題。

答案:【等頻】第四單元關(guān)聯(lián)規(guī)則挖掘第四單元測驗1.單選題:如下表所示,使用FP-Growth計算其頻繁集,給定最小支持度為40%,頻繁模式樹(FP樹)有()個結(jié)點。(不包括根結(jié)點)。交易號(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts

選項:

A、5

B、8

C、9

D、10

答案:【9】2.單選題:如下表所示,X={butter,cheese},Y={beer},則置信度confidence(X→Y)=()。交易號(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts

選項:

A、1/2

B、1/3

C、1/4

D、2/5

答案:【1/2】3.單選題:如下表所示,X={butter,cheese},則支持度support(X)=()。交易號(TID)商品(Items)1beer,diaper,nuts2beer,biscuit,diaper3bread,butter,cheese4beer,cheese,diaper,nuts5beer,butter,cheese,nuts

選項:

A、1/5

B、2/5

C、3/5

D、4/5

答案:【2/5】4.單選題:Python在調(diào)用efficient-apriori包中的apriori函數(shù)進行挖掘關(guān)聯(lián)規(guī)則時,第二個返回值是()。

選項:

A、頻繁項集

B、關(guān)聯(lián)規(guī)則

C、最小支持度

D、最小置信度

答案:【關(guān)聯(lián)規(guī)則】5.單選題:Python在調(diào)用efficient-apriori包中的apriori函數(shù)進行挖掘關(guān)聯(lián)規(guī)則時,第一個返回值是()。

選項:

A、頻繁項集

B、關(guān)聯(lián)規(guī)則

C、最小支持度

D、最小置信度

答案:【頻繁項集】6.單選題:在FP-growth構(gòu)建頻繁模式樹中,每個()(除根結(jié)點外)代表一個單項,樹中的每條()代表原數(shù)據(jù)中每一個條目的各個項。如果把條目內(nèi)的項組合在一起看成一個字符串,則字符串前綴相同時共享相同的()。

選項:

A、結(jié)點;路徑;路徑

B、結(jié)點;路徑;結(jié)點

C、路徑;路徑;結(jié)點

D、路徑;路徑;路徑

答案:【結(jié)點;路徑;路徑】7.單選題:在多層次關(guān)聯(lián)規(guī)則分析中,如果將商品進行歸類,每一商品類別的支持度會()其包含的每個商品的支持度,從而有利于發(fā)現(xiàn)一些有意義的頻繁模式或關(guān)聯(lián)規(guī)則。

選項:

A、小于

B、等于

C、大于

D、不確定

答案:【大于】8.單選題:對于任一個頻繁項集X和它的一個非空真子集Y,S=X-Y,規(guī)則S→Y成立的條件是()。

選項:

A、confidence(S→Y)

B、confidence(S→Y)≥minconf

C、confidence(Y→S)

D、confidence(Y→S)≥minconf

答案:【confidence(S→Y)≥minconf】9.單選題:FP-growth算法無須生成候選項集的方法,可以避免產(chǎn)生大量候選項集。

選項:

A、正確

B、錯誤

答案:【正確】10.單選題:給定最小支持度閾值minsup,一個頻繁項集的所有非空子集都是頻繁的。

選項:

A、正確

B、錯誤

答案:【正確】11.單選題:如果一個規(guī)則X→Y同時滿足support(X→Y)≥minsup和confidence(X→Y)≥minconf,則稱該規(guī)則在數(shù)據(jù)庫D中成立,其中minsup和minconf分別是用戶給定的最小支持度和最小置信度的閾值。

選項:

A、正確

B、錯誤

答案:【正確】12.單選題:具體來講,若一個項集X的支持度大于用戶給定的一個最小支持度閾值,則X被稱為頻繁項集(或頻繁模式)。

選項:

A、正確

B、錯誤

答案:【正確】13.單選題:若Y和Z是X的兩個不同的k項子集,只有當confidence(X-Y→Y)≥minconf和confidence(X-Z→Z)≥minconf都滿足時,X-(Y∪Z)→(Y∪Z)一定成立。

選項:

A、正確

B、錯誤

答案:【錯誤】14.單選題:在結(jié)構(gòu)化數(shù)據(jù)中進行關(guān)聯(lián)分析發(fā)現(xiàn)其中的頻繁模式和關(guān)聯(lián)規(guī)則。對于取值連續(xù)的屬性,首先將其離散化,然后將每個取值區(qū)間作為一個值,繼而轉(zhuǎn)化為“屬性=值”的形式。

選項:

A、正確

B、錯誤

答案:【正確】15.單選題:利用項的概念層次信息,不僅可以發(fā)現(xiàn)涉及那些出現(xiàn)頻率比較低的商品的頻繁模式和關(guān)聯(lián)規(guī)則,而且還可以發(fā)現(xiàn)概括性更強的規(guī)則。

選項:

A、正確

B、錯誤

答案:【正確】16.單選題:逐層發(fā)現(xiàn)算法Apriori發(fā)現(xiàn)頻繁項集的過程是按照項集的長度由大到小逐級進行的。

選項:

A、正確

B、錯誤

答案:【錯誤】17.單選題:如果一個項集是不頻繁的,則其所有的超集都是不頻繁的。利用這一性質(zhì)可以簡化Apriori算法中的計算過程。

選項:

A、正確

B、錯誤

答案:【正確】18.單選題:購買了此商品后還會購買的商品,它們的地位是平等的,其中涉及了時間和順序的概念,強調(diào)的是一個規(guī)則,也就是我們所說的關(guān)聯(lián)規(guī)則。

選項:

A、正確

B、錯誤

答案:【錯誤】19.Python在調(diào)用efficient-apriori包中的apriori函數(shù)訓練挖掘關(guān)聯(lián)規(guī)則時,設(shè)定最小置信度的參數(shù)是______。

答案:【min_confidence】20.Python在調(diào)用efficient-apriori包中的apriori函數(shù)訓練挖掘關(guān)聯(lián)規(guī)則時,設(shè)定最小支持度的參數(shù)是______。

答案:【min_support】21.如果一個規(guī)則和其祖先規(guī)則具有近似相同的置信度,則該規(guī)則稱為_____。為了減少發(fā)現(xiàn)的規(guī)則數(shù)目,可以將其從輸出的結(jié)果中刪除。

答案:【冗余規(guī)則】22.給定一個頻繁負項集X,我們可以從中發(fā)現(xiàn)隱含的負關(guān)聯(lián)規(guī)則。負項集和負關(guān)聯(lián)規(guī)則統(tǒng)稱為_____。

答案:【負模式】第五單元分類第五單元測驗1.單選題:假設(shè)某分類器在一個測試數(shù)據(jù)集上的分類結(jié)果的混淆矩陣如下所示,該分類器的錯誤率errorrate為()。PredictedyesnoActualyes155no1020

選項:

A、30%

B、25%

C、33.3%

D、20%

答案:【30%】2.單選題:假設(shè)某分類器在一個測試數(shù)據(jù)集上的分類結(jié)果的混淆矩陣如下所示,該分類器的準確率accuracy為()。PredictedyesnoActualyes155no1020

選項:

A、70%

B、75%

C、66.7%

D、80%

答案:【70%】3.單選題:樸素貝葉斯分類中得到條件概率的方法錯誤的是()。

選項:

A、對于定性屬性,計算某一類別的樣本中某種屬性取該值的樣本所占比例來近似

B、對于定性屬性,將轉(zhuǎn)化為定量屬性,再計算相應(yīng)的概率

C、對于定量屬性,將取值離散化變?yōu)閰^(qū)間,再當做定性屬性處理

D、對于定量屬性,假設(shè)變量服從某種概率分布,通過訓練數(shù)據(jù)集估計分布的參數(shù)

答案:【對于定性屬性,將轉(zhuǎn)化為定量屬性,再計算相應(yīng)的概率】4.單選題:下列屬于決策樹中應(yīng)該剪枝的情景是()。

選項:

A、一個結(jié)點關(guān)聯(lián)的數(shù)據(jù)集的信息熵高于指定閾值

B、一個結(jié)點關(guān)聯(lián)的數(shù)據(jù)集的信息熵低于指定閾值

C、雙親結(jié)點的誤差比子女結(jié)點的加權(quán)誤差大

D、雙親結(jié)點的誤差比子女結(jié)點的平均誤差大

答案:【一個結(jié)點關(guān)聯(lián)的數(shù)據(jù)集的信息熵低于指定閾值】5.單選題:以下哪種算法是分類算法()。

選項:

A、DBSCAN

B、C4.5

C、K-Mean

D、EM

答案:【C4.5】6.單選題:通過代碼“fromsklearnimporttree”引入決策樹模塊,并通過代碼“clf=tree.DecisionTreeClassifier()”構(gòu)造分類器對象后,訓練時要調(diào)用的方法是()。

選項:

A、clf.train()

B、clf.fit()

C、clf.learn()

D、clf.predict()

答案:【clf.fit()】7.單選題:決策樹中不包含一下哪種結(jié)點()。

選項:

A、根結(jié)點(rootnode)

B、內(nèi)部結(jié)點(internalnode)

C、外部結(jié)點(externalnode)

D、葉結(jié)點(leafnode)

答案:【外部結(jié)點(externalnode)】8.單選題:用于分類與回歸應(yīng)用的主要算法有()。

選項:

A、Apriori算法、HotSpot算法

B、RBF神經(jīng)網(wǎng)絡(luò)、K均值法、決策樹

C、K均值法、SOM神經(jīng)網(wǎng)絡(luò)

D、決策樹、BP神經(jīng)網(wǎng)絡(luò)、貝葉斯

答案:【決策樹、BP神經(jīng)網(wǎng)絡(luò)、貝葉斯】9.單選題:在Scikit-learn模塊下,不同分類模型在預(yù)測時,調(diào)用的方法名稱()。

選項:

A、相同

B、不同

C、視情況而定

D、不知道

答案:【相同】10.單選題:在Scikit-learn模塊下,不同分類模型在訓練時,調(diào)用的方法名稱()。

選項:

A、相同

B、不同

C、視情況而定

D、不知道

答案:【相同】11.單選題:通過代碼“fromsklearnimportmetrics”引入評價指標模塊后,面對真實標簽true_label和模型預(yù)測標簽predicted_label,混淆矩陣可通過調(diào)用()代碼得到。

選項:

A、confusion_matrix(true_labe,predicted_label)

B、confusion_matrix(predicted_label,true_labe)

C、metrics.confusion_matrix(true_labe,predicted_label)

D、metrics.confusion_matrix(predicted_label,true_labe)

答案:【metrics.confusion_matrix(true_labe,predicted_label)】12.單選題:利用tree.DecisionTreeClassifier()訓練模型時調(diào)用.fit()方法需要傳遞的第二個參數(shù)是()。

選項:

A、樣本特征X

B、樣本標簽Y

C、判斷標準

D、設(shè)置結(jié)點的最小樣本數(shù)量

答案:【樣本標簽Y】13.單選題:利用tree.DecisionTreeClassifier()訓練模型時調(diào)用.fit()方法需要傳遞的第一個參數(shù)是()。

選項:

A、樣本特征X

B、樣本標簽Y

C、判斷標準

D、設(shè)置結(jié)點的最小樣本數(shù)量

答案:【樣本特征X】14.單選題:通過代碼“fromsklearnimporttree”引入決策樹模塊,并通過代碼“clf=tree.DecisionTreeClassifier()”構(gòu)造分類器對象,在訓練后做預(yù)測時要調(diào)用的方法是()。

選項:

A、clf.predict()

B、clf.forecast()

C、clf.guess()

D、clf.outlook()

答案:【clf.predict()】15.多選題:為了比較利用不同分類算法構(gòu)建的分類模型的性能,可以利用圖形進行比較,常用的圖形包括()。

選項:

A、增益圖

B、ROC曲線

C、直方圖

D、條形圖

答案:【增益圖;ROC曲線】16.多選題:構(gòu)造訓練數(shù)據(jù)集和測試數(shù)據(jù)集的常用方法有()。

選項:

A、保持法(holdout)

B、交叉驗證法(crossvalidation)

C、自助抽樣法(bootstrap)

D、留一法(leaveoneout)

答案:【保持法(holdout);交叉驗證法(crossvalidation);自助抽樣法(bootstrap);留一法(leaveoneout)】17.單選題:K近鄰方法的核心思想是對一個預(yù)測樣本A,從訓練數(shù)據(jù)集中找到與其最相似的k個樣本,利用這個k個樣本的類別來決策該樣本A的類別。

選項:

A、正確

B、錯誤

答案:【正確】18.單選題:k近鄰方法不需要事先學習分類模型,當需要預(yù)測的時候,根據(jù)預(yù)測樣本的特性和已知訓練數(shù)據(jù)集中的數(shù)據(jù)進行類別的判斷。

選項:

A、正確

B、錯誤

答案:【正確】19.單選題:樸素貝葉斯分類基于貝葉斯定理的一種分類方法。

選項:

A、正確

B、錯誤

答案:【正確】20.單選題:ID3的分裂屬性選擇條件是選擇信息增益最大的作為分裂屬性。

選項:

A、正確

B、錯誤

答案:【正確】21.單選題:決策樹的思想是自頂向下遞歸的構(gòu)建過程,關(guān)鍵點是在于分裂屬性和分裂條件的選擇。

選項:

A、正確

B、錯誤

答案:【正確】22.單選題:留一法是交叉驗證法的特殊情況。

選項:

A、正確

B、錯誤

答案:【正確】23.單選題:決策樹方法通常用于關(guān)聯(lián)規(guī)則挖掘。

選項:

A、正確

B、錯誤

答案:【錯誤】24.單選題:在決策樹中,隨著樹中結(jié)點數(shù)變得太大,即使模型的訓練誤差還在繼續(xù)減低,但是檢驗誤差開始增大,這是出現(xiàn)了模型擬合不足的問題。

選項:

A、正確

B、錯誤

答案:【錯誤】25.單選題:分類模型的誤差大致分為兩種:訓練誤差(trainingerror)和泛化誤差(generalizationerror)。

選項:

A、正確

B、錯誤

答案:【正確】26.單選題:Bayes法是一種在已知后驗概率與類條件概率的情況下的模式分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體。

選項:

A、正確

B、錯誤

答案:【錯誤】27.單選題:分類是總結(jié)已有類別對象的特點,并根據(jù)這些特點,進行未知類別對象的類別預(yù)測的過程。又可稱為無監(jiān)督學習。

選項:

A、正確

B、錯誤

答案:【錯誤】28.分類算法針對某個測試數(shù)據(jù)集的有效性通常通過矩陣來反映。

答案:【混淆】29.決策樹中根結(jié)點的層次為。【請?zhí)顚懓⒗當?shù)字】

答案:【1】30.為了評價一個分類模型的性能,我們通常根據(jù)分類模型判斷一組已知類別的對象的類別,這些已知類別的對象構(gòu)成的數(shù)據(jù)集稱為。

答案:【測試數(shù)據(jù)集/測試集】31.假設(shè)某分類器在一個測試數(shù)據(jù)集上的分類結(jié)果的混淆矩陣如下所示,請計算該分類器的錯誤率,以類別yes為正例,計算分類器的查全率recall為%。【保留到整數(shù)位】PredictedyesnoActualyes155no1020

答案:【75】32.假設(shè)某分類器在一個測試數(shù)據(jù)集上的分類結(jié)果的混淆矩陣如下所示,請計算該分類器的錯誤率,以類別yes為正例,計算分類器的查準率precision為%。【保留到整數(shù)位】PredictedyesnoActualyes155no1020

答案:【60】第六單元數(shù)值預(yù)測第六單元測驗1.單選題:在比較模型的擬合效果時,甲、乙、丙、丁四個模型的決定系數(shù)R^2的值分別約為0.96、0.85、0.80和0.7,則擬合效果好的模型是()。

選項:

A、甲

B、乙

C、丙

D、丁

答案:【甲】2.單選題:模型樹的葉子結(jié)點對應(yīng)()。

選項:

A、某個類別

B、一個數(shù)值

C、一個線性回歸方程

D、以上都可以

答案:【一個線性回歸方程】3.單選題:回歸樹的葉子結(jié)點對應(yīng)()。

選項:

A、某個類別

B、一個數(shù)值

C、一個線性回歸方程

D、以上都可以

答案:【一個數(shù)值】4.單選題:決策樹的葉子結(jié)點對應(yīng)()。

選項:

A、某個類別

B、一個數(shù)值

C、一個線性回歸方程

D、以上都可以

答案:【某個類別】5.單選題:下列選項中錯誤的是()。

選項:

A、MST=SST/dfT

B、MSE=SSE/dfE

C、MSR=SSR/dfR

D、SSR=SST+SSE

答案:【SSR=SST+SSE】6.單選題:下面關(guān)于構(gòu)建模型樹的說法中,錯誤的是()。

選項:

A、創(chuàng)建一個結(jié)點t,與結(jié)點t關(guān)聯(lián)的數(shù)據(jù)集記為Dt

B、如果當前結(jié)點t所關(guān)聯(lián)的數(shù)據(jù)集Dt中樣本個數(shù)小于給定閾值或者Dt中樣本的目標屬性取值的標準差小于給定閾值,則將該結(jié)點標記為葉子節(jié)點

C、在選擇分類屬性時,應(yīng)選擇時SDR值最小的屬性

D、SDR代表誤差的期望減少

答案:【在選擇分類屬性時,應(yīng)選擇時SDR值最小的屬性】7.單選題:對于指數(shù)曲線y=a*e^(bx),令u=lny,c=lna,經(jīng)過非線性化回歸分析之后,可以轉(zhuǎn)化成的形式為()。

選項:

A、u=c+bx

B、u=b+cx

C、y=b+cx

D、y=c+bx

答案:【u=c+bx】8.單選題:已知對一組觀察值(xi,yi)作出散點圖后確定具有線性相關(guān)關(guān)系,若對于y=bx+a,求得b=0.51,x=61.75,y=38.14,則線性回歸方程為()。

選項:

A、y=0.51x+6.65

B、y=6.65x+0.51

C、y=0.51x+42.30

D、y=42.30x+0.51

答案:【y=0.51x+6.65】9.單選題:在以下四個散點圖中,其中適用于作線性回歸的散點圖為()。

選項:

A、①②

B、①③

C、②③

D、③④

答案:【①③】10.單選題:在利用linear_model.LinearRegression()構(gòu)造的reg對象訓練模型后,可以通過以下哪行代碼查看回歸模型系數(shù)()。

選項:

A、reg.coefficient_

B、reg._coefficient

C、reg._coef

D、reg.coef_

答案:【reg.coef_】11.單選題:利用linear_model.LinearRegression()訓練模型時調(diào)用.fit()方法需要傳遞的第二個參數(shù)是()。

選項:

A、樣本特征X

B、樣本標簽Y

C、樣本權(quán)重

D、是否考慮計算截距

答案:【樣本標簽Y】12.單選題:利用“l(fā)inear_model.LinearRegression()”訓練模型時調(diào)用.fit()方法需要傳遞的第一個參數(shù)是()。

選項:

A、樣本特征X

B、樣本標簽Y

C、樣本權(quán)重

D、是否考慮計算截距

答案:【樣本特征X】13.單選題:通過代碼”fromsklearnimportlinear_model”引入線性模型模塊,并通過代碼“reg=linear_model.LinearRegression()”構(gòu)造回歸器對象,在訓練后做預(yù)測時要調(diào)用的方法是()。

選項:

A、reg.guess()

B、reg.forecast()

C、reg.predict()

D、reg.outlook()

答案:【reg.predict()】14.單選題:通過代碼”fromsklearnimportlinear_model”引入線性模型模塊,并通過代碼“reg=linear_model.LinearRegression()”構(gòu)造回歸器對象后,在訓練時要調(diào)用的方法是()。

選項:

A、reg.train()

B、reg.fit()

C、reg.learn()

D、reg.predict()

答案:【reg.fit()】15.多選題:常用的非線性函數(shù)除了多項式函數(shù)之外,還包括()。

選項:

A、冪函數(shù)

B、指數(shù)函數(shù)

C、對數(shù)函數(shù)

D、雙曲函數(shù)

答案:【冪函數(shù);指數(shù)函數(shù);對數(shù)函數(shù);雙曲函數(shù)】16.多選題:多元回歸建模后的檢驗包括()。

選項:

A、擬合優(yōu)度檢驗

B、回歸關(guān)系的顯著性檢驗

C、回歸系數(shù)的顯著性檢驗

D、傾向值檢驗

答案:【擬合優(yōu)度檢驗;回歸關(guān)系的顯著性檢驗;回歸系數(shù)的顯著性檢驗】17.多選題:預(yù)測性能的優(yōu)劣需要一定的度量來衡量,常用的度量是()。

選項:

A、MAE(平均絕對誤差)

B、MSE(均方誤差)

C、RSE(相對平方誤差)

D、RAE(相對絕對誤差)

答案:【MAE(平均絕對誤差);MSE(均方誤差);RSE(相對平方誤差);RAE(相對絕對誤差)】18.多選題:()采用自頂向下分而治之的思想,將訓練集不斷分割成子數(shù)據(jù)集來不斷擴展樹枝,當滿足一定條件時停止樹的生長。

選項:

A、決策樹

B、模型樹

C、回歸樹

D、多元回歸

答案:【決策樹;模型樹;回歸樹】19.單選題:K近鄰數(shù)值預(yù)測是利用一個樣本的K個最相似的鄰居的目標屬性的取值來進行預(yù)測。

選項:

A、正確

B、錯誤

答案:【正確】20.單選題:在模型樹的構(gòu)建過程中,分裂屬性的選擇以分裂后的各個子數(shù)據(jù)集中目標屬性取值的標準差為依據(jù),將標準差作為一種誤差度量,將分裂前后標準差的減少量作為誤差的期望減少,稱為SDR。

選項:

A、正確

B、錯誤

答案:【正確】21.單選題:模型樹構(gòu)建之后,為了避免過度擬合,需要對模型樹進行剪枝。

選項:

A、正確

B、錯誤

答案:【正確】22.單選題:回歸系數(shù)的檢驗可以采用t檢驗。

選項:

A、正確

B、錯誤

答案:【正確】23.單選題:多元回歸是對一個自變量和多個因變量之間的回歸分析。

選項:

A、正確

B、錯誤

答案:【錯誤】24.單選題:一元線性回歸的步驟:構(gòu)建包含因變量和自變量的訓練集;通過散點圖確認因變量和自變量之前的近似線性關(guān)系;計算系數(shù)和構(gòu)建模型;模型檢驗;利用模型進行預(yù)測。

選項:

A、正確

B、錯誤

答案:【正確】25.單選題:在模型樹的構(gòu)建過程中,應(yīng)選擇使SDR值最小的屬性。

選項:

A、正確

B、錯誤

答案:【錯誤】26.單選題:回歸樹和模型樹都是通過自下而上、分而治之的思想,將訓練集不斷分割成子數(shù)據(jù)集來不斷擴展樹枝,當滿足一定條件時停止樹的生長。

選項:

A、正確

B、錯誤

答案:【錯誤】27.單選題:在模型樹的剪枝過程中,兩個葉子結(jié)點的期望誤差通過加權(quán)求和結(jié)合在一起作為子樹誤差。

選項:

A、正確

B、錯誤

答案:【正確】28.單選題:為了檢驗回歸系數(shù)的顯著性,可以使用F檢驗。

選項:

A、正確

B、錯誤

答案:【錯誤】29.單選題:的值越接近1,說明回歸直線對觀測值的擬合程度越好。

選項:

A、正確

B、錯誤

答案:【正確】30.單選題:數(shù)值預(yù)測與分類都屬于有監(jiān)督學習,解決問題的過程相同,都是先通過訓練數(shù)據(jù)集進行學習,以得到一個模型然后利用模型進行預(yù)測。

選項:

A、正確

B、錯誤

答案:【正確】31.在模型樹的構(gòu)建過程中,分裂屬性的選擇以分裂后的各個子數(shù)據(jù)集中目標屬性取值的標準差為依據(jù),將標準差作為一種誤差度量,將分裂前后標準差的減少量作為誤差的期望減少,稱為_________(填寫英文簡稱)。

答案:【SDR】32.模型樹構(gòu)建之后,為了避免過度擬合,需要對模型樹進行________。

答案:【剪枝】第七單元聚類分析第七單元測驗1.單選題:P(22,1,42,10),Q(20,0,36,8)為兩個向量對象,這兩個對象的切比雪夫距離是()。

選項:

A、

B、11

C、6

D、

答案:【6】2.單選題:P(22,1,42,10),Q(20,0,36,8)為兩個向量對象,這兩個對象的曼哈頓距離是()。

選項:

A、

B、11

C、6

D、

答案:【11】3.單選題:P(22,1,42,10),Q(20,0,36,8)為兩個向量對象,這兩個對象的歐幾里得距離是()。

選項:

A、

B、11

C、6

D、

答案:【】4.單選題:輪廓系數(shù)的取值范圍是()。

選項:

A、[0,1]

B、[-1,1]

C、[-1,0]

D、[0,∞)

答案:【[-1,1]】5.單選題:給定密度闕值為3,對象o的ξ鄰域中有5個對象,那么o是()。

選項:

A、核心點

B、關(guān)鍵點

C、集中點

D、高密度點

答案:【核心點】6.單選題:k均值聚類的目標是()。

選項:

A、最大化簇間距離

B、最小化簇內(nèi)距離的平方和

C、最大化質(zhì)心距離

D、簇的大小基本一致

答案:【最小化簇內(nèi)距離的平方和】7.單選題:皮爾森相關(guān)系數(shù)取值為()時說明兩個對象最不相似。

選項:

A、0

B、1

C、0.05

D、-1

答案:【-1】8.單選題:余弦相似度適用于()情況。

選項:

A、屬性類型多

B、屬性數(shù)量多

C、有大量零值維度

D、距離相近

答案:【有大量零值維度】9.單選題:P(22,1,42,10),Q(20,0,36,8)為兩個向量對象,這兩個對象的閔可夫斯基距離(x=3)是()。

選項:

A、

B、11

C、6

D、

答案:【】10.單選題:根據(jù)聚類形成的簇的特點,如果有交集的簇之間必然存在包含關(guān)系,這種聚類稱為()。

選項:

A、劃分型聚類

B、層次型聚類

C、重疊聚類

D、以上均不是

答案:【層次型聚類】11.單選題:給定numpy.ndarray類型的數(shù)X,在以下代碼中,eps參數(shù)的含義是()。fromsklearn.clusterimportDBSCANclustering=DBSCAN(eps=3,min_samples=2).fit(X)

選項:

A、收斂條件閾值

B、簇的個數(shù)

C、鄰域半徑

D、每個簇的最小樣本數(shù)

答案:【鄰域半徑】12.單選題:在利用sklearn.cluster.AgglomerativeClustering進行凝聚聚類時,使用的默認距離度量是()。

選項:

A、馬氏距離

B、余弦距離

C、曼哈頓距離

D、歐氏距離

答案:【歐氏距離】13.單選題:以下哪種情況對Kmeans模型的影響較?。ǎ?/p>

選項:

A、給定錯誤聚類個數(shù)

B、數(shù)據(jù)有各向異性分布

C、不同簇的方差相差較大

D、簇的大小分布不均衡

答案:【簇的大小分布不均衡】14.單選題:通過代碼”fromsklearn.clusterimportKMeans”引入Kmenas模塊后,生成模型對象“kmeans=KMeans(n_clusters=3)”并完成對數(shù)據(jù)X完成聚類后,以下哪個代碼可以查看每個樣本所屬簇的標簽()。

選項:

A、kmeans.labels_

B、kmeans.y_

C、kmeans.targets_

D、kmeans.output_

答案:【kmeans.labels_】15.單選題:通過代碼”fromsklearn.clusterimportKMeans”引入Kmenas模塊,生成模型對象“kmeans=KMeans(n_clusters=2)”后,對于數(shù)據(jù)X訓練時要調(diào)用的方法是()。

選項:

A、kmeans.train()

B、kmeans.fit()

C、kmaens.train()

D、kmaens.fit()

答案:【kmeans.fit()】16.多選題:關(guān)于聚類下列說法正確的是()。

選項:

A、聚類有著廣泛的應(yīng)用。

B、聚類可以作為其他數(shù)據(jù)挖掘分析過程的一個基礎(chǔ)處理步驟。

C、聚類可以發(fā)現(xiàn)偏離多數(shù)數(shù)據(jù)對象的孤立點。

D、聚類和分類沒有區(qū)別。

答案:【聚類有著廣泛的應(yīng)用。;聚類可以作為其他數(shù)據(jù)挖掘分析過程的一個基礎(chǔ)處理步驟。;聚類可以發(fā)現(xiàn)偏離多數(shù)數(shù)據(jù)對象的孤立點?!?7.多選題:下面哪些聚類方法易于發(fā)現(xiàn)特殊形狀的簇?

選項:

A、k均值聚類

B、層次聚類

C、DBSCAN

D、基于密度的聚類方法

答案:【DBSCAN;基于密度的聚類方法】18.多選題:下面哪些聚類方法易于發(fā)現(xiàn)具有球形形狀的簇,難以發(fā)現(xiàn)橢圓形或者凹形形狀的簇?

選項:

A、k均值聚類

B、層次聚類

C、DBSCAN

D、基于密度的聚類方法

答案:【k均值聚類;層次聚類】19.單選題:K均值聚類需要提前設(shè)定K值,而凝聚層次法不需要預(yù)先設(shè)置參數(shù)。

選項:

A、正確

B、錯誤

答案:【正確】20.單選題:DBSCAN是一種基于密度的聚類方法,容易發(fā)現(xiàn)特殊形狀的簇。

選項:

A、正確

B、錯誤

答案:【正確】21.單選題:輪廓系數(shù)是將凝聚度和分離度相結(jié)合的一種度量,越大聚類效果越好。

選項:

A、正確

B、錯誤

答案:【正確】22.單選題:基于隨機游走理論的鏈接相似度衡量方法(稱為SimRank)計算兩結(jié)點間的相似度,具有有界性、對稱性、單調(diào)遞增性、三角不等式性質(zhì)。

選項:

A、正確

B、錯誤

答案:【錯誤】23.單選題:凝聚度是用于衡量簇間相似程度的,凝聚度越大越好。

選項:

A、正確

B、錯誤

答案:【正確】24.單選題:凝聚層次聚類法中每次簇的合并可以更改。

選項:

A、正確

B、錯誤

答案:【錯誤】25.單選題:多種屬性相似度的綜合度量,可以先對單個屬性進行相似度度量,然后求所有屬性相似度的均值作為整個對象相似度。

選項:

A、正確

B、錯誤

答案:【正確】26.單選題:攝氏溫度屬于比例屬性。

選項:

A、正確

B、錯誤

答案:【錯誤】27.單選題:聚類分析的過程中,聚類效果較好時屬于同一個簇的對象相似度很高,而屬于不同簇的對象相似度很低。

選項:

A、正確

B、錯誤

答案:【正確】28.Jaccard系數(shù)適用于衡量用________二值屬性描述的對象間的相似度。

答案:【非對稱】29.____屬性分為對稱屬性和非對稱屬性。

答案:【二值】第八單元復(fù)雜數(shù)據(jù)的挖掘第八單元測驗1.單選題:顧客購物序列屬于哪種數(shù)據(jù)類型()

選項:

A、時間序列數(shù)據(jù)

B、符號序列數(shù)據(jù)

C、生物學序列

D、空間數(shù)據(jù)

答案:【符號序列數(shù)據(jù)】2.單選題:()是指大量流入系統(tǒng)、動態(tài)變化的、可能無限的,并且包含多維特征的數(shù)據(jù)。

選項:

A、流數(shù)據(jù)

B、文本數(shù)據(jù)

C、序列數(shù)據(jù)

D、符號數(shù)據(jù)

答案:【流數(shù)據(jù)】3.單選題:典型的文本挖掘任務(wù)包括()

選項:

A、文本分類

B、文本聚類

C、觀點分析

D、以上都是

答案:【以上都是】4.單選題:機動車輛管理者把GPS安裝在汽車上,以便更好地監(jiān)管和引導(dǎo)車輛,所記錄的數(shù)據(jù)屬于()

選項:

A、空間數(shù)據(jù)

B、時空數(shù)據(jù)

C、物聯(lián)網(wǎng)系統(tǒng)數(shù)據(jù)

D、Web數(shù)據(jù)

答案:【時空數(shù)據(jù)】5.單選題:下列屬于異質(zhì)網(wǎng)絡(luò)的是()

選項:

A、朋友網(wǎng)絡(luò)

B、合著者網(wǎng)絡(luò)

C、在線醫(yī)療網(wǎng)絡(luò)

D、網(wǎng)頁網(wǎng)絡(luò)

答案:【在線醫(yī)療網(wǎng)絡(luò)】6.單選題:下列哪項不是時間序列的主要研究方法()

選項:

A、相似性搜索

B、回歸分析

C、趨勢分析

D、序列模式挖掘

答案:【序列模式挖掘】7.多選題:下面哪些是時空數(shù)據(jù)的應(yīng)用()。

選項:

A、動物學家把遙感設(shè)備安裝在野生動物身上,以便分析生態(tài)行為

B、機動車輛管理者把GPS安裝在汽車上,以便更好地監(jiān)管和引導(dǎo)車輛

C、氣象學家使用人造衛(wèi)星和雷達觀察颶風

D、從多媒體數(shù)據(jù)庫中發(fā)現(xiàn)有趣的模式

答案:【動物學家把遙感設(shè)備安裝在野生動物身上,以便分析生態(tài)行為;機動車輛管理者把GPS安裝在汽車上,以便更好地監(jiān)管和引導(dǎo)車輛;氣象學家使用人造衛(wèi)星和雷達觀察颶風】8.多選題:根據(jù)分析目標,Web挖掘可以劃分主要研究領(lǐng)域包括()。

選項:

A、Web內(nèi)容挖掘

B、Web結(jié)構(gòu)挖掘

C、Web使用挖掘

D、Web布局挖掘

答案:【W(wǎng)eb內(nèi)容挖掘;Web結(jié)構(gòu)挖掘;Web使用挖掘】9.單選題:多媒體數(shù)據(jù)挖掘是一個交叉學科領(lǐng)域,涉及圖像處理和理解、計算機視覺、數(shù)據(jù)挖掘和模式識別。

選項:

A、正確

B、錯誤

答案:【正確】10.單選題:“你和任何一個陌生人之間所間隔的人不會超過六個”稱為小世界現(xiàn)象。

選項:

A、正確

B、錯誤

答案:【正確】11.單選題:物聯(lián)網(wǎng)系統(tǒng)由大量相互作用的物理和信息部件組成,其例子包括患者護理系統(tǒng),運輸系統(tǒng)等。

選項:

A、正確

B、錯誤

答案:【正確】12.單選題:網(wǎng)絡(luò)由一個節(jié)點集和一個連接這些節(jié)點的邊集組成。

選項:

A、正確

B、錯誤

答案:【正確】13.單選題:目前大部分系統(tǒng)能夠多次讀取流數(shù)據(jù)。

選項:

A、正確

B、錯誤

答案:【錯誤】14.單選題:多媒體數(shù)據(jù)挖掘是一個交叉學科領(lǐng)域,涉及圖像處理和理解、計算機視覺、數(shù)據(jù)挖掘和模式識別。

選項:

A、正確

B、錯誤

答案:【正確】15.單選題:圖與網(wǎng)絡(luò)挖掘應(yīng)用范圍廣泛,涉及生物信息學、化學情報學、計算機視覺、多媒體和文本檢索。

選項:

A、正確

B、錯誤

答案:【正確】16.單選題:符號序列數(shù)據(jù)由事件或標稱數(shù)據(jù)的長序列組成,通常時間間隔相等。

選項:

A、正確

B、錯誤

答案:【錯誤】17.單選題:生物學序列通常很長,攜帶重要的、復(fù)雜的、隱藏的語義。

選項:

A、正確

B、錯誤

答案:【正確】期末考試《數(shù)據(jù)挖掘與python實踐》期末試卷1.單選題:50、給定numpy.ndarray類型的數(shù)X,在以下代碼中,eps參數(shù)的含義是()fromsklearn.clusterimportDBSCANclustering=DBSCAN(eps=3,min_samples=2).fit(X)

選項:

A、收斂條件閾值

B、簇的個數(shù)

C、鄰域半徑

D、每個簇的最小樣本數(shù)

答案:【鄰域半徑】2.單選題:在利用sklearn.cluster.AgglomerativeClustering進行凝聚聚類時,使用的默認距離度量是()

選項:

A、馬氏距離

B、余弦距離

C、曼哈頓距離

D、歐氏距離

答案:【歐氏距離】3.單選題:以下那種情況對KMeans模型的影響較?。ǎ?/p>

選項:

A、給定錯誤聚類個數(shù)

B、數(shù)據(jù)有各向異性分布

C、不同簇的方差相差較大

D、簇的大小分布不均衡

答案:【簇的大小分布不均衡】4.單選題:通過代碼fromsklearn.clusterimportKMeans引入Kmenas模塊后,生成模型對象kmeans=KMeans(n_clusters=3)并完成對數(shù)據(jù)X完成聚類后,以下哪個代碼可以查看每個樣本所屬簇的標簽()

選項:

A、kmeans.labels_

B、kmeans.y_

C、kmeans.targets_

D、kmeans.output_

答案:【kmeans.labels_】5.單選題:通過代碼fromsklearn.clusterimportKMeans引入KMeans模塊,生成模型對象kmeans=KMeans(n_clusters=2)后,對于數(shù)據(jù)X訓練時可以用以下哪行代碼?()

選項:

A、kmeans.train(X)

B、kmeans.fit(X)

C、KMeans.train(X)

D、KMenas.fit(X)

答案:【kmeans.fit(X)】6.單選題:在利用linear_model.LinearRegression()構(gòu)造的reg對象訓練模型后,可以通過以下哪行代碼查看回歸模型系數(shù)()

選項:

A、reg.coefficient_

B、reg._coefficient

C、reg._coef

D、reg.coef_

答案:【reg.coef_】7.單選題:利用tree.DecisionTreeClassifier()訓練模型時調(diào)用.fit()方法需要傳遞的第一個參數(shù)是()。

選項:

A、樣本特征X

B、樣本標簽Y

C、判斷標準

D、設(shè)置結(jié)點的最小樣本數(shù)量

答案:【樣本特征X】8.單選題:通過代碼fromsklearnimporttree引入決策樹模塊,并通過代碼clf=tree.DecisionTreeClassifier()構(gòu)造分類器對象,在訓練后做預(yù)測時要調(diào)用的方法是()。

選項:

A、clf.predict()

B、clf.forecast()

C、clf.guess()

D、clf.outlook()

答案:【clf.predict()】9.單選題:通過代碼fromsklearnimporttree引入決策樹模塊,并通過代碼clf=tree.DecisionTreeClassifier()構(gòu)造分類器對象后,訓練時要調(diào)用的方法是()。

選項:

A、clf.train()

B、clf.fit()

C、clf.learn()

D、clf.predict()

答案:【clf.fit()】10.單選題:在使用主成分分析法進行數(shù)據(jù)屬性特征提取中,在對數(shù)據(jù)集進行中心化處理后,為了去除冗余和降低噪音,應(yīng)將協(xié)方差矩陣非對角線上的元素化為()。

選項:

A、0

B、-1/2

C、1/2

D、不用處理

答案:【0】11.單選題:特征選擇方法中,一般的啟發(fā)式方法有()。

選項:

A、以上都是

B、逐步增加法

C、逐步遞減法

D、隨機選擇

答案:【以上都是】12.單選題:使用等距離分箱法進行數(shù)據(jù)離散化,數(shù)據(jù)范圍為20,40,50,58,65,80,80,82,86,90,96,105,120,200,區(qū)間個數(shù)為4。下列屬于4個箱的區(qū)間是()。

選項:

A、[110,155)

B、[20,65]

C、(65,110)

D、(155,200]

答案:【[110,155)】13.單選題:使用零均值規(guī)范化方法,年收入屬性的均值為65,標準差為12,則年收入59萬元規(guī)范化后為()。

選項:

A、-0.5

B、-0.2

C、0.3

D、0.5

答案:【-0.5】14.單選題:使用最小-最大法進行數(shù)據(jù)規(guī)范化,需要映射的目標區(qū)間為[0,100],原來的取值范圍是[-10,10]。根據(jù)等比映射的原理,一個值8映射到新區(qū)間后的值是()。

選項:

A、90

B、80

C、85

D、95

答案:【90】15.單選題:利用linear_model.LinearRegression()訓練模型時調(diào)用.fit()方法需要傳遞的第二個參數(shù)是()。

選項:

A、樣本特征X

B、樣本標簽Y

C、樣本權(quán)重

D、是否考慮計算截距

答案:【樣本標簽Y】16.單選題:利用linear_model.LinearRegression()訓練模型時調(diào)用.fit()方法需要傳遞的第一個參數(shù)是()。

選項:

A、樣本特征X

B、樣本標簽Y

C、樣本權(quán)重

D、是否考慮計算截距

答案:【樣本特征X】17.單選題:通過代碼fromsklearnimportlinear_model引入線性模型模塊,并通過代碼reg=linear_model.LinearRegression()構(gòu)造回歸器對象,在訓練后做預(yù)測時要調(diào)用的方法是()

選項:

A、reg.guess()

B、reg.forecast()

C、reg.predict()

D、reg.outlook()

答案:【reg.predict()】18.單選題:通過代碼fromsklearnimportlinear_model引入線性模型模塊,并通過代碼reg=linear_model.LinearRegression()構(gòu)造回歸器對象后,在訓練時要調(diào)用的方法是()

選項:

A、reg.train()

B、reg.fit()

C、reg.learn()

D、reg.predict()

答案:【reg.fit()】19.單選題:在Scikit-learn模塊下,不同分類模型在預(yù)測時,調(diào)用的方法名稱是否相同()。

選項:

A、相同

B、不同

C、視情況而定

D、不知道

答案:【相同】20.單選題:在Scikit-learn模塊下,不同分類模型在訓練時,調(diào)用的方法名稱是否相同()。

選項:

A、相同

B、不同

C、視情況而定

D、不知道

答案:【相同】21.單選題:通過代碼fromsklearnimportmetrics引入評價指標模塊后,面對真實標簽true_label和模型預(yù)測標簽predicted_label,混淆矩陣可通過哪行代碼調(diào)用()

選項:

A、confusion_matrix(true_label,predicted_label)

B、confusion_matrix(predicted_label,true_label)

C、metrics.confusion_matrix(true_label,predicted_label)

D、metrics.confusion_matrix(predicted_label,true_label)

答案:【metrics.confusion_matrix(true_label,predicted_label)】22.單選題:利用tree.DecisionTreeClassifier()訓練模型時調(diào)用.fit()方法需要傳遞的第二個參數(shù)是()。

選項:

A、樣本特征X

B、樣本標簽Y

C、判斷標準

D、設(shè)置結(jié)點的最小樣本

答案:【樣本標簽Y】23.單選題:運行以下代碼fromsklearn.datasetsimportload_irisiris_data=load_iris()iris_data.data.shape輸出結(jié)果為(150,4)。則表示iris數(shù)據(jù)集包括樣本個數(shù)為()。

選項:

A、150

B、4

C、600

D、154

答案:【150】24.單選題:主成分分析方法PCA屬于屬于python中的哪個包()。

選項:

A、sklearn

B、pandas

C、numpy

D、scipy

答案:【sklearn】25.單選題:最小最大規(guī)范化方法MinMaxScaler屬于python中的哪個包()。

選項:

A、sklearn

B、pandas

C、numpy

D、scipy

答案:【sklearn】26.單選題:使用python處理缺失值的方法中敘述錯誤的是()。

選項:

A、interpolate()使用中位數(shù)填充缺失值

B、isnull()判斷缺失值

C、dropna()刪除缺失值

D、fillna()填充缺失值

答案:【interpolate()使用中位數(shù)填充缺失值】27.單選題:數(shù)據(jù)預(yù)處理的任務(wù)不包括()。

選項:

A、數(shù)據(jù)分類

B、數(shù)據(jù)清洗

C、數(shù)據(jù)規(guī)范化和離散化

D、特征提取與特征選擇

答案:【數(shù)據(jù)分類】28.單選題:下列關(guān)于等距離分箱的說法中錯誤的是()。

選項:

A、等距離分箱能使每個區(qū)間內(nèi)包含的取值個數(shù)大致相同

B、又稱為等寬度分箱

C、若區(qū)間個數(shù)為k,每個區(qū)間的間距為I=(max-min)/k

D、等距離分箱可能導(dǎo)致屬于某些的取值非常多,而某些又非常少

答案:【等距離分箱能使每個區(qū)間內(nèi)包含的取值個數(shù)大致相同】29.單選題:主成分分析的步驟是()。

選項:

A、中心化數(shù)據(jù)集-計算協(xié)方差矩陣-計算特征根-計算主成分矩陣-得到降維后的數(shù)據(jù)集

B、中心化數(shù)據(jù)集-計算主成分矩陣-計算協(xié)方差矩陣-計算特征根-得到降維后的數(shù)據(jù)集

C、計算協(xié)方差矩陣-計算主成分矩陣-計算特征根-中心化數(shù)據(jù)集-得到降維后的數(shù)據(jù)集

D、計算協(xié)方差矩陣-計算特征根-中心化數(shù)據(jù)集-計算主成分矩陣-得到降維后的數(shù)據(jù)集

答案:【中心化數(shù)據(jù)集-計算協(xié)方差矩陣-計算特征根-計算主成分矩陣-得到降維后的數(shù)據(jù)集】30.單選題:缺失值處理方法中錯誤的是()。

選項:

A、對于所有屬性都可以使用均值

B、對于分類屬性,使用同類對象屬性值的均值

C、對于離散屬性或定性屬性,使用眾數(shù)

D、轉(zhuǎn)換為分類問題或數(shù)值預(yù)測問題

答案:【對于所有屬性都可以使用均值】31.單選題

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論