《機器學習-Python實踐》習題庫 試題及答案_第1頁
《機器學習-Python實踐》習題庫 試題及答案_第2頁
《機器學習-Python實踐》習題庫 試題及答案_第3頁
《機器學習-Python實踐》習題庫 試題及答案_第4頁
《機器學習-Python實踐》習題庫 試題及答案_第5頁
已閱讀5頁,還剩112頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

《機器學習-Python實踐》習題庫

第一章機器學習入門基礎

一、選擇題

1.人工智能、機器學習、深度學習三者的關(guān)系是怎樣的?

A.人工智能包括機器學習與深度學習兩部分,機器學習與深度學習是并列關(guān)系。

B.深度學習包括人工智能與機器學習兩部分,人工智能與機器學習是并列關(guān)系。

C.人工智能包含機器學習,機器學習包含深度學習,三者屬于包含關(guān)系。

D.深度學習包含人工智能,人工智能包含機器學習,三者屬于包含關(guān)系。

答案:C

解析:當今AI中包含了有兩個關(guān)鍵技術(shù)一一機器學習和深度學習,所以說,其實磯器

學習和深度學習都屬于AI的范疇。只不過,機器學習是AI的一個分支技術(shù),而深度學

習又是機器學習里的特定分支技術(shù),三者是包含關(guān)系,不沖突也不并列。

2.從研究領(lǐng)域角度分,機器學習可分為哪幾大類?

A.監(jiān)督學習B.無監(jiān)督學習C.半監(jiān)督學習D.增強學習

答案:ABCD

解析:教材原話,第一章,1.3小節(jié)。

3.特征選擇的必要性主要在于以下幾點?

A.減少訓練的時間,能使用較少的特征更快地生成模型。

B.簡化模型,使模型更容易被使用者所解釋。

C.可以選擇一些多余的特征。

D.使模型的泛化能力更好,避免過擬合。

答案:ABD

解析:教材原話,第一章,1.4小節(jié)第三步。

4.下面哪個不是特征選攔的主要方法:

A.過濾法(filter)

B.包裹法(wapper)

C.嵌入法(Embedded)

D.幻想法(imagination)

答案:D

解析:特征選擇的方法有過濾法(filter)x包裹法(wcipper)>嵌入法(Embedded)

等。

5.機器學習的應用領(lǐng)域有以下哪些:

A.智能汽車

B.詐騙檢測

C.金融交易

D.個性化營銷推廣

答案:ABCD

解析:人工智能在各行業(yè)應用越來越廣泛,機器學習作為人工智能關(guān)鍵技術(shù)領(lǐng)域,其應

用涉及產(chǎn)品推薦、自動駕駛、金融預測、自然語言處理等領(lǐng)域。

6.以下說法錯誤的是哪一項:

A.Anaconda是一個基于Python的數(shù)據(jù)處理和科學計算*臺,它已經(jīng)內(nèi)置了許多非常有用的

第三方庫

B.PyCharm是一種PythonIDE(IntegratedDevelopmentEnvironment,集成開發(fā)環(huán)境),

帶有一整套可以幫助用戶在使用Python語言開發(fā)時提高其效率的工具

C.JupyterNotebook的本質(zhì)是一個Web應用程序,便于創(chuàng)建和共享文學化程序文檔,支持

實時代碼,數(shù)學方程,可視化和markdowno

D.Spyder是一個Python爬蟲框架。

答案:D

解析:Spyder是Python(x,y)的作者為它開發(fā)的一個簡單的集成開發(fā)環(huán)境。

7.下列選項中機器學習主要涉及三大要素不包含哪個?

A.數(shù)據(jù)

B.設備

C.算法

D.模型

答案:B

解析:機器學習主要涉及數(shù)據(jù)、算法和模型這三大要素。第一章,1.1小節(jié)。

8.在實際的企業(yè)應用場景中,為了讓訓練效果更好,以下哪個操作是錯誤的?

A.清洗不完整的數(shù)據(jù)

B.清洗多噪音的數(shù)據(jù)

C.清洗矛盾和有差異的數(shù)據(jù)

D.刪除關(guān)鍵特征數(shù)據(jù)

答案:D

解析:常識。第一章,L4小節(jié)。

8.在實際的企業(yè)應用場景中,為了讓訓練效果更好,以下哪個操作是錯誤的?

A.清洗不完整的數(shù)據(jù)

B.清洗多噪音的數(shù)據(jù)

C.消洗矛盾和有差異的數(shù)據(jù)

D.刪除關(guān)鍵特征數(shù)據(jù)

答案:D

解析:常識。第一章,1.4小節(jié)。

9.根據(jù)表格,請選擇說法正確的選項?

表1-2臟數(shù)據(jù)舉例

序號姓名性別身高(cm)體重(kg)喜歡的顏色

1001張三男17560藍色

1002李四女160Null紅色

1003王五男25065黑色

1004趙六女16550趙六

A.李四的體重是空值,屬于數(shù)據(jù)不完整的情況。

B.王五的身高是250cm,屬于異常情況。

C.趙六喜歡的顏色是趙六,屬于矛盾情況。

D.以上三種答案均正確

答案:D

解析:常識。第一童,1.4小節(jié)。

10.以下哪個命令可以查看Python的版本號?

A.python-V

B.py-v

C.py-V

D.py-version

答案:A

解析:實訓內(nèi)容。

11.從研究領(lǐng)域角度分,機器學習的類型不包含以下邸種()。

A.監(jiān)督學習

B.無監(jiān)督學習

C.強化學習

D.強調(diào)學習

答案:D

解析:第一章,1.3小節(jié)。

12.常用的Python編程巧境有哪些?

A.Jupyternotebook

B.PyCharm

C.Spyder

D.ScalaIDE

答案:D

解析:D選項是編寫Scala代碼的。

二、判斷題

1.機器學習簡單來說就是讓機器進行學習,學習的目的是實現(xiàn)對世界上的人事物進行預

測或者判斷。

答案:正確

解析:教材原話,第一章,1.2小節(jié)。

2.在機器學習實際的應用場景中,絕對不允許出現(xiàn)錯誤。

答案:錯誤

解析:機器學習實際的應用場景中,允許有一定的錯誤,只是對不同場景的準確率要求

會有所不同。

3.機器學習的一般實施流程,包括數(shù)據(jù)收集、數(shù)據(jù)清洗、特征提取與選擇、模型訓練、

模型評估測試、模型部署應用等步驟。

答案:正確

解析:教材原話,第一章,1.4小節(jié)。

4.數(shù)據(jù)對于模型來說就是至關(guān)重要的,是模型能力的天花板,沒有好的數(shù)據(jù),就沒有好

的模型。

答案:正確

解析:教材原話,第一章,L4小節(jié)。

5.通過在測試集上完成評估的模型,就可以用來預測新數(shù)據(jù)的值.這時,需要將該模型

部署到實際的生產(chǎn)場景中,部署好后為了確保模型的準確性,則不再需要對模型進行調(diào)

整。

答案:錯誤

解析:部署好后,需要根據(jù)業(yè)務場景的真實數(shù)據(jù)對模型進行不斷的微調(diào)。

6.業(yè)界普遍認為機器學習是專門研究計算機怎樣模擬人類的學習行為,進行新知識和新

技能的獲取,并不斷通過重組知識結(jié)構(gòu)來改善自身性能的一種技術(shù)。

答案:正確

解析;參考教材第一章,L1小節(jié)。

7.增強學習,在一些書籍里也稱為強化學習。

答案:正確

解析:擴展題。

8.在機器學習實施流程的特征提取與選擇步驟,我們不會把“藍色”、“紅色”、“黑

色”直接輸入給模型。

答案:正確

解析:需要將類別數(shù)據(jù)編碼成為對應的數(shù)值表示。

9.對于一些商單統(tǒng)計的應用場景,為了體現(xiàn)統(tǒng)計領(lǐng)域的專業(yè)性,也需要使用上機器學習。

答案:錯誤

解析:對于一些簡單統(tǒng)計的應用場景,通過個別規(guī)則就可以解決時,就不需要“大材小

用”地應用機器學習來完成。

10.機器學習本質(zhì)上是一個提高效率的工具。

答案:正確

解析:參考教材第一章,1.2小節(jié)。

三、填空題

1.請給下方圖中序號處填入相應的內(nèi)容:、O

新的數(shù)據(jù)未來屬性

答案:訓練、預測

解析:教材原圖,第一章,1.2小節(jié)。

2.典型的數(shù)據(jù)集類似于一個二維的電子表格或數(shù)據(jù)庫表,每一行稱為一個;每

列的屬性稱為3

答案:數(shù)據(jù)樣本(或者樣本)、特征。

解析:教材原話,第一章,1.4小節(jié)第一步。

3.數(shù)據(jù)經(jīng)過預處理之后,就口J以用來訓練模型,一般會把數(shù)據(jù)集分為和________

答案:訓練集、測試集。

解析:教材原話,第一章,1.4小節(jié)第四步。

4.從研究領(lǐng)域角度分,機器學習可分.四大類。

答案:監(jiān)督學習,無監(jiān)督學習,半監(jiān)督學習,增強學習。

解析:教材原話,第一章,1.3小節(jié)。

5.在實際應用場景中,使用最多的還是和兩大類。

答案:監(jiān)督學習,無監(jiān)督學習。

解析:教材原話,第一章,1.3小節(jié)。

四、問答題

1.請簡述一下對監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習和增強學習的基本概念。

參考答案:

監(jiān)督學習是通過學習已有的標記數(shù)據(jù)樣本構(gòu)建模型,再利用模型對新的數(shù)據(jù)進行預

測。

無監(jiān)督學習也可稱為非監(jiān)督學習,通過學習沒有標記的數(shù)據(jù)樣本,發(fā)掘未知數(shù)據(jù)間

的隱藏結(jié)構(gòu)關(guān)系,從而實現(xiàn)預測。

半監(jiān)督學習,它是一種在預測時,既使用已標記的樣本數(shù)據(jù),也使用未標記的樣本

數(shù)據(jù)的方法,通常情況下,無標記樣本的數(shù)量遠超過有標記樣本,因為有時候獲得有標

記數(shù)據(jù)的成本很高,所以在訓練分類器模型時,先使用部分已經(jīng)標記的數(shù)據(jù),在學習了

數(shù)據(jù)的內(nèi)在結(jié)構(gòu)聯(lián)系以后,再使用大量無標記的數(shù)據(jù)進一步學得更好的模型,從而實現(xiàn)

對數(shù)據(jù)的有效預測。

所謂增強學習,是通過與環(huán)境的交互,以推測和優(yōu)化實際的動作,從而實現(xiàn)決策。

2.如果在模型診斷中發(fā)現(xiàn)了過擬合和欠擬合問題,請簡述解決思路。

參考答案:

過擬合、欠擬合是模型診斷中常見的問題,如果出現(xiàn)過擬合(指所訓練的模型在訓

練集上表現(xiàn)得非常優(yōu)秀,可以有效地區(qū)分每一個樣本,但在測試集上表現(xiàn)得很差),可

以通過增加數(shù)據(jù)量和降低模型復雜度來優(yōu)化,如果出現(xiàn)欠擬合(指所訓練的模型在訓練

集中就已經(jīng)表現(xiàn)得很差,準確度很低),可以通過提高特征數(shù)量和質(zhì)量,增加模型復雜

度來優(yōu)化。

3.請描述機器學習的實施流程

參考答案:

數(shù)據(jù)采集、數(shù)據(jù)清洗、特征提取與選擇、模型訓練'模型評估測試、模型部署應用

4.請簡述人工智能、機器學習、深度學習的關(guān)系。

參考答案:

機器學習為實現(xiàn)人工智能提供了方法,而深度學習則為實現(xiàn)機器學習提供了技術(shù)。

總的來看,其實機器學習和深度學習都屬于AI的范疇,機器學習是AT的一個分支技術(shù),

而深度學習又是機器學習里的特定分支技術(shù),三者是包含關(guān)系,而非并列。

5、請簡述算法、數(shù)據(jù)、模型的概念及關(guān)系。

參考答案:

數(shù)據(jù):輸入給計算機為數(shù)據(jù)。

算法:用系統(tǒng)的方法描述解決問題的策略機制。

模型:指由輸入到輸出的映射關(guān)系。

三者之間的關(guān)系可以理解為:提供數(shù)據(jù)給算法,然后算法通過運算產(chǎn)生模型。

第2-7章

一、選擇題

題目考查范圍:

1.關(guān)干支持向量機SVM,下列說法錯誤的是()

A.L2正則項,作用是最大化分類間隔,使得分類器擁有更強的泛化能力

B.Hinge損失函數(shù),作用是最小化經(jīng)驗分類錯誤

C.分類間隔為l||w||l||w|h||w||代表向量的模

D.當參數(shù)C越小時,分類間隔越大,分類錯誤越多,趨于欠學習

正確答案;C

解析:A正確??紤]加入正則化項的原因:想象一個完美的數(shù)據(jù)集,y>l是正類,

是負類,決策面y=D,加入一個y二-30的正類噪聲樣本,那么決策面將會變“歪”

很多,分類間隔變小,泛化能力減小。加入正則項之后,對噪聲樣本的容錯能力增強,

前面提到的例子里面,決策面就會沒那么“歪”了,使得分類間隔變大,提高了泛化能

力。

B正確。

C錯誤。間隔應該是2||w||2||w||才對,后半句應該沒錯,向量的模通常指的就是

其二范數(shù)。

D正確??紤]軟間隔的時候,C對優(yōu)化問題的影響就在于把a的范圍從[0,+inf]限

制到了[0,C]。C越小,那么a就會越小,目標函數(shù)拉格朗日函數(shù)導數(shù)為0可以求出,a

變小使得w變小,因此間隔2"w|⑵|w||變大

2.假定某同學使用NaiveBayesian(NB)分類模型時,不小心將訓練數(shù)據(jù)的兩個維度

搞重復了,那么關(guān)于NB的說法中正確的是:(BD;

A.這個被重復的特征在模型中的決定作用會被加強

B.模型效果相比無虛復特征的情況下精確度會降低

C.如果所有特征都被重復一遍,得到的模型預測結(jié)果相對于不重復的情況下的模型

預測結(jié)果一樣。

D.當兩列特征高度相關(guān)時,無法用兩列特征相同時所得到的結(jié)論來分析問題

正確答案:B1)

解析:NB的核心在7它假設向量的所有分量之間是獨立的。在貝葉斯理論系統(tǒng)中,

都有一個重要的條件獨立性假設:假設所有特征之間相互獨立,這樣才能將聯(lián)合概率拆

分。

3.關(guān)于Logit回歸和SVM不正確的是(A)

A.Logit回歸本質(zhì)上是一種根據(jù)樣本對權(quán)值進行極大似然估計的方法,而后驗概率

正比于先驗概率和似然函數(shù)的乘積。logit僅僅是最大化似然函數(shù),并沒有最大化后驗

概率,更談不上最小化后驗概率。A錯誤

B.Logit同歸的輸巴就是樣本屬于正類別的幾率,可以計算出概率,正確

C.SVM的目標是找到使得訓練數(shù)據(jù)盡可能分開旦分類間隔最大的超平面,應該屬于

結(jié)構(gòu)風險最小化。

D.SVM可以通過正則化系數(shù)控制模型的復雜度,避免過擬合。

答案:A

答案解析:Logit回歸目標函數(shù)是最小化后驗概率,Logit回歸可以用于預測事件

發(fā)生概率的大小,SVM目標是結(jié)構(gòu)風險最小化,SVM可以有效避免模型過擬合。

4.以下哪些方法不可以直接來對文本分類?(A)

A、KmeansB、決策樹C、支持向量機D、KNN

正確答案:A分類不同于聚類。

解析:A:Kmeans是聚類方法,典型的無監(jiān)督學習方法。分類是監(jiān)督學習方法,BCD都

是常見的分類方法。

5.關(guān)于Logit回歸和SVM不正確的是(A)

A.Logit回歸本質(zhì).上是一種根據(jù)樣本對權(quán)值進行極大似然估計的方法,而后驗概率

正比于先驗概率和似然函數(shù)的乘積。logit僅僅是最大化似然函數(shù),并沒有最大化后驗

概率,更談不上最小化后驗概率。A錯誤

B.Logit回歸的輸日就是樣本屬于正類別的幾率,可以計算出概率,正確

C.SVM的目標是找到使得訓練數(shù)據(jù)盡可能分開口.分類間隔最大的超平面,應該屬于

結(jié)構(gòu)風險最小化。

D.可以通過正則化系數(shù)控制模型的復雜度,避免過擬合。

答案:A

解析:Logit回歸目標函數(shù)是最小化后驗概率,Logit回歸可以用于預測事件發(fā)生

概率的大小,SVM目標是結(jié)構(gòu)風險最小化,SVM可以有效避免模型過擬合。

6.下列不是SVM核函數(shù)的是()

A.多項式核函數(shù)

B.logistic核函數(shù)

C.徑向基核函數(shù)

D.Sigmoid核函數(shù)

正確答案:B

解析:SVM核函數(shù)包括線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)、高斯核函數(shù)、

事指數(shù)核函數(shù)、拉普拉斯核函數(shù)、AN0VA核函數(shù)、二次有理核函數(shù)、多元二次核函數(shù)、

逆多元二次核函數(shù)以及Sigmoid核函數(shù)。

7.模型的高bias是什么意思,我們?nèi)绾谓档退?機器學習ML基礎易

A.在特征空間中減少特征

B.在特征空間中增加特征

C.增加數(shù)據(jù)點

D.B和C

答案:B

解析:bias太高說明模型太簡單了,數(shù)據(jù)維數(shù)不夠,無法準確預測數(shù)據(jù)。

8.假設,現(xiàn)在我們已經(jīng)建了一個模型來分類,而且有了99%的預測準確率,我們可以

下的結(jié)論是:

A.模型預測準確率已經(jīng)很高了,我們不需要做什么了

B.模型預測準確率不高,我們需要做點什么改進模型

C.無法下結(jié)論

D.以上都不對

答案:B

解析:99%的預測準確率可能說明,你預測的沒有點進去的人很準確(因為有99%

的人是不會點進去的,這很好預測).不能說明你的模型對點進去的人預測準確,所以,

對于這樣的非平衡數(shù)據(jù)集,我們要把注意力放在小部分的數(shù)據(jù).匕即那些點擊進去的

人。

9.我們想在大數(shù)據(jù)集上訓練決策樹,為了使用較少時間,我們可以:

A.增加樹的深度

B.增加學習率(learningrate)

C.減少樹的深度

D.減少樹的數(shù)量

答案:C

解析:增加樹的深度,會導致所有節(jié)點不斷分裂,直到葉子節(jié)點是純的為止.所以,

增加深度,會延長訓練時間。

10.對于線性回歸,我們應該有以下哪些假設?

1.找到離群點很重要,因為線性回歸對利群點很敏感

2.線性回歸要求所有變量必須符合正態(tài)分布

3.線性回歸假設數(shù)據(jù)沒有多重線性相關(guān)性

A.1和2

B.2和3

C.1,2和3

D.以上都不是

答案:D

解析:離群點要著重考慮,第一點是對的

不是必須的,當然,如果是正態(tài)分布,訓練效果會更好

有少量的多重線性相關(guān)性是可以的,但是我們要盡量避免

11.關(guān)于正態(tài)分布,下列說法錯誤的是:

A.正態(tài)分布具有集中性和對稱性

B.正態(tài)分布的均值和方差能夠決定正態(tài)分布的位置和形態(tài)

C.正態(tài)分布的偏度為0,峰度為1

D.標準正態(tài)分布的均值為0,方差為1

答案C解析:標準正態(tài)分布即如此。

目標變量在訓練集上的8個實際值[0,0,0,1,1,1,1,1],目標變量的端是多少?

A.-(5/8log(5/8)+3/8log(3/8))

B.5/8log(5/8)+3/8log(3/8)

C.3/8log(5/8)+5/8log(3/8)

D.5/8log(3/8)-3/8log(5/8)

答案為(A)

解析:信息解的計算公式為H(x)=E[I(xi)]=E[log(2,1/P(xi))]=-L

P(xi)log(2,P(xi))(i=l,2,..n)o其中,x表示隨機變量,與之相對應的是所有可能輸

出的集合,定義為符號集,隨機變量的輸出用x表示,P(x)表示輸出概率函數(shù)。變量的

不確定性越大,牖也就越大,把它搞清楚所需要的信息量也就越大。

12.決策樹的父節(jié)點和子節(jié)點的端的大小關(guān)系是什么?

A.決策樹的父節(jié)點更大

B.子節(jié)點的牖更大

C.兩者相等

D.根據(jù)具體情況而定

正確答案:Bo在特征選擇時,應該給父節(jié)點信息增益最大的節(jié)點,而信息增益的

計算為IG(Y|X)=H(Y)-H(Y/X),H(Y/X)為該特征節(jié)點的條件端,H(Y/X)越小,

即該特征節(jié)點的屬性對整體的信息表示越“單純”,IG更大。則該屬性可以更好的分

類。H(Y/X)越大,屬性越“紊亂”,IG越小,不適合作為分類屬性。

13.下列關(guān)于極大似然估計(MaximumLikelihoodEstimate,MLE),說法正確的是(多

選)?

A.MLE可能并不存在

B.MLE總是存在

C.如果MLE存在,那么它的解可能不是唯一的

D.如果MLE存在,那么它的解一定是唯一的

答案:AC

解析:如果極大似然函數(shù)L(0)在極大值處不連續(xù),一?階導數(shù)不存在,則MLE不

存在。

14.一般來說,下列哪種方法常用來預測連續(xù)獨立變量?

A.線性回歸B.邏輯顧

C.線性回歸和邏輯回歸都行D.以上說法都不對

答案:A

解析:線性回歸一般用于實數(shù)預測,邏輯回歸一股用于分類問題。

15.個人健康和年齡的相關(guān)系數(shù)是-1.09o根據(jù)這個你可以告訴醫(yī)生哪個結(jié)論?

A.年齡是健康程度艱好的預測器

B.年齡是健康程度艱糟的預測器

C.以上說法都不對

D:兩者沒關(guān)系

答案:C

16.假如我們利用Y是X的3階多項式產(chǎn)生一些數(shù)據(jù)(3階多項式能很好地擬合數(shù)

據(jù))。那么,下列說法正確的是(多選)?

A.簡單的線性回歸容易造成高偏差(bias)、低方差(variance)

B.簡單的線性回歸容易造成低偏差(bias)、高方差(variance)

C.3階多項式擬合會造成低偏差(bias)>高方差(variance)

D.3階多項式擬合具備低偏差(bias)低方差(variance)

答案:AD

解析:偏差和方差是兩個相對的概念,就像欠擬合和過擬合一樣。如果模型過于簡

單,通常會造成欠擬合,伴隨著高偏差、低方差;如果模型過于復雜,通常會造成過擬

合,伴隨著低偏差、高方差。解析:因為相關(guān)系數(shù)的范圍是[-1,1]之間,所以,T.09

不可能存在。

17.假如你在訓練一個線性回歸模型,有下面兩句話:

1.如果數(shù)據(jù)量較少,容易發(fā)生過擬合。

2.如果假設空間較小,容易發(fā)生過擬合。

關(guān)于這兩句話,下列說法正確的是?

A.1和2都錯誤

B.1正確,2錯誤

C.1錯誤,2正確

D.1和2都正確

答案:B

解析:先來看第1句話,如果數(shù)據(jù)量較少,容易在假設空間找到一個模型對訓練

樣本的擬合度很好,容易造成過擬合,該模型不具備良好的泛化能力。

再來看第2句話,如果假設空間較小,包含的可能的模型就比較少,也就不太可

能找到一個模型能夠?qū)颖緮M合得很好,容易造成高偏差、低方差,即欠擬合。

18.假如我們使用Lasso回歸來擬合數(shù)據(jù)集,該數(shù)據(jù)集輸入特征有100個(XLX2,…,

X100)o現(xiàn)在,我們把其中一個特征值擴大10倍(例如是特征XI),然后用相

同的正則化參數(shù)對Lasso回歸進行修正。那么,下列說法正確的是?

A.特征XI很可能被排除在模型之外

B.特征XI很可能還包含在模型之中

C.無法確定特征XI是否被舍棄

D.以上說法都不對

答案:B

解析:Lasso回歸類似于線性回歸,只不過它在線性回歸的基礎匕增加了一個對

所有參數(shù)的數(shù)值大小約束。

19.假如使用邏輯回歸對樣本進行分類,得到訓練樣本的準確率和測試樣本的準確率。

現(xiàn)在,在數(shù)據(jù)中增加一個新的特征,其它特征保持不變。然后重新訓練測試。則下

列說法正確的是?

A.訓練樣本準確率一定會降低

B.訓練樣本準確率一定增加或保持不變

C.測試樣本準確率一定會降低

D.測試樣本準確率一定增加或保持不變

答案:B

解析?:在模型中增加更多特征一般會增加訓練樣本的準確率,減小bias。但是測

試樣本準確率不一定增加,除非增加的特征是有效特征。

這題對應的知識點也包括了增加模型復雜度,雖然會減小訓練樣本誤差,但是容易

發(fā)生過擬合。

下面這張圖是一個簡單的線性回歸模型,圖中標注了每個樣本點預測值與真實值的

殘差。計算SSE為多少?

X

A.3.02B,0.75C.1.01D.0.604

答案:A

解析:SSE是平方誤差之和(SumofSquaredError),SSE=(-0.2)~2+(0.4).2

+(-0.8).2+(1.3廠2+(-0.7)*2=3.02

20.關(guān)于“回歸(Regression)”和“相關(guān)(Correlation)”,下列說法正確的是?

注意:x是自變量,y是因變量。

A.歸和相關(guān)在x和y之間都是互為對稱的

B.回歸和相關(guān)在x和y之間都是非對稱的

C.回歸在x和y之間是非對稱的,相關(guān)在x和y之間是互為對稱的

D.回歸在x和y之間是對稱的,相關(guān)在x和y之間是非對稱的

答案:C

解析:相關(guān)(Correlation)是計算兩個變量的線性相關(guān)程度,是對稱的。也就是

說,x與y的相關(guān)系數(shù)和y與x的相關(guān)系數(shù)是一樣的,沒有差別?;貧w(Regression)

一般是利用特征x預測輸出y,是單向的、非對稱的。

21.邏輯回歸將輸出概率限定在[0,1]之間。下列哪個函數(shù)起到這樣的作用?

A.Sigmoid函數(shù)

B.tanh函數(shù)

C.ReLU函數(shù)

D.LeakyReLU函數(shù)

答案:A

解析:Sigmoid函數(shù)輸出俏限定在「0,11之間。

22.關(guān)于兩個邏輯回歸模型中的80、131值,下列說法正確的是?注意:y=BO+B

l*x,B0是截距,P1是權(quán)重系數(shù)。

A.綠色模型的B1比黑色模型的B1大

B.綠色模型的B1比黑色模型的B1小

C.兩個模型的B1相同

D.以上說法都不對

答案:B

解析:邏輯回歸模型最終還要經(jīng)過Sigmoid非線性函數(shù),Sigmoid是增函數(shù),其

圖形與上圖中的黑色模型相近。黑色模型是增函數(shù),說明其B1>0,綠色模型是減函數(shù),

說明其Pl<0o所以,得出結(jié)論:綠色模型的B1比黑色模型的B1小。

23.在n維空間中(n:>1),下列哪種方法最適合用來檢測異常值?

A.正態(tài)概率圖

B.箱形圖

C.馬氏距離

D.散點圖

答案:C

解析:正態(tài)概率圖(NormalProbabilityPlot)一般用來檢查一組數(shù)據(jù)是否服從

正態(tài)分布。是實數(shù)與正態(tài)分布數(shù)據(jù)之間函數(shù)關(guān)系的散點圖。如果這組實數(shù)服從正態(tài)分布,

正態(tài)概率圖將是一條直線。

24.邏輯回歸與多元回歸分析有哪些不同之處?

A.邏輯回歸用來預測事件發(fā)生的概率

B.邏輯回歸用來計算擬合優(yōu)度指數(shù)

C.邏輯回歸用來對向歸系數(shù)進行估計

D.以上都是

答案:D

解析:A選項,邏輯回歸是用來解決分類問題的,可以用于預測事件發(fā)生的概率。

B詵項,一般來說,為了測量真實樣本與模型的擬合程度,可以使用謖輯回歸來計

算擬合優(yōu)度指數(shù)。

C選項,在擬合邏輯回歸模型之后,我們還可以根據(jù)系數(shù)值,來判斷各個獨立特征

與目標輸出的關(guān)系(正相關(guān)或負相關(guān))。

25.如果一個SVM模型出現(xiàn)欠擬合,那么下列哪種方法能解決這一問題?

A.增大懲罰參數(shù)C的值

B.減小懲罰參數(shù)C的值

C.減小核系數(shù)(garana參數(shù))

D.以上都不是

答案:A

解析:SVM模型出現(xiàn)欠擬合,表明模型過于簡單,需要提高模型復雜度。

26.我們知道二元分類的輸出是概率值。一般設定輸出概率大于或等于0.5,則預測為

正類;若輸出概率小于0.5,則預測為負類。那么,如果將閾值0.5提高,例如0.6,

大于或等于0.6的才預測為正類。則準確率(Precision)和召回率(Recall)會

發(fā)生什么變化(多選)?

A.準確率(Precision)增加或者不變

B.準確率(Precision)減小

C.召回率(Recall)減小或者不變

D.召回率(Recall)增大

答案:AC

解析:準確率和召回率都不能很好地反映模型性能,通常使用Flscore來作為模

型預測水平判據(jù)。FlScore被定義為準確率和召回率的調(diào)和平均數(shù)。

27.點擊率預測是一個正負樣本不平衡問題(例如99%的沒有點擊,只有1%點擊)。

假如在這個非平衡的數(shù)據(jù)集上建立一個模型,得到訓練樣本的正確率是99%,則卜.

列說法正確的是?

A.模型正確率很高,不需要優(yōu)化模型了

B.模型正確率并不高,應該建立更好的模型

C.無法對模型做出好壞評價

D.以上說法都不對

答案:B

解析:模型訓練過程中正負樣本分布不均是常見的問題。這時候不能單獨只看預測

正確率。對于此題來說,如果我們預測的結(jié)果是100%沒有點擊,0%點擊,那么可以

說正確率是99%,因為只有1%的點擊預測錯誤。但是,我們其實更關(guān)心的那1%的點

擊率并沒有預測出來??梢哉f這樣的模型是沒有任何意義的。對應正負樣本不平衡的情

況需要做一些數(shù)據(jù)處理,主要包括:采樣、數(shù)據(jù)合成、懲罰因子加權(quán)、一分類。其中,

一分類即是在正負樣本分布極不平衡的時候,把它看做一分類(OneClassLearning)

或異常檢測(NoveltyDetection)問題。這類方法的重點不在于捕捉類間的差別,而

是為其中一類進行建模,經(jīng)典的工作包括One-classSVM等。

28.如果在大型數(shù)據(jù)集上訓練決策樹。為了花費更少的時間來訓練這個模型,下列哪種

做法是正確的?

A.增加樹的深度

B.增加學習率

C.減小樹的深度

D.減少樹的數(shù)量

答案:C

解析?:本題考杳的是決策樹相關(guān)概念。一般用決策樹進行分類,從根結(jié)點開始,對

實例的某一特征進行測試,根據(jù)測試結(jié)果,將實例分配到其子結(jié)點。這時,每一個子結(jié)

點對應著該特征的一個取值。如此遞歸地對實例進行測試并分類,直至達到葉結(jié)點。最

后將實例分到葉結(jié)點的類中。一一引自李航《統(tǒng)計學習方法》決策樹深度越深,在訓

練集上誤差會越小,準確率越高。但是容易造成過擬合,而且增加模型的訓練時間。對

決策樹進行修剪,減小樹的深度,能夠提高模型的訓練速度,有效避免過擬合。單決策

樹中,學習率不是一個有效參數(shù)。決策樹是單樹,隨機森林由多個決策樹組成。

29.我們想要訓練一個ML模型,樣本數(shù)量有100萬個,特征維度是5000,面對如

此大數(shù)據(jù),如何有效地訓練模型?

A.對訓練集隨機采徉,在隨機采樣的數(shù)據(jù)上建立模型

B.嘗試使用在線機器學習算法

C.使用PCA算法減少特征維度

D.以上都對

答案:D

解析:本題考查的是如何解決樣本數(shù)量和特征維度過大的問題。

在有限的內(nèi)存下,如何處理高特征緯度的訓練樣本是一項非常艱巨的任務。下面這

些方法可以用來解決這一問題。

我們可以隨機抽樣數(shù)據(jù)集,包括樣本數(shù)量和特征數(shù)量。這意味著,我們可以創(chuàng)建一

個更小的數(shù)據(jù)集,比如說,有1000個特征和300000個樣本進行訓練。

使用在線學習(onlinelearning)算法

使用主成分分析算法(PCA)挑選有效的特征,去除冗余特征。

關(guān)于在線學習與離線學習,離線學習是我們最為常見的一種機器學習算法模式,使

用全部數(shù)據(jù)參與訓練。訓練完成,整個模型就確定了;而在線學習一般每次使用一個數(shù)

據(jù)或是小批量數(shù)據(jù)進行訓練,每次訓練都會優(yōu)化模型,模型處于不斷優(yōu)化更改狀態(tài)。

PCA(principalComponentAnalysis),是一種使用最廣泛的數(shù)據(jù)壓縮算法。在PCA

中,數(shù)據(jù)從原來的坐標系轉(zhuǎn)換到新的坐標系,由數(shù)據(jù)本身決定。轉(zhuǎn)換坐標系時,以方差

最大的方向作為坐標軸方向,因為數(shù)據(jù)的最大方差給出了數(shù)據(jù)的最重要的信息。第一個

新坐標軸選擇的是原始數(shù)據(jù)中方差最大的方法,第二個新坐標軸選擇的是與第?個新坐

標軸正交且方差次大的方向。重復該過程,重復次數(shù)為原始數(shù)據(jù)的特征維數(shù)。

30.機器學習中做特征選擇時,可能用到的方法有?

a.卡方b.信息增益c.平均互信息d.期待交叉燧

答案:ABCD

解析:在文本分類中,首先要對數(shù)據(jù)進行特征提取,特征提取中又分為特征選擇和特征

抽取兩大類,在特征選擇算法中有互信息,文檔頻率,信息增益,卡方檢驗以及期望交

叉埔。

期望交叉蟒,以文本分類為例子,期望交叉燃用來度量一個詞對于整體的重要程度。

在ID3決策樹中,也使用信息增益作為特征選擇的方法,在C4.5決策樹中,使用信息

增益比作為特征選擇的方法,在CART中,使用基尼指數(shù)作為特征選擇的方法

31.如何在監(jiān)督式學習中使用聚類算法(多選)?

A.首先,可以創(chuàng)建聚類,然后分別在不同的集群上應用監(jiān)督式學習算法

B.在應用監(jiān)督式學習算法之前,可以將其類別ID作為特征空間中的一個額外的特征

C.在應用監(jiān)督式學習之前,不能創(chuàng)建聚類

D.在應用監(jiān)督式學習算法之前,不能將其類別ID作為特征空間中的一個額外的特征

答案:AB

解析:本題考查的是聚類算法與監(jiān)督式學習。

我們可以為不同的集群構(gòu)建獨立的機器學習模型,并且可以提高預測精度。將每個類別

的W作為特征空間中的一個額外的特征可能會提高的精度結(jié)果。

32.下面哪句話是F確的?

A.機器學習模型的精準度越高,則模型的性能越好

B.增加模型的復雜度,總能減小測試樣本誤差

C.增加模型的復雜度,總能減小訓練樣本誤差

D.以上說法都不對

答案;C

解析:本題考查的是機器學習模型的評判指標。機器學習模型的精準度(Precision)

越高,模型性能不一定越好,還要看模型的召回率(Recall),特別是在正負樣本分布

不均的情況下。一般使用Flscore評判標準。

33.如果使用線性回歸模型,下列說法正確的是?

A.檢查異常值是很重要的,因為線性回歸對離群效應很敏感

B.線性回歸分析要求所有變量特征都必須具有正態(tài)分布

C.線性回歸假設數(shù)據(jù)中基本沒有多重共線性

D.以上說法都不對

答案:A

解析:本題考查的是線性回歸的一些基本原理。異常值是數(shù)據(jù)中的一個非常有影響

的點,它可以改變最終回歸線的斜率。因此,去除或處理異常值在回歸分析中一直是很

重要的。了解變量特征的分布是有用的。類似于正態(tài)分布的變量特征對提升模型性能很

利幫助。例如,數(shù)據(jù)預處埋的時候經(jīng)常做的一件事就是將數(shù)據(jù)特征歸一化到(0,1)分

布。但這也不是必須的。當模型包含相互關(guān)聯(lián)的多個特征時,會發(fā)生.多重共線性。因此,

線性回歸中變量特征應該盡量減少冗余性。C選擇絕對化了。

34.建立線性模型時,我們看變量之間的相關(guān)性。在尋找相關(guān)矩陣中的相關(guān)系數(shù)時,如

果發(fā)現(xiàn)3對變量(Vari和Var2、Var2和Var3>Var3和Vari)之間的相關(guān)性

分別為-0.98、0.45和1.23。我們能從中推斷出什么呢?

A.Vari和Var2具有很高的相關(guān)性

B.Vari和Var2存在多重共線性,模型可以去掉其中一個特征

C.Var3和Vari相關(guān)系數(shù)為1.23是不可能的

D.以上都對

答案:D

解析:本題考查的是相關(guān)系數(shù)的基本概念。

Vari和Var2之間的相關(guān)性非常高,并且是負的,因此我們可以將其視為多重共

線性的情況。此外,當數(shù)據(jù)中存在多重線性特征時,我們可以去掉一個。一般來說,如

果相關(guān)大于0.7或小于-0.7,那么我們認為特征之間有很高的相關(guān)性。第三個選項是

不言自明的,相關(guān)系數(shù)介于[-1,1]之間,1.23明顯有誤。

35.下列哪種方法可以用來減小過擬合?(多選)

A.更多的訓練數(shù)據(jù)

B.LI正則化

C.L2正則化

D.減小模型的復雜度

答案:案CD

解析:增加訓練樣本、L1正則化、L2正則化、減小模型復雜度都能有效避免發(fā)生

過擬合。

36.向量X=[l,2,3,4,-9,0]的L1范數(shù)為?

A.1

B.19

C.6

D.VIII

答案:B

解析:L0范數(shù)表示向量中所有非零元索的個數(shù);L1范數(shù)指的是向量中各元素的絕

對值之和,乂稱“稀疏矩陣算子”;L2范數(shù)指的是向量中各元素的平方和再求平方根。

本例中,L0范數(shù)為5,L1范數(shù)為19,L2范數(shù)為Vlllo

37.關(guān)于LI、L2正則化下列說法正確的是?

A.L2正則化能防止過擬合,提升模型的泛化能力,但L1做不到這點

B.L2正則化技術(shù)又稱為LassoRegularization

C.L1正則化得到的解更加稀疏

D.L2正則化得到的解更加稀疏

答案:C

解析:口、L2正則化都能防止過擬合,提升模型的泛化能力。L1正則化技術(shù)又稱

為LassoRegularization<,L1正則化得到的解更加稀疏。

38.有N個樣本,一般用于訓練,一般用于測試。若增大N值,則訓練誤差和測試

誤差之間的差距會如何變化?

A.增大

B.減小

C.不變

D.以上均不對

答案:B

解析:增加數(shù)據(jù),能夠有效減小過擬合,減小訓練樣本誤差和測試樣本誤差之間的

差距。

39.在回歸模型中,下列哪一項在權(quán)衡欠擬合(under-Fitting)和過擬合(over-fitting)

中影響最大?

A.多項式階數(shù)

B.更新權(quán)重w時,使用的是矩陣求逆還是梯度下降

C.使用常數(shù)項

D.學習率

答案:A

解析:選擇合適的多項式階數(shù)非常重要。如果階數(shù)過大,模型就會更加復雜,容易

發(fā)生過擬合;如果階數(shù)較小,模型就會過于簡單,容易發(fā)生欠擬合。如果有對過擬合和

欠擬合概念不清楚的。

40.下列哪一項能反映出X和Y之間的強相關(guān)性?

A.相關(guān)系數(shù)為0.9

B.對于無效假設8=0的p值為0.0001

C.對于無效假設8=0的t值為30

D.以上說法都不時

答案:A

解析:相關(guān)系數(shù)的概念我們很熟黑,它反映了不同變量之間線性相關(guān)程度,一般用r表

示。r取值范圍在[-1,1]之間,r越大表示相關(guān)程度越高。A選項中,廠0.9表示X

和Y之間有較強的相關(guān)性。而p和t的數(shù)值大小沒有統(tǒng)計意義,只是將其與某一個

閾值進行比對,以得到二選一的結(jié)論。

41.機器學習中做特征選擇時,可能用到的方法有?(ABCD)

A.卡方

B.信息增益

C.平均互信息

D.期望交叉燃

答案:ABCD

42.以下說法中正確的是(C)

A.SVM對噪聲(如來自其他分部的噪聲樣本)具備魯棒性

B.在adaboost算法中,所有被分錯樣本的權(quán)重更新;匕例相同

C.boosting和bagging都是組合多個分類器投票的方法,二者都是根據(jù)單個分類器的

正確率確定其權(quán)重

D.給定n個數(shù)據(jù)點,如果其中一半用于訓練,一半用戶測試,則訓練誤差和測試誤差

之間的差別會隨著n的增加而減少

43.以下描述錯誤的是(C)

A.SVM是這樣一個分類器,它尋找具有最小邊緣的超平面,因此它也經(jīng)常被稱為最小邊

緣分類器

B.在聚類分析當中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差

C.在決策樹中,隨著樹中結(jié)點輸變得太大,即使模型的訓練誤差還在繼續(xù)降低,但是

檢驗誤差開始增大,這是出現(xiàn)J'模型擬合不足的原因

D.聚類分析可以看作是一種非監(jiān)督的分類

44.若在二維空間中線性不可分,SVM算法會通過()方法解決。

A.核函數(shù)

B.激活函數(shù)

C.剪枝

D.特征選擇

答案:A

解析:線性不可分場景使用核函數(shù)。

45.線性回歸能完成的任務是(B)

A.預測離散值

B.預測連續(xù)值

C.分類

D.聚類

答案:B

解析:線性回歸能完成的任務是預測連續(xù)值。

46.產(chǎn)量(X,臺)與單位產(chǎn)品成本(y,元/臺)之家你的回歸方程為y=356T.5x,這說

明(D)

Ao產(chǎn)量每增加一臺,單位產(chǎn)品成本增加356元

Bo產(chǎn)品每增加一臺,單位產(chǎn)品的成本減少1.5元

C.產(chǎn)量每增加一臺,單位產(chǎn)品的成本平均增加356元

Do產(chǎn)量每增加一臺,單位產(chǎn)品成本平均減少1.5元

解析;首先觀察這個函數(shù),y-356-1.5x,這條直線的斜率是負值,從直線可以看出,y

與x之間呈反比關(guān)系??墒歉鶕?jù)實際情況而言,當產(chǎn)量越來越多的時候,成本就越來越

少,那么當x無限接近于正無窮的時候,x豈不是為負值了嗎???不知道你們遠不愿

意,反正如果是我的話,我肯定不愿意。所以說他只是在某一個階段符合上述條件。當

x=l,y=354.5;當*二2,丫二253鵬二3,丫二351.5;將這三個數(shù)進行計算,平均值是1.5.所以正

確答案為D

47.直線方程y=wx+b,其中b表示(B)

A.系數(shù)B截距

C.斜率D權(quán)重

解析:在機器學習中w表示系數(shù),斜率和權(quán)重,b表示截距

48.以下描述中,對梯度解釋正確的是(AB)

A梯度是一個向量,有方向有大小

B求梯度就是對梯度向量的各個元素求偏導

C梯度只有大小沒有方向

D梯度只有方向沒有大小

解析:Ihela是一個兒行兒列的矩陣,求偏導之后還是一個矩陣。所以說梯度是一個向

量,有方向有大小。定義,求梯度就是對梯度向量的各個元素求偏導。

49.關(guān)于誤差£的說法正確的是(AB)

A誤差可以看做隨機比變量

B誤差的概率分布符合正態(tài)分布

C誤差的概率分布符合均勻分布

D如果模型設計優(yōu)良,誤差可以避免

解析:誤差是ytrue與yhal的差值,它的值是不固定的,他是可以看做隨機變量的。

誤差的概率分布符合正態(tài)分布的規(guī)律。從生活中獲取到的數(shù)據(jù)是不完備的,誤差是不可

以避免的。

50.標準差與方差的關(guān)系是(ABC)

A標準差是方差的算術(shù)平方根

B標準差可以反映離散程度,也可以反映出樣本的量綱

C方差只能反映離散程度

D標準差的平方是方差

解析:標準差是方差的算術(shù)平方根,標準差的平方是方差,標準差可以反映數(shù)據(jù)的離散

程度,也可以反映樣本的量綱

51.SVM中的核技巧(Kernaltrick)的作用包括以下哪項?

A.特征升維

B.特征降維

C.防止過擬合

答案:c

核技巧使用核函數(shù)將樣本從原特征空間映射到更高維的空間,使得樣本在更高維的空間

中線性可分。

52.在數(shù)據(jù)預處理階段,我們常常對數(shù)值特征進行歸一化或標準化(slandardizalion,

normalization)處理。這種處理方式理論上不會對下列哪個模型產(chǎn)生很大影響?

A.k-Means

B.k-NN

C.決策樹

答案:c

kfeans和k-NN都需要使用距離。而決策樹對于數(shù)值特征,只在乎其大小排序,而非絕

對大小。不管是標準化或者歸一化,都不會影響數(shù)值之間的相對大小。關(guān)于決策樹如何

對數(shù)值特征進行劃分

53.選擇Logistic回歸中的One-Vs-All方法中的哪個選項是真實的。

A我們需要在n類分類問題中適合n個模型

B我們需要適合n-1個模型來分類為n個類

C我們需要只適合1個模型來分類為n個類

D這些都沒有

正確答案是:A

解析:如果存在n個類,那么n個單獨的邏輯回歸必須與之相適應,其中每個類的概

率由剩余類的概率之和確定。

54.假設對給定數(shù)據(jù)應用了Logistic回歸模型,并獲得了訓練精度X和測試精度Yo現(xiàn)

在要在同一數(shù)據(jù)中添加一些新特征,以下哪些是錯誤的選項。

注:假設剩余參數(shù)相同。

A訓練精度提高

B訓練準確度提高或保持不變

C測試精度提高或保持不變

正確答案是:B

解析:將更多的特征添加到模型中會增加訓練精度,因為模型必須考慮更多的數(shù)據(jù)來適

應邏輯回歸。但是,如果發(fā)現(xiàn)特征顯著,則測試精度將會增加

55.假定特征F1可以取特定值:A、B、C、D、E和F,其代表著學生在大學所獲得的

評分。在下面說法中哪一項是正確的?

A特征F1是名義變量(nominalvariable)的一個實例。

B特征F1是有序變量(ordinalvariable)的一個實例。

C該特征并不屬于以上的分類。

D以上說法都正確。

正確答案是;B

解析:有序變量是一種在類別上有某些順序的變量。例如,等級A就要比等級B所代

表的成績好一些。

56.下面哪一項對梯度下降(GD)和隨機梯度下降(SGD)的描述是正確的?

1在GD和SGD中,每一次迭代中都是更新一組參數(shù)以最小化損失函數(shù)。

2在SGD中,每一次迭代都需要遍歷訓練集中的所有樣本以更新一次參數(shù)。

3在GD中,每一次迭代需要使用整個訓練集的數(shù)據(jù)更新一個參數(shù)。

A只有1

B只有2

C只有3

D都正確

正確答案是:A

解析:在隨機梯度下降中,每一次迭代選擇的批量是由數(shù)據(jù)集中的隨機樣本所組成,但

在梯度下降,每一次迭代需要使用整個訓練數(shù)據(jù)集。

57.假定你正在處理類屬特征,并且沒有查看分類變量在測試集中的分布?,F(xiàn)在你想將

onehotencoding(OHE)應用到類屬特征中。

那么在訓練集中將OHE應用到分類變量可能要面臨的困難是什么?

A分類變量所有的類別沒有全部出現(xiàn)在測試集中

B類別的頻率分布在?訓練集和測試集是不同的

C訓練集和測試集通常會有一樣的分布

DA和B都正確

正確答案是:D

解析:A、B項都正確,如果類別在測試集中出現(xiàn),但沒有在訓練集中出現(xiàn),0HE將會

不能進行編碼類別,這將是應用OHE的主要困難。選項B同樣也是正確的,在應用OHE

時,如果訓練集和測試集的頻率分布不相同,我們需要多加小心。

假定你現(xiàn)在解決一個有著非常不平衡類別的分類問題,即主要類別占據(jù)了訓練數(shù)據(jù)的

99%o現(xiàn)在你的模型在測試集上表現(xiàn)為99%的準確度,那么下面哪一項表述是正確的?

1準確度并不適合于衡量不平衡類別問題

2準確度適合于衡量不平衡類別問題

3精確率和召回率適合于衡量不平衡類別問題

3精確率和召回率不適合于衡量不平衡類別問題

A1and3

B1and4

C2and3

D2and4

正確答案是:A

58.假設我們有一個數(shù)據(jù)集,在一個深度為6的決策樹的幫助下,它可以使用100%的

精確度被訓練?,F(xiàn)在考慮一下兩點,并基于這兩點選擇正確的選項。

注意:所有其他超參數(shù)是相同的,所有其他因子不受影響。

1深度為4時將有高偏差和低方差

2深度為4時將有低偏差和低方差

A只有1

B只有2

C1和2

D沒有一個

正確答案是:A

解析:如果在這樣的數(shù)據(jù)中你擬合深度為4的決策樹,這意味著其更有可能與數(shù)據(jù)欠

擬合。因此,在欠擬合的情況下,你將獲得高偏差和任方差。

59.假設你正在做一個項目,它是一個二元分類問題,你在數(shù)據(jù)集上訓練一個模型,并

在驗證數(shù)據(jù)集上得到混淆矩陣。基于上述混淆矩陣,下面哪個選項會給你正確的預

測。

1精確度是飛.91

2錯誤分類率是飛.91

3假正率(Falsecorrectclassification)是~0.95

4真正率(Truepositiverate)是?0.95

A1和3

B2和4

C1和4

D2和3

正確答案是:C

解析:精確度(正確分類)是(50+100)/165,約等于0.91。真正率是你正確預測正分

類的次數(shù),因此真正率將是100/105=0.95,也被稱作敏感度或召回。

60.對于下面的超參數(shù)來說,更高的值對于決策樹算法更好嗎?

1用于拆分的樣本量

2樹深

3樹葉樣本

A1和2

B2和3

C1和3

D1、2和3

E無法分辨

正確答案是:E

解析:對于選項A、B、C來說,如果你增加參數(shù)的值,性能并不一定會提升。例如,

如果我們有一個非常高的樹深值,結(jié)果樹可能會過擬合數(shù)據(jù),并且也不會泛化。另一方

面,如果我們有一個非常低的值,結(jié)果樹也許與數(shù)據(jù)欠擬合。因此我們不能確定更高的

侑對于決策樹算法就更好。

61.假如我們使用非線性可分的SVM目標函數(shù)作為最優(yōu)化對象,我們怎么保證模型線性

可分?

A設C=1

B設C=0

C設C=無窮大

D以上都不對

答案:C解析:無窮大保證了所有的線性不可分都是可以忍受的.

62.NaveBayes是一種特殊的Bayes分類器,特征變量是X,類別標簽是C,它的一個假定

是:()

A.各類別的先驗概率P(C)是相等的

B.以0為均值,sqr(2)/2為標準差的正態(tài)分布

C.特征變量X的各個維度是類別條件獨立隨機變量

D.P(XC)是高斯分布

正確答案:C

解析:樸素貝葉斯的條件就是每個變量相互獨立

63.假定某同學使用NaiveBayesian(NB)分類模型時,不小心將訓練數(shù)據(jù)的兩個維度

搞重復了,那么關(guān)于NB的說法中正確的是:

A.這個被重復的特征在模型中的決定作用會被加強

B.模型效果相比無重復特征的情況下精確度會降低

C.如果所有特征都被重復一遍,得到的模型預測結(jié)果相對于不重復的情況下的模型預測

結(jié)果一樣。

D.當兩列特征高度相關(guān)時,無法用兩列特征相同時所得到的結(jié)論來分析問題

正確答案:BD

64.統(tǒng)計模式分類問題中,當先驗概率未知時,可以使用()

A.最小最大損失準則

B.最小誤判概率準則

C.最小損失準則

D.N-P判決

正確答案:AD

65.甲盒中有200個螺桿,其中有160個A型螺桿;乙盒中有240個螺母,其中有

180個A型的?,F(xiàn)從甲乙兩盒中各任取一個,則能配成A型螺栓的概率為多少?

A.1/20

B.15/16

C.3/5

D.19/20

參考答案:C

解析:這題也很簡單了,P(A型螺桿)*P(A型螺母)=3/5。

66.一個部門1/2為系統(tǒng)工程師,2/5為軟件工程師,1/4兩者都是,那么兩者都不是

的比例?

A.0.23

B.0.35

C.0.4

D.0.32

參考答案:B

解析:P(都不是)=1-(P(系統(tǒng)工程師)+P(軟件工程師)-P(兩者都是))

67.有朋自遠方來,他乘火車,輪船,汽車,飛機來的概率分別是也3,0.2,0.1,0.4,

從各交通工具遲到的概率分別是1/4,1/3,1/12,0,下列語句中正確的?

A.如果他遲到,乘火車來的概率是0.5o

B.如果他準點,坐輪船或汽車的概率等于坐火車的概率。

C.如果他準點,那么乘飛機的概率大于等于0.5。

D.坐陸路(火車、汽車)交通工具準點機會比坐水路(輪船)要低。

參考答案:AB

解析:

乘坐火車遲到的概率為:3/10*1/4=9/120

乘坐輪船遲到的概率為:2/10*1/3=8/120

乘坐汽車遲到的概率為:1/10*1/12=1/120

乘坐飛機遲到的概率為:4/10*0=0

遲到概率:9/120+8/120+1/120=18/120;

乘坐火車準點的概率為:3/10*(1-1/4)=27/120

乘坐輪船準點的概率為:2/10*(1-1/3)=16/120

乘坐汽車準點的概率為:1/10*(1-1/12)=11/120

乘坐飛機準點的概率為:4/10*1=48/120

A:9/120/18/120=0.5對

B:16/120+11/120=27/120對

C:48/120/(27+16+11+48)/120=48/102錯

D:27/120+11/120>16/120錯

68.對于信息增益,決策樹分裂節(jié)點,下面說法正確的是()

1純度高的節(jié)點需要更多的信息去區(qū)分

2信息增益可以用"1比特一蠟”獲得

3如果選擇一個屬性具有許多歸類值,那么這個信息增益是有偏差的

A1

B2

C2和3

D所有以上

答案:C

純度越高,表示不確定越少,更少的信息就可以區(qū)分

69.假設三個稠密矩陣(DenseMatrix)A,B,C的尺寸分別為n*q和p*q,且

m<n<p<qm<n<p<q,一下計算順序會加速的是?

(AB)C

B.AC(B)

A(BC)

所有效率都相同

答案:A

(AB)C要mp(2nT)+mq(2pT)次運算;

A(BC)要nq(2p-l)mq(2nT)次運算:

又因為m<n<p<q又因為所以

mp(2n-1)<mq(2n-1);mp(2n-1)<mq(2n;

mq(2p-l)<nq(2p-l);mq(2p-l)<nq(2p-l);

所以(AB)C運算次數(shù)最少,效率最高;越小越要先乘

70.梯度下降可以從以下哪些地方調(diào)優(yōu)?

A.學習率

B.參數(shù)初始值

C.歸一化

D.激活函數(shù)

答案:ABC

71.以下()不屬于線性分類器最佳準則?

A感知準則函數(shù)B貝葉斯分類C支持向量機DFisher準則

答案B

解析:

線性分類器有三大類:感知器準則函數(shù)、SVM、Fisher準則,而貝葉斯分類器不是線性

分類器。

感知準

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論