下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1題數(shù)據(jù)取樣時(shí),除了要求抽樣時(shí)嚴(yán)把質(zhì)量關(guān)外,還要求抽樣數(shù)據(jù)必須在足夠范圍內(nèi)有代表性。第2題分類是總結(jié)已有類別對(duì)象的特點(diǎn),并根據(jù)這些特點(diǎn),進(jìn)行未知類別對(duì)象的類別預(yù)測(cè)的過程,又可稱為無監(jiān)督學(xué)習(xí)。第3題數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中篩選出有效的、可信的以及隱含信息的高級(jí)處理過程。第4題數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成數(shù)據(jù)描述、預(yù)測(cè)數(shù)據(jù)等任務(wù).第5題數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成數(shù)據(jù)描述、預(yù)測(cè)數(shù)據(jù)等任務(wù)。第1題定量屬性可以是整數(shù)值或者是連續(xù)值。第2題卡方測(cè)試用來度量離散標(biāo)稱屬性數(shù)據(jù)的相關(guān)性。第3題數(shù)據(jù)清洗的主要目的是將數(shù)據(jù)集中存在的什么問題進(jìn)行處理,降低其對(duì)后續(xù)數(shù)據(jù)分析處理的影響。A噪聲B缺失C最大值D最小值正確答案:BC第4題下列對(duì)學(xué)生的描述屬性中,標(biāo)稱屬性的屬性是:A頭發(fā)顏色B身高C婚姻狀況D學(xué)號(hào)正確答案:AC第5題給定df是一個(gè)DataFrame對(duì)象,對(duì)df所有字段進(jìn)行描述性統(tǒng)計(jì),可以利用的方法為:Adf.summary()Bdf.statistics()Cdf.describe()Ddf.mean()第6題descirbe()函數(shù)統(tǒng)計(jì)各個(gè)屬性的非空值數(shù)、平均值、標(biāo)準(zhǔn)差、最大值、最小值以及默認(rèn)為(25%、50%、75%)分位數(shù)等。第7題指定k1,k2兩列,去除重復(fù)保留出現(xiàn)的第一行,可用drop_duplicates([‘k1’,‘k2’]])。第8題采用分箱方法不能進(jìn)行數(shù)據(jù)離散化。第9題數(shù)據(jù)歸約是用來得到數(shù)據(jù)集的歸約表示,它比源數(shù)據(jù)集小得多,但仍接近于保持源數(shù)據(jù)的完整性。第10題數(shù)據(jù)取樣時(shí),除了要求抽樣時(shí)嚴(yán)把質(zhì)量關(guān)外,還要求抽樣數(shù)據(jù)必須在足夠范圍內(nèi)有代表性。第四章關(guān)聯(lián)分析技術(shù)章節(jié)測(cè)試第1題給定最小支持度閾值minsup,一個(gè)頻繁項(xiàng)集的所有非空子集都是頻繁的。第2題逐層發(fā)現(xiàn)算法Apriori發(fā)現(xiàn)頻繁項(xiàng)集的過程是按照項(xiàng)集的長(zhǎng)度由大到小逐級(jí)進(jìn)行的。第3題在多層次關(guān)聯(lián)規(guī)則分析中,如果將商品進(jìn)行歸類,每一商品類別的支持度會(huì)()其包含的每個(gè)商品的支持度,從而有利于發(fā)現(xiàn)一些有意義的頻繁模式或關(guān)聯(lián)規(guī)則。A大于B不確定C小于D等于第4題非頻繁項(xiàng)集的超集有可能是頻繁的。第5題只要有兩個(gè)頻繁3項(xiàng)集,就一定能夠生成一個(gè)候選4項(xiàng)集。第6題頻繁項(xiàng)集的非空子集一定是頻繁項(xiàng)集。第7題尋找模式和規(guī)則主要是對(duì)數(shù)據(jù)進(jìn)行干擾,使其符合某種規(guī)則以及模式。第8題數(shù)據(jù)庫(kù)有5個(gè)事物,設(shè)min_sup=60%,min_conf=80%。TID購(gòu)買的商品I100{M,O,N,K,E,Y}I200{D,O,N,K,E,Y}I300{M,A,K,E}I400{M,U,C,K,Y}I500{C,O,O,K,I,E}使用Apriori算法找出所有頻繁項(xiàng)集包括:A頻繁1項(xiàng)集:{M},{O},{K},{E},{Y}B頻繁2項(xiàng)集:{M,K},{O,K},{O,E},{K,E},{K,Y}C頻繁3項(xiàng)集:{O,K,E}D頻繁4項(xiàng)集:{O,N,K,E}正確答案:ABC第9題設(shè)X={1,2,3}是頻繁項(xiàng)集,則可由X產(chǎn)生關(guān)聯(lián)規(guī)則的個(gè)數(shù)為()A4B5C6D7第五章決策樹章節(jié)測(cè)試第1題如何查看決策樹的測(cè)試精度?Aconfusion_matrix()函數(shù)Bscore()函數(shù)Cfit()函數(shù)D其他選項(xiàng)都不對(duì)。第2題andom_state若設(shè)置為3,則每次得到的數(shù)據(jù)不一樣。第3題tree.Plot_tree()的作用是定義一棵決策樹。第4題在使用sklearn.tree.DecisionTreeClassifier返回每個(gè)葉子的索引應(yīng)該使用如下哪個(gè)函數(shù)?Adecosion_path()Bget_depth()Capply()Dget_n_leaves()第5題在使用sklearn.tree.DecisionTreeClassifier設(shè)置決策樹時(shí)使用max_depth設(shè)置最大樹深度。第6題ID3的分裂屬性選擇條件是選擇信息增益最大的作為分裂屬性。第7題決策樹方法可用于連續(xù)數(shù)據(jù)離散化。第8題決策樹方法可以稱為一種數(shù)據(jù)挖掘技術(shù),也可以稱為一種機(jī)器學(xué)習(xí)技術(shù),所以數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)是一樣的。第9題設(shè)訓(xùn)練樣本集包含{ID,收入(萬元),婚否,愛旅游}四個(gè)特征,8條記錄如表所示,采用C4.5算法進(jìn)行連續(xù)屬性劃分,通過構(gòu)建決策樹,輸出規(guī)則為:ID收入
婚否
愛旅游1
2.5
否
否2
12
否
是3
3否
否4
3.2
是
是5
4
否
否6
4.8
否
否7
6.8
是
是8
9.8
否
是AIf
收入<5.8and
婚否=“是”,則愛旅游=“是”;BIf
收入<5.8and
婚否=“否”,則愛旅游=“否”;CIf
收入>5.8and
婚否=“否”,則愛旅游=“否”;DIf
收入>=5.8,則愛旅游=“是”。正確答案:DBA第七章樸素貝葉斯章節(jié)測(cè)試第1題Bayes法是一種在已知后驗(yàn)概率與類條件概率的情況下的模式分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體。第2題樸素貝葉斯算法在對(duì)屬性個(gè)數(shù)比較多或者屬性之間相關(guān)性較大時(shí),分類效果更好。第3題樸素貝葉斯算法的主要缺點(diǎn)包括:A雖然理論上、樸素貝葉斯模型與其他分類方法相比具有最小的誤差率。但是實(shí)際上并非總是如此,這是因?yàn)闃闼刎惾~斯模型給定輸出類別的情況下,假設(shè)屬性之間相互獨(dú)立,這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的,在屬性個(gè)數(shù)比較多或者屬性之間相關(guān)性較大時(shí),分類效果不好。而在屬性相關(guān)性較小時(shí),樸素貝葉斯性能最為良好。對(duì)于這一點(diǎn),有半樸素貝葉斯之類的算法通過考慮部分關(guān)聯(lián)性適度改進(jìn)。B事先并不知道先驗(yàn)概率,先驗(yàn)概率很多時(shí)候取決于假設(shè),假設(shè)的模型可以有很多種,因此在某些時(shí)候會(huì)由于假設(shè)的先驗(yàn)?zāi)P偷脑驅(qū)е骂A(yù)測(cè)效果不佳。C由于我們是通過先驗(yàn)和數(shù)據(jù)來決定后驗(yàn)的概率從而決定分類,所以分類決策存在一定的錯(cuò)誤率。D對(duì)輸入數(shù)據(jù)的表達(dá)形式很敏感。正確答案:ABCD第4題在sklearn中,樸素貝葉斯種類有多種,包含:AGaussianNBBMultinomialNBCBernoulliNBDBayes正確答案:ABC第5題以下哪個(gè)算法和樸素貝葉斯算法類似。AC4.5BK-meansCopticsDbirch第6題高斯樸素貝葉斯分類公式中的每個(gè)特征都是離散的。第7題后驗(yàn)概率P(H|X)表示條件X下H的概率。第8題先驗(yàn)概率是根據(jù)歷史資料或主觀估計(jì)的方法得到的概率。第十章劃分聚類章節(jié)測(cè)試第1題關(guān)于k-means算法,正確的描述是:A能找到任意形狀的聚類B初始值不同,最終結(jié)果可能不同C每次迭代的時(shí)間復(fù)雜度是O(n^2),其中n是樣本數(shù)量D不能使用核函數(shù)(kernelfunction)第2題K-Means算法中的初始中心點(diǎn):A可隨意設(shè)置B必須在每個(gè)簇的真實(shí)中心點(diǎn)的附近C必須足夠分散D
直接影響算法的收斂結(jié)果第3題聚類分析可以作為其它算法的預(yù)處理步驟,如數(shù)據(jù)離散化,數(shù)據(jù)歸約等。第4題簡(jiǎn)單地將數(shù)據(jù)對(duì)象集劃分成不重疊的子集,使得每個(gè)數(shù)據(jù)對(duì)象恰在一個(gè)子集中,這種聚類類型稱作A層次聚類B劃分聚類C密度聚類D模糊聚類第5題假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下8個(gè)點(diǎn)(用(x,y)代表位置)聚類為3個(gè)簇:A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)距離函數(shù)是歐式距離。假設(shè)初始選擇A1,B1和C1分別為每個(gè)聚類的中心,用K-平均算法來給出在第一次循環(huán)執(zhí)行后的三個(gè)聚類中心:A(2,10),(5,8),(1,2)B(2,10),(6,6),(2,3)C(2,10),(6,6),(1.5,3.5)D(2,10),(5,8),(2,3)第6題設(shè)有6個(gè)二維樣本點(diǎn),p1(0,0),p2(1,2),p3(3,1),p4(8,8),p5(9,10),p6(10,7),若想將其聚類為2類,首先選擇p1和p2為兩類中心點(diǎn),采用歐式距離測(cè)算方式,則第一輪劃分結(jié)束,新生成的簇中心點(diǎn)分別為:()A(0,0),(1,2)B(0,0),(6.2,5.6)C(1,2),(8,8)D(0.5,1),(8,8)第十一章層次聚類章節(jié)測(cè)試第1題BIRCH算法利用了一個(gè)樹結(jié)構(gòu)來幫助我們快速的聚類,這個(gè)數(shù)結(jié)構(gòu)類似于平衡B+樹,一般將它稱之為聚類特征樹第2題在scikit-learn中,BIRCH類的重要參數(shù)不多,以下對(duì)其參數(shù)描述正確的是:Athreshold:即葉節(jié)點(diǎn)每個(gè)CF的最大樣本半徑閾值T。Bbranching_factor:即CFTree內(nèi)部節(jié)點(diǎn)的最大CF數(shù)B,以及葉子節(jié)點(diǎn)的最大CF數(shù)L。Cn_clusters:即類別數(shù)K,在BIRCH算法是可選的,如果類別數(shù)非常多,我們也沒有先驗(yàn)知識(shí),則一般輸入None。Dcompute_labels:表示標(biāo)示類別數(shù)量,默認(rèn)是整數(shù)1。正確答案:CBA第3題BIRCH算法的主要優(yōu)點(diǎn)有:A節(jié)約內(nèi)存,所有的樣本都在磁盤上,CFTree僅僅存了CF節(jié)點(diǎn)和對(duì)應(yīng)的指針。B聚類速度快,只需要一遍掃描訓(xùn)練集就可以建立CFTree,CFTree的增刪改都很快。C可以識(shí)別噪音點(diǎn),還可以對(duì)數(shù)據(jù)集進(jìn)行初步分類的預(yù)處理。D更適合數(shù)據(jù)特征維度非常大的樣本。正確答案:BAC第4題BIRCH是一種:A分類器B聚類算法C關(guān)聯(lián)分析算法D特征選擇算法第5題在對(duì)Brich進(jìn)行參數(shù)定義時(shí),簇直徑越小越好。第6題BIRCH是一種A分類器B聚類算法C關(guān)聯(lián)分析算法D特征選擇算法第7題在下表中給定的樣本上進(jìn)行合并(凝聚)層次聚類,初始簇{1},{2},{3},{4},{5},{6},{7},{8}.假定算法的終止條件為3個(gè)簇,則此3個(gè)簇為:序號(hào)屬性1屬性2序號(hào)屬性1屬性21210575225664384712458849A最后3個(gè)簇為:{2,5},{1,7,8},{3,4,6}B最后3個(gè)簇為:{2,4,7},{1,3,8},{5,6}C最后3個(gè)簇為:{1,2,7},{4,5},{3,6,8}D最后3個(gè)簇為:{2,7},{1,4,8},{3,5,6}第十二章密度聚類章節(jié)測(cè)試第1題OPTICS
算法僅存儲(chǔ)了每個(gè)對(duì)象的核心距離。第2題下列選項(xiàng)中關(guān)于OPTICS算法說法正確的是:AOPTICS算法的提出就是為了幫助DBSCAN算法選擇合適的參數(shù),降低輸入?yún)?shù)的敏感度。BOPTICS算法往往只能發(fā)現(xiàn)凸形的聚類簇。COPTICS算法的目的就是要過濾低密度區(qū)域,發(fā)現(xiàn)稠密樣本點(diǎn)。DOPTICS算法是一種基于高密度聯(lián)通區(qū)域的聚類算法,它將類簇定義為高密度相連點(diǎn)的最大集合。正確答案:ACD第3題OPTICS算法屬于下列那一項(xiàng):A分類算法B聚類算法C關(guān)聯(lián)規(guī)則D時(shí)間序列預(yù)測(cè)第4題以下哪個(gè)算法和樸素貝葉斯算法類似。AC4.5BK-meansCopticsDbirch第5題以下屬于聚類算法的是:APAMBOPTICSCBIRCHDID3正確答案:ABC第6題在cluster.DBSCAN()的眾多參數(shù)中,algorithm取何值時(shí),表示使用暴力法搜尋最近鄰?Akd_treeBball_treeCau
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026屆廣東省深圳市龍崗區(qū)高三上學(xué)期期末考試歷史試題(含答案)
- 實(shí)數(shù)考試?yán)}解析及答案
- 商法機(jī)考考試題及答案
- 汽車美容保養(yǎng)試題及答案
- 水泥廠培訓(xùn)課件教學(xué)
- 2025 小學(xué)三年級(jí)科學(xué)下冊(cè)保存磁鐵防止消磁的方法課件
- 《GAT 1054.6-2017公安數(shù)據(jù)元限定詞(6)》專題研究報(bào)告
- 2026 年初中英語《感嘆詞》專項(xiàng)練習(xí)與答案 (100 題)
- 《GAT 488-2020道路交通事故現(xiàn)場(chǎng)勘查車載照明設(shè)備通 用技術(shù)條件》專題研究報(bào)告
- 2026年深圳中考物理電熱的計(jì)算專項(xiàng)試卷(附答案可下載)
- GB/T 4447-2025船舶與海洋技術(shù)海船起錨機(jī)和起錨絞盤
- 中考體育前家長(zhǎng)會(huì)課件
- 江蘇省南京市2024-2025學(xué)年高一上學(xué)期1月期末學(xué)情調(diào)研測(cè)試生物試題(解析版)
- 工作簡(jiǎn)歷模板
- 2024年廣東省佛山市南海區(qū)道路建設(shè)管理處招聘公益一類事業(yè)編制人員3人歷年管理單位遴選500模擬題附帶答案詳解
- 動(dòng)物輔助療法行業(yè)研究報(bào)告
- 模塊化軟件質(zhì)量保證
- 人教版七年級(jí)語文上冊(cè)《課內(nèi)文言文基礎(chǔ)知識(shí) 》專項(xiàng)測(cè)試卷及答案
- 【關(guān)于構(gòu)建我國(guó)個(gè)人破產(chǎn)制度的探討(論文)16000字】
- 加固專業(yè)承包合同
- 國(guó)家職業(yè)技術(shù)技能標(biāo)準(zhǔn) 5-01-05-01 中藥材種植員 人社廳發(fā)200994號(hào)
評(píng)論
0/150
提交評(píng)論