數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)培養(yǎng)方案_第1頁(yè)
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)培養(yǎng)方案_第2頁(yè)
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)培養(yǎng)方案_第3頁(yè)
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)培養(yǎng)方案_第4頁(yè)
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)培養(yǎng)方案_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、一、單選題1.某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會(huì)購(gòu)買尿布,這種屬于數(shù)據(jù)挖掘的哪類問(wèn)題?(A)A. 關(guān)聯(lián)規(guī)則發(fā)現(xiàn)B. 聚類C. 分類D. 自然語(yǔ)言處理2.以下兩種描述分別對(duì)應(yīng)哪兩種對(duì)分類算法的評(píng)價(jià)標(biāo)準(zhǔn)? (A)(a)警察抓小偷,描述警察抓的人中有多少個(gè)是小偷的標(biāo)準(zhǔn)。(b)描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。A. Precision, Recall B. Recall, PrecisionC. Precision, ROC D. Recall, ROC3.將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個(gè)步驟的任務(wù)?(C)A. 頻繁模式挖掘B. 分類和預(yù)測(cè)C. 數(shù)據(jù)預(yù)處理

2、D. 數(shù)據(jù)流挖掘4. 當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?(B)A. 分類B. 聚類C. 關(guān)聯(lián)分析D. 隱馬爾可夫鏈5. 什么是KDD? (A)A. 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn) B. 領(lǐng)域知識(shí)發(fā)現(xiàn)C. 文檔知識(shí)發(fā)現(xiàn) D. 動(dòng)態(tài)知識(shí)發(fā)現(xiàn)6. 使用交互式的和可視化的技術(shù),對(duì)數(shù)據(jù)進(jìn)行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(A)A. 探索性數(shù)據(jù)分析 B. 建模描述C. 預(yù)測(cè)建模 D. 尋找模式和規(guī)則7. 為數(shù)據(jù)的總體分布建模;把多維空間劃分成組等問(wèn)題屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(B)A. 探索性數(shù)據(jù)分析 B. 建模描述C. 預(yù)測(cè)建模 D. 尋找模式和規(guī)則8. 建立一個(gè)模

3、型,通過(guò)這個(gè)模型根據(jù)已知的變量值來(lái)預(yù)測(cè)其他某個(gè)變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(C)A. 根據(jù)內(nèi)容檢索 B. 建模描述C. 預(yù)測(cè)建模 D. 尋找模式和規(guī)則9. 用戶有一種感興趣的模式并且希望在數(shù)據(jù)集中找到相似的模式,屬于數(shù)據(jù)挖掘哪一類任務(wù)?(A)A. 根據(jù)內(nèi)容檢索 B. 建模描述C. 預(yù)測(cè)建模 D. 尋找模式和規(guī)則 11.下面哪種不屬于數(shù)據(jù)預(yù)處理的方法? (D)A變量代換 B離散化 C聚集 D估計(jì)遺漏值 12. 假設(shè)12個(gè)銷售價(jià)格記錄組已經(jīng)排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每種方法將它們劃分成四個(gè)箱。等頻(等深)劃分

4、時(shí),15在第幾個(gè)箱子內(nèi)? (B)A 第一個(gè) B 第二個(gè) C 第三個(gè) D 第四個(gè) 13.上題中,等寬劃分時(shí)(寬度為50),15又在哪個(gè)箱子里? (A)A 第一個(gè) B 第二個(gè) C 第三個(gè) D 第四個(gè) 14.下面哪個(gè)不屬于數(shù)據(jù)的屬性類型:(D)A 標(biāo)稱 B 序數(shù) C 區(qū)間 D相異 15. 在上題中,屬于定量的屬性類型是:(C)A 標(biāo)稱 B 序數(shù) C 區(qū)間 D 相異 16. 只有非零值才重要的二元屬性被稱作:( C )A 計(jì)數(shù)屬性 B 離散屬性 C非對(duì)稱的二元屬性 D 對(duì)稱屬性 17. 以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法: (D)A 嵌入 B 過(guò)濾 C 包裝 D 抽樣 18.下面不屬于創(chuàng)建新屬性的相

5、關(guān)方法的是: (B)A特征提取 B特征修改 C映射數(shù)據(jù)到新的空間 D特征構(gòu)造 19. 考慮值集1、2、3、4、5、90,其截?cái)嗑担╬=20%)是 (C)A 2 B 3 C 3.5 D 5 20. 下面哪個(gè)屬于映射數(shù)據(jù)到新的空間的方法? (A)A 傅立葉變換 B 特征加權(quán) C 漸進(jìn)抽樣 D 維歸約 21. 熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是: (B)A 1比特 B 2.6比特 C 3.2比特 D 3.8比特 22. 假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)。對(duì)屬性income的7360

6、0元將被轉(zhuǎn)化為:(D)A 0.821 B 1.224 C 1.458 D 0.716 23.假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 問(wèn)題:使用按箱平均值平滑方法對(duì)上述數(shù)據(jù)進(jìn)行平滑,箱的深度為3。第二個(gè)箱子值為:(A)A 18.3 B 22.6 C 26.8 D 27.9 解析:(16+19+20)/324. 考慮值集12 24 33 2 4 55 68 26,其四分位數(shù)極差是:(A)A 31 B 24 C 55 D 3

7、 解析:四分位數(shù)極差(IQR)=Q3 - Q1。從小到大排序:2 4 12 24 26 33 55 68 Q1=2, 4 Q3=26, 33 25. 一所大學(xué)內(nèi)的各年紀(jì)人數(shù)分別為:一年級(jí)200人,二年級(jí)160人,三年級(jí)130人,四年級(jí)110人。則年級(jí)屬性的眾數(shù)是: (A)A 一年級(jí) B二年級(jí) C 三年級(jí) D 四年級(jí) 26. 下列哪個(gè)不是專門用于可視化時(shí)間空間數(shù)據(jù)的技術(shù): (B)A 等高線圖 B 餅圖 C 曲面圖 D 矢量場(chǎng)圖 27. 在抽樣方法中,當(dāng)合適的樣本容量很難確定時(shí),可以使用的抽樣方法是: (D)A 有放回的簡(jiǎn)單隨機(jī)抽樣 B 無(wú)放回的簡(jiǎn)單隨機(jī)抽樣 C 分層抽樣 D 漸進(jìn)抽樣28. 數(shù)據(jù)

8、倉(cāng)庫(kù)是隨著時(shí)間變化的,下面的描述不正確的是 (C)A. 數(shù)據(jù)倉(cāng)庫(kù)隨時(shí)間的變化不斷增加新的數(shù)據(jù)內(nèi)容;B. 捕捉到的新數(shù)據(jù)會(huì)覆蓋原來(lái)的快照;C. 數(shù)據(jù)倉(cāng)庫(kù)隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容;D. 數(shù)據(jù)倉(cāng)庫(kù)中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會(huì)隨著時(shí)間的變化不斷地進(jìn)行重新綜合.29. 關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指: (D)A. 基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息;B. 基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息;C. 基本元數(shù)據(jù)包括日志文件和簡(jiǎn)歷執(zhí)行處理的時(shí)序調(diào)度信息;D. 基本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息.30. 下面關(guān)于數(shù)據(jù)粒度的描述不正確的是

9、: (C)A. 粒度是指數(shù)據(jù)倉(cāng)庫(kù)小數(shù)據(jù)單元的詳細(xì)程度和級(jí)別;B. 數(shù)據(jù)越詳細(xì),粒度就越小,級(jí)別也就越高;C. 數(shù)據(jù)綜合度越高,粒度也就越大,級(jí)別也就越高;D. 粒度的具體劃分將直接影響數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量以及查詢質(zhì)量.31. 有關(guān)數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)特點(diǎn),不正確的描述是: (A)A. 數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)要從數(shù)據(jù)出發(fā);B. 數(shù)據(jù)倉(cāng)庫(kù)使用的需求在開(kāi)發(fā)出去就要明確;C. 數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)是一個(gè)不斷循環(huán)的過(guò)程,是啟發(fā)式的開(kāi)發(fā);D. 在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)分析和處理更靈活,且沒(méi)有固定的模式32. 在有關(guān)數(shù)據(jù)倉(cāng)庫(kù)測(cè)試,下列說(shuō)法不正確的是: (D)A. 在完成數(shù)據(jù)倉(cāng)庫(kù)

10、的實(shí)施過(guò)程中,需要對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行各種測(cè)試.測(cè)試工作中要包括單元測(cè)試和系統(tǒng)測(cè)試.B. 當(dāng)數(shù)據(jù)倉(cāng)庫(kù)的每個(gè)單獨(dú)組件完成后,就需要對(duì)他們進(jìn)行單元測(cè)試.C. 系統(tǒng)的集成測(cè)試需要對(duì)數(shù)據(jù)倉(cāng)庫(kù)的所有組件進(jìn)行大量的功能測(cè)試和回歸測(cè)試.D. 在測(cè)試之前沒(méi)必要制定詳細(xì)的測(cè)試計(jì)劃.33. OLAP技術(shù)的核心是: (D)A. 在線性; B. 對(duì)用戶的快速響應(yīng);C. 互操作性.D. 多維分析;34. 關(guān)于OLAP的特性,下面正確的是: (D)(1)快速性 (2)可分析性 (3)多維性 (4)信息性 (5)共享性A. (1) (2) (3)B. (2) (3) (4)C. (1) (2) (3) (4)D. (1) (2)

11、 (3) (4) (5)35. 關(guān)于OLAP和OLTP的區(qū)別描述,不正確的是: (C)A. OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OTAP應(yīng)用程序不同.B. 與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對(duì)簡(jiǎn)單的事務(wù).C. OLAP的特點(diǎn)在于事務(wù)量大,但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高.D. OLAP是以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的,但其最終數(shù)據(jù)來(lái)源與OLTP一樣均來(lái)自底層的數(shù)據(jù)庫(kù)系統(tǒng),兩者面對(duì)的用戶是相同的.36. OLAM技術(shù)一般簡(jiǎn)稱為”數(shù)據(jù)聯(lián)機(jī)分析挖掘”,下面說(shuō)法正確的是: (D)A. OLAP和OLAM都基于客戶機(jī)/服務(wù)器模式,只有后者有與用戶的交互性;B. 由于OLAM的立方體和用于

12、OLAP的立方體有本質(zhì)的區(qū)別.C. 基于WEB的OLAM是WEB技術(shù)與OLAM技術(shù)的結(jié)合.D. OLAM服務(wù)器通過(guò)用戶圖形借口接收用戶的分析指令,在元數(shù)據(jù)的知道下,對(duì)超級(jí)立方體作一定的操作.37. 關(guān)于OLAP和OLTP的說(shuō)法,下列不正確的是: (A)A. OLAP事務(wù)量大,但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高.B. OLAP的最終數(shù)據(jù)來(lái)源與OLTP不一樣.C. OLTP面對(duì)的是決策人員和高層管理人員.D. OLTP以應(yīng)用為核心,是應(yīng)用驅(qū)動(dòng)的.38. 設(shè)X=1,2,3是頻繁項(xiàng)集,則可由X產(chǎn)生_(C)_個(gè)關(guān)聯(lián)規(guī)則。A、4 B、5 C、6 D、7 40. 概念分層圖是_(B)_圖。A、無(wú)向無(wú)環(huán) B、有向無(wú)

13、環(huán) C、有向有環(huán) D、無(wú)向有環(huán)41. 頻繁項(xiàng)集、頻繁閉項(xiàng)集、最大頻繁項(xiàng)集之間的關(guān)系是: (C)A、頻繁項(xiàng)集 頻繁閉項(xiàng)集 =最大頻繁項(xiàng)集B、頻繁項(xiàng)集 = 頻繁閉項(xiàng)集 最大頻繁項(xiàng)集C、頻繁項(xiàng)集 頻繁閉項(xiàng)集 最大頻繁項(xiàng)集D、頻繁項(xiàng)集 = 頻繁閉項(xiàng)集 = 最大頻繁項(xiàng)集42. 考慮下面的頻繁3-項(xiàng)集的集合:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定數(shù)據(jù)集中只有5個(gè)項(xiàng),采用 合并策略,由候選產(chǎn)生過(guò)程得到4-項(xiàng)集不包含(C)A、1,2,3,4 B、1,2,3,5 C、1,2,4,5 D、1,3,4,5根據(jù)數(shù)據(jù)挖掘Apriori算法的性質(zhì)之一:判定是否可

14、作為K項(xiàng)頻繁集是通過(guò)K項(xiàng)集分裂為K個(gè)K-1項(xiàng)集,考察K-1項(xiàng)集是否為L(zhǎng)k-1,要生成4-項(xiàng)集,1,2,4,5分裂后為1,2,42,4,51,2,51,4,5其中,1,4,5不屬于頻繁3項(xiàng)集,所以1,2,4,5不能作為4項(xiàng)集,因?yàn)橛行再|(zhì)為:任何非頻繁的K-1項(xiàng)集都不可能是頻繁項(xiàng)集K項(xiàng)集的子集.43.下面選項(xiàng)中t不是s的子序列的是 ( C )A、s= t=B、s= t=C、s= t=D、s= t=44. 在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu),這樣的任務(wù)稱為 ( B )A、頻繁子集挖掘 B、頻繁子圖挖掘 C、頻繁數(shù)據(jù)項(xiàng)挖掘 D、頻繁模式挖掘45. 下列度量不具有反演性的是 (D)A、系數(shù) B、幾率 C、Co

15、hen度量 D、興趣因子46. 下列_(A)_不是將主觀信息加入到模式發(fā)現(xiàn)任務(wù)中的方法。A、與同一時(shí)期其他數(shù)據(jù)對(duì)比B、可視化C、基于模板的方法D、主觀興趣度量47. 下面購(gòu)物籃能夠提取的3-項(xiàng)集的最大數(shù)量是多少(C)ID 購(gòu)買項(xiàng)1 牛奶,啤酒,尿布2 面包,黃油,牛奶3 牛奶,尿布,餅干4 面包,黃油,餅干5 啤酒,餅干,尿布6 牛奶,尿布,面包,黃油7 面包,黃油,尿布8 啤酒,尿布9 牛奶,尿布,面包,黃油10 啤酒,餅干A、1 B、2 C、3 D、448. 以下哪些算法是分類算法,(B)A,DBSCAN B,C4.5 C,K-Mean D,EM 49. 以下哪些分類方法可以較好地避免樣本

16、的不平衡問(wèn)題, (A) A,KNN B,SVM C,Bayes D,神經(jīng)網(wǎng)絡(luò) 50. 決策樹(shù)中不包含一下哪種結(jié)點(diǎn), (C)A,根結(jié)點(diǎn)(root node) B,內(nèi)部結(jié)點(diǎn)(internal node) C,外部結(jié)點(diǎn)(external node) D,葉結(jié)點(diǎn)(leaf node)51. 不純性度量中Gini計(jì)算公式為(其中c是類的個(gè)數(shù)) (A)A, B, C, D, (A)53. 以下哪項(xiàng)關(guān)于決策樹(shù)的說(shuō)法是錯(cuò)誤的 (C)A. 冗余屬性不會(huì)對(duì)決策樹(shù)的準(zhǔn)確率造成不利的影響 B. 子樹(shù)可能在決策樹(shù)中重復(fù)多次 C. 決策樹(shù)算法對(duì)于噪聲的干擾非常敏感 D. 尋找最佳決策樹(shù)是NP完全問(wèn)題54. 在基于規(guī)則分類

17、器的中,依據(jù)規(guī)則質(zhì)量的某種度量對(duì)規(guī)則排序,保證每一個(gè)測(cè)試記錄都是由覆蓋它的“最好的”規(guī)格來(lái)分類,這種方案稱為 (B)A. 基于類的排序方案 B. 基于規(guī)則的排序方案 C. 基于度量的排序方案 D. 基于規(guī)格的排序方案。 55. 以下哪些算法是基于規(guī)則的分類器 (A) A. C4.5 B. KNN C. Na?ve Bayes D. ANN56. 如果規(guī)則集R中不存在兩條規(guī)則被同一條記錄觸發(fā),則稱規(guī)則集R中的規(guī)則為(C);A, 無(wú)序規(guī)則 B,窮舉規(guī)則 C, 互斥規(guī)則 D,有序規(guī)則57. 如果對(duì)屬性值的任一組合,R中都存在一條規(guī)則加以覆蓋,則稱規(guī)則集R中的規(guī)則為(B)A, 無(wú)序規(guī)則 B,窮舉規(guī)則

18、C, 互斥規(guī)則 D,有序規(guī)則58. 如果規(guī)則集中的規(guī)則按照優(yōu)先級(jí)降序排列,則稱規(guī)則集是 (D)A, 無(wú)序規(guī)則 B,窮舉規(guī)則 C, 互斥規(guī)則 D,有序規(guī)則59. 如果允許一條記錄觸發(fā)多條分類規(guī)則,把每條被觸發(fā)規(guī)則的后件看作是對(duì)相應(yīng)類的一次投票,然后計(jì)票確定測(cè)試記錄的類標(biāo)號(hào),稱為(A) A, 無(wú)序規(guī)則 B,窮舉規(guī)則 C, 互斥規(guī)則 D,有序規(guī)則60. 考慮兩隊(duì)之間的足球比賽:隊(duì)0和隊(duì)1。假設(shè)65%的比賽隊(duì)0勝出,剩余的比賽隊(duì)1獲勝。隊(duì)0獲勝的比賽中只有30%是在隊(duì)1的主場(chǎng),而隊(duì)1取勝的比賽中75%是主場(chǎng)獲勝。如果下一場(chǎng)比賽在隊(duì)1的主場(chǎng)進(jìn)行隊(duì)1獲勝的概率為 (C)A,0.75 B,0.35 C,0.

19、4678 D, 0.5738答案貌似錯(cuò)誤的,根據(jù)貝葉斯公式計(jì)算應(yīng)該是0.5738;假設(shè)踢了100場(chǎng),隊(duì)0贏了65場(chǎng),隊(duì)1贏了35場(chǎng);隊(duì)1的主場(chǎng),隊(duì)0贏了65*0.3 = 19.5場(chǎng),隊(duì)1贏了35*0.75 = 26.25場(chǎng);則隊(duì)1在在自己主場(chǎng)贏得概率:26.25/(19.5+26.25)= 0.573861. 以下關(guān)于人工神經(jīng)網(wǎng)絡(luò)(ANN)的描述錯(cuò)誤的有 (A)A,神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的噪聲非常魯棒 B,可以處理冗余特征 C,訓(xùn)練ANN是一個(gè)很耗時(shí)的過(guò)程 D,至少含有一個(gè)隱藏層的多層神經(jīng)網(wǎng)絡(luò)62. 通過(guò)聚集多個(gè)分類器的預(yù)測(cè)來(lái)提高分類準(zhǔn)確率的技術(shù)稱為 (A) A,組合(ensemble) B,聚

20、集(aggregate) C,合并(combination) D,投票(voting)63. 簡(jiǎn)單地將數(shù)據(jù)對(duì)象集劃分成不重疊的子集,使得每個(gè)數(shù)據(jù)對(duì)象恰在一個(gè)子集中,這種聚類類型稱作( B )A、層次聚類 B、劃分聚類 C、非互斥聚類 D、模糊聚類64. 在基本K均值算法里,當(dāng)鄰近度函數(shù)采用( A )的時(shí)候,合適的質(zhì)心是簇中各點(diǎn)的中位數(shù)。A、曼哈頓距離 B、平方歐幾里德距離 C、余弦距離 D、Bregman散度 65.( C )是一個(gè)觀測(cè)值,它與其他觀測(cè)值的差別如此之大,以至于懷疑它是由不同的機(jī)制產(chǎn)生的。A、邊界點(diǎn) B、質(zhì)心 C、離群點(diǎn) D、核心點(diǎn)66. BIRCH是一種( B )。A、分類器

21、B、聚類算法 C、關(guān)聯(lián)分析算法 D、特征選擇算法67. 檢測(cè)一元正態(tài)分布中的離群點(diǎn),屬于異常檢測(cè)中的基于( A )的離群點(diǎn)檢測(cè)。A、統(tǒng)計(jì)方法 B、鄰近度 C、密度 D、聚類技術(shù)68.( C )將兩個(gè)簇的鄰近度定義為不同簇的所有點(diǎn)對(duì)的平均逐對(duì)鄰近度,它是一種凝聚層次聚類技術(shù)。A、MIN(單鏈) B、MAX(全鏈) C、組平均 D、Ward方法69.( D )將兩個(gè)簇的鄰近度定義為兩個(gè)簇合并時(shí)導(dǎo)致的平方誤差的增量,它是一種凝聚層次聚類技術(shù)。A、MIN(單鏈) B、MAX(全鏈) C、組平均 D、Ward方法70. DBSCAN在最壞情況下的時(shí)間復(fù)雜度是( B )。A、O(m) B、O(m2) C、

22、O(log m) D、O(m*log m)71. 在基于圖的簇評(píng)估度量表里面,如果簇度量為proximity(Ci , C),簇權(quán)值為mi ,那么它的類型是( C )。A、基于圖的凝聚度 B、基于原型的凝聚度 C、基于原型的分離度 D、基于圖的凝聚度和分離度72. 關(guān)于K均值和DBSCAN的比較,以下說(shuō)法不正確的是( A )。A、K均值丟棄被它識(shí)別為噪聲的對(duì)象,而DBSCAN一般聚類所有對(duì)象。B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。C、K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇。D、K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊

23、也可以發(fā)現(xiàn),但是DBSCAN會(huì)合并有重疊的簇。73. 以下是哪一個(gè)聚類算法的算法流程:構(gòu)造k最近鄰圖。使用多層圖劃分算法劃分圖。repeat:合并關(guān)于相對(duì)互連性和相對(duì)接近性而言,最好地保持簇的自相似性的簇。until:不再有可以合并的簇。( C )。A、MST B、OPOSSUM C、Chameleon D、JarvisPatrick(JP)74. 考慮這么一種情況:一個(gè)對(duì)象碰巧與另一個(gè)對(duì)象相對(duì)接近,但屬于不同的類,因?yàn)檫@兩個(gè)對(duì)象一般不會(huì)共享許多近鄰,所以應(yīng)該選擇( D )的相似度計(jì)算方法。A、平方歐幾里德距離 B、余弦距離 C、直接相似度 D、共享最近鄰75. 以下屬于可伸縮聚類算法的是(

24、A )。A、CURE B、DENCLUE C、CLIQUE D、OPOSSUM76. 以下哪個(gè)聚類算法不是屬于基于原型的聚類( D )。A、模糊c均值 B、EM算法 C、SOM D、CLIQUE77. 關(guān)于混合模型聚類算法的優(yōu)缺點(diǎn),下面說(shuō)法正確的是( B )。A、當(dāng)簇只包含少量數(shù)據(jù)點(diǎn),或者數(shù)據(jù)點(diǎn)近似協(xié)線性時(shí),混合模型也能很好地處理。B、混合模型比K均值或模糊c均值更一般,因?yàn)樗梢允褂酶鞣N類型的分布。C、混合模型很難發(fā)現(xiàn)不同大小和橢球形狀的簇。D、混合模型在有噪聲和離群點(diǎn)時(shí)不會(huì)存在問(wèn)題。78. 以下哪個(gè)聚類算法不屬于基于網(wǎng)格的聚類算法( D )。A、STING B、WaveCluster C、

25、MAFIA D、BIRCH79. 一個(gè)對(duì)象的離群點(diǎn)得分是該對(duì)象周圍密度的逆。這是基于( C )的離群點(diǎn)定義。A概率 B、鄰近度 C、密度 D、聚類80. 下面關(guān)于JarvisPatrick(JP)聚類算法的說(shuō)法不正確的是( D )。A、JP聚類擅長(zhǎng)處理噪聲和離群點(diǎn),并且能夠處理不同大小、形狀和密度的簇。B、JP算法對(duì)高維數(shù)據(jù)效果良好,尤其擅長(zhǎng)發(fā)現(xiàn)強(qiáng)相關(guān)對(duì)象的緊致簇。C、JP聚類是基于SNN相似度的概念。D、JP聚類的基本時(shí)間復(fù)雜度為O(m)。二、 多選題1. 通過(guò)數(shù)據(jù)挖掘過(guò)程所推倒出的關(guān)系和摘要經(jīng)常被稱為:(A B)A. 模型 B. 模式 C. 模范 D. 模具2 尋找數(shù)據(jù)集中的關(guān)系是為了尋找

26、精確、方便并且有價(jià)值地總結(jié)了數(shù)據(jù)的某一特征的表示,這個(gè)過(guò)程包括了以下哪些步驟? (A B C D)A. 決定要使用的表示的特征和結(jié)構(gòu)B. 決定如何量化和比較不同表示擬合數(shù)據(jù)的好壞C. 選擇一個(gè)算法過(guò)程使評(píng)分函數(shù)最優(yōu)D. 決定用什么樣的數(shù)據(jù)管理原則以高效地實(shí)現(xiàn)算法。3. 數(shù)據(jù)挖掘的預(yù)測(cè)建模任務(wù)主要包括哪幾大類問(wèn)題? (A B)A. 分類 B. 回歸 C. 模式發(fā)現(xiàn) D. 模式匹配4. 數(shù)據(jù)挖掘算法的組件包括:(A B C D)A. 模型或模型結(jié)構(gòu) B. 評(píng)分函數(shù) C. 優(yōu)化和搜索方法 D. 數(shù)據(jù)管理策略5. 以下哪些學(xué)科和數(shù)據(jù)挖掘有密切聯(lián)系?(A D)A. 統(tǒng)計(jì) B. 計(jì)算機(jī)組成原理 C. 礦產(chǎn)

27、挖掘 D. 人工智能6. 在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問(wèn)題的各種方法有: ()A忽略元組 B使用屬性的平均值填充空缺值C使用一個(gè)全局常量填充空缺值D使用與給定元組屬同一類的所有樣本的平均值 E使用最可能的值填充空缺值7.下面哪些屬于可視化高維數(shù)據(jù)技術(shù) ()A 矩陣 B 平行坐標(biāo)系 C星形坐標(biāo) D散布圖 E Chernoff臉8. 對(duì)于數(shù)據(jù)挖掘中的原始數(shù)據(jù),存在的問(wèn)題有: ()A 不一致 B重復(fù) C不完整 D 含噪聲 E 維度高 9.下列屬于不同的有序數(shù)據(jù)的有:()A 時(shí)序數(shù)據(jù) B 序列數(shù)據(jù) C時(shí)間序列數(shù)據(jù) D事務(wù)數(shù)據(jù) E空間數(shù)據(jù) 10.下面屬于數(shù)據(jù)集的一般特性

28、的有:( B C D)A 連續(xù)性 B 維度 C 稀疏性 D 分辨率 E 相異性11. 下面屬于維歸約常用的線性代數(shù)技術(shù)的有: (A C)A 主成分分析 B 特征提取 C 奇異值分解 D 特征加權(quán) E 離散化12. 下面列出的條目中,哪些是數(shù)據(jù)倉(cāng)庫(kù)的基本特征: (ACD)A. 數(shù)據(jù)倉(cāng)庫(kù)是面向主題的 B. 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是集成的 C. 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是相對(duì)穩(wěn)定的 D. 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是反映歷史變化的 E. 數(shù)據(jù)倉(cāng)庫(kù)是面向事務(wù)的13. 以下各項(xiàng)均是針對(duì)數(shù)據(jù)倉(cāng)庫(kù)的不同說(shuō)法,你認(rèn)為正確的有(BCDE )。A數(shù)據(jù)倉(cāng)庫(kù)就是數(shù)據(jù)庫(kù)B數(shù)據(jù)倉(cāng)庫(kù)是一切商業(yè)智能系統(tǒng)的基礎(chǔ)C數(shù)據(jù)倉(cāng)庫(kù)是面向業(yè)務(wù)的,支持聯(lián)機(jī)事務(wù)處理(OL

29、TP)D數(shù)據(jù)倉(cāng)庫(kù)支持決策而非事務(wù)處理E數(shù)據(jù)倉(cāng)庫(kù)的主要目標(biāo)就是幫助分析,做長(zhǎng)期性的戰(zhàn)略制定14. 數(shù)據(jù)倉(cāng)庫(kù)在技術(shù)上的工作過(guò)程是: (ABCD)A. 數(shù)據(jù)的抽取 B. 存儲(chǔ)和管理 C. 數(shù)據(jù)的表現(xiàn)D. 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì) 15. 聯(lián)機(jī)分析處理包括以下哪些基本分析功能? (BCD)A. 聚類 B. 切片 C. 轉(zhuǎn)軸 D. 切塊 E. 分類16. 利用Apriori算法計(jì)算頻繁項(xiàng)集可以有效降低計(jì)算頻繁集的時(shí)間復(fù)雜度。在以下的購(gòu)物籃中產(chǎn)生支持度不小于3的候選3-項(xiàng)集,在候選2-項(xiàng)集中需要剪枝的是(BD)ID 項(xiàng)集1 面包、牛奶2 面包、尿布、啤酒、雞蛋3 牛奶、尿布、啤酒、可樂(lè)4 面包、牛奶、尿布、啤酒5 面

30、包、牛奶、尿布、可樂(lè)A、啤酒、尿布 B、啤酒、面包 C、面包、尿布 D、啤酒、牛奶解析:面包:,4,牛奶:4,尿布:4,啤酒:3,雞蛋:1,可樂(lè):2生成新的ID數(shù)據(jù)集17. 下表是一個(gè)購(gòu)物籃,假定支持度閾值為40%,其中_(A D)_是頻繁閉項(xiàng)集。TID 項(xiàng)1 abc2 abcd3 bce4 acde5 deA、abc B、adC、cd D、de18. Apriori算法的計(jì)算復(fù)雜度受_(ABCD)?_影響。A、支持度閥值B、項(xiàng)數(shù)(維度)C、事務(wù)數(shù) D、事務(wù)平均寬度19. 非頻繁模式_(AD)_A、其支持度小于閾值 B、都是不讓人感興趣的C、包含負(fù)模式和負(fù)相關(guān)模式 D、對(duì)異常數(shù)據(jù)項(xiàng)敏感20.

31、以下屬于分類器評(píng)價(jià)或比較尺度的有: (ACD)A,預(yù)測(cè)準(zhǔn)確度 B,召回率 C,模型描述的簡(jiǎn)潔度 D,計(jì)算復(fù)雜度 21. 在評(píng)價(jià)不平衡類問(wèn)題分類的度量方法有如下幾種,(ABCD)A,F1度量 B,召回率(recall)C,精度(precision) D,真正率(ture positive rate,TPR)22. 貝葉斯信念網(wǎng)絡(luò)(BBN)有如下哪些特點(diǎn), (AB)A,構(gòu)造網(wǎng)絡(luò)費(fèi)時(shí)費(fèi)力 B,對(duì)模型的過(guò)分問(wèn)題非常魯棒 C,貝葉斯網(wǎng)絡(luò)不適合處理不完整的數(shù)據(jù) D,網(wǎng)絡(luò)結(jié)構(gòu)確定后,添加變量相當(dāng)麻煩 23. 如下哪些不是最近鄰分類器的特點(diǎn), (C)A,它使用具體的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè),不必維護(hù)源自數(shù)據(jù)的模型 B

32、,分類一個(gè)測(cè)試樣例開(kāi)銷很大 C,最近鄰分類器基于全局信息進(jìn)行預(yù)測(cè) D,可以生產(chǎn)任意形狀的決策邊界 24. 如下那些不是基于規(guī)則分類器的特點(diǎn),(AC)A,規(guī)則集的表達(dá)能力遠(yuǎn)不如決策樹(shù)好 B,基于規(guī)則的分類器都對(duì)屬性空間進(jìn)行直線劃分,并將類指派到每個(gè)劃分 C,無(wú)法被用來(lái)產(chǎn)生更易于解釋的描述性模型 D,非常適合處理類分布不平衡的數(shù)據(jù)集 25. 以下屬于聚類算法的是( ABD )。A、K均值 B、DBSCAN C、Apriori D、Jarvis-Patrick(JP)26.( CD )都屬于簇有效性的監(jiān)督度量。A、輪廓系數(shù) B、共性分類相關(guān)系數(shù) C、熵 D、F度量27. 簇有效性的面向相似性的度量包

33、括( BC )。A、精度 B、Rand統(tǒng)計(jì)量 C、Jaccard系數(shù) D、召回率28.( ABCD )這些數(shù)據(jù)特性都是對(duì)聚類分析具有很強(qiáng)影響的。A、高維性 B、規(guī)模 C、稀疏性 D、噪聲和離群點(diǎn)29. 在聚類分析當(dāng)中,( AD )等技術(shù)可以處理任意形狀的簇。A、MIN(單鏈) B、MAX(全鏈) C、組平均 D、Chameleon30. ( AB )都屬于分裂的層次聚類算法。A、二分K均值 B、MST C、Chameleon D、組平均三、 判斷題1. 數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成描述數(shù)據(jù)、預(yù)測(cè)數(shù)據(jù)等任務(wù)。 (對(duì))2. 數(shù)據(jù)挖掘的目標(biāo)不在于數(shù)據(jù)采集策略,而在于對(duì)

34、于已經(jīng)存在的數(shù)據(jù)進(jìn)行模式的發(fā)掘。(對(duì))3. 圖挖掘技術(shù)在社會(huì)網(wǎng)絡(luò)分析中扮演了重要的角色。(對(duì))4. 模式為對(duì)數(shù)據(jù)集的全局性總結(jié),它對(duì)整個(gè)測(cè)量空間的每一點(diǎn)做出描述;模型則對(duì)變量變化空間的一個(gè)有限區(qū)域做出描述。(錯(cuò))5. 尋找模式和規(guī)則主要是對(duì)數(shù)據(jù)進(jìn)行干擾,使其符合某種規(guī)則以及模式。(錯(cuò))6. 離群點(diǎn)可以是合法的數(shù)據(jù)對(duì)象或者值。(對(duì))7. 離散屬性總是具有有限個(gè)值。(錯(cuò))8. 噪聲和偽像是數(shù)據(jù)錯(cuò)誤這一相同表述的兩種叫法。(錯(cuò))9. 用于分類的離散化方法之間的根本區(qū)別在于是否使用類信息。(對(duì))10. 特征提取技術(shù)并不依賴于特定的領(lǐng)域。(錯(cuò))11. 序列數(shù)據(jù)沒(méi)有時(shí)間戳。(對(duì))12. 定量屬性可以是整數(shù)值或者是連續(xù)值。(對(duì))13. 可視化技術(shù)對(duì)于分析的數(shù)據(jù)類型通常不是專用性的。(錯(cuò))14. DSS主要是基于數(shù)據(jù)倉(cāng)庫(kù).聯(lián)機(jī)數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)的應(yīng)用。(對(duì))15. OLAP技術(shù)側(cè)重于把數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析、轉(zhuǎn)換成輔助決策信息,是繼數(shù)據(jù)庫(kù)技術(shù)發(fā)展之后迅猛發(fā)展起來(lái)的一種新技術(shù)。 (對(duì))16. 商業(yè)智能系統(tǒng)與一般交易系統(tǒng)之間在系統(tǒng)設(shè)計(jì)上的主要區(qū)別在于:

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論