大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘試題及答案

上傳人：m*** IP屬地：天津上傳時(shí)間：2023-05-08 格式：DOCX 頁(yè)數(shù)：45 大?。?0.03KB 積分：25 舉報(bào) 版權(quán)申訴

大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘試題及答案_第2頁(yè)

大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘試題及答案_第3頁(yè)

大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘試題及答案_第4頁(yè)

大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘試題及答案_第5頁(yè)

已閱讀5頁(yè)，還剩40頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

海雖數(shù)據(jù)挖掘技術(shù)及工程實(shí)踐》題目一、單選題（共80題）1）（D）的目的縮小數(shù)據(jù)的取值范圍，使其更適合于數(shù)據(jù)挖掘算法的需要，并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。數(shù)據(jù)活洗 B. 數(shù)據(jù)集成C.數(shù)據(jù)變換 D. 數(shù)據(jù)歸約2）某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn)，買啤灑的人很大概率也會(huì)購(gòu)買尿布，這種屆于數(shù)據(jù)挖掘的哪類問(wèn)題？（A）關(guān)聯(lián)規(guī)則發(fā)現(xiàn) B.聚類C.分類D. 自然語(yǔ)言處理3）以下兩種描述分別對(duì)應(yīng)哪兩種對(duì)分類算法的評(píng)價(jià)標(biāo)準(zhǔn)？（A）（a）警察抓小偷，描述警察抓的人中有多少個(gè)是小偷的標(biāo)準(zhǔn)。（b）描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。Precision,RecallB?Recall,PrecisionPrecision,ROCD?Recall,ROC4）將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個(gè)步驟的任務(wù)？（C）頻繁模式挖掘B.分類和預(yù)測(cè)C.數(shù)據(jù)預(yù)處理 D.數(shù)據(jù)流挖掘5）當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí)，可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離？（B）分類B. 聚類C.關(guān)聯(lián)分析D. 隱馬爾可夫鏈6）建立一個(gè)模型，通過(guò)這個(gè)模型根據(jù)已知的變量值來(lái)預(yù)測(cè)其他某個(gè)變量值屆于數(shù)據(jù)挖掘的哪一類任務(wù)？（C）7）下面哪種不屆于數(shù)據(jù)預(yù)處理的方法？（D）變量代換B.離散化C.聚集 D.估計(jì)遺漏值8）假設(shè)12個(gè)銷售價(jià)格記錄組已經(jīng)排序如下：5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個(gè)箱。等頻（等深）劃分時(shí)，15在第幾個(gè)箱子內(nèi)？（B）第一個(gè) B. 第二個(gè)C.第三個(gè) D. 第四個(gè)9）下面哪個(gè)不屆于數(shù)據(jù)的屆性類型：（D）標(biāo)稱 B. 序數(shù)C.區(qū)間 D. 相異10）只有非零值才重要的二元屆性被稱作：（C）計(jì)數(shù)屆性 B. 離散屆性C.非對(duì)稱的二元屆性 D.對(duì)稱屆性TOC\o"1-5"\h\z11）以下哪種方法不屆于特征選擇的標(biāo)準(zhǔn)方法：（D）嵌入 B. 過(guò)濾C.包裝 D. 抽樣12）下面不屆于創(chuàng)建新屆性的相關(guān)方法的是：（B）特征提取 B. 特征修改C.映射數(shù)據(jù)到新的空間D.特征構(gòu)造13）下面哪個(gè)屆于映射數(shù)據(jù)到新的空間的方法？（A）傅立葉變換B.特征加權(quán)C.漸進(jìn)抽樣 D.維歸約14）假設(shè)屆性income的最大最小值分另U是12000元和98000元。利用最大最小規(guī)范化的方法將屆性的值映射到o至1的范圍內(nèi)。對(duì)屆性income的73600元將被轉(zhuǎn)化為：（D）0.821 B.1.224C.1.458D.0.716C.1.458D.0.716一所大學(xué)內(nèi)的各年紀(jì)人數(shù)分別為：一年級(jí)200人，二年級(jí)160人，三年級(jí)130人，四年級(jí)110人。則年級(jí)屆性的眾數(shù)是：(A)A.一年級(jí) B. 二年級(jí)C.三年級(jí) D. 四年級(jí)下列哪個(gè)不是專門用于可視化時(shí)間空間數(shù)據(jù)的技術(shù)： (B)A.等高線圖 B.餅圖C?曲面圖D. 矢量場(chǎng)圖在抽樣方法中，當(dāng)合適的樣本容量很難確定時(shí)，可以使用的抽樣方法是： (D)有放回的簡(jiǎn)單隨機(jī)抽樣無(wú)放回的簡(jiǎn)單隨機(jī)抽樣分層抽樣D漸進(jìn)抽樣A.B.C.D.合A.B.C.D.合數(shù)據(jù)倉(cāng)庫(kù)隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容數(shù)據(jù)倉(cāng)庫(kù)中包含大量的綜合數(shù)據(jù)，這些綜合數(shù)據(jù)會(huì)隨著時(shí)間的變化不斷地進(jìn)行重新綜下面關(guān)于數(shù)據(jù)粒度的描述不正確的是：(C)粒度是指數(shù)據(jù)倉(cāng)庫(kù)小數(shù)據(jù)單元的詳細(xì)程度和級(jí)別數(shù)據(jù)越詳細(xì)，粒度就越小，級(jí)別也就越高數(shù)據(jù)綜合度越高，粒度也就越大，級(jí)別也就越高粒度的具體劃分將直接影響數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量以及查詢質(zhì)量有關(guān)數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)特點(diǎn)，不正確的描述是：(A)數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)要從數(shù)據(jù)出發(fā)數(shù)據(jù)倉(cāng)庫(kù)使用的需求在開(kāi)發(fā)出去就要明確數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)是一個(gè)不斷循環(huán)的過(guò)程，是啟發(fā)式的開(kāi)發(fā)在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中，并不存在操作型環(huán)境中所固定的和較確切的處理流，數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)分析和處理更靈活，且沒(méi)有固定的模式21）關(guān)于OLAP勺特性，下面正確的是：（D）（1）快速性（2）可分析性（3）多維性（4）信息性（5）共享性TOC\o"1-5"\h\z（1）⑵⑶（2）⑶⑷（1）⑵⑶⑷⑴⑵⑶⑷⑸22）關(guān)于OLAP入OLTP的區(qū)別描述，不正確的是：（C）OLA葉要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OTAF?用程序不同與OLAP?用程序不同,OLTP應(yīng)用程序包含大量相對(duì)簡(jiǎn)單的事務(wù)OLAP勺特點(diǎn)在于事務(wù)量大，但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高OLAP?以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的，但其最終數(shù)據(jù)來(lái)源與OLT「樣均來(lái)自底層的數(shù)據(jù)庫(kù)系統(tǒng)，兩者面對(duì)的用戶是相同的23）關(guān)于OLAPWOLTP的說(shuō)法，下列不正確的是：（A）OLAP事務(wù)量大,但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高OLAP的最終數(shù)據(jù)來(lái)源與OLTE一樣OLTP?對(duì)的是決策人員和高層管理人員OLTP以應(yīng)用為核心，是應(yīng)用驅(qū)動(dòng)的24）設(shè)X={1,2,3}是頻繁項(xiàng)集，則可由X產(chǎn)生（C）個(gè)關(guān)聯(lián)規(guī)則。4 B.5C.6 D.725）考慮下面的頻繁3-項(xiàng)集的集合：{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5} 假定數(shù)據(jù)集中只有5個(gè)項(xiàng)，采用合并策略，由候選產(chǎn)生過(guò)程得到4-項(xiàng)集不包含（C）1,2,3,4 B.1,2,3,5C.1,2,4,5 D.1,3,4,526）下面選項(xiàng)中t不是s的子序列的是（C）s=<{2,4},{3,5,6},{8}>t=<{2},{3,6},{8}>s=<{2,4},{3,5,6},{8}>t=<{2},{8}>s=<{1,2},{3,4}>t=<{1},{2}>s=<{2,4},{2,4}>t=<{2},{4}>27）在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu)，這樣的任務(wù)稱為（B）A.頻繁子集挖掘B.頻繁子圖挖掘C.頻繁數(shù)據(jù)項(xiàng)挖掘D.頻繁模式挖掘28）下列度量不具有反演性的是（D）系數(shù)B.幾率C.Cohen度量D.興趣因子29）下列（A）不是將主觀信息加入到模式發(fā)現(xiàn)任務(wù)中的方法。與同一時(shí)期其他數(shù)據(jù)對(duì)比可視化基丁模板的方法主觀興趣度量30）下面購(gòu)物藍(lán)能夠提取的3-項(xiàng)集的最大數(shù)量是多少（C）TID項(xiàng)集1牛奶，啤灑，尿布2面包，黃油，牛奶3牛奶，尿布，餅干4面包，黃油，餅干5啤灑，餅干，尿布6牛奶，尿布，面包，黃油7面包，黃油，尿布8啤灑，尿布9牛奶，尿布，面包，黃油10啤灑，餅干1 B.2 C.3 D.431）以下哪些算法是分類算法（B）DBSCANB.C4.5C.K-MeanD.EM32）以下哪些分類方法可以較好地避免樣本的不平衡問(wèn)題（AKNNB.SVMC.BayesD.神經(jīng)網(wǎng)絡(luò)33）決策樹(shù)中不包含一下哪種結(jié)點(diǎn)（C）根結(jié)點(diǎn)（rootnode）內(nèi)部結(jié)點(diǎn)（internalnode）外部結(jié)點(diǎn)（externalnode）葉結(jié)點(diǎn)（leafnode）34）以下哪項(xiàng)關(guān)于決策樹(shù)的說(shuō)法是錯(cuò)誤的（C）冗余屆性不會(huì)對(duì)決策樹(shù)的準(zhǔn)確率造成不利的影響子樹(shù)可能在決策樹(shù)中重復(fù)多次決策樹(shù)算法對(duì)于噪聲的十?dāng)_非常敏感尋找最佳決策樹(shù)是NP完全問(wèn)題35）在基于規(guī)則分類器的中，依據(jù)規(guī)則質(zhì)量的某種度量對(duì)規(guī)則排序，保證每一個(gè)測(cè)試記錄都是由覆蓋它的“最好的”規(guī)格來(lái)分類，這種方案稱為（B）A.基于類的排序方案基于規(guī)則的排序方案基于度量的排序方案基于規(guī)格的排序方案。36）以下哪些算法是基于規(guī)則的分類器（A）C4.5B.KNNC.NaiveBayesD.ANN37）可用作數(shù)據(jù)挖掘分析中的關(guān)聯(lián)規(guī)則算法有（C）。決策樹(shù)、對(duì)數(shù)回歸、關(guān)聯(lián)模式K均值法、SOM申經(jīng)網(wǎng)絡(luò)Apriori算法、FP-Tree算法RBF神經(jīng)網(wǎng)絡(luò)、K均值法、決策樹(shù)38）如果對(duì)屆性值的任一組合，R中都存在一條規(guī)則加以覆蓋，則稱規(guī)則集R中的規(guī)則為（B）A.無(wú)序規(guī)則B.窮舉規(guī)則C.互斥規(guī)則D.有序規(guī)則39）用于分類與回歸應(yīng)用的主要算法有：（D）Apriori算法、HotSpot算法RBF神經(jīng)網(wǎng)絡(luò)、K均值法、決策樹(shù)K均值法、SOM申經(jīng)網(wǎng)絡(luò)決策樹(shù)、BP神經(jīng)網(wǎng)絡(luò)、貝葉斯40）如果允許一條記錄觸發(fā)多條分類規(guī)則，把每條被觸發(fā)規(guī)則的后件看作是對(duì)相應(yīng)類的一次投票，然后計(jì)票確定測(cè)試記錄的類標(biāo)號(hào)，稱為（A）A.無(wú)序規(guī)則B.窮舉規(guī)則C.互斥規(guī)則D.有序規(guī)則41）考慮兩隊(duì)之間的足球比賽：隊(duì)0和隊(duì)1。假設(shè)65%勺比賽隊(duì)0勝出，剩余的比賽隊(duì)1獲勝。隊(duì)0獲勝的比賽中只有30人在隊(duì)1的主場(chǎng)，而隊(duì)1取勝的比賽中75噎主場(chǎng)獲勝。如果下一場(chǎng)比賽在隊(duì)1的主場(chǎng)進(jìn)行隊(duì)1獲勝的概率為（C）0.75B.0.35C.0.4678D.0.573842）以下關(guān)于人工神經(jīng)網(wǎng)絡(luò)（ANN的描述錯(cuò)誤的有（A）神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的噪聲非常魯棒可以處理冗余特征訓(xùn)練ANN入一個(gè)很耗時(shí)的過(guò)程至少含有一個(gè)隱藏層的多層神經(jīng)網(wǎng)絡(luò)43）通過(guò)聚集多個(gè)分類器的預(yù)測(cè)來(lái)提高分類準(zhǔn)確率的技術(shù)稱為（A）A■組合（ensemble）B.聚集（aggregate）C■合并（combination）D?投票（voting）44）簡(jiǎn)單地將數(shù)據(jù)對(duì)象集劃分成不重疊的子集，使得每個(gè)數(shù)據(jù)對(duì)象恰在一個(gè)子集中，這種聚類類型稱作（B）A.層次聚類 B.劃分聚類C. 非互斥聚類D.模糊聚類45）在基本K均值算法里，當(dāng)鄰近度函數(shù)采用（A）的時(shí)候，合適的質(zhì)心是簇中各點(diǎn)的中位數(shù)。A.曼哈頓距離 B. 平方歐幾里德距離C.余弦距離 D.Bregman散度46）（C）是一個(gè)觀測(cè)值，它與其他觀測(cè)值的差別如此之大，以至于懷疑它是由不同的機(jī)制產(chǎn)生的。A.邊界點(diǎn)B.質(zhì)心C.離群點(diǎn)D.核心點(diǎn)47)BIRCH是一種(B）。A.分類器B.聚類算法C?關(guān)聯(lián)分析算法D?特征選擇算法48）檢測(cè)一元正態(tài)分布中的離群點(diǎn)，屆于異常檢測(cè)中的基于（A）的離群點(diǎn)檢測(cè)。A.統(tǒng)計(jì)方法 B.鄰近度C.密度D. 聚類技術(shù)49）（C）將兩個(gè)簇的鄰近度定義為不同簇的所有點(diǎn)對(duì)的平均逐對(duì)鄰近度，它是一種凝聚層次聚類技術(shù)。MIN（單鏈）B.MAX （全鏈）C.組平均D.Ward方法50）（D）將兩個(gè)簇的鄰近度定義為兩個(gè)簇合并時(shí)導(dǎo)致的平方誤差的增量，它是一種凝聚層次聚類技術(shù)。A.MIN（單鏈）B.MAX （全鏈）C.組平均D.Ward方法51）下列算法中，不屆于外推法的是（B）。A.移動(dòng)平均法 B. 回歸分析法C.指數(shù)平滑法 D. 季節(jié)指數(shù)法52）關(guān)聯(lián)規(guī)則的評(píng)價(jià)指標(biāo)是：（C）。A.均方誤差、均方根誤差Kappa統(tǒng)計(jì)、顯著性檢驗(yàn)支持度、置信度平均絕對(duì)誤差、相對(duì)誤差53）關(guān)于K均值和DBSCAN比較，以下說(shuō)法不正確的是（A）。K均值丟棄被它識(shí)別為噪聲的對(duì)象，而DBSCANJ殳聚類所有對(duì)象。K均值使用簇的基于原型的概念'而DBSCAN!用基于密度的概念。K均值很難處理非球形的簇和不同大小的簇，DBSCANT以處理不同大小和不同形狀的簇。K均值可以發(fā)現(xiàn)不是明顯分離的簇，即便簇有重疊也可以發(fā)現(xiàn)，但是DBSCAN合并有重疊的簇。54）從研究現(xiàn)狀上看，下面不屆于云計(jì)算特點(diǎn)的是（C）A.超大規(guī)模 B.虛擬化C.私有化D. 高可靠性55）考慮這么一種情況：一個(gè)對(duì)象碰巧與另一個(gè)對(duì)象相對(duì)接近，但屆于不同的類，因?yàn)檫@兩個(gè)對(duì)象一般不會(huì)共享許多近鄰，所以應(yīng)該選擇（D）的相似度計(jì)算方法。A.平方歐幾里德距離 B.余弦距離C.直接相似度 D. 共享最近鄰56）分析顧客消費(fèi)行業(yè)，以便有針對(duì)性的向其推薦感興趣的服務(wù)，屆于（A）問(wèn)題。A.關(guān)聯(lián)規(guī)則挖掘 B. 分類與回歸C.聚類分析 D.時(shí)序預(yù)測(cè)57）以下哪個(gè)聚類算法不是屆于基于原型的聚類（D）。A.模糊C均值B.EM算法C.SOM D.CLIQUE58）關(guān)于混合模型聚類算法的優(yōu)缺點(diǎn)，下面說(shuō)法正確的是（B）。當(dāng)簇只包含少量數(shù)據(jù)點(diǎn)，或者數(shù)據(jù)點(diǎn)近似協(xié)線性時(shí)，混合模型也能很好地處理?；旌夏Ｐ捅菿均值或模糊c均值更一般，因?yàn)樗梢允褂酶鞣N類型的分布?；旌夏Ｐ秃茈y發(fā)現(xiàn)不同大小和橢球形狀的簇?；旌夏Ｐ驮谟性肼暫碗x群點(diǎn)時(shí)不會(huì)存在問(wèn)題。59）以下哪個(gè)聚類算法不屆于基于網(wǎng)格的聚類算法（D）A.STING B.WaveClusterC.MAFIAD.BIRCH60）一個(gè)對(duì)象的離群點(diǎn)得分是該對(duì)象周圍密度的逆。這是基于（C）的離群點(diǎn)定義。A.概率 B .鄰近度C■密度 D ?聚類61）輿情研判，信息科學(xué)側(cè)重（C），社會(huì)和管理科學(xué)側(cè)重突發(fā)群體事件管理中的群體心理行為及輿論控制研究，新聞傳播學(xué)側(cè)重對(duì)輿論的本體進(jìn)行規(guī)律性的探索和研究。A.輿論的本體進(jìn)行規(guī)律性的探索和研究輿論控制研究ZL聯(lián)網(wǎng)文本挖掘和分析技術(shù)用戶行為分析62）MapReduce勺Map函數(shù)產(chǎn)生很多的（C）A.keyB.valueC.<key,value>D.Hash63）Mapreduce適用于（D）A.任意應(yīng)用程序B.任意可在windowsservet2008上運(yùn)行的程序可以申行處理的應(yīng)用程序可以并行處理的應(yīng)用程序64）PageRan班一個(gè)函數(shù)，它對(duì)Web中的每個(gè)網(wǎng)頁(yè)賦予一個(gè)實(shí)數(shù)值。它的意圖在于網(wǎng)頁(yè)的PageRan颼高，那么它就（D）。A.相關(guān)性越高B■越不重要C.相關(guān)性越低D.越重要XA.一對(duì)一B.一對(duì)多C.多對(duì)多D.多對(duì)一65）協(xié)同過(guò)濾分析用戶興趣，在用戶群中找到指定用戶的相似（興趣）用戶，綜合這些用戶對(duì)某一信息的評(píng)價(jià)，形成系統(tǒng)對(duì)該指定用戶對(duì)此信息的喜好程度（D）,并將這些用戶喜歡的項(xiàng)推薦給有相似興趣的用戶。A.相似B.相同C■推薦D.預(yù)測(cè)66）大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具，在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并（B）成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的信息。A?收集B. 整理C.規(guī)劃D.聚集67）大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營(yíng)過(guò)程中（D）大數(shù)據(jù)的規(guī)律及其與自然和社會(huì)活動(dòng)之間的關(guān)系。A.大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營(yíng)過(guò)程 B.規(guī)劃建設(shè)運(yùn)營(yíng)管理C.規(guī)律和驗(yàn)證 D.發(fā)現(xiàn)和驗(yàn)證68）大數(shù)據(jù)的價(jià)值是通過(guò)數(shù)據(jù)共享、（D）后獲取最大的數(shù)據(jù)價(jià)值A(chǔ).算法共享 B.共享應(yīng)用C.數(shù)據(jù)交換 D.交義復(fù)用69）社交網(wǎng)絡(luò)產(chǎn)生了海量用戶以及實(shí)時(shí)和完整的數(shù)據(jù)，同時(shí)社交網(wǎng)絡(luò)也記錄了用戶群體的（C），通過(guò)深入挖掘這些數(shù)據(jù)來(lái)了解用戶，然后將這些分析后的數(shù)據(jù)信息推給需要的品牌商家或是微博營(yíng)銷公司A.地址 B. 行為C.情緒 D. 來(lái)源70）通過(guò)數(shù)據(jù)收集和展示數(shù)據(jù)背后的（D），運(yùn)用豐富的、具有互動(dòng)性的可視化手段數(shù)據(jù)新聞學(xué)成為新聞學(xué)作為一門新的分支進(jìn)入主流媒體,即用數(shù)據(jù)報(bào)道新聞。A.數(shù)據(jù)收集 B.數(shù)據(jù)挖掘C.真相 D.關(guān)聯(lián)與模式71） CRISP-DM模型中Evaluation表示對(duì)建立的模型進(jìn)行評(píng)估，重點(diǎn)具體考慮得出的結(jié)果是否符合（C）的商業(yè)目的。A.第二步 B. 第三步C.第一步 D. 最后一步72）發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法通常要經(jīng)過(guò)以下三個(gè)步驟：連接數(shù)據(jù) ，作數(shù)據(jù)準(zhǔn)備；給定最小支持度和（D），利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則；可視化顯示、理解、評(píng)估關(guān)聯(lián)規(guī)則A.最小興趣度 B.最小置信度C.最大支持度 D.最小可信度73）規(guī)則I->j,“有可能”，等于所有包含I的購(gòu)物籃中同時(shí)包含J的購(gòu)物籃的比例，為（B）。A.置信度 B.可信度C.興趣度D.支持度74）如果一個(gè)匹配中，任何一個(gè)節(jié)點(diǎn)都不同時(shí)是兩條或多條邊的端點(diǎn)，也稱作（C:A.極大匹配 B.二分匹配C完美匹配 D.極小匹配75）只要具有適當(dāng)?shù)恼咄苿?dòng)，大數(shù)據(jù)的使用將成為未來(lái)提高競(jìng)爭(zhēng)力、生產(chǎn)力、創(chuàng)新能力以及（D）的關(guān)鍵要素。A.提高消費(fèi) B.提高GDPC.提高生活水平 D.創(chuàng)造消費(fèi)者盈余76）個(gè)性化推薦系統(tǒng)是建立在海量數(shù)據(jù)挖掘基礎(chǔ)上的一種高級(jí)商務(wù)智能平臺(tái) ，以幫助（D）為其顧客購(gòu)物提供完全個(gè)性化的決策支持和信息服務(wù)。A.公司 B.各單位C.跨國(guó)企業(yè) D.電子商務(wù)網(wǎng)站77）云計(jì)算是對(duì)（D）技術(shù)的發(fā)展與運(yùn)用A.并行計(jì)算B.網(wǎng)格計(jì)算C.分布式計(jì)算D.三個(gè)選項(xiàng)都是78）（B）是Google提出的用于處理海量數(shù)據(jù)的并行編程模式和大規(guī)模數(shù)據(jù)集的并行運(yùn)算的軟件架構(gòu)。A.GFS B.MapReduceC.ChubbyD.BitTable79）在Bigtable中，（A）主要用來(lái)存儲(chǔ)子表數(shù)據(jù)以及一些日志文件A.GFSB.ChubbyC.SSTableD.MapReduce二、判斷題（共40題）1）分類是預(yù)測(cè)數(shù)據(jù)對(duì)象的離散類別，預(yù)測(cè)是用于數(shù)據(jù)對(duì)象的連續(xù)取值。（對(duì)）2）時(shí)序預(yù)測(cè)回歸預(yù)測(cè)一樣，也是用已知的數(shù)據(jù)預(yù)測(cè)未來(lái)的值，但這些數(shù)據(jù)的區(qū)別是變量所處時(shí)間的不同。（錯(cuò)）3）數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則，從而能更好的完成描述數(shù)據(jù)、預(yù)測(cè)數(shù)據(jù)等任務(wù)。（對(duì)）4）對(duì)遺漏數(shù)據(jù)的處理方法主要有：忽略該條記錄；手工填補(bǔ)遺漏值；利用默認(rèn)值填補(bǔ)遺漏值；利用均值填補(bǔ)遺漏值；利用同類別均值填補(bǔ)遺漏值；利用最可能的值填充遺漏值。（對(duì)）5）神經(jīng)網(wǎng)絡(luò)對(duì)噪音數(shù)據(jù)具有高承受能力，并能對(duì)未經(jīng)過(guò)訓(xùn)練的數(shù)據(jù)具有分類能力，但其需要很長(zhǎng)的訓(xùn)練時(shí)間，因而對(duì)于有足夠長(zhǎng)訓(xùn)練時(shí)間的應(yīng)用更合適。（對(duì)）6）數(shù)據(jù)分類由兩步過(guò)程組成：第一步，建立一個(gè)聚類模型，描述指定的數(shù)據(jù)類集或概念集；第二步，使用模型進(jìn)行分類。（錯(cuò)）7）聚類是指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過(guò)程。（對(duì)）8）決策樹(shù)方法通常用于關(guān)聯(lián)規(guī)則挖掘。（錯(cuò)）9）數(shù)據(jù)規(guī)范化指將數(shù)據(jù)按比例縮放（如更換大單位），使之落入一個(gè)特定的區(qū)域（如0-1）以提高數(shù)據(jù)挖掘效率的方法。規(guī)范化的常用方法有：最大-最小規(guī)范化、零-均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化。（對(duì)）10）原始業(yè)務(wù)數(shù)據(jù)來(lái)自多個(gè)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)，它們的結(jié)構(gòu)和規(guī)則可能是不同的，這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用，即使在同一個(gè)數(shù)據(jù)庫(kù)中，也可能存在重復(fù)的和不完整的數(shù)據(jù)信息為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求，提高效率和得到活晰的結(jié)果，必須進(jìn)行數(shù)據(jù)的預(yù)處理。（對(duì)）11）數(shù)據(jù)取樣時(shí)，除了要求抽樣時(shí)嚴(yán)把質(zhì)量關(guān)外，還要求抽樣數(shù)據(jù)必須在足夠范圍內(nèi)有代表性。（對(duì)）12）分類規(guī)則的挖掘方法通常有：決策樹(shù)法、貝葉斯法、人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法（對(duì)）13）可信度是對(duì)關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。（錯(cuò)）TOC\o"1-5"\h\z14）孤立點(diǎn)在數(shù)據(jù)挖掘時(shí)總是被視為異常、無(wú)用數(shù)據(jù)而丟棄。（錯(cuò)）15）Apriori算法是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。（對(duì)）16）用于分類的離散化方法之間的根本區(qū)別在于是否使用類信息。（對(duì)）17）特征提取技術(shù)并不依賴于特定的領(lǐng)域。（錯(cuò)）18）模型的具體化就是預(yù)測(cè)公式，公式可以產(chǎn)生與觀察值有相似結(jié)構(gòu)的輸出，這就是預(yù)測(cè)值。（對(duì)）19）文本挖掘乂稱信息檢索，是從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知識(shí)的過(guò)程。（錯(cuò)）20）定量屆性可以是整數(shù)值或者是連續(xù)值。（對(duì)）21）22）23）24）25）26）27）28）29）30）數(shù)31）32）33）34）35）36）37）38）39）可視化技術(shù)對(duì)于分析的數(shù)據(jù)類型通常不是專用性的。（錯(cuò)）OLA成術(shù)側(cè)重于把數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析、轉(zhuǎn)換成輔助決策信息，是繼數(shù)據(jù)庫(kù)技術(shù)發(fā)展之后迅猛發(fā)展起來(lái)的一種新技術(shù)。（對(duì)）We澈據(jù)挖掘是通過(guò)數(shù)據(jù)庫(kù)仲的一些屆性來(lái)預(yù)測(cè)另一個(gè)屆性，它在驗(yàn)證用戶提出的假設(shè)過(guò)程中提取信息。（錯(cuò)）關(guān)聯(lián)規(guī)則挖掘過(guò)程是發(fā)現(xiàn)滿足最小支持度的所有項(xiàng)集代表的規(guī)則。（錯(cuò)）利用先驗(yàn)原理可以幫助減少頻繁項(xiàng)集產(chǎn)生時(shí)需要探查的候選項(xiàng)個(gè)數(shù)。（對(duì)）先驗(yàn)原理可以表述為：如果一個(gè)項(xiàng)集是頻繁的，那包含它的所有項(xiàng)集也是頻繁的。（錯(cuò):回歸分析通常用于挖掘關(guān)聯(lián)規(guī)則。（錯(cuò)）具有較高的支持度的項(xiàng)集具有較高的置信度。（錯(cuò)）維歸約可以去掉不重要的屆性，減少數(shù)據(jù)立方體的維數(shù)，從而減少數(shù)據(jù)挖掘處理的數(shù)據(jù)量，提高挖掘效率。（對(duì)）聚類（clustering）是這樣的過(guò)程：它找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型（或函以便能夠使用模型預(yù)測(cè)類標(biāo)記未知的對(duì)象類。（錯(cuò)）對(duì)于SV附類算法，待分樣本集中的大部分樣本不是支持向量，移去或者減少這些樣本對(duì)分類結(jié)果沒(méi)有影響。（對(duì)）Bayes法是一種在已知后驗(yàn)概率與類條件概率的情況下的模式分類方法，待分樣本的分類結(jié)果取決于各類域中樣本的全體。（錯(cuò)）在決策樹(shù)中，隨著樹(shù)中結(jié)點(diǎn)數(shù)變得太大，即使模型的訓(xùn)練誤差還在繼續(xù)減低，但是檢驗(yàn)誤差開(kāi)始增大，這是出現(xiàn)了模型擬合不足的問(wèn)題。（錯(cuò)）在聚類分析當(dāng)中，簇內(nèi)的相似性越大，簇問(wèn)的差別越大，聚類的效果就越差。（錯(cuò)）聚類分析可以看作是一種非監(jiān)督的分類。（對(duì)）K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法，簇的個(gè)數(shù)由算法自動(dòng)地確定。（錯(cuò)基于鄰近度的離群點(diǎn)檢測(cè)方法不能處理具有不同密度區(qū)域的數(shù)據(jù)集。（對(duì)）如果一個(gè)對(duì)象不強(qiáng)屆于任何簇，那么該對(duì)象是基于聚類的離群點(diǎn)。（對(duì)）大數(shù)據(jù)的4V特點(diǎn)是VolumeVelocity、Variety、Veracity對(duì)）40）聚類分析的相異度矩陣是用于存儲(chǔ)所有對(duì)象兩兩之間相異度的矩陣，為一個(gè)nn維的單模矩陣。（對(duì)）三、多選題（共30題）1）噪聲數(shù)據(jù)的產(chǎn)生原因主要有：（ABCD數(shù)據(jù)采集設(shè)備有問(wèn)題在數(shù)據(jù)錄入過(guò)程中發(fā)生了人為或計(jì)算機(jī)錯(cuò)誤數(shù)據(jù)傳輸過(guò)程中發(fā)生錯(cuò)誤由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致2）尋找數(shù)據(jù)集中的關(guān)系是為了尋找精確、方便并且有價(jià)值地總結(jié)出數(shù)據(jù)的某一特征的表示這個(gè)過(guò)程包括了以下哪些步驟？（ABCD）選擇一個(gè)算法過(guò)程使評(píng)分函數(shù)最優(yōu)決定如何量化和比較不同表示擬合數(shù)據(jù)的好壞決定要使用的表示的特征和結(jié)構(gòu)決定用什么樣的數(shù)據(jù)管理原則以高效地實(shí)現(xiàn)算法3）數(shù)據(jù)挖掘的預(yù)測(cè)建模任務(wù)主要包括哪幾大類問(wèn)題？（AB）分類回歸聚類關(guān)聯(lián)規(guī)則挖掘4）下列屆于不同的有序數(shù)據(jù)的有：（ABCD）時(shí)序數(shù)據(jù)序列數(shù)據(jù)時(shí)間序列數(shù)據(jù)事務(wù)數(shù)據(jù)空間數(shù)據(jù)5）下面屆于數(shù)據(jù)集的一般特性的有：（BCD）連續(xù)性維度稀疏性D.分辨率相異性6）下面屆于維歸約常用的處理技術(shù)的有：（AC）A.主成分分析特征提取奇異值分解特征加權(quán)離散化7）噪聲數(shù)據(jù)處理的方法主要有：（ABD）A.分箱B.聚類C.關(guān)聯(lián)分析 D.回歸8）數(shù)據(jù)挖掘的主要功能包括概念描述、趨勢(shì)分析、孤立點(diǎn)分析及（ABCD）等方面A.挖掘頻繁模式 B.分類和預(yù)測(cè)C?聚類分析 D? 偏差分析9）以下各項(xiàng)均是針對(duì)數(shù)據(jù)倉(cāng)庫(kù)的不同說(shuō)法，你認(rèn)為正確的有（BCD）。A.數(shù)據(jù)倉(cāng)庫(kù)就是數(shù)據(jù)庫(kù)B.數(shù)據(jù)倉(cāng)庫(kù)是一切商業(yè)智能系統(tǒng)的基礎(chǔ)C.數(shù)據(jù)倉(cāng)庫(kù)是面向業(yè)務(wù)的，支持聯(lián)機(jī)事務(wù)處理（OLTPD.數(shù)據(jù)倉(cāng)庫(kù)支持決策而非事務(wù)處理10）聯(lián)機(jī)分析處理包括（BCD）基本分析功能。A.聚類 B. 切片在以下的購(gòu)物C.轉(zhuǎn)軸 D. 切塊在以下的購(gòu)物11）利用Apriori算法計(jì)算頻繁項(xiàng)集可以有效降低計(jì)算頻繁集的時(shí)間復(fù)雜度?；@中產(chǎn)生支持度不小丁3的候選3-項(xiàng)集，在候選2-項(xiàng)集中需要剪枝的是（BD）TID項(xiàng)集1面包、牛奶2面包、尿布、啤灑、雞蛋3牛奶、尿布、啤灑、可樂(lè)4面包、牛奶、尿布、啤灑5面包、牛奶、尿布、可樂(lè)A■啤灑、尿布 B. 啤灑、面包C■面包、尿布 D. 啤灑、牛奶12）下表是一個(gè)購(gòu)物籃，假定支持度閾值為40%,其中（AD）是頻繁閉項(xiàng)集ID項(xiàng)集1面包、牛奶、尿布2面包、牛奶、尿布、啤灑3牛奶、尿布、雞蛋4面包、尿布、啤灑、雞蛋5啤灑、雞蛋A.面包、牛奶、尿布B. 面包、啤灑C.尿布、啤灑 D. 啤灑、雞蛋13） Apriori算法的計(jì)算復(fù)雜度受（ABCD）影響。A.支持度閥值 B. 項(xiàng)數(shù)（維度）C.事務(wù)數(shù) D. 事務(wù)平均寬度14）以下關(guān)于非頻繁模式說(shuō)法，正確的是（AD）A.其支持度小于閾值 B. 都是不讓人感興趣的C.包含負(fù)模式和負(fù)相關(guān)模式 D.對(duì)異常數(shù)據(jù)項(xiàng)敏感15）以下屆于分類器評(píng)價(jià)或比較尺度的有：（ACD）A.預(yù)測(cè)準(zhǔn)確度 B.召回率C.模型描述的簡(jiǎn)潔度 D.計(jì)算復(fù)雜度16）貝葉斯信念網(wǎng)絡(luò)（BBN）有如下哪些特點(diǎn)。（AB）構(gòu)造網(wǎng)絡(luò)費(fèi)時(shí)

人人文庫(kù)> 全部分類> 行業(yè)資料 > 各類標(biāo)準(zhǔn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘試題及答案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘試題及答案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔