版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
?大數(shù)據(jù)時代下數(shù)據(jù)發(fā)掘?試題分析?大數(shù)據(jù)時代下數(shù)據(jù)發(fā)掘?試題分析?大數(shù)據(jù)時代下數(shù)據(jù)發(fā)掘?試題分析?海量數(shù)據(jù)發(fā)掘技術及工程實踐?題目一、單項選擇題〔共80題〕(D)的目的減小數(shù)據(jù)的取值范圍,使其更合適于數(shù)據(jù)發(fā)掘算法的需要,而且可以獲得和原始數(shù)據(jù)同樣的分析結果。A.數(shù)據(jù)沖洗B.數(shù)據(jù)集成C.數(shù)據(jù)變換D.數(shù)據(jù)歸約某商場研究銷售紀錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大體率也會購買尿布,這類屬于數(shù)據(jù)發(fā)掘的哪一種問題?(A)3)A.關系規(guī)那么發(fā)現(xiàn)B.聚類4)C.分類D.自然語言辦理5)以下兩種描繪分別對應哪兩種對分類算法的談論標準?(A)(a)警察抓小偷,描繪警察抓的人中有多少個是小偷的標準。(b)描繪有多少比率的小偷給警察抓了的標準。A.Precision,RecallB.Recall,Precision9)A.Precision,ROCD.Recall,ROC10)將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務?(C)11)A.屢次模式發(fā)掘B.分類和展望C.數(shù)據(jù)預辦理D.數(shù)據(jù)流發(fā)掘當不知道數(shù)據(jù)所帶標簽時,可以使用哪一種技術促進帶同類標簽的數(shù)據(jù)與帶其余標簽的數(shù)據(jù)相分別?(B)13)A.
分類
B.
聚類C.關系分析
D.
隱馬爾可夫鏈成立一個模型,經(jīng)過這個模型依據(jù)的變量值來展望其余某個變量值屬于數(shù)據(jù)發(fā)掘的哪一類任務?(C)A.依據(jù)內(nèi)容檢索B.建模描繪C.展望建模D.找尋模式和規(guī)那么下邊哪一種不屬于數(shù)據(jù)預辦理的方法?(D)18)A.變量代換B.失散化C.齊集D.預計遺漏值假定12個銷售價錢記錄組已經(jīng)排序以下:5,10,11,13,15,35,50,55,72,92,204,215使用以下每種方法將它們區(qū)分紅四個箱。等頻〔等深〕區(qū)分時,15在第幾個箱子內(nèi)?(B)20)A.第一個
B.
第二個C.第三個
D.
第四個下邊哪個不屬于數(shù)據(jù)的屬性種類:(D)22)A.標稱B.序數(shù)C.區(qū)間
D.
相異只有非零值才重要的二元屬性被稱作:(C)24)A.計數(shù)屬性B.失散屬性C.非對稱的二元屬性D.對稱屬性25)以下哪一種方法不屬于特色選擇的標準方法:(D)26)A.嵌入B.過濾C.包裝D.抽樣27)下邊不屬于創(chuàng)辦新屬性的有關方法的是:(B)28)A.特色提取B.C.照耀數(shù)據(jù)到新的空間
特色改正D.特色結構29)下邊哪個屬于照耀數(shù)據(jù)到新的空間的方法?(A)30)A.傅立葉變換
B.特色加權C.漸進抽樣
D.
維歸約假定屬性income的最大最小值分別是12000元和98000元。利用最大最小標準化的方法將屬性的值照耀到0至1的范圍內(nèi)。對屬性income的73600元將被轉變?yōu)椋?D)一所大學內(nèi)的各年齡人數(shù)分別為:一年級200人,二年級160人,三年級130人,四年級110人。那么年級屬性的眾數(shù)是:(A)34)A.一年級
B.
二年級C.三年級
D.
四年級35)以下哪個不是專門用于可視化時間空間數(shù)據(jù)的技術:(B)36)A.等高線圖B.餅圖C.曲面圖D.矢量場圖37)在抽樣方法中,當合適的樣本容量很難確準時,可以使用的抽樣方法是:(D)A.有放回的簡單隨機抽樣無放回的簡單隨機抽樣分層抽樣漸進抽樣數(shù)據(jù)庫房是跟著時間變化的,下邊的描繪不正確的選項是(C)A.數(shù)據(jù)庫房隨時間的變化不停增添新的數(shù)據(jù)內(nèi)容B.捕獲到的新數(shù)據(jù)會覆蓋本來的快照C.數(shù)據(jù)庫房隨事件變化不停刪去舊的數(shù)據(jù)內(nèi)容D.數(shù)據(jù)庫房中包含大批的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會跟著時間的變化不停地進行從頭綜合下邊對于數(shù)據(jù)粒度的描繪不正確的選項是:(C)A.粒度是指數(shù)據(jù)庫房小數(shù)據(jù)單元的詳盡程度和級別B.數(shù)據(jù)越詳盡,粒度就越小,級別也就越高C.數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高D.粒度的詳盡區(qū)分將直接影響數(shù)據(jù)庫房中的數(shù)據(jù)量以及查問質(zhì)量有關數(shù)據(jù)庫房的開發(fā)特色,不正確的描繪是:(A)A.數(shù)據(jù)庫房開發(fā)要從數(shù)據(jù)出發(fā)B.數(shù)據(jù)庫房使用的需求在開發(fā)出去就要明確C.數(shù)據(jù)庫房的開發(fā)是一個不停循環(huán)的過程,是啟迪式的開發(fā)D.在數(shù)據(jù)庫房環(huán)境中,其實不存在操作型環(huán)境中所固定的和較的確的辦理流,數(shù)據(jù)庫房中數(shù)據(jù)分析和辦理更靈巧,且沒有固定的模式對于OLAP的特色,下邊正確的選項是:(D)(1)迅速性(2)可分析性(3)多維性(4)信息性(5)共享性A.(1)(2)(3)B.(2)(3)(4)C.(1)(2)(3)(4)D.(1)(2)(3)(4)(5)對于OLAP和OLTP的差別描繪,不正確的選項是:(C)主假如對于怎樣理解齊集的大批不同樣的數(shù)據(jù).它與OTAP應用程序不同樣B.與OLAP應用程序不同樣,OLTP應用程序包含大批相對簡單的事務的特色在于事務量大,但事務內(nèi)容比較簡單且重復率高是以數(shù)據(jù)庫房為基礎的,但其最后數(shù)據(jù)根源與OLTP同樣均來自基層的數(shù)據(jù)庫系統(tǒng),二者面對的用戶是同樣的對于OLAP和OLTP的說法,以下不正確的選項是:(A)事務量大,但事務內(nèi)容比較簡單且重復率高的最后數(shù)據(jù)根源與OLTP不同樣樣面對的是決議人員和高層管理人員以應用為核心,是應用驅(qū)動的設X={1,2,3}是屢次項集,那么可由X產(chǎn)生(C)個關系規(guī)那么??紤]下邊的屢次3-項集的會集:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數(shù)據(jù)集中只有5個項,采納歸并策略,由候選產(chǎn)生過程獲得4-項集不包含〔C〕A.1,2,3,4B.1,2,3,5C.1,2,4,5D.1,3,4,5下邊選項中t不是s的子序列的是(C)A.s=<{2,4},{3,5,6},{8}>t=<{2},{3,6},{8}>B.s=<{2,4},{3,5,6},{8}>t=<{2},{8}>C.s=<{1,2},{3,4}>t=<{1},{2}>D.s=<{2,4},{2,4}>t=<{2},{4}>在圖會集中發(fā)現(xiàn)一組公共子結構,這樣的任務稱為(B)A.屢次子集發(fā)掘B.屢次子圖發(fā)掘C.屢次數(shù)據(jù)項發(fā)掘D.屢次模式發(fā)掘以下胸懷不擁有反演性的是(D)82)A.系數(shù)B.幾率胸懷D.興趣因子以下(A)不是將主觀信息參加到模式發(fā)現(xiàn)任務中的方法。A.與同一時期其余數(shù)據(jù)比較B.可視化C.鑒于模板的方法D.主觀興趣胸懷下邊購物藍可以提取的3-項集的最大數(shù)目是多少〔C〕TID項集牛奶,啤酒,尿布面包,黃油,牛奶牛奶,尿布,餅干面包,黃油,餅干啤酒,餅干,尿布牛奶,尿布,面包,黃油面包,黃油,尿布啤酒,尿布牛奶,尿布,面包,黃油啤酒,餅干以下哪些算法是分類算法〔B〕以下哪些分類方法可以較好地防備樣本的不均衡問題〔A〕A.KNNB.SVMC.BayesD.神經(jīng)網(wǎng)絡決議樹中不包含一下哪一種結點(C)A.根結點〔rootnode)B.內(nèi)部結點〔internalnode〕C.外面結點〔externalnode〕葉結點〔leafnode〕以下哪項對于決議樹的說法是錯誤的(C)冗余屬性不會對決議樹的正確率造成不利的影響子樹可能在決議樹中重復屢次決議樹算法對于噪聲的攪亂特別敏感找尋最正確決議樹是NP圓滿問題在鑒于規(guī)那么分類器的中,依據(jù)規(guī)那么質(zhì)量的某種胸懷對規(guī)那么排序,保證每一個測試記錄都是由覆蓋它的“最好的〞規(guī)格來分類,這類方案稱為(B)A.鑒于類的排序方案B.鑒于規(guī)那么的排序方案C.鑒于胸懷的排序方案D.鑒于規(guī)格的排序方案。以下哪些算法是鑒于規(guī)那么的分類器(A)B.KNN可用作數(shù)據(jù)發(fā)掘分析中的關系規(guī)那么算法有〔C〕。A.決議樹、對數(shù)回歸、關系模式K均值法、SOM神經(jīng)網(wǎng)絡Apriori算法、FP-Tree算法RBF神經(jīng)網(wǎng)絡、K均值法、決議樹假如對屬性值的任一組合,R中都存在一條規(guī)那么加以覆蓋,那么稱規(guī)那么集R中的規(guī)那么為(B)用于分類與回歸應用的主要算法有:(D)A.Apriori算法、HotSpot算法神經(jīng)網(wǎng)絡、K均值法、決議樹C.K均值法、SOM神經(jīng)網(wǎng)絡D.決議樹、BP神經(jīng)網(wǎng)絡、貝葉斯假仿佛意一條記錄觸發(fā)多條分類規(guī)那么,把每條被觸發(fā)規(guī)那么的后件看作是對相應類的一次投票,此后計票確立測試記錄的類標號,稱為〔A〕A.無序規(guī)那么B.窮舉規(guī)那么C.互斥規(guī)那么D.有序規(guī)那么考慮兩隊之間的足球競賽:隊0和隊1。假定65%的競賽隊0勝出,節(jié)余的競賽隊1獲勝。隊0獲勝的競賽中只有30%是在隊1的主場,而隊1取勝的競賽中75%是主場獲勝。假以下一場競賽在隊1的主場進行隊1獲勝的概率為(C)以下對于人工神經(jīng)網(wǎng)絡〔ANN〕的描繪錯誤的有(A)神經(jīng)網(wǎng)絡對訓練數(shù)據(jù)中的噪聲特別魯棒可以辦理冗余特色訓練ANN是一個很耗時的過程最少含有一個隱蔽層的多層神經(jīng)網(wǎng)絡43)經(jīng)過齊集多個分類器的展望來提升分類正確率的技術稱為(A)A.組合(ensemble)B.齊集(aggregate)C.歸并(combination)D.投票(voting)簡單地將數(shù)據(jù)對象集區(qū)分紅不重疊的子集,使得每個數(shù)據(jù)對象恰在一個子集中,這類聚類種類稱作〔B〕A.層次聚類B.區(qū)分聚類C.非互斥聚類D.模糊聚類在根本K均值算法里,當周邊度函數(shù)采納〔A〕的時候,合適的質(zhì)心是簇中各點的中位數(shù)。A.曼哈頓距離B.平方歐幾里德距離〔C〕是一個察看值,它與其余察看值的差別這樣之大,致使于思疑它是由不同樣的系統(tǒng)產(chǎn)生的。A.界限點C.離群點D.47)BIRCH是一種〔
B
B.質(zhì)心核心點〕。A.分類器
B.
聚類算法C.關系分析算法
D.特色選擇算法檢測一元正態(tài)散布中的離群點,屬于異樣檢測中的鑒于〔A〕的離群點檢測。A.統(tǒng)計方法B.周邊度C.密度D.聚類技術49)〔C〕將兩個簇的周邊度定義為不同樣簇的全部點對的均勻逐對周邊度,它是一種凝集層次聚類技術。A.MIN〔單鏈〕〔全鏈〕C.組均勻方法50)〔D〕將兩個簇的周邊度定義為兩個簇歸并時致使的平方偏差的增量,它是一種凝集層次聚類技術。A.MIN〔單鏈〕〔全鏈〕C.組均勻方法以下算法中,不屬于外推法的是〔B〕。A.挪動均勻法B.回歸分析法C.指數(shù)圓滑法D.季節(jié)指數(shù)法關系規(guī)那么的談論指標是:〔C〕。A.均方偏差、均方根偏差支持度、置信度均勻絕對偏差、相對偏差對于K均值和DBSCAN的比較,以下說法不正確的選項是〔A〕。A.K均值拋棄被它鑒識為噪聲的對象,而DBSCAN一般聚類全部對象。B.K均值使用簇的鑒于原型的見解,而DBSCAN使用鑒于密度的見解。C.K均值很難辦理非球形的簇和不同樣大小的簇,DBSCAN可以辦理不同樣大小和不同樣形狀的簇。
均值可以發(fā)現(xiàn)不是顯然分其余簇
,即使簇有重疊也可以發(fā)現(xiàn)
,可是DBSCAN會集并有重疊的簇。54〕從研究現(xiàn)狀上看,下邊不屬于云計算特色的是〔A.超大規(guī)模B.虛假化C.私有化D.高靠譜性
C〕55)考慮這么一種狀況:一個對象剛巧與另一個對象相對湊近,但屬于不同樣的類,因為這兩個對象一般不會共享很多近鄰,因此應當選擇〔D〕的相像度計算方法。A.平方歐幾里德距離
B.余弦距離C.直接相像度
D.
共享近來鄰分析顧客開銷行業(yè),以便有針對性的向其介紹感興趣的效力,屬于〔A〕問題。A.關系規(guī)那么發(fā)掘B.分類與回歸C.聚類分析D.時序展望以下哪個聚類算法不是屬于鑒于原型的聚類〔D〕。A.模糊C均值算法對于混淆模型聚類算法的優(yōu)弊端,下邊說法正確的選項是〔B〕。當簇只包含少許數(shù)據(jù)點,或許數(shù)據(jù)點近似協(xié)線性時,混淆模型也能很好地辦理?;煜P捅菿均值或模糊c均值更一般,因為它可以使用各樣種類的散布?;煜P秃茈y發(fā)現(xiàn)不同樣大小和橢球形狀的簇?;煜P驮谟性肼暫碗x群點時不會存在問題。以下哪個聚類算法不屬于鑒于網(wǎng)格的聚類算法〔D〕。60)一個對象的離群點得分是該對象四周祥度的逆。這是鑒于〔C〕的離群點定義。A.概率B.周邊度C.密度D.聚類輿情研判,信息科學重視〔C〕,社會和管理科學重視突發(fā)集體事件管理中的集體心理行為及輿論控制研究,新聞流傳學重視對輿論的本體進行規(guī)律性的研究和研究。輿論的本體進行規(guī)律性的研究和研究輿論控制研究互聯(lián)網(wǎng)文本發(fā)掘和分析技術用戶行為分析62)MapReduce的Map函數(shù)產(chǎn)生很多的〔C.<key,value>
C
〕Mapreduce合用于〔D〕隨意應用程序隨意可在windowsservet2021上運轉的程序可以串行辦理的應用程序可以并行辦理的應用程序PageRank是一個函數(shù),它對Web中的每個網(wǎng)頁恩賜一個實數(shù)值。它的企圖在于網(wǎng)頁的PageRank越高,那么它就〔D〕。A.有關性越高
B.越不重要C.有關性越低
D.越重要╳A.一對一
B.一對多C.多對多
D.多對一共同過濾分析用戶興趣,在用戶群中找到指定用戶的相像(興趣)用戶,綜合這些用戶對某一信息的談論,形成系統(tǒng)對該指定用戶對此信息的喜好程度〔D〕,并將這些用戶喜愛的項介紹給有相像興趣的用戶。A.相像
B.同樣C.介紹
D.展望大數(shù)據(jù)指的是所波及的資料量規(guī)模巨大到?jīng)]法透過當前主流軟件工具,在合理時間內(nèi)達到擷取、管理、辦理、并〔B〕成為幫助公司經(jīng)營決議更踴躍目的的信息。A.采集
B.整理C.規(guī)劃
D.齊集67)大數(shù)據(jù)科學關注大數(shù)據(jù)網(wǎng)絡張開和營運過程中〔
D
〕大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關系。A.大數(shù)據(jù)網(wǎng)絡張開和營運過程C.規(guī)律和考證68)大數(shù)據(jù)的價值是經(jīng)過數(shù)據(jù)共享、〔
D
B.規(guī)劃建設營運管理D.發(fā)現(xiàn)和考證〕后獲得最大的數(shù)據(jù)價值A.算法共享
B.共享應用C.數(shù)據(jù)互換
D.交叉復用交際網(wǎng)絡產(chǎn)生了海量用戶以及及時和圓滿的數(shù)據(jù),同時交際網(wǎng)絡也記錄了用戶集體的〔C〕,經(jīng)過深入發(fā)掘這些數(shù)據(jù)來認識用戶,此后將這些分析后的數(shù)據(jù)信息推給需要的品牌商家或是微博營銷公司。A.地點
B.行為C.情緒
D.根源70)經(jīng)過數(shù)據(jù)采集和展現(xiàn)數(shù)據(jù)背后的〔D〕,運用豐富的、擁有互動性的可視化手段數(shù)據(jù)新聞學成為新聞學作為一門新的分支進入主流媒體,即用數(shù)據(jù)報導新聞。
,A.數(shù)據(jù)采集
B.數(shù)據(jù)發(fā)掘C.實情
D.關系與模式CRISP-DM模型中Evaluation表示對成立的模型進行評估,要點詳盡考慮得出的結果是否符合〔C〕的商業(yè)目的。A.第二步
B.第三步C.第一步
D.最后一步發(fā)現(xiàn)關系規(guī)那么的算法平常要經(jīng)過以下三個步驟:連結數(shù)據(jù),作數(shù)據(jù)準備;給定最小支持度和〔D〕,利用數(shù)據(jù)發(fā)掘工具供給的算法發(fā)現(xiàn)關系規(guī)那么;可視化顯示、理解、評估關系規(guī)那么A.最小興趣度
B.最小置信度C.最大支持度
D.最小可信度規(guī)那么I->j,“有可能〞,等于全部包含I的購物籃中同時包含J的購物籃的比率,為〔B〕。A.置信度
B.可信度C.興趣度
D.支持度74)假如一個般配中
,任何一個節(jié)點都不同樣時是兩條或多條邊的端點
,也稱作〔
C
〕A.極大般配
B.二分般配C圓滿般配
D.極小般配只需擁有合適的政策推進,大數(shù)據(jù)的使用將成為未來提升競爭力、生產(chǎn)力、創(chuàng)新能力以及〔D〕的要點因素。A.提升開銷B.提升GDPC.提升生活水平D.創(chuàng)辦開銷者盈利個性化介紹系統(tǒng)是成立在海量數(shù)據(jù)發(fā)掘基礎上的一種高級商務智能平臺,以幫助〔D〕為其顧客購物供給圓滿個性化的決議支持和信息效力。A.公司
B.各單位C.跨國公司
D.電子商務網(wǎng)站云計算是對〔D〕技術的張開與運用A.并行計算B.網(wǎng)格計算C.散布式計算D.三個選項都是〔B〕是Google提出的用于辦理海量數(shù)據(jù)的并行編程模式和大規(guī)模數(shù)據(jù)集的并行運算的軟件架構。在Bigtable中,〔A〕主要用來儲蓄子表數(shù)據(jù)以及一些日記文件A.GFSB.Chubby二、判斷題〔共40題〕分類是展望數(shù)據(jù)對象的失散種類,展望是用于數(shù)據(jù)對象的連續(xù)取值。(對)時序展望回歸展望同樣,也是用的數(shù)據(jù)展望未來的值,但這些數(shù)據(jù)的差別是變量所處時間的不同樣。(錯)數(shù)據(jù)發(fā)掘的主要任務是從數(shù)據(jù)中發(fā)現(xiàn)暗藏的規(guī)那么,進而能更好的達成描繪數(shù)據(jù)、展望數(shù)據(jù)等任務。(對)對遺漏數(shù)據(jù)的辦理方法主要有:忽視該條記錄;手工填補遺漏值;利用默認值填補遺漏值;利用均值填補遺漏值;利用同種類均值填補遺漏值;利用最可能的值填補遺漏值。(對)神經(jīng)網(wǎng)絡對噪音數(shù)據(jù)擁有高承受能力,并能對未經(jīng)過訓練的數(shù)據(jù)擁有分類能力,但其需要很長的訓練時間,因此對于有足夠長訓練時間的應用更合適。(對)數(shù)據(jù)分類由兩步過程構成:第一步,成立一個聚類模型,描繪指定的數(shù)據(jù)類集或見解集;第二步,使用模型進行分類。(錯)7)聚類是指將物理或抽象對象的會集分構成為由近似的對象構成的多個類的過程。(對)決議樹方法平常用于關系規(guī)那么發(fā)掘。(錯)數(shù)據(jù)標準化指將數(shù)據(jù)按比率縮放(如改換大單位),使之落入一個特定的地區(qū)〔如0-1〕以提升數(shù)據(jù)發(fā)掘效率的方法。標準化的常用方法有:最大-最小標準化、零-均值標準化、小數(shù)定標標準化。(對)原始業(yè)務數(shù)據(jù)來自多個數(shù)據(jù)庫或數(shù)據(jù)庫房,它們的結構和規(guī)那么可能是不同樣的,這將致使原始數(shù)據(jù)特其余紛雜、不可以用,即使在同一個數(shù)據(jù)庫中,也可能存在重復的和不圓滿的數(shù)據(jù)信息,為了使這些數(shù)據(jù)可以符合數(shù)據(jù)發(fā)掘的要求,提升效率和獲得清楚的結果,必然進行數(shù)據(jù)的預辦理。(對)數(shù)據(jù)取樣時,除了要求抽樣時嚴把質(zhì)量關外,還要求抽樣數(shù)據(jù)必然在足夠范圍內(nèi)有代表性。(對)分類規(guī)那么的發(fā)掘方法平常有:決議樹法、貝葉斯法、人工神經(jīng)網(wǎng)絡法、粗拙集法和遺傳算法。(對)可信度是對關系規(guī)那么的正確度的權衡。(錯)孤立點在數(shù)據(jù)發(fā)掘時老是被視為異樣、無用數(shù)據(jù)而拋棄。(錯)Apriori算法是一種典型的關系規(guī)那么發(fā)掘算法。(對)用于分類的失散化方法之間的根本差別在于能否使用類信息?!矊Α程厣崛〖夹g其實不依靠于特定的領域?!插e〕模型的詳盡化就是展望公式,公式可以產(chǎn)生與察看值有相像結構的輸出,這就是展望值?!矊Α澄谋景l(fā)掘又稱信息檢索,是從大批文本數(shù)據(jù)中提取從前未知的、合用的、可理解的、可操作的知識的過程?!插e〕定量屬性可以是整數(shù)值或許是連續(xù)值。〔對〕可視化技術對于分析的數(shù)據(jù)種類平常不是專用性的。〔錯〕OLAP技術重視于把數(shù)據(jù)庫中的數(shù)據(jù)進行分析、變換成協(xié)助決議信息,是繼數(shù)據(jù)庫技術張開今后迅猛張開起來的一種新技術。〔對〕Web數(shù)據(jù)發(fā)掘是經(jīng)過數(shù)據(jù)庫仲的一些屬性來展望另一個屬性,它在考證用戶提出的假定過程中提守信息?!插e〕關系規(guī)那么發(fā)掘過程是發(fā)現(xiàn)知足最小支持度的全部項集代表的規(guī)那么?!插e〕利用先驗原理可以幫助減少屢次項集產(chǎn)生時需要探查的候選項個數(shù)?!矊Α诚闰炘砜梢员硎鰹椋杭偃缫粋€項集是屢次的,那包含它的全部項集也是屢次的。〔錯〕回歸分析平常用于發(fā)掘關系規(guī)那么。〔錯〕擁有較高的支持度的項集擁有較高的置信度?!插e〕維歸約可以去掉不重要的屬性,減少許據(jù)立方體的維數(shù),進而減少許據(jù)發(fā)掘辦理的數(shù)據(jù)量,提升發(fā)掘效率。〔對〕30)聚類〔clustering〕是這樣的過程:它找出描繪并區(qū)分數(shù)據(jù)類或見解的模型(或函數(shù)),以便可以使用模型展望類標志未知的對象類。〔錯〕對于SVM分類算法,待分樣本集中的全局部樣本不是支持向量,移去或許減少這些樣本對分類結果沒有影響?!矊Α矪ayes法是一種在后驗概率與類條件概率的狀況下的模式分類方法,待分樣本的分類結果取決于各樣域中樣本的全體。(錯)在決議樹中,跟著樹中結點數(shù)變得太大,即使模型的訓練偏差還在連續(xù)減低,可是查驗偏差開始增大,這是出現(xiàn)了模型擬合缺少的問題?!插e〕在聚類分析中間,簇內(nèi)的相像性越大,簇間的差別越大,聚類的見效就越差?!插e〕聚類分析可以看作是一種非監(jiān)察的分類?!矊Α矺均值是一種產(chǎn)生區(qū)分聚類的鑒于密度的聚類算法,簇的個數(shù)由算法自動地確立。〔錯鑒于周邊度的離群點檢測方法不可以辦理擁有不同樣密度地區(qū)的數(shù)據(jù)集?!矊Α臣偃缫粋€對象不強屬于任何簇,那么該對象是鑒于聚類的離群點?!矊Α炒髷?shù)據(jù)的4V特色是Volume、Velocity、Variety、Veracity?!矊Α?0)聚類分析的相異度矩陣是用于儲蓄全部對象兩兩之間相異度的矩陣,為一個nn維的單模矩陣?!矊Α橙?、多項選擇題〔共30題〕噪聲數(shù)據(jù)的產(chǎn)生原由主要有:〔ABCD〕數(shù)據(jù)采集設施有問題在數(shù)據(jù)錄入過程中發(fā)生了人為或計算機錯誤數(shù)據(jù)傳輸過程中發(fā)生錯誤因為命名規(guī)那么或數(shù)據(jù)代碼不同樣而惹起的不一致找尋數(shù)據(jù)集中的關系是為了找尋精準、方便而且有價值地總結出數(shù)據(jù)的某一特色的表示,這個過程包含了以下哪些步驟?(ABCD)選擇一個算法過程使評分函數(shù)最優(yōu)決定怎樣量化和比較不同樣表示擬合數(shù)據(jù)的利害C.決定要使用的表示的特色和結構D.決定用什么樣的數(shù)據(jù)管理原那么以高效地實現(xiàn)算法3)數(shù)據(jù)發(fā)掘的展望建模任務主要包含哪幾大類問題?(AB)分類回歸聚類關系規(guī)那么發(fā)掘以手下于不同樣的有序數(shù)據(jù)的有:(ABCD)A.時序數(shù)據(jù)序列數(shù)據(jù)C.時間序列數(shù)據(jù)D.事務數(shù)據(jù)空間數(shù)據(jù)下邊屬于數(shù)據(jù)集的一般特色的有:(BCD)A.連續(xù)性維度C.罕見性D.分辨率相異性6〕下邊屬于維歸約常用的辦理技術的有:(AC)主成分分析B.特色提取C.奇怪值分解D.特色加權失散化7〕噪聲數(shù)據(jù)辦理的方法主要有:〔ABD〕A.分箱B.聚類C.關系分析D.回歸8〕數(shù)據(jù)發(fā)掘的主要功能包含見解描繪、趨向分析、孤立點分析及〔ABCD〕等方面。A.發(fā)掘?qū)掖文J紹.分類和展望C.聚類分析D.偏差分析9〕以下各項均是針對數(shù)據(jù)庫房的不同樣說法,你以為正確的有〔BCD〕。10〕A.數(shù)據(jù)庫房就是數(shù)據(jù)庫11〕B.數(shù)據(jù)庫房是全部商業(yè)智能系統(tǒng)的基礎12〕C.數(shù)據(jù)庫房是面向業(yè)務的,支持聯(lián)機事務辦理〔OLTP〕13〕D.數(shù)據(jù)庫房支持決議而非事務辦理10〕聯(lián)機分析辦理包含(BCD)根本分析功能。A.聚類
B.
切片C.轉軸
D.
切塊11〕利用
Apriori
算法計算屢次項集可以有效降低計算屢次集的時間復雜度。
在以下的購物籃中產(chǎn)生支持度不小于
3的候選
3-項集,在候選
2-項集中需要剪枝的是
(BD)TID
項集面包、牛奶面包、尿布、啤酒、雞蛋牛奶、尿布、啤酒、可樂面包、牛奶、尿布、啤酒面包、牛奶、尿布、可樂A.啤酒、尿布B.啤酒、面包C.面包、尿布D.啤酒、牛奶12〕下表是一個購物籃,假定支持度閾值為40%,此中(AD)是屢次閉項集。ID項集面包、牛奶、尿布面包、牛奶、尿布、啤酒牛奶、尿布、雞蛋面包、尿布、啤酒、雞蛋啤酒、雞蛋A.面包、牛奶、尿布B.面包、啤酒C.尿布、啤酒D.啤酒、雞蛋13〕Apriori算法的計算復雜度受(ABCD)影響。A.支持度閥值B.項數(shù)〔維度〕C.事務數(shù)D.事務均勻?qū)挾?4〕以下對于非屢次模式說法,正確的選項是〔AD〕A.其支持度小于閾值B.都是不讓人感興趣的C.包含負模式和負有關模式D.對異樣數(shù)據(jù)項敏感15〕以手下于分類器談論或比較尺度的有:(ACD)A.展望正確度B.召回率C.模型描繪的簡短度D.計算復雜度16〕貝葉斯信念網(wǎng)絡(BBN)有以下哪些特色?!睞B〕結構網(wǎng)絡費時費勁對模型的過分問題特別魯棒C.貝葉斯網(wǎng)絡不合適辦理不圓滿的數(shù)據(jù)D.網(wǎng)絡結構確立后,增添變量相當麻煩17〕以下哪些不是近來鄰分類器的特色。(C)它使用詳盡的訓練實例進行展望,不用保護源自數(shù)據(jù)的模型分類一個測試樣例開支很大C.近來鄰分類器鑒于全局信息進行展望D.可以生產(chǎn)隨意形狀的決議界限18〕以手下于聚類算法的是〔AB〕?!睠D〕都屬于簇有效性的監(jiān)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 崗位歸集行動制度
- 冰雪運動制度
- 武漢城市職業(yè)學院《稅收學》2023-2024學年第二學期期末試卷
- 云南藝術學院文華學院《中國近現(xiàn)史綱要》2023-2024學年第二學期期末試卷
- 重慶中醫(yī)藥學院《數(shù)字電路與系統(tǒng)設計》2023-2024學年第二學期期末試卷
- 曲阜遠東職業(yè)技術學院《翻譯導論》2023-2024學年第二學期期末試卷
- 鄭州大學《硅酸鹽分析化學》2023-2024學年第二學期期末試卷
- 長江職業(yè)學院《精細化工反應設備與計算》2023-2024學年第二學期期末試卷
- 養(yǎng)殖場消防安全制度
- 關于執(zhí)行案件一案雙查制度
- 煙草山東公司招聘考試真題2025
- 海爾管理會計案例分析
- 水果合同供貨合同范本
- 酒吧宿舍管理制度文本
- 數(shù)字化教學平臺的數(shù)據(jù)隱私保護策略
- TCD經(jīng)顱多普勒課件
- 2025年安徽歷年單招試題及答案
- 2025年考研英語真題試卷及答案
- 酒店治安安全管理制度范本
- 兼職剪輯外包合同范本
- 物業(yè)入戶維修標準及流程
評論
0/150
提交評論