版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2023年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師考試歷年重點考核試題含答案(圖片大小可自由調(diào)整)第1卷一.參考題庫(共50題)1.根據(jù)規(guī)則中所處理的值類型,關(guān)聯(lián)規(guī)則可分為:()和()2.在聚類分析當中,()等技術(shù)可以處理任意形狀的簇。A、MIN(單鏈)B、MAX(全鏈)C、組平均D、Chameleon3.聚類4.數(shù)據(jù)聚合需要考慮的問題有哪些?5.方體計算的主要挑戰(zhàn)是()和()之間的矛盾。6.以下是一個商場所銷售商品的價格清單(按遞增順序排列,括號中的數(shù)表示前面數(shù)字出現(xiàn)次數(shù)) 1(2)、5(5)、8(2)、10(4)、12、14(3)、15(5)、18(8)、20(7)、21(4)、25(5)、28、30(3)。 請分別用等寬的方法和等高的方法對上面的數(shù)據(jù)集進行劃分。7.分類知識的發(fā)現(xiàn)方法主要有哪些?分類過程通常包括哪兩個步驟?8.關(guān)聯(lián)規(guī)則挖掘中,兩個主要的興趣度度量是:()和()9.以下各項均是針對數(shù)據(jù)倉庫的不同說法,你認為正確的有()。A、數(shù)據(jù)倉庫就是數(shù)據(jù)庫B、數(shù)據(jù)倉庫是一切商業(yè)智能系統(tǒng)的基礎(chǔ)C、數(shù)據(jù)倉庫是面向業(yè)務的,支持聯(lián)機事務處理(OLTP)D、數(shù)據(jù)倉庫支持決策而非事務處理E、數(shù)據(jù)倉庫的主要目標就是幫助分析,做長期性的戰(zhàn)略制定10.預測型知識11.什么是ETL?12.先驗原理可以表述為:如果一個項集是頻繁的,那包含它的所有項集也是頻繁的。13.給定基本方體,方體的物化有三種選擇:()、()和()14.按照事實表中度量的可加性情況,可以把事實表對應的事實分為4種類型:()、快照事實、線性項目事實和事件事實。15.什么是用戶信息需求表(信息包圖法)?它為什么適用于數(shù)據(jù)倉庫的概念模型的設(shè)計?16.從結(jié)構(gòu)的角度看,數(shù)據(jù)倉庫模型包括以下幾類?()A、企業(yè)倉庫B、數(shù)據(jù)集市C、虛擬倉庫D、信息倉庫17.偏差型知識18.確定了數(shù)據(jù)倉庫的粒度模型以后,為提高數(shù)據(jù)倉庫的使用性能,還需要根據(jù)擁護需求設(shè)計()19.關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指()A、基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應用程序等結(jié)構(gòu)相關(guān)的信息B、基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息C、基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息D、基本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息20.數(shù)據(jù)概化是指:()21.遺傳算法與傳統(tǒng)尋優(yōu)算法相比有什么特點?22.何謂文本挖掘?它與信息檢索有什么關(guān)系(異同)。23.簡述決策樹的構(gòu)建。24.在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法有:()。A、忽略元組B、使用屬性的平均值填充空缺值C、使用一個全局常量填充空缺值D、使用與給定元組屬同一類的所有樣本的平均值E、使用最可能的值填充空缺值25.數(shù)據(jù)清理的目的是處理數(shù)據(jù)中的()。A、空缺值B、噪聲數(shù)據(jù)C、不一致數(shù)據(jù)D、敏感數(shù)據(jù)26.怎樣從歷史數(shù)據(jù)中訓練出結(jié)點之間的條件概率或聯(lián)合條件概率?27.連續(xù)型屬性的數(shù)據(jù)樣本之間的距離有歐氏距離、曼哈頓距離和()28.對于SVM分類算法,待分樣本集中的大部分樣本不是支持向量,移去或者減少這些樣本對分類結(jié)果沒有影響。29.數(shù)據(jù)挖掘要解決的問題是什么?30.為什么樸素貝葉斯分類稱為“樸素”的?簡述樸素貝葉斯分類優(yōu)缺點。31.下列哪種可視化方法可用于發(fā)現(xiàn)多維數(shù)據(jù)中屬性之間的兩兩相關(guān)性?()A、空間填充曲線B、散點圖矩陣C、平行坐標D、圓弓分割32.關(guān)于OLAP和OLTP的說法,下列不正確的是()A、OLAP事務量大,但事務內(nèi)容比較簡單且重復率高B、OLAP的最終數(shù)據(jù)來源與OLTP不一樣C、OLTP面對的是決策人員和高層管理人員D、OLTP以應用為核心,是應用驅(qū)動的33.抽取、轉(zhuǎn)換、加載過程的目的是為決策支持應用提供一個()、權(quán)威數(shù)據(jù)源。因此,我們要求ETL過程產(chǎn)生的數(shù)據(jù)是詳細的、歷史的、規(guī)范的、可理解的、即時的和質(zhì)量可控制的。34.聚類分析可以看作是一種非監(jiān)督的分類。35.通過數(shù)據(jù)挖掘過程所推倒出的關(guān)系和摘要經(jīng)常被稱為:()。A、模型B、模式C、模范D、模具36.K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法,簇的個數(shù)由算法自動地確定。37.如何用決策樹進行分類?38.數(shù)據(jù)規(guī)范化39.簡述基于劃分的聚類方法。劃分的準則是什么?40.下面哪個不屬于數(shù)據(jù)的屬性類型:()。A、標稱B、序數(shù)C、區(qū)間D、相異41.什么是特征選擇?42.假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)。對屬性income的73600元將被轉(zhuǎn)化為:()。A、0.821B、1.224C、1.458D、0.71643.下面哪種分類方法是屬于神經(jīng)網(wǎng)絡學習算法?()A、判定樹歸納B、貝葉斯分類C、后向傳播分類D、基于案例的推理44.簡述數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系?45.一個好的聚類分析方法會產(chǎn)生高質(zhì)量的聚類,具有兩個特征:()和()46.典型聚類方法有哪些?47.OLTP48.數(shù)據(jù)倉庫的三層架構(gòu)主要包括以下哪三部分?()A、數(shù)據(jù)源B、數(shù)據(jù)倉庫服務器C、OLAP服務器D、前端工具49.簡述數(shù)據(jù)倉庫設(shè)計的三級模型的基本內(nèi)容。50.聚類分析包括連續(xù)型、二值離散型、()和混合類型4種類型描述屬性的相似度計算方法。第1卷參考答案一.參考題庫1.正確答案:布爾關(guān)聯(lián)規(guī)則;量化關(guān)聯(lián)規(guī)則2.正確答案:A,D3.正確答案:是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過程,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。4.正確答案:(1)模式識別:這主要是實體識別問題; (2)冗余:一個屬性是冗余的,即它能由另一個表導出,如果屬性或維的命名不一致,也可能導致冗余,可以用相關(guān)分析來檢測; (3)數(shù)據(jù)值沖突的檢測與處理:有些屬性因表示比例或編碼不同,會導致屬性不同。5.正確答案:海量數(shù)據(jù);有限的內(nèi)存和時間6.正確答案:(1)等寬方法:劃分為3個數(shù)據(jù)集,每個數(shù)據(jù)集的寬度為價格10。價格在1—10之間出現(xiàn)次數(shù)為13;價格在11—20之間出現(xiàn)的次數(shù)為24;價格在21—30之間出現(xiàn)的次數(shù)為13。 (2)等高方法:劃分為2個數(shù)據(jù)集,每個數(shù)據(jù)集的高度為出現(xiàn)的次數(shù)4。出現(xiàn)次數(shù)1—4之間的價格為1、8、10、12、14、21、28、30,共8個數(shù)據(jù);出現(xiàn)次數(shù)5—8之間的價格為5、15、18、20、25,共5個數(shù)據(jù)。7.正確答案: 分類規(guī)則的挖掘方法通常有:決策樹法、貝葉斯法、人工神經(jīng)網(wǎng)絡法、粗糙集法和遺傳算法。 分類的過程包括2步:首先在已知訓練數(shù)據(jù)集上,根據(jù)屬性特征,為每一種類別找到一個合理的描述或模型,即分類規(guī)則;然后根據(jù)規(guī)則對新數(shù)據(jù)進行分類。8.正確答案:支持度;置信度9.正確答案:B,C,D,E10.正確答案:是根據(jù)時間序列型數(shù)據(jù),由歷史的和當前的數(shù)據(jù)去推測未來的數(shù)據(jù),也可以認為是以時間為關(guān)鍵屬性的關(guān)聯(lián)知識。11.正確答案: E.TL用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。ETL一詞較常用在數(shù)據(jù)倉庫,但其對象并不限于數(shù)據(jù)倉庫。 E.TL是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。12.正確答案:錯誤13.正確答案:不物化;部分物化;全物化14.正確答案:事務事實15.正確答案: 信息包圖法,也叫用戶信息需求表,就是在一張平面表格上描述元素的多維性,其中的每一個維度用平面表格的一列表示,通常的維度如時間、地點、產(chǎn)品和顧客等;而細化本列的對象就是類別,例如時間維度的類別可以細化到年、月、日,甚至小時;平面表格的最后一行(代表超立方體中的單元格)即為指標度量值,例如,某年在某銷售點的某類產(chǎn)品的實際銷售額。創(chuàng)建信息包圖時需要確定最高層和最低層的信息需求,以便最終設(shè)計出包含各個層次需要的數(shù)據(jù)倉庫。 總之,信息包圖法是一種自上而下的數(shù)據(jù)建模方法,即從用戶的觀點開始設(shè)計(用戶的觀點是通過與用戶交流得到的),站在管理者的角度把焦點集中在企業(yè)的一個或幾個主題上,著重分析主題所涉及數(shù)據(jù)的多維特性,這種自上而下的方法幾乎考慮了所有的信息源,以及這些信息源影響業(yè)務活動的方式。16.正確答案:A,B,C17.正確答案:是對差異和極端特例的描述,用于揭示事物偏離常規(guī)的異常現(xiàn)象,如標準類外的特例,數(shù)據(jù)聚類外的離群值等。18.正確答案:聚合模型19.正確答案:D20.正確答案:沿概念分層向上概化21.正確答案: ①遺傳算法為群體搜索,有利于尋找到全局最優(yōu)解; ②遺傳算法采用高效有方向的隨機搜索,搜索效率高; ③遺傳算法處理的對象是個體而不是參變量,具有廣泛的應用領(lǐng)域; ④遺傳算法使用適應值信息評估個體,不需要導數(shù)或其他輔助信息,運算速度快,適應性好; ⑤遺傳算法具有隱含并行性,具有更高的運行效率。22.正確答案:文本挖掘是從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知識的過程。它與信息檢索之間有以下幾方面的區(qū)別:方法論不同:信息檢索是目標驅(qū)動的,用戶需要明確提出查詢要求;而文本挖掘結(jié)果獨立于用戶的信息需求,是用戶無法預知的。著眼點不同:信息檢索著重于文檔中字、詞和鏈接;而文本挖掘在于理解文本的內(nèi)容和結(jié)構(gòu)。目的不同:信息檢索的目的在于幫助用戶發(fā)現(xiàn)資源,即從大量的文本中找到滿足其查詢請求的文本子集;而文本挖掘是為了揭示文本中隱含的知識。評價方法不同:信息檢索用查準率和查全率來評價其性能。而文本挖掘采用收益、置信度、簡潔性等來衡量所發(fā)現(xiàn)知識的有效性、可用性和可理解性。使用場合不同:文本挖掘是比信息檢索更高層次的技術(shù),可用于信息檢索技術(shù)不能解決的許多場合。一方面,這兩種技術(shù)各有所長,有各自適用的場合;另一方面,可以利用文本挖掘的研究成果來提高信息檢索的精度和效率,改善檢索結(jié)果的組織,使信息檢索系統(tǒng)發(fā)展到一個新的水平。23.正確答案:1)屬性的選擇(很重要,一般要最大限度地增大樣本集純度) 2)獲得大小適合的決策樹 3)使用ID3等經(jīng)典算法構(gòu)建決策樹24.正確答案:A,B,C,D,E25.正確答案:A,B,C26.正確答案:要訓練條件概率P(B|A),可以在歷史數(shù)據(jù)中統(tǒng)計A發(fā)生的次數(shù)T(A),然后統(tǒng)計在A發(fā)生的數(shù)據(jù)中B發(fā)生的次數(shù)T(A,B),條件概率P(B|A)=T(B)/T(A)。要訓練聯(lián)合條件概率P(C|A,B),可以在歷史數(shù)據(jù)中統(tǒng)計A、B共同發(fā)生的次數(shù)T(A,B),然后在A、B共同發(fā)生的數(shù)據(jù)中統(tǒng)計C發(fā)生的次數(shù)T(A,B,C),聯(lián)合條件概率P(C|A,B)=T(A,B,C)/T(A,B)。以上的符號A、B、C可以表示某個事件,也可以表示該事件的相反事件。27.正確答案:明考斯基距離28.正確答案:正確29.正確答案:面對高維,復雜,異構(gòu)的海量數(shù)據(jù),如何集中獲取有用的信息和知識。30.正確答案:基于貝葉斯定理的推斷需要大量訓練數(shù)據(jù)以覆蓋類條件概率空間,引入了很大開銷。樸素貝葉斯分類做了類條件獨立假設(shè),大幅降低了計算開銷。他的優(yōu)點是容易實現(xiàn)并在大多數(shù)情況下可以取得較好的結(jié)果;他的缺陷是類條件獨立在實際應用缺乏準確性,因為變量之間經(jīng)常存在依賴關(guān)系,這種依賴關(guān)系影響了樸素貝葉斯分類器的準確性。31.正確答案:B32.正確答案:A33.正確答案:單一的34.正確答案:正確35.正確答案:A,B36.正確答案:錯誤37.正確答案:決策樹用于對新樣本的分類,即通過決策樹對新樣本屬性值的測試,從樹的根結(jié)點開始,按照樣本屬性的取值,逐漸沿著決策樹向下,直到樹的葉結(jié)點,該葉結(jié)點表示的類別就是新樣本的類別。決策樹方法是數(shù)據(jù)挖掘中非常有效的分類方法。38.正確答案:指將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一個特定的區(qū)域(如0-1)以提高數(shù)據(jù)挖掘效率的方法。 規(guī)范化的常用方法有:最大-最小規(guī)范化、零-均值規(guī)范化、小數(shù)定標規(guī)范化。39.正確答案: 基于劃分的聚類方法:給頂一個n個對象或元組的數(shù)據(jù)庫,一個劃分方法構(gòu)建數(shù)據(jù)的k個劃分,每個劃分表示一個簇,丙炔k《=n。劃分方法要求每個組至少包含一個對象并且每個對象屬于且僅數(shù)以一個組。聚類目標可以是最優(yōu)化某種量度,比如最小化數(shù)據(jù)點與類中心的距離平方和等。 劃分準則是同一個聚類中的對象盡可能的接近或相關(guān),不同聚類中的對象盡可能的遠離或不同。40.正確答案:D41.正確答案:從一組已知特征的集合中選取最具有代表性的特征子集,使其保留原有數(shù)據(jù)的大部分特征,正確區(qū)分數(shù)據(jù)集中的每個數(shù)據(jù)對象。42.正確答案:D43.正確答案:C44.正確答案:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘都是決策支持新技術(shù)。但它們有著完全不同的輔助決策方式。在數(shù)據(jù)倉庫系統(tǒng)的前端的分析工具中,數(shù)據(jù)挖掘是其中重要工具之一。它可以幫助決策用戶挖掘數(shù)據(jù)倉庫的數(shù)據(jù)中隱含的規(guī)律性。45.正確答案:高類內(nèi)相似度;低類間相似度46.正確答案:1)劃分方法(每個劃分表示一個聚類) 2)層次方法(將數(shù)據(jù)對象組成一個聚類樹) 3)基于密度的方法(絕大多數(shù)劃分方法都是基于對象之間的距離大小進行聚類) 4)基于模型的方法(試圖將給定數(shù)據(jù)與某個數(shù)學模型搭成最佳擬合) 5)基于圖的聚類算法(利用圖的許
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年云南錫業(yè)職業(yè)技術(shù)學院單招職業(yè)傾向性測試題庫含答案詳解
- 2026年廣西水利電力職業(yè)技術(shù)學院單招職業(yè)適應性測試題庫及答案詳解一套
- 2026年廣東省廣州市單招職業(yè)傾向性考試題庫及參考答案詳解1套
- 新昌社工面試題目及答案
- 甘孜州消防隊面試題及答案
- 安全一夏快樂暑假-暑假假期安全主題班會課件
- 園區(qū)內(nèi)企業(yè)反恐怖管理協(xié)議書范本
- 什邡市人力資源和社會保障局什邡市民政局關(guān)于2025年面向全市公開選調(diào)工作人員的備考題庫及一套答案詳解
- 廣東省第二榮軍優(yōu)撫醫(yī)院2025年非編人員招聘備考題庫及參考答案詳解
- 2025年中國能源建設(shè)集團遼寧電力勘測設(shè)計院有限公司社會成熟人才招聘備考題庫及1套完整答案詳解
- 全國高校黃大年式教師團隊推薦匯總表
- 員工管理規(guī)章制度實施細則
- 社會心理學(西安交通大學)知到章節(jié)答案智慧樹2023年
- 《安井食品價值鏈成本控制研究案例(論文)9000字》
- GB/T 4135-2016銀錠
- GB/T 33084-2016大型合金結(jié)構(gòu)鋼鍛件技術(shù)條件
- 關(guān)節(jié)鏡肘關(guān)節(jié)檢查法
- 生化講座犬貓血液常規(guī)檢驗項目及正常值
- 馬克思主義基本原理(完整版)
- 山茶油知識普及課件
- 心腦血管疾病的預防及治療課件
評論
0/150
提交評論