數(shù)據(jù)倉庫與數(shù)據(jù)挖掘考試習(xí)題匯總匯總_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘考試習(xí)題匯總匯總_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘考試習(xí)題匯總匯總_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘考試習(xí)題匯總匯總_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘考試習(xí)題匯總匯總_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第一章1、數(shù)據(jù)倉庫就是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合。2、元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),它為訪問數(shù)據(jù)倉庫提供了一個信息目錄,根據(jù)數(shù)據(jù)用途的不同可將數(shù)據(jù)倉庫的元數(shù)據(jù)分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)兩類。3、數(shù)據(jù)處理通常分成兩大類:聯(lián)機(jī)事務(wù)處理和聯(lián)機(jī)分析處理。4、多維分析是指以“維”形式組織起來的數(shù)據(jù)(多維數(shù)據(jù)集)采取切片、切塊、鉆取和旋轉(zhuǎn)等各種分析動作,以求剖析數(shù)據(jù),使擁護(hù)能從不同角度、不同側(cè)面觀察數(shù)據(jù)倉庫中的數(shù)據(jù),從而深入理解多維數(shù)據(jù)集中的信息。5、ROLAP是基于關(guān)系數(shù)據(jù)庫的OLAP實(shí)現(xiàn),而MOLAP是基于多維數(shù)據(jù)結(jié)構(gòu)組織的OLAP實(shí)現(xiàn)。6、數(shù)據(jù)倉庫按照其開發(fā)過程,其關(guān)鍵環(huán)節(jié)包括數(shù)據(jù)抽取、數(shù)據(jù)存儲于管理和數(shù)據(jù)表現(xiàn)等。7、數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)根據(jù)應(yīng)用需求的不同,可以分為以下4種類型:兩層架構(gòu)、獨(dú)立型數(shù)據(jù)集合、以來型數(shù)據(jù)結(jié)合和操作型數(shù)據(jù)存儲和邏輯型數(shù)據(jù)集中和實(shí)時數(shù)據(jù)倉庫。8、操作型數(shù)據(jù)存儲實(shí)際上是一個集成的、面向主題的、可更新的、當(dāng)前值的(但是可“揮發(fā)”的)、企業(yè)級的、詳細(xì)的數(shù)據(jù)庫,也叫運(yùn)營數(shù)據(jù)存儲。9、“實(shí)時數(shù)據(jù)倉庫”以為著源數(shù)據(jù)系統(tǒng)、決策支持服務(wù)和倉庫倉庫之間以一個接近實(shí)時的速度交換數(shù)據(jù)和業(yè)務(wù)規(guī)則。10、從應(yīng)用的角度看,數(shù)據(jù)倉庫的發(fā)展演變可以歸納為5個階段:以報(bào)表為主、以分析為主、以預(yù)測模型為主、以運(yùn)營導(dǎo)向?yàn)橹骱鸵詫?shí)時數(shù)據(jù)倉庫和自動決策為主。第二章1、調(diào)和數(shù)據(jù)是存儲在企業(yè)級數(shù)據(jù)倉庫和操作型數(shù)據(jù)存儲中的數(shù)據(jù)。2、抽取、轉(zhuǎn)換、加載過程的目的是為決策支持應(yīng)用提供一個單一的、權(quán)威數(shù)據(jù)源。因此,我們要求ETL過程產(chǎn)生的數(shù)據(jù)(即調(diào)和數(shù)據(jù)層)是詳細(xì)的、歷史的、規(guī)范的、可理解的、即時的和質(zhì)量可控制的。3、數(shù)據(jù)抽取的兩個常見類型是靜態(tài)抽取和增量抽取。靜態(tài)抽取用于最初填充數(shù)據(jù)倉庫,增量抽取用于進(jìn)行數(shù)據(jù)倉庫的維護(hù)。4、粒度是對數(shù)據(jù)倉庫中數(shù)據(jù)的綜合程度高低的一個衡量。粒度越小,細(xì)節(jié)程度越高,綜合程度越低,回答查詢的種類越多。5、使用星型模式可以從一定程度上提高查詢效率。因?yàn)樾切湍J街袛?shù)據(jù)的組織已經(jīng)經(jīng)過預(yù)處理,主要數(shù)據(jù)都在龐大的事實(shí)表中。6、維度表一般又主鍵、分類層次和描述屬性組成。對于主鍵可以選擇兩種方式:一種是采用自然鍵,另一種是采用代理鍵。7、雪花型模式是對星型模式維表的進(jìn)一步層次化和規(guī)范化來消除冗余的數(shù)據(jù)。8、數(shù)據(jù)倉庫中存在不同綜合級別的數(shù)據(jù)。一般把數(shù)據(jù)分成4個級別:早期細(xì)節(jié)級、當(dāng)前細(xì)節(jié)級、輕度綜合級和高度綜合級。第三章1、SQLServerSSAS提供了所有業(yè)務(wù)數(shù)據(jù)的同意整合試圖,可以作為傳統(tǒng)報(bào)表、在線分析處理、關(guān)鍵性能指示器記分卡和數(shù)據(jù)挖掘的基礎(chǔ)。2、數(shù)據(jù)倉庫的概念模型通常采用信息包圖法來進(jìn)行設(shè)計(jì),要求將其5個組成部分(包括名稱、維度、類別、層次和度量)全面地描述出來。3、數(shù)據(jù)倉庫的邏輯模型通常采用星型圖法來進(jìn)行設(shè)計(jì),要求將星型的各類邏輯實(shí)體完整地描述出來。4、按照事實(shí)表中度量的可加性情況,可以把事實(shí)表對應(yīng)的事實(shí)分為4種類型:事務(wù)事實(shí)、快照事實(shí)、線性項(xiàng)目事實(shí)和事件事實(shí)。5、確定了數(shù)據(jù)倉庫的粒度模型以后,為提高數(shù)據(jù)倉庫的使用性能,還需要根據(jù)擁護(hù)需求設(shè)計(jì)聚合模型。6、在項(xiàng)目實(shí)施時,根據(jù)事實(shí)表的特點(diǎn)和擁護(hù)的查詢需求,可以選用時間、業(yè)務(wù)類型、區(qū)域和下屬組織等多種數(shù)據(jù)分割類型。7、當(dāng)維表中的主鍵在事實(shí)表中沒有與外鍵關(guān)聯(lián)時,這樣的維稱為退化維。它于事實(shí)表并無關(guān)系,但有時在查詢限制條件(如訂單號碼、出貨單編號等)中需要用到。8、維度可以根據(jù)其變化快慢分為元變化維度、緩慢變化維度和劇烈變化維度三類。9、數(shù)據(jù)倉庫的數(shù)據(jù)量通常較大,且數(shù)據(jù)一般很少更新,可以通過設(shè)計(jì)和優(yōu)化索引結(jié)構(gòu)來提高數(shù)據(jù)存取性能。10、數(shù)據(jù)倉庫數(shù)據(jù)庫常見的存儲優(yōu)化方法包括表的歸并與簇文件、反向規(guī)范化引入冗余、表的物理分割(分區(qū))。第四章1、關(guān)聯(lián)規(guī)則的經(jīng)典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高。2、如果L2={{a,b},{a,c},{a,d},{b,c},{b,d}},則連接產(chǎn)生的C3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}}再經(jīng)過修剪,C3={{a,b,c},{a,b,d}}3、設(shè)定supmin=50%,交易集如則L1={A},{B},{C}L2={A,C}T1ABCT2ACT3ADT4BEF第五章1、分類的過程包括獲取數(shù)據(jù)、預(yù)處理、分類器設(shè)計(jì)和分類決策。2、分類器設(shè)計(jì)階段包含三個過程:劃分?jǐn)?shù)據(jù)集、分類器構(gòu)造和分類器測試。3、分類問題中常用的評價(jià)準(zhǔn)則有精確度、查全率和查準(zhǔn)率和集合均值。4、支持向量機(jī)中常用的核函數(shù)有多項(xiàng)式核函數(shù)、徑向基核函數(shù)和S型核函數(shù)。第六章1、聚類分析包括連續(xù)型、二值離散型、多值離散型和混合類型4種類型描述屬性的相似度計(jì)算方法。2、連續(xù)型屬性的數(shù)據(jù)樣本之間的距離有歐氏距離、曼哈頓距離和明考斯基距離。3、劃分聚類方法對數(shù)據(jù)集進(jìn)行聚類時包含三個要點(diǎn):選種某種距離作為數(shù)據(jù)樣本減的相似性度量、選擇評價(jià)聚類性能的準(zhǔn)則函數(shù)和選擇某個初始分類,之后用迭代的方法得到聚類結(jié)果,使得評價(jià)聚類的準(zhǔn)則函數(shù)取得最優(yōu)值。4、層次聚類方法包括凝聚型和分解型兩中層次聚類方法。填空題20分,簡答題25分,計(jì)算題2個(25分),綜合題30分1、數(shù)據(jù)倉庫的組成?P2 數(shù)據(jù)倉庫數(shù)據(jù)庫,數(shù)據(jù)抽取工具,元數(shù)據(jù),訪問工具,數(shù)據(jù)集市,數(shù)據(jù)倉庫管理,信息發(fā)布系統(tǒng)2、數(shù)據(jù)挖掘技術(shù)對聚類分析的要求有哪幾個方面?P131 可伸縮性;處理不同類型屬性的能力;發(fā)現(xiàn)任意形狀聚類的能力;減小對先驗(yàn)知識和用戶自定義參數(shù)的依賴性;處理噪聲數(shù)據(jù)的能力;可解釋性和實(shí)用性3、數(shù)據(jù)倉庫在存儲和管理方面的特點(diǎn)與關(guān)鍵技術(shù)?P7

數(shù)據(jù)倉庫面對的是大量數(shù)據(jù)的存儲與管理 并行處理 針對決策支持查詢的優(yōu)化 支持多維分析的查詢模式4、常見的聚類算法可以分為幾類?P132

基于劃分的聚類算法,基于層次的聚類算法,基于密度的聚類算法,基于網(wǎng)格的聚類算法,基于模型的聚類算法等。5、一個典型的數(shù)據(jù)倉庫系統(tǒng)的組成?P12 數(shù)據(jù)源、數(shù)據(jù)存儲與管理、OLAP服務(wù)器、前端工具與應(yīng)用數(shù)據(jù)倉庫常見的存儲優(yōu)化方法?P71

表的歸并與簇文件;反向規(guī)范化,引入冗余;表的物理分割。數(shù)據(jù)倉庫發(fā)展演變的5個階段?P20

以報(bào)表為主

以分析為主

以預(yù)測模型為主

以運(yùn)行向?qū)橹饕詫?shí)時數(shù)據(jù)倉庫、自動決策應(yīng)用為主ID3算法主要存在的缺點(diǎn)?P116

(1)ID3算法在選擇根結(jié)點(diǎn)和各內(nèi)部結(jié)點(diǎn)中的分枝屬性時,使用信息增益作為評價(jià)標(biāo)準(zhǔn)。信息增益的缺點(diǎn)是傾向于選擇取值較多的屬性,在有些情況下這類屬性可能不會提供太多有價(jià)值的信息。

(2)ID3算法只能對描述屬性為離散型屬性的數(shù)據(jù)集構(gòu)造決策樹。簡述數(shù)據(jù)倉庫ETL軟件的主要功能和對產(chǎn)生數(shù)據(jù)的目標(biāo)要求。P30

ETL軟件的主要功能:

數(shù)據(jù)的抽取,數(shù)據(jù)的轉(zhuǎn)換,數(shù)據(jù)的加載

對產(chǎn)生數(shù)據(jù)的目標(biāo)要求:

詳細(xì)的、歷史的、規(guī)范化的、可理解的、即時的、質(zhì)量可控制的簡述分類器設(shè)計(jì)階段包含的3個過程?!?/p>

劃分?jǐn)?shù)據(jù)集,分類器構(gòu)造,分類器測試什么是數(shù)據(jù)清洗?P33★

數(shù)據(jù)清洗是一種使用模式識別和其他技術(shù),在將原始數(shù)據(jù)轉(zhuǎn)換和移到數(shù)據(jù)倉庫之前來升級原始數(shù)據(jù)質(zhì)量的技術(shù)。支持度和置信度的計(jì)算公式及數(shù)據(jù)計(jì)算(P90)

找出所有的規(guī)則XY,使支持度和置信度分別大于門限支持度:事務(wù)中X和Y同時發(fā)生的比例,P(X?Y)置信度:項(xiàng)集X發(fā)生時,Y同時發(fā)生的條件概率P(Y|X)

Example:

13、利用信息包圖設(shè)計(jì)數(shù)據(jù)倉庫概念模型需要確定的三方面內(nèi)容。P57 確定指標(biāo),確定維度,確定類別14、K-近鄰分類方法的操作步驟(包括算法的輸入和輸出)。P128

15、什么是技術(shù)元數(shù)據(jù),主要包含的內(nèi)容?P29

技術(shù)元數(shù)據(jù)是描述關(guān)于數(shù)據(jù)倉庫技術(shù)細(xì)節(jié)的數(shù)據(jù),應(yīng)用于開發(fā)、管理和維護(hù)DW,包含:DW結(jié)構(gòu)的描述,如DW的模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,數(shù)據(jù)集市的位置和內(nèi)容等業(yè)務(wù)系統(tǒng)、DW和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式匯總算法。包括度量和維定義算法,數(shù)據(jù)粒度、主題領(lǐng)域、聚合、匯總和預(yù)定義的查詢和報(bào)告。由操作型業(yè)務(wù)環(huán)境到數(shù)據(jù)倉庫業(yè)務(wù)環(huán)境的映射。包括源數(shù)據(jù)和他們的內(nèi)容、數(shù)據(jù)分割、數(shù)據(jù)提取、清洗、轉(zhuǎn)換規(guī)則和數(shù)據(jù)刷新規(guī)則及安全(用戶授權(quán)和存取控制)16、業(yè)務(wù)元數(shù)據(jù)主要包含的內(nèi)容?P29 業(yè)務(wù)元數(shù)據(jù):從業(yè)務(wù)角度描述了DW中的數(shù)據(jù),提供了介于使用者和實(shí)際系統(tǒng)之間的語義層,主要包括:使用者的業(yè)務(wù)屬于所表達(dá)的數(shù)據(jù)模型、對象名和屬性名訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源系統(tǒng)提供的分析方法及公式和報(bào)表的信息。17、K-means算法的基本操作步驟(包括算法的輸入和輸出)。P138★ 18、數(shù)據(jù)從集結(jié)區(qū)加載到數(shù)據(jù)倉庫中的主要方法?P36SQL命令(如Insert或Update)由DW供應(yīng)商或第三方提供專門的加載工具由DW管理員編寫自定義程序19、多維數(shù)據(jù)模型中的基本概念:維,維類別,維屬性,粒度P37 維:人們觀察數(shù)據(jù)的特定角度,是考慮問題的一類屬性,如時間維或產(chǎn)品維維類別:也稱維分層。即同一維度還可以存在細(xì)節(jié)程度不同的各個類別屬性(如時間維包括年、季度、月等)維屬性:是維的一個取值,是數(shù)據(jù)線在某維中位置的描述。粒度:DW中數(shù)據(jù)綜合程度高低的一個衡量。粒度低,細(xì)節(jié)程度高,回答查詢的種類多??20、Apriori算法的基本操作步驟P93★Apriori使用一種稱作逐層搜索的迭代方法,K項(xiàng)集用于探索K+1項(xiàng)集。該方法是基于候選的策略,降低候選數(shù)Apriori剪枝原則:若任何項(xiàng)集是非頻繁的,則其超集必然是非頻繁的(不用產(chǎn)生和測試超集)該原則基于以下支持度的特性:項(xiàng)集的支持度不會超過其子集支持度的反單調(diào)特性(anti-monotone):如果一個集合不能通過測試,則它的所有超集也都不能通過相同的測試。令k=1產(chǎn)生長度為1的頻繁項(xiàng)集循環(huán),直到無新的頻繁項(xiàng)集產(chǎn)生從長度為k的頻繁項(xiàng)集產(chǎn)生長度為k+1的候選頻繁項(xiàng)集連接步:項(xiàng)集的各項(xiàng)排序,前k-1個項(xiàng)相同若候選頻繁子集包含長度為k的非頻繁子集,則剪枝剪枝步:利用支持度屬性原則掃描數(shù)據(jù)庫,計(jì)算每個候選頻繁集的支持度刪除非頻繁項(xiàng),保留頻繁項(xiàng)什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫是一個面向主體的、集成的、時變的、非易失的數(shù)據(jù)集合,支持管理過程的決策過程數(shù)據(jù)倉庫排除與對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。通過集成多個異種數(shù)據(jù)源而構(gòu)成數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù),這些數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù)操作性的數(shù)據(jù)更新不會發(fā)生在數(shù)據(jù)倉庫的環(huán)境下.2聯(lián)機(jī)事務(wù)處理OLTP(on-linetransactionprocessing)傳統(tǒng)的關(guān)系DBMS的主要任務(wù)他們涵蓋了一個組織的大部分日常操作:購買、庫存、制造、銀行、工資、注冊、記賬等。聯(lián)機(jī)分析處理OLAP(on-lineanalyticalprocessing)數(shù)據(jù)倉庫系統(tǒng)的主要任務(wù)數(shù)據(jù)分析和決策OLTP和OLAP的區(qū)別用戶和系統(tǒng)的面向性:OLTP面向顧客,而OLAP面向市場數(shù)據(jù)內(nèi)容:OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù),而OLAP管理歷史的數(shù)據(jù)。數(shù)據(jù)庫設(shè)計(jì):OLTP系統(tǒng)采用實(shí)體-聯(lián)系(ER)模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計(jì),而OLAP系統(tǒng)通常采用星形和雪花模型視圖:OLTP系統(tǒng)主要關(guān)注一個企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),而OLAP系統(tǒng)主要關(guān)注匯總的統(tǒng)一的數(shù)據(jù)。訪問模式:OLTP訪問主要有短的原子事務(wù)組成,而OLAP系統(tǒng)的訪問大部分是只讀操作,盡管許多可能是復(fù)雜的查詢數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型。這種模型將數(shù)據(jù)看作數(shù)據(jù)立方體形式。數(shù)據(jù)立方體允許從多維對數(shù)據(jù)建模和觀察。它由維和事實(shí)定義。3最流行的數(shù)據(jù)倉庫數(shù)據(jù)模型是多維模型,這種模型可以以星形模式、雪花型模式或事實(shí)星座模式形式存在。建立數(shù)據(jù)倉庫模型:維與度量星型模型:最常見的模型范例是星形模式,其中數(shù)據(jù)倉庫包括(1)一個大的包含大批數(shù)據(jù)并且不含冗余的中心表(事實(shí)表);(2)一組小的附屬表(維表),每維一個。中間是事實(shí)表,連接一組維表雪花模式:雪花模式是星型模式的變種,其中某些維表是規(guī)范化的,而數(shù)據(jù)進(jìn)一步分解到附加的維表中,它的圖形類似于雪花的形狀事實(shí)星座表:多個事實(shí)表共享維表,這種模式可以看作星型模式及,因此稱為星系模式或事實(shí)星座數(shù)據(jù)立方體度量是一個數(shù)值函數(shù),可以對數(shù)據(jù)立方體空間的每一個點(diǎn)求值。通過對給定點(diǎn)的各維-值對聚集數(shù)據(jù),計(jì)算該點(diǎn)的度量值。度量可以根據(jù)所用的聚集函數(shù)類型可以分成三類(即分布的、代數(shù)的和整體的)。概念分層定義一個映射序列,將低層概念映射到更一般的較高層概念。多維數(shù)據(jù)模型中的OLAP操作上卷:上卷操作通過沿一個維的概念分層向上攀升或者通過維規(guī)約,對數(shù)據(jù)立方體進(jìn)行聚集;下鉆:下鉆是上卷的逆操作,它由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù)。下鉆可以通過沿維的概念分層向下或引入附加的維來實(shí)現(xiàn);切片和切塊:切片操作對給定立方體的一個維進(jìn)行選擇,導(dǎo)致一個子立方體。切塊操作通過對兩個或多個維執(zhí)行選擇,定義子立方體;轉(zhuǎn)軸(旋轉(zhuǎn)):轉(zhuǎn)軸是一種可視化操作,它轉(zhuǎn)動數(shù)據(jù)的視角,提供數(shù)據(jù)的替代表示;其他OLAP操作:鉆過執(zhí)行涉及多個事實(shí)表的查詢;鉆透操作使用關(guān)系SQL機(jī)制,鉆透數(shù)據(jù)立方體的底層,到后段關(guān)系表。三層數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)底層是倉庫數(shù)據(jù)服務(wù)器,它幾乎總是關(guān)系數(shù)據(jù)庫系統(tǒng)。中間層是OLAP服務(wù)器,其典型的實(shí)現(xiàn)或者是(i)關(guān)系OLAP(ROLAP)模型,即擴(kuò)充的關(guān)系DBMS,它將對多維數(shù)據(jù)的操作映射為標(biāo)準(zhǔn)的關(guān)系操作;或者是(ii)多維OLAP(MOLAP)模型即專門的服務(wù)器,它直接實(shí)現(xiàn)多維數(shù)據(jù)和操作。頂層是前段客戶層,它包括查詢和報(bào)表工具、分析工具和/或數(shù)據(jù)挖掘工具(例如趨勢分析、預(yù)測等)。從結(jié)構(gòu)的角度看,有三種數(shù)據(jù)倉庫模型:企業(yè)倉庫、數(shù)據(jù)集市和虛擬倉庫。數(shù)據(jù)集市(DataMart):數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個子集,對于特定的用戶群是有用的。其范圍限于選定的主題。根據(jù)數(shù)據(jù)的來源不同,數(shù)據(jù)集市分為獨(dú)立的和依賴的兩類。數(shù)據(jù)倉庫后端工具和實(shí)用程序包含以下功能:數(shù)據(jù)提??;數(shù)據(jù)清理;數(shù)據(jù)變換;裝入;刷新。數(shù)據(jù)立方體的物化有三種選擇:(1)不物化;(2)完全物化;(3)部分物化。有三種數(shù)據(jù)倉庫應(yīng)用:信息處理、分析處理和數(shù)據(jù)挖掘。4分類和預(yù)測找出描述并區(qū)分?jǐn)?shù)據(jù)類和概念的模型(或函數(shù))以便能夠使用模型預(yù)測類標(biāo)記未知的對象類。例如:依據(jù)氣候劃分國家類型或者依據(jù)每里的耗油量劃分汽車類型。表示形式:判定樹,分類規(guī)則,神經(jīng)網(wǎng)絡(luò)。預(yù)測:預(yù)測某些未知的或空缺的數(shù)據(jù)值。聚類分析類標(biāo)記未知:把數(shù)據(jù)聚類或分組成新的類,例如:把房子聚類來找出房子的分布模式。聚類依據(jù)以下原則:最大化類內(nèi)的相似性和最小化類間的相似性。FP-樹結(jié)構(gòu)的優(yōu)點(diǎn)完整性:不會破壞任何交易的長模式為頻繁模式挖掘保存了完整的信息簡潔性減少了不相關(guān)的信息—非頻繁項(xiàng)集被刪掉頻繁項(xiàng)集按支持度遞減順序排列:越是頻繁的項(xiàng)集越有可能被共享不會比原數(shù)據(jù)庫大(如果不算節(jié)點(diǎn)鏈和計(jì)數(shù))基本思想(分治策略):使用FP-樹循環(huán)的產(chǎn)生頻繁模式路徑方法對于每一個項(xiàng),先構(gòu)造它的條件模式基,然后構(gòu)造它的條件FP-樹在每一個新創(chuàng)建的條件FP-樹上重復(fù)此過程直到結(jié)果FP樹為空,或它只包含一條路徑(單路徑將產(chǎn)生所有的它的子路徑的結(jié)合,每一條子路徑都是一個頻繁模式)挖掘FP-樹的主要步驟1)為FP-樹中的每一個節(jié)點(diǎn)構(gòu)造條件模式基2)為每一個條件模式基條件FP-樹3)循環(huán)的挖掘條件FP-樹,生成至今為止獲得的頻繁模式如果條件FP-樹只包含單條路徑,簡單的列舉所有的模式名詞解釋數(shù)據(jù)倉庫:是一種新的數(shù)據(jù)處理體系結(jié)構(gòu),是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化(不同時間)的數(shù)據(jù)集合,為企業(yè)決策支持系統(tǒng)提供所需的集成信息。孤立點(diǎn):指數(shù)據(jù)庫中包含的一些與數(shù)據(jù)的一般行為或模型不一致的異常數(shù)據(jù)。OLAP:OLAP是在OLTP的基礎(chǔ)上發(fā)展起來的,以數(shù)據(jù)倉庫為基礎(chǔ)的數(shù)據(jù)分析處理,是共享多維信息的快速分析,是被專門設(shè)計(jì)用于支持復(fù)雜的分析操作,側(cè)重對分析人員和高層管理人員的決策支持。粒度:指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級別。粒度影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影響數(shù)據(jù)倉庫所能回答查詢問題的細(xì)節(jié)程度。數(shù)據(jù)規(guī)范化:指將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一個特定的區(qū)域(如0-1)以提高數(shù)據(jù)挖掘效率的方法。規(guī)范化的常用方法有:最大-最小規(guī)范化、零-均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化。關(guān)聯(lián)知識:是反映一個事件和其他事件之間依賴或相互關(guān)聯(lián)的知識。如果兩項(xiàng)或多項(xiàng)屬性之間存在關(guān)聯(lián),那么其中一項(xiàng)的屬性值就可以依據(jù)其他屬性值進(jìn)行預(yù)測。數(shù)據(jù)挖掘:從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。OLTP:OLTP為聯(lián)機(jī)事務(wù)處理的縮寫,OLAP是聯(lián)機(jī)分析處理的縮寫。前者是以數(shù)據(jù)庫為基礎(chǔ)的,面對的是操作人員和低層管理人員,對基本數(shù)據(jù)進(jìn)行查詢和增、刪、改等處理。ROLAP:是基于關(guān)系數(shù)據(jù)庫存儲方式的,在這種結(jié)構(gòu)中,多維數(shù)據(jù)被映像成二維關(guān)系表,通常采用星型或雪花型架構(gòu),由一個事實(shí)表和多個維度表構(gòu)成。MOLAP:是基于類似于“超立方”塊的OLAP存儲結(jié)構(gòu),由許多經(jīng)壓縮的、類似于多維數(shù)組的對象構(gòu)成,并帶有高度壓縮的索引及指針結(jié)構(gòu),通過直接偏移計(jì)算進(jìn)行存取。數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。廣義知識:通過對大量數(shù)據(jù)的歸納、概括和抽象,提煉出帶有普遍性的、概括性的描述統(tǒng)計(jì)的知識。預(yù)測型知識:是根據(jù)時間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推測未來的數(shù)據(jù),也可以認(rèn)為是以時間為關(guān)鍵屬性的關(guān)聯(lián)知識。偏差型知識:是對差異和極端特例的描述,用于揭示事物偏離常規(guī)的異?,F(xiàn)象,如標(biāo)準(zhǔn)類外的特例,數(shù)據(jù)聚類外的離群值等。遺傳算法:是一種優(yōu)化搜索算法,它首先產(chǎn)生一個初始可行解群體,然后對這個群體通過模擬生物進(jìn)化的選擇、交叉、變異等遺傳操作遺傳到下一代群體,并最終達(dá)到全局最優(yōu)。聚類:是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過程,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。決策樹:是用樣本的屬性作為結(jié)點(diǎn),用屬性的取值作為分支的樹結(jié)構(gòu)。它是分類規(guī)則挖掘的典型方法,可用于對新樣本進(jìn)行分類。相異度矩陣:是聚類分析中用于表示各對象之間相異度的一種矩陣,n個對象的相異度矩陣是一個nn維的單模矩陣,其對角線元素均為0,對角線兩側(cè)元素的值相同。頻繁項(xiàng)集:指滿足最小支持度的項(xiàng)集,是挖掘關(guān)聯(lián)規(guī)則的基本條件之一。支持度:規(guī)則A→B的支持度指的是所有事件中A與B同地發(fā)生的的概率,即P(A∪B),是AB同時發(fā)生的次數(shù)與事件總次數(shù)之比。支持度是對關(guān)聯(lián)規(guī)則重要性的衡量??尚哦龋阂?guī)則A→B的可信度指的是包含A項(xiàng)集的同時也包含B項(xiàng)集的條件概率P(B|A),是AB同時發(fā)生的次數(shù)與A發(fā)生的所有次數(shù)之比。可信度是對關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。關(guān)聯(lián)規(guī)則:同時滿足最小支持度閾值和最小可信度閾值的規(guī)則稱之為關(guān)聯(lián)規(guī)則。綜合題何謂數(shù)據(jù)挖掘?它有哪些方面的功能?從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程稱為數(shù)據(jù)挖掘。相關(guān)的名稱有知識發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等。數(shù)據(jù)挖掘的功能包括:概念描述、關(guān)聯(lián)分析、分類與預(yù)測、聚類分析、趨勢分析、孤立點(diǎn)分析以及偏差分析等。何謂數(shù)據(jù)倉庫?為什么要建立數(shù)據(jù)倉庫?數(shù)據(jù)倉庫是一種新的數(shù)據(jù)處理體系結(jié)構(gòu),是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化(不同時間)的數(shù)據(jù)集合,為企業(yè)決策支持系統(tǒng)提供所需的集成信息。建立數(shù)據(jù)倉庫的目的有3個:一是為了解決企業(yè)決策分析中的系統(tǒng)響應(yīng)問題,數(shù)據(jù)倉庫能提供比傳統(tǒng)事務(wù)數(shù)據(jù)庫更快的大規(guī)模決策分析的響應(yīng)速度。二是解決決策分析對數(shù)據(jù)的特殊需求問題。決策分析需要全面的、正確的集成數(shù)據(jù),這是傳統(tǒng)事務(wù)數(shù)據(jù)庫不能直接提供的。三是解決決策分析對數(shù)據(jù)的特殊操作要求。決策分析是面向?qū)I(yè)用戶而非一般業(yè)務(wù)員,需要使用專業(yè)的分析工具,對分析結(jié)果還要以商業(yè)智能的方式進(jìn)行表現(xiàn),這是事務(wù)數(shù)據(jù)庫不能提供的。列舉操作型數(shù)據(jù)與分析型數(shù)據(jù)的主要區(qū)別。操作型數(shù)據(jù)分析型數(shù)據(jù)當(dāng)前的、細(xì)節(jié)的歷史的、綜合的面向應(yīng)用、事務(wù)驅(qū)動面向分析、分析驅(qū)動頻繁增、刪、改幾乎不更新,定期追加操作需求事先知道分析需求事先不知道生命周期符合SDLC完全不同的生命周期對性能要求高對性能要求寬松一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常事務(wù)操作支持管理決策需求何謂OLTP和OLAP?它們的主要異同有哪些?OLTP即聯(lián)機(jī)事務(wù)處理,是以傳統(tǒng)數(shù)據(jù)庫為基礎(chǔ)、面向操作人員和低層管理人員、對基本數(shù)據(jù)進(jìn)行查詢和增、刪、改等的日常事務(wù)處理。OLAP即聯(lián)機(jī)分析處理,是在OLTP基礎(chǔ)上發(fā)展起來的、以數(shù)據(jù)倉庫基礎(chǔ)上的、面向高層管理人員和專業(yè)分析人員、為企業(yè)決策支持服務(wù)。OLTP和OLAP的主要區(qū)別如下表:OLTPOLAP數(shù)據(jù)庫數(shù)據(jù)數(shù)據(jù)庫或數(shù)據(jù)倉庫數(shù)據(jù)細(xì)節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)經(jīng)常更新不更新,但周期性刷新一次性處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大對響應(yīng)時間要求高響應(yīng)時間合理用戶數(shù)量大用戶數(shù)據(jù)相對較少面向操作人員,支持日常操作面向決策人員,支持管理需要面向應(yīng)用,事務(wù)驅(qū)動面向分析,分析驅(qū)動何謂粒度?它對數(shù)據(jù)倉庫有什么影響?按粒度組織數(shù)據(jù)的方式有哪些?粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級別。粒度影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影響數(shù)據(jù)倉庫所能回答查詢問題的細(xì)節(jié)程度。按粒度組織數(shù)據(jù)的方式主要有:簡單堆積結(jié)構(gòu)輪轉(zhuǎn)綜合結(jié)構(gòu)簡單直接結(jié)構(gòu)連續(xù)結(jié)構(gòu)簡述數(shù)據(jù)倉庫設(shè)計(jì)的三級模型及其基本內(nèi)容。概念模型設(shè)計(jì)是在較高的抽象層次上的設(shè)計(jì),其主要內(nèi)容包括:界定系統(tǒng)邊界和確定主要的主題域。邏輯模型設(shè)計(jì)的主要內(nèi)容包括:分析主題域、確定粒度層次劃分、確定數(shù)據(jù)分割策略、定義關(guān)系模式、定義記錄系統(tǒng)。物理數(shù)據(jù)模型設(shè)計(jì)的主要內(nèi)容包括:確定數(shù)據(jù)存儲結(jié)構(gòu)、確定數(shù)據(jù)存放位置、確定存儲分配以及確定索引策略等。在物理數(shù)據(jù)模型設(shè)計(jì)時主要考慮的因素有:I/O存取時間、空間利用率和維護(hù)代價(jià)等。提高性能的主要措施有劃分粒度、數(shù)據(jù)分割、合并表、建立數(shù)據(jù)序列、引入冗余、生成導(dǎo)出數(shù)據(jù)、建立廣義索引等。在數(shù)據(jù)挖掘之前為什么要對原始數(shù)據(jù)進(jìn)行預(yù)處理?原始業(yè)務(wù)數(shù)據(jù)來自多個數(shù)據(jù)庫或數(shù)據(jù)倉庫,它們的結(jié)構(gòu)和規(guī)則可能是不同的,這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用,即使在同一個數(shù)據(jù)庫中,也可能存在重復(fù)的和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求,提高效率和得到清晰的結(jié)果,必須進(jìn)行數(shù)據(jù)的預(yù)處理。為數(shù)據(jù)挖掘算法提供完整、干凈、準(zhǔn)確、有針對性的數(shù)據(jù),減少算法的計(jì)算量,提高挖掘效率和準(zhǔn)確程度。簡述數(shù)據(jù)預(yù)處理方法和內(nèi)容。數(shù)據(jù)清洗:包括填充空缺值,識別孤立點(diǎn),去掉噪聲和無關(guān)數(shù)據(jù)。數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲中。需要注意不同數(shù)據(jù)源的數(shù)據(jù)匹配問題、數(shù)值沖突問題和冗余問題等。數(shù)據(jù)變換:將原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式。包括對數(shù)據(jù)的匯總、聚集、概化、規(guī)范化,還可能需要進(jìn)行屬性的重構(gòu)。數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。簡述數(shù)據(jù)清理的基本內(nèi)容。盡可能賦予屬性名和屬性值明確的含義;統(tǒng)一多數(shù)據(jù)源的屬性值編碼;去除無用的惟一屬性或鍵值(如自動增長的id);去除重復(fù)屬性(在某些分析中,年齡和出生日期可能就是重復(fù)的屬性,但在某些時候它們可能又是同時需要的)去除可忽略字段(大部分為空值的屬性一般是沒有什么價(jià)值的,如果不去除可能造成錯誤的數(shù)據(jù)挖掘結(jié)果)合理選擇關(guān)聯(lián)字段(對于多個關(guān)聯(lián)性較強(qiáng)的屬性,重復(fù)無益,只需選擇其中的部分用于數(shù)據(jù)挖掘即可,如價(jià)格、數(shù)據(jù)、金額)去掉數(shù)據(jù)中的噪音、填充空值、丟失值和處理不一致數(shù)據(jù)。簡述處理空缺值的方法。忽略該記錄;去掉屬性;手工填寫空缺值;使用默認(rèn)值;使用屬性平均值;使用同類樣本平均值;預(yù)測最可能的值。常見的分箱方法有哪些?數(shù)據(jù)平滑處理的方法有哪些?分箱的方法主要有:統(tǒng)一權(quán)重法(又稱等深分箱法)統(tǒng)一區(qū)間法(又稱等寬分箱法)最小熵法自定義區(qū)間法數(shù)據(jù)平滑的方法主要有:平均值法、邊界值法和中值法。何謂數(shù)據(jù)規(guī)范化?規(guī)范化的方法有哪些?寫出對應(yīng)的變換公式。將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一個特定的區(qū)域(如0.0~1.0),稱為規(guī)范化。規(guī)范化的常用方法有:最大-最小規(guī)范化:零-均值規(guī)范化:小數(shù)定標(biāo)規(guī)范化:x=x0/10α數(shù)據(jù)歸約的方法有哪些?為什么要進(jìn)行維歸約?數(shù)據(jù)立方體聚集維歸約數(shù)據(jù)壓縮數(shù)值壓縮離散化和概念分層維歸約可以去掉不重要的屬性,減少數(shù)據(jù)立方體的維數(shù),從而減少數(shù)據(jù)挖掘處理的數(shù)據(jù)量,提高挖掘效率。何謂聚類?它與分類有什么異同?聚類是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過程,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。聚類與分類不同,聚類要劃分的類是未知的,分類則可按已知規(guī)則進(jìn)行;聚類是一種無指導(dǎo)學(xué)習(xí),它不依賴預(yù)先定義的類和帶類標(biāo)號的訓(xùn)練實(shí)例,屬于觀察式學(xué)習(xí),分類則屬于有指導(dǎo)的學(xué)習(xí),是示例式學(xué)習(xí)。舉例說明聚類分析的典型應(yīng)用。①商業(yè):幫助市場分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶群,并且用不同的購買模式描述不同客戶群的特征。②生物學(xué):推導(dǎo)植物或動物的分類,對基于進(jìn)行分類,獲得對種群中固有結(jié)構(gòu)的認(rèn)識。③WEB文檔分類④其他:如地球觀測數(shù)據(jù)庫中相似地區(qū)的確定;各類保險(xiǎn)投保人的分組;一個城市中不同類型、價(jià)值、地理位置房子的分組等。⑤聚類分析還可作為其他數(shù)據(jù)挖掘算法的預(yù)處理:即先進(jìn)行聚類,然后再進(jìn)行分類等其他的數(shù)據(jù)挖掘。聚類分析是一種數(shù)據(jù)簡化技術(shù),它把基于相似數(shù)據(jù)特征的變量或個案組合在一起。聚類分析中常見的數(shù)據(jù)類型有哪些?何謂相異度矩陣?它有什么特點(diǎn)?常見數(shù)據(jù)類型有區(qū)間標(biāo)度變量、比例標(biāo)度型變量、二元變量、標(biāo)稱型、序數(shù)型以及混合類型等。相異度矩陣是用于存儲所有對象兩兩之間相異度的矩陣,為一個nn維的單模矩陣。其特點(diǎn)是d(i,j)=d(j,i),d(i,i)=0,d(j,j)=0。如下所示:分類知識的發(fā)現(xiàn)方法主要有哪些?分類過程通常包括哪兩個步驟?分類規(guī)則的挖掘方法通常有:決策樹法、貝葉斯法、人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法。分類的過程包括2步:首先在已知訓(xùn)練數(shù)據(jù)集上,根據(jù)屬性特征,為每一種類別找到一個合理的描述或模型,即分類規(guī)則;然后根據(jù)規(guī)則對新數(shù)據(jù)進(jìn)行分類。什么是決策樹?如何用決策樹進(jìn)行分類?決策樹是用樣本的屬性作為結(jié)點(diǎn),用屬性的取值作為分支的樹結(jié)構(gòu)。它是利用信息論原理對大量樣本的屬性進(jìn)行分析和歸納而產(chǎn)生的。決策樹的根結(jié)點(diǎn)是所有樣本中信息量最大的屬性。樹的中間結(jié)點(diǎn)是以該結(jié)點(diǎn)為根的子樹所包含的樣本子集中信息量最大的屬性。決策樹的葉結(jié)點(diǎn)是樣本的類別值。決策樹用于對新樣本的分類,即通過決策樹對新樣本屬性值的測試,從樹的根結(jié)點(diǎn)開始,按照樣本屬性的取值,逐漸沿著決策樹向下,直到樹的葉結(jié)點(diǎn),該葉結(jié)點(diǎn)表示的類別就是新樣本的類別。決策樹方法是數(shù)據(jù)挖掘中非常有效的分類方法。簡述ID3算法的基本思想及其主算法的基本步驟。首先找出最有判別力的因素,然后把數(shù)據(jù)分成多個子集,每個子集又選擇最有判別力的因素進(jìn)一步劃分,一直進(jìn)行到所有子集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹,可以用它來對新的樣例進(jìn)行分類。主算法包括如下幾步:①從訓(xùn)練集中隨機(jī)選擇一個既含正例又含反例的子集(稱為窗口);②用“建樹算法”對當(dāng)前窗口形成一棵決策樹;③對訓(xùn)練集(窗口除外)中例子用所得決策樹進(jìn)行類別判定,找出錯判的例子;④若存在錯判的例子,把它們插入窗口,重復(fù)步驟②,否則結(jié)束。簡述ID3算法的基本思想及其建樹算法的基本步驟。首先找出最有判別力的因素,然后把數(shù)據(jù)分成多個子集,每個子集又選擇最有判別力的因素進(jìn)一步劃分,一直進(jìn)行到所有子集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹,可以用它來對新的樣例進(jìn)行分類。建樹算法的具體步驟如下:①對當(dāng)前例子集合,計(jì)算各特征的互信息;②選擇互信息最大的特征Ak;③把在Ak處取值相同的例子歸于同一子集,Ak取幾個值就得幾個子集;④對既含正例又含反例的子集,遞歸調(diào)用建樹算法;⑤若子集僅含正例或反例,對應(yīng)分枝標(biāo)上P或N,返回調(diào)用處。設(shè)某事務(wù)項(xiàng)集構(gòu)成如下表,填空完成其中支持度和置信度的計(jì)算。事務(wù)ID項(xiàng)集L2支持度%規(guī)則置信度%T1A,DA,B33.3A→B50T2D,EA,C33.3C→A60T3A,C,EA,D44.4A→D66.7T4A,B,D,EB,D33.3B→D75T5A,B,CC,D33.3C→D60T6A,B,DD,E33.3D→E43T7A,C,D……T8C,D,ET9B,C,D 從信息處理角度看,神經(jīng)元具有哪些基本特征?寫出描述神經(jīng)元狀態(tài)的M-P方程并說明其含義?;咎卣鳎孩俣噍斎?、單輸出;②突觸兼有興奮和抑制兩種性能;③可時間加權(quán)和空間加權(quán);④可產(chǎn)生脈沖;⑤脈沖可進(jìn)行傳遞;⑥非線性,有閾值。M-P方程:,Wij是神經(jīng)元之間的連接強(qiáng)度,是閾值,f(x)是階梯函數(shù)。遺傳算法與傳統(tǒng)尋優(yōu)算法相比有什么特點(diǎn)?遺傳算法為群體搜索,有利于尋找到全局最優(yōu)解;遺傳算法采用高效有方向的隨機(jī)搜索,搜索效率高;遺傳算法處理的對象是個體而不是參變量,具有廣泛的應(yīng)用領(lǐng)域;遺傳算法使用適應(yīng)值信息評估個體,不需要導(dǎo)數(shù)或其他輔助信息,運(yùn)算速度快,適應(yīng)性好;遺傳算法具有隱含并行性,具有更高的運(yùn)行效率。寫出非對稱二元變量相異度計(jì)算公式(即jaccard系數(shù)),并計(jì)算下表中各對象間的相異度。測試項(xiàng)目對象test-1test-2test-3test-4test-5test-6OBJ1YNPNNNOBJ2YNPNPNOBJ3NYNYNN…簡述K-平均算法的輸入、輸出及聚類過程(流程)。輸入:簇的數(shù)目k和包含n個對象的數(shù)據(jù)集。輸出:k個簇,使平方誤差準(zhǔn)則最小。步驟:任意選擇k個對象作為初始的簇中心;計(jì)算其它對象與這k個中心的距離,然后把每個對象歸入離它“最近”的簇;計(jì)算各簇中對象的平均值,然后重新選擇簇中心(離平均值“最近”的對象值);重復(fù)第2第3步直到簇中心不再變化為止。簡述K-中心點(diǎn)算法的輸入、輸出及聚類過程(流程)。輸入:結(jié)果簇的數(shù)目k,包含n個對象的數(shù)據(jù)集輸出:k個簇,使得所有對象與其最近中心點(diǎn)的相異度總和最小。流程:隨機(jī)選擇k個對象作為初始中心點(diǎn);計(jì)算其它對象與這k個中心的距離,然后把每個對象歸入離它“最近”的簇;隨機(jī)地選擇一個非中心點(diǎn)對象Orandom,并計(jì)算用Orandom代替Oj的總代價(jià)S;如果S<0,則用Orandom代替Oj,形成新的k個中心點(diǎn)集合;重復(fù)迭代第3、4步,直到中心點(diǎn)不變?yōu)橹埂:沃^文本挖掘?它與信息檢索有什么關(guān)系(異同)。文本挖掘是從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知識的過程。它與信息檢索之間有以下幾方面的區(qū)別:方法論不同:信息檢索是目標(biāo)驅(qū)動的,用戶需要明確提出查詢要求;而文本挖掘結(jié)果獨(dú)立于用戶的信息需求,是用戶無法預(yù)知的。著眼點(diǎn)不同:信息檢索著重于文檔中字、詞和鏈接;而文本挖掘在于理解文本的內(nèi)容和結(jié)構(gòu)。目的不同:信息檢索的目的在于幫助用戶發(fā)現(xiàn)資源,即從大量的文本中找到滿足其查詢請求的文本子集;而文本挖掘是為了揭示文本中隱含的知識。評價(jià)方法不同:信息檢索用查準(zhǔn)率和查全率來評價(jià)其性能。而文本挖掘采用收益、置信度、簡潔性等來衡量所發(fā)現(xiàn)知識的有效性、可用性和可理解性。使用場合不同:文本挖掘是比信息檢索更高層次的技術(shù),可用于信息檢索技術(shù)不能解決的許多場合。一方面,這兩種技術(shù)各有所長,有各自適用的場合;另一方面,可以利用文本挖掘的研究成果來提高信息檢索的精度和效率,改善檢索結(jié)果的組織,使信息檢索系統(tǒng)發(fā)展到一個新的水平。單選題

1.某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?(A)

A.關(guān)聯(lián)規(guī)則發(fā)現(xiàn)B.聚類

C.分類D.自然語言處理

3.將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務(wù)?(C)

A.頻繁模式挖掘B.分類和預(yù)測C.數(shù)據(jù)預(yù)處理D.數(shù)據(jù)流挖掘

4.當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?(B)

A.分類B.聚類C.關(guān)聯(lián)分析D.隱馬爾可夫鏈

6.使用交互式的和可視化的技術(shù),對數(shù)據(jù)進(jìn)行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(A)

A.探索性數(shù)據(jù)分析B.建模描述

C.預(yù)測建模D.尋找模式和規(guī)則

11.下面哪種不屬于數(shù)據(jù)預(yù)處理的方法?(D)

A變量代換B離散化C聚集D估計(jì)遺漏值

12.假設(shè)12個銷售價(jià)格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱子內(nèi)?(B)

A第一個B第二個C第三個D第四個

13.上題中,等寬劃分時(寬度為50),15又在哪個箱子里?(A)

A第一個B第二個C第三個D第四個

16.只有非零值才重要的二元屬性被稱作:(C)

A計(jì)數(shù)屬性B離散屬性C非對稱的二元屬性D對稱屬性

17.以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法:(D)

A嵌入B過濾C包裝D抽樣

18.下面不屬于創(chuàng)建新屬性的相關(guān)方法的是:(B)

A特征提取B特征修改C映射數(shù)據(jù)到新的空間D特征構(gòu)造

22.假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)。對屬性income的73600元將被轉(zhuǎn)化為:(D)

A0.821B1.224C1.458D0.716

23.假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,問題:使用按箱平均值平滑方法對上述數(shù)據(jù)進(jìn)行平滑,箱的深度為3。第二個箱子值為:(A)

A18.3B22.6C26.8D27.9

28.數(shù)據(jù)倉庫是隨著時間變化的,下面的描述不正確的是(C)

A.數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容;

B.捕捉到的新數(shù)據(jù)會覆蓋原來的快照;

C.數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容;

D.數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的變化不斷地進(jìn)行重新綜合.

29.關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指:(D)

A.基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息;

B.基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息;

C.基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息;

D.基本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息.

30.下面關(guān)于數(shù)據(jù)粒度的描述不正確的是:(C)

A.粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細(xì)程度和級別;

B.數(shù)據(jù)越詳細(xì),粒度就越小,級別也就越高;

C.數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高;

D.粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量.

33.OLAP技術(shù)的核心是:(D)

A.在線性;

B.對用戶的快速響應(yīng);

C.互操作性.

D.多維分析;

34.關(guān)于OLAP的特性,下面正確的是:(D)

(1)快速性(2)可分析性(3)多維性(4)信息性(5)共享性

A.(1)(2)(3)

B.(2)(3)(4)

C.(1)(2)(3)(4)

D.(1)(2)(3)(4)(5)

35.關(guān)于OLAP和OLTP的區(qū)別描述,不正確的是:(C)

A.OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OTAP應(yīng)用程序不同.

B.與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù).

C.OLAP的特點(diǎn)在于事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高.

D.OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對的用戶是相同的.

37.關(guān)于OLAP和OLTP的說法,下列不正確的是:(A)

A.OLAP事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高.

B.OLAP的最終數(shù)據(jù)來源與OLTP不一樣.

C.OLTP面對的是決策人員和高層管理人員.

D.OLTP以應(yīng)用為核心,是應(yīng)用驅(qū)動的.

38.設(shè)X={1,2,3}是頻繁項(xiàng)集,則可由X產(chǎn)生__(C)__個關(guān)聯(lián)規(guī)則。

A、4B、5C、6D、7

40.概念分層圖是__(B)__圖。

A、無向無環(huán)B、有向無環(huán)C、有向有環(huán)D、無向有環(huán)

41.頻繁項(xiàng)集、頻繁閉項(xiàng)集、最大頻繁項(xiàng)集之間的關(guān)系是:(C)

A、頻繁項(xiàng)集頻繁閉項(xiàng)集=最大頻繁項(xiàng)集

B、頻繁項(xiàng)集=頻繁閉項(xiàng)集最大頻繁項(xiàng)集

C、頻繁項(xiàng)集頻繁閉項(xiàng)集最大頻繁項(xiàng)集

D、頻繁項(xiàng)集=頻繁閉項(xiàng)集=最大頻繁項(xiàng)集

44.在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu),這樣的任務(wù)稱為(B)

A、頻繁子集挖掘B、頻繁子圖挖掘C、頻繁數(shù)據(jù)項(xiàng)挖掘D、頻繁模式挖掘

48.以下哪些算法是分類算法,A,DBSCANB,C4.5C,K-MeanD,EM(B)

50.決策樹中不包含一下哪種結(jié)點(diǎn),A,根結(jié)點(diǎn)(rootnode)B,內(nèi)部結(jié)點(diǎn)(internalnode)C,外部結(jié)點(diǎn)(externalnode)D,葉結(jié)點(diǎn)(leafnode)(C)

53.以下哪項(xiàng)關(guān)于決策樹的說法是錯誤的(C)

A.冗余屬性不會對決策樹的準(zhǔn)確率造成不利的影響

B.子樹可能在決策樹中重復(fù)多次

C.決策樹算法對于噪聲的干擾非常敏感

D.尋找最佳決策樹是NP完全問題

54.在基于規(guī)則分類器的中,依據(jù)規(guī)則質(zhì)量的某種度量對規(guī)則排序,保證每一個測試記錄都是由覆蓋它的“最好的”規(guī)格來分類,這種方案稱為(B)

A.基于類的排序方案

B.基于規(guī)則的排序方案

C.基于度量的排序方案

D.基于規(guī)格的排序方案。

57.如果對屬性值的任一組合,R中都存在一條規(guī)則加以覆蓋,則稱規(guī)則集R中的規(guī)則為(B)A,無序規(guī)則B,窮舉規(guī)則C,互斥規(guī)則D,有序規(guī)則

58.如果規(guī)則集中的規(guī)則按照優(yōu)先級降序排列,則稱規(guī)則集是(D)

A,無序規(guī)則B,窮舉規(guī)則C,互斥規(guī)則D,有序規(guī)則

61.以下關(guān)于人工神經(jīng)網(wǎng)絡(luò)(ANN)的描述錯誤的有(A)

A,神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)中的噪聲非常魯棒B,可以處理冗余特征C,訓(xùn)練ANN是一個很耗時的過程D,至少含有一個隱藏層的多層神經(jīng)網(wǎng)絡(luò)二、多選題

1.通過數(shù)據(jù)挖掘過程所推倒出的關(guān)系和摘要經(jīng)常被稱為:(AB)

A.模型B.模式C.模范D.模具

2尋找數(shù)據(jù)集中的關(guān)系是為了尋找精確、方便并且有價(jià)值地總結(jié)了數(shù)據(jù)的某一特征的表示,這個過程包括了以下哪些步驟?(ABCD)

A.決定要使用的表示的特征和結(jié)構(gòu)

B.決定如何量化和比較不同表示擬合數(shù)據(jù)的好壞

C.選擇一個算法過程使評分函數(shù)最優(yōu)

D.決定用什么樣的數(shù)據(jù)管理原則以高效地實(shí)現(xiàn)算法。

4.數(shù)據(jù)挖掘算法的組件包括:(ABCD)

A.模型或模型結(jié)構(gòu)B.評分函數(shù)C.優(yōu)化和搜索方法D.數(shù)據(jù)管理策略

5.以下哪些學(xué)科和數(shù)據(jù)挖掘有密切聯(lián)系?(AD)

A.統(tǒng)計(jì)B.計(jì)算機(jī)組成原理C.礦產(chǎn)挖掘D.人工智能

6.在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法有:(ABCDE)

A忽略元組C使用一個全局常量填充空缺值

B使用屬性的平均值填充空缺值D

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論