數(shù)據(jù)挖掘考試題庫_第1頁
數(shù)據(jù)挖掘考試題庫_第2頁
數(shù)據(jù)挖掘考試題庫_第3頁
數(shù)據(jù)挖掘考試題庫_第4頁
數(shù)據(jù)挖掘考試題庫_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

I.何謂數(shù)據(jù)挖掘?它有哪些方面的功能?

從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信

息和知識的過程稱為數(shù)據(jù)挖掘。相關(guān)的名稱有知識發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等。

數(shù)據(jù)挖掘的功能包括:概念描述、關(guān)聯(lián)分析、分類與預(yù)測、聚類分析、趨勢分析、孤立點分析以及偏差分析等。

2.何謂粒度?它對數(shù)據(jù)倉庫有什么影響?按粒度組織數(shù)據(jù)的方式有哪些?

粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細化或綜合程度的級別。粒度影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影響

數(shù)據(jù)倉庫所能回答查詢問題的細節(jié)程度。按粒度組織數(shù)據(jù)的方式主要有:

①簡單堆積結(jié)構(gòu)

②輪轉(zhuǎn)綜合結(jié)構(gòu)

③簡單宜接結(jié)構(gòu)

④連續(xù)結(jié)構(gòu)

3.簡述數(shù)據(jù)倉庫設(shè)計的三級模型及其基本內(nèi)容。

概念模型設(shè)計是在較高的抽象層次上的設(shè)計,其主要內(nèi)容包括:界定系統(tǒng)邊界和確定主要的主題域。

邏輯模型設(shè)計的主要內(nèi)容包括:分析主題域、確定粒度層次劃分、確定數(shù)據(jù)分割策略、定義關(guān)系模式、定義記錄系統(tǒng)。

物理數(shù)據(jù)模型設(shè)計的主要內(nèi)容包括:確定數(shù)據(jù)存儲結(jié)構(gòu)、確定數(shù)據(jù)存放位置、確定存儲分配以及確定索引策略等。在物理

數(shù)據(jù)模型設(shè)計時主要考慮的因素有:I/O存取時間、空間利用率和維護代價等。

提高性能的主要措施有劃分粒度、數(shù)據(jù)分割、合并表、建立數(shù)據(jù)序列、引入冗余、生成導(dǎo)出數(shù)據(jù)、建立廣義索引等。

4.在數(shù)據(jù)挖掘之前為什么要對原始數(shù)據(jù)進行預(yù)處理?

原始業(yè)務(wù)數(shù)據(jù)來自多個數(shù)據(jù)庫或數(shù)據(jù)倉庫,它們的結(jié)構(gòu)和規(guī)則可能足不同的,這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用,即

使在同一個數(shù)據(jù)庫中,也可能存在重復(fù)的和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求,提高效率和得到清

晰的結(jié)果,必須進行數(shù)據(jù)的預(yù)處理。

為數(shù)據(jù)挖掘和法提供完整、干凈、準確、有針對性的數(shù)據(jù),減少算法的計算量,提高挖掘效率和準確程度。

5.簡述數(shù)據(jù)預(yù)處理方法和內(nèi)容。

①數(shù)據(jù)清洗:包括填充空缺值,識別孤立點,去掉噪聲和無關(guān)數(shù)據(jù)。

②數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲中。需要注意不同數(shù)據(jù)源的數(shù)據(jù)匹配問題、數(shù)值沖

突問題和冗余問題等。

③數(shù)據(jù)變換:將原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式。包括對數(shù)據(jù)的匯總、聚集、概化、規(guī)范化,還可能需要進行屬性的

重構(gòu)。

④數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。

6.簡述數(shù)據(jù)清理的基本內(nèi)容。

①盡可能賦予屬性名和屬性也明確的含義:

②統(tǒng)一多數(shù)據(jù)源的屬性值編碼;

③去除無用的惟一?屬性或鍵值(如自動增長的id):

④去除重復(fù)屬性(在某些分析中,生齡和出生日期可能就是重復(fù)的屬性,但在某些時候它們可能又是同時需要的)

⑤去除可忽略字段(大部分為空值的屬性一般是沒有什么價值的,如果不去除可能造成錯誤的數(shù)據(jù)挖掘結(jié)果)

⑥合理選擇關(guān)聯(lián)字段(對于多個關(guān)聯(lián)性較強的屬性,重復(fù)無益,只需選擇其中的部分用于數(shù)據(jù)挖掘即可,如價格、數(shù)據(jù)、金額)

⑦去掉數(shù)據(jù)中的噪音、填充空值、丟失值和處理不一致數(shù)據(jù)。

7.簡述處理空缺值的方法。

①忽略該記錄:

②去掉屬性;

③手工填寫空缺值;

④使用默認值;

⑤使用屬性平均值;

⑥使用同類樣本平均值;

⑦預(yù)測最可能的值。

8.常見的分箱方法有哪些?數(shù)據(jù)平滑處理的方法有哪些?

分箱的方法主要有:

①統(tǒng)?權(quán)重法(又稱等深分箱法)

②統(tǒng)一區(qū)間法(乂稱等寬分箱法)

@最小峭法

④自定義區(qū)間法

數(shù)據(jù)平滑的方法主要有:平均值法、邊界值法和中值法。

9.何謂數(shù)據(jù)規(guī)范化?規(guī)范化的方法有哪些?寫出對應(yīng)的變換公式。

將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一個特定的區(qū)域(如0.0?1.0),稱為規(guī)范化。規(guī)范化的常用方法有:

(1)最大一最小規(guī)范化:mar-min

x=------------------(x-min.)+min

(max-nf

(2)零一均值規(guī)范化:x-£n

x=------

(3)小數(shù)定標規(guī)范化:/=加/10"Ox

10.數(shù)據(jù)舊約的方法有哪些?為什么要進行維歸約?

數(shù)據(jù)立方體聚集

③維歸約

④數(shù)據(jù)壓縮

⑤數(shù)值壓縮

離散化和概念分層

維歸約可以去掉不重要的屬性,減少數(shù)據(jù)立方體的維數(shù),從何減少數(shù)據(jù)挖掘處理的數(shù)據(jù)量,提高挖掘效率。

11.何謂聚類?它與分類有什么異同?

聚類是將物理或抽象對象的集合分組成為多個類或簇(cluster)憑過程,使得在同一個挑中的對象之間具有較高的相似

度,而不同簇中的對象差別較大。

聚類與分類不同,聚類要劃分的類是未知的,分類則可按已知規(guī)則進行:聚類是一種無指導(dǎo)學(xué)習(xí),它不依賴預(yù)先定義的

類和帶類標號的訓(xùn)練實例,屬于觀察式學(xué)習(xí),分類則屬于有指導(dǎo)的學(xué)習(xí),是示例式學(xué)習(xí)。

12.舉例說明聚類分析的典型應(yīng)用。

①商業(yè):幫助市場分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶群,并且用不同的購買模式描述不同客戶群的特征。

②生物學(xué):推導(dǎo)植物或動物的分類,對基于進行分類,獲得對種群中值有結(jié)構(gòu)的認識。

③脫7?文檔分類

④其他:如地球觀測數(shù)據(jù)庫中相似地區(qū)的確定;各類保險投保人的分組:一個城市.中不同類型、價值、地理位置房子的分組等。

⑤聚類分析還可作為其他數(shù)據(jù)挖掘算法的預(yù)處理:即先進行聚類,然后再進行分類等其他的數(shù)據(jù)挖掘。聚類分析是一種數(shù)據(jù)簡

化技術(shù),它把基于相似數(shù)據(jù)特征的變量或個案組合在?起。

13.聚類分析中常見的數(shù)據(jù)類型有哪些。何謂相異度矩陣?它有什么特點?

常見數(shù)據(jù)類型有區(qū)間標度變量、比例標度型變量、二元變量、標稱型、序數(shù)型以及混合類型等。相異度矩陣是用于存儲所

有對象兩兩之間相異度的矩陣,為一個nn維的單模矩陣。其特點是d(i,j)=d(j,i),d(i,i)=0,d(j,j)=0。如下所示:

-o-

d(2,l)0

d(3,l)d(3,2)0

??????

d(n,l)d(n,2).....0

14.分類知識的發(fā)現(xiàn)方法主要有哪些?分類過程通常包括哪兩個步驟?

分類規(guī)則的挖掘方法通常有.:決策樹法、貝葉斯法、人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法。分類的過程包括2步:首

先在已知訓(xùn)練數(shù)據(jù)集上,根據(jù)屬性特征,為每一種類別找到一個合理的描述或模型,即分類規(guī)則;然后根據(jù)規(guī)則對新數(shù)據(jù)進行

分類。

15.什么是決策樹?如何用決策樹進行分類?

決策樹是用樣本的屬性作為結(jié)點,用屬性的取值作為分支的樹結(jié)構(gòu)。它是利用信息論原理對大量樣本的屬性進行分析和

歸納而產(chǎn)生的。決策樹的根結(jié)點是所有樣本中信息量最大的屬性。樹的中間結(jié)點是以該結(jié)點為根的子樹所包含的樣本子集中信

息量最大的屬性。決策樹的葉結(jié)點是樣本的類別值。

決策樹用于對新樣小的分類,即通過決策樹對新樣不屬性值的測K,從樹的根結(jié)點開始,按照樣本屬性的取值,逐漸沿

著決策樹向下,直到樹的葉結(jié)點,該葉結(jié)點衣示的類別就是新樣本的類別。決策樹方法是數(shù)據(jù)挖掘中非常有■效的分類方法。

16.簡述ID3算法的基本思想及其主算法的基本步驟。

首先找出最有判別力的因素,然后把數(shù)據(jù)分成多個子集,每個子集又選擇最有判別力的因素進一步劃分,一直進行到所

有子集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹,可以用它來對新的樣例進行分類。

主算法包括如下幾步:

①從訓(xùn)練集中隨機選擇?個既含正例又含反例的r?集(稱為窗口);

②用“建樹算法”對當前窗口形成一棵決策樹;

③對訓(xùn)練集(窗口除外)中例子用所得決策樹進行類別判定,找出錯判的例子;

④若存在錯判的例子,把它們插入窗口,重復(fù)步驟②,否則結(jié)束,

17.簡述ID3算法的基本思想及其建樹算法的基本步驟。

首先找出最有判別力的因素.然后把數(shù)據(jù)分成多個了集.每個子集又選擇最有判別力的因素進一步總分.一直進行到所

有子集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹,可以用它來對新的樣例進行分類。

建樹算法的具體步驟如卜.:

①對當前例子集合,計算各特征的互信息;

②選擇互信息最大的特征兒;

③把在M處取值相同的例子歸于同一子集,%取幾個值就得幾個子集;

④對既含正例又含反例的子集,遞歸調(diào)用建樹算法;

⑤若子集僅含正例或反例,對應(yīng)分枝標上P或N,返回調(diào)用處。

18.設(shè)某事務(wù)項集構(gòu)成如下表,填空完戌其中支持度和置信度的計算。

事務(wù)ID項集L2支持度為規(guī)則置信度與

T1A,DA,B33.3A-*B50

T2D,EA,C33.3C-A60

T3A,C,EA,D44.4A-D66.7

T4A,B,D,EB,D33.3B-*D75

T5A,B,CC,D33.3C-D60

T6A,B,DD,E33.3D-?E43

T7A,C,D…???

T8C,D,E

T9B,C,D

19.從信息處理角度看,神經(jīng)元具有哪些基本特征?寫出描述神經(jīng)元狀態(tài)的MP方程并說明其含義。

基本特征;①多輸入、單輸出;②突觸兼有興奮和抑制兩種性能;?可時間加權(quán)和空間加權(quán);④可產(chǎn)生脈沖;⑥脈沖可進行

傳遞;⑥非線性,有閾值。

M-P方程:Si=廠6),必是神經(jīng)元之間的連接強度,%是閾值,〃*)是階梯函數(shù)。

j

20.遺傳算法與傳統(tǒng)尋優(yōu)算法相比有什么特點?

遺傳算法為群體搜索,有利于尋找到全局最優(yōu)解.;

遺傳算法采用高效有方向的隨機搜索,搜索效率高;

④遺傳算法處理的對象是個體而不是參變量,具有廣泛的應(yīng)用領(lǐng)域:

⑤遺傳算法使用適應(yīng)值信息評估個體,不需要導(dǎo)數(shù)或其他輔助信息,運算速度快,適應(yīng)性好;

遺傳算法具有隱含并行性,具有更高的運行效率。

寫出非對稱二元變量相異度計算公式(即jaccard系數(shù)),并計算卜表中各對象間的相異度。

試項目

對象、\^test-1test-2test-3test-4test-5test-6

0BJ1YNPNNN

0BJ2YNPNPN

0BJ3NYNYNN

?????????????????????

22.簡述K-平均算法的輸入、輸出及聚類過程(流程)。

輸入:簇的數(shù)目k和包含n個對象的數(shù)據(jù)集。

輸出:k個簇,使平方誤差準則最小。

步驟:

①任意選擇k個對象作為初始的簇中心:

②計算其它對象與這k個中心的距離,然后把每個時象歸入離它“最近”的簇;

③計算各簇中對象的平均值,然后重新選擇簇中心(離平均值“最近”的對象值);

④重復(fù)第2第3步直到簇中心不再變化為止。

23.簡述K-中心點算法的輸入、輸出及聚類過程(流程)。

輸入:結(jié)果^的數(shù)目k,包含n個對象的數(shù)據(jù)集

輸出:k個簇.使得所有對象與其最近中心點的相異度總和最小.

流程:

隨機選擇k個對象作為初始中心點:

③計算其它對象與這k個中心的距離,然后把每個對象歸入離它“最近”的強:

④隨機地選擇?個非中心點對象Orandom,并計算用Orandom代替Oj的總代價S;

⑤如果S<0,則用Orandom代替Oj,形成新的k個中心點集合;

重復(fù)迭代笫3、4步,直到中心點不變?yōu)橹埂?/p>

24.何謂文本挖掘?它與信息檢索有什么關(guān)系(異同)。

文本挖掘是從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知識的過程。它與信息檢索之間有以下幾

方面的區(qū)別:

①方法論不同:信息檢索是目標驅(qū)動的,用戶需要明確提出直詢要求;而文本挖掘結(jié)果獨立于用戶的信息需求,是用

戶無法預(yù)知的。

②著眼點不同:信息檢索著重于文檔中字、詞和鏈接:而文本挖掘在于理解文本的內(nèi)容和結(jié)構(gòu)。

③目的不同:信息檢索的目的在于幫助用戶發(fā)現(xiàn)資源,即從大量的文本中找到滿足其查詢請求的文本子集;而文本挖

掘是為了揭示文本中隱含的知識。

④評價方法不同:信息檢索用查準率和查全率來評價其性能。而文本挖掘采用收益、置信度、簡潔性等來衡量所發(fā)現(xiàn)

知識的有效性、可用性和可理解性。

⑤使

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論