2022年數(shù)據(jù)挖掘與數(shù)據(jù)倉庫考試題_第1頁
2022年數(shù)據(jù)挖掘與數(shù)據(jù)倉庫考試題_第2頁
2022年數(shù)據(jù)挖掘與數(shù)據(jù)倉庫考試題_第3頁
2022年數(shù)據(jù)挖掘與數(shù)據(jù)倉庫考試題_第4頁
2022年數(shù)據(jù)挖掘與數(shù)據(jù)倉庫考試題_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

精品文檔

2022年數(shù)據(jù)挖掘與數(shù)據(jù)倉庫考試題

1.(10分)討論::下列每項活動是否是數(shù)據(jù)挖掘任務(wù)?簡單陳述你的理由。

(a)根據(jù)性別劃分公司的顧客。

不是。數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲庫中,自動地發(fā)現(xiàn)實用信息的過程。數(shù)據(jù)挖掘技

術(shù)服務(wù)用來探查大型數(shù)據(jù)庫,發(fā)現(xiàn)先前未知的實用模式。還可以預(yù)測未來觀測結(jié)果,

例如,預(yù)測一位新的顧客是否會在一家百貨公司消責(zé)100美元以上。但并非所有的

信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘,數(shù)據(jù)挖掘與信息檢索不同,使用數(shù)據(jù)庫管理系統(tǒng)

查找個別的記錄,或者通過因特網(wǎng)的搜索引擎直找特定的Web頁面,則是信息檢

索領(lǐng)城的任務(wù),它們主要依賴傳統(tǒng)的計算機科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索

引結(jié)構(gòu),從而有效地組織和檢索信息。數(shù)據(jù)挖掘的任務(wù)可分為兩大類:預(yù)測任務(wù)

和描述任務(wù)。主要任務(wù)有四種:聚類分析,關(guān)聯(lián)分析,異常檢測,和預(yù)測建模。

其目的是根據(jù)其它屬性的值,預(yù)測特定屬性的值,或者導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的

模式,主要是預(yù)測某些信息。而根據(jù)性別劃分公司的顧客,只是一種簡單的數(shù)

據(jù)庫查詢操作,并沒有涉及預(yù)測分析。

(b)根據(jù)可嬴利性劃分公司的顧客。

不是。根據(jù)可贏利性劃分公司的顧客是使用閾值進(jìn)行的一種統(tǒng)計計算。它僅僅是根

據(jù)消費結(jié)果統(tǒng)計將原有顧客進(jìn)行劃分,只是一種統(tǒng)計的結(jié)果,而沒有根據(jù)這些結(jié)果

的特點預(yù)測一個新的顧客的贏利性,這種預(yù)測才是數(shù)據(jù)挖掘。

(c)預(yù)測投一對骰子的結(jié)果。

不是。因為骰子的六個數(shù)值浮現(xiàn)的可能性是相同的,這是一種概率計算,如果結(jié)果

浮現(xiàn)的可能性是不確定的,不相同的,則更像是數(shù)據(jù)挖掘的任務(wù),但在很早以前利

用數(shù)學(xué)已經(jīng)能夠很好的解決這個問題了。所以預(yù)測投一對骰了?的結(jié)果不屬于數(shù)據(jù)挖

掘的任務(wù),不帶有發(fā)現(xiàn)新信息的預(yù)測特點。

(d)使用歷史記錄預(yù)測某公司未來的股票價格。

這是數(shù)據(jù)挖掘的任務(wù)??梢酝ㄟ^對歷史記錄特點的分析來創(chuàng)建一種模型預(yù)測未來的

公司的股票價格,這是數(shù)據(jù)挖掘任務(wù)中預(yù)測建模的一個例子,預(yù)測建模涉及以說明

變量函數(shù)的方式為目標(biāo)變量建立模型,有兩類預(yù)測建模任務(wù):分類,用于預(yù)測離散

的目標(biāo)變量;PI月,用于預(yù)測連續(xù)的目標(biāo)變量dmj預(yù)測某公司未來的股票價格則

是回歸任務(wù),因為價格具有連續(xù)值屬性。

2.(10分)列舉3種數(shù)據(jù)挖掘功能,對每種舉2個實際應(yīng)用的例子。

(1)支持商務(wù)智能應(yīng)用。借助POS(銷售點)數(shù)據(jù)采集技術(shù),零售商可以在其商店

的收銀臺采集顧客購物的最新數(shù)據(jù)。零售商可以利用這些信息,加之電子商務(wù)網(wǎng)站的H

志、電購中心的顧客服務(wù)記錄等其他的重要商務(wù)數(shù)據(jù),更好地理解顧客的需求,做出明

智的商務(wù)決策。數(shù)據(jù)挖掘技術(shù)可以用來支持廣泛的商務(wù)智能應(yīng)用,如顧客分析、定向營

銷、工作流管理、商店分布和欺詐檢測等。商店可以根據(jù)顧客的購物習(xí)慣來安排端口的

擺放位置,這是日常生活中數(shù)據(jù)挖掘最常見的一種應(yīng)用。數(shù)據(jù)挖掘還能匡助零售商問答

一些重要的商務(wù)問題,如“誰是最有價值的顧客?”“什么產(chǎn)品可以交叉銷售或者提升

銷售?”“公司明年的收入前景如何?”這些是數(shù)據(jù)挖掘任務(wù)中的關(guān)聯(lián)分析通過商

品銷售情況,來分析購買商品的顧客特點,根據(jù)這些特點重要發(fā)掘最可能的消費者,

這是關(guān)聯(lián)分析在口常生活中的一種應(yīng)用。

精品文檔

(2)在醫(yī)學(xué)、科學(xué)與工程中的應(yīng)用。醫(yī)學(xué)、科學(xué)與工程技術(shù)界的研究者正在快速積累大量

數(shù)據(jù),這些數(shù)據(jù)對獲得有價值的新發(fā)現(xiàn)至關(guān)重要。例如,為了更深入地理解地球的氣候系統(tǒng),

NASA已經(jīng)部署了一系列的地球軌道衛(wèi)星,不停地采集地表、海洋和大氣的全球觀測數(shù)據(jù)。

然而,由于這些數(shù)據(jù)的規(guī)模和時空特性,傳統(tǒng)的方法往往不適合分析這些數(shù)據(jù)集。數(shù)據(jù)挖掘

開辟的技術(shù)可以匡助地球科學(xué)家回答如下問題:“干旱和颶風(fēng)等生態(tài)系統(tǒng)擾動的頻度和強度

與全球變暖之間有何聯(lián)系?”“海洋表面溫度對地表降水量和溫度有何影響?”“如何準(zhǔn)確地

預(yù)測一個地區(qū)的生長季節(jié)的開始和結(jié)束?”。我國神舟七號載人航天飛船的發(fā)射也是數(shù)據(jù)挖

掘的一個應(yīng)用,傳統(tǒng)的技術(shù)通常不能處理太大量數(shù)據(jù),而利用數(shù)據(jù)挖掘技術(shù)可以將衛(wèi)星采集

到的太空中的大量數(shù)據(jù)信息進(jìn)行分析,這樣才干保證飛船在太空中的順利航行。

3.(10分)比較急切分類(如,判定樹、貝葉斯、神經(jīng)網(wǎng)絡(luò))相對于懶散分類(如,k-

最臨近、基于案例的推理)的優(yōu)缺點。

決策樹歸納的特點:(1)決策樹歸納是一種構(gòu)建分類模型的非參數(shù)方法,它不要求

任何先驗假設(shè),不假定類和其他屬性服從一定的概念分布。(2)找到最佳的決策樹是

NP徹底問題,可以采用一種貪心的、自頂向卜的遞歸劃分策略建立決策樹。(3)已構(gòu)

臺構(gòu)建決策樹技術(shù)不需要昂貴的計算代價,決策邊界是直線(平面)。(4)決策樹算

法對于噪聲的干擾具有相當(dāng)好的魯棒性,采用避免過分?jǐn)M合的方法之后特別如此。(5)

冗余屬性不會對決策樹的準(zhǔn)確率造成不利的影響。論)決策樹方法會存在數(shù)據(jù)碎片問

題。(7)子樹可能在決策樹中重復(fù)多次。(8)當(dāng)決策樹很小時,訓(xùn)練和檢驗誤差都很

大,稱為模型擬合不足;當(dāng)規(guī)模變得太大時,即使訓(xùn)練誤差還在繼續(xù)降低,但是檢驗誤

差開始增大,稱為模型過分?jǐn)M合。

貝葉斯網(wǎng)絡(luò)(BBN)的特點:(1)BNN提供了?種用圖形模型來捕獲特定領(lǐng)域的先驗

知識的方法,網(wǎng)絡(luò)還可以用來對變量間的因果依賴關(guān)系進(jìn)行編碼。(2)構(gòu)造網(wǎng)格可能

既費時又費力,但一且網(wǎng)格結(jié)構(gòu)確定下來,添加新變量就十分容易。(3)貝葉斯網(wǎng)絡(luò)

很適合處理不完整的數(shù)據(jù)。(4)因為數(shù)據(jù)和先驗知識以概率方式結(jié)合起來了,所以該

方法對模型的過分?jǐn)M合問題是非常魯棒的。

人工神經(jīng)網(wǎng)絡(luò)(ANN)的特點:(1)至少含有一個隱敏層的多層神經(jīng)網(wǎng)絡(luò)是一種普適

近似。(2)ANN可以處理冗余特征,對訓(xùn)練數(shù)據(jù)中的噪聲非常敏感。(3)ANN權(quán)值

學(xué)習(xí)使用的梯度下降方法時常會收斂到局部極小值。訓(xùn)練ANN是一個很耗時的過程,

而測試樣例分類時非???。

基于密度的聚類(DBSCAN)優(yōu)缺點:(1)它是相對抗噪聲的,并且能夠處理任意形

狀和大小的簇。當(dāng)近鄰計算需要計算所有的點對鄰近度時,DBSCAN的開消可能役大。

K均值的優(yōu)缺點:K均值并不適合所有的數(shù)據(jù)類型。它不能處理非球形簇、不同尺寸和

不同密度的簇,盡管指定足夠大的簇個數(shù)時它通??梢园l(fā)現(xiàn)純子簇。

通過以上急切分類和懶散分類各種方法的特點對照可知,急切分類僅僅對于某些類型的

數(shù)據(jù)進(jìn)入分類,而懶散分類則對于不同大小和不同類型的數(shù)據(jù)都可以進(jìn)行處理。急切分

類對噪聲較敏感而懶散分類而不是,急切分類方法較為簡單,花費的時間和空間代價都

較懶散分類少。

4.(10分)假定你作為一個數(shù)據(jù)分析人員,受雇于一家挪移通訊公司。通過一個例子說明

打算如何使用數(shù)據(jù)挖掘技術(shù)為公司提供匡助。你的例子應(yīng)包含問題描述,使用何種數(shù)據(jù)

挖掘方法解決該問題,理由和預(yù)期效果(不需要定量分析)。

例子如下:首先,挪移通信公司數(shù)據(jù)分析人員的主要工作是采集挪移通信用戶使用

通信的方式,業(yè)務(wù)流量,并且采集用戶的類型來分析各種用戶使用信息的主要方式

精品文檔

精品文檔

及銷售情況,以此可以出臺更加適合不同用戶需求的業(yè)務(wù)套餐類型。使用數(shù)據(jù)挖掘

中的聚類分析方法可以以一種較相似的主題來對結(jié)果進(jìn)行分類,并且以一種更為簡

潔的方式呈現(xiàn)給用戶,例如:報告聚類中最頻繁浮現(xiàn)的10個詞語,來采集最多使用

各種類型業(yè)務(wù)的用戶特點。可以按照預(yù)先定義的分類,例如漫游類,本地外地類等

等用戶使用通信的方法來進(jìn)行分類。利用數(shù)據(jù)挖掘中順序關(guān)聯(lián)分析可以檢測出某些

按照?定的高概率來杳詢到其他分類,并且允許更為高效的緩存,通過這種方法,

可以得出具有相互關(guān)聯(lián)的用戶使用通信方式和業(yè)務(wù)套餐的關(guān)系,進(jìn)而通過查詢一種

類型推導(dǎo)出其他相關(guān)類型的分類用戶特點。通過異常檢測技術(shù)可以發(fā)現(xiàn)不尋常的用

戶通信方式,例如一個新方式的更加流行??偟膩碚f,通過數(shù)據(jù)挖掘的聚類分析可

以將通信用戶進(jìn)行分類,然后發(fā)掘出各種類型用戶使用通信的需求和最普通具用的

特點,通過對以往歷史信息業(yè)務(wù)的分析,聚類,可能會發(fā)現(xiàn)新的需求,最后所用的

廣告策略就可以根據(jù)這些發(fā)掘出來的新特性采取相應(yīng)的調(diào)整策略以滿足大多數(shù)用戶

的需求,吸引更多的潛在客戶,出臺符合這些用戶需求的業(yè)務(wù)產(chǎn)品類型,進(jìn)而使公

司擁有更多的客戶,有更大的發(fā)展前景。

5.(10分)假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下的八個點(用(x,y)代表位置)聚類為三個類。

A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)

距離函數(shù)是Euclidean(歐幾里得)函數(shù)。假設(shè)初始我們選擇A1,B1,和C1為每一個簇的中心,

用k-means算法來給出

(a)在第一次循環(huán)執(zhí)行后的三個簇中心

(b)最后的三個簇

K均值算法的過程為:1:選擇K個點作為初始質(zhì)點。

2:repeat

3:每一個點指派到最近的質(zhì)心,形成K個簇。

4.重新計算每一個簇的質(zhì)心、

5.until質(zhì)心不發(fā)生變化。

A1,B1,C作為初始質(zhì)點,距離函數(shù)是Euclidean函數(shù),指派點到最近的質(zhì)心,方法

為計算其他點到質(zhì)點的歐幾里得距離。計算距離如下:A1-A2:dist=(2-2)2+(5-10)2=25;

A1-A3:dist=(8-2)2+(4-10)2=72;A1-B2:dist=(7-2)2+(5-10)2=50;A1-B3:dist=(6-2)2+(4-10)2=52;

A1-C2:dist=(4-2)2+(9-10)2=5;B1-A2:dist=(2-5)2+(5-8)2=18;B1-A3:dist=(8-5)2+(4-8)2=25;

B1-B2:dist=(7-5)2+(5-8)2=13B1-B3:dist=(6-5)2+(4-8)2=17

B1-C2:dist=(4-5)2+(9-8)2=2C1-A2:dist=(2-1)2+(5-2)2=10C1-A3:dist=(8-1)2+(4-2)2=53

C1-B2:dist=(7-1)2+(5-2)2=45C1-B3:dist=(6-1)2+(4-2)2=29C1-C2:dist=(4-1)4(9?2)2=58

其他五個結(jié)點選擇與其最近的質(zhì)心,三個簇分別為:{B1,C25B3,B2,A3}{C1,A2}{A1}

計算這三個簇的質(zhì)心:{B1,C2,B3,B2,A3}的質(zhì)心為:((8+5+7+6+4)/5,(4+8+5+4+9)/5)即(6,

6);{C1,A2)的質(zhì)心為:((2+1)/2,(5+2)⑵即為(1.5,3.5);{A1}的質(zhì)心為(2,10)。

(a)在第一次循環(huán)執(zhí)行后的三個簇中心分別為(6,6),(1.5,3.5),(2,10)

重新指派各個對象到離其最近的質(zhì)心,與上面方面相同,形成的三個簇為{A3,B1,B2,B3},

{C1,A2},{A1,C2}三個簇的質(zhì)心分別為(6.5,5.25),(1.5,3.5),(3,9.5);重新指

派各個對象到離其最近的質(zhì)心,形成的三個簇為:{A3.B2.B3}{C1,A2}{A1,B1,C2}

三個簇的質(zhì)心分別為:(7,4.3),(1.5,3.5),(3.67,9):重新指派各個對象到離其最近

的質(zhì)心,形成的三個簇為:{A3,B2,B3}{C1,A2}{A1,B1,C2}三個簇的質(zhì)心分別為:(7,

4.3),(1.5,3.5),(3.67,9);至此質(zhì)心不發(fā)生變化;

(b)最后三個簇即為{A3,B2,B3}{C1,A2}{A1,B1,C2};

精品文檔

精品文檔

salessenior31...3546K...50K30

salesjunior26...3026K...30K40

salesjunior31...3531K...35K40

systemsjunior21...2546K...50K20

systemssenior31...3566K...70K5

systemsjunior26…3046K...50K3

systemssenior41…4566K...70K3

marketingsenior36...4046K...50K10

marketingjunior31...3541K...45K4

secretarysenior46...5036K...40K4

secretaryjunior26...3026K...30K6

設(shè)status是類標(biāo)號屬性。

(a)你將如何修改基本決策樹算法,以便考慮每一個廣義數(shù)據(jù)元組(即,每一行)的

count?

基本的決策樹算法應(yīng)作如下修改,以考慮到每一人廣義數(shù)據(jù)元組(嘰每一行)的

count:每一個元組的count必須綜合考慮屬性的選擇測量計算(假如信息

獲?。?/p>

1.分析:類標(biāo)號屬性stare有兩個不同值(即{seaor.junior}),因此有兩個不同的類(即m=2)?設(shè)

類C]對應(yīng)Fsenior,而類C2對應(yīng)J'junior?類senior有30+5+3+10+4=52個元組,類junior有

4070+283+4+6=113個元組.共有165個數(shù)據(jù)元組.

2.使用lnfo(D)=-E%PJog2P「計算對D中元組分類所需的期望f

5252113113/5252113113\

Info(D)=一赤總示一市1/2笳=(一運】/說一南儂石上心2=0.899

3.分別計算屬性department,age和salary的期望信息需求

1)department

departmentsales110senior30

junior80

systems31senior8

junior23

marketing11senior10

junior4

secretary10senior4

junior6

InfOdep(D)

110/30308080\31/8823

liiCTl^l0g2T^-前磔2五力運(一式電£一k°g

14(101044\10/4466\

+病卜石儂2石一石32運)+姿卜云】°g2正一石爪石)

=0.5636+0.1548+0.0732+0.0588

=0.850位

Gain(dep)=Info(D)-InfodeD(D)=0.899-0.850=0.049位

精品文檔

精品文檔

2)age

age31-3579senior35

junior44

26-30-19senior0

junior49

21-2520senior0

junior20

41-453senior3

junior0

36-4010senior10

junior0

46-504senior4

junior0

Infoage(D)

79(35354444\49/004949\

=赤卜對0g2元一"1"2%+南卜布1密布一而)

20/002020\3/3300\

+瘋-五32茄一茄】。g旬+石(二%-獷2寸

10/101000\4/4400\

+病卜?麻2茄一茄1”2#+石卜臚g2丁丁。g2?

=0.4743+0+0+0+0+0

=0.474

Gain(age)=Info(D)-Infoage(D)=0.899-0.474=0.425位

3)salary

salary46k-50k63senior40

junior23

26k-30k46senior0

junior46

31k-35k40senior0

junior40

66k-70k8senior8

junior0

41k-45k4senior0

junior4

36k-40k4senior4

junior0

精品文檔

精品文檔

Infosa](D)

6340402323\46004646\

l^r?log2^-?log2637+165一而l°g2^―蔡1喻行)

40/0040

+示L行儂2行一石儂2

4/0044\4/4400

+建卜丁"21尸市卜丁,2廠丁織了

=0.3615+0+0+0+0+0

=0.362

Gain(age)=Info(D)-Infoage(D)=0.899-0.362=0.537位

考慮count來決定元組中最普遍的分類。

(b)

(c)使用你修改過的算法,構(gòu)造給定數(shù)據(jù)的決策樹。

4.由J:salary在屬性中具有最高信息增益,因此被選作分裂屬性.節(jié)點N用salary標(biāo)記,并對「每

個屬性值生長出一個分支,然后元組據(jù)此劃分,如圖所示.

departmentagesalarystatus

sales31-3546k-50ksenior

systems21-2546k-50kJunior

svstems26-3046k-50kjunior

marketing36-4046k-50ksenior.

精品文檔

精品文檔

Tlicresultinstreeis:

(salary26K...30K:

junior

一31K..35K:

junior

-36K...40K:

Ntuiior

二11K...45K:

juniur

46K…50K(departfi)en(secretary:

junior

=sales:

senior

=systems:

junior

—marketing:

senior)

-66K70K:

senior)

(d)給定一個數(shù)據(jù)元組,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論