2022年數(shù)據(jù)挖掘與數(shù)據(jù)倉庫考試題

上傳人：緣*** IP屬地：河北上傳時間：2026-01-14 格式：PDF 頁數(shù)：8 大?。?.86MB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩3頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

精品文檔

2022年數(shù)據(jù)挖掘與數(shù)據(jù)倉庫考試題

1.(10分)討論:：下列每項活動是否是數(shù)據(jù)挖掘任務(wù)?簡單陳述你的理由。

(a)根據(jù)性別劃分公司的顧客。

不是。數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲庫中，自動地發(fā)現(xiàn)實用信息的過程。數(shù)據(jù)挖掘技

術(shù)服務(wù)用來探查大型數(shù)據(jù)庫，發(fā)現(xiàn)先前未知的實用模式。還可以預(yù)測未來觀測結(jié)果，

例如，預(yù)測一位新的顧客是否會在一家百貨公司消責(zé)100美元以上。但并非所有的

信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘，數(shù)據(jù)挖掘與信息檢索不同，使用數(shù)據(jù)庫管理系統(tǒng)

查找個別的記錄，或者通過因特網(wǎng)的搜索引擎直找特定的Web頁面，則是信息檢

索領(lǐng)城的任務(wù)，它們主要依賴傳統(tǒng)的計算機科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索

引結(jié)構(gòu)，從而有效地組織和檢索信息。數(shù)據(jù)挖掘的任務(wù)可分為兩大類：預(yù)測任務(wù)

和描述任務(wù)。主要任務(wù)有四種：聚類分析，關(guān)聯(lián)分析，異常檢測，和預(yù)測建模。

其目的是根據(jù)其它屬性的值，預(yù)測特定屬性的值，或者導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的

模式，主要是預(yù)測某些信息。而根據(jù)性別劃分公司的顧客，只是一種簡單的數(shù)

據(jù)庫查詢操作，并沒有涉及預(yù)測分析。

(b)根據(jù)可嬴利性劃分公司的顧客。

不是。根據(jù)可贏利性劃分公司的顧客是使用閾值進(jìn)行的一種統(tǒng)計計算。它僅僅是根

據(jù)消費結(jié)果統(tǒng)計將原有顧客進(jìn)行劃分，只是一種統(tǒng)計的結(jié)果，而沒有根據(jù)這些結(jié)果

的特點預(yù)測一個新的顧客的贏利性，這種預(yù)測才是數(shù)據(jù)挖掘。

(c)預(yù)測投一對骰子的結(jié)果。

不是。因為骰子的六個數(shù)值浮現(xiàn)的可能性是相同的，這是一種概率計算，如果結(jié)果

浮現(xiàn)的可能性是不確定的，不相同的，則更像是數(shù)據(jù)挖掘的任務(wù)，但在很早以前利

用數(shù)學(xué)已經(jīng)能夠很好的解決這個問題了。所以預(yù)測投一對骰了?的結(jié)果不屬于數(shù)據(jù)挖

掘的任務(wù)，不帶有發(fā)現(xiàn)新信息的預(yù)測特點。

(d)使用歷史記錄預(yù)測某公司未來的股票價格。

這是數(shù)據(jù)挖掘的任務(wù)?？梢酝ㄟ^對歷史記錄特點的分析來創(chuàng)建一種模型預(yù)測未來的

公司的股票價格，這是數(shù)據(jù)挖掘任務(wù)中預(yù)測建模的一個例子，預(yù)測建模涉及以說明

變量函數(shù)的方式為目標(biāo)變量建立模型，有兩類預(yù)測建模任務(wù)：分類，用于預(yù)測離散

的目標(biāo)變量；PI月，用于預(yù)測連續(xù)的目標(biāo)變量dmj預(yù)測某公司未來的股票價格則

是回歸任務(wù)，因為價格具有連續(xù)值屬性。

2.(10分)列舉3種數(shù)據(jù)挖掘功能，對每種舉2個實際應(yīng)用的例子。

(1)支持商務(wù)智能應(yīng)用。借助POS(銷售點)數(shù)據(jù)采集技術(shù)，零售商可以在其商店

的收銀臺采集顧客購物的最新數(shù)據(jù)。零售商可以利用這些信息，加之電子商務(wù)網(wǎng)站的H

志、電購中心的顧客服務(wù)記錄等其他的重要商務(wù)數(shù)據(jù)，更好地理解顧客的需求，做出明

智的商務(wù)決策。數(shù)據(jù)挖掘技術(shù)可以用來支持廣泛的商務(wù)智能應(yīng)用，如顧客分析、定向營

銷、工作流管理、商店分布和欺詐檢測等。商店可以根據(jù)顧客的購物習(xí)慣來安排端口的

擺放位置，這是日常生活中數(shù)據(jù)挖掘最常見的一種應(yīng)用。數(shù)據(jù)挖掘還能匡助零售商問答

一些重要的商務(wù)問題，如“誰是最有價值的顧客？”“什么產(chǎn)品可以交叉銷售或者提升

銷售？”“公司明年的收入前景如何？”這些是數(shù)據(jù)挖掘任務(wù)中的關(guān)聯(lián)分析通過商

品銷售情況，來分析購買商品的顧客特點，根據(jù)這些特點重要發(fā)掘最可能的消費者，

這是關(guān)聯(lián)分析在口常生活中的一種應(yīng)用。

精品文檔

（2）在醫(yī)學(xué)、科學(xué)與工程中的應(yīng)用。醫(yī)學(xué)、科學(xué)與工程技術(shù)界的研究者正在快速積累大量

數(shù)據(jù)，這些數(shù)據(jù)對獲得有價值的新發(fā)現(xiàn)至關(guān)重要。例如，為了更深入地理解地球的氣候系統(tǒng)，

NASA已經(jīng)部署了一系列的地球軌道衛(wèi)星，不停地采集地表、海洋和大氣的全球觀測數(shù)據(jù)。

然而，由于這些數(shù)據(jù)的規(guī)模和時空特性，傳統(tǒng)的方法往往不適合分析這些數(shù)據(jù)集。數(shù)據(jù)挖掘

開辟的技術(shù)可以匡助地球科學(xué)家回答如下問題：“干旱和颶風(fēng)等生態(tài)系統(tǒng)擾動的頻度和強度

與全球變暖之間有何聯(lián)系？”“海洋表面溫度對地表降水量和溫度有何影響？”“如何準(zhǔn)確地

預(yù)測一個地區(qū)的生長季節(jié)的開始和結(jié)束？”。我國神舟七號載人航天飛船的發(fā)射也是數(shù)據(jù)挖

掘的一個應(yīng)用，傳統(tǒng)的技術(shù)通常不能處理太大量數(shù)據(jù)，而利用數(shù)據(jù)挖掘技術(shù)可以將衛(wèi)星采集

到的太空中的大量數(shù)據(jù)信息進(jìn)行分析，這樣才干保證飛船在太空中的順利航行。

3.（10分）比較急切分類（如，判定樹、貝葉斯、神經(jīng)網(wǎng)絡(luò)）相對于懶散分類（如，k-

最臨近、基于案例的推理）的優(yōu)缺點。

決策樹歸納的特點：（1）決策樹歸納是一種構(gòu)建分類模型的非參數(shù)方法，它不要求

任何先驗假設(shè)，不假定類和其他屬性服從一定的概念分布。（2）找到最佳的決策樹是

NP徹底問題，可以采用一種貪心的、自頂向卜的遞歸劃分策略建立決策樹。（3）已構(gòu)

臺構(gòu)建決策樹技術(shù)不需要昂貴的計算代價，決策邊界是直線（平面）。（4）決策樹算

法對于噪聲的干擾具有相當(dāng)好的魯棒性，采用避免過分?jǐn)M合的方法之后特別如此。（5）

冗余屬性不會對決策樹的準(zhǔn)確率造成不利的影響。論）決策樹方法會存在數(shù)據(jù)碎片問

題。（7）子樹可能在決策樹中重復(fù)多次。（8）當(dāng)決策樹很小時，訓(xùn)練和檢驗誤差都很

大，稱為模型擬合不足；當(dāng)規(guī)模變得太大時，即使訓(xùn)練誤差還在繼續(xù)降低，但是檢驗誤

差開始增大，稱為模型過分?jǐn)M合。

貝葉斯網(wǎng)絡(luò)（BBN）的特點：（1）BNN提供了?種用圖形模型來捕獲特定領(lǐng)域的先驗

知識的方法，網(wǎng)絡(luò)還可以用來對變量間的因果依賴關(guān)系進(jìn)行編碼。（2）構(gòu)造網(wǎng)格可能

既費時又費力，但一且網(wǎng)格結(jié)構(gòu)確定下來，添加新變量就十分容易。（3）貝葉斯網(wǎng)絡(luò)

很適合處理不完整的數(shù)據(jù)。（4）因為數(shù)據(jù)和先驗知識以概率方式結(jié)合起來了，所以該

方法對模型的過分?jǐn)M合問題是非常魯棒的。

人工神經(jīng)網(wǎng)絡(luò)（ANN）的特點：（1）至少含有一個隱敏層的多層神經(jīng)網(wǎng)絡(luò)是一種普適

近似。（2）ANN可以處理冗余特征，對訓(xùn)練數(shù)據(jù)中的噪聲非常敏感。（3）ANN權(quán)值

學(xué)習(xí)使用的梯度下降方法時常會收斂到局部極小值。訓(xùn)練ANN是一個很耗時的過程，

而測試樣例分類時非?？?。

基于密度的聚類（DBSCAN）優(yōu)缺點：（1）它是相對抗噪聲的，并且能夠處理任意形

狀和大小的簇。當(dāng)近鄰計算需要計算所有的點對鄰近度時，DBSCAN的開消可能役大。

K均值的優(yōu)缺點：K均值并不適合所有的數(shù)據(jù)類型。它不能處理非球形簇、不同尺寸和

不同密度的簇，盡管指定足夠大的簇個數(shù)時它通?？梢园l(fā)現(xiàn)純子簇。

通過以上急切分類和懶散分類各種方法的特點對照可知，急切分類僅僅對于某些類型的

數(shù)據(jù)進(jìn)入分類，而懶散分類則對于不同大小和不同類型的數(shù)據(jù)都可以進(jìn)行處理。急切分

類對噪聲較敏感而懶散分類而不是，急切分類方法較為簡單，花費的時間和空間代價都

較懶散分類少。

4.（10分）假定你作為一個數(shù)據(jù)分析人員，受雇于一家挪移通訊公司。通過一個例子說明

打算如何使用數(shù)據(jù)挖掘技術(shù)為公司提供匡助。你的例子應(yīng)包含問題描述，使用何種數(shù)據(jù)

挖掘方法解決該問題，理由和預(yù)期效果（不需要定量分析）。

例子如下：首先，挪移通信公司數(shù)據(jù)分析人員的主要工作是采集挪移通信用戶使用

通信的方式，業(yè)務(wù)流量，并且采集用戶的類型來分析各種用戶使用信息的主要方式

精品文檔

及銷售情況，以此可以出臺更加適合不同用戶需求的業(yè)務(wù)套餐類型。使用數(shù)據(jù)挖掘

中的聚類分析方法可以以一種較相似的主題來對結(jié)果進(jìn)行分類，并且以一種更為簡

潔的方式呈現(xiàn)給用戶，例如：報告聚類中最頻繁浮現(xiàn)的10個詞語，來采集最多使用

各種類型業(yè)務(wù)的用戶特點。可以按照預(yù)先定義的分類，例如漫游類，本地外地類等

等用戶使用通信的方法來進(jìn)行分類。利用數(shù)據(jù)挖掘中順序關(guān)聯(lián)分析可以檢測出某些

按照?定的高概率來杳詢到其他分類，并且允許更為高效的緩存，通過這種方法，

可以得出具有相互關(guān)聯(lián)的用戶使用通信方式和業(yè)務(wù)套餐的關(guān)系，進(jìn)而通過查詢一種

類型推導(dǎo)出其他相關(guān)類型的分類用戶特點。通過異常檢測技術(shù)可以發(fā)現(xiàn)不尋常的用

戶通信方式，例如一個新方式的更加流行?？偟膩碚f，通過數(shù)據(jù)挖掘的聚類分析可

以將通信用戶進(jìn)行分類，然后發(fā)掘出各種類型用戶使用通信的需求和最普通具用的

特點，通過對以往歷史信息業(yè)務(wù)的分析，聚類，可能會發(fā)現(xiàn)新的需求，最后所用的

廣告策略就可以根據(jù)這些發(fā)掘出來的新特性采取相應(yīng)的調(diào)整策略以滿足大多數(shù)用戶

的需求，吸引更多的潛在客戶，出臺符合這些用戶需求的業(yè)務(wù)產(chǎn)品類型，進(jìn)而使公

司擁有更多的客戶，有更大的發(fā)展前景。

5.(10分)假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下的八個點(用(x,y)代表位置)聚類為三個類。

A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)

距離函數(shù)是Euclidean(歐幾里得)函數(shù)。假設(shè)初始我們選擇A1,B1,和C1為每一個簇的中心,

用k-means算法來給出

(a)在第一次循環(huán)執(zhí)行后的三個簇中心

(b)最后的三個簇

K均值算法的過程為：1:選擇K個點作為初始質(zhì)點。

2：repeat

3:每一個點指派到最近的質(zhì)心，形成K個簇。

4.重新計算每一個簇的質(zhì)心、

5.until質(zhì)心不發(fā)生變化。

A1,B1,C作為初始質(zhì)點，距離函數(shù)是Euclidean函數(shù)，指派點到最近的質(zhì)心，方法

為計算其他點到質(zhì)點的歐幾里得距離。計算距離如下：A1-A2：dist=(2-2)2+(5-10)2=25;

A1-A3:dist=(8-2)2+(4-10)2=72;A1-B2:dist=(7-2)2+(5-10)2=50；A1-B3:dist=(6-2)2+(4-10)2=52;

A1-C2:dist=(4-2)2+(9-10)2=5;B1-A2:dist=(2-5)2+(5-8)2=18;B1-A3:dist=(8-5)2+(4-8)2=25;

B1-B2:dist=(7-5)2+(5-8)2=13B1-B3:dist=(6-5)2+(4-8)2=17

B1-C2:dist=(4-5)2+(9-8)2=2C1-A2:dist=(2-1)2+(5-2)2=10C1-A3:dist=(8-1)2+(4-2)2=53

C1-B2:dist=(7-1)2+(5-2)2=45C1-B3:dist=(6-1)2+(4-2)2=29C1-C2:dist=(4-1)4(9?2)2=58

其他五個結(jié)點選擇與其最近的質(zhì)心，三個簇分別為：{B1,C25B3,B2,A3}{C1,A2}{A1}

計算這三個簇的質(zhì)心：{B1,C2,B3,B2,A3}的質(zhì)心為：((8+5+7+6+4)/5,(4+8+5+4+9)/5)即(6,

6)；{C1,A2)的質(zhì)心為：((2+1)/2,(5+2)⑵即為(1.5,3.5)；{A1}的質(zhì)心為(2,10)。

(a)在第一次循環(huán)執(zhí)行后的三個簇中心分別為(6,6),(1.5,3.5),(2,10)

重新指派各個對象到離其最近的質(zhì)心，與上面方面相同，形成的三個簇為{A3,B1,B2,B3},

{C1,A2},{A1,C2}三個簇的質(zhì)心分別為(6.5,5.25),(1.5,3.5),(3,9.5)；重新指

派各個對象到離其最近的質(zhì)心，形成的三個簇為：{A3.B2.B3}{C1,A2}{A1,B1,C2}

三個簇的質(zhì)心分別為：(7,4.3),(1.5,3.5),(3.67,9)：重新指派各個對象到離其最近

的質(zhì)心，形成的三個簇為：{A3,B2,B3}{C1,A2}{A1,B1,C2}三個簇的質(zhì)心分別為：(7,

4.3),(1.5,3.5),(3.67,9)；至此質(zhì)心不發(fā)生變化;

(b)最后三個簇即為{A3,B2,B3}{C1,A2}{A1,B1,C2};

精品文檔

salessenior31...3546K...50K30

salesjunior26...3026K...30K40

salesjunior31...3531K...35K40

systemsjunior21...2546K...50K20

systemssenior31...3566K...70K5

systemsjunior26…3046K...50K3

systemssenior41…4566K...70K3

marketingsenior36...4046K...50K10

marketingjunior31...3541K...45K4

secretarysenior46...5036K...40K4

secretaryjunior26...3026K...30K6

設(shè)status是類標(biāo)號屬性。

（a）你將如何修改基本決策樹算法，以便考慮每一個廣義數(shù)據(jù)元組（即，每一行）的

count?

基本的決策樹算法應(yīng)作如下修改，以考慮到每一人廣義數(shù)據(jù)元組（嘰每一行）的

count:每一個元組的count必須綜合考慮屬性的選擇測量計算（假如信息

獲?。?/p>

1.分析：類標(biāo)號屬性stare有兩個不同值（即｛seaor.junior｝）,因此有兩個不同的類（即m=2）?設(shè)

類C］對應(yīng)Fsenior,而類C2對應(yīng)J'junior?類senior有30+5+3+10+4=52個元組，類junior有

4070+283+4+6=113個元組.共有165個數(shù)據(jù)元組.

2.使用lnfo（D）=-E%PJog2P「計算對D中元組分類所需的期望f

5252113113/5252113113\

Info(D)=一赤總示一市1/2笳=（一運】/說一南儂石上心2=0.899

3.分別計算屬性department,age和salary的期望信息需求

1)department

departmentsales110senior30

junior80

systems31senior8

junior23

marketing11senior10

junior4

secretary10senior4

junior6

InfOdep(D)

110/30308080\31/8823

liiCTl^l0g2T^-前磔2五力運(一式電￡一k°g

14（101044\10/4466\

+病卜石儂2石一石32運）+姿卜云】°g2正一石爪石）

=0.5636+0.1548+0.0732+0.0588

=0.850位

Gain(dep)=Info(D)-InfodeD(D)=0.899-0.850=0.049位

精品文檔

2)age

age31-3579senior35

junior44

26-30-19senior0

junior49

21-2520senior0

junior20

41-453senior3

junior0

36-4010senior10

junior0

46-504senior4

junior0

Infoage(D)

79(35354444\49/004949\

=赤卜對0g2元一"1"2%+南卜布1密布一而)

20/002020\3/3300\

+瘋-五32茄一茄】。g旬+石(二%-獷2寸

10/101000\4/4400\

+病卜?麻2茄一茄1”2#+石卜臚g2丁丁。g2?

=0.4743+0+0+0+0+0

=0.474

Gain(age)=Info(D)-Infoage(D)=0.899-0.474=0.425位

3)salary

salary46k-50k63senior40

junior23

26k-30k46senior0

junior46

31k-35k40senior0

junior40

66k-70k8senior8

junior0

41k-45k4senior0

junior4

36k-40k4senior4

junior0

精品文檔

Infosa](D)

6340402323\46004646\

l^r?log2^-?log2637+165一而l°g2^―蔡1喻行)

40/0040

+示L行儂2行一石儂2

4/0044\4/4400

+建卜丁"21尸市卜丁，2廠丁織了

=0.3615+0+0+0+0+0

=0.362

Gain(age)=Info(D)-Infoage(D)=0.899-0.362=0.537位

考慮count來決定元組中最普遍的分類。

(b)

(c)使用你修改過的算法，構(gòu)造給定數(shù)據(jù)的決策樹。

4.由J：salary在屬性中具有最高信息增益，因此被選作分裂屬性.節(jié)點N用salary標(biāo)記，并對「每

個屬性值生長出一個分支,然后元組據(jù)此劃分,如圖所示.

departmentagesalarystatus

sales31-3546k-50ksenior

systems21-2546k-50kJunior

svstems26-3046k-50kjunior

marketing36-4046k-50ksenior.

精品文檔

Tlicresultinstreeis:

(salary26K...30K:

junior

一31K..35K:

junior

-36K...40K:

Ntuiior

二11K...45K：

juniur

46K…50K(departfi)en(secretary:

junior

=sales：

senior

=systems:

junior

—marketing:

senior)

-66K70K:

senior)

(d)給定一個數(shù)據(jù)元組，

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2022年數(shù)據(jù)挖掘與數(shù)據(jù)倉庫考試題

文檔簡介

溫馨提示

最新文檔

評論

2022年數(shù)據(jù)挖掘與數(shù)據(jù)倉庫考試題

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔