版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
精品文檔
2022年數(shù)據(jù)挖掘與數(shù)據(jù)倉庫考試題
1.(10分)討論::下列每項活動是否是數(shù)據(jù)挖掘任務(wù)?簡單陳述你的理由。
(a)根據(jù)性別劃分公司的顧客。
不是。數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲庫中,自動地發(fā)現(xiàn)實用信息的過程。數(shù)據(jù)挖掘技
術(shù)服務(wù)用來探查大型數(shù)據(jù)庫,發(fā)現(xiàn)先前未知的實用模式。還可以預(yù)測未來觀測結(jié)果,
例如,預(yù)測一位新的顧客是否會在一家百貨公司消責(zé)100美元以上。但并非所有的
信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘,數(shù)據(jù)挖掘與信息檢索不同,使用數(shù)據(jù)庫管理系統(tǒng)
查找個別的記錄,或者通過因特網(wǎng)的搜索引擎直找特定的Web頁面,則是信息檢
索領(lǐng)城的任務(wù),它們主要依賴傳統(tǒng)的計算機科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索
引結(jié)構(gòu),從而有效地組織和檢索信息。數(shù)據(jù)挖掘的任務(wù)可分為兩大類:預(yù)測任務(wù)
和描述任務(wù)。主要任務(wù)有四種:聚類分析,關(guān)聯(lián)分析,異常檢測,和預(yù)測建模。
其目的是根據(jù)其它屬性的值,預(yù)測特定屬性的值,或者導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的
模式,主要是預(yù)測某些信息。而根據(jù)性別劃分公司的顧客,只是一種簡單的數(shù)
據(jù)庫查詢操作,并沒有涉及預(yù)測分析。
(b)根據(jù)可嬴利性劃分公司的顧客。
不是。根據(jù)可贏利性劃分公司的顧客是使用閾值進(jìn)行的一種統(tǒng)計計算。它僅僅是根
據(jù)消費結(jié)果統(tǒng)計將原有顧客進(jìn)行劃分,只是一種統(tǒng)計的結(jié)果,而沒有根據(jù)這些結(jié)果
的特點預(yù)測一個新的顧客的贏利性,這種預(yù)測才是數(shù)據(jù)挖掘。
(c)預(yù)測投一對骰子的結(jié)果。
不是。因為骰子的六個數(shù)值浮現(xiàn)的可能性是相同的,這是一種概率計算,如果結(jié)果
浮現(xiàn)的可能性是不確定的,不相同的,則更像是數(shù)據(jù)挖掘的任務(wù),但在很早以前利
用數(shù)學(xué)已經(jīng)能夠很好的解決這個問題了。所以預(yù)測投一對骰了?的結(jié)果不屬于數(shù)據(jù)挖
掘的任務(wù),不帶有發(fā)現(xiàn)新信息的預(yù)測特點。
(d)使用歷史記錄預(yù)測某公司未來的股票價格。
這是數(shù)據(jù)挖掘的任務(wù)??梢酝ㄟ^對歷史記錄特點的分析來創(chuàng)建一種模型預(yù)測未來的
公司的股票價格,這是數(shù)據(jù)挖掘任務(wù)中預(yù)測建模的一個例子,預(yù)測建模涉及以說明
變量函數(shù)的方式為目標(biāo)變量建立模型,有兩類預(yù)測建模任務(wù):分類,用于預(yù)測離散
的目標(biāo)變量;PI月,用于預(yù)測連續(xù)的目標(biāo)變量dmj預(yù)測某公司未來的股票價格則
是回歸任務(wù),因為價格具有連續(xù)值屬性。
2.(10分)列舉3種數(shù)據(jù)挖掘功能,對每種舉2個實際應(yīng)用的例子。
(1)支持商務(wù)智能應(yīng)用。借助POS(銷售點)數(shù)據(jù)采集技術(shù),零售商可以在其商店
的收銀臺采集顧客購物的最新數(shù)據(jù)。零售商可以利用這些信息,加之電子商務(wù)網(wǎng)站的H
志、電購中心的顧客服務(wù)記錄等其他的重要商務(wù)數(shù)據(jù),更好地理解顧客的需求,做出明
智的商務(wù)決策。數(shù)據(jù)挖掘技術(shù)可以用來支持廣泛的商務(wù)智能應(yīng)用,如顧客分析、定向營
銷、工作流管理、商店分布和欺詐檢測等。商店可以根據(jù)顧客的購物習(xí)慣來安排端口的
擺放位置,這是日常生活中數(shù)據(jù)挖掘最常見的一種應(yīng)用。數(shù)據(jù)挖掘還能匡助零售商問答
一些重要的商務(wù)問題,如“誰是最有價值的顧客?”“什么產(chǎn)品可以交叉銷售或者提升
銷售?”“公司明年的收入前景如何?”這些是數(shù)據(jù)挖掘任務(wù)中的關(guān)聯(lián)分析通過商
品銷售情況,來分析購買商品的顧客特點,根據(jù)這些特點重要發(fā)掘最可能的消費者,
這是關(guān)聯(lián)分析在口常生活中的一種應(yīng)用。
精品文檔
(2)在醫(yī)學(xué)、科學(xué)與工程中的應(yīng)用。醫(yī)學(xué)、科學(xué)與工程技術(shù)界的研究者正在快速積累大量
數(shù)據(jù),這些數(shù)據(jù)對獲得有價值的新發(fā)現(xiàn)至關(guān)重要。例如,為了更深入地理解地球的氣候系統(tǒng),
NASA已經(jīng)部署了一系列的地球軌道衛(wèi)星,不停地采集地表、海洋和大氣的全球觀測數(shù)據(jù)。
然而,由于這些數(shù)據(jù)的規(guī)模和時空特性,傳統(tǒng)的方法往往不適合分析這些數(shù)據(jù)集。數(shù)據(jù)挖掘
開辟的技術(shù)可以匡助地球科學(xué)家回答如下問題:“干旱和颶風(fēng)等生態(tài)系統(tǒng)擾動的頻度和強度
與全球變暖之間有何聯(lián)系?”“海洋表面溫度對地表降水量和溫度有何影響?”“如何準(zhǔn)確地
預(yù)測一個地區(qū)的生長季節(jié)的開始和結(jié)束?”。我國神舟七號載人航天飛船的發(fā)射也是數(shù)據(jù)挖
掘的一個應(yīng)用,傳統(tǒng)的技術(shù)通常不能處理太大量數(shù)據(jù),而利用數(shù)據(jù)挖掘技術(shù)可以將衛(wèi)星采集
到的太空中的大量數(shù)據(jù)信息進(jìn)行分析,這樣才干保證飛船在太空中的順利航行。
3.(10分)比較急切分類(如,判定樹、貝葉斯、神經(jīng)網(wǎng)絡(luò))相對于懶散分類(如,k-
最臨近、基于案例的推理)的優(yōu)缺點。
決策樹歸納的特點:(1)決策樹歸納是一種構(gòu)建分類模型的非參數(shù)方法,它不要求
任何先驗假設(shè),不假定類和其他屬性服從一定的概念分布。(2)找到最佳的決策樹是
NP徹底問題,可以采用一種貪心的、自頂向卜的遞歸劃分策略建立決策樹。(3)已構(gòu)
臺構(gòu)建決策樹技術(shù)不需要昂貴的計算代價,決策邊界是直線(平面)。(4)決策樹算
法對于噪聲的干擾具有相當(dāng)好的魯棒性,采用避免過分?jǐn)M合的方法之后特別如此。(5)
冗余屬性不會對決策樹的準(zhǔn)確率造成不利的影響。論)決策樹方法會存在數(shù)據(jù)碎片問
題。(7)子樹可能在決策樹中重復(fù)多次。(8)當(dāng)決策樹很小時,訓(xùn)練和檢驗誤差都很
大,稱為模型擬合不足;當(dāng)規(guī)模變得太大時,即使訓(xùn)練誤差還在繼續(xù)降低,但是檢驗誤
差開始增大,稱為模型過分?jǐn)M合。
貝葉斯網(wǎng)絡(luò)(BBN)的特點:(1)BNN提供了?種用圖形模型來捕獲特定領(lǐng)域的先驗
知識的方法,網(wǎng)絡(luò)還可以用來對變量間的因果依賴關(guān)系進(jìn)行編碼。(2)構(gòu)造網(wǎng)格可能
既費時又費力,但一且網(wǎng)格結(jié)構(gòu)確定下來,添加新變量就十分容易。(3)貝葉斯網(wǎng)絡(luò)
很適合處理不完整的數(shù)據(jù)。(4)因為數(shù)據(jù)和先驗知識以概率方式結(jié)合起來了,所以該
方法對模型的過分?jǐn)M合問題是非常魯棒的。
人工神經(jīng)網(wǎng)絡(luò)(ANN)的特點:(1)至少含有一個隱敏層的多層神經(jīng)網(wǎng)絡(luò)是一種普適
近似。(2)ANN可以處理冗余特征,對訓(xùn)練數(shù)據(jù)中的噪聲非常敏感。(3)ANN權(quán)值
學(xué)習(xí)使用的梯度下降方法時常會收斂到局部極小值。訓(xùn)練ANN是一個很耗時的過程,
而測試樣例分類時非???。
基于密度的聚類(DBSCAN)優(yōu)缺點:(1)它是相對抗噪聲的,并且能夠處理任意形
狀和大小的簇。當(dāng)近鄰計算需要計算所有的點對鄰近度時,DBSCAN的開消可能役大。
K均值的優(yōu)缺點:K均值并不適合所有的數(shù)據(jù)類型。它不能處理非球形簇、不同尺寸和
不同密度的簇,盡管指定足夠大的簇個數(shù)時它通??梢园l(fā)現(xiàn)純子簇。
通過以上急切分類和懶散分類各種方法的特點對照可知,急切分類僅僅對于某些類型的
數(shù)據(jù)進(jìn)入分類,而懶散分類則對于不同大小和不同類型的數(shù)據(jù)都可以進(jìn)行處理。急切分
類對噪聲較敏感而懶散分類而不是,急切分類方法較為簡單,花費的時間和空間代價都
較懶散分類少。
4.(10分)假定你作為一個數(shù)據(jù)分析人員,受雇于一家挪移通訊公司。通過一個例子說明
打算如何使用數(shù)據(jù)挖掘技術(shù)為公司提供匡助。你的例子應(yīng)包含問題描述,使用何種數(shù)據(jù)
挖掘方法解決該問題,理由和預(yù)期效果(不需要定量分析)。
例子如下:首先,挪移通信公司數(shù)據(jù)分析人員的主要工作是采集挪移通信用戶使用
通信的方式,業(yè)務(wù)流量,并且采集用戶的類型來分析各種用戶使用信息的主要方式
精品文檔
精品文檔
及銷售情況,以此可以出臺更加適合不同用戶需求的業(yè)務(wù)套餐類型。使用數(shù)據(jù)挖掘
中的聚類分析方法可以以一種較相似的主題來對結(jié)果進(jìn)行分類,并且以一種更為簡
潔的方式呈現(xiàn)給用戶,例如:報告聚類中最頻繁浮現(xiàn)的10個詞語,來采集最多使用
各種類型業(yè)務(wù)的用戶特點。可以按照預(yù)先定義的分類,例如漫游類,本地外地類等
等用戶使用通信的方法來進(jìn)行分類。利用數(shù)據(jù)挖掘中順序關(guān)聯(lián)分析可以檢測出某些
按照?定的高概率來杳詢到其他分類,并且允許更為高效的緩存,通過這種方法,
可以得出具有相互關(guān)聯(lián)的用戶使用通信方式和業(yè)務(wù)套餐的關(guān)系,進(jìn)而通過查詢一種
類型推導(dǎo)出其他相關(guān)類型的分類用戶特點。通過異常檢測技術(shù)可以發(fā)現(xiàn)不尋常的用
戶通信方式,例如一個新方式的更加流行??偟膩碚f,通過數(shù)據(jù)挖掘的聚類分析可
以將通信用戶進(jìn)行分類,然后發(fā)掘出各種類型用戶使用通信的需求和最普通具用的
特點,通過對以往歷史信息業(yè)務(wù)的分析,聚類,可能會發(fā)現(xiàn)新的需求,最后所用的
廣告策略就可以根據(jù)這些發(fā)掘出來的新特性采取相應(yīng)的調(diào)整策略以滿足大多數(shù)用戶
的需求,吸引更多的潛在客戶,出臺符合這些用戶需求的業(yè)務(wù)產(chǎn)品類型,進(jìn)而使公
司擁有更多的客戶,有更大的發(fā)展前景。
5.(10分)假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下的八個點(用(x,y)代表位置)聚類為三個類。
A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)
距離函數(shù)是Euclidean(歐幾里得)函數(shù)。假設(shè)初始我們選擇A1,B1,和C1為每一個簇的中心,
用k-means算法來給出
(a)在第一次循環(huán)執(zhí)行后的三個簇中心
(b)最后的三個簇
K均值算法的過程為:1:選擇K個點作為初始質(zhì)點。
2:repeat
3:每一個點指派到最近的質(zhì)心,形成K個簇。
4.重新計算每一個簇的質(zhì)心、
5.until質(zhì)心不發(fā)生變化。
A1,B1,C作為初始質(zhì)點,距離函數(shù)是Euclidean函數(shù),指派點到最近的質(zhì)心,方法
為計算其他點到質(zhì)點的歐幾里得距離。計算距離如下:A1-A2:dist=(2-2)2+(5-10)2=25;
A1-A3:dist=(8-2)2+(4-10)2=72;A1-B2:dist=(7-2)2+(5-10)2=50;A1-B3:dist=(6-2)2+(4-10)2=52;
A1-C2:dist=(4-2)2+(9-10)2=5;B1-A2:dist=(2-5)2+(5-8)2=18;B1-A3:dist=(8-5)2+(4-8)2=25;
B1-B2:dist=(7-5)2+(5-8)2=13B1-B3:dist=(6-5)2+(4-8)2=17
B1-C2:dist=(4-5)2+(9-8)2=2C1-A2:dist=(2-1)2+(5-2)2=10C1-A3:dist=(8-1)2+(4-2)2=53
C1-B2:dist=(7-1)2+(5-2)2=45C1-B3:dist=(6-1)2+(4-2)2=29C1-C2:dist=(4-1)4(9?2)2=58
其他五個結(jié)點選擇與其最近的質(zhì)心,三個簇分別為:{B1,C25B3,B2,A3}{C1,A2}{A1}
計算這三個簇的質(zhì)心:{B1,C2,B3,B2,A3}的質(zhì)心為:((8+5+7+6+4)/5,(4+8+5+4+9)/5)即(6,
6);{C1,A2)的質(zhì)心為:((2+1)/2,(5+2)⑵即為(1.5,3.5);{A1}的質(zhì)心為(2,10)。
(a)在第一次循環(huán)執(zhí)行后的三個簇中心分別為(6,6),(1.5,3.5),(2,10)
重新指派各個對象到離其最近的質(zhì)心,與上面方面相同,形成的三個簇為{A3,B1,B2,B3},
{C1,A2},{A1,C2}三個簇的質(zhì)心分別為(6.5,5.25),(1.5,3.5),(3,9.5);重新指
派各個對象到離其最近的質(zhì)心,形成的三個簇為:{A3.B2.B3}{C1,A2}{A1,B1,C2}
三個簇的質(zhì)心分別為:(7,4.3),(1.5,3.5),(3.67,9):重新指派各個對象到離其最近
的質(zhì)心,形成的三個簇為:{A3,B2,B3}{C1,A2}{A1,B1,C2}三個簇的質(zhì)心分別為:(7,
4.3),(1.5,3.5),(3.67,9);至此質(zhì)心不發(fā)生變化;
(b)最后三個簇即為{A3,B2,B3}{C1,A2}{A1,B1,C2};
精品文檔
精品文檔
salessenior31...3546K...50K30
salesjunior26...3026K...30K40
salesjunior31...3531K...35K40
systemsjunior21...2546K...50K20
systemssenior31...3566K...70K5
systemsjunior26…3046K...50K3
systemssenior41…4566K...70K3
marketingsenior36...4046K...50K10
marketingjunior31...3541K...45K4
secretarysenior46...5036K...40K4
secretaryjunior26...3026K...30K6
設(shè)status是類標(biāo)號屬性。
(a)你將如何修改基本決策樹算法,以便考慮每一個廣義數(shù)據(jù)元組(即,每一行)的
count?
基本的決策樹算法應(yīng)作如下修改,以考慮到每一人廣義數(shù)據(jù)元組(嘰每一行)的
count:每一個元組的count必須綜合考慮屬性的選擇測量計算(假如信息
獲?。?/p>
1.分析:類標(biāo)號屬性stare有兩個不同值(即{seaor.junior}),因此有兩個不同的類(即m=2)?設(shè)
類C]對應(yīng)Fsenior,而類C2對應(yīng)J'junior?類senior有30+5+3+10+4=52個元組,類junior有
4070+283+4+6=113個元組.共有165個數(shù)據(jù)元組.
2.使用lnfo(D)=-E%PJog2P「計算對D中元組分類所需的期望f
5252113113/5252113113\
Info(D)=一赤總示一市1/2笳=(一運】/說一南儂石上心2=0.899
3.分別計算屬性department,age和salary的期望信息需求
1)department
departmentsales110senior30
junior80
systems31senior8
junior23
marketing11senior10
junior4
secretary10senior4
junior6
InfOdep(D)
110/30308080\31/8823
liiCTl^l0g2T^-前磔2五力運(一式電£一k°g
14(101044\10/4466\
+病卜石儂2石一石32運)+姿卜云】°g2正一石爪石)
=0.5636+0.1548+0.0732+0.0588
=0.850位
Gain(dep)=Info(D)-InfodeD(D)=0.899-0.850=0.049位
精品文檔
精品文檔
2)age
age31-3579senior35
junior44
26-30-19senior0
junior49
21-2520senior0
junior20
41-453senior3
junior0
36-4010senior10
junior0
46-504senior4
junior0
Infoage(D)
79(35354444\49/004949\
=赤卜對0g2元一"1"2%+南卜布1密布一而)
20/002020\3/3300\
+瘋-五32茄一茄】。g旬+石(二%-獷2寸
10/101000\4/4400\
+病卜?麻2茄一茄1”2#+石卜臚g2丁丁。g2?
=0.4743+0+0+0+0+0
=0.474
Gain(age)=Info(D)-Infoage(D)=0.899-0.474=0.425位
3)salary
salary46k-50k63senior40
junior23
26k-30k46senior0
junior46
31k-35k40senior0
junior40
66k-70k8senior8
junior0
41k-45k4senior0
junior4
36k-40k4senior4
junior0
精品文檔
精品文檔
Infosa](D)
6340402323\46004646\
l^r?log2^-?log2637+165一而l°g2^―蔡1喻行)
40/0040
+示L行儂2行一石儂2
4/0044\4/4400
+建卜丁"21尸市卜丁,2廠丁織了
=0.3615+0+0+0+0+0
=0.362
Gain(age)=Info(D)-Infoage(D)=0.899-0.362=0.537位
考慮count來決定元組中最普遍的分類。
(b)
(c)使用你修改過的算法,構(gòu)造給定數(shù)據(jù)的決策樹。
4.由J:salary在屬性中具有最高信息增益,因此被選作分裂屬性.節(jié)點N用salary標(biāo)記,并對「每
個屬性值生長出一個分支,然后元組據(jù)此劃分,如圖所示.
departmentagesalarystatus
sales31-3546k-50ksenior
systems21-2546k-50kJunior
svstems26-3046k-50kjunior
marketing36-4046k-50ksenior.
精品文檔
精品文檔
Tlicresultinstreeis:
(salary26K...30K:
junior
一31K..35K:
junior
-36K...40K:
Ntuiior
二11K...45K:
juniur
46K…50K(departfi)en(secretary:
junior
=sales:
senior
=systems:
junior
—marketing:
senior)
-66K70K:
senior)
(d)給定一個數(shù)據(jù)元組,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 衛(wèi)生院員工體檢管理制度
- 衛(wèi)生室財務(wù)管理制度規(guī)定
- 施工現(xiàn)場衛(wèi)生制度
- 衛(wèi)生院普法學(xué)法制度
- 休息室打掃衛(wèi)生制度
- 衛(wèi)生分區(qū)域管理制度
- 衛(wèi)生院三級管理制度
- 汽修廠衛(wèi)生責(zé)任管理制度
- 機房衛(wèi)生員管理制度
- 鄉(xiāng)鎮(zhèn)醫(yī)院器械管理辦法
- 關(guān)節(jié)脫位院前急救
- 2024年山東省濟(jì)南市中考化學(xué)試卷( 含答案)
- 建筑結(jié)構(gòu)改造設(shè)計和加固技術(shù)綜合分析的開題報告
- 管理會計學(xué) 第10版 課件 第1、2章 管理會計概論、成本性態(tài)與變動成本法
- 喪葬費用補助申請的社保授權(quán)委托書
- 2024年度初會《經(jīng)濟(jì)法基礎(chǔ)》高頻真題匯編(含答案)
- 課例研究報告
- 啤酒營銷促銷實戰(zhàn)技巧之經(jīng)銷商管理技巧知識培訓(xùn)
- 建筑工程各部門職能及各崗位職責(zé)201702
- 機柜端口對應(yīng)表
評論
0/150
提交評論