版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第1章
1.6定義下列數(shù)據(jù)挖掘功能:特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、預(yù)測聚類和演變分析。
使用你熟悉的現(xiàn)實(shí)生活的數(shù)據(jù)庫,給出每種噓挖掘功能的例子。
。特征化是一個(gè)目標(biāo)類數(shù)據(jù)的一般特性或特性的匯總。例如,學(xué)生的特征可被提出,形成所
有大學(xué)的計(jì)算機(jī)科學(xué)專業(yè)一年級(jí)學(xué)生的輪廓,這些特征包括作為一種高的年級(jí)平均成績
(GPA:Gradepointaversge)的信息,還有所修的課程的最大數(shù)量。
?區(qū)分是將目標(biāo)類數(shù)據(jù)對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的一般特性進(jìn)行比
較。例如,具有高GPA的學(xué)生的一般特性可被用來與具有低GPA的一般特性比較。最
終的描述可能是學(xué)生的一個(gè)一般可比較的輪廓,就像具有高GPA的學(xué)生的75%是四年級(jí)
計(jì)算機(jī)科學(xué)專業(yè)的學(xué)生,而具有低GPA的學(xué)生的65%不是。
。關(guān)聯(lián)是指發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特征值的條件。
例如,一個(gè)數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則為:
major(X,"computingscience")=owns(X,"personalcomputer")
[support=12%,confidence=98%]
其中,X是一個(gè)表示學(xué)生的變量。這個(gè)規(guī)則指出正在學(xué)習(xí)的學(xué)生,12%(支持度)主修計(jì)算機(jī)科學(xué)并且擁有一臺(tái)
個(gè)人計(jì)算機(jī)。這個(gè)組一個(gè)學(xué)生擁有一臺(tái)個(gè)人電腦的概率是98%(置信度,或確定度。)
。分類與預(yù)測不同,因?yàn)榍罢叩淖饔檬菢?gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類型或概念的模型(或
功能)而后者是建立一個(gè)模型去預(yù)測缺失的或無效的、并且通常是數(shù)字的數(shù)據(jù)值。它們的
相似性是他們都是預(yù)測的工具:分類被用作預(yù)測目標(biāo)數(shù)據(jù)的類的標(biāo)簽,而預(yù)測典型的應(yīng)用是
預(yù)測缺失的數(shù)字型數(shù)據(jù)的值。
強(qiáng)類分析的數(shù)據(jù)對(duì)象不考慮已知的類標(biāo)號(hào)。對(duì)象根據(jù)最大花蕾內(nèi)部的相似性、最小化類之間的相似性的原則進(jìn)
行聚類或分組。形成的每一簇可以被看作一個(gè)對(duì)象類。聚類也便于分類法組織形式,將觀測組織成類分層結(jié)
構(gòu),把類似的事件組織在一起。
。數(shù)據(jù)延邊分析描述和模型化隨時(shí)間變化的對(duì)象的規(guī)律或趨勢,盡管這可能包括時(shí)間相關(guān)數(shù)
據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類、或預(yù)測,這種分析的明確特征包括時(shí)間序列數(shù)據(jù)
分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析
1.9列舉并描述說明物劇2掘任務(wù)的五種原語。
五種原語是:
◎任務(wù)相關(guān)數(shù)據(jù):這種原語指明給定挖掘所處理的數(shù)據(jù)。它包括指明數(shù)據(jù)庫、數(shù)據(jù)庫表、或
數(shù)據(jù)倉庫,其中包括包含關(guān)系數(shù)據(jù)、選擇關(guān)系數(shù)據(jù)的條件、用于探索的關(guān)系數(shù)據(jù)的屬
性或維、關(guān)于修復(fù)的數(shù)據(jù)排序和分組。
。挖掘的數(shù)據(jù)類型:這種原語指明了所要執(zhí)行的特定數(shù)據(jù)挖掘功能,如特征化、區(qū)分、關(guān)
聯(lián)、分類、聚類、或演化分析。同樣,用戶的要求可能更特殊,并可能提供所發(fā)現(xiàn)的模式必
須匹配的模版。這些模版或超模式(也被稱為超規(guī)則)能被用來指導(dǎo)發(fā)現(xiàn)過程。
?背景知識(shí):這種原語允許用戶指定已有的關(guān)于挖掘領(lǐng)域的知識(shí)。這樣的知識(shí)能被用來指導(dǎo)
知識(shí)發(fā)現(xiàn)過程,并且評(píng)估發(fā)現(xiàn)的模式。關(guān)于數(shù)據(jù)中關(guān)系的概念分層和用戶信念是背景知識(shí)的
形式。
。模式興趣度度■:這種原語允許用戶指定功能,用于從知識(shí)中分割不感興趣的模式,并且
被用來指導(dǎo)挖掘過程,也可評(píng)估發(fā)現(xiàn)的模式。這樣就允許用戶限制在挖掘過程返回的不感
興趣的模式的數(shù)量,因?yàn)橐环N數(shù)據(jù)挖掘系統(tǒng)可能產(chǎn)生大量的模式以趣度測量能被指定為簡
易性確定性、適用性、和新穎性的特征。
。發(fā)現(xiàn)模式的可視化:這種原語述及發(fā)現(xiàn)的模式應(yīng)該被顯示出來。為了使數(shù)據(jù)挖掘能有效地
將知識(shí)傳給用戶,數(shù)據(jù)挖掘系統(tǒng)應(yīng)該能將發(fā)現(xiàn)的各種形式的模式展示出來,正如規(guī)則、表
格、餅或條形圖、決策樹、立方體或其它視覺的表示。
1.41.13描述以下數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫或數(shù)據(jù)倉庫集成方法的差別:不耦合、松散相合、半
緊精合和緊密糖合物認(rèn)為財(cái)■方法最流行為什么?
解答:數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)的集成的層次的差別如下
阡耦合:數(shù)據(jù)挖掘系統(tǒng)用像平面文件這樣的原始資料獲得被挖掘的原始數(shù)據(jù)集,
因?yàn)闆]有數(shù)據(jù)庫系統(tǒng)或數(shù)據(jù)倉庫系統(tǒng)的任何功能被作為處理過程的一部分執(zhí)行。
因此,這種構(gòu)架是一種糟糕的設(shè)計(jì)。
。松散耦合:數(shù)據(jù)挖掘系統(tǒng)不與數(shù)據(jù)庫或數(shù)據(jù)倉庫集成,除了使用被挖掘的初始數(shù)據(jù)集的源
數(shù)據(jù)和存儲(chǔ)挖掘結(jié)果。這樣,這種構(gòu)架能得到數(shù)據(jù)庫和數(shù)據(jù)倉庫提供的靈活、高效、和特征
的優(yōu)點(diǎn)。但是,在大量的數(shù)據(jù)集中,由松散耦合得到高可測性和良好的性能是非常困難的,
因?yàn)樵S多這種系統(tǒng)是基于內(nèi)存的。
。半緊密耦合:一些數(shù)據(jù)挖掘原語,如聚合、分類、或統(tǒng)計(jì)功能的預(yù)計(jì)算可在數(shù)據(jù)庫或數(shù)據(jù)倉
庫系統(tǒng)有效的執(zhí)行以便數(shù)據(jù)挖掘系統(tǒng)在挖掘-查詢過程的應(yīng)用。另外,一些經(jīng)常用到的
中間挖掘結(jié)果能被預(yù)計(jì)算并存儲(chǔ)到數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)中,從而增強(qiáng)了數(shù)據(jù)挖掘系統(tǒng)的
性能。
。緊密耦合:數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)被完全整合成數(shù)據(jù)挖掘系統(tǒng)的一部份,并且因此提
供了優(yōu)化的數(shù)據(jù)查詢處理。這樣的話,數(shù)據(jù)挖掘子系統(tǒng)被視為一個(gè)信息系統(tǒng)的功能組件。這
是一中高度期望的結(jié)構(gòu),因?yàn)樗欣跀?shù)據(jù)挖掘功能、高系統(tǒng)性能和集成信息處理環(huán)境的
有效實(shí)現(xiàn)。
從以上提供的體系結(jié)構(gòu)的描述看,緊密耦合是最優(yōu)的,沒有值得顧慮的技術(shù)和執(zhí)行問題。但緊密耦合系統(tǒng)所需的
大量技術(shù)基礎(chǔ)結(jié)構(gòu)仍然在發(fā)展變化淇實(shí)現(xiàn)并非易事。因此,目前最流行的體系結(jié)構(gòu)仍是半緊密相
合,因?yàn)樗撬缮⒓Z合和緊密耦合的折中。
第2章數(shù)據(jù)預(yù)處理
2.2假設(shè)給定的數(shù)據(jù)集的值已經(jīng)分組為區(qū)間。區(qū)間和對(duì)應(yīng)的頻率如下。
年齡頻率
1~5200
5-15450
15-20300
20-501500
50-80700
80-11044
計(jì)算數(shù)據(jù)的近似中位數(shù)值。
先判定中位數(shù)區(qū)間:N=200+450+300+1500+700+44=3194;N/2=1597
,/200+450+300=950<1597<2450=950+1500;
:.20?50對(duì)應(yīng)中位數(shù)區(qū)間。
我們有:Zi=20.Ai=3197,width=30,使用公
式(2.3):
,「汗/2-(2.后夕)八.”(3197/2—950、__
median=Z.4---------------width=20+-----------x30=32.97
Ifreq—JI1500J
media/r=32.97歲。
2.4假定用于分析的數(shù)據(jù)包含屬性ageo數(shù)據(jù)元組的age值(以遞增序)是:13,
,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,
15,35,36,40,45,46,52,70。
3/m5
\l該數(shù)據(jù)的均值是什么?中位數(shù)是什么?
/b
\該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰(即雙峰、三峰等。)
/a
k
d數(shù)據(jù)的中列數(shù)是什么?
(/
X你能粗略地找出數(shù)據(jù)的第一個(gè)四分位數(shù)Qi和第三個(gè)四分位數(shù)Ch)嗎?
/動(dòng)
\l給出數(shù)據(jù)的五數(shù)概括。
(f)畫出數(shù)據(jù)的盒圖。
(g)分位數(shù)一分位數(shù)圖與分位數(shù)圖的不同之處是什么?
(a)該數(shù)甥的均任[是什么?中位數(shù)是什么?
均值是:T=—5Zrz=809/27=29.96=30(公工12.1)。中位效成是笫14
個(gè).UP.ri4=25=^2?
(b)該數(shù)甥的眾數(shù)是什么?討論數(shù)甥的穌(即雙山子、三崢等)?
這個(gè)數(shù)集的眾數(shù)有兩個(gè):25和35,發(fā):乍在同樣展高的頻率處.閑此足儀行
眾數(shù)。
(c)數(shù)據(jù)的中列數(shù)是什么?
數(shù)據(jù)的中列數(shù)忍圾大術(shù)和最小組的均值.HP:""如g=<70+13)/2=41.5。
(d)你循《忖I略地)找U1數(shù)據(jù)的笫一個(gè)四分位數(shù)(。)和笫三個(gè)四分僅數(shù)(0
叫?
數(shù)據(jù)桀的笫個(gè)四分位數(shù)成發(fā)生枕25%處,即在?Z+l)/4=7處。所以:<?i=2O
向第T個(gè)四分儀數(shù)應(yīng)發(fā)生作75%處.即在3x(Z+l>/4=2l處“所以:Q=35
(c)令Hi數(shù)甥的五數(shù)概括?
?個(gè)數(shù)抹:朱的分布的5數(shù)做括由取小伍、笫?個(gè)四分位數(shù)、中位數(shù)、第三個(gè)
四分位數(shù)、和圾入伍構(gòu)成。七給山廣分布形狀良好的匯總,并1L迂也數(shù)據(jù)足:13.
20、25、35、70。
(g)分位數(shù)一分位數(shù)圖與分位數(shù)圖的不同之處是什么?分位數(shù)圖是一種用來展示數(shù)據(jù)值低于或等
早在一個(gè)單變量分布中獨(dú)立的變量的粗略百分比。這樣,他可以展示所有數(shù)的分位數(shù)信息,而為獨(dú)立
變量測得的值(縱軸)相對(duì)于它們的分位數(shù)(橫軸)被描繪出來。但分位數(shù)一分位數(shù)圖用縱軸表示一
種單變量分布的分位數(shù)用橫軸表示另一單變重分布的分位數(shù)。兩個(gè)坐標(biāo)軸顯示它們的測量值相應(yīng)分布
的值域,且點(diǎn)按照兩種分布分位數(shù)值展示。一條線(y=x)可畫到圖中,以增加圖像的信息。落在該
線以上的點(diǎn)表示在y軸上顯示的值的分布比x軸的知應(yīng)的等同分位數(shù)對(duì)應(yīng)的值的分布高。反之,對(duì)
落在該線以下的點(diǎn)則低。
2.7使用習(xí)題2.4給出的age數(shù)據(jù)回答下列問題:
(a)使用分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑,箱的深度為3。解釋你的步驟。評(píng)述
W于給定的數(shù)據(jù),該技術(shù)的效果。
(b)如何確定數(shù)據(jù)中的離群點(diǎn)?
(c)對(duì)于數(shù)據(jù)光滑,還有哪些其他方法?
答:(a)使用分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光
滑,箱的深度為3O解釋你的步驟:評(píng)述對(duì)于給
定的數(shù)據(jù),該技術(shù)的效果。
用箱深度為3的分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑需要以下步驟:
破驟1:對(duì)數(shù)據(jù)排序。(因?yàn)閿?shù)據(jù)已被排序,所以此時(shí)不需要該步驟。)
?步驟2:將數(shù)據(jù)劃分到大小為3的等頻箱中。
箱1:13,15,16箱2:16,19,203:20,21,22
箱4:22,25,25箱5:25,25,306:33,33,35
箱7:35,35,35箱8:36,40,459:46,52,70
?步驟3:計(jì)算每個(gè)等頻箱的算數(shù)均值。
。步驟4:用各箱計(jì)算出的算數(shù)均值替換每箱中的每個(gè)值。
箱1:44/3,44/3,44/3箱2:55/3,55/3,55/3箱3:21,21,21
箱4:24,24,24箱5:80/3,80/3,80/3箱6:101/3,101/3,101/3
箱7:35,35,35箱8:121/3,121/3,121/3箱9:56,56,56
(b)如何確定數(shù)據(jù)中的離群點(diǎn)?聚類的方法可用來將相似的點(diǎn)分成組或“簇”,并
檢測離群點(diǎn)。落到簇的集外的值可以被視為離群點(diǎn)。作為選擇,一種人機(jī)結(jié)合的檢
測可被采用,而計(jì)算機(jī)用一種事先決定的數(shù)據(jù)分布來區(qū)分可能的寓群點(diǎn)這些可能
的離群點(diǎn)能被用人工輕松的檢驗(yàn),而不必檢查整個(gè)數(shù)據(jù)集。
(c)對(duì)于數(shù)據(jù)光滑,還有哪些其他方法?
其它可用來數(shù)據(jù)光滑的方法包括別的分箱光滑方法如中位數(shù)光滑和箱邊界光滑。作為選擇,等寬箱可
被用來執(zhí)行任何分箱方式,其中每個(gè)箱中的數(shù)據(jù)范圍均是常量。除了分箱方法外,可以使用回歸技術(shù)
擬合成函數(shù)來光滑數(shù)據(jù),如通過線性或多線性回歸。分類技術(shù)也能被用來對(duì)概念分層,這是通過將低
級(jí)概念上卷到高級(jí)概念來光滑數(shù)據(jù)。
2.12如下規(guī)范化方法的值域是什么?
(a)min-max規(guī)范化。
(b)z-score規(guī)范化。
(c)小數(shù)定標(biāo)規(guī)范化。
答:
(a)min-max規(guī)范化。值域是
[new_min,new_max]o
(b)(b)z-score規(guī)化。
盾域是[(oldmin-mean)/a,(oldmax-mean)/a],總的來說,對(duì)于所有可能的
數(shù)據(jù)集的值鈦是「8,+切。-
(C)小數(shù)定標(biāo)規(guī)范化
值域是(-1.0,1.0)。
2.12使用習(xí)題2.4給出的
age數(shù)據(jù),回答以下問題:
(a)使用min-max規(guī)范化將age值35變換到[0.0,1.0]區(qū)間。
(b)使用z-score規(guī)范化變換age值35,箕中age的標(biāo)準(zhǔn)差為12.94歲。
(c)使用小數(shù)定標(biāo)規(guī)范化變換age值35o
(d)對(duì)于給定的數(shù)據(jù),你愿意使用哪種方法?陳述你的理由
(a)使用min-max規(guī)范化將age值35變換到[().(),1.0]區(qū)間。
*.*minA=13,maxA=70.new_ininA=0.0tnew_maxA=1.0?iftjv=35.
吁min4〔.、.
--------------------\newmax.-newmm.I+newmin”
max4-mm/
35-13
(1.0-0.0)+0.0=0.3860
70-13
(b)使z-score現(xiàn)?;儞Qage值35.此中age的標(biāo)次注為12.94歲.
—=13+15+2x16+19+2x20+21+2x22+4x24
27
30+2x33+4x35+36+40+45+46+52+70
27
翳=29.3
工(彳,一刁
b/士---------=161.2949.crJb:=12.7002
2(〃-0
破------------=167.4986?s=12.9421
v-35
±=35-29Q63=5X)37..=o3966=O.4OO
12.700212.7002
成2^=35—29963=5.037=。33=0.39
12.942112.9421
(c)使用小數(shù)定標(biāo)規(guī)范化變換age值35。
由于最大的絕對(duì)值為70.所以尸2。J言=含=。35
2.14假設(shè)12個(gè)銷售價(jià)格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,
204,215c使用如下每種方法將其劃分成三個(gè)箱。
(a)等頻(等深)劃分。(b)等寬劃分。⑹聚類。
攻口?.
(a>?事回<二至5%)切夕如
binI5.IO.11.13
bin11S.35.5O.55
binI72.91,2<M.215
(b)再,劃分.
4江4、[式的"魄J虬址:(215-5>/3=7O
bin15.10.11.13.15.35.50,55.72
bin191
binl2O4.N15
(c>蜜獎(jiǎng).
我J門川以<史目J仲向?¥'的轆光寸支木:J”2個(gè)垣人的r?J秘T與數(shù)和;分心3個(gè)希,
binl5.10.11.13.15
binl35.50.55.72.91
binl20-4.215
2.15使用習(xí)題2.4給出的age數(shù)據(jù),
(a)畫出一個(gè)等寬為10的等寬直方圖;
(b)為如下每種抽樣技術(shù)勾畫例子:SRSWOR,SRSWR,聚類抽樣,分層抽
釋。使用大小為5的樣本和層“青年”,中年”和“老年’3
解答:
(a>ilHiHl-個(gè)■?電力1OCKJ飛空?蛇f*LZ/%1:
(b)為如下每種抽樣技術(shù)勾畫例子:SRSWOR,SRSWR,聚類抽樣,分層
抽樣。使用大小為5的樣本和層“青年”中年”和“老年、元組:
Ti13Tto22Tw35
Tn2535
r2IST2o
Ty16Tt225T2I35
丁416T|325T2236
Ts19Tl425T2340
Tc20TIS30T2445
T720Ts33T”46
T.21T|733Tze52
TQ22T.H35T2770
SRSWOR和SRSWR:不是I司次的段1HL抽怦結(jié)Mi“「以不IT.任〔I詢NIN無放IT
所以不值彳丁桶”J的元絢.
SRSWOR<n-5)SRSWR(n=5)
T416丁720
Tc20TT20
T.o22T2O35
Tn25T2135
Tae52T2546
維央劑I*丫:血&3鍬炎八/J6央.伯m央.
Sample1Sumplc2Sample3Suniplc^lSamplc5Suniplc<)
T,1320TM25Tic33T2I35下2。52
T17
Ta15TT20T.a2533Ts36T2770
Te16TM21TIS25TIM35T-40
T416TQ22Tx25TIV35T"45
Ts19TIO22T.s30Tao35T2S46
Sampie2Sample5
20Tai35
T720TNN36
TH21T”4c
Tv22T2445
T.o22T”46
分/illITs按JKt々出色分扣1fTlH?小I?寸的砒行L收的紓」UL4<l?d.
T”16
T1225
33micJdluH&U
TTa?46middle
丁*770Senior
Z.X55555S55S5555555SSS55555SS
第三章數(shù)據(jù)倉庫與OLAP技術(shù)概述
3.4假定BigUniversity的數(shù)據(jù)倉庫包含如下4個(gè)維student(student_name,area_id,major,status,
university),course(course_name,department),semester(semester,year)和instructor(dept,
rank);2個(gè)度■::count和avg_gradeo在最低概念層,度?avg_grade存放學(xué)生的實(shí)際
課程成績。在較高概念層,avg_grade存放給定組合的平均成績。
(a)為該數(shù)據(jù)倉庫畫出雪花形模式圖。
(b)(b)由基本方體[student,course,semester,instructor]開始,為歹!1出
BigUniversity每個(gè)學(xué)生的CS課程的平均成績,應(yīng)當(dāng)使用哪些特殊的OSP操作。
(c)如果每維有5層(包括all)$0ustudent<major<status<university<all該立方
標(biāo)包含多少方體?
解答:
a)為該數(shù)據(jù)倉庫畫出雪花形模式圖。雪花模式如圖所示。
b)由基本方體[student,course,semester,instructor]開始,為列出BigUniversHy每個(gè)
學(xué)生的CS課程的平均箴績應(yīng)當(dāng)使用哪些特殊的OLAP操祚。這些特殊的聯(lián)機(jī)分析屈理(OLAP)
操作有:i.沿課程(course)維從courseJcT上卷'到departmento
ii.沿學(xué)生(student)維從studentjd“上卷”到universityo
iii.取department="CS”和university=uBigUniversity11,沿課程(course)維和學(xué)生(student)
維切片。
iv.沿學(xué)生(student)維從university下鉆到student_nameo
c)如果每維有5居包括all翅t(yī)udentvmajorvstatusvuniversityvall:該立方體包含
這.立方止將包含54=625個(gè)方體
courseunivstudent
脩々
兇3.4m33.4中數(shù)加的?,;化唯快」t
3.22222222
3.33333333
第四章數(shù)據(jù)立方體計(jì)算與數(shù)據(jù)泛化
4.3題4.12考慮下面的多特征立方體查詢:按{itemregion,month)的所有子
集分組,對(duì)每組找出2004年的最小貨架壽命,并對(duì)價(jià)落低于100美元、貨架
壽命在最小貨架壽命的1.25-1.5倍之間的元組找出總銷售額部分。
a)畫出該查詢的多特征立方體圖。
b)用擴(kuò)充的SQL表示該查詢。
c)這是一個(gè)分布式多特征立方體嗎?為什么?
解答:
(a)畫出該查詢的多特征立方體圖。
R0->R1(>1.25*min(shelf)and<1.5*min(shelf))(b)用擴(kuò)
充的SQL表示該著詢。
Selectitem,region,month,Min(shelf),SUM(R1)
FromPurchase
Whereyear=2004
cubebyitem,region,month:R1
suchthatR1.sheIf>1.25*MIN(Shelf)and(R1.Shelf^l.5*MIN(Shelf)and
R1.Price<100
(c)這是一個(gè)分布式多特征立方體嗎?為什么?
這不是一個(gè)分布多特征立方體,因?yàn)樵凇皊uchthat”語句中采用了“。條件。
第五章
5.3數(shù)據(jù)庫有5個(gè)事物。設(shè)min_sup=60%,min_conf=80o
TID購買的商品
T100{M,O.N,K.E,Y)
T200{D,O,N,K,E.Y)
T300{M,A,K,E)
T400{M,U,C,K,Y}
T500{C,O,O,K,I,E)
a)分別使用Apriori和FP增長算法找出所有的頻繁項(xiàng)集。比較兩種挖
掘過程的效率。
b)列舉所有與下面的的元規(guī)則匹配的強(qiáng)關(guān)聯(lián)規(guī)則(給出支持度s和置信
度c其中X是代表顧客的變量item是表示項(xiàng)的變量(如T'"B”等)
transaction,buys(X,itemi)Abuys(X,item2)=t)uys(X,items)[s,c]
解答:
(a)分別使用Apriori和FP增長算法找出所有的頻繁項(xiàng)集。比較兩種挖掘
過程的效率。
Apriori算法:由于只有5次購買事件,所以絕對(duì)支持度是5xmin_sup=3o
A/3-
MOr
O3
AfK3
N2
ME2
AT53~3-
A/r2
E-1O3OK3
3OKE3
Y3X,=AT5C\—OE3
OE3=KEY2
D1E4KE4
OY2
A1r3KY3
KE4
U1
KY3
Q2
EY2
/1
Z、=3]
FP-growth:數(shù)圳蚱的笫-次+I描1jApriori算法相同.得至UL?再按支持發(fā)
計(jì)數(shù)的遞減小打小?得到:L=UK:5),(E:4),(M:3),(0:3),(Y3)}.#|描沒彳、3
務(wù).按以上L的拼方?從根心點(diǎn)開始.得到FP■樹.
頊條件模式枯條件FP樹產(chǎn)生的順繁悚式
YK:3
O\.{KE:2”K3?E:3(KO:3}?{E,O:3>.(KE.O:3}
M({KE:2},{KI}}1C3
E《{K4”K:4{KE:4}
效率比較:Aphori算法的計(jì)算過程必須對(duì)數(shù)據(jù)庫作多次掃描,而FP-增長算
法在構(gòu)造過程中只需掃描一次數(shù)據(jù)庫,再加上初始時(shí)為確定支持度遞減排序的一次
掃描,共計(jì)只需兩次掃描。由于在Apriori算法中的自身連接過程產(chǎn)生候選項(xiàng)
集,候選項(xiàng)集產(chǎn)生的計(jì)算代價(jià)非常高,相FP-增長算法不需產(chǎn)生任何候選項(xiàng)。
髀列婁喇鵬孽裔規(guī)牌鬟警癮喝翻1第A饕蜃」和置信度c)
transaction,buys(X,uK,)Abuys(X,,O,)=5buys(X,UE][s=0.6,c=1]
Vketransaction,buys(X,"E')Abuys(X,"E)=t)uys(X,"K)[s=0.6,c=1]
或也可表示為
K,O-^E[s(support)=0.6或60%,c(confidence)=1或100%]
E,O—>K[s(support)=0.6或60%,c(confidence)=1或100%]
第六章
6.11下表由金員數(shù)據(jù)庫蚓l|練數(shù)據(jù)組成。數(shù)據(jù)已泛化。例如,296“31...35”表示年齡在童~35之間。
對(duì)于給定的行,count表示department,status,age和salary在該行具有給定值的元
departmentstatussalarycount
salessenior31---3546K…50K30
salesjunior26…3026K…30K40
salesjunior31…3531K…35K40
systcmsjunior21--2546K---5OK20
systemssenior31???3566K---7OK5
systemsjunior26---3046K…50K3
systemssenior41…4566K…70K3
marketingsenior36---4O46K---5OKIO
marketingjunior31…3541K---45K4
secretarysenior46---
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年雞東縣幼兒園教師招教考試備考題庫附答案解析(奪冠)
- 2024年眉縣幼兒園教師招教考試備考題庫含答案解析(必刷)
- 2024年湘南幼兒師范高等專科學(xué)校馬克思主義基本原理概論期末考試題及答案解析(必刷)
- 2025年景縣招教考試備考題庫含答案解析(必刷)
- 2025年鄭州亞歐交通職業(yè)學(xué)院馬克思主義基本原理概論期末考試模擬題及答案解析(奪冠)
- 2025年浙江音樂學(xué)院馬克思主義基本原理概論期末考試模擬題帶答案解析(必刷)
- 2024年貴陽人文科技學(xué)院馬克思主義基本原理概論期末考試題附答案解析
- 2025年新鄉(xiāng)縣幼兒園教師招教考試備考題庫含答案解析(奪冠)
- 2024年璧山縣招教考試備考題庫含答案解析(奪冠)
- 2026年軟件工程師編程技能進(jìn)階測試題庫
- 研究受試者知情同意書
- 常州工業(yè)職業(yè)技術(shù)學(xué)院輔導(dǎo)員招聘筆試真題2025年附答案
- 杜瓦罐供貨合同范本
- 2026年云南高考語文總復(fù)習(xí):專題02:非連續(xù)性文本閱讀主觀題(知識(shí)梳理+考點(diǎn))(解析版)
- 2025年水利工程質(zhì)量檢測員考試(混凝土工程)全真模擬試題及答案及答案(云南省)
- 戰(zhàn)場適應(yīng)性訓(xùn)練
- 《招標(biāo)投標(biāo)法及實(shí)施條例》考試題庫大全(含答案)
- 荒山綠化施工協(xié)議書范本
- 鄭州鄭東新區(qū)高鐵站前商務(wù)區(qū)市場定位報(bào)告
- 貴州省倉儲(chǔ)物流管理辦法
- 中醫(yī)護(hù)理不良事件分析與改進(jìn)
評(píng)論
0/150
提交評(píng)論