清華大學(xué)大數(shù)據(jù)課程數(shù)據(jù)挖掘技術(shù)(2022年-2023年)課件_第1頁
清華大學(xué)大數(shù)據(jù)課程數(shù)據(jù)挖掘技術(shù)(2022年-2023年)課件_第2頁
清華大學(xué)大數(shù)據(jù)課程數(shù)據(jù)挖掘技術(shù)(2022年-2023年)課件_第3頁
清華大學(xué)大數(shù)據(jù)課程數(shù)據(jù)挖掘技術(shù)(2022年-2023年)課件_第4頁
清華大學(xué)大數(shù)據(jù)課程數(shù)據(jù)挖掘技術(shù)(2022年-2023年)課件_第5頁
已閱讀5頁,還剩140頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2022年-2023年最新

數(shù)據(jù)挖掘概覽

數(shù)據(jù)預(yù)處理

分類(Classification)

聚類(Cluster)

關(guān)聯(lián)規(guī)則(AssociationRule)

回歸(Regression)

提綱

第1頁/共145頁

2022年-2023年最新

What?

數(shù)據(jù)挖掘的定義

Why?

數(shù)據(jù)挖掘概覽數(shù)據(jù)挖掘的動(dòng)機(jī)

How?

哪些數(shù)據(jù)可以用來挖掘?

數(shù)據(jù)挖掘的主要內(nèi)容

第2頁/共145頁

2022年-2023年最新

什么是數(shù)據(jù)挖掘(DataMining)?

-Extractionofinteresting(non-trivial,implicit、previously

unknownandpotentiallyuseful)patternsorknowledge

fromhugeamountofdata

—其他稱謂:

數(shù)據(jù)挖掘定義scovery(minmg)indatabase(KDD),data/pattern

DataData

Apostprocessing

mining

ilkagingana

infonnationhaivesting

Featureselection

Filteringpatterns

Dimensionreduction

Visuaralization

Normalization

Patterninterpretation

Datasubsetting

Data”融.rocess

2022年-2023年最新

模式有效性度量

Xlapliclly

2.t-^sss?cl3tl?a/rileJcagtb.ecls4?ajtfccsisc

Cvrtalaty

Bf.caafidcaee.7%AS/?&aeBj-B/.claxslflcxeieaxeJlafelllty

?rxccatse;.c?4cstrcattA.etc

VtllHy

Petcatialvscfvlactz.c.?:>>>?(<a?isctbccstelf

Kflcxcxlptlea/

N?tfrcTleasl7*a*va.svrfrislag\?se4totc*ovctcdiotfsatroles/

第4頁/共145頁

2022年-2023年最新

1.數(shù)據(jù)量大

2.缺乏理論知識

3.數(shù)據(jù)挖掘可以幫助

產(chǎn)生新的假說或者

使數(shù)據(jù)變得有意義

ScienceParadigms

?Thousandyearsago

sciencewasempirical

dexribmgnaturalpbenomeno

?Lastfewhundredyears:

theoreticalbranch

usingmoaelB,genera:tzacons

?Lastfewdecades

acomputationalbranch

smuiatinacomptexphenomena

?Today:

dataexploration(eScience)

unrfythoorycxponmentandomutation

□singdatamanag9nentandstatistics

一DatacapturedbyinttnjrxM

6generatedSM^uiator

-Piccmwddyu)<tware

entistanatyzBdatabase,ftlee

145責(zé)

2022年-2023年最新

Mearedrowningindata,butstarvinginknowledge

Dataexplosion:Automateddatacollectiontoolsandmaturedatabase

technologyleadtotremendousamountsofdataaccumulatedand/orto

苦惱:淹沒在數(shù)據(jù)中;不能制定合適的決策!

數(shù)據(jù)

為何薩

模目標(biāo)市場

經(jīng)

濟(jì)

資金分配

實(shí)

貿(mào)易選擇

關(guān)

統(tǒng)計(jì)

在哪兒做廣告

銷售的地理位置

聯(lián)

關(guān)

例加頁哄145頁

2022年-2023年最新

輔助社

會管理

了推動(dòng)科促進(jìn)民

數(shù)據(jù)挖可數(shù)據(jù)挖掘

技進(jìn)步生改善

智能交通

股票趨勢分析

支持商

業(yè)決策

Time,t(Years:第7頁/共145頁

2022年-2023年最新

?銀行

>美國銀行家協(xié)會(ABA)預(yù)測數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技

術(shù)在美國商業(yè)銀行的應(yīng)用增長率是14.9%。

>分析客戶使用分銷渠道的情況和分銷渠道的容量;

建立利潤評測模型;客戶關(guān)系優(yōu)化;風(fēng)險(xiǎn)控制等

?電子商務(wù)

>網(wǎng)上商品推薦;個(gè)性化網(wǎng)頁;自適應(yīng)網(wǎng)站…

數(shù)據(jù)熔?生物制藥、基因研究

至到查詢和匹配;識別基因序列的共發(fā)生性…

,電信

>欺詐甄別;客戶流失…

?保險(xiǎn)、零售

第8頁/共145頁

2022年-2023年最新

決策樹DecisionTrees序列分析SequenceAnalysis

In:ome>$4)K?傾向性分析

Deb|<10%ofIncfxne

?客匯生命周期管理

?目標(biāo)市場

?價(jià)格彈性分析

數(shù)據(jù)捻掘應(yīng)用關(guān)聯(lián)分析Association神經(jīng)網(wǎng)絡(luò)NeuralNetworks

?市場組合分析

?套裝產(chǎn)品分析?傾向性分析

?客斤保留

?交叉銷售?目標(biāo)市場

?欺詐檢測

,”,factorn

factor1factor2

第9頁/共145頁

2022年-2023年最新

數(shù)據(jù)挖掘步驟

U?dS-C)

B■<?I》

■I■■■£>

敷加檢9EH宓I使用"嬉方送廈航敕呢模式)

??■?■?BS.■a,,?**■

殘■曄估(景別9(供R俄的H正壽■檄式)

知景哀示C可融化卬知我表示及術(shù))

第10頁/共145頁

2022年-2023年最新

數(shù)據(jù)質(zhì)量衡量:

準(zhǔn)確度:collectorwrong,accurateornot

完整度:noticcoidedunavailable

致性:somemodifiedbutsomenot,dangling

時(shí)效性:timelyupdate?

數(shù)據(jù)質(zhì)量:為偈薪owtrustablethedataarecorrect?

據(jù)預(yù)處性:howeasilythedatacanbeunderstood?

第11頁/共145頁

數(shù)據(jù)挖掘預(yù)處理的主要任務(wù)

數(shù)據(jù)清理

填寫空缺的值,平滑噪聲數(shù)據(jù),k識別、刪除孤立點(diǎn),解決

不一致性

數(shù)據(jù)集成

集成多個(gè)數(shù)據(jù)庫、數(shù)據(jù)立方體或文件

數(shù)據(jù)變換

規(guī)范化和聚集

數(shù)據(jù)歸約

得到數(shù)據(jù)集的壓縮表示,、劇罐,但可以得到相同或相

數(shù)據(jù)離最化

數(shù)據(jù)歸約的一黠儲的離散化來規(guī)約

:IlliWI要

第12頁/共145頁

2022年-2023年最新

數(shù)據(jù)清洗

琴我■登?理??矢■?只?修■?■

裁n:八??????:

??密合????????■

■9:??1411*?I4

年一*住

一?

9VM:筌陽■一■?”?!!?住

第13頁/共145頁

2022年-2023年最新

缺失值

(Incomplete/Missi

ngData)

9■圣?????

w

<H0O90B^-?nv?iat

S?A>9.■■■■口??¥a?侵丹上???八

1t?an?iswan8?e?

第14頁/共145頁

2022年-2023年最新

如何補(bǔ)充缺失值

電■元電:當(dāng)女標(biāo)號嶙少時(shí)通常這幺01(做定蛇蠅任務(wù)段計(jì)分類或建城I?當(dāng)?個(gè),

性9少■的百分比文化很大時(shí),它的效事塞常*.

人工依目空籍值:工作■大,町杼性他

使用一個(gè)全身變It,光交聯(lián)值:比皿使用unknown睢-8

使用艮慢的平均■■充空或值

使用與哈定元雄■同一類的備有樣本的軍均值

?雨■/旁■使用貳取對龍?法樣g■于■■一方■

第15頁/共145頁

2022年-2023年最新

噪聲:一個(gè)測量變量中的隨機(jī)錯(cuò)誤或偏差

引起不正確屬性值的原因

數(shù)據(jù)收集工具的問題

數(shù)據(jù)輸入錯(cuò)誤

數(shù)據(jù)傳輸錯(cuò)誤

噪聲數(shù)據(jù)技術(shù)限制

----------------命名規(guī)則的不一致

其它需要數(shù)據(jù)清理的數(shù)據(jù)問題

重復(fù)記錄

不完整的數(shù)據(jù)

不一致的數(shù)據(jù)

第16頁/共145頁

2022年-2023年最新

如何處理噪聲數(shù)據(jù)

分?

tinttort4ataza?partltlealataKC?vl-fl€fIlas

tbea?&ccia:s■?tb?y?laacaa::c&olyfeiaacdlaa.:*??tMby

>infr?s<farlC3.etc.

MA

4ceecta*dscsave?Btlicrs

人■■含

tcecct:v:>iciav:▼3loc:s&dcbcckbybv&xstc.fdolvltta

??iliccsi

se

第17頁/共145頁

2022年-2023年最新

分箱(Binning)

dist&acc)partieiea.A/:

SimestAer3*tclat?ftlatCKvaJt?fe<aaltlsc:oatfirafttd

LtAsottzeetac1?westaaaBif*c:tvalies?ftAcaetnbvec.tacd*

?flaterTSl:vlJJbe:w?4),*

Tbcacst3tcaltAtfaxwartf.fest*37di*LQ3tcfX€2cat?t4?n

ZkcwceflatxIsa?tM3A?1C<well

崢;KEqual-depth(ftc^vcacyyfartitioatag:

Divltettbcxzafelot*Kiatcrvals.cicAceaeaislafapjr?xiaatcJyx2ac

avabetefsaaple:

Oeatfseascallaf

lianaria*e3te*?cicilattxlbtitesezaIttrlcMv.第18頁/共145頁

2022年-2023年最新

數(shù)據(jù)平滑的分箱方法

■?I?dsn)*?a:1*s-??Its*

■》力(■等的>IB

■,XV,:V,3

第19頁/共145頁

2022年-2023年最新

A每個(gè)簇中的數(shù)據(jù)用其中心值代替

A忽略孤立點(diǎn)

A先通過聚類等方法找出孤立點(diǎn)。這些孤立

點(diǎn)可能包含有用的信息。

聚取土再審查這些孤立點(diǎn)

Analysis

第20頁/封145頁

2022年-2023年最新

》通過構(gòu)造函數(shù)來符合數(shù)據(jù)變化的趨勢,這

樣可以用一個(gè)變量預(yù)測另一個(gè)變量。

/線性回歸

y=a+/

Regression

丫=a+尸1X1+/72乂2

/非線性回歸

23

y=a+/71X+/72X-F/73X

第21頁/共145頁

2022年-2023年最新

數(shù)據(jù)集成

第22頁/共145頁

2022年-2023年最新

數(shù)據(jù)變換(規(guī)范化)

■9???■?<??■,之,/一??■”■■■,?????????????,?,

第23頁/共145頁

2022年-2023年最新

》平滑,聚集

A數(shù)據(jù)概化,規(guī)范化

A屬性構(gòu)造(特征構(gòu)造)

v—min

有限區(qū)間的歸一化:

max-min

1

-*但無限區(qū)間的歸一化:v'=-------

數(shù)據(jù)箕換模糊隸屬度:1+/

2022年-2023年最新

數(shù)據(jù)規(guī)約

第25頁/共145頁

2022年-2023年最新

數(shù)據(jù)規(guī)約

剛??收?立NRiiMitar??

第26頁/共145頁

2022年-2023年最新

據(jù)立方體存儲多維聚集信息,提供對預(yù)計(jì)算的匯總

數(shù)據(jù)進(jìn)行快速訪問。

如:立方體內(nèi)存儲季度銷售額,若對年銷售額感興

趣,可對數(shù)據(jù)執(zhí)行聚集操作,例如sum。等。

數(shù)據(jù)立方

year

第27頁/共145頁

2022年-2023年最新

屬性子集選擇

0U11◎不用)1,金的陷什utM>*小,I卜*

K11”站漢出■小你.使用口》4的?*"新年川融博襟應(yīng)假帽懵“Mil”到的

M分布

的MD?掩京館出力,,叢4、配《俯.電幕昆舊耳■聶雋SMffH*1發(fā)式。

修?

如黃心W片,刈坨《?優(yōu)木,*1^憎

遍◎肉”e界

整》向vaiRk

a*婚葬機(jī)尚c■華曲內(nèi)內(nèi)

s母同心靖

第28頁/共145頁

2022年-2023年最新

維度規(guī)約

分為至4和的偽網(wǎng)紳.

19方法J

??■??O?T?.<?.?唐????(.

iaHv*'*PCA>.u?.

第29頁/共145頁

2022年-2023年最新

數(shù)值規(guī)約

礙以分為制Ck方域和

??,■?M?4?ra?r?ai4on?RMea#Mfl

??aJTM..aJI■.■貴

第30頁/共145頁

2022年-2023年最新

離散化

<1)感應(yīng)票些僅按受離!|■的■法;

(2>?小敷搪的尺庾.

第31頁/共145頁

2022年-2023年最新

抽樣

米價(jià)》的杵*(千?卜不是大戈的事集

f,???eaiei”

”?,

第32頁/共145頁

2022年-2023年最新

分類

第33頁/共145頁

2022年-2023年最新

分類是指將數(shù)據(jù)映射到預(yù)先定義好的群組或類。

在分析測試數(shù)據(jù)之前,類別就已經(jīng)被確定了,所以分類統(tǒng)稱被稱作有指導(dǎo)的學(xué)習(xí)。

分類算法妥求基于數(shù)據(jù)屬性來定義類別。

分類算法通常通過觀察已知所屬類別的數(shù)據(jù)的特征來描述類別。

分類

第34頁/共145頁

2022年-2023年最新

分類應(yīng)用

第35頁/共145頁

2022年-2023年最新

分類步驟

第36頁/共145頁

2022年-2023年最新

Classification

TrainingAlgoritluns

Data口

Classifier

RANKYFARSTFN1JRFR

NAMF(Model)

1iJik酹no

MarvAssistantProf7ves

BillProfessor____2ves

JimAssociateProf7VASIFrank=professor1

DaveAssistantProf___6_______no____

ORyJears>6

Anne—AssociateProf—3—-------no------THENtenured='ves

第37頁/共145頁

2022年-2023年最新

Testmg

Data

2)(Jeff,Professor,4)

NAMERANKYEARSTENUREDTenured?B

TomAssistantProf2no

MerlisaAssociateProf7no

GeorgeProfessor5yes

JosephAssistantProf7yes

第38頁/共145頁

2022年-2023年最新

分類方法評價(jià)

n霸普■?率

?述,及橫大,比前京星過倩an,量甘19n住力

?拘G*甲n0值

?3網(wǎng)"5tft打竹曼的0代

?喊電**空?依協(xié)???■信■力

X?ftMH.城IHQ懵號的艙力

qim第39頁/共145頁

2022年-2023年最新

準(zhǔn)確率和召回率?混淆矩陣等

給定一個(gè)類Cj和一個(gè)數(shù)據(jù)庫元組ti,ti可能被分類器判定為屬

于Cj或不屬于Cj,其實(shí)ti本身可能屬于Cj或不屬于Cj,這樣就

會產(chǎn)生如下一些情況:

-真正:判定《在G?中,實(shí)際上的確在其中。

分類器性能或《在。中,實(shí)際上不在其中。

《不在。中,實(shí)際上不在其中。

常負(fù)廠判定《不在G?中,實(shí)際上的碉在鮮叫不相關(guān)

檢索到AB

準(zhǔn)確率:P=A/(A抽索到CD

召回率:R=A/(A+C)

第40頁/共145頁

2022年-2023年最新

保持方法

給定數(shù)據(jù)隨機(jī)劃分為兩個(gè)集合:訓(xùn)練集(2/3)和測試集(1/3)

訓(xùn)練集導(dǎo)出分類法,測試集對其準(zhǔn)確性進(jìn)行評估

攵-折交叉驗(yàn)證

初始數(shù)據(jù)被劃分為々個(gè)不相交的,大小大致相同的子集

評估分髭碎的懣確第,次時(shí),以,做測試集,其他做訓(xùn)練集

?段角率為攵次迭代正確分類數(shù)除以初始數(shù)據(jù)集樣本總數(shù)

第41頁/共145頁

2022年-2023年最新

決策樹

KNN

分類分析

歸納總結(jié)

貝葉斯分類

關(guān)聯(lián)規(guī)則

序列模式

分類方神經(jīng)網(wǎng)絡(luò)BP算法

遺傳算法

粗糙集

文本挖掘

其他Web挖掘

空間數(shù)據(jù)挖掘

第42頁/共145頁

2022年-2023年最新

與一個(gè)類中的成員和另一個(gè)類中的成員之間的相似性相比,被映射到同一個(gè)類中的成員彼此

之間被認(rèn)為是更加相似的。

相似性(距離)度童可以用來識別數(shù)據(jù)庫中不同成員之間的“相似程度”O(jiān)

第43頁/共145頁

2022年-2023年最新

10

)

K

.

77

ClassA

66

44

3?3

基弓■J

ClassBClassC

I)I)

234S67M01237K

(a)類定義(b)待分類樣例(c)分類結(jié)果

第44頁/共145頁

2022年-2023年最新

(昌|陽-匕少

1=1

距離計(jì)量卷鏟3A卒"

X/2+弘力

旬.夫,*《osq—

當(dāng)p?2叼,為“幾量得距?

當(dāng)P?1電,為?距?

iSp->-M.為切比?火更?

向■內(nèi)科4C。

J(4B)=

寅啟余蛇AEB

Jaccard:

第45頁/共145頁

2022年-2023年最新

基于距離的分類方法

的一般性描述

?il■于?H的分

?人?個(gè)I?分■始元?,?

■出?出■?,.

?算法通過對每個(gè)元組和各個(gè)類的中心來比較,從而可

,,以找出他的最近的類中心,得到確定的類別標(biāo)記。

<4)c*-C,J

EHD.

第46頁/共145頁

2022年-2023年最新

K近鄰算法()

KHeatettAeifhb?f(|CHN)

44計(jì)算?卜,0“齊?八》“,公二

?.V小?。一???W”3Q?0口,,?當(dāng),件。a*A十,個(gè)ftN-

■?代?,A*,2必,3

?八《n個(gè)■券算A.

第47頁/共145頁

2022年-2023年最新

K近鄰算法(KNN)

■?升?9

,?ft■?4”■?■拿????凡?一/《”MBI*t■”??!冷■???》

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論