版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2022年-2023年最新
數(shù)據(jù)挖掘概覽
數(shù)據(jù)預(yù)處理
分類(Classification)
聚類(Cluster)
關(guān)聯(lián)規(guī)則(AssociationRule)
回歸(Regression)
提綱
第1頁/共145頁
2022年-2023年最新
What?
數(shù)據(jù)挖掘的定義
Why?
數(shù)據(jù)挖掘概覽數(shù)據(jù)挖掘的動(dòng)機(jī)
How?
哪些數(shù)據(jù)可以用來挖掘?
數(shù)據(jù)挖掘的主要內(nèi)容
第2頁/共145頁
2022年-2023年最新
什么是數(shù)據(jù)挖掘(DataMining)?
-Extractionofinteresting(non-trivial,implicit、previously
unknownandpotentiallyuseful)patternsorknowledge
fromhugeamountofdata
—其他稱謂:
數(shù)據(jù)挖掘定義scovery(minmg)indatabase(KDD),data/pattern
DataData
Apostprocessing
mining
ilkagingana
infonnationhaivesting
Featureselection
Filteringpatterns
Dimensionreduction
Visuaralization
Normalization
Patterninterpretation
Datasubsetting
Data”融.rocess
2022年-2023年最新
模式有效性度量
Xlapliclly
2.t-^sss?cl3tl?a/rileJcagtb.ecls4?ajtfccsisc
Cvrtalaty
Bf.caafidcaee.7%AS/?&aeBj-B/.claxslflcxeieaxeJlafelllty
?rxccatse;.c?4cstrcattA.etc
VtllHy
Petcatialvscfvlactz.c.?:>>>?(<a?isctbccstelf
Kflcxcxlptlea/
N?tfrcTleasl7*a*va.svrfrislag\?se4totc*ovctcdiotfsatroles/
第4頁/共145頁
2022年-2023年最新
1.數(shù)據(jù)量大
2.缺乏理論知識
3.數(shù)據(jù)挖掘可以幫助
產(chǎn)生新的假說或者
使數(shù)據(jù)變得有意義
ScienceParadigms
?Thousandyearsago
sciencewasempirical
dexribmgnaturalpbenomeno
?Lastfewhundredyears:
theoreticalbranch
usingmoaelB,genera:tzacons
?Lastfewdecades
acomputationalbranch
smuiatinacomptexphenomena
?Today:
dataexploration(eScience)
unrfythoorycxponmentandomutation
□singdatamanag9nentandstatistics
一DatacapturedbyinttnjrxM
6generatedSM^uiator
-Piccmwddyu)<tware
entistanatyzBdatabase,ftlee
145責(zé)
2022年-2023年最新
Mearedrowningindata,butstarvinginknowledge
Dataexplosion:Automateddatacollectiontoolsandmaturedatabase
technologyleadtotremendousamountsofdataaccumulatedand/orto
苦惱:淹沒在數(shù)據(jù)中;不能制定合適的決策!
—
數(shù)據(jù)
為何薩
金
式
融
模目標(biāo)市場
經(jīng)
勢
濟(jì)
趨
資金分配
政
府
實(shí)
事
貿(mào)易選擇
人
口
系
關(guān)
統(tǒng)計(jì)
在哪兒做廣告
生
命
型
模
周
期
銷售的地理位置
聯(lián)
關(guān)
則
例加頁哄145頁
2022年-2023年最新
輔助社
會管理
了推動(dòng)科促進(jìn)民
數(shù)據(jù)挖可數(shù)據(jù)挖掘
技進(jìn)步生改善
智能交通
股票趨勢分析
支持商
業(yè)決策
Time,t(Years:第7頁/共145頁
2022年-2023年最新
?銀行
>美國銀行家協(xié)會(ABA)預(yù)測數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技
術(shù)在美國商業(yè)銀行的應(yīng)用增長率是14.9%。
>分析客戶使用分銷渠道的情況和分銷渠道的容量;
建立利潤評測模型;客戶關(guān)系優(yōu)化;風(fēng)險(xiǎn)控制等
?電子商務(wù)
>網(wǎng)上商品推薦;個(gè)性化網(wǎng)頁;自適應(yīng)網(wǎng)站…
數(shù)據(jù)熔?生物制藥、基因研究
至到查詢和匹配;識別基因序列的共發(fā)生性…
,電信
>欺詐甄別;客戶流失…
?保險(xiǎn)、零售
第8頁/共145頁
2022年-2023年最新
決策樹DecisionTrees序列分析SequenceAnalysis
In:ome>$4)K?傾向性分析
Deb|<10%ofIncfxne
?客匯生命周期管理
?目標(biāo)市場
?價(jià)格彈性分析
數(shù)據(jù)捻掘應(yīng)用關(guān)聯(lián)分析Association神經(jīng)網(wǎng)絡(luò)NeuralNetworks
?市場組合分析
?套裝產(chǎn)品分析?傾向性分析
?客斤保留
?交叉銷售?目標(biāo)市場
?欺詐檢測
,”,factorn
factor1factor2
第9頁/共145頁
2022年-2023年最新
數(shù)據(jù)挖掘步驟
U?dS-C)
B■<?I》
■I■■■£>
敷加檢9EH宓I使用"嬉方送廈航敕呢模式)
??■?■?BS.■a,,?**■
殘■曄估(景別9(供R俄的H正壽■檄式)
知景哀示C可融化卬知我表示及術(shù))
第10頁/共145頁
2022年-2023年最新
數(shù)據(jù)質(zhì)量衡量:
準(zhǔn)確度:collectorwrong,accurateornot
完整度:noticcoidedunavailable
致性:somemodifiedbutsomenot,dangling
時(shí)效性:timelyupdate?
數(shù)據(jù)質(zhì)量:為偈薪owtrustablethedataarecorrect?
據(jù)預(yù)處性:howeasilythedatacanbeunderstood?
第11頁/共145頁
數(shù)據(jù)挖掘預(yù)處理的主要任務(wù)
數(shù)據(jù)清理
填寫空缺的值,平滑噪聲數(shù)據(jù),k識別、刪除孤立點(diǎn),解決
不一致性
數(shù)據(jù)集成
集成多個(gè)數(shù)據(jù)庫、數(shù)據(jù)立方體或文件
數(shù)據(jù)變換
規(guī)范化和聚集
數(shù)據(jù)歸約
得到數(shù)據(jù)集的壓縮表示,、劇罐,但可以得到相同或相
數(shù)據(jù)離最化
數(shù)據(jù)歸約的一黠儲的離散化來規(guī)約
:IlliWI要
第12頁/共145頁
2022年-2023年最新
數(shù)據(jù)清洗
琴我■登?理??矢■?只?修■?■
裁n:八??????:
??密合????????■
■9:??1411*?I4
年一*住
一?
9VM:筌陽■一■?”?!!?住
第13頁/共145頁
2022年-2023年最新
缺失值
(Incomplete/Missi
ngData)
9■圣?????
w
<H0O90B^-?nv?iat
S?A>9.■■■■口??¥a?侵丹上???八
1t?an?iswan8?e?
第14頁/共145頁
2022年-2023年最新
如何補(bǔ)充缺失值
電■元電:當(dāng)女標(biāo)號嶙少時(shí)通常這幺01(做定蛇蠅任務(wù)段計(jì)分類或建城I?當(dāng)?個(gè),
性9少■的百分比文化很大時(shí),它的效事塞常*.
人工依目空籍值:工作■大,町杼性他
使用一個(gè)全身變It,光交聯(lián)值:比皿使用unknown睢-8
使用艮慢的平均■■充空或值
使用與哈定元雄■同一類的備有樣本的軍均值
?雨■/旁■使用貳取對龍?法樣g■于■■一方■
第15頁/共145頁
2022年-2023年最新
噪聲:一個(gè)測量變量中的隨機(jī)錯(cuò)誤或偏差
引起不正確屬性值的原因
數(shù)據(jù)收集工具的問題
數(shù)據(jù)輸入錯(cuò)誤
數(shù)據(jù)傳輸錯(cuò)誤
噪聲數(shù)據(jù)技術(shù)限制
----------------命名規(guī)則的不一致
其它需要數(shù)據(jù)清理的數(shù)據(jù)問題
重復(fù)記錄
不完整的數(shù)據(jù)
不一致的數(shù)據(jù)
第16頁/共145頁
2022年-2023年最新
如何處理噪聲數(shù)據(jù)
分?
tinttort4ataza?partltlealataKC?vl-fl€fIlas
tbea?&ccia:s■?tb?y?laacaa::c&olyfeiaacdlaa.:*??tMby
>infr?s<farlC3.etc.
MA
4ceecta*dscsave?Btlicrs
人■■含
tcecct:v:>iciav:▼3loc:s&dcbcckbybv&xstc.fdolvltta
??iliccsi
se
第17頁/共145頁
2022年-2023年最新
分箱(Binning)
dist&acc)partieiea.A/:
SimestAer3*tclat?ftlatCKvaJt?fe<aaltlsc:oatfirafttd
LtAsottzeetac1?westaaaBif*c:tvalies?ftAcaetnbvec.tacd*
?flaterTSl:vlJJbe:w?4),*
Tbcacst3tcaltAtfaxwartf.fest*37di*LQ3tcfX€2cat?t4?n
ZkcwceflatxIsa?tM3A?1C<well
崢;KEqual-depth(ftc^vcacyyfartitioatag:
Divltettbcxzafelot*Kiatcrvals.cicAceaeaislafapjr?xiaatcJyx2ac
avabetefsaaple:
Oeatfseascallaf
lianaria*e3te*?cicilattxlbtitesezaIttrlcMv.第18頁/共145頁
2022年-2023年最新
數(shù)據(jù)平滑的分箱方法
■?I?dsn)*?a:1*s-??Its*
■》力(■等的>IB
■,XV,:V,3
第19頁/共145頁
2022年-2023年最新
A每個(gè)簇中的數(shù)據(jù)用其中心值代替
A忽略孤立點(diǎn)
A先通過聚類等方法找出孤立點(diǎn)。這些孤立
點(diǎn)可能包含有用的信息。
聚取土再審查這些孤立點(diǎn)
Analysis
第20頁/封145頁
2022年-2023年最新
》通過構(gòu)造函數(shù)來符合數(shù)據(jù)變化的趨勢,這
樣可以用一個(gè)變量預(yù)測另一個(gè)變量。
/線性回歸
y=a+/
Regression
丫=a+尸1X1+/72乂2
/非線性回歸
23
y=a+/71X+/72X-F/73X
第21頁/共145頁
2022年-2023年最新
數(shù)據(jù)集成
第22頁/共145頁
2022年-2023年最新
數(shù)據(jù)變換(規(guī)范化)
■9???■?<??■,之,/一??■”■■■,?????????????,?,
第23頁/共145頁
2022年-2023年最新
》平滑,聚集
A數(shù)據(jù)概化,規(guī)范化
A屬性構(gòu)造(特征構(gòu)造)
v—min
有限區(qū)間的歸一化:
max-min
1
-*但無限區(qū)間的歸一化:v'=-------
數(shù)據(jù)箕換模糊隸屬度:1+/
2022年-2023年最新
數(shù)據(jù)規(guī)約
第25頁/共145頁
2022年-2023年最新
數(shù)據(jù)規(guī)約
剛??收?立NRiiMitar??
第26頁/共145頁
2022年-2023年最新
據(jù)立方體存儲多維聚集信息,提供對預(yù)計(jì)算的匯總
數(shù)據(jù)進(jìn)行快速訪問。
如:立方體內(nèi)存儲季度銷售額,若對年銷售額感興
趣,可對數(shù)據(jù)執(zhí)行聚集操作,例如sum。等。
數(shù)據(jù)立方
year
第27頁/共145頁
2022年-2023年最新
屬性子集選擇
0U11◎不用)1,金的陷什utM>*小,I卜*
K11”站漢出■小你.使用口》4的?*"新年川融博襟應(yīng)假帽懵“Mil”到的
M分布
的MD?掩京館出力,,叢4、配《俯.電幕昆舊耳■聶雋SMffH*1發(fā)式。
修?
如黃心W片,刈坨《?優(yōu)木,*1^憎
遍◎肉”e界
整》向vaiRk
a*婚葬機(jī)尚c■華曲內(nèi)內(nèi)
s母同心靖
第28頁/共145頁
2022年-2023年最新
維度規(guī)約
分為至4和的偽網(wǎng)紳.
19方法J
??■??O?T?.<?.?唐????(.
iaHv*'*PCA>.u?.
第29頁/共145頁
2022年-2023年最新
數(shù)值規(guī)約
礙以分為制Ck方域和
??,■?M?4?ra?r?ai4on?RMea#Mfl
??aJTM..aJI■.■貴
第30頁/共145頁
2022年-2023年最新
離散化
<1)感應(yīng)票些僅按受離!|■的■法;
(2>?小敷搪的尺庾.
第31頁/共145頁
2022年-2023年最新
抽樣
米價(jià)》的杵*(千?卜不是大戈的事集
f,???eaiei”
”?,
第32頁/共145頁
2022年-2023年最新
分類
第33頁/共145頁
2022年-2023年最新
分類是指將數(shù)據(jù)映射到預(yù)先定義好的群組或類。
在分析測試數(shù)據(jù)之前,類別就已經(jīng)被確定了,所以分類統(tǒng)稱被稱作有指導(dǎo)的學(xué)習(xí)。
分類算法妥求基于數(shù)據(jù)屬性來定義類別。
分類算法通常通過觀察已知所屬類別的數(shù)據(jù)的特征來描述類別。
分類
第34頁/共145頁
2022年-2023年最新
分類應(yīng)用
第35頁/共145頁
2022年-2023年最新
分類步驟
第36頁/共145頁
2022年-2023年最新
Classification
TrainingAlgoritluns
Data口
Classifier
RANKYFARSTFN1JRFR
NAMF(Model)
1iJik酹no
MarvAssistantProf7ves
BillProfessor____2ves
JimAssociateProf7VASIFrank=professor1
DaveAssistantProf___6_______no____
ORyJears>6
Anne—AssociateProf—3—-------no------THENtenured='ves
第37頁/共145頁
2022年-2023年最新
Testmg
Data
2)(Jeff,Professor,4)
NAMERANKYEARSTENUREDTenured?B
TomAssistantProf2no
MerlisaAssociateProf7no
GeorgeProfessor5yes
JosephAssistantProf7yes
第38頁/共145頁
2022年-2023年最新
分類方法評價(jià)
n霸普■?率
?述,及橫大,比前京星過倩an,量甘19n住力
?拘G*甲n0值
?3網(wǎng)"5tft打竹曼的0代
?喊電**空?依協(xié)???■信■力
X?ftMH.城IHQ懵號的艙力
qim第39頁/共145頁
2022年-2023年最新
準(zhǔn)確率和召回率?混淆矩陣等
給定一個(gè)類Cj和一個(gè)數(shù)據(jù)庫元組ti,ti可能被分類器判定為屬
于Cj或不屬于Cj,其實(shí)ti本身可能屬于Cj或不屬于Cj,這樣就
會產(chǎn)生如下一些情況:
-真正:判定《在G?中,實(shí)際上的確在其中。
分類器性能或《在。中,實(shí)際上不在其中。
《不在。中,實(shí)際上不在其中。
常負(fù)廠判定《不在G?中,實(shí)際上的碉在鮮叫不相關(guān)
檢索到AB
準(zhǔn)確率:P=A/(A抽索到CD
召回率:R=A/(A+C)
第40頁/共145頁
2022年-2023年最新
保持方法
給定數(shù)據(jù)隨機(jī)劃分為兩個(gè)集合:訓(xùn)練集(2/3)和測試集(1/3)
訓(xùn)練集導(dǎo)出分類法,測試集對其準(zhǔn)確性進(jìn)行評估
攵-折交叉驗(yàn)證
初始數(shù)據(jù)被劃分為々個(gè)不相交的,大小大致相同的子集
評估分髭碎的懣確第,次時(shí),以,做測試集,其他做訓(xùn)練集
?段角率為攵次迭代正確分類數(shù)除以初始數(shù)據(jù)集樣本總數(shù)
第41頁/共145頁
2022年-2023年最新
決策樹
KNN
分類分析
歸納總結(jié)
貝葉斯分類
關(guān)聯(lián)規(guī)則
序列模式
分類方神經(jīng)網(wǎng)絡(luò)BP算法
遺傳算法
粗糙集
文本挖掘
其他Web挖掘
空間數(shù)據(jù)挖掘
第42頁/共145頁
2022年-2023年最新
與一個(gè)類中的成員和另一個(gè)類中的成員之間的相似性相比,被映射到同一個(gè)類中的成員彼此
之間被認(rèn)為是更加相似的。
相似性(距離)度童可以用來識別數(shù)據(jù)庫中不同成員之間的“相似程度”O(jiān)
第43頁/共145頁
2022年-2023年最新
10
)
K
.
77
ClassA
66
44
3?3
基弓■J
ClassBClassC
I)I)
234S67M01237K
(a)類定義(b)待分類樣例(c)分類結(jié)果
第44頁/共145頁
2022年-2023年最新
(昌|陽-匕少
1=1
距離計(jì)量卷鏟3A卒"
X/2+弘力
旬.夫,*《osq—
當(dāng)p?2叼,為“幾量得距?
當(dāng)P?1電,為?距?
iSp->-M.為切比?火更?
向■內(nèi)科4C。
J(4B)=
寅啟余蛇AEB
Jaccard:
第45頁/共145頁
2022年-2023年最新
基于距離的分類方法
的一般性描述
?il■于?H的分
?人?個(gè)I?分■始元?,?
■出?出■?,.
?算法通過對每個(gè)元組和各個(gè)類的中心來比較,從而可
,,以找出他的最近的類中心,得到確定的類別標(biāo)記。
<4)c*-C,J
EHD.
第46頁/共145頁
2022年-2023年最新
K近鄰算法()
KHeatettAeifhb?f(|CHN)
44計(jì)算?卜,0“齊?八》“,公二
?.V小?。一???W”3Q?0口,,?當(dāng),件。a*A十,個(gè)ftN-
■?代?,A*,2必,3
?八《n個(gè)■券算A.
第47頁/共145頁
2022年-2023年最新
K近鄰算法(KNN)
■?升?9
,?ft■?4”■?■拿????凡?一/《”MBI*t■”??!冷■???》
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 酒精發(fā)酵工風(fēng)險(xiǎn)評估與管理競賽考核試卷含答案
- 化工安全員崗前流程考核試卷含答案
- 鉆床工沖突管理測試考核試卷含答案
- 2024年海南州特崗教師招聘真題匯編附答案
- 2024年海南開放大學(xué)馬克思主義基本原理概論期末考試題附答案
- 醫(yī)療保險(xiǎn)政策解讀與操作手冊(標(biāo)準(zhǔn)版)
- 2024年運(yùn)城市遴選公務(wù)員筆試真題匯編附答案
- 2024年許昌市遴選公務(wù)員筆試真題匯編附答案
- 2024年福州職業(yè)技術(shù)學(xué)院輔導(dǎo)員考試筆試題庫附答案
- 2025年家電維修技術(shù)手冊
- 四川藏區(qū)高速公路集團(tuán)有限責(zé)任公司2026年校園招聘備考題庫完美版
- 多重耐藥菌醫(yī)院感染預(yù)防與控制技術(shù)指南完整版
- 2026年1月浙江省高考(首考)英語試題(含答案詳解)+聽力音頻+聽力材料
- 河南新鄉(xiāng)鶴壁安陽焦作2026年1月高三一模物理試題+答案
- 2026年食品安全快速檢測儀器項(xiàng)目可行性研究報(bào)告
- 2026年及未來5年市場數(shù)據(jù)中國電能計(jì)量裝置市場競爭格局及投資戰(zhàn)略規(guī)劃報(bào)告
- Web滲透測試與防護(hù)(虞菊花慕課版)單元設(shè)計(jì)
- 資本市場運(yùn)作培訓(xùn)課件
- 地理信息安全在線培訓(xùn)考試系統(tǒng)題庫及答案
- 高標(biāo)準(zhǔn)農(nóng)田監(jiān)理質(zhì)量及安全管理措施
- 魯教版(五四學(xué)制)(2012)九年級英語全冊期末總復(fù)習(xí)
評論
0/150
提交評論