《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 1.3緒論-數(shù)據(jù)挖掘的任務(wù)_第1頁(yè)
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 1.3緒論-數(shù)據(jù)挖掘的任務(wù)_第2頁(yè)
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 1.3緒論-數(shù)據(jù)挖掘的任務(wù)_第3頁(yè)
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 1.3緒論-數(shù)據(jù)挖掘的任務(wù)_第4頁(yè)
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 1.3緒論-數(shù)據(jù)挖掘的任務(wù)_第5頁(yè)
已閱讀5頁(yè),還剩31頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章緒論數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘de任務(wù):分類和預(yù)測(cè)1)定義分類(classification):是找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測(cè)類標(biāo)記未知的對(duì)象的過(guò)程。注:導(dǎo)出模型(或函數(shù))是基于對(duì)訓(xùn)練數(shù)據(jù)集(即其類標(biāo)記已知的數(shù)據(jù)對(duì)象)的分析。2)分類模型的導(dǎo)出方式分類規(guī)則(IF-THEN)、決策樹(shù)、數(shù)學(xué)公式、神經(jīng)網(wǎng)絡(luò)等。3)相關(guān)分析(relevanceanalysis)一般情況下,相關(guān)分析需要在分類和預(yù)測(cè)之前進(jìn)行,它試圖識(shí)別對(duì)于分類和預(yù)測(cè)無(wú)用的屬性,且這些屬性應(yīng)被排除。數(shù)據(jù)挖掘de任務(wù):分類定義給定一批記錄----訓(xùn)練集(trainingset)Eachrecordcontainsasetofattributes,oneoftheattributesistheclasslabel(類標(biāo)號(hào)).任務(wù):建立一個(gè)模型(model)類標(biāo)號(hào)屬性是其他屬性值的函數(shù)目標(biāo):previouslyunseenrecordsshouldbeassignedaclassasaccuratelyaspossible.Atestset(檢驗(yàn)集)isusedtodeterminetheaccuracyofthemodel.Usually,thegivendatasetisdividedintotrainingandtestsets,withtrainingsetusedtobuildthemodelandtestsetusedtovalidateit3分類:例子4categoricalcategoricalcontinuousclassTestSetTrainingSetModelLearnClassifier分類:應(yīng)用1DirectMarketingGoal:Reducecostofmailingbytargetingasetofconsumerslikelytobuyanewcell-phoneproduct.Approach:Usethedataforasimilarproductintroducedbefore.Weknowwhichcustomersdecidedtobuyandwhichdecidedotherwise.This{buy,don’tbuy}decisionformstheclassattribute.Collectvariousdemographic,lifestyle,andcompany-interactionrelatedinformationaboutallsuchcustomers.Typeofbusiness,wheretheystay,howmuchtheyearn,etc.Usethisinformationasinputattributestolearnaclassifiermodel.5分類:應(yīng)用2FraudDetectionGoal:Predictfraudulentcasesincreditcardtransactions.Approach:Usecreditcardtransactionsandtheinformationonitsaccount-holderasattributes.Whendoesacustomerbuywhatdoeshebuyhowoftenhepaysontime,etcLabelpasttransactionsasfraudorfairtransactions.Thisformstheclassattribute.Learnamodelfortheclassofthetransactions.Usethismodeltodetectfraudbyobservingcreditcardtransactionsonanaccount.6分類:應(yīng)用3SkySurveyCatalogingGoal:Topredictclass(starorgalaxy)ofskyobjects,especiallyvisuallyfaintones,basedonthetelescopicsurveyimages(fromPalomarObservatory).3000imageswith23,040x23,040pixelsperimage.Approach:Segmenttheimage.Measureimageattributes(features)-40ofthemperobject.Modeltheclassbasedonthesefeatures.SuccessStory:Couldfind16newhighred-shiftquasars,someofthefarthestobjectsthataredifficulttofind!7分類:應(yīng)用38Attributes:Imagefeatures,Characteristicsoflightwavesreceived,etc.EarlyIntermediateLateDataSize:72millionstars,20milliongalaxiesObjectCatalog:9GBImageDatabase:150GB

Class:StagesofFormationCourtesy:決策樹(shù)決策樹(shù)提供了一種展示類似“在什么條件下會(huì)得到什么值”這類規(guī)則的方法。比如,在貸款申請(qǐng)中,要對(duì)申請(qǐng)的風(fēng)險(xiǎn)大小做出判斷,為了解決這個(gè)問(wèn)題而建立的一棵決策樹(shù),從中我們可以看到?jīng)Q策樹(shù)的基本組成部分:決策節(jié)點(diǎn)、分支和葉子。決策樹(shù)中最上面的節(jié)點(diǎn)稱為根節(jié)點(diǎn),是整個(gè)決策樹(shù)的開(kāi)始。決策樹(shù)決策樹(shù)是一個(gè)類似樹(shù)形結(jié)構(gòu)的流程圖,每個(gè)內(nèi)部節(jié)點(diǎn)表明在一個(gè)屬性上的測(cè)試,樹(shù)枝描述測(cè)試結(jié)果,葉子節(jié)點(diǎn)指明分類或分類的分布情況。構(gòu)造決策樹(shù)的方法采用自上而下遞歸的方式,如果訓(xùn)練例子集合中的所有例子是同類的,就將其作為一個(gè)葉子節(jié)點(diǎn),節(jié)點(diǎn)內(nèi)容為該類別的標(biāo)記。

否則,根據(jù)某種策略確定一個(gè)測(cè)試屬性,并按屬性的各種取值把實(shí)例集合劃分為若干個(gè)子集合,使每個(gè)子集上的所有實(shí)例在該屬性上具有相同的屬性值。

然后,再依次遞歸處理各個(gè)子集,直到得到滿意的分類屬性為止。

決策樹(shù)數(shù)據(jù)挖掘de任務(wù):聚類分析1)定義聚類(clustering):與分類和預(yù)測(cè)不同,它主要分析數(shù)據(jù)對(duì)象,而不考慮已知的類標(biāo)記。一般情況下,訓(xùn)練數(shù)據(jù)中不提供類標(biāo)記,因?yàn)椴恢缽暮伍_(kāi)始。聚類可以用于產(chǎn)生這種標(biāo)記。2)聚類或分組的原則“最大化類內(nèi)的相似性、最小化類間的相似性”對(duì)象的簇(聚類)的形成辦法為:使得在一個(gè)簇中的對(duì)象具有很高的相似性,而與其它簇中的對(duì)象很不相似。所形成的每個(gè)簇可以看作一個(gè)對(duì)象類,由它可以導(dǎo)出規(guī)則。聚類(Clustering)

聚類(Clustering)是將物理或抽象的對(duì)象集合分成多個(gè)組的過(guò)程,聚類生成的組稱為簇(Cluster),即簇是數(shù)據(jù)對(duì)象的集合。聚類就是要讓生成的簇內(nèi)部的任意兩個(gè)對(duì)象之間具有較高的相似度,而屬于不同簇的兩個(gè)對(duì)象間具有較高的相異度。

聚類IntraclusterdistancesareminimizedInterclusterdistancesaremaximized聚類分析從統(tǒng)計(jì)學(xué)的觀點(diǎn)看,聚類分析是對(duì)數(shù)據(jù)建模,從而簡(jiǎn)化數(shù)據(jù)的一種方法,作為多元統(tǒng)計(jì)分析的主要分支之一,聚類分析已被研究了很多年,主要集中在基于距離和基于相似度的聚類方法。從機(jī)器學(xué)習(xí)的觀點(diǎn)看,簇相當(dāng)于隱藏模式,聚類是搜索簇的無(wú)監(jiān)督學(xué)習(xí)過(guò)程。從實(shí)際應(yīng)用的角度看,聚類分析是數(shù)據(jù)挖掘的主要任務(wù)之一。數(shù)據(jù)挖掘領(lǐng)域主要研究面向大型數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)的高效和實(shí)用的聚類分析算法。聚類分析主要的數(shù)據(jù)挖掘聚類方法有:劃分的方法、層次的方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法等。聚類:定義給定一組具有多個(gè)屬性的數(shù)據(jù)點(diǎn),以及點(diǎn)與點(diǎn)的相似性衡量方法,則聚類即為使同一個(gè)簇中的點(diǎn)較與其他簇中的點(diǎn)更相似不同簇中的點(diǎn)比同一個(gè)簇中的點(diǎn)的相似性更弱相似性測(cè)度:歐幾里得距離(對(duì)于連續(xù)屬性)其他針對(duì)不同問(wèn)題的測(cè)度方法17聚類:應(yīng)用1MarketSegmentation:Goal:subdivideamarketintodistinctsubsetsofcustomerswhereanysubsetmayconceivablybeselectedasamarkettargettobereachedwithadistinctmarketingmix.Approach:Collectdifferentattributesofcustomersbasedontheirgeographicalandlifestylerelatedinformation.Findclustersofsimilarcustomers.Measuretheclusteringqualitybyobservingbuyingpatternsofcustomersinsameclustervs.thosefromdifferentclusters.18聚類:應(yīng)用2DocumentClustering:Goal:Tofindgroupsofdocumentsthataresimilartoeachotherbasedontheimportanttermsappearinginthem.Approach:Toidentifyfrequentlyoccurringtermsineachdocument.Formasimilaritymeasurebasedonthefrequenciesofdifferentterms.Useittocluster.Gain:

InformationRetrievalcanutilizetheclusterstorelateanewdocumentorsearchtermtoclustereddocuments19文檔聚類:例ClusteringPoints:3204ArticlesofLosAngelesTimes.SimilarityMeasure:Howmanywordsarecommoninthesedocuments(aftersomewordfiltering).20CategoryTotalArticlesCorrectlyPlacedFinancial555364Foreign341260National27336Metro943746Sports738573Entertainment354278數(shù)據(jù)挖掘de任務(wù):關(guān)聯(lián)分析:定義用來(lái)發(fā)現(xiàn)描述數(shù)據(jù)中強(qiáng)關(guān)聯(lián)特征的模式,所發(fā)現(xiàn)的模式通常用蘊(yùn)涵規(guī)則或特征子集的形式表示。由于搜索空間是指數(shù)規(guī)模的,關(guān)聯(lián)分析的目標(biāo)是以有效的方式提取最有趣的模式;找出具有相關(guān)功能的基因組、識(shí)別一起訪問(wèn)的Web頁(yè)面、理解地球氣候系統(tǒng)不同元素之間的聯(lián)系.RulesDiscovered:

{Diaper}-->{Milk}{Diaper,Milk}-->{Beer}關(guān)聯(lián)規(guī)則:定義關(guān)聯(lián)規(guī)則(associationrule)Givenasetofrecordseachofwhichcontainsomenumberofitemsfromagivencollection;Producedependencyruleswhichwillpredictoccurrenceofitemsbasedonoccurrencesofotheritems.22RulesDiscovered:

{Milk}-->{Coke}

{Diaper,Milk}-->{Beer}關(guān)聯(lián)規(guī)則:應(yīng)用1MarketingandSalesPromotion:Lettherulediscoveredbe

{Bagels,…}

-->

{PotatoChips}PotatoChips

asconsequent=>Canbeusedtodeterminewhatshouldbedonetoboostitssales.Bagelsintheantecedent=>Canbeusedtoseewhichproductswouldbeaffectedifthestorediscontinuessellingbagels.Bagelsinantecedent

and

Potatochipsinconsequent

=>CanbeusedtoseewhatproductsshouldbesoldwithBagelstopromotesaleofPotatochips!23關(guān)聯(lián)規(guī)則:應(yīng)用2Supermarketshelfmanagement.Goal:Toidentifyitemsthatareboughttogetherbysufficientlymanycustomers.Approach:Processthepoint-of-saledatacollectedwithbarcodescannerstofinddependenciesamongitems.Aclassicrule--Ifacustomerbuysdiaperandmilk,thenheisverylikelytobuybeer.So,don’tbesurprisedifyoufindsix-packsstackednexttodiapers!24異常檢測(cè)識(shí)別特征顯著不同于其他數(shù)據(jù)的觀測(cè)值應(yīng)用:檢測(cè)欺詐網(wǎng)絡(luò)攻擊疾病的不尋常模式生態(tài)系統(tǒng)擾動(dòng)異常檢測(cè)26異常檢測(cè)27異常檢測(cè)任務(wù):識(shí)別其特征顯著不同于其他數(shù)據(jù)的觀測(cè)值這樣的觀測(cè)值稱為異常點(diǎn)(anomaly)或離群點(diǎn)(outlier)發(fā)現(xiàn)真正的異常點(diǎn),而避免錯(cuò)誤地將正常的對(duì)象標(biāo)注為異常點(diǎn)應(yīng)用信用卡欺詐檢測(cè)網(wǎng)絡(luò)入侵檢測(cè)28人工神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)近來(lái)越來(lái)越受到人們的關(guān)注,因?yàn)樗鼮榻鉀Q大復(fù)雜度問(wèn)題提供了一種相對(duì)來(lái)說(shuō)比較有效的簡(jiǎn)單方法。神經(jīng)網(wǎng)絡(luò)可以很容易的解決具有上百個(gè)參數(shù)的。神經(jīng)網(wǎng)絡(luò)常用于兩類問(wèn)題:分類和回歸。支持向量機(jī)需特別指出的是,在一般情況下,統(tǒng)計(jì)學(xué)習(xí)理論和支持向量機(jī)(SVM)比一般的神經(jīng)網(wǎng)絡(luò)更有效,而且可將SVM看作是廣義化的神經(jīng)網(wǎng)絡(luò)。其優(yōu)點(diǎn)是,具有深厚的數(shù)學(xué)基礎(chǔ),算法可靠、推廣能力強(qiáng),適用于小樣本數(shù)據(jù)集的知識(shí)(或規(guī)則)發(fā)現(xiàn)。數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)庫(kù)分析和決策支持市場(chǎng)分析和管理針對(duì)銷售(targetmarketing),顧客關(guān)系管理,購(gòu)物籃分析,交叉銷售(crossselling),市場(chǎng)分割(marketsegmentation)風(fēng)險(xiǎn)分析與管理預(yù)測(cè),顧客關(guān)系,改進(jìn)保險(xiǎn),質(zhì)量控制,競(jìng)爭(zhēng)能力分析欺騙檢測(cè)與管理其它應(yīng)用文本挖掘(新聞組,email,文檔資料)流數(shù)據(jù)挖掘(Streamdatamining)Web挖掘.DNA數(shù)據(jù)分析31市場(chǎng)分析與管理(1)用于分析的數(shù)據(jù)源在哪?信用卡交易,會(huì)員卡,打折優(yōu)惠卷,顧客投訴電話,(公共)生活時(shí)尚研究針對(duì)銷售(Targetmarketing)找出顧客群,他們具有相同特征:興趣,收入水平,消費(fèi)習(xí)慣,等.確定顧客隨時(shí)間變化的購(gòu)買模式個(gè)人帳號(hào)到聯(lián)合帳號(hào)的轉(zhuǎn)變:結(jié)婚,等.交叉銷售分析(Cross-marketanalysis)產(chǎn)品銷售之間的關(guān)聯(lián)/相關(guān)基于關(guān)聯(lián)信息的預(yù)測(cè)32市場(chǎng)分析與管理(2)顧客分類(Customerpr

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論