數(shù)據(jù)挖掘定義與步驟_第1頁
數(shù)據(jù)挖掘定義與步驟_第2頁
數(shù)據(jù)挖掘定義與步驟_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章數(shù)據(jù)挖掘簡(jiǎn)介1.1數(shù)據(jù)挖掘的定義Dataminingistheprocessofseekinginterestingorvaluableinformationinlargedatabase.數(shù)據(jù)挖掘〔data

mining〕是近年來數(shù)據(jù)庫應(yīng)用領(lǐng)域中相當(dāng)熱門的話題。數(shù)據(jù)挖掘一般是指在數(shù)據(jù)庫或數(shù)據(jù)倉庫中,利用各種分析方法與技術(shù),對(duì)過去累積的大量繁雜數(shù)據(jù)進(jìn)行分析、歸納與整合等工作,提取出有用的信息,例如趨勢(shì)〔trend〕、模式〔pattern〕及相關(guān)性〔relationship〕等,并將其中有價(jià)值的信息作為決策參考提供應(yīng)決策者。通俗地說,數(shù)據(jù)挖掘就是從數(shù)據(jù)中開掘信息或知識(shí),有人稱為知識(shí)發(fā)現(xiàn)〔knowledge

discovery

indatabase,KDD〕,也有人稱為數(shù)據(jù)考古學(xué)〔dataarcheology〕、數(shù)據(jù)模式分析〔datapatternanalysis〕或功能相依分析〔functionaldependencyanalysis〕。目前,數(shù)據(jù)挖掘已經(jīng)成為數(shù)據(jù)庫系統(tǒng)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)方法等多個(gè)學(xué)科相互交叉的重要領(lǐng)域,而在實(shí)務(wù)界,越來越多的企業(yè)開始認(rèn)識(shí)到,實(shí)施數(shù)據(jù)挖掘可以為企業(yè)帶來更多潛在的商業(yè)時(shí)機(jī)。但我們對(duì)數(shù)據(jù)挖掘應(yīng)有一個(gè)正確的認(rèn)知:數(shù)據(jù)挖掘不是一個(gè)無所不能的魔法。數(shù)據(jù)挖掘的種種工具都是從數(shù)據(jù)中開掘出各種可能成立的“預(yù)言”,并對(duì)其潛在價(jià)值加以“估計(jì)”,但數(shù)據(jù)挖掘本身并不能在實(shí)際中查證和確認(rèn)這些假設(shè),也不能判斷這些假設(shè)的實(shí)際價(jià)值。1.2數(shù)據(jù)挖掘的重要性現(xiàn)代企業(yè)經(jīng)常會(huì)搜集大量的數(shù)據(jù),這些數(shù)據(jù)涵蓋了市場(chǎng)、客戶、供貨商,及其競(jìng)爭(zhēng)對(duì)手等重要信息,但是由于信息超載與無結(jié)構(gòu)化,企業(yè)的決策者無法充分利用這些龐大的數(shù)據(jù)資源,僅能使用其中的一小局部,這可能導(dǎo)致決策失誤,甚至出現(xiàn)決策錯(cuò)誤。而借助數(shù)據(jù)挖掘技術(shù),企業(yè)完全有能力從浩瀚的數(shù)據(jù)海洋中,挖掘出全面而又有價(jià)值的信息和知識(shí),并作為決策支持之用,進(jìn)而形成企業(yè)獨(dú)有的競(jìng)爭(zhēng)優(yōu)勢(shì)。1.3數(shù)據(jù)挖掘的功能一般而言,數(shù)據(jù)挖掘包括以下五項(xiàng)功能,這些功能大多為成熟的計(jì)量和統(tǒng)計(jì)分析方法。1.分類〔classification〕按照分析個(gè)體的屬性狀態(tài)分別加以區(qū)分,并建立類組〔class〕。例如,將信用申請(qǐng)者的風(fēng)險(xiǎn)等級(jí)分為高風(fēng)險(xiǎn)、中風(fēng)險(xiǎn)和低風(fēng)險(xiǎn)三類。使用的方法有決策樹〔decision

tree〕、判別分析〔discriminant

analysis〕、類神經(jīng)網(wǎng)絡(luò)〔artificial

neural

network〕,以及記憶根底推理〔memory-basedreasoning〕等。2.估計(jì)〔estimation〕根據(jù)已有的數(shù)值型變量和相關(guān)的分類變量,以獲得某一屬性的估計(jì)值或預(yù)測(cè)值。例如,根據(jù)信用卡申請(qǐng)者的教育程度和從事職業(yè)來設(shè)定其信用額度。使用的方法有相關(guān)分析、Logistic回歸及類神經(jīng)網(wǎng)絡(luò)等。3.預(yù)測(cè)〔prediction〕根據(jù)個(gè)體屬性的已有觀測(cè)值來估計(jì)該個(gè)體在某一屬性上的預(yù)測(cè)值。例如,由顧客過去刷卡消費(fèi)額預(yù)測(cè)其未來的刷卡消費(fèi)額。使用的方法有回歸分析、時(shí)間序列分析及類神經(jīng)網(wǎng)絡(luò)等。4.關(guān)聯(lián)分組〔affinitygrouping〕從所有對(duì)象決定哪些相關(guān)對(duì)象應(yīng)該放在一起。例如,超市中相關(guān)的洗漱用品〔牙刷、牙膏、牙線〕放在同一貨架上。在客戶營銷系統(tǒng)上,這類分析可以用來發(fā)現(xiàn)潛在的交叉銷售〔cross-selling〕商品聚類,進(jìn)而設(shè)計(jì)出有價(jià)值的組合商品集合。5.同質(zhì)分組〔clustering〕將異質(zhì)總體分成為同質(zhì)性的類別〔clusters〕,即聚類。其目的是識(shí)別出總體中所包含的混合類別的組間差異,并根據(jù)每個(gè)類別的特征對(duì)所有個(gè)體進(jìn)行歸類。同質(zhì)分組相當(dāng)于營銷術(shù)語中的細(xì)分〔segmentation〕。應(yīng)該注意的是:聚類分析根據(jù)數(shù)據(jù)自動(dòng)產(chǎn)生各個(gè)類別,事先是不知道或無須知道總體中潛在的類別信息。使用的方法有k-means等動(dòng)態(tài)聚類法及agglomeration等層次聚類法。1.4數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘的步驟會(huì)隨不同領(lǐng)域的應(yīng)用而有所變化,每一種數(shù)據(jù)挖掘技術(shù)也會(huì)有各自的特性和使用步驟,針對(duì)不同問題和需求所制定的數(shù)據(jù)挖掘過程也會(huì)存在差異。此外,數(shù)據(jù)的完整程度、專業(yè)人員支持的程度等都會(huì)對(duì)建立數(shù)據(jù)挖掘過程有所影響〔蔡維欣,2003〕。這些因素造成了數(shù)據(jù)挖掘在各不同領(lǐng)域中的運(yùn)用、規(guī)劃,以及流程的差異性,即使同一產(chǎn)業(yè),也會(huì)因?yàn)榉治黾夹g(shù)和專業(yè)知識(shí)的涉入程度不同而不同,因此對(duì)于數(shù)據(jù)挖掘過程的系統(tǒng)化、標(biāo)準(zhǔn)化就顯得格外重要。如此一來,不僅可以較容易地跨領(lǐng)域應(yīng)用,也可以結(jié)合不同的專業(yè)知識(shí),發(fā)揮數(shù)據(jù)挖掘的真正精神。數(shù)據(jù)挖掘完整的步驟如下:①理解數(shù)據(jù)和數(shù)據(jù)的來源〔understanding〕。②獲取相關(guān)知識(shí)與技術(shù)〔acquisition〕。③整合與檢查數(shù)據(jù)〔integrationandchecking〕。④去除錯(cuò)誤或不一致的數(shù)據(jù)〔datacleaning〕。⑤建立模型和假設(shè)〔modelandhypothesisdevelopment〕。⑥實(shí)際數(shù)據(jù)挖掘工作〔datamining〕。⑦測(cè)試和驗(yàn)證挖掘結(jié)果〔testingandverfication〕。⑧解釋和應(yīng)用〔interpretationanduse〕。由上述步驟可看出,數(shù)據(jù)挖掘牽涉了大量的準(zhǔn)備工作與規(guī)劃工作,事實(shí)上許多專家都認(rèn)為整套數(shù)據(jù)挖掘的過程中,有80%的時(shí)間和精力是花費(fèi)在數(shù)據(jù)預(yù)處理階段,其中包括數(shù)據(jù)的凈化、數(shù)據(jù)格式轉(zhuǎn)換、變量整合,以及數(shù)據(jù)表的鏈接??梢?,在進(jìn)行數(shù)據(jù)挖掘技術(shù)的分析之前,還有許多準(zhǔn)備工作要完成。1.5數(shù)據(jù)挖掘建模的標(biāo)準(zhǔn)CRISP-DMCRISP-DM是Cross-IndustryStandardProcessforDataMining的簡(jiǎn)稱,中文翻譯為“數(shù)據(jù)挖掘的跨行業(yè)標(biāo)準(zhǔn)過程”。CRISP-DM是由歐洲幾家在數(shù)據(jù)挖掘應(yīng)用上有經(jīng)驗(yàn)的公司共同籌劃組織的一個(gè)特別小組所提出的。該組織的成員包括數(shù)據(jù)倉儲(chǔ)供貨商N(yùn)CR、德國汽車航天公司Daimler-Chrysler、統(tǒng)計(jì)分析軟件供貨商SPSS和荷蘭的銀行保險(xiǎn)公司OHRA,除了NCR與SPSS等是專注于數(shù)據(jù)挖掘軟件開發(fā)的成員之外,也有其他眾多廠商參與實(shí)驗(yàn),通過實(shí)際操作過程,整體規(guī)劃設(shè)計(jì),并在2000年推出了CRISP-DM1.0模型,把數(shù)據(jù)挖掘過程中必要的步驟都加以標(biāo)準(zhǔn)化。CRISP-DM模型強(qiáng)調(diào)完整的數(shù)據(jù)挖掘過程,不能只針對(duì)數(shù)據(jù)整理、數(shù)據(jù)顯示、數(shù)據(jù)分析以及構(gòu)建模型,而應(yīng)該將對(duì)企業(yè)的需求問題的理解,以及后期對(duì)模型的評(píng)價(jià)與模型的延伸應(yīng)用都納入到數(shù)據(jù)挖掘過程中。因此,CRISP-DM從方法學(xué)的角度強(qiáng)調(diào)了實(shí)施數(shù)據(jù)挖掘工程的方法和步驟,同時(shí)獨(dú)立于每種具體數(shù)據(jù)挖掘算法和數(shù)據(jù)挖掘系統(tǒng)。CRISP-DM分為六個(gè)階段〔phase〕和四個(gè)層次〔level〕,分別簡(jiǎn)介如下。六個(gè)階段如下。1.定義商業(yè)問題〔businessunderstanding〕本階段的主要工作是要針對(duì)企業(yè)問題以及企業(yè)需求進(jìn)行了解確認(rèn),針對(duì)不同的需求做深入的了解,將其轉(zhuǎn)換成數(shù)據(jù)挖掘的問題,并擬定初步設(shè)想。在此階段中,需要與企業(yè)各層次進(jìn)行討論,只有對(duì)要解決的問題有了非常清楚而全面的了解,才能正確地針對(duì)問題擬定分析過程。2.?dāng)?shù)據(jù)理解〔dataunderstanding〕此階段包括建立數(shù)據(jù)庫與分析數(shù)據(jù)。在這個(gè)階段必須先收集數(shù)據(jù),了解數(shù)據(jù)的含義與特性,并過濾出所有可能有用的數(shù)據(jù),然后進(jìn)行數(shù)據(jù)整理并評(píng)估數(shù)據(jù)的質(zhì)量,必要時(shí)再將分屬不同數(shù)據(jù)庫的數(shù)據(jù)加以合并或整合。數(shù)據(jù)庫建立完成后再進(jìn)行數(shù)據(jù)分析,并找出影響最大的數(shù)據(jù),進(jìn)而判斷是否有必要進(jìn)一步收集更為詳細(xì)的數(shù)據(jù)。3.?dāng)?shù)據(jù)預(yù)處理〔datapreparation〕此階段和數(shù)據(jù)理解階段為數(shù)據(jù)準(zhǔn)備階段的核心,這是建立模型前的最后一步數(shù)據(jù)準(zhǔn)備工作。數(shù)據(jù)預(yù)處理任務(wù)很可能要反復(fù)執(zhí)行屢次,并且沒有任何既定的順序,其目的是把各種不同來源的數(shù)據(jù)加以清理、整理和歸并,以適合數(shù)據(jù)挖掘技術(shù)的使用。4.建立模型〔modeling〕此階段對(duì)預(yù)處理過的數(shù)據(jù)應(yīng)用各種數(shù)據(jù)挖掘技術(shù),建立分析模型,發(fā)現(xiàn)企業(yè)問題的根源。面對(duì)同一個(gè)問題,會(huì)有多種可供使用的分析技術(shù),但是每種技術(shù)對(duì)數(shù)據(jù)都有不盡相同的要求,因此需要回到數(shù)據(jù)預(yù)處理階段,重新轉(zhuǎn)換數(shù)據(jù)為符合要求的格式。5.評(píng)價(jià)和解釋〔evaluationandexplanation〕從數(shù)據(jù)分析的觀點(diǎn)看,在開始進(jìn)入這個(gè)階段時(shí)已經(jīng)建立了看似是高質(zhì)量的模型,但在實(shí)際應(yīng)用中,隨著應(yīng)用數(shù)據(jù)的不同,模型的準(zhǔn)確率肯定會(huì)變化。這一階段的主要任務(wù)是對(duì)于挖掘結(jié)果加以評(píng)價(jià)和解釋。一個(gè)值得注意的問題是:是否有某些重要的商業(yè)問題還沒有充分地考慮,以至于使模型的預(yù)測(cè)精度發(fā)生了顯著的變化。6.實(shí)施〔deployment〕一般而言,完成模型創(chuàng)立并不意味著工程結(jié)束。模型建立并經(jīng)驗(yàn)證后,有兩種主要的使用方法。第一種是提供應(yīng)分析人員做參考,由分析人員通過查看和分析這個(gè)模型后提出行動(dòng)方案建議;另一種是把此模型應(yīng)用到不同的數(shù)據(jù)集上。此外,在應(yīng)用了模型后,當(dāng)然還要不斷監(jiān)控它的效果。四個(gè)層次〔level〕分別為phase、generictask、specializedtask和processinstance。每個(gè)phase由假設(shè)干generictask組成,每個(gè)generictask又實(shí)施假設(shè)干specializedtask,每

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論