數(shù)據(jù)挖掘現(xiàn)狀及未來發(fā)展趨勢_第1頁
數(shù)據(jù)挖掘現(xiàn)狀及未來發(fā)展趨勢_第2頁
數(shù)據(jù)挖掘現(xiàn)狀及未來發(fā)展趨勢_第3頁
數(shù)據(jù)挖掘現(xiàn)狀及未來發(fā)展趨勢_第4頁
數(shù)據(jù)挖掘現(xiàn)狀及未來發(fā)展趨勢_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘現(xiàn)狀及發(fā)展方向制作人:丁鵬指導(dǎo)教師:黃振華主要內(nèi)容MainContents123數(shù)據(jù)挖掘的含義及功能數(shù)據(jù)挖掘問題及應(yīng)用現(xiàn)狀4數(shù)據(jù)挖掘研究熱點數(shù)據(jù)挖掘技術(shù)的三大支柱5數(shù)據(jù)挖掘的未來發(fā)展方向含義含義數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)(包括結(jié)構(gòu)化和非結(jié)構(gòu)化)中挖掘出隱含在其中的、事先不為人知的、潛在的、有用信息和知識的技術(shù)。這些信息是可能有潛在價值的,是用戶感興趣的、可理解、可運(yùn)用的,支持決策,可以為企業(yè)帶來利益,或者為科學(xué)研究尋找突破口。數(shù)據(jù)挖掘所能發(fā)現(xiàn)的知識:廣義型特征型差異型關(guān)聯(lián)型預(yù)測型偏離型功能功能關(guān)聯(lián)規(guī)則和序列模式的發(fā)現(xiàn):預(yù)測及偏差檢測AAA功能聚類ABC分類按照分析對象的屬性、特征,建立不同的組類來描述事物。。識別出分析對內(nèi)在的規(guī)則,按照這些規(guī)則把對象分成若干類。。關(guān)聯(lián)是某種事物發(fā)生時其他事物會發(fā)生的這樣一種聯(lián)系。預(yù)測:把握分析對象發(fā)展的規(guī)律,對未來的趨勢做出預(yù)見。偏差的檢測:對分析對象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。存在的問題存在的問題數(shù)據(jù)挖掘的基本問題就在于數(shù)據(jù)的數(shù)量和維數(shù),數(shù)據(jù)結(jié)構(gòu)也因此顯的非常復(fù)雜,如何進(jìn)行探索,選擇分析變量,也就成為首先要解決的問題。面對如此大的數(shù)據(jù),現(xiàn)有的統(tǒng)計方法等都遇到了問題,我們直接的想法就是對數(shù)據(jù)進(jìn)行抽樣,那么怎么抽樣,抽取多大的樣本,又怎樣評價抽樣的效果,這些都是值得研究的難題。既然數(shù)據(jù)是海量的,那么數(shù)據(jù)中就會隱含一定的變化趨勢,在數(shù)據(jù)挖掘中也要對這個趨勢做應(yīng)有的考慮和評價。010203同時數(shù)據(jù)挖掘技術(shù)也面臨著許多的問題,這也為數(shù)據(jù)挖掘未來的發(fā)展提供了更大的空間。存在的問題各種不同的模型如何應(yīng)用,其效果如何評價。不同的人對同樣的數(shù)據(jù)進(jìn)行挖掘,可能產(chǎn)生不同的結(jié)果,甚至差異很大,這就涉及到可靠性的問題。當(dāng)前互聯(lián)網(wǎng)的發(fā)展迅速,如何進(jìn)行互聯(lián)網(wǎng)的數(shù)據(jù)挖掘,還有文本等非標(biāo)準(zhǔn)數(shù)據(jù)的挖掘,都引起了極大的興趣。0405數(shù)據(jù)挖掘涉及到數(shù)據(jù)也就碰到了數(shù)據(jù)的私有性和安全性。06數(shù)據(jù)挖掘的結(jié)果是不確定的,要和專業(yè)知識相結(jié)合才能對其做出判斷。07應(yīng)用現(xiàn)狀應(yīng)用現(xiàn)狀01商場從顧客購買商品中發(fā)現(xiàn)一定的關(guān)聯(lián)規(guī)則,提供打折、購物券等促銷手段,提高銷售額;02保險公司通過數(shù)據(jù)挖掘建立預(yù)測模型,辨別出可能的欺詐行為,避免道德風(fēng)險,減少成本,提高利潤;03在制造業(yè)中,半導(dǎo)體的生產(chǎn)和測試中都產(chǎn)生大量的數(shù)據(jù),就必須對這些數(shù)據(jù)進(jìn)行分析,找出存在的問題,提高質(zhì)量;04電子商務(wù)的作用越來越大,可以用數(shù)據(jù)挖掘?qū)W(wǎng)站進(jìn)行分析,識別用戶的行為模式,保留客戶,提供個性化服務(wù),優(yōu)化網(wǎng)站設(shè)計;數(shù)據(jù)挖掘的應(yīng)用非常廣泛,只要該產(chǎn)業(yè)有分析價值與需求的數(shù)據(jù)庫,皆可利用數(shù)據(jù)挖掘工具進(jìn)行有目的的發(fā)掘分析。常見的應(yīng)用案例多發(fā)生在零售業(yè)、制造業(yè)、財務(wù)金融保險、通訊及醫(yī)療服務(wù):成功典例BassExportAutoTReuteres其運(yùn)用了SAS軟件進(jìn)行數(shù)據(jù)挖掘,每天對數(shù)據(jù)進(jìn)行分析,找出用戶的訪問模式,對產(chǎn)品的喜歡程度進(jìn)行判斷,并設(shè)特定服務(wù),取得了成功。在海外80多個市場從事交易,每個星期傳送23000份定單,這就需要了解每個客戶的習(xí)慣,如品牌的喜好等,BassExport用IBM的IntelligentMiner很好的解決了上述問題。Reuteres用SPSS的數(shù)據(jù)挖掘工具SPSS/Clementine,建立數(shù)據(jù)挖掘模型,極大地提高了錯誤的檢測,保證了信息的正確和權(quán)威性。三大支柱三大支柱數(shù)據(jù)庫技術(shù)1人工智能技術(shù)2概率與數(shù)理統(tǒng)計3三大支柱隨著DMKD研究逐步走向深入,人們越來越清楚地認(rèn)識到,DMKD的研究主要有3個技術(shù)支柱,即數(shù)據(jù)庫、人工智能和數(shù)理統(tǒng)計。因此,在需求的驅(qū)動下,很多數(shù)據(jù)庫學(xué)者轉(zhuǎn)向?qū)?shù)據(jù)倉庫和數(shù)據(jù)挖掘的研究,從對演繹數(shù)據(jù)庫的研究轉(zhuǎn)向?qū)w納數(shù)據(jù)庫的研究。數(shù)據(jù)庫人們正視現(xiàn)實生活中大量的、不完全的、有噪聲的、模糊的、隨機(jī)的大數(shù)據(jù)樣本,從而與數(shù)據(jù)倉庫技術(shù)相結(jié)合,轉(zhuǎn)向數(shù)據(jù)挖掘技術(shù)。建立語義關(guān)聯(lián),促進(jìn)有效連接人工智能一旦人們有了從數(shù)據(jù)查詢到知識發(fā)現(xiàn)、從數(shù)據(jù)演繹到數(shù)據(jù)歸納的要求,概率論和數(shù)理統(tǒng)計就獲得了新的生命力。概率統(tǒng)計研究熱點研究熱點網(wǎng)站的數(shù)據(jù)挖掘在對網(wǎng)站進(jìn)行數(shù)據(jù)挖掘時,所需要的數(shù)據(jù)主要來自于兩個方面:一方面是客戶的背景信息,此部分信息主要來自于客戶的登記表;而另外一部分?jǐn)?shù)據(jù)主要來自瀏覽者的點擊流(Click-stream),此部分?jǐn)?shù)據(jù)主要用于考察客戶的行為表現(xiàn)。但有的時候,客戶對自己的背景信息十分珍重,不肯把這部分信息填寫在登記表上,這就會給數(shù)據(jù)分析和挖掘帶來不便。在這種情況之下,就不得不從瀏覽者的表現(xiàn)數(shù)據(jù)中來推測客戶的背景信息,進(jìn)而再加以利用。生物信息或基因的數(shù)據(jù)挖掘研究熱點對于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無論在數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言,都要復(fù)雜得多。從分析算法上講,更需要一些新的和好的算法。現(xiàn)在很多廠商正在致力于這方面的研究。但就技術(shù)和軟件而言,還遠(yuǎn)沒有達(dá)到成熟的地步。未來的研究方向未來研究方向形式化描述的語言,即研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言DMQL,類似SQL語言一樣走向形式化和標(biāo)準(zhǔn)化;可視化的數(shù)據(jù)挖掘過程,尋求數(shù)據(jù)挖掘過程中的可視化方法,使知識發(fā)現(xiàn)的過程易于被用戶理解和操縱,可使數(shù)據(jù)挖掘過程成為用戶業(yè)務(wù)流程的一部分,也便于在知識發(fā)現(xiàn)的過程中進(jìn)行人機(jī)交互;包括數(shù)據(jù)用戶化呈現(xiàn)與交互操縱兩部分。未來研究方向Web網(wǎng)絡(luò)中數(shù)據(jù)挖掘的應(yīng)用,特別是在Internet上建立數(shù)據(jù)挖掘服務(wù)器,與數(shù)據(jù)庫服務(wù)器配合,實現(xiàn)數(shù)據(jù)挖掘,從而建立強(qiáng)大的數(shù)據(jù)挖掘引擎與數(shù)據(jù)挖掘服務(wù)市場。融合各種異構(gòu)數(shù)據(jù)的挖掘技術(shù),加強(qiáng)對各種非結(jié)構(gòu)化數(shù)據(jù)的開采(DataMiningforAudio&Video),如對文本數(shù)據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開采;未來研究方向處理的數(shù)據(jù)將會涉及到更多的數(shù)據(jù)類型,這些數(shù)據(jù)類型或者比較復(fù)雜,或者是結(jié)構(gòu)比較獨(dú)特。為了處理這些復(fù)雜的數(shù)據(jù),就需要一些新的和更好的分析和建立模型的方法,同時還會涉及到為處理這些復(fù)雜或獨(dú)特數(shù)據(jù)所做的費(fèi)時和復(fù)雜數(shù)據(jù)準(zhǔn)備的一些工具和軟件。

交互式發(fā)現(xiàn)及知識的維護(hù)更新。結(jié)束語結(jié)束語不管怎樣,需求牽引與市場推

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論