下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)挖掘技術及其應用現(xiàn)狀王斌會(暨南大學經(jīng)濟學院,廣州,510632)摘要:本文對數(shù)據(jù)挖掘技術進行了回顧,介紹了目前在數(shù)據(jù)挖掘中常用的方法和工具,列舉了它的一些應用,指出了數(shù)據(jù)挖掘中存在的一些問題。關鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)倉庫;統(tǒng)計技術;中圖分類號:234文獻標識碼:&文章編號:5""!6#784(!""#)"$6"5!!6"3統(tǒng)計與決策!""#年$月(下)分類和預測。如常用的算法%&’(、%)&*+、*+,、%-.$、%$."等。($)神經(jīng)網(wǎng)絡:模擬人的神經(jīng)元功能,經(jīng)過輸入層,隱藏層,輸出層等,對數(shù)據(jù)進行調(diào)整,計算,最后得到結(jié)果,用于分類和歸納。(#)遺傳算法:基于自然進化理論,模擬基因聯(lián)合、突變、選擇等過程的一種優(yōu)化技術。(/)關聯(lián)規(guī)則挖掘算法:關聯(lián)規(guī)則是描述數(shù)據(jù)之間存在關系的規(guī)則,形式為“&0!&!!...&12340!4!!...41”。一般分為兩個步驟:!求出大數(shù)據(jù)項集。"用大數(shù)據(jù)項集產(chǎn)生關聯(lián)規(guī)則。除了上述的常用方法外,還有粗集方法,模糊集合方法,貝葉斯方法5最鄰近算法等。由于數(shù)據(jù)挖掘一開始就是面向應用的,是為決策服務,而決策者又不一定具備太多的技術知識,目前許多公司和研究機構(gòu)開發(fā)了一系列的工具用于數(shù)據(jù)挖掘,見表0。從表0可以看出,目前的數(shù)據(jù)挖掘軟件較多,主流的數(shù)據(jù)挖掘軟件包括6766公司的%89:91;<19,6&6公司的=1>;9?@?<A9B<19?(=B)和*4B公司的*1;988<C91;B<19?等,這些軟件的使用不僅需要計算機技術,而且還需熟悉統(tǒng)計方法等技術,但它們基本上能滿足各項數(shù)據(jù)挖掘任務。!數(shù)據(jù)挖掘的實施步驟前面我們討論了數(shù)據(jù)挖掘的定義,方法和工具,現(xiàn)在關鍵的問題是如何實施,其一般的步驟如下:問題理解和提出一3數(shù)據(jù)準備一3數(shù)據(jù)整理一3建立模型一3評價和解釋(0)問題理解和提出:在開始數(shù)據(jù)挖掘之前最基本的就是理解數(shù)據(jù)和實際的業(yè)務問題,在這個基礎之上提出問題,對目標有明確的定義。(!)數(shù)據(jù)準備:獲取原始的數(shù)據(jù),并從中抽取一定數(shù)量的子集,建立數(shù)據(jù)挖掘庫,其中一個問題是如果企業(yè)原來的數(shù)據(jù)倉庫滿足數(shù)據(jù)挖掘的要求,就可以將數(shù)據(jù)倉庫作為數(shù)據(jù)挖掘庫。(,)數(shù)據(jù)整理:由于數(shù)據(jù)可能是不完全的、有噪聲的、隨機的,有復雜的數(shù)據(jù)結(jié)構(gòu),就要對數(shù)據(jù)進行初步的整理,清洗不完全的數(shù)據(jù),做初步的描述分析,選擇與數(shù)據(jù)挖掘有關的變量,或者轉(zhuǎn)換變量。(-)建立模型:根據(jù)數(shù)據(jù)挖掘的目標和數(shù)據(jù)的特征,選擇合適的模型。($)評價和解釋:對數(shù)據(jù)挖掘的結(jié)果進行評價,選擇最優(yōu)的模型,作出評價,運用于實際問題,并且要和專業(yè)知識結(jié)合對結(jié)果進行解釋。以上的步驟不是一次完成的,可能其中某些步驟或者全部要反復進行(見圖0)。許多研究機構(gòu)和公司結(jié)合自己的數(shù)據(jù)挖掘軟件,提出數(shù)據(jù)挖掘過程模型,值得借鑒的是6&6研究所提出的方案。6&6研究所認為數(shù)據(jù)挖掘是對數(shù)據(jù)進行選擇,探索,調(diào)整和建模來揭示數(shù)據(jù)中未知的模式D6=BB&E,開發(fā)了圖形界面的6&6F=B來進行數(shù)據(jù)挖掘:D0E6G:@89抽樣:從大量的數(shù)據(jù)中抽取與探索問題有關的數(shù)據(jù)子集,這個樣本應該包含足夠的信息,又易于處理。D!E=H@8I?9探索:對數(shù)據(jù)子集進行探索,尋找出期望的關系和未知的模式。D,EBIJ<KL調(diào)整:對數(shù)據(jù)進行探索后,有了初步的了解,就必須對數(shù)據(jù)進行增減,選擇,轉(zhuǎn)化,量化,保證有效進行D-EBIJ98建模:應用分析軟件工具,建立模型,進行預測。D$E&MM9AA評價:評價數(shù)據(jù)挖掘結(jié)果的有效性和可靠性。表0常用數(shù)據(jù)挖掘工具及其比較圖0數(shù)據(jù)挖掘技術實施步驟流程圖知識叢林0!,統(tǒng)計與決策!""#年$月(下)摘要:本文對數(shù)據(jù)挖掘技術進行了回顧,介紹了目前在數(shù)據(jù)挖掘中常用的方法和工具,列舉了它的一些應用,指出了數(shù)據(jù)挖掘中存在的一些問題。關鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)倉庫;統(tǒng)計技術;%&%’();%*%%’+,-.-/01/-中圖分類號:234文獻標識碼:&文章編號:5""!6#784(!""#)"$6"5!!6"3數(shù)據(jù)挖掘技術及其應用現(xiàn)狀王斌會(暨南大學經(jīng)濟學院,廣州$5"#3!)!數(shù)據(jù)挖掘的含義、功能和內(nèi)容數(shù)據(jù)挖掘的歷史雖然較短,但從!"世紀9"年代以來,它的發(fā)展速度很快,加之它是多學科綜合的產(chǎn)物,目前還沒有一個完整的定義,提出了多種數(shù)據(jù)挖掘的定義,例如:%&%研究所(5994):“在大量相關數(shù)據(jù)基礎之上進行數(shù)據(jù)探索和建立相關模型的先進方法”。:;<=</1(5999):“使用模式識別技術、統(tǒng)計和數(shù)學技術,在大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的新關系、模式和趨勢的過程”。></?-0<,():“數(shù)據(jù)挖掘就是在大型數(shù)據(jù)庫中尋找有意義、有價值信息的過程”。我們認為:數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中挖掘出可能有潛在價值的信息的技術,用以支持決策,可以為企業(yè)帶來利益,或者為科學研究尋找突破口?,F(xiàn)今資料流通量之巨大已到了令人咂舌地步,就實際限制而言,便遇到了諸如巨量的記錄,高維的資料,這些都增加了傳統(tǒng)分析技術上的困難,搜集到的資料僅有$@至5"@用來分析,以及資料搜集過程中并不探討特性等問題,這就讓我們不得不利用A<0<)1/1/B技術。數(shù)據(jù)挖掘綜合了各個學科技術,有很多的功能,當前的主要功能如下:(5)分類:按照分析對象的屬性、特征,建立不同的組類來描述事物。(!)聚類:識別出分析對內(nèi)在的規(guī)則,按照這些規(guī)則把對象分成若干類。(3)關聯(lián)規(guī)則和序列模式的發(fā)現(xiàn):關聯(lián)是某種事物發(fā)生時其他事物會發(fā)生的這樣一種聯(lián)系。(7)預測:把握分析對象發(fā)展規(guī)律,對未來的趨勢作出預見。($)偏差的檢測:對分析對象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。內(nèi)在因素,減小以后經(jīng)營的風險。需要注意的是:數(shù)據(jù)挖掘的各項功能并不是獨立存在的,在數(shù)據(jù)挖掘中互相聯(lián)系,發(fā)揮著作用。從統(tǒng)計角度看,統(tǒng)計數(shù)據(jù)挖掘的主要內(nèi)容包括:!時間序列數(shù)據(jù)庫的挖掘;截面數(shù)據(jù)庫的挖掘;#統(tǒng)計信息數(shù)據(jù)庫的挖掘;$統(tǒng)計普查數(shù)據(jù)庫的挖掘;%抽樣調(diào)查數(shù)據(jù)庫的挖掘;&C-D統(tǒng)計資源數(shù)據(jù)庫的挖掘。當然,還有各種企業(yè)和公司的經(jīng)營數(shù)據(jù)資料的挖掘。"數(shù)據(jù)挖掘的方法及工具數(shù)據(jù)挖掘通過對數(shù)據(jù)的總結(jié)、分類、聚類、關聯(lián)等分析,實現(xiàn)對數(shù)據(jù)內(nèi)在結(jié)構(gòu)特征的理解和對未知數(shù)據(jù)的預測。作為一門處理數(shù)據(jù)的新興技術,數(shù)據(jù)挖掘有許多新特征。首先,數(shù)據(jù)挖掘面對的是海量的數(shù)據(jù),這也是數(shù)據(jù)挖掘產(chǎn)生的原因。其次,數(shù)據(jù)可能是不完全的、有噪聲的、隨機的,有復雜的數(shù)據(jù)結(jié)構(gòu),維數(shù)大。最后,數(shù)據(jù)挖掘是許多學科的交叉,運用了統(tǒng)計學,計算機,數(shù)學等學科的技術。以下是常見和應用最廣泛的算法和模型:(5)傳統(tǒng)統(tǒng)計方法:!抽樣技術:我們面對的是海量的數(shù)據(jù),對所有的數(shù)據(jù)進行分析是不可能的也是沒有必要的,這就要求在理論的指導下進行合理的抽樣。"多元統(tǒng)計分析:由于數(shù)據(jù)結(jié)構(gòu)復雜、維數(shù)高,必不可少的要用到諸如因子分析,聚類分析等方法。#統(tǒng)計預測方法,如回歸分析,時間序列分析等。(!)可視化技術:用圖表等方式把數(shù)據(jù)特征直觀地表述出來,如直方圖、散點圖、三維曲面圖等都需要可視化方法??梢暬夹g面對的一個難題是高維數(shù)據(jù)的可視化。(3)聯(lián)機分析處理(EF&*):EF&*是一種聯(lián)機的多維數(shù)據(jù)分析方法。聯(lián)機體現(xiàn)在分析過程需要用戶積極參與,并動態(tài)地提出分析要求,選擇分析算法,實現(xiàn)對數(shù)據(jù)由淺至深的探索性分析;多維體現(xiàn)在它將數(shù)據(jù)庫中的各種屬性看作是描述數(shù)據(jù)屬性的“維”。(7)決策樹:利用一系列規(guī)則劃分,建立樹狀圖,可用于基金項目:廣東省自然科學基金項目G"7"5"79"H知識叢林5!!!數(shù)據(jù)挖掘應用現(xiàn)狀數(shù)據(jù)挖掘所要處理的問題,就是在龐大的數(shù)據(jù)庫中找出有價值的隱藏事件,并且加以分析,獲取有意義的信息,歸納出有用的結(jié)構(gòu),作為企業(yè)進行決策的依據(jù)。因而其應用非常廣泛,只要該企業(yè)有分析價值與需求的數(shù)據(jù)庫,皆可利用%&’&’(工具進行有目的的發(fā)掘分析。常見的應用案例多發(fā)生在零售業(yè)、制造業(yè)、財務金融保險、通訊及醫(yī)療服務,例如:)*+在營銷方面的應用:如客戶關系管理(,-%)的系統(tǒng)分析;不同商品在每個分店的銷售趨勢分析,使購買趨勢、時令特點和定價策略一目了然;零售商也可從顧客購買商品中發(fā)現(xiàn)一定的關系,提供打折購物券等,提高銷售額。)!+在保險業(yè)中的應用:對保險行業(yè)日益增長的各種查詢、統(tǒng)計和市場進行分析,有效利用數(shù)據(jù)來實現(xiàn)經(jīng)營目標,預測保險業(yè)的發(fā)展趨勢。保險公司可通過數(shù)據(jù)挖掘建立預測模型,辨別出可能的欺詐行為,避免道德風險,減少成本,提高利潤。)■+在證券業(yè)的應用:可處理客戶分析,賬戶分析,證券交易數(shù)據(jù)分析,非資金交易分析等多個業(yè)界關心的主題。)/+在銀行領域的應用:主要使銀行了解自身的經(jīng)營風險,開發(fā)新產(chǎn)品,拓展新市場,實現(xiàn)科學管理及決策。)$+在制造業(yè)中,半導體的生產(chǎn)和測試中都產(chǎn)生大量的數(shù)據(jù),就必須對這些數(shù)據(jù)進行分析,找出存在的問題,提高質(zhì)量。)#+電子商務的作用越來越大,可以用數(shù)據(jù)挖掘?qū)W(wǎng)站進行分析,識別用戶的行為模式,保留客戶,提供個性化服務,優(yōu)化網(wǎng)站設計。)0+在稅務領域的應用:如查出應稅未報者和瞞稅漏稅者,并對其進行跟蹤,也可對不同行業(yè)中納稅人的行為特征進行描述,找出普遍規(guī)律,為稅務征稽提供策略。下面是一些公司運用數(shù)據(jù)挖掘的成功案例,顯示了數(shù)據(jù)挖掘的強大生命力:美國1234567896:;4<是世界上最大的汽車銷售站點,每天都會有大量的用戶對網(wǎng)站上的信息點擊,尋求信息,其運用了=1=軟件進行數(shù)據(jù)挖掘,每天對數(shù)據(jù)進行分析,找出用戶的訪問模式,對產(chǎn)品的喜歡程度進行判斷,并設特定服務器,取得了成功。-923969>是世界著名的金融信息服務公司,其利用的數(shù)據(jù)大都是外部的數(shù)據(jù),這樣數(shù)據(jù)的質(zhì)量就是公司生存的關鍵所在,必須從數(shù)據(jù)中檢測出錯誤的成分。-923969>用=?==的數(shù)據(jù)挖掘工具=?==@,A9<9’3&’9,建立數(shù)據(jù)挖掘模型,極大地提高了錯誤的檢測,保證了信息的正確和權威性。B7>>CDE463是世界最大的啤酒進出口商之一,在海外F"多個市場從事交易,每個星期傳送!."""份定單,這就需要了解每個客戶的習慣,如品牌的喜好等,B7>>CDE463用GB%的G’99AA&(9’3%&’96很好的解決了上述問題。據(jù)GH,預測分析,從*II0J!""!年,整個數(shù)據(jù)挖掘市場將以平均每年!":$K的速度增長,到!""!年將超過!I"億美元,相信隨著現(xiàn)代商業(yè)模式的進一步變革,數(shù)據(jù)挖掘應用將成為企業(yè)獲得競爭優(yōu)勢的有力武器。"數(shù)據(jù)挖掘中存在的問題盡管數(shù)據(jù)挖掘有如此多的優(yōu)點,但數(shù)據(jù)挖掘也面臨著許多的問題,這也為數(shù)據(jù)挖掘的未來的發(fā)展提供了更大的空間。(*)數(shù)據(jù)挖掘的基本問題就在于數(shù)據(jù)的數(shù)量和維數(shù),數(shù)據(jù)結(jié)構(gòu)也因此顯得非常復雜,如何進行探索,選擇分析變量,也就成為首先要解決的問題。(!)面對如此大的數(shù)據(jù),現(xiàn)有的統(tǒng)計方法等都遇到了問題,我們直接的想法就是對數(shù)據(jù)進行抽樣,那么怎么抽樣,抽取多大的樣本,又怎樣評價抽樣的效果,這些都是值得研究的難題。(■)既然數(shù)據(jù)是海量的,那么數(shù)據(jù)中就會隱含一定的變化趨勢,在數(shù)據(jù)挖掘中也要對這個趨勢做應有的考慮和評價。(/)各種不同的模型如何應用,其效果如何評價。不同的人對同樣的數(shù)據(jù)進行挖掘,可能產(chǎn)生不同的結(jié)果,甚至差異很大,這就涉及到可靠性的問題。($)當前互聯(lián)網(wǎng)的發(fā)展迅速,如何進行互聯(lián)網(wǎng)的數(shù)據(jù)挖掘,還有文本、聲音、圖象等非標準數(shù)據(jù)的挖掘,都引起了極大的興趣。(#)由于數(shù)據(jù)是如此的大,其中隱含的信息是非常豐富的,挖掘出來的信息是否完全,是否還有對決策更加有利的信息,這都不得而知了。(0)數(shù)據(jù)挖掘涉及到數(shù)據(jù)也就碰到了數(shù)據(jù)的私有性和保密性。(F)數(shù)據(jù)挖掘的結(jié)果是不確定的,要和專業(yè)知識相結(jié)合才能對其做出判斷??傊?,數(shù)據(jù)挖掘只是一個工具和方法,不是萬能的,它可以發(fā)現(xiàn)一些潛在的用戶,但是不會告訴你為什么,也不能保證這些潛在的用戶成為現(xiàn)實。數(shù)據(jù)挖掘的成功要求對期望解決問題的領域有深刻的了解,理解數(shù)據(jù),了解其過程,才能對數(shù)據(jù)挖掘的結(jié)果找出合理的解釋。例如曾經(jīng)用數(shù)據(jù)挖掘找出的啤
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 20263D模型師招聘試題及答案
- 中化學華誼工程科技集團有限公司2026屆校園招聘參考題庫必考題
- 南昌職教城教育投資發(fā)展有限公司2025年第七批公開招聘工作人員專題參考題庫附答案
- 國家電投集團蘇州審計中心選聘參考題庫附答案
- 岳池縣關于2025年社會化選聘新興領域黨建工作專員的考試備考題庫必考題
- 招2人!2025年同德縣文化館面向社會公開招聘政府聘用人員的考試備考題庫必考題
- 江西省供銷合作社聯(lián)合社公開招聘江西省金合控股集團有限公司副總經(jīng)理及財務總監(jiān)專題備考題庫必考題
- 石棉縣人力資源和社會保障局關于2025年下半年面向縣內(nèi)公開考調(diào)事業(yè)單位工作人員的(7人)參考題庫必考題
- 遼寧科技大學2026年招聘高層次和急需緊缺人才102人備考題庫必考題
- 雅安市衛(wèi)生健康委員會所屬事業(yè)單位雅安市衛(wèi)生健康與人才服務中心2025年公開選調(diào)事業(yè)人員的參考題庫必考題
- 反詐宣傳講座課件
- 學生計算錯誤原因分析及對策
- DB32T 4398-2022《建筑物掏土糾偏技術標準》
- (精確版)消防工程施工進度表
- 送貨單格式模板
- 防止激情違紀和犯罪授課講義
- XX少兒棋院加盟協(xié)議
- 五年級數(shù)學應用題專題訓練50題
- 2021年四川省資陽市中考數(shù)學試卷
- 河南省鄭氏中原纖維素有限公司年產(chǎn) 0.2 萬噸預糊化淀粉、0.5 萬噸羧甲基纖維素鈉、1.3 萬噸羧甲基淀粉鈉項目環(huán)境影響報告
- 高處作業(yè)安全培訓課件
評論
0/150
提交評論