版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘中的應(yīng)用摘要:給出了數(shù)據(jù)挖掘方法的研究現(xiàn)狀,通過分析當(dāng)前一些數(shù)據(jù)挖掘方法的局限性,介紹一種基于關(guān)系數(shù)據(jù)庫的數(shù)據(jù)挖掘方法——神經(jīng)網(wǎng)絡(luò)方法,目前,在數(shù)據(jù)挖掘中最常用的神經(jīng)網(wǎng)絡(luò)是BP網(wǎng)絡(luò)。在本文最后,也提出了神經(jīng)網(wǎng)絡(luò)方法在數(shù)據(jù)挖掘中存在的一些問題.關(guān)鍵詞:BP算法;神經(jīng)網(wǎng)絡(luò);數(shù)據(jù)挖掘1.引言在“數(shù)據(jù)爆炸但知識貧乏”的網(wǎng)絡(luò)時代,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。并顯示出強(qiáng)大的生命力。和傳統(tǒng)的數(shù)據(jù)分析不同的是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識。所得到的信息具有先未知,有效性和實用性三個特征。它是從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示三個步驟。數(shù)據(jù)準(zhǔn)備是從各種數(shù)據(jù)源中選取和集成用于數(shù)據(jù)挖掘的數(shù)據(jù);規(guī)律尋找是用某種方法將數(shù)據(jù)中的規(guī)律找出來;規(guī)律表示是用盡可能符合用戶習(xí)慣的方式(如可視化)將找出的規(guī)律表示出來。數(shù)據(jù)挖掘在自身發(fā)展的過程中,吸收了數(shù)理統(tǒng)計、數(shù)據(jù)庫和人工智能中的大量技術(shù)。作為近年來來一門處理數(shù)據(jù)的新興技術(shù),數(shù)據(jù)挖掘的目標(biāo)主要是為了幫助決策者尋找數(shù)據(jù)間潛在的關(guān)聯(lián)(Relation),特征(Pattern)、趨勢(Trend)等,發(fā)現(xiàn)被忽略的要素,對預(yù)測未來和決策行為十分有用。數(shù)據(jù)挖掘技術(shù)在商業(yè)方面應(yīng)用較早,目前已經(jīng)成為電子商務(wù)中的關(guān)鍵技術(shù)。并且由于數(shù)據(jù)挖掘在開發(fā)信息資源方面的優(yōu)越性,已逐步推廣到保險、醫(yī)療、制造業(yè)和電信等各個行業(yè)的應(yīng)用。數(shù)據(jù)挖掘(DataMining)是數(shù)據(jù)庫中知識發(fā)現(xiàn)的核心,形成了一種全新的應(yīng)用領(lǐng)域。數(shù)據(jù)挖掘是從大量的、有噪聲的、隨機(jī)的數(shù)據(jù)中,識別有效的、新穎的、有潛在應(yīng)用價值及完全可理解模式的非凡過程。從而對科學(xué)研究、商業(yè)決策和企業(yè)管理提供幫助。數(shù)據(jù)挖掘是一個高級的處理過程,它從數(shù)據(jù)集中識別出以模式來表示的知識。它的核心技術(shù)是人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計等,但一個DM系統(tǒng)不是多項技術(shù)的簡單組合,而是一個完整的整體,它還需要其它輔助技術(shù)的支持,才能完成數(shù)據(jù)采集、預(yù)處理、數(shù)據(jù)分析、結(jié)果表述這一系列的高級處理過程。所謂高級處理過程是指一個多步驟的處理過程,多步驟之間相互影響、反復(fù)調(diào)整,形成一種螺旋式上升過程。最后將分析結(jié)果呈現(xiàn)在用戶面前。根據(jù)功能,整個DM系統(tǒng)可以大致分為三級結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)具有自適應(yīng)和學(xué)習(xí)功能,網(wǎng)絡(luò)不斷檢驗預(yù)測結(jié)果與實際情況是否相符。把與實際情況不符合的輸入輸出數(shù)據(jù)對作為新的樣本,神經(jīng)網(wǎng)絡(luò)對新樣本進(jìn)行動態(tài)學(xué)習(xí)并動態(tài)改變網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),這樣使網(wǎng)絡(luò)適應(yīng)環(huán)境或預(yù)測對象本身結(jié)構(gòu)和參數(shù)的變化,從而使預(yù)測網(wǎng)絡(luò)模型有更強(qiáng)的適應(yīng)性,從而得到更符合實際情況的知識和規(guī)則,輔助決策者進(jìn)行更好地決策。而在ANN的實現(xiàn)過程中,又往往需要大量的數(shù)據(jù)來產(chǎn)生充足的訓(xùn)練和測試樣本模式集,以便有效地訓(xùn)練和評估ANN的性能,這一點正好是建立在數(shù)據(jù)倉庫和大型數(shù)據(jù)庫上的數(shù)據(jù)挖掘工具所能提供的。由于ANN和DM兩者的優(yōu)勢互補(bǔ),將神經(jīng)網(wǎng)絡(luò)用于數(shù)據(jù)挖掘具有現(xiàn)實意義和實用價值。神經(jīng)網(wǎng)絡(luò)是模擬人腦內(nèi)部結(jié)構(gòu),在模擬推理、自動學(xué)習(xí)等方面接近人腦的自組織和并行處理的數(shù)學(xué)模型。其優(yōu)點之一是,不依賴于對象,通過學(xué)習(xí)將輸入、輸出以權(quán)值的方式編碼,把它們聯(lián)系起來。神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘中的優(yōu)勢是:噪聲數(shù)據(jù)的強(qiáng)承受能力,對數(shù)據(jù)分類的高準(zhǔn)確性,以及可用各種算法進(jìn)行規(guī)則提取。因此,常常借助神經(jīng)網(wǎng)絡(luò)來進(jìn)行數(shù)據(jù)挖掘。數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining).又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase.KDD).是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價值的信息或模式.它是數(shù)據(jù)庫研究中的一個很有應(yīng)用價值的新領(lǐng)域,融合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)等多個領(lǐng)域的理論和技術(shù)。數(shù)據(jù)挖掘是進(jìn)行數(shù)據(jù)查詢.它能夠找出過去數(shù)據(jù)之間的潛在聯(lián)系.從而促進(jìn)信息的傳遞。數(shù)據(jù)挖掘工具能夠?qū)淼内厔莺托袨檫M(jìn)行預(yù)測.從而很好地支持人們的決策。2.1數(shù)據(jù)挖掘的發(fā)展數(shù)據(jù)挖掘(DM)的實質(zhì)是一種發(fā)現(xiàn)知識的應(yīng)用技術(shù),是一個提取有用信息的過程。與數(shù)據(jù)挖掘意義相近的術(shù)語有數(shù)據(jù)開采、知識抽取、信息收集和信息發(fā)現(xiàn)等,現(xiàn)在普遍采用的主要有數(shù)據(jù)挖掘和數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD)。KDD一詞最早出現(xiàn)在1989年8月舉行的第l1屆國際聯(lián)合人工智能學(xué)術(shù)會議上,它是指從數(shù)據(jù)庫中抽取大量數(shù)據(jù)中隱含的、潛在的和有用的知識的過程。在1993年,IEEE的KnowledgeandDataEngineering會刊出版了KDD技術(shù)???,發(fā)表的論文和摘要體現(xiàn)了當(dāng)時KDD的最新研究成果和動態(tài)。目前KDD的國際研討會的數(shù)量和規(guī)模逐漸擴(kuò)大,1997年數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的國際學(xué)術(shù)刊物DataMiningandKnowledgeDiscovery開始創(chuàng)刊,許多雜志刊物也為數(shù)據(jù)挖掘開辟了學(xué)術(shù)專欄,為該領(lǐng)域的研究與交流提供了廣闊的舞臺。由于數(shù)據(jù)挖掘可以為企業(yè)構(gòu)筑競爭優(yōu)勢,為社會帶來巨大的經(jīng)濟(jì)效益,一些國際知名公司也紛紛加入數(shù)據(jù)挖掘的行列,研究開發(fā)相關(guān)的軟件和工具。美國的IBM公司于1996年研制了智能挖掘機(jī),用來提供數(shù)據(jù)挖掘解決方案;SPSS股份公司開發(fā)了基于決策樹的數(shù)據(jù)挖掘軟件——一sPsScHAID;思維機(jī)器公司在1997年開發(fā)了Darwin這一數(shù)據(jù)挖掘套件,還有Oracle公司、SAS公司和Mapinfo公司等都開發(fā)了相關(guān)的產(chǎn)品。此外,在Internet上還有不少KDD電子出版物,其中以半月刊KnowledgeDiscoveryNuggets最為權(quán)威,另一份在線周刊為Ds(決策支持),1997年開始出版。自由論壇DMEmailClub可以通過電子郵件討論數(shù)據(jù)挖掘練數(shù)據(jù)的挖掘,逐步計算(包括反復(fù)迭代或累加計算)神經(jīng)網(wǎng)絡(luò)連接的權(quán)值。神經(jīng)網(wǎng)絡(luò)模型大致可分為以下三種:(1)前饋式網(wǎng)絡(luò):以感知機(jī)、反向傳播模型和函數(shù)型網(wǎng)絡(luò)為代表,主要用于預(yù)測和模式識別等領(lǐng)域;(2)反饋式網(wǎng)絡(luò):以Hopfield(人名)離散模型和連續(xù)模型為代表,主要用于聯(lián)想記憶和優(yōu)化計算;(3)自組織網(wǎng)絡(luò):以自適應(yīng)共振理論:(AdaptiveResonanceTheory,ART)模型和Kohonen(人名)模型為代表,主要用于聚類分析。4.2BP算法目前,提出的神經(jīng)網(wǎng)絡(luò)模型不下30種.其中反向傳遞網(wǎng)(BP網(wǎng))是當(dāng)前應(yīng)用最為廣泛的一種網(wǎng)絡(luò)。BP網(wǎng)絡(luò)不僅有輸入層節(jié)點,輸出層節(jié)點.而且有隱含層節(jié)點(可以是一層或多層)。對于輸入信號,要先前向傳播到隱節(jié)點,經(jīng)過作用函數(shù)后,再把隱節(jié)點的輸出信息傳播到輸出節(jié)點,最后輸出結(jié)果。BP算法的學(xué)習(xí)過程由正向傳播和反向傳播組成。若在輸出層得不到預(yù)期的輸出,將誤差信號沿原來的連接通路返回.通過修改各層神經(jīng)元的權(quán)值,使誤差信號最小。BP分類的過程可以分為訓(xùn)練和分類兩個階段.具體過程如下:(1)根據(jù)網(wǎng)絡(luò)要求對輸入進(jìn)行預(yù)處理;(2)采用BP網(wǎng)絡(luò)對已預(yù)處理的輸入進(jìn)行學(xué)習(xí);(3)用訓(xùn)練好的BP網(wǎng)絡(luò)對待識樣本進(jìn)行模式分類。BP網(wǎng)絡(luò)可以對應(yīng)一定的輸入輸出,輸入模式(輸入數(shù)據(jù))類似于事物的特性.輸出模式類似于事物的主題.隱含的神經(jīng)網(wǎng)絡(luò)決定著分類規(guī)則。BP網(wǎng)絡(luò)分類由學(xué)習(xí)和分類兩個模塊組成,BP網(wǎng)絡(luò)的學(xué)習(xí)將需要一定的時間.待網(wǎng)絡(luò)訓(xùn)練完畢。則能較快地完成分類工作。5.結(jié)束語雖然神經(jīng)網(wǎng)絡(luò)方法用于數(shù)據(jù)挖掘時,能夠處理多變量和非線性數(shù)據(jù),用戶參與少,挖掘?qū)哟紊睿源嬖谌缦乱恍﹩栴}:1)數(shù)據(jù)質(zhì)量.由于許多數(shù)據(jù)是動態(tài)的、有冗余或不完整,致使產(chǎn)生的規(guī)則存在不真實和異常等問題。2)非數(shù)值型數(shù)據(jù)的處理.合理量化此類數(shù)據(jù)往往憑人們主觀經(jīng)驗而定,這將影響挖掘結(jié)果.3)學(xué)習(xí)樣本的大小.對于數(shù)據(jù)量較小的數(shù)據(jù)庫,可能出現(xiàn)錯誤的結(jié)果,這時就可把這些數(shù)據(jù)作為新樣本補(bǔ)充到學(xué)習(xí)樣本中去。4)激勵函數(shù)的選?。詈瘮?shù)是對多個輸人進(jìn)行處理產(chǎn)生輸出的功能模塊,它將關(guān)系到結(jié)果是否有價值和真實.對于數(shù)據(jù)庫中模糊知識的發(fā)現(xiàn),往往先對輸出狀態(tài)進(jìn)行編碼,采用符號函數(shù)作為激勵函數(shù)。5)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度問題.構(gòu)造神經(jīng)網(wǎng)絡(luò)時要求對其訓(xùn)練許多遍,這意味著獲得精確的神經(jīng)網(wǎng)絡(luò)需要花費許多時間。參考文獻(xiàn)[1]張堯庭,謝邦昌,朱世武.?dāng)?shù)據(jù)采掘入門及應(yīng)用[M].北京:中國統(tǒng)計出版社,2001.[2]黃解軍,潘和平,萬幼川.?dāng)?shù)據(jù)挖掘技術(shù)的應(yīng)用研究[J].計算機(jī)工程與應(yīng)用,2003,2[3]夏幼明,解敏,周雯.?dāng)?shù)據(jù)挖掘方法分析與評價[J].云南師范大學(xué)學(xué)報,2003,3.[4]林筑英,林建勤.?dāng)?shù)據(jù)挖掘技術(shù)及其所面臨的問題[J].貴州師范大學(xué)學(xué)報,2003,8.[5]閃四清,陳茵,程雁.?dāng)?shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2003.[6]黨建武.神經(jīng)網(wǎng)絡(luò)技術(shù)及應(yīng)用[M].北京:中國鐵道出版社,1999.[7]胡守仁.神經(jīng)網(wǎng)絡(luò)應(yīng)用技術(shù)[M].北京:國防科技大學(xué)出版社,1998.[8]陳京民.?dāng)?shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2002.[9]劉同明等著.?dāng)?shù)據(jù)挖掘技術(shù)及其應(yīng)用[M].國防工業(yè)出版社.2001—09[10]陳守余等著.人工神經(jīng)網(wǎng)絡(luò)模擬實現(xiàn)與應(yīng)用[M].中國地質(zhì)大學(xué)出版社,2000—09[11].陳京民等著數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].電子工業(yè)出版社,2002—08[12]宋擒豹等.神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘方法中的數(shù)據(jù)準(zhǔn)備問題?.計算機(jī)工程與應(yīng)用,2000;36(12):102~104[13]HLuSetiono,HLiu.EffectiveDataMiningUsingNeuralN
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年安徽冶金科技職業(yè)學(xué)院單招綜合素質(zhì)考試參考題庫含詳細(xì)答案解析
- 2026年長春職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)考試模擬試題含詳細(xì)答案解析
- 2026年百色職業(yè)學(xué)院單招綜合素質(zhì)筆試模擬試題含詳細(xì)答案解析
- 2026年天津鐵道職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測試模擬試題及答案詳細(xì)解析
- 2026年貴州裝備制造職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試備考試題及答案詳細(xì)解析
- 2026年長治幼兒師范高等??茖W(xué)校高職單招職業(yè)適應(yīng)性測試備考題庫及答案詳細(xì)解析
- 2026年安陽學(xué)院單招職業(yè)技能考試參考題庫含詳細(xì)答案解析
- 2026湖南懷化市辰溪縣住房保障服務(wù)中心公益性崗位招聘考試重點試題及答案解析
- 2026年廣東理工職業(yè)學(xué)院單招職業(yè)技能考試備考試題含詳細(xì)答案解析
- 2026年山東外事職業(yè)大學(xué)單招職業(yè)技能考試模擬試題含詳細(xì)答案解析
- 《零碳校園評價方法》
- 急診PDCA課件教學(xué)課件
- 2025-2030手術(shù)機(jī)器人醫(yī)生培訓(xùn)體系構(gòu)建與醫(yī)院采購決策影響因素報告
- 呼倫貝爾市縣域經(jīng)濟(jì)發(fā)展的困境與突破路徑研究
- 中遠(yuǎn)海運博鰲有限公司東嶼島旅游度假區(qū)招聘筆試題庫2025
- 2025年本科院校圖書館招聘面試題
- 2025-2026學(xué)年人教版(2024)初中生物八年級上冊教學(xué)計劃及進(jìn)度表
- 項目物資退庫管理辦法
- 2025中國奢華酒店價值重塑與未來圖景白皮書
- 2025至2030中國碳納米管行業(yè)市場發(fā)展分析及風(fēng)險與對策報告
- 制冷站5s管理制度
評論
0/150
提交評論