神經(jīng)計算研究現(xiàn)狀及發(fā)展趨勢_第1頁
神經(jīng)計算研究現(xiàn)狀及發(fā)展趨勢_第2頁
神經(jīng)計算研究現(xiàn)狀及發(fā)展趨勢_第3頁
神經(jīng)計算研究現(xiàn)狀及發(fā)展趨勢_第4頁
神經(jīng)計算研究現(xiàn)狀及發(fā)展趨勢_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

PAGE29神經(jīng)計算研究現(xiàn)狀及發(fā)展趨勢**國家自然科學基金、江蘇省自然科學基金資助陳兆乾周志華陳世福(南京大學計算機軟件新技術國家重點實驗室,南京210093)摘要神經(jīng)計算是軟計算的重要組成部分。近二十年來,該學科的研究受到了極大的重視,取得了大量成果,但也暴露出很多目前研究中存在的不足。本文綜述了神經(jīng)計算的研究現(xiàn)狀及發(fā)展趨勢,主要介紹了神經(jīng)計算理論、方法、應用等不同層面的一些重要研究領域的研究進展,并指出了一些有待研究的重要問題。關鍵詞神經(jīng)網(wǎng)絡,VC維,計算學習理論,集成,數(shù)據(jù)挖掘,快速學習,增量學習,規(guī)則抽取1引言神經(jīng)網(wǎng)絡是由具有適應性的簡單單元組成的廣泛并行互連的網(wǎng)絡,其組織能夠模擬生物神經(jīng)系統(tǒng)對真實世界所作出的交互反應[Koh88]?;谏窠?jīng)網(wǎng)絡建立計算模型,并用于解決科學和工程中的問題就稱為神經(jīng)計算。該領域最早的研究可上溯到McCulloch和Pitts提出的M-P模型[MP43]。在Hebb提出了Hebb學習規(guī)則[Heb49]、Rosenblatt[Ros58]研制出感知機(Perceptron)之后,神經(jīng)計算受到了極大的重視,吸引了大批研究人員參與該領域的研究工作,并取得了一定的進展。但是,由于1969年Minsky和Papert[MP69]指出感知機的缺陷并表示出對該方面研究的悲觀態(tài)度,同時,以產(chǎn)生式規(guī)則為內部表示的專家系統(tǒng)方法展示出燦爛的前景,很長時間內神經(jīng)計算的研究處于停滯狀態(tài)。在此期間,為專家系統(tǒng)服務的知識工程成為了人工智能研究的主流。但是,隨著知識工程的發(fā)展,F(xiàn)eigenbaum等[Fei81]知識工程倡導者意識到了所謂知識瓶頸問題,即將人類專家的知識轉化為機器可執(zhí)行的規(guī)則存在著很大的困難,而如果機器能夠自學習,則可望解決該瓶頸問題。于是,機器學習研究得到了迅猛的發(fā)展[MCM83]。在研究中,研究者們[Mic87,Qui88]發(fā)現(xiàn),與機械學習、類比學習等學習方式相比,示例學習是解決知識瓶頸問題唯一可行的方法。1982年,Hopfield[Hop82]利用全互連型神經(jīng)網(wǎng)絡和計算能量函數(shù)成功求解了計算復雜度為NP完全型的TSP(TravellingSalesmanProblem)問題。這充分展示了神經(jīng)計算作為一種數(shù)值型示例學習方法蘊含的巨大潛力。從此,神經(jīng)計算成為了一個非常熱門的研究領域,經(jīng)過多年的發(fā)展,已成為人工智能兩大主流(連接主義和符號主義)之一。隨著研究的深入,目前神經(jīng)計算研究中存在的問題也逐漸暴露出來,其中的一些已成為神經(jīng)計算進一步發(fā)展的阻礙。但是,從另一個方面來看,它們也揭示了該領域下一步應該著重研究的問題。本文從理論、方法、應用等不同層面,綜述了神經(jīng)計算一些重要研究領域的研究進展,主要包括神經(jīng)網(wǎng)絡VC維計算、神經(jīng)網(wǎng)絡集成、基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘,并指出了一些有待研究的重要問題。限于篇幅,本文沒有對神經(jīng)計算的其他重要領域做深入剖析,僅在結束語中簡要述及。2神經(jīng)網(wǎng)絡VC維計算2.1重要性神經(jīng)計算技術已經(jīng)在很多領域得到了成功的應用,但由于缺少一個統(tǒng)一的理論框架[CC98],經(jīng)驗性成分相當高。這使得研究者們難以對各種神經(jīng)計算模型的性能及其適用范圍進行理論分析,僅能用不十分可靠的實驗性比較評價優(yōu)劣。另一方面,在利用神經(jīng)計算解決問題時,也只能采取具體問題具體分析的方式,通過大量費力耗時的實驗摸索,確定出合適的神經(jīng)網(wǎng)絡模型、算法以及參數(shù)設置。這些缺陷已經(jīng)對神經(jīng)計算的進一步發(fā)展造成了極大的阻礙。如果能提供一套比較完備的理論方法,將可望解決上述問題。最近十年里,很多研究者都致力于這方面的研究,力圖在一個統(tǒng)一的框架下來考慮學習與泛化的問題[Wol95]。PAC(ProbablyApproximatelyCorrect)學習模型[Val84]就是這樣一個框架。作為PAC學習的核心以及學習系統(tǒng)學習能力的度量,VC維(Vapnik-Chervonenkisdimension)在確定神經(jīng)網(wǎng)絡的容量(capacity)、泛化能力(generalization)、訓練集規(guī)模等的關系上有重要作用。如果可以計算出神經(jīng)網(wǎng)絡的VC維,則我們可以估計出要訓練該網(wǎng)絡所需的訓練集規(guī)模;反之,在給定一個訓練集以及最大近似誤差時,我們可以確定所需要的網(wǎng)絡結構。聯(lián)系到Hornik等人[HSW89]所證明的結論,即“僅有一個隱層的網(wǎng)絡就可以任意精度逼近任何函數(shù),但確定該網(wǎng)絡的結構是NP難問題”,顯然,神經(jīng)網(wǎng)絡VC維計算的研究對神經(jīng)網(wǎng)絡的發(fā)展將會產(chǎn)生極大的促進作用。2.2VC維學習系統(tǒng)的容量對其泛化能力有重要影響[Vap82,BH89,GVBBS92]。低容量學習系統(tǒng)只需要較小的訓練集,高容量學習系統(tǒng)則需要較大的訓練集,但其所獲的解將優(yōu)于前者。對給定訓練集來說,高容量學習系統(tǒng)的訓練集誤差和測試集誤差之間的差別將大于低容量學習系統(tǒng)。Vapnik[Vap82]指出,對學習系統(tǒng)來說,訓練集誤差與測試集誤差之間的差別是訓練集規(guī)模的函數(shù),該函數(shù)可以由學習系統(tǒng)的VC維表征。換言之,VC維表征了學習系統(tǒng)的容量。Anthony[Ant97]將VC維定義為:設F為一個從n維向量集X到{0,1}的函數(shù)族,則F的VC維為X的子集E的最大元素數(shù),其中E滿足:對于任意SE,總存在函數(shù)fsF,使得當xS時fs(x)=1,xS但xE時fs(x)=0。VC維可作為函數(shù)族F復雜度的度量,它是一個自然數(shù),其值有可能為無窮大,它表示無論以何種組合方式出現(xiàn)均可被函數(shù)族F正確劃分為兩類的向量個數(shù)的最大值。對于實函數(shù)族,可定義相應的指示函數(shù)族,該指示函數(shù)族的VC維即為原實函數(shù)族的VC維。為便于討論,我們針對典型的二元模式識別問題進行分析。設給定訓練集為{(x1,y1),(x2,y2),…,(xl,yl)},其中xiRn,y{0,1}。顯然,xi是一個n維輸入向量,y為二值期望輸出。再假設訓練樣本與測試樣本均滿足樣本空間的實際概率分布P(x,y)。對基于統(tǒng)計的學習方法來說,學習系統(tǒng)可以由一族二值函數(shù){f(x,),}表征,其中參數(shù)可以唯一確定函數(shù)f(),為所有可能的取值集合。因此,{f(x,),}的VC維也表征了該學習系統(tǒng)的復雜度,即學習系統(tǒng)的最大學習能力,我們稱其為該學習系統(tǒng)的VC維。學習的目的就是通過選擇一個參數(shù)*,使得學習系統(tǒng)的輸出f(x,*)與期望輸出y之間的誤差概率最小化,即出錯率最小化。出錯率也稱為期望風險(ExpectedRisk),如式1所示: (1)其中P(x,y)為樣本空間的實際概率分布。由于P(x,y)通常是未知的,因此無法直接計算R()。但是,對給定的訓練集,其經(jīng)驗風險(EmpiricalRisk)Remp()卻是確定的,如式2所示: (2)其中(xi,yi)為訓練樣本,l為訓練集中樣本數(shù),即訓練集規(guī)模。由數(shù)理統(tǒng)計中的大數(shù)定理可知,隨著訓練集規(guī)模的擴大,Remp()將逐漸收斂于R()?;诮y(tǒng)計的學習方法大多建立在經(jīng)驗風險最小化原則(PrincipleofEmpiricalRiskMinimization)基礎上,其思想就是利用經(jīng)驗風險Remp()代替期望風險R(),用使Remp()最小的f(x,l)來近似使R()最小的f(x,0)。這類方法有一個基本的假設,即如果Remp()收斂于R(),則Remp()的最小值收斂于R()的最小值。Vapnik與Chervonenkis[VC71]證明,該假設成立的充要條件是函數(shù)族{f(x,),}的VC維為有限值。Vapnik[Vap82]還證明,期望風險R()滿足一個上界,即任取滿足0≤<1,下列邊界以概率1–成立: (3)其中h為函數(shù)族{f(x,),}的VC維,l為訓練集規(guī)模。式3右側第二項通常稱為VC置信度(VCConfidence)。由式3可以看出,在學習系統(tǒng)VC維與訓練集規(guī)模的比值很大時,即使經(jīng)驗風險Remp()較小,也無法保證期望風險R()較小,即無法保證學習系統(tǒng)具有較好的泛化能力。因此,要獲得一個泛化性能較好的學習系統(tǒng),就需要在學習系統(tǒng)的VC維與訓練集規(guī)模之間達成一定的均衡。2.3研究進展2.3.1概述由于神經(jīng)網(wǎng)絡也是一種基于統(tǒng)計的學習方法,因此其VC維也滿足2.2節(jié)中關于一般學習系統(tǒng)的討論。從功能上來說,每一個權值、閾值等參數(shù)都已被確定的神經(jīng)網(wǎng)絡就相當于一個函數(shù)。不妨假設網(wǎng)絡有n個輸入神經(jīng)元,m個輸出神經(jīng)元,則該網(wǎng)絡對應于一個函數(shù)f:RnRm。如果我們用來表示所有權值、閾值等可調參數(shù)的集合,表示該集合可能的取值集合,則神經(jīng)網(wǎng)絡的學習過程可被視為通過選擇*來確定函數(shù)f(x,*)。這樣,如果求出函數(shù)族f()的VC維,我們就得到了該神經(jīng)網(wǎng)絡的VC維。由于神經(jīng)網(wǎng)絡的VC維取決于網(wǎng)絡中可調參數(shù)的數(shù)目,而后者又是由網(wǎng)絡的拓撲結構所確定的,因此,網(wǎng)絡的VC維與拓撲結構之間有必然的聯(lián)系。在給定訓練集的情況下,如果我們能求出合適的VC維,則可以幫助確定網(wǎng)絡的結構;反之,在給定網(wǎng)絡結構的情況下,如果我們能求出其VC維,則可以確定合適的訓練集規(guī)模。顯然,這對尋找Hornik[HSW89]指出的最優(yōu)解有重要的啟發(fā)作用。Cover[Cov65]最早進行了神經(jīng)網(wǎng)絡VC維的計算工作,在此之后,Vapnik在相關的統(tǒng)計學方面做了大量的工作[Vap82],他們的成果與Blumer等人[BEHW89]在計算學習理論方面的工作一起,被Valiant[Val84]引入PAC學習模型中。從此,神經(jīng)網(wǎng)絡VC維的計算受到了極大的重視。1997年,Vidyasagar[Vid97]通過構造性方法證明,神經(jīng)網(wǎng)絡的VC維并不一定是有限的。因此,對神經(jīng)網(wǎng)絡VC維的討論必須針對一定的網(wǎng)絡結構,這樣才能保證VC維為有限值。目前,這方面的研究成果主要集中在以閾值函數(shù)(thresholdfunction)、分段多項式函數(shù)(piecewisepolynomialfunction)和Sigmoid函數(shù)為響應函數(shù)的神經(jīng)網(wǎng)絡上。為便于討論,我們引入三個符號:O、和。對于任意函數(shù)f和g,如果存在c1>0使得f≤c1g,則記為f=O(g);如果存在c2>0使得f≥c2g,則記為f=(g);如果f=O(g)和f=(g)同時滿足,則記為f=(g)。2.3.2閾值網(wǎng)絡Cover[Cov65]和Baum等人[BH89]分別證明,對以閾值函數(shù)為響應函數(shù)的前饋神經(jīng)網(wǎng)絡,若網(wǎng)絡有w個連接權,則其VC維上界為O(wlogw),其中l(wèi)og()表示以2為底的對數(shù)。1993年,Sakurai[Sak93]證明,對僅有一個隱層且輸入為實值向量的前饋閾值神經(jīng)網(wǎng)絡來說,如果網(wǎng)絡有w個可調參數(shù),則其VC維下界為(wlogw)。1994年,Maass[Mas94]對Sakurai的結論做了進一步擴展,證明對至少有兩個隱層的前饋閾值神經(jīng)網(wǎng)絡來說,其VC維下界為(wlogw)。Maass的結論表述為定理1:[定理1]設(n)nN為層數(shù)d≥3(至少兩個隱層)的層間全連接神經(jīng)網(wǎng)絡的任意序列,并且n有n個輸入神經(jīng)元和(n)個計算神經(jīng)元(包括隱層神經(jīng)元和輸出神經(jīng)元),其中(n)個計算神經(jīng)元位于第1隱層,至少4logn個位于第2隱層,則n有(n2)個權,其VC維VC(n)=(n2logn)。1999年,Carter和Oxley[CO99]研究了神經(jīng)網(wǎng)絡VC維與組合幾何(combinatorialgeometry)[Zas97]之間的關系,利用Poincare多項式[OT91]給出了閾值前饋網(wǎng)絡VC維計算公式,其結論表述為定理2:[定理2]給定向量v1,v2,…,vpRd,閾值t1,t2,…,tpR,以及參數(shù)w1,w2,…,wpR,設為閾值前饋網(wǎng)絡,且隱層數(shù)目足夠多,則該網(wǎng)絡的第一隱層所產(chǎn)生的函數(shù)族為式4,該網(wǎng)絡的VC維為式5。 (4) (5)定理2說明,閾值前饋網(wǎng)絡的第一個隱層將決定多邊形劃分區(qū)域,其他隱層則決定對這些區(qū)域的布爾操作。如果有足夠多的隱層,則可產(chǎn)生對這些劃分區(qū)域的所有可能的邏輯操作組合。因此,只需研究第一隱層所產(chǎn)生的函數(shù)族就可以獲得網(wǎng)絡的VC維。除了上述對前饋網(wǎng)絡的研究,1998年Koiran和Sontag[KS98]證明,對以閾值函數(shù)為響應函數(shù)的循環(huán)神經(jīng)網(wǎng)絡(recurrentneuralnetworks),其VC維下界為(wlog(k/w)),上界為O(min{wklogwk,w2+wlogwk})。其中k為網(wǎng)絡輸入序列的長度。2.3.3分段多項式網(wǎng)絡1995年,Goldberg和Jerrum[GJ95]證明,以分段多項式函數(shù)為響應函數(shù)的前饋神經(jīng)網(wǎng)絡的VC維滿足式6,其中w為網(wǎng)絡中可調參數(shù)的個數(shù),k為計算神經(jīng)元的個數(shù)。 (6)1997年,Koiran與Sontag[KS97]證明分段多項式前饋網(wǎng)絡的VC維下界為(w2),其結論表述為定理3:[定理3]設是一個分段C2函數(shù),對于任意的n≥1,均存在一個神經(jīng)網(wǎng)絡,其神經(jīng)元的響應函數(shù)為,且網(wǎng)絡中有O(n)個權。該網(wǎng)絡的VC維為n2,僅在下列情況例外:是分段常數(shù)(piecewise-constant),此時網(wǎng)絡的VC維為O(nlogn);是仿射變換(affine),此時網(wǎng)絡的VC維為O(n);除有限非空點集外,存在常數(shù)a0和b使得(x)=ax+b,此時網(wǎng)絡的VC維為O(n2),且存在一些VC維為(nlogn)的網(wǎng)絡。1998年,Bartlett等人[BMM98]對分段多項式前饋網(wǎng)絡的VC維邊界做了改進,其結論表述為定理4和定理5:[定理4]對于任意正整數(shù)w,k≤w,L≤w,l和p,考慮一個具有實值輸入的網(wǎng)絡,它最多有w個權,L層中最多有k個計算神經(jīng)元,除一個輸出神經(jīng)元采用線性響應函數(shù)外,所有計算神經(jīng)元都采用分段多項式響應函數(shù),這些函數(shù)的度數(shù)為l,具有p個斷點。設F為由此網(wǎng)絡計算的實值函數(shù)族,則其VC維滿足式7,由于L和k滿足O(w),則對于固定的l和p,其VC維滿足式8。 (7) (8)[定理5]設f:R→R具有下列性質:;f在一些可微點x0處滿足f(x0)0。則對于任意的L≥1,w≥10L–14,存在一個有L層和w個權的前饋參數(shù),其輸出神經(jīng)元采用線性響應函數(shù),其他計算神經(jīng)元采用響應函數(shù)f,由此網(wǎng)絡計算的函數(shù)族滿足式9,其中為不超過u的最大整數(shù)。 (9)由定理4和定理5可以看出,當L=O(w)時,分段多項式前饋網(wǎng)絡的VC維下界為(wL);如果L固定,則VC維上界為O(wlogw),這優(yōu)于Goldberg和Jerrum[GJ95]給出的上界。除了上述對前饋網(wǎng)絡的研究,1998年Koiran和Sontag[KS98]證明,對以固定非線性多項式函數(shù)(fixednonlinearpolynomialfunction)為響應函數(shù)的回歸神經(jīng)網(wǎng)絡,其VC維約為wk。對以固定分段多項式函數(shù)(fixedpiecewisepolynomialfunction)為響應函數(shù)的回歸神經(jīng)網(wǎng)絡,其VC維下界為(wk),上界為O(w2k)。其中k為網(wǎng)絡輸入序列的長度。2.3.4Sigmoid網(wǎng)絡對于以Sigmoid函數(shù)為響應函數(shù)的前饋神經(jīng)網(wǎng)絡,1997年Koiran與Sontag[KS97]證明其VC維下界為(w2),其表述如定理3所示。Bartlett等人[BMM98]證明其VC維下界為(wL),其表述如定理5所示。1997年,Karpinski與Macintyre[KM97]證明這類前饋網(wǎng)絡的VC維上界為O(w2k2),其中k為網(wǎng)絡中計算神經(jīng)元數(shù)。除此之外,1998年Koiran和Sontag[KS98]證明,對以Sigmoid函數(shù)為響應函數(shù)的循環(huán)神經(jīng)網(wǎng)絡,其VC維下界為(wk),上界為O(w4k2)。其中k為網(wǎng)絡輸入序列的長度。2.4進一步的問題1994年,Maass[Mas94]曾提出有關神經(jīng)網(wǎng)絡VC維研究的一些公開問題,但這些問題在近幾年中大多已得到解決。我們認為,在將來的研究中,以下幾方面的問題可望成為該領域的主要研究內容:(1)對于閾值前饋網(wǎng)絡和分段多項式前饋網(wǎng)絡,其VC維已經(jīng)得到了充分的研究,特別是前者,已經(jīng)得到了對實際應用具有指導意義的VC維具體數(shù)值wlogw。但是,由于這兩類網(wǎng)絡的學習能力非常有限,實際使用得最多的是以Sigmoid函數(shù)或Gaussian函數(shù)等連續(xù)函數(shù)為響應函數(shù)的前饋網(wǎng)絡。目前,關于此類網(wǎng)絡的VC維研究還有待深入。雖然Sigmoid前饋網(wǎng)絡已得到了一些研究結論,但其VC維上界O(w2k2)與下界(w2)之間的差距太大,對實際應用缺乏指導意義。如何盡可能縮小該差距,將是一個重要研究課題。(2)目前,對神經(jīng)網(wǎng)絡VC維的研究主要側重于確定其上、下界。由于求出的上、下界之間往往有較大的差距,使得該領域的研究成果難以直接反映到神經(jīng)網(wǎng)絡結構設計、訓練集樣本選擇中。如果能找到一種方法,可以確定網(wǎng)絡VC維的具體值,將有重要的實際意義。在這方面的研究中,Carter和Oxley[CO99]的方法也許是一個值得深入的研究方向。(3)神經(jīng)網(wǎng)絡技術發(fā)展到現(xiàn)在,其模型、算法種類已非常多,它們在解決不同的問題時往往具有不同的能力。例如,循環(huán)神經(jīng)網(wǎng)絡在處理時序問題時其效果遠優(yōu)于前饋網(wǎng)絡。但是,目前VC維的研究主要集中在前饋網(wǎng)絡上,對其他類型的網(wǎng)絡還研究得很少。這方面的工作如能得到加強,將有助于改善各種類型的神經(jīng)網(wǎng)絡在實際應用中的性能。Koiran和Sontag[KS98]的工作已為此開了個頭。(4)最近幾年,神經(jīng)網(wǎng)絡集成(neuralnetworkensemble)已成為神經(jīng)網(wǎng)絡界研究的熱點。由于集成的目的是通過充分利用訓練樣本來改善網(wǎng)絡的泛化能力,因此,集成中網(wǎng)絡的類型、結構與訓練集規(guī)模有密切的關系。集成中雖然包含多個網(wǎng)絡,但從更高的抽象級來看,整個集成也可以看作一個學習系統(tǒng)。因此,神經(jīng)網(wǎng)絡集成也應該具有VC維,如能找到它的計算方法,將對集成技術的發(fā)展起到重要的促進作用。有關神經(jīng)網(wǎng)絡集成的研究將在本文第3部分中詳細介紹。(5)由于VC維考察的是學習系統(tǒng)在最壞情況下的樣本復雜度,因此其結論通常是比較“悲觀”的,與實際應用時的需要有較大的偏差。此外,在進行VC維分析時,通常假定訓練樣本是“一致可學習”的,即訓練樣本均勻地分布在樣本空間中。但在實際應用中,該假設往往很難滿足。由此可知,VC維本身仍存在一些缺陷。如能改進VC維分析方法,或提出更好的方法,將對神經(jīng)網(wǎng)絡乃至整個機器學習技術的發(fā)展起到深遠的影響。在這方面,Haussler等人[HKOS92]和Takahashi等人[GT96,TG98]已進行了一些研究,并取得了初步的成果。3神經(jīng)網(wǎng)絡集成3.1重要性如2.1節(jié)所言,由于缺乏嚴密理論體系的指導,神經(jīng)計算技術的應用效果完全取決于使用者的經(jīng)驗。雖然Hornik等人[HSW89]證明,只需一個具有單隱層的前饋網(wǎng)絡就可以逼近任意復雜度的函數(shù),但如何找到合適的網(wǎng)絡配置卻是一個NP問題。在實際應用中,由于缺乏問題的先驗知識,往往很難找到理想的網(wǎng)絡結構,這就影響了網(wǎng)絡泛化能力的提高。如果能建立一套方法,避開網(wǎng)絡配置的問題,從另一個角度尋求提高學習系統(tǒng)泛化能力的途徑,具有重要的現(xiàn)實意義。1990年,Hansen和Salamon[HS90]開創(chuàng)性地提出了一種方法,即神經(jīng)網(wǎng)絡集成(neuralnetworkensemble),為上述問題的解決提供了一個簡易可行的方案。使用這種方法,可以簡單地通過訓練多個神經(jīng)網(wǎng)絡并將其結果進行合成,顯著地提高學習系統(tǒng)的泛化能力。由于其易于使用且效果明顯,即使是缺乏神經(jīng)計算經(jīng)驗的普通工程技術人員也可以從中受益。因此,對神經(jīng)網(wǎng)絡集成的研究不僅會促進神經(jīng)計算乃至所有統(tǒng)計學習方法的理論研究,還會極大地促進神經(jīng)計算技術進入工程應用的進程。目前,尤其是最近兩、三年中,國際上很多神經(jīng)計算、統(tǒng)計學的研究者都投入到神經(jīng)網(wǎng)絡集成的研究中,使得該領域成為了一個相當活躍的研究熱點。3.2研究進展3.2.1概述Kearns和Valiant[KV88]指出,在PAC學習模型中,若存在一個多項式級學習算法來識別一組概念,并且識別正確率很高,那么這組概念是強可學習的;而如果學習算法識別一組概念的正確率僅比隨機猜測略好,那么這組概念是弱可學習的。Kearns和Valiant提出了弱學習算法與強學習算法的等價性問題,即是否可以將弱學習算法提升成強學習算法。如果兩者等價,那么在學習概念時,我們只要找到一個比隨機猜測略好的弱學習算法,就可以將其提升為強學習算法,而不必直接去找通常情況下很難獲得的強學習算法。上述等價性問題可視為神經(jīng)網(wǎng)絡集成思想的出發(fā)點。1990年,Schapire[Sch90]通過一個構造性方法對該問題作出了肯定的證明,其構造過程稱為Boosting。雖然Boosting算法并非專為神經(jīng)網(wǎng)絡設計,但由于其與神經(jīng)網(wǎng)絡集成有著難以分割的血緣關系,因此我們在本節(jié)中,也將對Boosting及相關問題進行介紹。1996年,Sollich和Krogh[SK96]將神經(jīng)網(wǎng)絡集成定義為:“神經(jīng)網(wǎng)絡集成是用有限個神經(jīng)網(wǎng)絡對同一個問題進行學習,集成在某輸入示例下的輸出由構成集成的各神經(jīng)網(wǎng)絡在該示例下的輸出共同決定”。目前這個定義已被廣泛引用。但是,也有一些研究者[OM99]認為,神經(jīng)網(wǎng)絡集成指的是多個獨立訓練的神經(jīng)網(wǎng)絡進行學習并共同決定最終輸出結果,并不要求集成中的網(wǎng)絡對同一個(子)問題進行學習。符合后一定義的研究至少可以上溯到1972年諾貝爾物理獎獲得者Cooper[Coo91]及其同事和學生八十年代中后期在Nestor系統(tǒng)中的工作,但是,目前一般認為神經(jīng)網(wǎng)絡集成的研究始于Hansen和Salamon[HS90]。在神經(jīng)網(wǎng)絡集成的研究中,始終存在著兩方面的內容。一方面,研究者們試圖設計出更有效的神經(jīng)網(wǎng)絡集成實現(xiàn)方法,以直接用于解決問題。另一方面,研究者們試圖對神經(jīng)網(wǎng)絡集成進行理論分析,以探明這種簡單的方法為何有效、在何種情況下有效,從而為實現(xiàn)方法的設計提供指導。除此之外,很多研究者將神經(jīng)網(wǎng)絡集成應用到實際問題域中,取得了很好的效果。本節(jié)后續(xù)部分將分別對這些方面的研究進展進行介紹。3.2.2實現(xiàn)方法對神經(jīng)網(wǎng)絡集成實現(xiàn)方法的研究主要集中在兩個方面,即怎樣將多個神經(jīng)網(wǎng)絡的輸出結論進行結合,以及如何生成集成中的各網(wǎng)絡個體。A.結論生成方法當神經(jīng)網(wǎng)絡集成用于分類器時,集成的輸出通常由各網(wǎng)絡的輸出投票產(chǎn)生。通常采用絕對多數(shù)投票法(某分類成為最終結果當且僅當有超過半數(shù)的神經(jīng)網(wǎng)絡輸出結果為該分類)或相對多數(shù)投票法(某分類成為最終結果當且僅當輸出結果為該分類的神經(jīng)網(wǎng)絡的數(shù)目最多)。理論分析和大量試驗表明[HS90],后者優(yōu)于前者。因此,在對分類器進行集成時,目前大多采用相對多數(shù)投票法。當神經(jīng)網(wǎng)絡集成用于回歸估計時,集成的輸出通常由各網(wǎng)絡的輸出通過簡單平均或加權平均產(chǎn)生。Perrone等人[PC93]認為,采用加權平均可以得到比簡單平均更好的泛化能力。但是,也有一些研究者[OS96]認為,對權值進行優(yōu)化將會導致過配(over-fitting),從而使得集成的泛化能力降低,因此,他們提倡使用簡單平均。此外還存在多種結合方式。例如,有些研究者[ZMW92,RS93]利用神經(jīng)網(wǎng)絡這樣的學習系統(tǒng),通過學習來對多個預測進行結合;有些研究者[JJNH91]通過對一組子網(wǎng)進行進化,使各子網(wǎng)都可以較好地處理一個輸入子空間,從而一步步地進行結合。B.個體生成方法在生成集成中個體網(wǎng)絡方面,最重要的技術是Boosting[Sch90]和Bagging[Bre96]。Boosting最早由Schapire[Sch90]提出,F(xiàn)reund[Fre95]對其進行了改進。通過這種方法可以產(chǎn)生一系列神經(jīng)網(wǎng)絡,各網(wǎng)絡的訓練集決定于在其之前產(chǎn)生的網(wǎng)絡的表現(xiàn),被已有網(wǎng)絡錯誤判斷的示例將以較大的概率出現(xiàn)在新網(wǎng)絡的訓練集中。這樣,新網(wǎng)絡將能夠很好地處理對已有網(wǎng)絡來說很困難的示例。另一方面,雖然Boosting方法能夠增強神經(jīng)網(wǎng)絡集成的泛化能力,但是同時也有可能使集成過分偏向于某幾個特別困難的示例。因此,該方法不太穩(wěn)定,有時能起到很好的作用,有時卻沒有效果[Sch90]。值得注意的是,Schapire[Sch90]和Freund[Fre95]的算法在解決實際問題時有一個重大缺陷,即它們都要求事先知道弱學習算法學習正確率的下限,這在實際問題中很難做到。1995年,F(xiàn)reund和Schapire[FS97]提出了AdaBoost(AdaptiveBoost)算法,該算法的效率與Freund算法[Fre95]很接近,卻可以非常容易地應用到實際問題中,因此,該算法已成為目前最流行的Boosting算法。Bagging[Bre96]方法中,各神經(jīng)網(wǎng)絡的訓練集由從原始訓練集中隨機選取若干示例組成,訓練集的規(guī)模通常與原始訓練集相當,訓練例允許重復選取。這樣,原始訓練集中某些示例可能在新的訓練集中出現(xiàn)多次,而另外一些示例則可能一次也不出現(xiàn)。Bagging方法通過重新選取訓練集增加了神經(jīng)網(wǎng)絡集成的差異度,從而提高了泛化能力。Breiman[Bre96]指出,穩(wěn)定性是Bagging能否發(fā)揮作用的關鍵因素,Bagging能提高不穩(wěn)定學習算法的預測精度,而對穩(wěn)定的學習算法效果不明顯,有時甚至使預測精度降低。學習算法的穩(wěn)定性是指如果訓練集有較小的變化,學習結果不會發(fā)生較大變化,例如,k最近鄰方法是穩(wěn)定的,而判定樹、神經(jīng)網(wǎng)絡等方法是不穩(wěn)定的。Bagging與Boosting的區(qū)別在于Bagging的訓練集的選擇是隨機的,各輪訓練集之間相互獨立,而Boosting的訓練集的選擇不是獨立的,各輪訓練集的選擇與前面各輪的學習結果有關;Bagging的各個預測函數(shù)沒有權重,而Boosting是有權重的;Bagging的各個預測函數(shù)可以并行生成,而Boosting的各個預測函數(shù)只能順序生成。對于象神經(jīng)網(wǎng)絡這樣極為耗時的學習方法,Bagging可通過并行訓練節(jié)省大量時間開銷。此外還存在多種個體生成方法。例如,有些研究者[OS96a,YL98]利用遺傳算法來產(chǎn)生神經(jīng)網(wǎng)絡集成中的個體;有些研究者使用不同的目標函數(shù)[HW90]、隱層神經(jīng)元數(shù)[Che96]、權空間初始點[MS95]等來訓練不同的網(wǎng)絡,從而獲得神經(jīng)網(wǎng)絡集成的個體。3.2.3理論分析對神經(jīng)網(wǎng)絡集成的理論分析與對其實現(xiàn)方法的研究類似,也分為兩個方面,即對結論生成方法的分析,以及對網(wǎng)絡個體生成方法的分析。A.結論生成方法分析1990年,Hansen和Salamon[HS90]證明,對神經(jīng)網(wǎng)絡分類器來說,采用集成方法能夠有效提高系統(tǒng)的泛化能力。假設集成由N個獨立的神經(jīng)網(wǎng)絡分類器構成,采用絕對多數(shù)投票法,再假設每個網(wǎng)絡以1–p的概率給出正確的分類結果,并且網(wǎng)絡之間錯誤不相關,則該神經(jīng)網(wǎng)絡集成發(fā)生錯誤的概率perr為: (10)在p<1/2時,perr隨N的增大而單調遞減。因此,如果每個神經(jīng)網(wǎng)絡的預測精度都高于50%,并且各網(wǎng)絡之間錯誤不相關,則神經(jīng)網(wǎng)絡集成中的網(wǎng)絡數(shù)目越多,集成的精度就越高。當N趨向于無窮時,集成的錯誤率趨向于0。在采用相對多數(shù)投票法時,神經(jīng)網(wǎng)絡集成的錯誤率比式10復雜得多,但是Hansen和Salamon[HS90]的分析表明,采用相對多數(shù)投票法在多數(shù)情況下能夠得到比絕對多數(shù)投票法更好的結果。在實際應用中,由于各個獨立的神經(jīng)網(wǎng)絡并不能保證錯誤不相關,因此,神經(jīng)網(wǎng)絡集成的效果與理想值相比有一定的差距,但其提高泛化能力的作用仍相當明顯。1993年,Perrone和Cooper[PC93]證明,在將神經(jīng)網(wǎng)絡集成用于回歸估計時,如果采用簡單平均,且各網(wǎng)絡的誤差是期望為0且互相獨立的隨機變量,則集成的泛化誤差為各網(wǎng)絡泛化誤差平均值的1/N,其中N為集成中網(wǎng)絡的數(shù)目;如果采用加權平均,通過適當選取各網(wǎng)絡的權值,能夠得到比采用簡單平均法更好的泛化能力。常用的一些神經(jīng)網(wǎng)絡模型在學習過程中容易陷入局部極小,這通常被認為是神經(jīng)計算的主要缺點之一。然而,Perrone和Cooper[PC93]卻認為,這一特性對神經(jīng)網(wǎng)絡集成泛化能力的提高起到了重要作用。這是因為,如果各神經(jīng)網(wǎng)絡互不相關,則它們在學習中很可能會陷入不同的局部極小,這樣神經(jīng)網(wǎng)絡集成的差異度(Variance)就會很大,從而減小了泛化誤差。換句話說,各局部極小的負作用相互抵消了。1995年,Krogh和Vedelsby[KV95]給出了神經(jīng)網(wǎng)絡集成泛化誤差計算公式。假設學習任務是利用N個神經(jīng)網(wǎng)絡組成的集成對f:RnR進行近似,集成采用加權平均,各網(wǎng)絡分別被賦以權值w,并滿足式11和式12: (11) (12)再假設訓練集按分布p(x)隨機抽取,網(wǎng)絡對輸入X的輸出為V(X),則神經(jīng)網(wǎng)絡集成的輸出為: (13)神經(jīng)網(wǎng)絡的泛化誤差E和神經(jīng)網(wǎng)絡集成的泛化誤差E分別為: (14) (15)各網(wǎng)絡泛化誤差的加權平均為: (16)神經(jīng)網(wǎng)絡的差異度A和神經(jīng)網(wǎng)絡集成的差異度分別為: (17) (18)則神經(jīng)網(wǎng)絡集成的泛化誤差為: (19)式19中的度量了神經(jīng)網(wǎng)絡集成中各網(wǎng)絡的相關程度。若集成是高度偏向(biased)的,即對于相同的輸入,集成中所有網(wǎng)絡都給出相同或相近的輸出,此時集成的差異度接近于0,其泛化誤差接近于各網(wǎng)絡泛化誤差的加權平均。反之,若集成中各網(wǎng)絡是相互獨立的,則集成的差異度較大,其泛化誤差將遠小于各網(wǎng)絡泛化誤差的加權平均。因此,要增強神經(jīng)網(wǎng)絡集成的泛化能力,就應該盡可能地使集成中各網(wǎng)絡的誤差互不相關。B.個體生成方法分析Freund和Schapire[FS97]以AdaBoost為代表,對Boosting進行了分析,并證明該方法產(chǎn)生的最終預測函數(shù)H的訓練誤差滿足式20,其中εt為預測函數(shù)ht的訓練誤差,t=1/2–t。 (20)從式20可以看出,只要學習算法略好于隨機猜測,訓練誤差將隨t以指數(shù)級下降。在此基礎上,F(xiàn)reund和Schapire[FS97]用VC維對Boosting的泛化誤差進行了分析。設訓練例為m個,學習算法的VC維為d,訓練輪數(shù)為T,則其泛化誤差上限如式21所示,其中表示對訓練集的經(jīng)驗概率。 (21)式21表明,若訓練輪數(shù)過多,Boosting將發(fā)生過配。但大量試驗表明,Boosting即使訓練幾千輪后仍不會發(fā)生過配現(xiàn)象,而且其泛化誤差在訓練誤差已降到零后仍會繼續(xù)降低。為解釋這一現(xiàn)象,1998年Schapire等人[SFBL98]又象Stitson等人[SWGVV96]對SVM[CZL00]所做的一樣,從邊際(margin)的角度對泛化誤差進行了分析。邊際margin(x,y)定義為: (22)正邊際表示正確預測,負邊際表示錯誤預測,較大的邊際可信度較高,較小的邊際可信度較低。如圖1所示,假設存在兩個不同的類別的數(shù)據(jù)點,若以h1為劃分超平面,則兩個分類的最小邊際為d1;若以h2為劃分超平面,則兩個分類的最小邊際為d2。顯然,如果d2>d1,則h2是比h1更好的劃分超平面,因為其分類魯棒性更好。Schapire等人[SFBL98]認為,在訓練誤差降為零后,Boosting仍會改善邊際,即繼續(xù)尋找邊際更大的劃分超平面,這就使得分類可靠性得到提高,從而使泛化誤差得以繼續(xù)降低。進一步,Schapire等人[SFBL98]還具體地給出了泛化誤差的上限: (23)從式23可以看出,Boosting的泛化誤差上限與訓練輪數(shù)無關,Schapire[Sch99]的一些實驗也證實了這一點。然而,1998年Grove和Schurmans[GS98]指出,Schapire等人的邊際假說并不能真正解釋Boosting成功的原因。為證明這一點,他在AdaBoost的基礎上設計了LPBoost算法,通過線性規(guī)劃來調整各預測函數(shù)的權重,從而增大最小邊際。Grove指出,如果邊際假說成立,那么LPBoost算法產(chǎn)生的學習系統(tǒng)泛化誤差應比較小,然而實驗表明,該學習系統(tǒng)的泛化誤差并不小,也就是說,邊際的增大并不必然導致泛化誤差的減小,有時甚至造成泛化誤差增大。因此,關于Boosting為什么有效,目前仍然沒有一個被廣泛接受的理論解釋。1996年,Breiman[Bre96]對Bagging進行了理論分析。他指出,分類問題可達到的最高正確率以及利用Bagging可達到的正確率分別如式24和式25所示,其中C表示序正確(ordercorrect)的輸入集,C'為C的補集,為指示函數(shù)(IndicatorFunction)。 (24) (25)顯然,Bagging可使序正確集的分類正確率達到最優(yōu),單獨的預測函數(shù)則無法做到這一點。對回歸問題,Breiman推出式26,不等號左邊為Bagging的誤差平方,右邊為各預測函數(shù)誤差平方的期望: (26)顯然,預測函數(shù)越不穩(wěn)定,即式26右邊和左邊的差越大,Bagging的效果越明顯。除此之外,Breiman[Bre96a]還從偏向(bias)和差異(variance)的角度對泛化誤差進行了分析。他指出,不穩(wěn)定預測函數(shù)的偏向較小、差異較大,Bagging正是通過減小差異來減小泛化誤差的。在此之后,Wolpert和Macready[WM99]具體地給出了泛化誤差、偏向和差異之間的關系:(27)式27左邊為泛化誤差,右邊第一項為偏差的平方,第二項為差異。Bagging就是對h*(q)進行模擬,使得在偏差相同的情況下差異盡量趨向于零。值得注意的是,雖然利用偏向和差異來解釋Bagging獲得了一定的成功,但Freund和Schapire[FS98]通過一系列基于Stumps和C4.5的實驗指出,偏向和差異并不能很好地解釋Boosting。3.2.4應用成果由于神經(jīng)網(wǎng)絡集成方法操作簡單且效果明顯,因此,該技術已在很多領域中得到了成功的應用。1992年,Hansen等人[HLS92]利用由相對多數(shù)投票法結合的神經(jīng)網(wǎng)絡集成進行手寫體數(shù)字識別,實驗結果表明,集成的識別率比最好的單一神經(jīng)網(wǎng)絡識別率高出20~25%。此后,Schwenk和Bengio[SB97]將AdaBoost與神經(jīng)網(wǎng)絡結合進行手寫體字符識別,系統(tǒng)對由200多個人的手寫字符所組成的數(shù)據(jù)庫能達到1.4%的錯誤率,而對UCI字符數(shù)據(jù)集則能達到2%的錯誤率。1996年,Gutta和Wechsler[GW96]將神經(jīng)網(wǎng)絡集成和判定樹相結合進行正面人臉識別,其集成由RBF網(wǎng)絡采用相對多數(shù)投票法構成,實驗結果表明,使用神經(jīng)網(wǎng)絡集成不僅增加了系統(tǒng)的健壯性,還提高了識別率。本文作者[HZZC00]與CarnegieMellon大學、微軟中國研究院的合作者一起,將神經(jīng)網(wǎng)絡集成用于圖象在深度方向上發(fā)生偏轉的多姿態(tài)人臉識別,在省去了偏轉角度估計預處理的情況下,系統(tǒng)的識別精度甚至高于多個單一神經(jīng)網(wǎng)絡在理想偏轉角度估計預處理協(xié)助之下所能取得的最佳識別精度,除此之外,系統(tǒng)還能在進行識別的同時給出一定的角度估計信息。Schapire等人[SSS98]將Boosting用于文本過濾,并與源于信息檢索的Rocchio算法進行了比較,發(fā)現(xiàn)在訓練文本集較大的情況下,AdaBoost算法的效果較好。Shimshoni和Intrator[SI98]利用神經(jīng)網(wǎng)絡集成進行地震波分類。他們采用了二級集成方式,地震波信號的三種不同表示分別被輸入到采用不同網(wǎng)絡結構的三個集成中,每個集成都被賦予一個可信度,第二級集成就以該可信度為權值,通過加權平均對第一級的三個集成進行結合。此外,神經(jīng)網(wǎng)絡集成還在語音識別[Kir95]、遙感信息處理[BCMAL94]、時序分析(如股市大盤走勢的預測)[KK97]、聲納信號分類[Rus91]等領域成功地得到了應用,限于篇幅,這里就不再一一詳細介紹了。3.3進一步的問題目前,在神經(jīng)網(wǎng)絡集成的研究中仍然存在著很多有待解決的問題。我們認為,在將來的研究中,以下幾方面的問題可望成為該領域的主要研究內容:(1)關于神經(jīng)網(wǎng)絡集成的研究目前基本上是針對分類和回歸估計這兩種情況分別進行的,這就導致了多種理論分析以及隨之而來的多種不同解釋的產(chǎn)生。如果能為神經(jīng)網(wǎng)絡集成建立一個統(tǒng)一的理論框架,不僅可以為集成技術的理論研究提供方便,還有利于促進其應用層面的發(fā)展。(2)關于Boosting為什么有效,雖然已有很多研究者進行了研究,但目前仍然沒有一個可以被廣泛接受的理論解釋。如果能夠成功地解釋這種方法背后隱藏的東西,不僅會促進統(tǒng)計學習方法的發(fā)展,還會對整個機器學習技術的進步發(fā)揮積極作用。(3)現(xiàn)有研究成果表明,當神經(jīng)網(wǎng)絡集成中的個體網(wǎng)絡差異較大時,集成的效果較好,但如何獲得差異較大的個體網(wǎng)絡,以及如何評價多個網(wǎng)絡之間的差異度,目前仍沒有較好的方法。如果能找到這樣的方法,將極大地促進神經(jīng)網(wǎng)絡集成技術在應用領域的發(fā)展。(4)在使用神經(jīng)網(wǎng)絡集成,尤其是Boosting類方法時,訓練樣本的有限性是一個很大的問題,Bagging等算法正是通過緩解該問題而獲得了成功。如何盡可能地充分利用訓練數(shù)據(jù),也是一個很值得研究的重要課題。(5)神經(jīng)網(wǎng)絡的一大缺陷是其“黑箱性”,即網(wǎng)絡學到的知識難以被人理解,而神經(jīng)網(wǎng)絡集成則加深了這一缺陷。目前,從神經(jīng)網(wǎng)絡中抽取規(guī)則的研究已成為研究熱點,如果能從神經(jīng)網(wǎng)絡集成中抽取規(guī)則,則可以在一定程度上緩解集成的不可理解性。有關神經(jīng)網(wǎng)絡規(guī)則抽取的研究將在本文第4部分中詳細介紹。4基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘4.1重要性1996年,F(xiàn)ayyad、Piatetsky-Shapiro和Smyth[FPS96]對KDD(KnowledgeDiscoveryfromDatabases)和數(shù)據(jù)挖掘的關系進行了闡述。他們指出,KDD是識別出存在于數(shù)據(jù)庫中有效的、新穎的、具有潛在效用的、最終可理解的模式的非平凡過程,而數(shù)據(jù)挖掘則是該過程中的一個特定步驟。但是,隨著該領域研究的發(fā)展,研究者們目前趨向于認為KDD和數(shù)據(jù)挖掘具有相同的含義,即認為數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識。數(shù)據(jù)挖掘的困難主要存在于三個方面[GW98]:首先,巨量數(shù)據(jù)集的性質往往非常復雜,非線性、時序性與噪音普遍存在;其次,數(shù)據(jù)分析的目標具有多樣性,而復雜目標無論在表述還是在處理上均與領域知識有關;第三,在復雜目標下,對巨量數(shù)據(jù)集的分析,目前還沒有現(xiàn)成的且滿足可計算條件的一般性理論與方法。但是,由于現(xiàn)實世界數(shù)據(jù)庫中存在著大量有待利用的信息,在潛在的巨大利益驅動下,數(shù)據(jù)挖掘研究目前成為了機器學習、數(shù)據(jù)庫等領域的研究熱點。在早期工作中,研究者們主要是將符號型機器學習方法與數(shù)據(jù)庫技術相結合,但由于真實世界的數(shù)據(jù)關系相當復雜,非線性程度相當高,而且普遍存在著噪音數(shù)據(jù),因此這些方法在很多場合都不適用[Wu95]。如果能將神經(jīng)計算技術用于數(shù)據(jù)挖掘,將可望借助神經(jīng)網(wǎng)絡的非線性處理能力和容噪能力,較好地解決這一問題。另一方面,從挖掘出的知識種類來看,目前數(shù)據(jù)挖掘研究主要著重于關聯(lián)規(guī)則、特征規(guī)則、分類規(guī)則、聚類規(guī)則、時序規(guī)則、模式相似性、Web瀏覽路徑等方面。雖然利用神經(jīng)計算挖掘關聯(lián)規(guī)則具有較大難度,但其完全可以勝任其他種類知識的挖掘。因此,設計出基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘方法并將其用于真實世界問題,不僅是可行的,而且也是必要的。4.2研究進展4.2.1概述一些研究者[LSL95,CS97]指出,將神經(jīng)計算技術應用于數(shù)據(jù)挖掘主要存在兩大障礙。首先,神經(jīng)網(wǎng)絡學到的知識難于理解。其次,學習時間太長,不適于大型數(shù)據(jù)集。如果這兩個問題得以解決,基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘將具有廣泛的應用前景。針對上述問題,基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘主要有兩方面的研究內容,即增強網(wǎng)絡的可理解性以及提高網(wǎng)絡學習速度。目前,前者的解決方案是從神經(jīng)網(wǎng)絡中抽取易于理解的規(guī)則,后者的解決方案則是設計快速學習算法。由該思路出發(fā),Lu等人[LSL95]設計了一個數(shù)據(jù)挖掘系統(tǒng)NeuroRule,并對Agrawal等人[AIS93]提出的數(shù)據(jù)挖掘基準測試問題進行了實驗;本文作者[ZCC99]則利用規(guī)則抽取算法SPT[ZHYC00]和快速學習算法FTART[CZLC96,CLZC97],成功地對臺風數(shù)據(jù)庫進行了分類規(guī)則挖掘。值得注意的是,在試圖將神經(jīng)計算用于數(shù)據(jù)挖掘,甚至在數(shù)據(jù)挖掘產(chǎn)生之前,就已經(jīng)有研究者對神經(jīng)網(wǎng)絡規(guī)則抽取以及快速學習算法進行了研究,他們的工作為基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘的發(fā)展奠定了良好的基礎。4.2.2規(guī)則抽取神經(jīng)網(wǎng)絡規(guī)則抽取的研究最早開始于80年代末。1988年,Gallant[Gal88]設計了一個可以用if-then規(guī)則解釋推理結論的神經(jīng)網(wǎng)絡專家系統(tǒng)。在此之后,很多研究者進行了這方面的研究,并取得了大量成果。1998年,IEEETransactiononNeuralNetworks專門為神經(jīng)網(wǎng)絡規(guī)則抽取出版了一期??琓ickle和Andrews[TA98]在首篇文章中明確指出,從神經(jīng)網(wǎng)絡中抽取規(guī)則已經(jīng)是當前神經(jīng)網(wǎng)絡界急需解決的問題,這充分說明該領域已經(jīng)成為了神經(jīng)計算研究的熱點。根據(jù)設計思想的不同,目前的方法大致可以分成兩大類,即基于結構分析的方法和基于性能分析的方法。本節(jié)后續(xù)部分將對這兩大類中的典型算法進行介紹和分析。值得注意的是,有的研究者[ZLZ99]將神經(jīng)網(wǎng)絡規(guī)則抽取作為一種機器學習方法進行研究,他們所關注的是抽取出的規(guī)則的泛化精度,而非規(guī)則對網(wǎng)絡的保真度。由于這些方法的目的和作用并不是增強神經(jīng)網(wǎng)絡的可理解性,因此本文沒有對它們進行介紹。A.基于結構分析的方法基于結構分析的神經(jīng)網(wǎng)絡規(guī)則抽取方法把規(guī)則抽取視為一個搜索過程,其基本思想是把已訓練好的神經(jīng)網(wǎng)絡結構映射成對應的規(guī)則。由于搜索過程的計算復雜度和神經(jīng)網(wǎng)絡輸入分量之間呈指數(shù)級關系,當輸入分量很多時,會出現(xiàn)組合爆炸。因此,此類算法一般采用剪枝聚類等方法來減少網(wǎng)絡中的連接以降低計算復雜度。1988年,Gallant[Gal88]設計了一個神經(jīng)網(wǎng)絡專家系統(tǒng),并提出了一個簡單的規(guī)則抽取算法用于解釋專家系統(tǒng)所做的推理。該算法通過抽取單個規(guī)則來解釋神經(jīng)網(wǎng)絡如何為某個給定事例(case)得出結論。其基本思想就是從當前已知的信息集中選擇一個能有效地產(chǎn)生該結論的最小信息集合,也就是說,不管其他未知輸入分量的取值為多少,只要滿足該最小信息集合的取值要求就可以得出結論。由于該算法非常簡單,只適用于連接權較少的小型的神經(jīng)網(wǎng)絡。1991年,F(xiàn)u[Fu91]提出了KT算法。該算法將網(wǎng)絡中結點的激活值通過近似處理為0和1,將屬性分為“正屬性”和“負屬性”,前者對某結論起到確認作用,后者則起否定作用。在所有的“負屬性”都不出現(xiàn)的情況下,找出所有最多由k個“正屬性”組合的集合。然后從該集合中找出最多有k個前件(相應于k個“正屬性”)的規(guī)則,這些規(guī)則在“負屬性”部分或全部出現(xiàn)的情況下,仍然使某結論成立。對單層網(wǎng)絡,通過上述處理就可以抽取出規(guī)則。對多層網(wǎng)絡,KT將隱結點視為“隱屬性”,然后按處理單層網(wǎng)絡的方法一層一層地抽取出規(guī)則,最后通過“代入”等方法重寫這些規(guī)則,直到規(guī)則中只出現(xiàn)輸入屬性和輸出結論為止。值得注意的是,雖然KT算法對“正”、“負”屬性的區(qū)分降低了規(guī)則搜索復雜度,但這也限制了算法的規(guī)則抽取能力,使得抽取出的規(guī)則無法精確地描述原神經(jīng)網(wǎng)絡。1992年,Towell和Shavlik[TS92]為基于知識的神經(jīng)網(wǎng)絡(KnowledgeBasedArtificialNeuralNetworks,KBANN)[TS94]設計了一種規(guī)則抽取算法,即MOFN算法。該算法先用標準聚類算法合并KBANN中權值接近的連接以創(chuàng)建等價類,并將每個等價類的權值設為該組連接權的平均值,然后去掉那些對結果影響不大的等價類,在不調整權值的前提下對神經(jīng)網(wǎng)絡重新進行訓練,最后直接根據(jù)網(wǎng)絡結構和權值抽取出形如式28的MOFN規(guī)則。if(MofNantecedentsaretrue) then… (28)MOFN規(guī)則形式不僅減少了抽取的規(guī)則數(shù),還使得規(guī)則集比較簡單易懂。另外,由于對連接進行了聚類,也使得規(guī)則搜索空間大為減少,從而較大地降低了規(guī)則抽取的時間開銷。圖2給出了一個典型的抽取MOFN規(guī)則的例子:值得注意的是,在普通的神經(jīng)網(wǎng)絡中,由于連接權大多發(fā)散地分布在權值空間中,不象在KBANN中那樣容易聚為等價類,因此一般來說,MOFN算法僅適用于KBANN。1993年,Craven和Shavlik[CS93]提出,可以用柔性權共享(softweight-sharing)方法[NH92]訓練網(wǎng)絡,然后用MOFN算法抽取規(guī)則。由于柔性權共享方法會促進連接權在訓練中聚類,這樣就使得MOFN算法的適用范圍有所擴大。但是,由于MOFN算法對神經(jīng)網(wǎng)絡的結構有一些很強的要求,例如要求神經(jīng)元激活值為二值模式、每個神經(jīng)元表示唯一的概念、網(wǎng)絡輸入為離散值等,這使其適用范圍始終受到很大的限制。1993年,Sestito和Dillon[SD93]提出了一種利用抑制性單層網(wǎng)絡為神經(jīng)網(wǎng)絡中每個輸出神經(jīng)元抽取相應規(guī)則的算法。他們首先將網(wǎng)絡的輸出神經(jīng)元作為附加輸入神經(jīng)元,利用擴展后的輸入神經(jīng)元、初始的輸出神經(jīng)元以及一個隱含層建立多層網(wǎng)絡,用BP算法對其進行訓練。訓練完成之后,對所有輸入和附加輸入神經(jīng)元,根據(jù)式29計算它們之間的誤差平方和SSE,其中a為輸入神經(jīng)元,b為附加輸入神經(jīng)元(即輸出神經(jīng)元),waj和wbj分別為神經(jīng)元a、b與隱層神經(jīng)元j之間的連接權。SSE實際上度量了輸入神經(jīng)元a和輸出神經(jīng)元b之間的接近程度,SSEab越小則說明輸入a對輸出b的作用越大。 (29)然后,利用擴展后的輸入神經(jīng)元以及初始的輸出神經(jīng)元建立一個單層抑制性網(wǎng)絡,用Hebb規(guī)則確定神經(jīng)元間的抑制性連接權Weightab,該權值實際上度量了輸入神經(jīng)元與輸出神經(jīng)元之間的相關度,值越小則說明某輸入與某輸出的關系越密切。在此基礎上,對每一個輸入神經(jīng)元a和輸出神經(jīng)元b,根據(jù)式30計算其SSE和抑制性連接權Weightab的積。最后,將乘積Productab從大到小排序。對某個特定的輸出,先找出乘積表中的截斷點,即乘積表中的某一個位置,從該處斷開的兩個乘積在數(shù)值上至少相差兩到三倍。然后以截斷點以下的所有輸入屬性為規(guī)則前件,以輸出為規(guī)則后件構造出合取規(guī)則。 (30)Sestito和Dillon的算法對前饋網(wǎng)絡相當有效,可以抽取出較好的規(guī)則。但由于在規(guī)則抽取過程中需要額外地構造并訓練兩個神經(jīng)網(wǎng)絡,其時間代價相當高。1995年,Setiono和Liu[SL95]提出了一種從神經(jīng)網(wǎng)絡中抽取規(guī)則的三階段算法。他們首先用權衰減(weight-decay)方法訓練一個BP網(wǎng)絡,該網(wǎng)絡中較大的連接權反映了較重要的連接;然后對網(wǎng)絡進行修剪,在預測精度不變的情況下刪掉不重要的連接;最后通過對隱層神經(jīng)元的激活值進行離散化,進而為每個輸出結點抽取相應的規(guī)則。該算法中離散化隱層神經(jīng)元激活值的處理別具一格,這使其擺脫了很多規(guī)則抽取方法對激活值類型的限制,可以處理非二值模式的激活值。但是,由于無法保證網(wǎng)絡的功能在離散化處理和修剪處理前后的一致性,因此該算法抽取的規(guī)則在保真度上有一定的缺陷。1997年,Setiono[Set97]提出了一種適用于三層前饋網(wǎng)絡的通用型規(guī)則抽取算法。該算法不僅使用了Setiono和Liu[SL95]設計的激活值離散化技術,還使用了一種獨特的隱層神經(jīng)元分裂技術,即當某個隱層神經(jīng)元的輸入連接數(shù)較多時,將其分裂為若干個輸出神經(jīng)元,并通過引入新的隱層神經(jīng)元來構建子網(wǎng)絡,從而遞歸地進行規(guī)則抽取處理。該算法可以產(chǎn)生相當精確的規(guī)則,但由于要訓練多個子網(wǎng)絡,其時間開銷相當大。另一方面,該算法只適用于規(guī)模較小的網(wǎng)絡,這是因為在輸入神經(jīng)元較多時,待分裂的隱層神經(jīng)元數(shù)以及遞歸分裂的次數(shù)極大。1997年,Setiono和Liu[SL97]還提出了一種從三層前饋網(wǎng)絡中抽取傾斜規(guī)則(obliquerule)的算法NeuroLinear。與普通的規(guī)則相比,傾斜規(guī)則通常可以更好地表示邊界與屬性空間軸非垂直的判定域,從而較大地減少規(guī)則前件數(shù)。NeuroLinear抽取的規(guī)則前件形式為: (31)NeuroLinear首先通過修剪網(wǎng)絡去除冗余連接,并對隱層神經(jīng)元激活值進行聚類以降低組合復雜度。然后用隱層神經(jīng)元聚類后的離散激活值表示輸出層神經(jīng)元的輸出,用輸入層神經(jīng)元的激活值表示隱層神經(jīng)元聚類后的離散激活值,從而得到層次形式的規(guī)則。再對這些規(guī)則進行合并,從而得到直接用輸入屬性表示網(wǎng)絡輸出的規(guī)則。2000年,Setiono[Set00]又最新提出了快速規(guī)則抽取算法。所謂快速是相對于其他的基于結構的規(guī)則抽取算法而言,一般地說,為了避免組合爆炸的問題,大多數(shù)規(guī)則抽取算法都要對原神經(jīng)網(wǎng)絡進行剪枝操作,去掉一些不重要的連接,但為了保證神經(jīng)網(wǎng)絡的精度,需要對剪枝后的神經(jīng)網(wǎng)絡進行再訓練,這增加了算法的開銷,降低了算法的效率。為此,Setiono提出了FERNN算法,該算法無需對神經(jīng)網(wǎng)絡進行多次訓練,可以抽取MOFN規(guī)則或是DNF規(guī)則。B.基于性能分析的方法與基于結構分析的方法不同,基于性能分析的神經(jīng)網(wǎng)絡規(guī)則抽取方法并不對神經(jīng)網(wǎng)絡結構進行分析和搜索,而是把神經(jīng)網(wǎng)絡作為一個整體來處理,這類方法更注重的是抽取出的規(guī)則在功能上對網(wǎng)絡的重現(xiàn)能力,即產(chǎn)生一組可以替代原網(wǎng)絡的規(guī)則。1990年,Saito和Nakano[SN90]提出了RN算法。該算法先從少數(shù)正例中抽取規(guī)則,然后根據(jù)未被覆蓋的正例擴展規(guī)則,根據(jù)覆蓋的反例縮減規(guī)則,直到規(guī)則覆蓋了所有的正例,并且不覆蓋任何反例為止。抽取的規(guī)則表示為析合范式形式。雖然該算法并不對網(wǎng)絡結構進行分析和搜索,但其要搜索正、反例空間,因此該算法在示例空間較大時將面臨組合爆炸問題。1994年,Craven和Shavlik[CS94]為神經(jīng)網(wǎng)絡規(guī)則抽取任務下了一個定義:給定一個訓練好的神經(jīng)網(wǎng)絡以及用于其訓練的訓練集,為網(wǎng)絡產(chǎn)生一個簡潔而精確的符號描述。顯然,該定義來自于性能分析的角度。在該定義的基礎上,Craven和Shavlik將規(guī)則抽取視為一個目標概念為網(wǎng)絡計算功能的學習任務,提出了一種基于學習的規(guī)則抽取算法。該算法使用了兩個外部調用(Oracle),其中EXAMPLES的作用是為規(guī)則學習算法產(chǎn)生訓練例,SUBSET的作用則是判斷被某個規(guī)則覆蓋的示例是否都屬于某個指定類。算法為每個分類產(chǎn)生各自的DNF表達式,它反復地通過EXAMPLES產(chǎn)生訓練例,如果某訓練例沒有被當前該類的DNF表達式覆蓋,則新規(guī)則被初始化為該訓練例所有屬性值的合取,然后反復嘗試去掉該規(guī)則的一些前件,并且調用SUBSET來判斷該規(guī)則是否與網(wǎng)絡保持一致,從而使規(guī)則得以一般化。該算法不需使用特殊的網(wǎng)絡訓練方法,也不需將隱層神經(jīng)元近似為閾值單元,但其計算量較大。1995年,Thrun[Thr95]為前饋神經(jīng)網(wǎng)絡提出了一種基于有效區(qū)間分析(ValidityIntervalAnalysis)的規(guī)則抽取算法。該算法的關鍵是為所有或部分神經(jīng)元找出激活區(qū)間,即有效區(qū)間。算法通過檢查有效區(qū)間集合的一致性而不斷排除導致不一致的區(qū)間。Thrun描述了兩種不同的操作方式,即從特殊到一般和從一般到特殊。前者是從一個隨機選擇的示例開始,通過不斷擴大相應的有效區(qū)間,逐漸得到一般的規(guī)則;后者則是從一個未加驗證的假設集開始,通過有效區(qū)間來驗證假設集中的規(guī)則。利用該算法可以抽取出精度較高的規(guī)則,但其以區(qū)間形式表示的規(guī)則前件使得規(guī)則的可理解性較差。另外,由于該算法的計算開銷非常大,因此其只適用于對規(guī)則進行理論驗證,難以完成實際的神經(jīng)網(wǎng)絡規(guī)則抽取任務。在[CS94]的基礎上,1996年,Craven和Shavlik[CS96]提出了TREPAN算法。該算法首先用訓練好的神經(jīng)網(wǎng)絡對示例集進行分類,然后將該集合作為訓練集提供給類似于ID2-of-3[MP91]的決策樹學習算法,從而構造出一棵與原網(wǎng)絡功能接近的、使用MOFN表達式作為內部劃分的決策樹。與[CS94]的算法相比,TREPAN的計算量較低,但由于決策樹的可理解性不如一階邏輯表達式[Wu95],TREPAN抽取出的規(guī)則的可理解性也有所降低。1997年,Craven和Shavlik[CS97a]將TREPAN用于一個噪音時序任務,即美元–馬克匯率預測,取得了比現(xiàn)有方法更好的效果。1997年,Benitez等人[BCR97]證明,多層前饋神經(jīng)網(wǎng)絡和基于模糊規(guī)則的系統(tǒng)是等價的,對任何一個以布爾函數(shù)為隱層神經(jīng)元激活函數(shù)的單隱層前饋網(wǎng)絡,均存在一個對應的模糊系統(tǒng),使得網(wǎng)絡可以由該系統(tǒng)的模糊規(guī)則進行解釋。雖然由此出發(fā)可以很容易地獲取一些模糊規(guī)則,但由于這些規(guī)則對不具有模糊數(shù)學背景的普通用戶來說可理解性太差,因此其在實際應用,尤其是數(shù)據(jù)挖掘任務中用途不大。本文作者[ZHYC00]從功能性觀點出發(fā),提出了一種基于統(tǒng)計的神經(jīng)網(wǎng)絡規(guī)則抽取算法SPT。與其他算法不同的是,SPT并不在規(guī)則抽取開始時離散化所有連續(xù)屬性,而是僅在離散屬性不足以縮小未知屬性空間時,才選擇一個聚類效果最佳的連續(xù)屬性進行離散化,這樣就大大降低了離散化處理中由于屬性空間內在分布特性未知而造成的主觀性。除此之外,SPT采用優(yōu)先級規(guī)則形式,不僅使得規(guī)則表示簡潔緊湊,還免除了規(guī)則應用時所需的一致性處理;利用統(tǒng)計技術對抽取出的規(guī)則進行評價,使得其可以較好地覆蓋示例空間。SPT不依賴于具體的網(wǎng)絡結構和訓練算法,可以方便地應用于各種分類器型神經(jīng)網(wǎng)絡。與其他規(guī)則抽取算法相比,網(wǎng)絡的各輸入分量之間相關度較低時,由于SPT獨特的離散化機制有助于降低無關屬性交互引起的不良影響,因此,SPT可以取得更好的效果。4.2.3快速學習快速學習算法一直是神經(jīng)計算的重要研究內容,從神經(jīng)計算產(chǎn)生以來,這方面的工作就一直沒有停止過。到目前為止,已有很多研究者進行了這方面的研究,并取得了大量成果。1987年,Bachmann等人[BCDZ87]設計了一個最小化能量函數(shù)的松弛模型(relaxationmodel),即庫侖勢模型(CoulombPotentialModel,CPM)。在該模型中,每個訓練例被視為一個靜止在空間中某點的負電荷,即訓練電荷,其位置由該示例的屬性分量確定。而測試例則被視為一個可以在空間中自由移動的正電荷,即測試電荷。測試電荷將受訓練電荷的影響,在訓練電荷形成的靜電場中移動,最終被某個訓練電荷所捕獲,于是該測試例就被賦予捕獲它的訓練例所屬的分類。CPM只需進行一遍訓練,速度很快,但其測試卻是一個很耗時的迭代過程。由于該模型計算量非常大,難以用于大數(shù)據(jù)集。此外,在訓練與測試中,必須保存整個訓練集,這就造成了極大的存儲開銷。值得注意的是,CPM存在的很多問題,實際上在Reilly等人[RCE82]提出的RCE模型(RestrictedCoulombEnergymodel)中早已得到了解決。RCE的訓練是以迭代方式進行的,即必須將訓練集反復提供給系統(tǒng),直到所有吸引域都不發(fā)生變化為止。但在使用訓練好的RCE時,可以直接訪問已生成的吸引域,分類速度極快。顯然,CPM和RCE在訓練和測試速度性能上正好相反,這充分揭示了快速神經(jīng)網(wǎng)絡學習算法研究中存在的一個兩難問題,即訓練速度和測試速度難以兩全。如果訓練速度比較快,往往會導致較低的學習精度和較慢的測試速度;而如果訓練速度比較慢,往往會獲得較高的學習精度和較快的測試速度。因此,在設計、選擇快速學習算法時,需要仔細考慮以盡可能根據(jù)任務的需要對訓練、測試速度進行均衡。由于CPM引入了靜電學中的一些概念和定理,因此該模型和早期的一些類似研究,以及在其基礎上發(fā)展起來的一些模型也被稱為域理論(FieldTheory)或電場理論模型。1990年,Specht[Spe90]提出了概率神經(jīng)網(wǎng)絡(ProbabilisticNeuralNetworks)。該類模型實際上是Bayesian分類器的擴展,其基礎是60年代Specht[Spe66]的工作。這類模型訓練速度快,可以進行增量式訓練,可以為決策給出可信度指示,此外,在提供充分的訓練例時,還可以確保收斂為Bayesian分類器,即以最大正確概率對新示例進行劃分。1991年,Specht[Spe91]又提出了一種通用回歸神經(jīng)網(wǎng)絡(GeneralizedRegressionNeuralNetwork)。該模型不需迭代訓練,僅通過對訓練例的直接估計就可以近似任意函數(shù),而且隨著訓練例的增加,誤差將趨向于0。在這種網(wǎng)絡中,輸出層權值是確定性的,不用進行訓練,只需根據(jù)訓練樣本的期望輸出向量直接進行賦值。實際上,上述快速學習模型,包括域理論模型和Specht提出的模型,以及其他一些曾被賦予不同名字的模型,例如局部化接受域(localizedreceptivefields)[MD88]、局部調整處理單元(locallytunedprocessingunits)[MD89]、高斯勢函數(shù)(Gaussianpotentialfunctions)[LK91]等,目前都被統(tǒng)稱為徑向基函數(shù)(RadialBasis-Function,RBF)網(wǎng)絡。RBF具有很好的通用性,Hartman等人[HKK90]、Girosi等人[GPC91]已經(jīng)證明,只要有足夠多的隱層神經(jīng)元,RBF能以任意精度近似任何連續(xù)函數(shù)。更重要的是,RBF克服了傳統(tǒng)前饋神經(jīng)網(wǎng)絡(例如BP)的很多缺點,其訓練速度相當快,并且在訓練時不會發(fā)生震蕩,也不會陷入局部極小。但是,在進行測試時,RBF的速度卻比較慢,這是由于待判別示例幾乎要與每個隱層神經(jīng)元的中心向量進行比較才能得到結果。雖然可以通過對隱層神經(jīng)元進行聚類來提高判別速度,但這樣就使得訓練時間大為增加,從而失去了RBF最基本的優(yōu)勢。另外,通過引入非線性優(yōu)化技術可以在一定程度上提高學習精度,但這同時也帶來了一些缺陷,如局部極小、訓練時間長等。由于BP是目前最流行的神經(jīng)網(wǎng)絡模型,因此很多研究者致力于研究快速BP學習算法,以克服BP在訓練速度方面的缺陷。在這方面已經(jīng)取得了很多成果,其中最重要的幾種快速變體是QuickProp[Fah88]、SuperSAB[Tol90]和共軛梯度法[Bat92]。但是,由于這些算法并沒有改變BP迭代訓練的本質,因此它們雖然有助于提高訓練速度,但其最終結果仍然難以使BP勝任數(shù)據(jù)經(jīng)常變動、需要快速訓練的數(shù)據(jù)挖掘任務。本文作者[CZLC96,CLZC97]在自適應諧振理論[ZCC99a]和域理論的基礎上提出了一個基于域理論的自適應諧振神經(jīng)網(wǎng)絡模型FTART。該模型將自適應諧振理論和域理論的優(yōu)點有機結合,采用了獨特的解決樣本間沖突和動態(tài)擴大分類區(qū)域的方法,不需人為設置隱層神經(jīng)元,學習速度快、精度高,并且具有增量學習能力。在FTART的基礎上,本文作者又分別針對分類問題和回歸估計問題的特點,設計了一個快速自適應神經(jīng)網(wǎng)絡分類器模型FANNC[ZCC00]和一個快速自適應神經(jīng)回歸估計器模型FANRE[ZCC99b],在處理非巨量數(shù)據(jù)時,這兩個模型不僅學習速度快,還有很強的泛化能力。4.3進一步的問題目前,在基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘的研究中仍然存在著很多有待解決的問題。我們認為,在將來的研究中,以下幾方面的問題可望成為該領域的主要研究內容:(1)基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘主要是希望借助神經(jīng)網(wǎng)絡的非線性處理能力和連續(xù)屬性處理能力,這一點在處理回歸估計問題時尤為明顯。遺憾的是,目前神經(jīng)網(wǎng)絡規(guī)則抽取方面的研究幾乎都是針對分類器型網(wǎng)絡進行的,回歸估計型神經(jīng)網(wǎng)絡的規(guī)則抽取幾乎是一片空白。如果能在后者的研究上取得突破,將極大地促進基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘的發(fā)展。(2)目前,神經(jīng)網(wǎng)絡規(guī)則抽取的工作主要著重于提高抽取出的規(guī)則對網(wǎng)絡的保真度,即規(guī)則是否可以真實地再現(xiàn)網(wǎng)絡的功能。然而,在面向數(shù)據(jù)挖掘的應用中,規(guī)則的可理解性往往更加重要,在一些實際領域中,需要犧牲一定的保真度以獲取更好的可理解性。因此,如何在規(guī)則的可理解性與保真度之間達成折衷,將是一個有待研究的課題。(3)從域理論的研究中可以看出,神經(jīng)網(wǎng)絡訓練速度與測試速度之間可能存在一定的矛盾,如果能從理論上加以證明,將對快速神經(jīng)網(wǎng)絡算法的研究產(chǎn)生巨大的影響。這是因為,如果證明了二者之間不存在矛盾,則研究者們可以致力于尋找訓練、測試速度都很快的模型;而如果證明了二者之間存在矛盾,則研究者們應該放棄同時提高訓練、測試速度的幻想,轉向設計折衷方案。(4)目前的神經(jīng)網(wǎng)絡模型大多不具備增量學習能力,在訓練數(shù)據(jù)發(fā)生變動時,需要用整個訓練集重新對網(wǎng)絡進行訓練。這不僅無法滿足數(shù)據(jù)庫中經(jīng)常發(fā)生的增、刪、改處理,還使得基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘系統(tǒng)必須保存一個極大的訓練集。如果神經(jīng)網(wǎng)絡模型具有增量學習能力,則可以較好地解決這些問題。本文作者在這方面已進行了一些研究[CZLC96,ZCC00,ZCC99b]。(5)目前,基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘主要面向分類規(guī)則挖掘,雖然已取得了一些成果,但并沒有充分發(fā)揮神經(jīng)計算的能力。進一步擴展其挖掘的知識類型,拓寬應用范圍,也將是基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘在將來相當長時間內的重要研究內容。5結束語經(jīng)過半個多世紀的研究,神經(jīng)計算目前已成為一門日趨成熟,應用面日趨廣泛的學科。本文從理論、方法和應用等不同層面對神經(jīng)計算的研究現(xiàn)狀和發(fā)展趨勢進行了綜述,主要介紹了神經(jīng)網(wǎng)絡VC維計算、神經(jīng)網(wǎng)絡集成、基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘等領域的相關研究成果,并提出了一些有待進一步研究的問題。需要指出的是,除了上述內容之外,神經(jīng)計算中還有很多值得深入研究的重要領域,例如:與符號學習相結合的混合學習方法的研究。通過符號主義與連接主義的結合,可以在一定程度上模擬不同層次思維方式的協(xié)作,并能在不同學習機制之間取長補短。這已被認為是當前機器學習的一大研究方向[MWM99]。本文作者[CLZC96,ZCC98,CZLC98]在這方面也做了一些工作。脈沖神經(jīng)網(wǎng)絡(PulsedNeuralNetworks)的研究。脈沖神經(jīng)網(wǎng)絡[JP99]的基礎是生物學中對脈沖同步的研究[ERAD89],由于這種網(wǎng)絡在進行圖象處理,尤其是圖象分割和熔合時顯示出了優(yōu)良的性能,隨著圖象處理應用的日趨廣泛,其重要性越來越明顯,為此,IEEETransactionsonNeuralNetworks專門在1999年5月出版了一期脈沖神經(jīng)網(wǎng)絡專刊,這充分表明了該領域研究的重要性。循環(huán)神經(jīng)網(wǎng)絡(RecurrentNeuralNetworks)的研究。由于善于處理與上下文有關的內容信息,循環(huán)神經(jīng)網(wǎng)絡[TB97]已經(jīng)在自然語言處理[LGF96]、語音識別[RL98]、孤立詞識別[LCC98]等領域得到了成功的應用。可以預料,隨著多媒體技術的發(fā)展,循環(huán)神經(jīng)網(wǎng)絡的應用面將會日趨廣泛,其重要性也會越來越明顯。神經(jīng)網(wǎng)絡與模糊技術的結合。長期以來,由于模糊技術在日本獲得的巨大成功,神經(jīng)網(wǎng)絡與模糊技術的結合一直是神經(jīng)計算中的一個研究熱點。該領域的研究不僅包括模糊神經(jīng)網(wǎng)絡[SZC99],還包括神經(jīng)網(wǎng)絡與模糊技術交叉的工程應用[Kha99]。作為軟計算的兩個重要組成部分,這兩者之間的交叉必將產(chǎn)生更大的收益。神經(jīng)網(wǎng)絡與遺傳算法、人工生命的結合。進化神經(jīng)網(wǎng)絡[DINT98]已在相當長時期內受到了研究者的關注,在人工生命[Lan89]出現(xiàn)之后,神經(jīng)網(wǎng)絡與遺傳算法的結合被認為是再現(xiàn)智能行為的一個很有希望的途徑[Dye95]。Terzopoulos[Ter99]甚至指出,隨著計算機圖形學技術的發(fā)展,利用人工生命技術產(chǎn)生復雜圖形學模型將是一個重要研究方向,而神經(jīng)網(wǎng)絡將在其中扮演重要的角色。支持向量機(SupportVectorMachine)的研究。支持向量機[CZL00]是Vapnik等人[CV95]提出的一類新型機器學習方法。由于其出色的學習性能,該技術已成為機器學習界的研究熱點,并在很多領域都得到了成功的應用,如人臉檢測[OFG97]、手寫體數(shù)字識別[DPHS98]、文本自動分類[Joa98]等。神經(jīng)網(wǎng)絡的并行、硬件實現(xiàn)。由于神經(jīng)網(wǎng)絡模擬的是人腦內部多個神經(jīng)元并行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論