機(jī)器學(xué)習(xí)課件20180515.ppt_第1頁(yè)
機(jī)器學(xué)習(xí)課件20180515.ppt_第2頁(yè)
機(jī)器學(xué)習(xí)課件20180515.ppt_第3頁(yè)
機(jī)器學(xué)習(xí)課件20180515.ppt_第4頁(yè)
機(jī)器學(xué)習(xí)課件20180515.ppt_第5頁(yè)
已閱讀5頁(yè),還剩128頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、機(jī)器學(xué)習(xí),什么是機(jī)器學(xué)習(xí)?,人工智能大師Herb Simon這樣定義學(xué)習(xí): 學(xué)習(xí):系統(tǒng)在不斷重復(fù)的工作中對(duì)本身能力的增強(qiáng)或改進(jìn),使得系統(tǒng)在下一次執(zhí)行相同任務(wù)或類似任務(wù)(指的是具有相同分布的任務(wù))時(shí),比現(xiàn)在做的更好或效率更高。,機(jī)器學(xué)習(xí):通過(guò)經(jīng)驗(yàn)提高系統(tǒng)自身的性能的 過(guò)程(系統(tǒng)自我改進(jìn))。,機(jī)器學(xué)習(xí)的重要性,機(jī)器學(xué)習(xí)是人工智能的主要核心研究領(lǐng)域之 一, 也是現(xiàn)代智能系統(tǒng)的關(guān)鍵環(huán)節(jié)和瓶頸。 很難想象: 一個(gè)沒(méi)有學(xué)習(xí)功能的系統(tǒng)是能被 稱為是具有智能的系統(tǒng)。,信息檢索(Information Retrieval ),5,機(jī)器學(xué)習(xí)的任務(wù),令W是這個(gè)給定世界的有限或無(wú)限所有對(duì)象的集合,由于觀察能力的限制,

2、我們只能獲得這個(gè)世界的一個(gè)有限的子集QW,稱為樣本集。 機(jī)器學(xué)習(xí)就是根據(jù)這個(gè)有限樣本集Q ,推算這個(gè)世界的模型,使得其對(duì)這個(gè)世界為真。,機(jī)器學(xué)習(xí)的三要素,一致性假設(shè):機(jī)器學(xué)習(xí)的條件。 樣本空間劃分:決定模型對(duì)樣本集合的有效性。 泛化能力:決定模型對(duì)世界的有效性。,要素1:一致性假設(shè),假設(shè)世界W與樣本集Q具有某種相同的性質(zhì)。 原則上說(shuō),存在各種各樣的一致性假設(shè)。 在統(tǒng)計(jì)意義下,一般假設(shè): W與Q具有同分布?;?, 給定世界W的所有對(duì)象獨(dú)立同分布。,要素2:對(duì)樣本空間的劃分,樣本集合模型: 將樣本集放到一個(gè)n 維空間,尋找一個(gè)超 平面(等價(jià)關(guān)系),使 得問(wèn)題決定的不同對(duì) 象被劃分在不相交的 區(qū)域。,

3、要素3: 泛化能力,泛化能力:學(xué)習(xí)的目的是學(xué)到隱含在數(shù)據(jù)對(duì)背后的規(guī)律,對(duì)具有同一規(guī)律的學(xué)習(xí)集以外的數(shù)據(jù),該神經(jīng)網(wǎng)絡(luò)仍具有正確的響應(yīng)能力,稱為泛化能力 . 通過(guò)機(jī)器學(xué)習(xí)方法,從給定有限樣本集合計(jì)算一個(gè)模型,泛化能力是這個(gè)模型對(duì)世界為真程度的指標(biāo)。,關(guān)于三要素,不同時(shí)期,研究的側(cè)重點(diǎn)不同 劃分:早期研究主要集中在該要素上 泛化能力(在多項(xiàng)式劃分):80年代以來(lái)的近期研究 一致性假設(shè):未來(lái)必須考慮(Transfer learning),Transfer learning,Transfer learning 這一概念是由 DARPA(美國(guó)國(guó)防高級(jí)研究計(jì)劃局)在2005年正式提出來(lái)的一項(xiàng)研究計(jì)劃。 Tr

4、ansfer Learning 是指系統(tǒng)能夠?qū)⒃谙惹叭蝿?wù)中學(xué)到的知識(shí)或技能應(yīng)用于一個(gè)新的任務(wù)或新的領(lǐng)域。,傳統(tǒng)機(jī)器學(xué)習(xí)&轉(zhuǎn)移學(xué)習(xí),Transfer Learning = “舉一反三”,我們?nèi)祟愐簿哂羞@樣的能力,比如我們學(xué)會(huì)了國(guó)際象棋,就可以將下棋的方法應(yīng)用于跳棋,或者說(shuō)學(xué)起跳棋來(lái)會(huì)更容易一些;學(xué)會(huì)了C+,可以把它的一些思想用在學(xué)習(xí)Java中;再比如某人原來(lái)是學(xué)物理的,后來(lái)學(xué)習(xí)計(jì)算機(jī)時(shí),總習(xí)慣把物理中的某些思想和概念用于計(jì)算機(jī)科學(xué)中。用我們通俗的話總結(jié),就是 傳統(tǒng)機(jī)器學(xué)習(xí) = “種瓜得瓜,種豆得豆” 遷移學(xué)習(xí) = “舉一反三”,機(jī)器學(xué)習(xí)是多學(xué)科的交叉,機(jī)器學(xué)習(xí)學(xué)科,1983年,R.S. Mich

5、alski等人撰寫(xiě)機(jī)器學(xué)習(xí):通往人工智能的途徑一書(shū) 1986年,Machine Learning雜志創(chuàng)刊 1997年以Tom Mitchell的經(jīng)典教科書(shū)machine learning中都沒(méi)有貫穿始終的基礎(chǔ)體系,只不個(gè)是不同方法和技術(shù)的羅列 機(jī)器學(xué)習(xí)還非常年輕、很不成熟,機(jī)器學(xué)習(xí)的分類,傳統(tǒng)上,大致可分為4類: 歸納學(xué)習(xí) 解釋學(xué)習(xí) 遺傳學(xué)習(xí)(GA) 連接學(xué)習(xí)(神經(jīng)網(wǎng)絡(luò)),歸納學(xué)習(xí),是從某一概念的分類例子集出發(fā)歸納出一般的概念描述。 這是目前研究得最多的學(xué)習(xí)方法,其學(xué)習(xí)目的是為了獲得新的概念、構(gòu)造新的規(guī)則或發(fā)現(xiàn)新的理論。 這種方法要求大量的訓(xùn)練例,而且歸納性能受到描述語(yǔ)言、概念類型、信噪比、實(shí)

6、例空間分布、歸納模式等的影響。,解釋學(xué)習(xí),(分析學(xué)習(xí))是從完善的領(lǐng)域理論出發(fā)演繹出有助于更有效地利用領(lǐng)域理論的規(guī)則。其學(xué)習(xí)目的是提高系統(tǒng)性能,而不是修改領(lǐng)域理論。 它與歸納學(xué)習(xí)相反,只需要少量的訓(xùn)練例,但要求有完善的領(lǐng)域理論,而且學(xué)習(xí)效果也與例子表示形式、學(xué)習(xí)方法(正例學(xué)習(xí)或反例學(xué)習(xí))、概括程度等有關(guān)。,機(jī)器學(xué)習(xí)面臨的挑戰(zhàn),隨著應(yīng)用的不斷深入,出現(xiàn)了很多被傳統(tǒng)機(jī)器學(xué)習(xí)研究忽視、但非常重要的問(wèn)題(下面將以醫(yī)療和金融為代表來(lái)舉幾個(gè)例子) 機(jī)器學(xué)習(xí)正與眾多學(xué)科領(lǐng)域產(chǎn)生了交叉,交叉領(lǐng)域越多,問(wèn)題也越多,也正是大有可為處.,例子1:代價(jià)敏感問(wèn)題,醫(yī)療:以癌癥診斷為例,“將病人誤診為健康人的代價(jià)”與“將健

7、康人誤診為病人的代價(jià)”是不同的。 金融:以信用卡盜用檢測(cè)為例,“將盜用誤認(rèn)為正常使用的代價(jià)”與“將正常使用誤認(rèn)為盜用的代價(jià)”是不同的。 傳統(tǒng)的ML技術(shù)基本上只考慮同一代價(jià) 如何處理代價(jià)敏感性? 在教科書(shū)中找不到現(xiàn)成的答案。,例子2:不平衡數(shù)據(jù)問(wèn)題,醫(yī)療:以癌癥診斷為例,“健康人”樣本遠(yuǎn)遠(yuǎn)多于“病人”樣本。 金融:以信用卡盜用檢測(cè)為例,“正常使用”樣本遠(yuǎn)遠(yuǎn)多于“被盜用”樣本。 傳統(tǒng)的ML技術(shù)基本上只考慮平衡數(shù)據(jù) 如何處理數(shù)據(jù)不平衡性? 在教科書(shū)中找不到現(xiàn)成的答案,例子3:可理解性問(wèn)題,醫(yī)療:以乳腺癌診斷為例,需要向病人解釋“為什么做出這樣的診斷” 金融:以信用卡盜用檢測(cè)為例,需要向保安部門(mén)解釋“

8、為什么這是正在被盜用的卡” 傳統(tǒng)的ML技術(shù)基本上只考慮泛化不考慮理解 如何處理可理解性? 在教科書(shū)中找不到現(xiàn)成的答案,機(jī)器學(xué)習(xí)的最新進(jìn)展,算法驅(qū)動(dòng)(建模與數(shù)據(jù)分析) 應(yīng)用驅(qū)動(dòng),算法驅(qū)動(dòng),海量非線性數(shù)據(jù)(108-10) 算法的泛化能力考慮 學(xué)習(xí)結(jié)果數(shù)據(jù)的解釋 代價(jià)加權(quán)的處理方法 不同數(shù)據(jù)類型的學(xué)習(xí)方法,應(yīng)用驅(qū)動(dòng),自然語(yǔ)言分析、網(wǎng)絡(luò)與電信數(shù)據(jù)分析、圖像數(shù)據(jù)分析、金融與經(jīng)濟(jì)數(shù)據(jù)分析、零售業(yè)數(shù)據(jù)分析、情報(bào)分析。 Web信息的有效獲取(新一代搜索引擎)。由此導(dǎo) 致各種學(xué)習(xí)任務(wù):數(shù)據(jù)流學(xué)習(xí)、多實(shí)例學(xué)習(xí)(部分放棄獨(dú)立同分布條件)、Ranking學(xué)習(xí)、蛋白質(zhì)功能分析, DNA數(shù)據(jù)分析, . 它們需要使用各種不

9、同方法,解決實(shí)際問(wèn)題。,應(yīng)用驅(qū)動(dòng)機(jī)器學(xué)習(xí),流形機(jī)器學(xué)習(xí) 半監(jiān)督機(jī)器學(xué)習(xí) 多實(shí)例機(jī)器學(xué)習(xí) Ranking機(jī)器學(xué)習(xí) 數(shù)據(jù)流機(jī)器學(xué)習(xí) 圖模型機(jī)器學(xué)習(xí) ,流形機(jī)器學(xué)習(xí)高維數(shù)據(jù)的低維表示,流形(manifold)就是一般的幾何對(duì)象的總稱。比如人,有中國(guó)人、美國(guó)人等等;流形就包括各種維數(shù)的曲線曲面等。和一般的降維分析一樣,流形學(xué)習(xí)把一組在高維空間中的數(shù)據(jù)在低維空間中重新表示。 比如在基于內(nèi)容的圖像檢索中,當(dāng)特征向量的維數(shù)非常高時(shí),建立圖像特征庫(kù)時(shí)的存儲(chǔ)高維特征的空間復(fù)雜度和度量圖像之間相似性的運(yùn)算復(fù)雜度都將非常的高。 線性方法 PCA (Principal Component Analysis) ICA

10、(Independent Component Analysis) 非線性方法 LLE (Local linear Embeding)(Roweis, Science,2000) Isomap (Tenenbaum, Science, 2000),比較常用的降維算法比如PCA,是針對(duì)線性分布的高維數(shù)據(jù)進(jìn)行降維的算法,并且有局部最優(yōu)的問(wèn)題。而LLE(Local Linear Embedding)算法則針對(duì)于非線性數(shù)據(jù)。,在這個(gè)例子里,用LLE 進(jìn)行降維成功的體現(xiàn)了數(shù)據(jù)內(nèi)在的局部分布結(jié)構(gòu),而用PCA 映射則會(huì)將高維空間里的遠(yuǎn)點(diǎn)映射到低維空間后變成了近鄰點(diǎn)。,半監(jiān)督機(jī)器學(xué)習(xí),半監(jiān)督的學(xué)習(xí):有少量訓(xùn)練樣

11、本,學(xué)習(xí)機(jī)以從訓(xùn)練樣本獲得的知識(shí)為基礎(chǔ),結(jié)合測(cè)試樣本的分布情況逐步修正已有知識(shí),并判斷測(cè)試樣本的類別。,多示例機(jī)器學(xué)習(xí),傳統(tǒng)的機(jī)器學(xué)習(xí)中,一個(gè)對(duì)象有一個(gè)描述,而在一些實(shí)際問(wèn)題中,一個(gè)對(duì)象可能同時(shí)有多個(gè)描述,到底哪個(gè)描述是決定對(duì)象性質(zhì)(例如類別)的,卻并不知道。解決這種“對(duì)象:描述:類別”之間1:N:1關(guān)系的學(xué)習(xí)就是多示例學(xué)習(xí),Ranking機(jī)器學(xué)習(xí),其原始說(shuō)法是learning for ranking 問(wèn)題主要來(lái)自信息檢索,假設(shè)用戶的需求不能簡(jiǎn)單地表示為“喜歡”或“不喜歡”,而需要將“喜歡”表示為一個(gè)順序,問(wèn)題是如何通過(guò)學(xué)習(xí),獲得關(guān)于這個(gè)“喜歡”順序的模型。,數(shù)據(jù)流機(jī)器學(xué)習(xí),在網(wǎng)絡(luò)數(shù)據(jù)分析與處

12、理中,有一類問(wèn)題,從一個(gè)用戶節(jié)點(diǎn)上流過(guò)的數(shù)據(jù),大多數(shù)是無(wú)意義的,由于數(shù)據(jù)量極大,不能全部存儲(chǔ),因此,只能簡(jiǎn)單判斷流過(guò)的文件是否有用,而無(wú)法細(xì)致分析 如何學(xué)習(xí)一個(gè)模型可以完成這個(gè)任務(wù),同時(shí)可以增量學(xué)習(xí),以保證可以從數(shù)據(jù)流中不斷改善(或適應(yīng))用戶需求的模型,研究現(xiàn)狀,主要以任務(wù)為驅(qū)動(dòng)力,學(xué)習(xí)方法有待創(chuàng)新 以上這些機(jī)器學(xué)習(xí)方式還處于實(shí)驗(yàn)觀察階段,缺乏堅(jiān)實(shí)的理論基礎(chǔ) 實(shí)際應(yīng)用效果仍有待研究,當(dāng)前機(jī)器學(xué)習(xí)所面臨情況是:,數(shù)據(jù)復(fù)雜、海量,用戶需求多樣化。從而, 要求: (1)需要科學(xué)和高效的問(wèn)題表示,以便將其學(xué)習(xí)建立在科學(xué)的基礎(chǔ)上 (2)應(yīng)用驅(qū)動(dòng)成為必然, 從而針對(duì)某個(gè)或某類應(yīng)用給出特定的學(xué)習(xí)方法將不斷涌

13、現(xiàn) (3)對(duì)機(jī)器學(xué)習(xí)的檢驗(yàn)問(wèn)題只能在應(yīng)用中檢驗(yàn)自己 (4)對(duì)機(jī)器學(xué)習(xí)的結(jié)果的解釋, 將逐漸受到重視,現(xiàn)在我們逐一討論幾種比較常用的學(xué)習(xí)算法,7.3 機(jī)械學(xué)習(xí),機(jī)械學(xué)習(xí)(Rote Learning) 又稱為記憶學(xué)習(xí)或死記硬背式的學(xué)習(xí)。這種學(xué)習(xí)方法直接記憶或存儲(chǔ)環(huán)境提供的新知識(shí),并在以后通過(guò)對(duì)知識(shí)庫(kù)的檢索來(lái)直接使用這些知識(shí),而不再需要進(jìn)行任何的計(jì)算和推導(dǎo)。,機(jī)械學(xué)習(xí)是一種基本的學(xué)習(xí)過(guò)程,雖然它沒(méi)有足夠的能力獨(dú)立完成智能學(xué)習(xí),但存儲(chǔ)對(duì)于任何智能型的程序來(lái)說(shuō),都是必要的和基本的。 記憶學(xué)習(xí)是任何學(xué)習(xí)系統(tǒng)的一部分,任何學(xué)習(xí)系統(tǒng)都要將它所獲取的知識(shí)存儲(chǔ)在知識(shí)庫(kù)中,以便使用這些知識(shí)。,機(jī)械學(xué)習(xí)的過(guò)程,執(zhí)行機(jī)

14、構(gòu)每解決一個(gè)問(wèn)題,系統(tǒng)就記住這個(gè)問(wèn)題和它的解。簡(jiǎn)單的機(jī)械學(xué)習(xí)模型:,f,存儲(chǔ),輸入,輸出,知識(shí)聯(lián)想對(duì),執(zhí)行單元,例子:汽車修理成本估算系統(tǒng),輸入:有關(guān)待修理汽車的描述,包括制造廠家、出廠日期、車型、汽車損壞的部位以及它的損壞程度 輸出:該汽車的修理成本,例子:汽車修理成本估算系統(tǒng),為了進(jìn)行估算,系統(tǒng)必須在其知識(shí)庫(kù)中查找同一廠家,同一出廠日期、同一車型、同樣損壞情況的汽車,然后把知識(shí)庫(kù)中對(duì)應(yīng)的數(shù)據(jù)作為修理成本的估算數(shù)據(jù)輸出給用戶。如果在系統(tǒng)的知識(shí)庫(kù)中沒(méi)有找到這樣的汽車,則系統(tǒng)將請(qǐng)求用戶給出大致的費(fèi)用并進(jìn)行確認(rèn),系統(tǒng)則會(huì)將該車的描述和經(jīng)過(guò)確認(rèn)的估算費(fèi)用存儲(chǔ)到知識(shí)庫(kù)中,以便將來(lái)查找使用。,數(shù)據(jù)化簡(jiǎn)級(jí)

15、別圖,萊納特(Lenat),海斯羅思(Hayes Roth)和克拉爾(Klahr)等人于1979年提出:可以把機(jī)械學(xué)習(xí)看成是數(shù)據(jù)化簡(jiǎn)分級(jí)中的第一級(jí)。機(jī)械學(xué)習(xí)與計(jì)算、歸納和推理之間的關(guān)系如下圖所示。,存儲(chǔ),計(jì)算,推導(dǎo),歸納,算法與理論,機(jī)械記憶,搜索規(guī)則,可以在大量病例的基礎(chǔ)上歸納總結(jié)出治療的一般規(guī)律,形成規(guī)則,當(dāng)遇見(jiàn)個(gè)新病例時(shí),就使用規(guī)則去處理它,而不必再重新推斷解決辦法,提高了工作效率。,在機(jī)械學(xué)習(xí)中,我們忽略計(jì)算過(guò)程,只記憶計(jì)算的輸入輸出,這樣就把計(jì)算問(wèn)題化簡(jiǎn)成另外存儲(chǔ)問(wèn)題。,數(shù)據(jù)化簡(jiǎn)級(jí)別圖,例如,第一次解一個(gè)一元二次方程的時(shí)候,必須使用很長(zhǎng)的一段推導(dǎo)才能得出解方程的求根公式。但是一旦有了

16、求根公式,以后再解一元二次方程時(shí),就不必重復(fù)以前的推導(dǎo)過(guò)程,可以直接使用求根公式計(jì)算出根,這樣就把推導(dǎo)問(wèn)題簡(jiǎn)化成計(jì) 算問(wèn)題,機(jī)械學(xué)習(xí)要注意的問(wèn)題,存儲(chǔ)組織信息 如何存儲(chǔ)?使得 檢索時(shí)間 計(jì)算時(shí)間 環(huán)境的穩(wěn)定性和存儲(chǔ)信息的適應(yīng)性 存儲(chǔ)與計(jì)算之間的權(quán)衡 存儲(chǔ)空間+檢索時(shí)間 vs 計(jì)算時(shí)間 只存儲(chǔ)最常使用信息,忘記不常使用信息,7.5 類比學(xué)習(xí),類比學(xué)習(xí)是利用二個(gè)不同領(lǐng)域(源域、目標(biāo)域)中的知識(shí)相似性,可以通過(guò)類比,從源域的知識(shí)(包括相似的特征和其它性質(zhì))推導(dǎo)出目標(biāo)域的相應(yīng)知識(shí),從而實(shí)現(xiàn)學(xué)習(xí)。 例如:1.一個(gè)從未開(kāi)過(guò)truck的司機(jī),只要他有開(kāi)car的知識(shí)就可完成開(kāi)truck的任務(wù)。 2.若把某個(gè)人

17、比喻為很像消防車,則可通過(guò)觀察消防車的行為,推斷出這個(gè)人的性格。 所以,類比學(xué)習(xí)系統(tǒng)可以使一個(gè)已有的計(jì)算機(jī)應(yīng)用系統(tǒng)轉(zhuǎn)變?yōu)檫m應(yīng)于新的領(lǐng)域,來(lái)完成原先沒(méi)有設(shè)計(jì)的相類似的功能。,類比推理,類比推理是在兩個(gè)相似域之間進(jìn)行的: 源域S(已經(jīng)認(rèn)識(shí)的域) 目標(biāo)域T(當(dāng)前尚未完全完全認(rèn)識(shí)的域) 推理目的: 從S中選出與當(dāng)前問(wèn)題最近似的問(wèn)題及其求解方法以解決當(dāng)前的問(wèn)題,或者建立起目標(biāo)域中已有命題間的聯(lián)系,形成新知識(shí)。,類比推理過(guò)程,回憶與聯(lián)想 選擇:從找出的相似情況中選出與當(dāng)前情況最相似的情況及其知識(shí)。 建立對(duì)應(yīng)關(guān)系:在S與T間建立映射關(guān)系。 轉(zhuǎn)換:將S中的知識(shí)引到T中來(lái),建立求解當(dāng)前問(wèn)題的方法會(huì)學(xué)習(xí)到關(guān)于T的

18、新知識(shí)。,類比學(xué)習(xí)形式,已知:aS與bT具有相似的性質(zhì)P,a還具有性質(zhì)Q 推理:b也具有性質(zhì)Q 步驟: (1)找出S和T的相似性質(zhì)P,找出S的性質(zhì)Q和性質(zhì)P對(duì)a的關(guān)系:P(a)-Q(a) (2)推廣: ,P(x)- Q(x) (3) ,P(x)- Q(x) (4)利用假言推理,P(b), P(x)- Q(x),得出b具有性質(zhì)Q。,類比學(xué)習(xí)研究類型,問(wèn)題求解型,已知因果關(guān)系S1:A-B, 現(xiàn)有AA,則可能有B 滿足A-B,求解一個(gè)新問(wèn)題時(shí),先回憶以前 是否求解過(guò)類似問(wèn)題,若是,則 以此為依據(jù)求解新問(wèn)題。,用來(lái)推斷一個(gè)不完全確定的事物 可能還有的其他屬性,預(yù)測(cè)推理型 傳統(tǒng)的類比法 因果關(guān)系型,7.

19、6 解釋學(xué)習(xí),基于解釋的學(xué)習(xí)(Explanation-based learning, EBL) 解釋學(xué)習(xí)興起于20世紀(jì)80年代中期,根據(jù)任務(wù)所在領(lǐng)域知識(shí)和正在學(xué)習(xí)的概念知識(shí),對(duì)當(dāng)前實(shí)例進(jìn)行分析和求解,得出一個(gè)表征求解過(guò)程的因果解釋樹(shù),以獲取新的知識(shí)。,例如,學(xué)生根據(jù)教師提供的目標(biāo)概念、該概念的一個(gè)例子、領(lǐng)域理論及可操作準(zhǔn)則,首先構(gòu)造一個(gè)解釋來(lái)說(shuō)明為什該例子滿足目標(biāo)概念,然后將解釋推廣為目標(biāo)概念的一個(gè)滿足可操作準(zhǔn)則的充分條件。 EBL已被廣泛應(yīng)用于知識(shí)庫(kù)求精和改善系統(tǒng)的性能。著名的EBL系統(tǒng)有迪喬恩(G.DeJong)的GENESIS, 米切爾(T.Mitchell)的LEXII和LEAP, 以

20、及明頓(S.Minton)等的PRODIGY。,解釋學(xué)習(xí)的一般性描述,米切爾提出了一個(gè)解釋學(xué)習(xí)的統(tǒng)一算法EBG,建立了基于解釋的概括過(guò)程,并用知識(shí)的邏輯表示和演繹推理進(jìn)行問(wèn)題求解。其一般性描述為: 給定: 領(lǐng)域知識(shí)DT 目標(biāo)概念TC 訓(xùn)練實(shí)例TE 操作性準(zhǔn)則OC 找出: 滿足OC的關(guān)于TC的充分條件,系統(tǒng)進(jìn)行學(xué)習(xí)時(shí),首先運(yùn)用領(lǐng)域知識(shí)DT找出訓(xùn)練實(shí)例TE為什么是目標(biāo)概念TC的實(shí)例的解釋,然后根據(jù)操作性準(zhǔn)則OC對(duì)解釋進(jìn)行推廣,從而得到關(guān)于目標(biāo)概念TC的一個(gè)一般性描述,即一個(gè)可供以后使用的形式化表示的一般性知識(shí)。,解釋學(xué)習(xí)的學(xué)習(xí)過(guò)程與算法,EBG算法可概括為兩步: 1. 構(gòu)造解釋 運(yùn)用領(lǐng)域知識(shí)進(jìn)行演

21、繹,證明提供給系統(tǒng)的訓(xùn)練實(shí)例為什么是滿足目標(biāo)概念的一個(gè)實(shí)例。 例如:設(shè)要學(xué)習(xí)的目標(biāo)概念是“一個(gè)物體(Obj1)可以安全地放置在另一個(gè)物體(Obj2)上”,即 Safe-To-Stack(Obj1,obj2),訓(xùn)練實(shí)例為描述物體Obj1與Obj2的下述事實(shí): On(Obj1,Obj2) Isa(Obj1,book of AI) Isa(Obj2,table) Volume(Obj1,1) Density(Obj1,0.1) 領(lǐng)域知識(shí)是把一個(gè)物體放置在另一個(gè)物體上面的安全性準(zhǔn)則: Fragile (y) Safe-To-Stack (x ,y) Lighter (x, y) Safe-To-Sta

22、ck (x ,y) Volume (p, v) Density (p, d)*(v, d, w) Weight (p, w) Isa(p,table)Weight (p, 15) Weight(p1,w1)Weight(p2,w2)Smaller(w1,w2)Lighter(p1,p2),圖1 Safe-To-Stack(Obj1,obj2)解釋結(jié)構(gòu),這是一個(gè)由目標(biāo)概念引導(dǎo)的逆向推理,最終得到了一個(gè)解釋結(jié)構(gòu)。,2. 獲取一般性的知識(shí) 任務(wù):對(duì)上一步得到的解釋結(jié)構(gòu)進(jìn)行一般化的處理,從而得到關(guān)于目標(biāo)概念的一般性知識(shí)。 方法:將常量換成變量,并把某些不重要的信息去掉,只保留求解問(wèn)題必須的關(guān)鍵信息。圖

23、2為圖1的一般化解釋結(jié)構(gòu),可以得到如下一般性知識(shí): Volume (O1, v1) Density (O1, d1)*(v1, d1, w1)Isa(O2,table) Smaller(w1,15) Safe-To-Stack(Obj1,obj2),圖2 Safe-To-Stack(O1,O2)一般化解釋結(jié)構(gòu),以后求解類似問(wèn)題時(shí),就可以直接利用這個(gè)知識(shí)進(jìn)行求解,提到了系統(tǒng)求解問(wèn)題的效率。,領(lǐng)域知識(shí)的完善性,領(lǐng)域知識(shí)對(duì)證明的形成起著重要的作用,只有完善的領(lǐng)域知識(shí)才能產(chǎn)生正確的學(xué)習(xí)描述。但是,不完善是難以避免的,此時(shí)有可能出現(xiàn)如下兩種極端情況: 1.構(gòu)造不出解釋 2. 構(gòu)造出了多種解釋 解決辦法:

24、 1.最根本的辦法是提供完善的領(lǐng)域知識(shí) 2.學(xué)習(xí)系統(tǒng)也應(yīng)具有測(cè)試和修正不完善知識(shí)的能力,使問(wèn)題能盡早地被發(fā)現(xiàn),盡快地被修正。,7.7 神經(jīng)學(xué)習(xí),我們先簡(jiǎn)單回顧一下神經(jīng)網(wǎng)絡(luò)的基本原理。,人工神經(jīng)元的基本構(gòu)成,人工神經(jīng)元模擬生物神經(jīng)元的一階特性。 輸入:X=(x1,x2,xn) 聯(lián)接權(quán):W=(w1,w2,wn)T 網(wǎng)絡(luò)輸入:net=xiwi 向量形式:net=XW 激活函數(shù): f 網(wǎng)絡(luò)輸出: o=f(net),典型激勵(lì)函數(shù),非線性斜面函數(shù)(Ramp Function),神經(jīng)網(wǎng)絡(luò)常見(jiàn)三大類模型,神經(jīng)網(wǎng)絡(luò)中常見(jiàn)三大類模型:前向神經(jīng)網(wǎng)絡(luò);反饋神經(jīng)網(wǎng)絡(luò);自組織神經(jīng)網(wǎng)絡(luò)。 前向神經(jīng)網(wǎng)絡(luò)各神經(jīng)元接受前一層的輸

25、入并輸出給下一層,無(wú)反饋,常見(jiàn)的有BP神經(jīng)網(wǎng)絡(luò)和RBF徑向基神經(jīng)網(wǎng)絡(luò)。 反饋神經(jīng)網(wǎng)絡(luò),其輸入數(shù)據(jù)決定反饋系統(tǒng)的初始狀態(tài),然后系統(tǒng)經(jīng)過(guò)一系列的狀態(tài)轉(zhuǎn)移后逐漸收斂于平衡狀態(tài),即為反饋神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)計(jì)算后的輸出結(jié)果。,自組織神經(jīng)網(wǎng)絡(luò)是一種無(wú)教師學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),可以模擬人類根據(jù)過(guò)去經(jīng)驗(yàn)自動(dòng)適應(yīng)無(wú)法預(yù)測(cè)的環(huán)境變化,通常利用競(jìng)爭(zhēng)原則進(jìn)行學(xué)習(xí),可以通過(guò)學(xué)習(xí)提取一組數(shù)據(jù)中的重要特征或某種內(nèi)在規(guī)律性。對(duì)生物神經(jīng)系統(tǒng)的觀察可以發(fā)現(xiàn)局部相關(guān)作用可以導(dǎo)致整體的某種有序性,自組織神經(jīng)網(wǎng)絡(luò)。即基于這種原理。,有反饋的前饋網(wǎng)絡(luò),單純前饋網(wǎng)絡(luò),前饋內(nèi)層互聯(lián)網(wǎng)絡(luò),反饋型全互聯(lián)網(wǎng)絡(luò),學(xué)習(xí)算法上的分類,在人工神經(jīng)網(wǎng)絡(luò)中,權(quán)是一個(gè)反映信

26、息存儲(chǔ)的關(guān)鍵量, 在結(jié)構(gòu)和轉(zhuǎn)換函數(shù)定了以后,如何設(shè)計(jì)權(quán)使網(wǎng)絡(luò)達(dá)到一定 的要求這是人工神經(jīng)網(wǎng)絡(luò)必不可少的部分,大多數(shù)神經(jīng)網(wǎng) 絡(luò)權(quán)的設(shè)計(jì)是通過(guò)學(xué)習(xí)得到的,目前可分為下列幾種。,死記式學(xué)習(xí) 網(wǎng)絡(luò)的權(quán)是事先設(shè)計(jì)的,值是固定的。, 學(xué)習(xí)律 這種方法是用已知例子作為教師對(duì)網(wǎng)絡(luò)的權(quán)進(jìn)行學(xué)習(xí)。,設(shè) 為已知的輸入、輸出例子,,, 為n和m維矢量,,,把 作為神經(jīng)網(wǎng)絡(luò)的輸入,,在權(quán)的作用下,可計(jì)算出實(shí)際神經(jīng)網(wǎng)絡(luò)的,輸出為,設(shè)任一個(gè)輸入神經(jīng)元 q 到 的權(quán)為wqj則其權(quán)的改變量為,其中 為步長(zhǎng), 為誤差, 為第 q 個(gè)神經(jīng)元的,輸出, 函數(shù)是根據(jù)不同的情況而定,多數(shù)人工神經(jīng)網(wǎng)絡(luò),; 。,自組織的學(xué)習(xí)和Hebbian

27、學(xué)習(xí)律,兩個(gè)神經(jīng)元之間的連接權(quán),正比于 兩個(gè)神經(jīng)元的活動(dòng)值,如 ,,表示兩個(gè)神經(jīng)元的輸出值,則他們之間的權(quán)的變化為,這里 為步長(zhǎng)或常數(shù)。,相近學(xué)習(xí),設(shè) 為從神經(jīng)元i到神經(jīng)元j的權(quán),,為i 神經(jīng)元的輸出,則,在這個(gè)學(xué)習(xí)中,使 十分逼近 的值。 如Kohonen和ART等都采用這類學(xué)習(xí)方法。,非線性變換單元組成的前饋網(wǎng)絡(luò) (簡(jiǎn)稱B-P網(wǎng)絡(luò)), 網(wǎng)絡(luò)的結(jié)構(gòu)與數(shù)學(xué)描述,圖a:多層B-P網(wǎng)絡(luò),1,u,0,圖b:輸入輸出非線性函數(shù),i,k,j,l,x0,x1,xn-1,y0,y1,ym-1,1/2,X0,X0,B-P網(wǎng)絡(luò)是完成n維空間向量對(duì)m維空間的近似映照。 (F為近似映照函數(shù)),(1),(2),如果輸

28、入第P1個(gè)樣本對(duì),通過(guò)一定方式訓(xùn)練后,得到一組權(quán),包括網(wǎng)絡(luò)中所有的權(quán)和閾值,此時(shí),的解不是唯一的,而是在權(quán)空間中的一個(gè)范圍,也可為 幾個(gè)范圍。對(duì)于所有的學(xué)習(xí)樣本P1=1,2, ,P都可以滿足:,各自的解為W1,W2,WP,通過(guò)對(duì)樣本集的學(xué)習(xí),得到 滿足所有樣本正確映照的解為,學(xué)習(xí)的過(guò)程就是求解W的過(guò)程,因?yàn)?學(xué)習(xí)不一定要求很精確,所以得到的 是一種近似解。, B-P的學(xué)習(xí)算法,去,令: ; ; ; ;,為了方便起見(jiàn),在圖a的網(wǎng)絡(luò)中,把閾值寫(xiě)入連接權(quán)中,; ;則方程(2)改為,(2a),(2c),(2b),B-P算法屬于 學(xué)習(xí)律,是一種有教師的學(xué)習(xí)算法。 第P1樣本輸入到圖a所示的網(wǎng)絡(luò),得到輸出

29、yl,l= 0,1, ,m-1,其誤差為各輸出單元誤 差之和,滿足:,對(duì)于P個(gè)樣本的學(xué)習(xí),其總誤差為,(3),這里用梯度法可以使總的誤差向減小的方向變化, 直到E總=0為止,這種學(xué)習(xí)方式其矢量W能夠穩(wěn)定 到一個(gè)解,但并不保證是E總的全局最小解,可能是 一個(gè)局部極小解。,具體學(xué)習(xí)算法的解析式推導(dǎo)如下:,令n0為迭代次數(shù),根據(jù)(3)式和,梯度算法,可得到每一層的權(quán)的 迭代公式為,(4a),(4c),(4b),從(4a)式可以看出, 是第k 個(gè)神經(jīng)元與輸出層第 l個(gè)神經(jīng)元之間的連接權(quán),它只與輸出層中一個(gè)神經(jīng)元有關(guān),將(3)式代入(4a)中的第二項(xiàng),利用公式(1)得:,為P1樣本輸入網(wǎng)絡(luò)時(shí), 的輸出值

30、。,(6),將(6) 、 (5)代入 (4a),得:,這里的,對(duì)于中間隱層,根據(jù)(4b)式有:,而,其中:,所以,注意:,是與輸出層中每個(gè)神經(jīng)元都有關(guān)系。,同理可得,其中:,BP算法(反向傳播算法),1985年,發(fā)展了BP網(wǎng)絡(luò)學(xué)習(xí)算法,包括正向傳播和反向傳播,正向傳播過(guò)程中,輸入信息從輸入層經(jīng)隱單元逐層處理傳向輸出層,每層神經(jīng)元狀態(tài)僅影響下一層神經(jīng)元的狀態(tài),如圖:,如在輸出層得不到期望的輸出,則轉(zhuǎn)入反向傳播,將誤差信號(hào)沿原來(lái)的通路返回,修改各層神經(jīng)元的權(quán)值使誤差信號(hào)最小,如圖:,反向傳播學(xué)習(xí)示例,熟人學(xué)習(xí)問(wèn)題,問(wèn)題就是要修正網(wǎng)絡(luò)的權(quán)值,從某個(gè)初試值集合開(kāi)始,直到所有判斷都是一致的,假設(shè)正好有兩

31、個(gè)輸入為1值,而其余輸入為0值。H1和H2為隱節(jié)點(diǎn),具有與門(mén)作用。該網(wǎng)絡(luò)的目標(biāo)是要確定對(duì)應(yīng)于輸入的兩個(gè)人是否相識(shí)。該網(wǎng)絡(luò)的任務(wù)為學(xué)習(xí)上面一組3人中的任何一人是下面一組3人中任何一人的熟人。如果網(wǎng)絡(luò)的輸出大于0.9,那么就判斷這兩個(gè)人為相識(shí);如果輸出小于0.1,就判斷為不相識(shí);其它結(jié)果被認(rèn)為是模糊不定的。節(jié)點(diǎn)A為熟人。,表1 BP網(wǎng)絡(luò)學(xué)習(xí)經(jīng)驗(yàn)數(shù)據(jù),表2 訓(xùn)練NN時(shí)觀察到的權(quán)值變化,第一個(gè)初始閾值為0.1,第二個(gè)為0.2,其他的每次遞增0.1,直到1.1。通過(guò)BP算法改變初始值,直到所有輸出均方誤差在0.1內(nèi)為止。,當(dāng)所有采樣輸人產(chǎn)生一個(gè)合適的輸出值時(shí)的閾值和權(quán)值,圖1 認(rèn)識(shí)熟人問(wèn)題的學(xué)習(xí)試驗(yàn)結(jié)果

32、,權(quán)值變化周期,均方誤差,這個(gè)網(wǎng)絡(luò)大約經(jīng)過(guò)了255次權(quán)值修正后,網(wǎng)絡(luò)性能才變得滿意,即均方誤差0.1。,圖2 學(xué)習(xí)行為與比率參數(shù)的關(guān)系,權(quán)值變化周期,均方誤差,比率參數(shù)r是用來(lái)調(diào)節(jié)權(quán)值變化的一個(gè)參數(shù)。r值 越大越有利于提高學(xué)習(xí)速度,但又不能太大,以免 使輸出過(guò)分地超出期望值而引起超調(diào)。,BP算法的不足:,收斂速度非常慢,且隨著訓(xùn)練樣例維數(shù)增加,網(wǎng)絡(luò)性能變差。 不完備的算法,可能出現(xiàn)局部極小問(wèn)題 網(wǎng)絡(luò)中隱節(jié)點(diǎn)個(gè)數(shù)的選取尚無(wú)理論指導(dǎo) 新樣例的加入會(huì)影響已學(xué)習(xí)過(guò)的樣例,基于Hopfield網(wǎng)絡(luò)的學(xué)習(xí),1982年,JHopfield提出了可用作聯(lián)想存儲(chǔ)器的互連網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)稱為Hopfield網(wǎng)絡(luò)模型

33、,也稱Hopfield模型。1984年,他又提出連續(xù)時(shí)間神經(jīng)網(wǎng)絡(luò)模型。這兩種模型的許多重要特性是密切相關(guān)的。一般在進(jìn)行計(jì)算機(jī)仿真時(shí)采用離散模型,而在用硬件實(shí)現(xiàn)時(shí)則采用連續(xù)模型。,聯(lián)想存儲(chǔ)器Associative Memory,Nature of associative memory part of information given the rest of the pattern is recalled,聯(lián)想存儲(chǔ)器網(wǎng)絡(luò)的幾點(diǎn)要素,Hopfield提出,如果把神經(jīng)網(wǎng)絡(luò)的各平衡點(diǎn)設(shè)想為存儲(chǔ)于該網(wǎng)絡(luò)的信息,而且網(wǎng)絡(luò)的收斂性保證系統(tǒng)的動(dòng)態(tài)特性隨時(shí)間而達(dá)到穩(wěn)定,那么這種網(wǎng)絡(luò)稱為聯(lián)想存儲(chǔ)器。 1.聯(lián)想存儲(chǔ)

34、網(wǎng)絡(luò)可以由一個(gè)狀態(tài)向量 v = (v1, v2, , vm)來(lái)表示 2.網(wǎng)絡(luò)有一組穩(wěn)定的狀態(tài)向量v1 , v2 , , vn . 3.網(wǎng)絡(luò)總是從任意的初始狀態(tài)v,隨著能量函數(shù)E的減少吸引到某個(gè)穩(wěn)定狀態(tài),優(yōu)化問(wèn)題(能量函數(shù)E ),這表明若函數(shù)E是有界函數(shù),Hopfield網(wǎng)絡(luò)總是吸引到E函數(shù)的局部最小值上。通過(guò)適當(dāng)?shù)剡x取Wij的值和外部輸入信號(hào)Ii ,就可以將優(yōu)化問(wèn)題匹配到神經(jīng)網(wǎng)絡(luò)上。,對(duì)E求微分(省略推導(dǎo)過(guò)程)得,優(yōu)化問(wèn)題(能量函數(shù)E ),在實(shí)際應(yīng)用中,任何一個(gè)系統(tǒng),如果其優(yōu)化問(wèn)題可以用能量函數(shù)E(t)作為目標(biāo)函數(shù),那么,總可以用連續(xù)Hopfield網(wǎng)絡(luò)對(duì)其進(jìn)行求解。由于引入能量函數(shù)E(t),

35、Hopfield使神經(jīng)網(wǎng)絡(luò)和問(wèn)題優(yōu)化直接對(duì)應(yīng)。利用神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化計(jì)算,就是在神經(jīng)網(wǎng)絡(luò)這一動(dòng)力系統(tǒng)給出初始的估計(jì)點(diǎn),即初始條件;然后隨網(wǎng)絡(luò)的運(yùn)動(dòng)傳遞而找到相應(yīng)極小點(diǎn)。這樣,大量的優(yōu)化問(wèn)題都可以用連續(xù)的Hopfield網(wǎng)來(lái)求解。,離散Hopfield神經(jīng)網(wǎng)絡(luò),三個(gè)神經(jīng)元組成的Hopfield網(wǎng)絡(luò),霍普菲爾特提出的離散網(wǎng)絡(luò)模型是一個(gè)離散時(shí)間系統(tǒng),每個(gè)神經(jīng)元只有兩種狀態(tài),可用1和-1,或者1和0表示,由連接權(quán)值wij所構(gòu)成的矩陣是一個(gè)零對(duì)角的對(duì)稱矩陣,即,在該網(wǎng)絡(luò)中,每當(dāng)有信息進(jìn)入輸入層時(shí),在輸入層不做任何計(jì)算,直接將輸入信息分布地傳遞給下一層各有關(guān)節(jié)點(diǎn)。若用Xj(t)表示節(jié)點(diǎn)j在時(shí)刻t的狀態(tài)則該節(jié)

36、點(diǎn)在下一時(shí)刻(即t+1)的狀態(tài)由下式?jīng)Q定:,這里,為從節(jié)點(diǎn)i到節(jié)點(diǎn)j的連接權(quán)值, 為節(jié)點(diǎn)j的閾值,整個(gè)網(wǎng)絡(luò)的狀態(tài)用X(t)表示,它是由各節(jié)點(diǎn)的狀態(tài)所構(gòu)成的向量。對(duì)于上圖,若假設(shè)輸出層只有兩個(gè)節(jié)點(diǎn),并用1和0分別表示每個(gè)節(jié)點(diǎn)的狀態(tài),則整個(gè)網(wǎng)絡(luò)共有四種狀態(tài),分別為: 00,01,10,11,三個(gè)神經(jīng)元的八個(gè)狀態(tài),種狀態(tài),每個(gè)狀態(tài)是一個(gè)三位的二進(jìn)制數(shù),如圖所示。在該圖中,立方體的每一個(gè)頂角代表一個(gè)網(wǎng)絡(luò)狀態(tài)。,如果假設(shè)輸出層有三個(gè)節(jié)點(diǎn),則整個(gè)網(wǎng)絡(luò)共有八,一般來(lái)說(shuō),如果在輸出層有n個(gè)神經(jīng)元,則網(wǎng)絡(luò)就有2n個(gè)狀態(tài),它可以與一個(gè)n維超立體的頂角相聯(lián)系。當(dāng)有一個(gè)輸入向量輸入到網(wǎng)絡(luò)后,網(wǎng)絡(luò)的迭代過(guò)程就不斷地從一

37、個(gè)項(xiàng)角轉(zhuǎn)向另一個(gè)頂角,直至穩(wěn)定于一個(gè)頂角為止。如果網(wǎng)絡(luò)的輸入不完全或只有部分正確,則網(wǎng)絡(luò)將穩(wěn)定于所期望頂角附近的一個(gè)頂角那里。,Hopfield模型算法,設(shè)置互連權(quán)值,其中, 為s類樣例的第i個(gè)分量,它可以為+1或-1(0),樣例類別數(shù)為m,節(jié)點(diǎn)數(shù)為n,2. 未知類別樣本初始化 yi(0)=xi 0in-1 其中,yi(t)為節(jié)點(diǎn)i在t時(shí)刻的輸出,當(dāng)t0時(shí),yi(0)就是節(jié)點(diǎn)i的初始值, xi為輸入樣本的第i個(gè)分量。 3. 迭代直到收斂,該過(guò)程將一直重復(fù)進(jìn)行,直到進(jìn)一步的迭代不再改變節(jié)點(diǎn)的輸出為止。,4. 轉(zhuǎn)2繼續(xù)。,Hopfield網(wǎng)絡(luò)的不足,很難精確分析網(wǎng)絡(luò)的性能 其動(dòng)力學(xué)行為比較簡(jiǎn)單,7

38、.8 知識(shí)發(fā)現(xiàn),產(chǎn)生的前提:從大量數(shù)據(jù)中找出隱藏在其中的、有用的信息和規(guī)律;計(jì)算機(jī)技術(shù)和信息技術(shù)的發(fā)展使其有能力處理這樣大量的數(shù)據(jù)。,成功例子,零售業(yè)的沃爾馬“啤酒與尿布”規(guī)律 Google 中國(guó)寶山鋼鐵公司1995年開(kāi)始利用數(shù)據(jù)挖掘技術(shù)提高熱軋產(chǎn)品質(zhì)量、合理配礦 中國(guó)鐵道部1998年開(kāi)始利用數(shù)據(jù)挖掘技術(shù)分析春運(yùn)期間的鐵路客流量,挖掘影響鐵路客運(yùn)總量的關(guān)鍵因素 ,知識(shí)發(fā)現(xiàn)的發(fā)展過(guò)程,八十年代人工智能(AI)研究項(xiàng)目失敗后,轉(zhuǎn)入實(shí)際應(yīng)用時(shí)提出的。 1989年國(guó)際上第一次關(guān)于數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)的研討會(huì)在美國(guó)的底特律召開(kāi),在此次會(huì)議上第一次提出了知識(shí)發(fā)現(xiàn)(Knowledge Discovery in

39、 Database, KDD)一詞。 1995年,在加拿大召開(kāi)了第一屆KDD和DM國(guó)際學(xué)術(shù)會(huì)議。會(huì)議對(duì)KDD做了確切的定義 。 從九十年代中后期開(kāi)始,KDD和DM已成為研究的熱點(diǎn)和焦點(diǎn)。,知識(shí)發(fā)現(xiàn)的定義,數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)是從大量數(shù)據(jù)中辨識(shí)出有效的、新穎的、潛在行用的、并可被理解的模式的高級(jí)處理過(guò)程。,是有關(guān)事實(shí)的集 合,是進(jìn)一步發(fā)現(xiàn) 知識(shí)的原材料,經(jīng)知識(shí)發(fā)現(xiàn)提取出的知識(shí)必須是新穎的,這可以通過(guò) 兩個(gè)途徑來(lái)衡量:通過(guò)對(duì)當(dāng)前得到的數(shù)據(jù)和以前的 數(shù)據(jù)或期望得到的數(shù)據(jù)的比較來(lái)判斷該模式的新穎程 度二是通過(guò)其內(nèi)部所包含的知識(shí),對(duì)比發(fā)現(xiàn)的模式 與已有的模式的關(guān)系來(lái)判斷,提取出的模式應(yīng)該是有意義的,這可以

40、通過(guò)某些函數(shù)的值來(lái)衡量,知識(shí)發(fā)現(xiàn)的目的就是將數(shù)據(jù)庫(kù)中隱含的模式以容易被人理解的形式表現(xiàn)出來(lái),從而使人們更好地了解數(shù)據(jù)庫(kù)中所包含的信息。,如果一個(gè)表達(dá)式比列舉數(shù)據(jù)集中的元素的描述方法更為簡(jiǎn)單時(shí),才可稱為模式。如“如果成績(jī)?cè)?190之問(wèn),則成績(jī)優(yōu)良”可稱為個(gè)模式,而“如果成績(jī)?yōu)?l,8283,84,85,8687,88,89或9D,則成績(jī)優(yōu)良”就不能稱為個(gè)模式。,知識(shí)發(fā)現(xiàn)處理過(guò)程,下面我們介紹兩類較具代表性的處理過(guò)程模型 多處理階段過(guò)程模型(1) 多處理階段模型將數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)看做是一個(gè)多階段的處理過(guò)程,圖1是費(fèi)亞得Usama M.Fayyad等人給出的處理模型。,圖1 費(fèi)亞得的知識(shí)處理模型,

41、在圖1處理模型中,KDD處理過(guò)程共分為九個(gè)處理階段,這九個(gè)處理階段分別是數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)縮減、KDD目標(biāo)確定、挖掘算法確定、數(shù)據(jù)挖掘、模式解釋及知識(shí)評(píng)價(jià)。每個(gè)處理階段KDD系統(tǒng)會(huì)提供處理工具完成相應(yīng)的工作。在對(duì)挖掘的知識(shí)進(jìn)行評(píng)測(cè)后,根據(jù)結(jié)果可以決定是否重新進(jìn)行某些處理過(guò)程,在處理的任意階段都可以返回以前的階段進(jìn)行再處理。,多處理階段過(guò)程模型(2) 下面我們介紹的數(shù)據(jù)挖掘處理過(guò)程模型是George H.John 在他的博士論文中提出的,雖然在某些地方與費(fèi)亞得給出的處理模型有一些區(qū)別,但這種區(qū)別主要表現(xiàn)在對(duì)整個(gè)處理過(guò)程的組織和表達(dá)方式上,在內(nèi)容上兩者并沒(méi)有非常本質(zhì)的區(qū)別。,An

42、alyse,Results,以用戶為中心的處理模型 Brachman & Anand從用戶的角度對(duì)KDD處理過(guò)程進(jìn)行了分析。他們認(rèn)為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)應(yīng)該更著重于對(duì)用戶進(jìn)行知識(shí)發(fā)現(xiàn)的整個(gè)過(guò)程的支持,而不是僅僅限于在數(shù)據(jù)挖掘的一個(gè)階段上。通過(guò)對(duì)很多KDD用戶在實(shí)際工作中遇到的問(wèn)題的了解,他們發(fā)現(xiàn)用戶的很大一部分工作量是與數(shù)據(jù)庫(kù)的交互上。所以他們?cè)陂_(kāi)發(fā)數(shù)據(jù)挖掘系統(tǒng)IMACS (Interactive Marketing Analysis and Classification System) 時(shí)特別強(qiáng)調(diào)對(duì)用戶與數(shù)據(jù)庫(kù)交互的支持。圖3給出了該模型的框圖。,圖3 以用戶為中心的處理模型,知識(shí)發(fā)現(xiàn)的方法,

43、1.統(tǒng)計(jì)方法 (1)傳統(tǒng)方法:主要研究漸近理論,即當(dāng)樣本趨于無(wú)窮多時(shí)的統(tǒng)計(jì)性質(zhì)。統(tǒng)計(jì)方法處理過(guò)程分三個(gè)階段:搜索數(shù)據(jù)、分析數(shù)據(jù)、進(jìn)行推理 (2)模糊集:表示和處理不確定性數(shù)據(jù)的方法。不但可以處理不完全數(shù)據(jù)、噪聲或不精確數(shù)據(jù),還可以提供比傳統(tǒng)方法更靈巧、更平滑的性能。,(3)支撐向量機(jī)SVM (support vector machine) 建立在計(jì)算學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則之上,其主要思想是針對(duì)兩類分類問(wèn)題,在高維空間中尋找一個(gè)超平面作為兩類的分割,以保證最小的分類錯(cuò)誤率。 (4)粗糙集(rough set) 由波拉克(Pawlak)在1982年提出。它是一種新的數(shù)學(xué)工具,用來(lái)處理含糊性和

44、不確定性。粗糙集是由集合的下近似、上近似來(lái)定義的。邊界區(qū)的成員可能是該集合的成員,但不是確定的成員。它常與規(guī)則歸納、分類和聚類方法結(jié)合起來(lái)使用,很少單獨(dú)使用。,2. 機(jī)器學(xué)習(xí)方法 (1)規(guī)則歸納 規(guī)則反映數(shù)據(jù)項(xiàng)中某些屬性或數(shù)據(jù)集中某些數(shù)據(jù)項(xiàng)之間的統(tǒng)計(jì)相關(guān)性。 (2)決策樹(shù) 應(yīng)用于分類和預(yù)測(cè),提供了一種展示在什么條件下會(huì)得到什么值這類規(guī)則的方法,一個(gè)決策樹(shù)表示一系列的問(wèn)題,每個(gè)問(wèn)題決定了繼續(xù)下去的問(wèn)題會(huì)是什么。 適合于處理非數(shù)值型數(shù)據(jù),需要在生成決策樹(shù)后再對(duì)決策樹(shù)進(jìn)行剪枝處理,最后將決策樹(shù)轉(zhuǎn)化為規(guī)則,用于對(duì)新事例進(jìn)行分類。,(3)范例推理 直接使用過(guò)去的經(jīng)驗(yàn)或解法來(lái)求解給定的問(wèn)題。當(dāng)給定一個(gè)特定問(wèn)題時(shí),范例推理就檢索范例庫(kù),尋找相似的范例。如果存在相似的范例,它們的解法就可以用來(lái)求解新的問(wèn)題。該新問(wèn)題被加到范例庫(kù),以便將來(lái)參

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論