人工智能機器學習課件_第1頁
人工智能機器學習課件_第2頁
人工智能機器學習課件_第3頁
人工智能機器學習課件_第4頁
人工智能機器學習課件_第5頁
已閱讀5頁,還剩92頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第六章機器學習概述幾種機器學習第六章機器學習概述幾種機器學習機器學習—概述參考書本書展現(xiàn)了機器學習中的核心算法和理論,并說明白算法的過行過程。書中主要涵蓋了目前機器學習中各種最有用的理論和算法,包括概念學習、決策樹、神經(jīng)網(wǎng)絡、貝葉斯學習、基于實例的學習、遺傳算法、規(guī)章學習、基于解釋的學習和增加學習等。對每一個主題,作者不僅進展了特別詳盡和直觀的解釋,還給出了有用的算法流程。本書被卡內(nèi)基梅隆等很多大學作為機器學習課程的教材。機器學習—概述什么是機器學習?Simon〔1983〕:學習就是系統(tǒng)中的變化,這種變化使系統(tǒng)比以前更有效地去做同樣的工作。Minsky(1985):學習是在我們頭腦中〔心里內(nèi)部〕進展有用的變化。學習是一種具有多側面的現(xiàn)象。學習的過程有:獵取新的陳述性學問、通過教育或實踐進展機械技能和認知力量、將新學問組織成為通用化和有效的表達形式、借助觀看和試驗覺察新的事實和新的理論。機器學習—概述根本形式:學問獵取和技能求精學問獵取:學習的本質就是獵取新的學問。包括物理系統(tǒng)和行為的描述和建模,構造客觀現(xiàn)實的表示?!獙W問獵取通過實踐漸漸改造機制和認知技能。例:騎自行車。這些技能包括意識的或機制的協(xié)調(diào)。這種改進又是通過反復實踐和從失敗的行為中訂正偏差來進展的。——技能求精機器學習—概述根本形式學問獵取的本質可能是一個自覺的過程,其結果是產(chǎn)生新的符號學問構造和智力模型。而技能求精則是下意識地借助于反復地實踐來實現(xiàn)的。本章只涉及學習的學問獵取問題。機器學習—概述為什么要爭論機器學習?人工智能主要是為了爭論人的智能,仿照其機理將其應用于工程的科學。在這個過程中必定會問道:“人類怎樣做才能獵取這種特殊技能〔或學問〕?”。.......….機器學習—概述為什么要爭論機器學習?.......….當前人工智能爭論的主要障礙和進展方向之一就是機器學習。包括學習的計算理論和構造學習系統(tǒng)?,F(xiàn)在的人工智能系統(tǒng)還完全沒有或僅有很有限的學習力量。系統(tǒng)中的學問由人工編程送入系統(tǒng),學問中的錯誤也不能自動改正。也就是說,現(xiàn)有的大多數(shù)人工智能是演繹的、沒有歸納推理,因而不能自動獵取和生成學問。.......….機器學習—概述為什么要爭論機器學習?………..將來的計算機將有自動獵取學問的力量,它們直接由書本學習,通過與人談話學習,通過觀看學習。它們通過實踐自我完善,抑制人的存儲少、效率低、留意力分散、難以傳送所獵取得學問等局限性。一臺計算機獵取的學問很簡潔復制給任何其它機器。機器學習—概述實現(xiàn)的困難:猜測難:學習后學問庫發(fā)生了什么變化,系統(tǒng)功能的變化的猜測。歸納推理:現(xiàn)有的歸納推理只保證假,不保證真。演繹推理保真。而且,歸納的結論是無限多的,其中相當多是假的,給生成的學問帶來不行靠性。機器目前很難觀看什么重要、什么有意義。機器學習—

概述機器學習模型學習是建立理論、形成假設和進展歸納推理的過程。整個過程包括:信息的存儲、學問的處理兩局部環(huán)境學習環(huán)節(jié)學問庫

執(zhí)行環(huán)節(jié)對環(huán)境所供給的信息進展處理,以便改善學問庫中的顯式學問。機器學習—概述進展歷史神經(jīng)系統(tǒng)模型和決策理論的爭論50年月開頭。其特點是對開頭與無初始構造和面對作業(yè)學問的通用學習系統(tǒng)感興趣。包括構造多種具有隨機或局部隨機的初始構造的基于神經(jīng)模型的機器。這些系統(tǒng)一般稱為神經(jīng)網(wǎng)絡或自組織系統(tǒng)。由于當時計算機技術狀態(tài),多停留在理論和硬件上。這些元件類似于神經(jīng)元,他們實現(xiàn)簡潔的規(guī)律功能?!瓩C器學習—概述進展歷史神經(jīng)系統(tǒng)模型和決策理論的爭論………1965年左右,神經(jīng)網(wǎng)絡閱歷模式導致了模式識別這一新學科以及機器學習的決策理論方法。這種方法中學習就是從給定的一組經(jīng)過選擇的例子中獲得推斷函數(shù),有線性的、多項式的、或相關的形式。當時,Samuel(1059-1963)的跳棋程序是最著名的成功的學習系統(tǒng)之一。到達了跳棋大師的水平。機器學習—概述符號概念獵取的爭論60年月中期提出的基于符號表示的概念學習系統(tǒng)爭論。這類學習過程通過分析一些概念的正例和反例構造出這些概念的符號表示。表示的形式一般是規(guī)律表達式、決策樹、產(chǎn)生式規(guī)章或語義網(wǎng)絡。代表有Winston的ARCH。機器學習—概述基于學問的學習系統(tǒng)的爭論70年月中期留意基于學問的學習系統(tǒng)爭論。人們不再局限于構造概念學習系統(tǒng)和獵取上下文學問,同時也結合了問題求解中的學習、概念聚類、類比推理及機器覺察的工作。一些成熟的方法開頭用于幫助構造專家系統(tǒng),并不斷地開發(fā)新的學習方法,使機器學習到達一個新的時期。這時期的工作特點主要有三個方面:機器學習—概述基于學問的學習系統(tǒng)的爭論基于學問的方法:著重強調(diào)應用面對任務的學問和指導學習過程的約束。從早先的無學問學習系統(tǒng)的失敗中吸取的教訓就是:為獵取新的學問,系統(tǒng)必需事先具備大量的初始學問。開發(fā)各種各樣的學習方法,除了早先從例子中學習外,各種有關的學習策略相繼消失,如示教學習,觀看和覺察學習。同時也消失了如類比學習和基于解釋的學習等方法。結合生成和選擇學習任務的力量:應用啟發(fā)式學問于學習任務的生成和選擇,包括提出收集數(shù)據(jù)的方式、選擇要獵取的概念與掌握系統(tǒng)的留意力等。機器學習—概述聯(lián)接學習和符號學習的深入爭論第四時期開頭于八十年月后期,聯(lián)接學習和符號學習的深入爭論導致機器學習領域的極大富強。首先,神經(jīng)網(wǎng)絡的爭論重新快速崛起,并在聲音識別、圖象處理等諸多領域得到很大成功。從事爭論的學者,覺察了用隱含層神經(jīng)元來計算和學習非線性函數(shù)的方法,抑制了早期神經(jīng)元模型的局限性。計算機硬件技術的高速進展也為開發(fā)大規(guī)模和高性能的人工神經(jīng)網(wǎng)絡掃清了障礙,使得基于人工神經(jīng)網(wǎng)絡的聯(lián)接學習從低谷走出,進展迅猛,并向傳統(tǒng)的基于符號的學習提出了挑戰(zhàn)。機器學習—概述聯(lián)接學習和符號學習的深入爭論同時,符號學習已經(jīng)受了三十多年的進展歷程,各種方法日臻完善,消失了應用技術蓬勃進展的景象。最突出的成就有分析學習〔特殊是解釋學習〕的進展,遺傳算法的成功和加強學習方法的廣泛應用。特殊是近幾年來,隨著計算機網(wǎng)絡的進展,基于計算機網(wǎng)絡的各種自適應、具有學習功能的軟件系統(tǒng)的研制和開發(fā)都將機器學習的爭論推向新的高度,網(wǎng)絡環(huán)境已成為人工智能和機器學習的重要試驗床。機器學習—概述機器學習進入新階段的重要表現(xiàn):〔近十年〕機器學習已成為新的邊緣科學并在高校形成一門課程。它綜合應專心理學、生物學和神經(jīng)生理學以及數(shù)學、自動化和計算機科學形成機器學習理論根底。機器學習—概述機器學習進入新階段的重要表現(xiàn):〔近十年〕結合各種學習方法,取長補短的多種形式的集成學習系統(tǒng)的爭論正在興起。特殊是連接學習,符號學習的耦合可以更好地解決連續(xù)性信號處理中學問與技能的獵取與求精問題而受到重視。機器學習—概述機器學習進入新階段的重要表現(xiàn):〔近十年〕機器學習與人工智能各種根底問題的統(tǒng)一性觀點正在形成。例如:學習與問題求解結合進展,學問表達便于學習的觀點產(chǎn)生了通用智能系統(tǒng)SOAR的組塊學習。類比學習與問題求解結合的基于案例學習已成為閱歷學習的重要方向。機器學習—概述機器學習進入新階段的重要表現(xiàn):〔近十年〕各種學習方法的應用范圍不斷擴大,一局部已形成商品。歸納學習的學問獵取工具已在診斷分類性專家系統(tǒng)中廣泛應用。連接學習在聲圖文識別中占優(yōu)勢。分析學習用于設計綜合性專家系統(tǒng)。遺傳算法與強化學習在工程掌握中有較好的應用前景。與符號系統(tǒng)耦合的神經(jīng)網(wǎng)絡連接學習將在企業(yè)的智能治理與智能機器人運動規(guī)劃中發(fā)揮作用。機器學習—概述機器學習進入新階段的重要表現(xiàn):〔近十年〕與機器學習有關的學術活動空前活潑。國際上除每年一次的機器學習爭論會外,還有計算機學習理論會議及遺傳算法會議。機器學習—

概述分類〔由低到高〕通過歸納總結學習〔自學習〕通過書本資料學習〔獨立爭論〕通過實際事例學習〔啟發(fā)式學習〕通過提問學習〔注入式學習〕通過機械記憶學習〔死記硬背式〕高

低機器學習—

概述分類:(按學習策略分類)機械式學習和直接輸入新學問〔記憶學習〕 學習者不需要進展任何推理或學問轉換,將學問直接裝進機器中。依據(jù)示教學習〔傳授學習、教導學習〕 從教師或其它有構造的事物獵取學問。要求學習者將輸入語言的學問轉換成它本身的內(nèi)部表示形式。并把新的信息和它原有的學問有機地結合為一體。機器學習—

概述通過類推學習〔演繹學習〕 學習者找消失有學問中所要產(chǎn)生的新概念或技能特別類似的局部。將它們轉換或擴大成適合新狀況的形式,從而取得新的事實或技能。從例子中學習〔歸納學習〕 給學習者供給某一概念的一組正例和反例,學習者歸納出一個總的概念描述,是它適合于全部的正例且排解全部的反例?!材壳盃幷撦^多的一種方法〕機器學習—

概述類比學習 演繹學習與歸納學習的組合。匹配不同論域的描述、確定公共的構造。以此作為類比映射的根底。查找公共子構造是歸納推理,而實現(xiàn)類比映射是演繹推理。基于解釋的學習 學生依據(jù)教師供給的目標概念、該概念的一個例子、領域理論及可操作準則,首先構造一個解釋來說明為什么該例子滿足目標概念,然后將解釋推廣為目標概念的一個滿足可操作準則的充分條件。機器學習—

概述分類:(按綜合分類)機器學習近幾年來進展很快,無論是符號學習還是聯(lián)接學習都派生出了很多分支和新的方法,爭論領域不斷擴大,使得不少機器學習方法很難用加以歸類。綜合分類方式則在對機器學習方法進展分類時,綜合考慮各種學習方法消失的歷史淵源、學問表示、推理策略、結果評估的相像性、爭論人員溝通的相對集中性以及應用領域等諸因素。綜合分類方式將機器學習方法區(qū)分為以下六類:機器學習—

概述按綜合分類閱歷性歸納學習(empiricalinductivelearning)。閱歷性歸納學習承受一些數(shù)據(jù)密集的閱歷方法〔例如,版本空間法、ID3法,定律覺察方法〕對例子進展歸納學習。其例子和學習結果一般都承受屬性、謂詞、關系等符號表示。它相當于基于學習策略分類中的歸納學習,但扣除聯(lián)接學習、遺傳算法、加強學習的局部。機器學習—

概述按綜合分類閱歷性歸納學習--決策樹構造法ID3。假設學習的任務是對一個大的例子集作分類概念的歸納定義,而這些例子又都是用一些無構造的屬性值對來表示,則可以承受例如學習方法的一個變種──決策樹學習,其代表性的算法是昆蘭〔,1986〕提出的ID3。機器學習—

概述按綜合分類決策樹構造法--ID3。ID3的輸入是描述各種類別實例的列表。例子由預先定義的屬性值對來表示。歸納推理產(chǎn)生的結果不是以往爭論的那種合取表達式,而是一棵決策樹〔也稱判別樹,并可轉而表示為決策規(guī)章的一個集合〕,用它可正確地區(qū)分全部給定例子的類屬。機器學習—

概述按綜合分類決策樹構造法--ID3。樹中的每一非葉節(jié)點對應一個需測試的屬性,每個分叉就是該屬性可能的取值;樹的葉節(jié)點則指示一個例子事物的類別。ID3的顯著優(yōu)點是歸納學習花費的時間和所給任務的困難度〔取決于例子個數(shù),用來描述對象的屬性數(shù),所學習概念的簡單度即決策樹的節(jié)點數(shù)等〕僅成線性增長關系。固然,ID3只能處理用屬性-值對表示的例子。機器學習—

概述按綜合分類分析學習〔analyticlearning〕。分析學習方法是從一個或少數(shù)幾個實例動身,運用領域學問進展分析。其主要特征為:

☆推理策略主要是演繹,而非歸納;

☆使用過去的問題求解閱歷〔實例〕指導新的問題求解,或產(chǎn)生能更有效地運用領域學問的搜尋掌握規(guī)章。

分析學習的目標是改善系統(tǒng)的性能,而不是新的概念描述。分析學習包括應用解釋學習、演繹學習、多級構造組塊以及宏操作學習等技術。機器學習—

概述按綜合分類類比學習。它相當于基于學習策略分類中的類比學習。目前,在這一類型的學習中比較引人注目的爭論是通過與過去經(jīng)受的具體事例作類比來學習,稱為基于范例的學習(case_basedlearning),或簡稱范例學習?;诜独耐评怼睠ase-BasedRessoning,CBR〕是指利用過去經(jīng)受的典型事例〔稱為范例〕求解或理解當前問題。機器學習—

概述按綜合分類基于范例的推理。這種推理形式在現(xiàn)實生活中特別常見。例如,有閱歷的建筑設計師在設計新的建筑構造時,往往會回想起以往類似的例子。在烹飪、日?;顒影才偶捌渌芏喾矫娑即嬖陬愃茽顩r,即處理問題時不是從頭開頭考慮各種細節(jié)及其關系,而是依據(jù)過去典型的事例,做適當調(diào)整以處理當前問題。因而基于范例推理又被稱為“即時推理“〔instantreasoning〕,特殊適合于學問缺乏或學問太簡單而閱歷又相對豐富、穩(wěn)定的領域。機器學習—

概述按綜合分類基于范例的推理是一種類比推理方式。與一般的類比推理相比,基于范例推理有以下兩個特點:

1)作為過去閱歷的范例一般有比較固定的表示構造,通常用框架形式表示;

2)欲求解的問題與范例中的問題同屬于一個領域,且一般是同性質的,即是兩類同性質問題的類比。機器學習—

概述基于范例的推理不僅是一種有效的推理方法,也可用于建立一種很好的機器學習方法--基于范例的學習〔CaseBasedLearning,CBL〕,其學習力量主要表現(xiàn)在:

1)通過記憶和調(diào)整老問題的解,使得新問題的求解不必從頭做起,因而推理更有效率。

2)通過記憶更多的正、反范例,使得系統(tǒng)的推理力量更強。

3)通過對范例庫中同類范例的歸納,可抽象出更一般、有用的結論。機器學習—

概述按綜合分類遺傳算法〔geneticalgorithm,GA〕。是一種基于進化論優(yōu)勝劣汰、適者生存的物種遺傳思想的搜尋算法。遺傳算法模擬生物生殖的突變、交換和達爾文的自然選擇〔在每一生態(tài)環(huán)境中適者生存〕。它把問題可能的解編碼為一個向量,稱為個體,向量的每一個元素稱為基因,并利用目標函數(shù)〔相應于自然選擇標準〕對群體〔個體的集合〕中的每一個個體進展評價,依據(jù)評價值〔適應度〕對個體進展選擇、交換(基因重組)、變異(突變)等遺傳操作,從而得到新的群體。機器學習—

概述按綜合分類遺傳算法〔geneticalgorithm,GA〕。美國密執(zhí)根大學的霍勒德〔〕于70年月初提出并創(chuàng)立了遺傳算法。在霍勒德的GA算法中承受二進制串來表示個體??紤]到物種的進化或淘汰取決于它們在自然界中的適應程度,GA算法為每一個體計算一個適應值或評價值,以反映其好壞程度。機器學習—

概述按綜合分類遺傳算法〔geneticalgorithm,GA〕因而,個體的適應值越高,就有更大的可能生存和再生,即它的表示特征有更大的可能消失在下一代中。遺傳操作“交換”旨在通過交換兩個個體的子串來實現(xiàn)進化;遺傳操作“突變”則隨機地轉變串中的某一〔些〕位的值,以期產(chǎn)生新的遺傳物質或再現(xiàn)已在進化過程中失去的遺傳物質?;衾盏绿岢龅倪z傳算法也稱為簡潔遺傳算法〔SGA〕,是一種根本的遺傳算法。機器學習—

概述按綜合分類簡潔遺傳算法〔simplegeneticalgorithm,SGA〕SGA以0、1組成的串表示問題域中待進化的個體〔初始解〕。利用遺傳操作──交換和突變,SGA從當前個體的集合──群體的各串中產(chǎn)生下一代群體。這一過程循環(huán)進展,直到滿足了完畢條件〔如循環(huán)了指定次,或群體性能不再改進〕。SGA的處理過程如下:機器學習—

概述按綜合分類簡潔遺傳算法〔simplegeneticalgorithm,SGA〕begin

1.選擇適當表示,生成初始群體;

2.評估群體;

3.While未到達要求的目標do

begin

1.選擇作為下一代群體的各個體;

2.執(zhí)行交換和突變操作;

3.評估群體;

end

end機器學習—

概述按綜合分類簡潔遺傳算法〔simplegeneticalgorithm,SGA〕因此,對于一個SGA算法來說主要涉及以下內(nèi)容:

·編碼和初始群體生成;

·群體的評價;

·個體的選擇;

·交換;

·突變;機器學習—

概述按綜合分類遺傳算法〔geneticalgorithm〕。遺傳算法適用于特別簡單和困難的環(huán)境,比方,帶有大量噪聲和無關數(shù)據(jù)、事物不斷更新、問題目標不能明顯和準確地定義,以及通過很長的執(zhí)行過程才能確定當前行為的價值等。遺傳算法作為一種解決簡單問題的嶄新的有效優(yōu)化方法,近年來得到了廣泛的實際應用,同時也滲透到人工智能、機器學習、模式識別、圖像處理、軟件技術等計算機學科領域。GA在機器學習領域中的一個典型應用就是利用GA技術作為規(guī)章覺察方法應用于分類系統(tǒng)。機器學習—

概述按綜合分類聯(lián)接學習。典型的聯(lián)接模型實現(xiàn)為人工神經(jīng)網(wǎng)絡,其由稱為神經(jīng)元的一些簡潔計算單元以及單元間的加權聯(lián)接組成。機器學習—

概述按綜合分類加強學習〔reinforcementlearning〕。加強學習的特點是通過與環(huán)境的摸干脆〔trialanderror〕交互來確定和優(yōu)化動作的選擇,以實現(xiàn)所謂的序列決策任務。在這種任務中,學習機制通過選擇并執(zhí)行動作,導致系統(tǒng)狀態(tài)的變化,并有可能得到某種強化信號〔馬上回報〕,從而實現(xiàn)與環(huán)境的交互。強化信號就是對系統(tǒng)行為的一種標量化的獎懲。系統(tǒng)學習的目標是查找一個適宜的動作選擇策略,即在任一給定的狀態(tài)下選擇哪種動作的方法,使產(chǎn)生的動作序列可獲得某種最優(yōu)的結果〔如累計馬上回報最大〕。機器學習—

概述爭論目的希望得到通用的算法爭論了解學習學問的模型、認知模型解決實際問題的學問庫域系統(tǒng),到達工程目標爭論特點不行猜測性第六章機器學習概述幾種機器學習第六章機器學習概述幾種機器學習機械式學習指導式學習示例學習決策樹學習遺傳算法機械式學習概述是一種最簡潔的機器學習系統(tǒng)。外界以一種推理機可直接使用的學問表示形式供給信息,學習系統(tǒng)無需作任何處理。它所要做的是記住宅有的信息,考察系統(tǒng)已解決的問題,記住問題和結論。模型:(x1,…,x2)(y1,…,y2)[(x1,…,x2),(y1,…,y2)]輸入模式執(zhí)行輸出值數(shù)據(jù)對〔已解決問題結果〕函數(shù)是一種基于記憶和檢索的方法,因此儲存器的組織問題將影響檢索的效率。f存儲指導式學習概述通過和用戶的相互對話,把用戶的一般性意見或指示具體化;或幫助用戶補充和修改原有的學問庫。該方法既避開系統(tǒng)自己分析、歸納和覺察學問的困難,又無需供給學問的領域專家了解系統(tǒng)內(nèi)部表示和組織學問的實際細節(jié)。是目前智能系統(tǒng)中承受較多的方法之一。指導式學習模型輸入推理機輸出知識庫征詢解釋加工歸并評價專家用戶指導式學習步驟征詢:懇求并承受專家的指導。解釋:消化吸取成內(nèi)部表示〔系統(tǒng)規(guī)定的形式〕。加工:轉換成推理機可直接使用的形式。歸并:歸并到學問庫中,主要檢查冗余性、全都性和完整性。評價:對執(zhí)行結果進展評價。例如學習概述50年月興起的例如學習是歸納學習的一種。目前例如學習在某些系統(tǒng)中的應用已成為機器學習走向實踐的先導。環(huán)境供給應系統(tǒng)一些特殊的例如,這些例如事先由施教者劃分為正例和反例。例如學習系統(tǒng)由此進展歸納推理得到一般規(guī)章。環(huán)境供給應學習環(huán)節(jié)的正例和反例是低水平的信息,這是特殊狀況下執(zhí)行環(huán)節(jié)的行為。學習環(huán)節(jié)歸納出的規(guī)章是高水平的信息,可以在一般狀況下用這些規(guī)章指導執(zhí)行環(huán)節(jié)的工作。例如學習例如學習的學習模型驗證搜尋解釋形成規(guī)章試驗打算示例空間規(guī)則空間例如學習例如學習的學習模型1〕例如空間:全部可能對系統(tǒng)進展訓練的例如集合。2〕搜尋:從例如空間中搜尋出所需的例如。3〕解釋:從所選的例如中抽象出信息,供給應規(guī)章空間。4〕形成規(guī)章:從解釋處接收例如,抽取所需信息,將它們歸納成一般性規(guī)章。5〕規(guī)章空間:存放已形成的規(guī)章。6〕試驗打算:一旦規(guī)章假設形成,系統(tǒng)就要選擇更多的例如來驗證和精練它們,甚至修正它們,以形成正確的學問。例如學習例如學習的兩個空間模型例子空間規(guī)則空間選擇例子解釋例子例如學習-兩個空間模型描述例子空間的描述語言可以描述全部例子;規(guī)章空間的可以描述全部規(guī)章。例如:紙牌,同花5張正例:{(2,c),(3,c),(5,c),(J,c),(A,c)},其中c,草花club規(guī)章:描述一手牌的全部謂詞表達式的集合。符號:SUIT(花色),RANK〔點數(shù)〕常量:A,2,3,…,10.J,Q,K,clubs(草花),diamonds(方塊),hearts〔紅桃〕,spades(黑桃)合取連接詞∧,存在量詞所以有規(guī)章:對c1,c2,c3,c4,c5SUIT(c1,x)∧SUIT(c2,x)∧SUIT(c3,x)∧SUIT(c4,x)∧SUIT(c5,x)例如學習-兩個空間模型例子空間示教例子的質量。不能有錯,同時供給正例和反例,逐步分批有選擇地送入。選擇的條件:最有力地劃分規(guī)章空間;證明確定假設規(guī)章的集合;否認否認假設規(guī)章的集合。搜尋方法。例如學習-兩個空間模型規(guī)章空間最根本,真正學習的局部。定義:一套符號來規(guī)定表示規(guī)章的算符、術語,全部的描述都在其中。歸納方法:從特殊到一般的推理〔P.221〕常量化為變量。例,從幾個正例中找到共性的局部改成變量。去掉條件。同上例。去掉牌點數(shù)這個條件增加選擇〔析取〕。例人臉牌。從RANK(c1,J),RANK(c2,K)推出還有RANK(c3,Q)曲線擬合。幾組值,解方程或用最小二乘法擬合成一條曲線或曲面。例如學習-兩個空間模型〔規(guī)章空間〕不管是去掉還是增加,都是擴大范圍。把已有的學問總結歸納推廣。但是要留神。越快越強的方法越簡潔出錯。緣由是歸納推理方法是保假不保真。實際上沒有很嚴格的具體方法。因此,用歸納方法的過程就是搜尋過程。找到包含在少數(shù)例子中的正確信息。歸納出錯就要回溯。要常常檢驗,用新例子去否認歸納出的錯誤規(guī)章。即解釋例子和選擇例子的反復,反復于例子空間和規(guī)章空間之間。例如學習-兩個空間模型〔規(guī)章空間〕對規(guī)章空間的要求表示要適應于歸納。如:有謂詞才可以增減;有狀態(tài)空間才能擬合。不同的歸納方法要求不同的規(guī)章表示方法。假設規(guī)章空間描述的語言的表達力量較弱,可以使用的歸納方法就比較少,規(guī)章空間的搜尋反謂就比較小,搜尋就比較簡潔。但解決的問題就較少。因此,設計是在規(guī)章空間表達力量與規(guī)章空間搜尋難度之間進展權衡。表示和例子的全都。如相差很大,解釋例子和選擇例子的過程就很簡單。引入新術語〔規(guī)章空間〕。當表示語言不能描述學習過程中產(chǎn)生的新狀態(tài)時,要產(chǎn)生新的術語。例如學習-例有兩組數(shù)據(jù)通過學習,得到描述規(guī)章1.[發(fā)色=金色∨紅色]∧[眼睛=藍色∨灰色]2.[發(fā)色=黑色]∨[眼睛=黑色]例如學習-例有兩組數(shù)據(jù)〔決策樹學習〕決策樹學習決策樹(DecisionTree)一種描述概念空間的有效的歸納推理方法?;跊Q策樹的學習方法可以進展不相關的多概念學習,具有簡潔快捷的優(yōu)勢,已經(jīng)在各個領域取得廣泛應用。決策樹學習〔概述〕決策樹學習是以實例為根底的歸納學習。從一類無序、無規(guī)章的事物〔概念〕中推理出決策樹表示的分類規(guī)章。概念分類學習算法:來源于Hunt,Marin和Stone于1966年研制的CLS學習系統(tǒng),用于學習單個概念。1979年,J.R.Quinlan給出ID3算法,并在1983年和1986年對ID3進展了總結和簡化,使其成為決策樹學習算法的典型。Schlimmer和Fisher于1986年對ID3進展改造,在每個可能的決策樹節(jié)點創(chuàng)立緩沖區(qū),使決策樹可以遞增式生成,得到ID4算法。1988年,Utgoff在ID4根底上提出了ID5學習算法,進一步提高了效率。1993年,Quinlan進一步進展了ID3算法,改進成C4.5算法。另一類決策樹算法為CART,與C4.5不同的是,CART的決策樹由二元規(guī)律問題生成,每個樹節(jié)點只有兩個分枝,分別包括學習實例的正例與反例。其根本思想是以信息熵為度量構造一棵熵值下降最快的樹,到葉子節(jié)點處的熵值為零,此時每個葉節(jié)點中的實例都屬于同一類。決策樹學習〔概述〕隨著決策樹學習算法的廣泛應用,包括C4.5和CART的各種算法得到進一步改進。當前比較引人注目的有斜超平面分割的多變決策樹(Multi-VarianceDecisionTree,MDT)算法,將遺傳算法、神經(jīng)元網(wǎng)絡和C4.5相結合的GA-NN-C4.5算法,SVM決策樹算法。這些改進算法旨在結合各種方案的優(yōu)勢,取得更合理的分類效果,總結出更通用的規(guī)章。決策樹學習〔概述〕決策樹學習承受的是自頂向下的遞歸方法。決策樹的每一層節(jié)點依照某一屬性值向下分為子節(jié)點,待分類的實例在每一節(jié)點處與該節(jié)點相關的屬性值進展比較,依據(jù)不同的比較結果向相應的子節(jié)點擴展,這一過程在到達決策樹的葉節(jié)點時完畢,此時得到結論。從根節(jié)點到葉節(jié)點的每一條路經(jīng)都對應著一條合理的規(guī)章,規(guī)章間各個局部〔各個層的條件〕的關系是合取關系。整個決策樹就對應著一組析取的規(guī)章。決策樹學習算法的最大優(yōu)點是,它可以自學習。在學習的過程中,不需要使用者了解過多背景學問,只需要對訓練例子進展較好的標注,就能夠進展學習。假設在應用中覺察不符合規(guī)章的實例,程序會詢問用戶該實例的正確分類,從而生成新的分枝和葉子,并添加到樹中。決策樹學習〔決策樹〕樹是由節(jié)點和分枝組成的層次數(shù)據(jù)構造。節(jié)點用于存貯信息或學問,分枝用于連接各個節(jié)點。樹是圖的一個特例,圖是更一般的數(shù)學構造,如貝葉斯網(wǎng)絡。

決策樹是描述分類過程的一種數(shù)據(jù)構造,從上端的根節(jié)點開頭,各種分類原則被引用進來,并依這些分類原則將根節(jié)點的數(shù)據(jù)集劃分為子集,這一劃分過程直到某種約束條件滿足而完畢。

根結點個子大可能是松鼠可能是老鼠可能是大象在水里會吱吱叫鼻子長脖子長個子小不會吱吱叫鼻子短脖子短可能是長頸鹿在陸地上可能是犀牛可能是河馬決策樹學習〔決策樹〕可以看到,一個決策樹的內(nèi)部結點包含學習的實例,每層分枝代表了實例的一個屬性的可能取值,葉節(jié)點是最終劃分成的類。假設判定是二元的,那么構造的將是一棵二叉樹,在樹中每答復一個問題就降到樹的下一層,這類樹一般稱為CART〔ClassificationAndRegressionTree〕。判定構造可以機械的轉變成產(chǎn)生式規(guī)章??梢酝ㄟ^對構造進展廣度優(yōu)先搜尋,并在每個節(jié)點生成“IF…THEN”規(guī)章來實現(xiàn)。如圖6-13的決策樹可以轉換成下規(guī)章:IF“個子大”THENIF“脖子短”THENIF“鼻子長”THEN可能是大象形式化表示成決策樹學習〔決策樹〕構造一棵決策樹要解決四個問題:收集待分類的數(shù)據(jù),這些數(shù)據(jù)的全部屬性應當是完全標注的。設計分類原則,即數(shù)據(jù)的哪些屬性可以被用來分類,以及如何將該屬性量化。分類原則的選擇,即在眾多分類準則中,每一步選擇哪一準則使最終的樹更令人滿足。設計分類停頓條件,實際應用中數(shù)據(jù)的屬性很多,真正有分類意義的屬性往往是有限幾個,因此在必要的時候應當停頓數(shù)據(jù)集分裂:該節(jié)點包含的數(shù)據(jù)太少缺乏以分裂,連續(xù)分裂數(shù)據(jù)集對樹生成的目標(例如ID3中的熵下降準則)沒有奉獻,樹的深度過大不宜再分。通用的決策樹分裂目標是整棵樹的熵總量最小,每一步分裂時,選擇使熵減小最大的準則,這種方案使最具有分類潛力的準則最先被提取出來決策樹學習〔性質〕證據(jù)由屬性值對表示證據(jù)由固定的的屬性和其值表示,如屬性〔溫度〕,值〔熱〕最簡潔的學習狀況時每個屬性擁有少量的不相關的值。目標函數(shù)有離散輸出值決策樹安排一個二值的樹,很簡潔擴展成為多于兩個的輸出值。需要不相關的描述決策樹原則上是表述不相關的表示容忍訓練數(shù)據(jù)的錯誤對訓練樣本和表述樣本的屬性值的錯誤都有較強的魯棒性。訓練數(shù)據(jù)可以缺少值可以承受缺少屬性值的樣本學習。〔不是全部樣本都有〕決策樹學習〔應用〕依據(jù)病情對病人分類依據(jù)起因對故障分類依據(jù)付款信用狀況對貸款申請者分類這些都是將輸入樣本分類成可能離散集分類問題決策樹學習〔學習〕Shannon信息熵自信息量設信源X發(fā)出ai的概率p(ai),在收到符號ai之前,收信者對ai的不確定性定義為ai的自信息量I(ai)。I(ai)=-logp(ai)。信息熵自信息量只能反映符號的不確定性,而信息熵用來度量整個信源整體的不確定性,定義為:

其中,r為信源X發(fā)出的全部可能的符號類型。信息熵反響了信源每發(fā)出一個符號所供給的平均信息量。條件熵設信源為X,收信者收到信息Y,用條件熵H(X|Y)來描述收信者在收到Y后對X的不確定性估量。設X的符號ai,Y的符號bj,p(ai|bj)為當Y為bj時,X為ai的概率,則有:平均互信息量用平均互信息量來表示信號Y所能供給的關于X的信息量的大小,用I(X,Y)表示:

決策樹學習〔學習〕設學習的實例集為其中Si為學習實例,T實例集大小。對于有指導的學習,任一個Si具有明確標定的類別,向量表示該實例的特性,即Si的信息為,假設一個觀測值具有屬性則應當劃歸為類,應當有下面的規(guī)章總結出來式中Xi為大事所具有的第i個屬性。這里的屬性和類具有廣泛的意義。基于遺傳算法的機器學習應用簡潔遺傳算法〔simplegeneticalgorithm,SGA〕一個SGA算法來說主要涉及以下內(nèi)容:

·編碼和初始群體生成;

·群體的評價;

·個體的選擇;

·交換;

·突變;

基于遺傳算法的機器學習應用1.編碼和初始群體的生成GA的工作根底是選擇適當?shù)姆椒ū硎緜€體和問題的解〔作為進化的個體〕。SGA要求個體均以0、1組成的串來表示,且全部個體串都是等長的。實際上,可以任意指定有限元素組成的串來表示個體,而不影響GA的根本算法。對于同一問題,可以有不同的編碼表示方法。由于遺傳操作直接作用于所表示的串上,因而不同的表示方法對SGA的效率和結果都會有影響。

基于遺傳算法的機器學習應用1.編碼和初始群體的生成從原理上講,任何取值為整數(shù)〔或其它有限可枚舉的值〕的變量,均可用有限長度的0、1串來表示,而任何取值為連續(xù)實數(shù)的變量也均可用有限長度的0、1串來近似表示。因此,對任何一個變量,均可在肯定程度上用0、1串來表示〔編碼〕,而當問題的解涉及多個變量時,則可用各變量對應串的拼接〔形成一個長串〕來表示相應解。

一般可用隨機方法來產(chǎn)生初始群體,固然最好能考慮各個體的代表性和分布概率。

基于遺傳算法的機器學習應用2.群體的評價

對群體中各個體的適應性評價常需直接利用待優(yōu)化問題的目標函數(shù)。這一目標函數(shù)也可稱為適應函數(shù),個體選擇〔或再生〕過程正是基于這一函數(shù)來評價當前群體中各個體的再生概率。

基于遺傳算法的機器學習應用3.個體的選擇

選擇操作是對自然界“適者生存”的模擬。評價值〔目標函數(shù)值〕較大的個體有較高的概率生存,即在下一代群體中再次消失。

一種常用的選擇方法是按比例選擇,即假設個體i的適應值〔目標函數(shù)值〕是fi,則個體i在下一代群體中復制〔再生〕的子代個數(shù)在群體中的比例將為:

fi/∑fi。

其中,∑fi是指全部個體適應值之和。

基于遺傳算法的機器學習應用3.個體的選擇

假設當前群體與下一代群體的個數(shù)均維持在n,則每一個體i在下一代群體中消失的個數(shù)將是:

n*fi/∑fi=fi/f,

其中f=∑fi/n是群體評價的平均值。fi/f的值不肯定是一個整數(shù)。為了確定個體在下一代中的準確個數(shù),可將fi/f的小數(shù)局部視為產(chǎn)生個體的概率。如,假設fi/f為2.7,則個體i有70%的可能再生2+1=3個,而有30%的可能只再生2個。

基于遺傳算法的機器學習應用3.個體的選擇

SGA承受稱為旋轉盤〔roulettewheel〕的方法來產(chǎn)生各個體的再生數(shù)。方法是:

每一個體均對應于旋轉盤中的一個以園點為中心的扇形區(qū)域,區(qū)域角度為2π*fi/∑fi,因而,各個體的區(qū)域角度之和等于2π。然后隨機產(chǎn)生一個0到2π的值,依據(jù)該值所對應的區(qū)域,再生一個對應個體,直到產(chǎn)生的個體個數(shù)到達所需的數(shù)目,從而生成下一代的原始群體。這個群體還需進一步應用交換和突變操作。

基于遺傳算法的機器學習應用4.交換

交換是GA中最主要的遺傳操作,其工作于選擇過程完畢后產(chǎn)生的下一代群體。交換操作應用于從這一群體中隨機選擇的一系列個體對〔串對〕。

SGA承受的是單點交換。設串長為L,交換操作將隨機選擇一個交換點〔對應于從1到L-1的某個位置序號〕,緊接著兩串交換點右邊的子串互換,從而產(chǎn)生了兩個新串。

基于遺傳算法的機器學習應用4.交換

例如,設A1,A2為要交換的串,交換點被隨機選擇為7〔串長為10〕。

A1=1000011111

A2=1111111011

交換得新串A1”,A2”:

A1”=1000011011

A2”=1111111111

固然,并非全部選中的串對都會發(fā)生交換。這些串對發(fā)生交換的概率是Pc。Pc為事先指定的0-1之間的值,稱為交換率。基于遺傳算法的機器學習應用5.突變

另一種遺傳操作是突變,它一般在交換后進展。突變操作的對象是個體〔即串〕,旨在轉變串中的某些位的值,即由0變?yōu)?,或由1變?yōu)?。并非全部位都能發(fā)生變化,每一位發(fā)生變化的概率是Pm。Pm為事先指定的0-1之間的某個值,稱為突變率。串中每一位的突變是獨立的,即某一位是否發(fā)生突變并不影響其它位的變化。突變的作用是引進新的遺傳物質或恢復已失去的遺傳物質。例如,假設群體的各串中每一位的值均為0,此時無論如何交換都不能產(chǎn)生有1的位,只有通過突變。基于遺傳算法的機器學習應用5.突變

下面舉一例子來說明遺傳算法的一個進化循環(huán)。設每一串的長度為10,共有4個串組成第一代群體〔POP1〕,目標函數(shù)〔適應函數(shù)〕為各位值之和,因而函數(shù)值為0-10。POP1中四個串的適應值分別為:3,6,6,9,所以再生的比例個數(shù)為:0.5,1,1,1.5。假設最終實際的再生個數(shù)為0,1,1,2,則產(chǎn)生選擇后的群體POP2。下一步對POP2中各串配對,隨機選擇串1和串4為一對,串2和串3為另一對。基于遺傳算法的機器學習應用5.突變

群體POP1

串適應值

00000111003

10000111116

01101010116

11111110119群體POP2〔選擇后〕

串適應值

10000111116

01101010116

11111110119

11111110119

基于遺傳算法的機器學習應用5.突變

設交換率為0.5,即只有一對串發(fā)生交換,如串1和串4。假設交換點隨機選在位置7,因而交換后產(chǎn)生群體POP3。設突變率為0.05,即在POP3的40個位中,共有2個位發(fā)生突變,不妨設突變發(fā)生在串2的第6位和串4的第1位,從而產(chǎn)生群體POP4。留意,僅群體POP4代表新一代的群體〔上一代為POP1〕,POP2和POP3只是一些進化中的中間群體?;谶z傳算法的機器學習應用5.突變

群體POP3〔交換后〕

串適應值

10000110115

01101010116

11111110119

111111111110

群體POP4〔突變后〕

串適應值

10000110115

01101110117

11111110119

01111111119基于遺傳算法的機器學習應用5.突變

在SGA算法中,一般承受的群體大小為30到200,交換率為0.5到1,突變率為0.001到0.05。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論