版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第二章機器學(xué)習(xí)《人工智能通識教程》配套課件《人工智能通識》教研組本章概述本章介紹機器學(xué)習(xí)的基本概念、發(fā)展歷程及多樣化應(yīng)用,涵蓋學(xué)習(xí)分類、系統(tǒng)結(jié)構(gòu)、主要算法及實際應(yīng)用,幫助讀者全面理解機器學(xué)習(xí)的理論與實踐價值。主要講述的內(nèi)容如下:(1)機器學(xué)習(xí)的發(fā)展概述與定義,介紹研究內(nèi)容和基礎(chǔ)知識。(2)機器學(xué)習(xí)的分類,包含監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)等方法。(3)機器學(xué)習(xí)系統(tǒng)結(jié)構(gòu),闡明環(huán)境、知識庫與執(zhí)行部分的組成。(4)主要機器學(xué)習(xí)算法,涵蓋回歸、決策樹、樸素貝葉斯、聚類、支持向量機、神經(jīng)網(wǎng)絡(luò)及集成方法。(5)機器學(xué)習(xí)的實際應(yīng)用,展示其在數(shù)據(jù)分析、模式識別、生物信息學(xué)、物聯(lián)網(wǎng)、聊天機器人和無人駕駛等領(lǐng)域的廣泛應(yīng)用。本章目錄2.1機器學(xué)習(xí)概述12.2基于學(xué)習(xí)方式的分類2.5機器學(xué)習(xí)的應(yīng)用2.4機器學(xué)習(xí)的算法2.3機器學(xué)習(xí)的基本結(jié)構(gòu)本章目錄2.1機器學(xué)習(xí)概述12.2基于學(xué)習(xí)方式的分類2.5機器學(xué)習(xí)的應(yīng)用2.4機器學(xué)習(xí)的算法2.3機器學(xué)習(xí)的基本結(jié)構(gòu)2.1機器學(xué)習(xí)概述機器學(xué)習(xí)(MachineLearning,ML)是人工智能的一個重要分支,旨在使計算機系統(tǒng)通過數(shù)據(jù)學(xué)習(xí)和改進其性能,而無需明確編程。機器學(xué)習(xí)算法通過識別數(shù)據(jù)中的模式和規(guī)律,能夠進行預(yù)測、分類和決策等任務(wù)。一些手機提供了智能語音助手,一些電子郵箱使用了垃圾郵件過濾器(軟件),等等。機器學(xué)習(xí)作為人工智能的一個分支,如圖2-1所示,機器學(xué)習(xí)所涉及的應(yīng)用范圍包括語言處理、圖像識別和智能規(guī)劃等。圖2-1機器學(xué)習(xí)是人工智能的一個分支2.1機器學(xué)習(xí)概述機器學(xué)習(xí)最早可以迫溯到英國數(shù)學(xué)家貝葉斯在1763年發(fā)表的貝葉斯定理,這是關(guān)于隨機事件A和B的條件概率(或邊緣概率)的一則數(shù)學(xué)定理。貝葉斯定理是概率論中的一個重要定理,它描述了如何根據(jù)新的證據(jù)更新事件的概率。公式如下:2.1.1機器學(xué)習(xí)的發(fā)展2.1機器學(xué)習(xí)概述應(yīng)用場景:醫(yī)學(xué)診斷:根據(jù)測試結(jié)果更新疾病的可能性。機器學(xué)習(xí):在分類算法中,通過先前的數(shù)據(jù)更新模型。決策分析:在不確定的環(huán)境中根據(jù)新信息調(diào)整決策。貝葉斯定理提供了一種系統(tǒng)的方法來整合新證據(jù)與先驗知識,從而得出更準確的概率評估。2.1機器學(xué)習(xí)概述從20世紀50年代研究機器學(xué)習(xí)以來,不同時期的研究途徑和目標并不相同,大體上可以劃分為4個階段。第1階段(20世紀50年代中半至60年代中半):熱烈時期。本階段研究“有無知識的學(xué)習(xí)”,聚焦執(zhí)行能力。通過改變環(huán)境與性能參數(shù)檢驗反饋,系統(tǒng)在程序作用下自組織調(diào)整,最終擇優(yōu)環(huán)境生存。代表性成果為塞繆爾的下棋程序。第2階段(20世紀60年代中半至70年代中半):冷靜時期。本階段聚焦植入領(lǐng)域知識,模擬人類學(xué)習(xí),以圖與邏輯結(jié)構(gòu)表征系統(tǒng)。因?qū)W習(xí)長期性,轉(zhuǎn)向整合專家知識以獲深層認知,并取得成效;代表為海耶斯與羅斯的結(jié)構(gòu)學(xué)習(xí)方法。第3階段(20世紀70年代中半至80年代中半):復(fù)興時期。本階段由單概念擴展至多概念學(xué)習(xí),策略與應(yīng)用并進;專家系統(tǒng)的知識獲取需求推動ML發(fā)展,示例歸納與自動知識獲取成主流。1980研討會奠基,1984專著與期刊創(chuàng)刊。代表作有莫斯托、萊納特、蘭利之作。第4階段(自20世紀80年代中半):新的邊緣學(xué)科階段。2.1機器學(xué)習(xí)概述機器學(xué)習(xí)的這個新階段具有如下特點:(1)機器學(xué)習(xí)成為新的邊緣學(xué)科,它綜合應(yīng)用了心理學(xué)、生物學(xué)、神經(jīng)生理學(xué)、數(shù)學(xué)、自動化和計算機科學(xué)等,形成了機器學(xué)習(xí)理論基礎(chǔ)。(2)融合各種學(xué)習(xí)方法,且形式多樣的集成學(xué)習(xí)系統(tǒng)研究正在興起,機器學(xué)習(xí)融合的各種學(xué)習(xí)方法如圖2-2所示。(3)機器學(xué)習(xí)與AI基礎(chǔ)問題的統(tǒng)一性觀點形成:將學(xué)習(xí)與求解結(jié)合、以便于學(xué)習(xí)的知識表達,催生通用智能系統(tǒng)的組塊學(xué)習(xí)。類比學(xué)習(xí)與求解結(jié)合的案例法成經(jīng)驗學(xué)習(xí)重要方向。(4)學(xué)習(xí)方法應(yīng)用擴展并商品化:歸納學(xué)習(xí)的知識獲取工具廣泛用于診斷專家系統(tǒng);連接學(xué)習(xí)在聲圖文識別占優(yōu);分析學(xué)習(xí)用于設(shè)計型專家系統(tǒng);遺傳算法與強化學(xué)習(xí)在工程控制具前景;與符號系統(tǒng)耦合的神經(jīng)網(wǎng)絡(luò)用于智能管理與機器人規(guī)劃。(5)學(xué)術(shù)活動空前活躍:除年度機器學(xué)習(xí)研討會外,尚有計算機學(xué)習(xí)理論會議、遺傳算法會議等國際會議持續(xù)推進研究。2.1機器學(xué)習(xí)概述圖2-2機器學(xué)習(xí)融合的各種學(xué)習(xí)方法2.1機器學(xué)習(xí)概述學(xué)習(xí)是人類具有的一種重要的智能行為,而機器學(xué)習(xí)多學(xué)科交叉,使用計算機作為工具,致力于真實實時的模擬人類學(xué)習(xí)方式,并將現(xiàn)有內(nèi)容進行知識結(jié)構(gòu)劃分來有效提高學(xué)習(xí)效率。蘭利(1996年)的定義是:“機器學(xué)習(xí)是一門人工智能的科學(xué),該領(lǐng)域的主要研究對象是人工智能,特別是如何在經(jīng)驗學(xué)習(xí)中改善具體算法的性能?!睖贰っ浊袪枺?997年)對信息論中的一些概念有詳細的解釋,其中定義機器學(xué)習(xí)時提到:“機器學(xué)習(xí)是對能通過經(jīng)驗自動改進的計算機算法的研究。”阿爾帕?。?004年)對機器學(xué)習(xí)的定義是:“機器學(xué)習(xí)使用數(shù)據(jù)或以往的經(jīng)驗,以此優(yōu)化計算機程序的性能標準?!?.1.2機器學(xué)習(xí)的定義2.1機器學(xué)習(xí)概述機器學(xué)習(xí)是人工智能中研究怎樣使用計算機模擬或?qū)崿F(xiàn)人類學(xué)習(xí)活動的科學(xué),其理論和方法已被廣泛應(yīng)用于解決工程應(yīng)用和科學(xué)領(lǐng)域的復(fù)雜問題。機器學(xué)習(xí)的研究主要分為兩個方向:第一個是傳統(tǒng)機器學(xué)習(xí)的研究,第二個是大數(shù)據(jù)環(huán)境下機器學(xué)習(xí)的研究。2.1.3機器學(xué)習(xí)的研究內(nèi)容2.1機器學(xué)習(xí)概述1.傳統(tǒng)機器學(xué)習(xí)的研究內(nèi)容傳統(tǒng)機器學(xué)習(xí)關(guān)注學(xué)習(xí)機制,涵蓋決策樹、隨機森林、神經(jīng)網(wǎng)絡(luò)與貝葉斯學(xué)習(xí),強調(diào)可解釋性與泛化能力。(1)決策樹通過信息增益等準則分裂特征,結(jié)構(gòu)清晰、可解釋,剪枝抑制過擬合,適合中小規(guī)模與表格數(shù)據(jù)。(2)ID3引入信息論,偏向多值屬性;C4.5改進為信息增益率并支持連續(xù)屬性,但需遍歷閾值,內(nèi)存占用大。(3)1984年提出剪枝思想顯著提升泛化;Chi-Square依據(jù)屬性與類別關(guān)聯(lián)統(tǒng)計量;AS-SISTANT允許類別取值交集。(4)隨機森林集成多棵樹,袋外估計評估誤差,抗過擬合、魯棒性強,對高維與缺失數(shù)據(jù)友好,缺點是可解釋性弱。(5)人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks,ANN)具非線性表達與自適應(yīng)能力,擅長模式與語音識別、非結(jié)構(gòu)化數(shù)據(jù),但訓(xùn)練需大量數(shù)據(jù)與算力。2.1機器學(xué)習(xí)概述2.大數(shù)據(jù)環(huán)境下機器學(xué)習(xí)的研究內(nèi)容大數(shù)據(jù)促使機器學(xué)習(xí)以分布式并行提升效能,提取可理解知識;降噪與分治降成本提效率,支撐多模態(tài)智能分析與產(chǎn)業(yè)升級。(1)分布式與并行計算支撐大規(guī)模訓(xùn)練,橫向擴展算力,縮短訓(xùn)練時長,滿足海量數(shù)據(jù)實時與批處理需求。(2)分治策略與降噪機制緩解冗余與異常干擾,降低存儲與通信成本,穩(wěn)定模型性能,提升總體學(xué)習(xí)效率。(3)數(shù)據(jù)轉(zhuǎn)向與處理能力提升,強化采集、清洗、標注、治理與存儲,支撐端云協(xié)同與數(shù)據(jù)生命周期管理。(4)新型數(shù)據(jù)涌現(xiàn):文本與情感、圖像與視頻、圖與網(wǎng)絡(luò),推動跨模態(tài)表示學(xué)習(xí)與檢索,拓展應(yīng)用邊界。(5)面向智能數(shù)據(jù)分析,融合挖掘與學(xué)習(xí),實現(xiàn)自動化規(guī)劃與人機協(xié)同,賦能產(chǎn)業(yè)升級與新興業(yè)態(tài)發(fā)展。本章目錄2.1機器學(xué)習(xí)概述12.2基于學(xué)習(xí)方式的分類2.5機器學(xué)習(xí)的應(yīng)用2.4機器學(xué)習(xí)的算法2.3機器學(xué)習(xí)的基本結(jié)構(gòu)2.2基于學(xué)習(xí)方式的分類機器學(xué)習(xí)的核心是“使用算法解析數(shù)據(jù),從中學(xué)習(xí),然后對世界上的某件事情做出決定或預(yù)測”。機器學(xué)習(xí)有3種主要類型,即監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強化學(xué)習(xí),機器學(xué)習(xí)的3種主要類型如圖2-3所示。圖2-3機器學(xué)習(xí)的3種主要類型2.2基于學(xué)習(xí)方式的分類監(jiān)督學(xué)習(xí),也稱有導(dǎo)師學(xué)習(xí),是指輸入數(shù)據(jù)中有導(dǎo)師信號,以概率函數(shù)、代數(shù)函數(shù)或人工神經(jīng)網(wǎng)絡(luò)為基函數(shù)模型,采用迭代計算方法,學(xué)習(xí)結(jié)果為函數(shù)。監(jiān)督學(xué)習(xí)以標注數(shù)據(jù)訓(xùn)練函數(shù),預(yù)測新樣本結(jié)果;含分類與回歸,兩者依賴特征-目標映射與誤差最小化。(1)分類將樣本映射到離散類別,如垃圾郵件過濾,基于歷史標注學(xué)習(xí)判別邊界,提升準確率并控制誤報率。(2)回歸預(yù)測連續(xù)數(shù)值,如天氣預(yù)報,利用歷史多變量特征擬合函數(shù),關(guān)注偏差-方差權(quán)衡與區(qū)間不確定性。(3)訓(xùn)練需輸入與輸出成對標注,采用損失函數(shù)與正則化減過擬合,交叉驗證與早停提升泛化與穩(wěn)定性。2.2.1監(jiān)督學(xué)習(xí)2.2基于學(xué)習(xí)方式的分類無監(jiān)督學(xué)習(xí)又稱無導(dǎo)師學(xué)習(xí)、歸納性學(xué)習(xí),是指輸入數(shù)據(jù)中無導(dǎo)師信號,采用聚類方法,學(xué)習(xí)結(jié)果為類別。典型的無監(jiān)督學(xué)習(xí)有發(fā)現(xiàn)學(xué)習(xí)、聚類、競爭學(xué)習(xí)等。無監(jiān)督學(xué)習(xí)通過循環(huán)和遞減運算來減小誤差,達到分類的目的。在無監(jiān)督學(xué)習(xí)中,數(shù)據(jù)是無標簽的。由于大多數(shù)真實世界的數(shù)據(jù)都沒有標簽,因此這樣的算法就特別有用。無監(jiān)督學(xué)習(xí)分為聚類和降維。聚類用于根據(jù)屬性和行為對象進行分組。這與分類不同,因為這些組不是用戶提供的。聚類的一個例子是將一個組劃分成不同的子組(如基于年齡和婚姻狀況),然后應(yīng)用到有針對性的營銷方案中。降維通過找到共同點來減少數(shù)據(jù)集的變量。大多數(shù)的大數(shù)據(jù)可視化使用降維來識別趨勢和規(guī)則。2.2.2無監(jiān)督學(xué)習(xí)2.2基于學(xué)習(xí)方式的分類強化學(xué)習(xí)(ReinforcementLearning,簡稱RL,也稱增強學(xué)習(xí))是一種以環(huán)境反饋——即獎勵或懲罰信號——為指導(dǎo),結(jié)合統(tǒng)計學(xué)與動態(tài)規(guī)劃方法,通過試錯機制實現(xiàn)學(xué)習(xí)的關(guān)鍵技術(shù)。強化學(xué)習(xí)通過智能體與環(huán)境交互試錯,學(xué)習(xí)最優(yōu)策略以最大化累積獎勵;不依賴標簽,重績效。應(yīng)用涵蓋棋類、自動駕駛、推薦與機器人控制。強化學(xué)習(xí)的核心組成如下:(1)環(huán)境(Environment):環(huán)境是智能體外部世界,定義狀態(tài)、動作與獎勵。根據(jù)動作返回新狀態(tài)與獎勵,形成交互閉環(huán);可為現(xiàn)實場景或仿真平臺。(2)智能體(Agent):執(zhí)行決策與學(xué)習(xí)的主體,目標最大化長期回報。基于狀態(tài)按策略選動作,并依獎勵信號持續(xù)更新策略以優(yōu)化表現(xiàn)。(3)狀態(tài)(State):刻畫環(huán)境某時刻信息,供智能體決策。形式可為數(shù)值向量或多模態(tài)數(shù)據(jù),如棋局布局、視頻幀與多傳感器讀數(shù)。(4)動作(Action):智能體在給定狀態(tài)的決策輸出,直接作用環(huán)境演化??蔀殡x散選擇或連續(xù)控制,如移動方向、速度與轉(zhuǎn)向角。(5)獎勵(Reward):環(huán)境對行為的反饋度量優(yōu)劣。正獎勵強化期望行為,負獎勵懲罰錯誤;獎勵設(shè)計決定學(xué)習(xí)動力與策略優(yōu)化方向。(6)策略(Policy):定義狀態(tài)到動作的映射或概率分布,可確定性或隨機性。策略為算法核心,主導(dǎo)決策效率與整體性能。2.2.3強化學(xué)習(xí)2.2基于學(xué)習(xí)方式的分類1.基于學(xué)習(xí)策略的分類基于學(xué)習(xí)策略,機器學(xué)習(xí)分為模擬人腦的和直接采用數(shù)學(xué)方法的。(1)模擬人腦的機器學(xué)習(xí)符號學(xué)習(xí)基于認知心理學(xué),以符號為輸入、推理搜索圖或狀態(tài)空間,目標為概念與規(guī)則,含記憶、示例、演繹、類比、解釋等。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)以腦科學(xué)為基礎(chǔ),數(shù)值輸入與迭代優(yōu)化權(quán)值和拓撲。(2)直接采用數(shù)學(xué)方法的機器學(xué)習(xí)以統(tǒng)計機器學(xué)習(xí)為主,基于數(shù)據(jù)與目標選擇模型與超參數(shù),輸入樣本并按策略訓(xùn)練,利用合適算法優(yōu)化,最終用訓(xùn)練后模型進行分析與預(yù)測。統(tǒng)計機器學(xué)習(xí)有3個要素:①
模型:在未進行訓(xùn)練前,其可能的參數(shù)有多個甚至無窮多個,故可能的模型也有多個甚至無窮多個,這些模型構(gòu)成的集合就是假設(shè)空間。②
策略:即從假設(shè)空間中挑選出參數(shù)最優(yōu)的模型的準則。模型的分類或預(yù)測結(jié)果與實際情況的誤差(損失函數(shù))越小,模型就越好。那么策略就是誤差最小。③
算法:即從假設(shè)空間中挑選模型的方法(等同于求解最佳的模型參數(shù))。機器學(xué)習(xí)的參數(shù)求解通常都會轉(zhuǎn)化為最優(yōu)化問題,故學(xué)習(xí)算法通常是最優(yōu)化算法,如最速梯度下降法、牛頓法以及擬牛頓法等。2.2.4機器學(xué)習(xí)的其他分類2.2基于學(xué)習(xí)方式的分類2.基于學(xué)習(xí)方法的分類基于學(xué)習(xí)方法,機器學(xué)習(xí)有歸納、演繹、類比和分析等類別。(1)歸納學(xué)習(xí)。符號歸納學(xué)習(xí):典型的有示例學(xué)習(xí)、決策樹學(xué)習(xí)。函數(shù)歸納學(xué)習(xí)(發(fā)現(xiàn)學(xué)習(xí)):典型的有神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)、示例學(xué)習(xí)、發(fā)現(xiàn)學(xué)習(xí)、統(tǒng)計學(xué)習(xí)。(2)演繹學(xué)習(xí)。(3)類比學(xué)習(xí):典型的有案例(范例)學(xué)習(xí)。(4)分析學(xué)習(xí):典型的有解釋學(xué)習(xí)、宏操作學(xué)習(xí)。3.基于數(shù)據(jù)形式的分類基于數(shù)據(jù)形式,機器學(xué)習(xí)分為結(jié)構(gòu)化方法和非結(jié)構(gòu)化方法。(1)結(jié)構(gòu)化學(xué)習(xí):以結(jié)構(gòu)化數(shù)據(jù)為輸入,以數(shù)值計算或符號推演為方法。典型的有神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)、統(tǒng)計學(xué)習(xí)、決策樹學(xué)習(xí)、規(guī)則學(xué)習(xí)。(2)非結(jié)構(gòu)化學(xué)習(xí):以非結(jié)構(gòu)化數(shù)據(jù)為輸入,典型的有類比學(xué)習(xí)、案例學(xué)習(xí)、解釋學(xué)習(xí)、文本挖掘、圖像挖掘、Web挖掘等2.2基于學(xué)習(xí)方式的分類4.基于學(xué)習(xí)目標的分類基于學(xué)習(xí)目標,機器學(xué)習(xí)分為概念、規(guī)則、函數(shù)、類別、貝葉斯網(wǎng)絡(luò)等方法。(1)概念學(xué)習(xí):學(xué)習(xí)目標和結(jié)果為概念,或者說是獲得概念的學(xué)習(xí)。典型的有示例學(xué)習(xí)。(2)規(guī)則學(xué)習(xí):學(xué)習(xí)目標和結(jié)果為規(guī)則,或者說是獲得規(guī)則的學(xué)習(xí)。典型的有決策樹學(xué)習(xí)。(3)函數(shù)學(xué)習(xí):學(xué)習(xí)的目標和結(jié)果為函數(shù),或者說是獲得函數(shù)的學(xué)習(xí)。典型的有神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。(4)類別學(xué)習(xí):學(xué)習(xí)目標和結(jié)果為對象類,或者說是獲得類別的學(xué)習(xí)。典型的有聚類分析。(5)貝葉斯網(wǎng)絡(luò)學(xué)習(xí):學(xué)習(xí)目標和結(jié)果是貝葉斯網(wǎng)絡(luò),或者說是獲得貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)。其又可分為結(jié)構(gòu)學(xué)習(xí)和多數(shù)學(xué)習(xí)。本章目錄2.1機器學(xué)習(xí)概述12.2基于學(xué)習(xí)方式的分類2.5機器學(xué)習(xí)的應(yīng)用2.4機器學(xué)習(xí)的算法2.3機器學(xué)習(xí)的基本結(jié)構(gòu)2.3機器學(xué)習(xí)的基本結(jié)構(gòu)機器學(xué)習(xí)的基本流程包括數(shù)據(jù)預(yù)處理、模型學(xué)習(xí)、模型評估及新樣本預(yù)測。環(huán)境提供高質(zhì)量信息以減輕學(xué)習(xí)負擔(dān);學(xué)習(xí)部分更新知識庫,重表示與可推理可擴展;執(zhí)行部分重復(fù)雜性、反饋與透明性;整體實現(xiàn)對現(xiàn)有知識的擴展改進。機器學(xué)習(xí)與人腦思考過程的對比如圖2-4所示。圖2-4機器學(xué)習(xí)與人腦思考過程的對比2.3機器學(xué)習(xí)的基本結(jié)構(gòu)信息質(zhì)量決定學(xué)習(xí)系統(tǒng)設(shè)計難度。若環(huán)境數(shù)據(jù)質(zhì)量高且與知識庫原則差異小,學(xué)習(xí)部分易于處理、對齊與吸收,快速更新知識庫,提高執(zhí)行效率與穩(wěn)定性,降低訓(xùn)練與維護成本。面向雜亂無序數(shù)據(jù),系統(tǒng)需充分采集后篩除冗余細節(jié),歸納總結(jié)并抽象一般原則,再寫入知識庫。此過程任務(wù)繁重,設(shè)計復(fù)雜度高,需可靠特征工程與穩(wěn)健算法支撐。2.3.1環(huán)境2.3機器學(xué)習(xí)的基本結(jié)構(gòu)知識庫是影響學(xué)習(xí)系統(tǒng)設(shè)計的第二個關(guān)鍵因素。在選擇合適的表示方式時,設(shè)計者需要兼顧以下四個方面:(1)表達能力強:選用的表示方式應(yīng)能夠充分表達復(fù)雜的知識和關(guān)系,使系統(tǒng)能夠捕捉到細微差別,滿足具體任務(wù)的需求。(2)易于推理:表示方式應(yīng)支持高效的推理過程,讓系統(tǒng)能夠快速得出結(jié)論或推導(dǎo)出新的知識,以應(yīng)對環(huán)境的變化和任務(wù)的要求。(3)容易修改知識庫:知識表示應(yīng)便于更新和修改,以適應(yīng)新的信息或變化的需求。這一特性使得系統(tǒng)能夠不斷演化,融入新知識,保持其相關(guān)性和有效性。(4)知識表示易于擴展:隨著應(yīng)用的擴展,知識表示方法應(yīng)該能夠無縫整合新的知識模塊,支持系統(tǒng)的靈活擴展,以適應(yīng)日益復(fù)雜的場景和需求。2.3.2知識庫2.3機器學(xué)習(xí)的基本結(jié)構(gòu)執(zhí)行部分是整個學(xué)習(xí)系統(tǒng)的核心,因為它的操作直接體現(xiàn)了學(xué)習(xí)部分所力求改進的效果。執(zhí)行部分負責(zé)將學(xué)習(xí)到的知識應(yīng)用于實際任務(wù),從而實現(xiàn)目標和解決問題。在設(shè)計學(xué)習(xí)系統(tǒng)時,需要關(guān)注與執(zhí)行部分相關(guān)的三個關(guān)鍵問題:復(fù)雜性、反饋和透明性。(1)復(fù)雜性:執(zhí)行部分需在策略復(fù)雜度與可操作性間權(quán)衡。過復(fù)雜影響實時性與效率;設(shè)計應(yīng)支持復(fù)雜操作又保持簡潔,便于實施與維護。(2)反饋:建立強反饋機制,評估執(zhí)行效果,及時準確回傳數(shù)據(jù),助策略調(diào)整與知識庫優(yōu)化,提升學(xué)習(xí)能力與對新情境適應(yīng)性。(3)透明性:提升執(zhí)行過程可解釋與可理解性,尤其在敏感任務(wù)中。透明化增強信任,便于用戶理解決策依據(jù)并參與系統(tǒng)優(yōu)化2.3.3執(zhí)行部分2.4機器學(xué)習(xí)的算法學(xué)習(xí)是一項復(fù)雜的智能活動,其中學(xué)習(xí)過程與推理過程密切相關(guān)。學(xué)習(xí)中使用的推理越多,系統(tǒng)的能力就越強。要全面理解大多數(shù)機器學(xué)習(xí)算法,基本掌握一些關(guān)鍵的數(shù)學(xué)概念是非常重要的,這些概念包括:(1)線性代數(shù)線性代數(shù)是機器學(xué)習(xí)的重要基礎(chǔ),涉及的概念包括:矩陣運算:用于描述和操作數(shù)據(jù)集的基本形式。特征值與特征向量:在降維和數(shù)據(jù)分析中起著關(guān)鍵作用。向量空間:為理解數(shù)據(jù)之間的關(guān)系提供結(jié)構(gòu)。范數(shù):用于測量向量的長度或大小,是優(yōu)化算法中的一個重要工具。2.4機器學(xué)習(xí)的算法(2)微積分微積分提供了處理變化和優(yōu)化的工具,主要概念包括:偏導(dǎo)數(shù):用于描述多變量函數(shù)的變化率,特別是在優(yōu)化目標函數(shù)時。向量值函數(shù):將多個輸入映射到多個輸出,廣泛應(yīng)用于深度學(xué)習(xí)和多變量優(yōu)化中。方向梯度:描述函數(shù)在某個方向上的變化率,對梯度下降算法等優(yōu)化方法至關(guān)重要。(3)概率論與統(tǒng)計學(xué)這兩者為處理不確定性和數(shù)據(jù)分析提供了理論基礎(chǔ),包括:貝葉斯定理:用于更新概率信息和進行推斷,廣泛應(yīng)用于分類和預(yù)測模型中。組合學(xué):用于處理離散結(jié)構(gòu)和確定可能的組合,幫助理解算法的復(fù)雜性。抽樣方法:用于從總數(shù)據(jù)集中提取樣本,支持推斷與模型評估。掌握這些數(shù)學(xué)概念將為更深入的機器學(xué)習(xí)研究和應(yīng)用奠定堅實的基礎(chǔ)。2.3機器學(xué)習(xí)的基本結(jié)構(gòu)信息質(zhì)量決定學(xué)習(xí)系統(tǒng)設(shè)計難度。若環(huán)境數(shù)據(jù)質(zhì)量高且與知識庫原則差異小,學(xué)習(xí)部分易于處理、對齊與吸收,快速更新知識庫,提高執(zhí)行效率與穩(wěn)定性,降低訓(xùn)練與維護成本。面向雜亂無序數(shù)據(jù),系統(tǒng)需充分采集后篩除冗余細節(jié),歸納總結(jié)并抽象一般原則,再寫入知識庫。此過程任務(wù)繁重,設(shè)計復(fù)雜度高,需可靠特征工程與穩(wěn)健算法支撐。2.3.1環(huán)境2.3機器學(xué)習(xí)的基本結(jié)構(gòu)知識庫是影響學(xué)習(xí)系統(tǒng)設(shè)計的第二個關(guān)鍵因素。在選擇合適的表示方式時,設(shè)計者需要兼顧以下四個方面:(1)表達能力強:選用的表示方式應(yīng)能夠充分表達復(fù)雜的知識和關(guān)系,使系統(tǒng)能夠捕捉到細微差別,滿足具體任務(wù)的需求。(2)易于推理:表示方式應(yīng)支持高效的推理過程,讓系統(tǒng)能夠快速得出結(jié)論或推導(dǎo)出新的知識,以應(yīng)對環(huán)境的變化和任務(wù)的要求。(3)容易修改知識庫:知識表示應(yīng)便于更新和修改,以適應(yīng)新的信息或變化的需求。這一特性使得系統(tǒng)能夠不斷演化,融入新知識,保持其相關(guān)性和有效性。(4)知識表示易于擴展:隨著應(yīng)用的擴展,知識表示方法應(yīng)該能夠無縫整合新的知識模塊,支持系統(tǒng)的靈活擴展,以適應(yīng)日益復(fù)雜的場景和需求。2.3.2知識庫2.3機器學(xué)習(xí)的基本結(jié)構(gòu)執(zhí)行部分是整個學(xué)習(xí)系統(tǒng)的核心,因為它的操作直接體現(xiàn)了學(xué)習(xí)部分所力求改進的效果。執(zhí)行部分負責(zé)將學(xué)習(xí)到的知識應(yīng)用于實際任務(wù),從而實現(xiàn)目標和解決問題。在設(shè)計學(xué)習(xí)系統(tǒng)時,需要關(guān)注與執(zhí)行部分相關(guān)的三個關(guān)鍵問題:復(fù)雜性、反饋和透明性。(1)復(fù)雜性:執(zhí)行部分需在策略復(fù)雜度與可操作性間權(quán)衡。過復(fù)雜影響實時性與效率;設(shè)計應(yīng)支持復(fù)雜操作又保持簡潔,便于實施與維護。(2)反饋:建立強反饋機制,評估執(zhí)行效果,及時準確回傳數(shù)據(jù),助策略調(diào)整與知識庫優(yōu)化,提升學(xué)習(xí)能力與對新情境適應(yīng)性。(3)透明性:提升執(zhí)行過程可解釋與可理解性,尤其在敏感任務(wù)中。透明化增強信任,便于用戶理解決策依據(jù)并參與系統(tǒng)優(yōu)化。2.3.3執(zhí)行部分本章目錄2.1機器學(xué)習(xí)概述12.2基于學(xué)習(xí)方式的分類2.5機器學(xué)習(xí)的應(yīng)用2.4機器學(xué)習(xí)的算法2.3機器學(xué)習(xí)的基本結(jié)構(gòu)2.4機器學(xué)習(xí)的算法2.4.1專注于學(xué)習(xí)能力一個算法應(yīng)該具有以下5個重要特征:(1)有窮性:算法必須能夠在有限的步驟后終止。這意味著算法的執(zhí)行是可控的,不會進入無盡循環(huán),能夠保證在一定時間內(nèi)完成計算任務(wù)。(2)確切性:算法的每一個步驟都必須清晰且準確地定義,以避免產(chǎn)生歧義。這種明確性確保了在執(zhí)行過程中沒有不確定性,使得每一步都容易理解和實現(xiàn)。(3)輸入項:算法可以接受零個或多個輸入,這些輸入用于描述運算對象的初始狀態(tài)。即使沒有輸入,算法本身也應(yīng)提供所需的初始條件,以便進行后續(xù)計算。(4)輸出項:算法應(yīng)至少產(chǎn)生一個輸出,以反映對輸入數(shù)據(jù)處理后的結(jié)果。沒有輸出的算法通常沒有實際意義,因此輸出是評估算法有效性的重要方面。(5)可行性:算法中的每個計算步驟都應(yīng)能夠分解為基本的可執(zhí)行操作。這意味著所有步驟可以在有限時間內(nèi)完成,確保算法的有效性和實際應(yīng)用的可行性。2.4機器學(xué)習(xí)的算法算法的要素主要如下:(1)數(shù)據(jù)對象的運算和操作:計算機可以執(zhí)行的基本操作是通過指令形式描述的。這些指令組成了計算機系統(tǒng)的指令集,定義了系統(tǒng)能夠執(zhí)行的所有操作?;镜倪\算和操作通??梢苑譃橐韵滤念悾孩偎阈g(shù)運算:包括加法、減法、乘法和除法等基本數(shù)學(xué)運算,用于數(shù)值計算和數(shù)據(jù)處理。②邏輯運算:包括與(AND)、或(OR)和非(NOT)運算,這些運算用于處理布爾邏輯,常用于條件判斷和控制流。③關(guān)系運算:包括大于、小于、等于和不等于等比較運算,用于評估數(shù)據(jù)之間的關(guān)系,通常用于條件語句和決策過程。④數(shù)據(jù)傳輸:包括輸入、輸出和賦值運算,負責(zé)在計算機和外部環(huán)境之間傳遞數(shù)據(jù),以及在不同數(shù)據(jù)存儲之間轉(zhuǎn)移和分配數(shù)據(jù)。(2)算法的控制結(jié)構(gòu):算法功能受操作選擇與執(zhí)行順序共同影響??刂平Y(jié)構(gòu)統(tǒng)籌順序、分支與循環(huán),保障邏輯流達成目標。合理設(shè)計可提升效率與可讀性,使復(fù)雜問題求解更系統(tǒng)規(guī)范。2.4機器學(xué)習(xí)的算法2.算法的評定同一問題可以用不同的算法來解決,而算法的質(zhì)量將直接影響程序的效率。因此,算法分析的主要目標在于選擇合適的算法并對其進行改進。算法評價主要考慮時間復(fù)雜度和空間復(fù)雜度:(1)時間復(fù)雜度:度量計算工作量與效率,隨規(guī)模增大而上升,運行時間顯著受輸入大小影響,常用漸近表示。(2)空間復(fù)雜度:度量內(nèi)存占用,分析類似時間復(fù)雜度,采用漸近表示;相對更易評估內(nèi)存使用。(3)正確性:最關(guān)鍵標準,要求對全部輸入產(chǎn)生預(yù)期輸出,經(jīng)數(shù)學(xué)證明或測試驗證,決定可靠性。(4)可讀性:衡量易讀與理解。高可讀性具清晰結(jié)構(gòu)與注釋,便于他人理解,降低維護成本。(5)健壯性:即容錯性。能妥善處理異常或不合理輸入,避免崩潰與錯誤結(jié)果,提升穩(wěn)定性與體驗。2.4機器學(xué)習(xí)的算法回歸分析是一種用于建模和分析數(shù)據(jù)的預(yù)測性技術(shù)工具,旨在研究因變量(目標變量)與自變量(預(yù)測變量)之間的關(guān)系。它通常應(yīng)用于預(yù)測分析、時間序列模型以及變量之間因果關(guān)系的發(fā)現(xiàn)。回歸分析的曲線擬合過程如圖2-5所示。2.4.2回歸算法圖2-5回歸分析的曲線擬合過程2.4機器學(xué)習(xí)的算法例如,司機的魯莽駕駛與道路交通事故數(shù)量之間的關(guān)系可以通過回歸分析來研究,這是一種重要的數(shù)據(jù)建模和分析工具?;貧w分析主要包括七種常用技術(shù):線性回歸、邏輯回歸、多項式回歸、逐步回歸、嶺回歸、套索回歸和彈性網(wǎng)絡(luò)回歸。回歸分析的好處有很多,主要包括:(1)它能夠揭示自變量與因變量之間是否存在顯著關(guān)系,同時量化這種關(guān)系的強度。(2)它可以有效地表明多個自變量對單一因變量的影響程度,幫助理解各變量之間的相互作用。2.4機器學(xué)習(xí)的算法最著名的基于實例的算法是k-最近鄰(K-NearestNeighbor,KNN)算法,它是機器學(xué)習(xí)中最基礎(chǔ)和簡單的算法之一,既能用于分類,也能用于回歸。KNN的工作原理如下:(1)數(shù)據(jù)存儲:在訓(xùn)練階段,KNN算法會將所有的訓(xùn)練數(shù)據(jù)存儲在內(nèi)存中。這個過程本質(zhì)上是“記憶”,并不進行復(fù)雜的學(xué)習(xí)。(2)距離度量:當接收到一個新的數(shù)據(jù)點時,KNN算法會計算該數(shù)據(jù)點與所有訓(xùn)練數(shù)據(jù)點之間的距離。常用的距離度量方法包括歐幾里得距離、曼哈頓距離和閔可夫斯基距離。選擇不同的距離度量會影響分類結(jié)果。(3)查找最近鄰:算法會根據(jù)計算出的距離,選擇距離新數(shù)據(jù)點最近的k個訓(xùn)練樣本?!発”的選擇通常是一個超參數(shù),可以通過交叉驗證等方法進行調(diào)優(yōu)。(4)分類或回歸:在分類任務(wù)中,KNN算法會對這k個鄰居進行投票,選擇出現(xiàn)頻率最高的類別作為新數(shù)據(jù)點的預(yù)測類別;在回歸任務(wù)中,則會求取這k個鄰居的平均值作為預(yù)測結(jié)果。KNN算法的一個顯著優(yōu)點是其簡單性和易于解釋性,適合于處理小型到中型數(shù)據(jù)集。對于不均勻分布的特征向量,KNN也能有效地進行分類。它能夠自適應(yīng)數(shù)據(jù)的變化,處理具有復(fù)雜邊界的多類分類問題。2.4.3基于實例的算法2.4機器學(xué)習(xí)的算法決策樹以樹狀組織“弱”學(xué)習(xí)器,將輸入空間劃分為區(qū)域,葉節(jié)點對應(yīng)類別。自根遞歸分割樣本至純,沿根至葉路徑即分類規(guī)則。結(jié)構(gòu)簡單,訓(xùn)練與預(yù)測高效。1.工作原理決策樹的工作原理可以概括為以下幾個步驟:(1)模型構(gòu)建:自根遞歸分裂特征節(jié)點,按分支劃分樣本,直至子集同類成葉。(2)特征選擇:用信息增益、增益比、基尼評估區(qū)分力,選最佳特征分裂。(3)遞歸分裂:每層擇優(yōu)分裂并生成子節(jié)點,至達深度/樣本/增益等停止條件。(4)預(yù)測過程:自根按特征路徑下行,至葉節(jié)點,輸出對應(yīng)類標簽或回歸值。2.4.4決策樹算法2.4機器學(xué)習(xí)的算法2.應(yīng)用場景決策樹被廣泛應(yīng)用于各個領(lǐng)域,包括:(1)金融領(lǐng)域:信用評分、風(fēng)險評估等。(2)醫(yī)療領(lǐng)域:疾病診斷、治療方案推薦等。(3)市場營銷:客戶細分、產(chǎn)品推薦等。(4)計算機視覺:圖像識別與處理等。決策樹算法通過其簡單有效的結(jié)構(gòu)和直觀的可解釋性,使得在多種實際應(yīng)用中展現(xiàn)了良好的表現(xiàn)。通過結(jié)合集成方法(如隨機森林和提升決策樹)能顯著提高其性能,克服單一決策樹的不足。決策樹算法如圖2-6所示。圖2-6決策樹算法2.4機器學(xué)習(xí)的算法單一特征難以識別動物,組合多特征可提升預(yù)測。隨機森林以隨機特征構(gòu)建多樹并集成,抗噪與過擬合更強。匯總各樹預(yù)測評估訓(xùn)練與測試誤差,衡量擬合與精度,優(yōu)勢顯著。(1)高精度分類器:隨機森林算法通過集成多個決策樹的預(yù)測結(jié)果,通常能夠生成高精度的分類器,有效提高了分類的準確性。(2)處理大量變量:該算法能夠處理大量的變量和復(fù)雜的數(shù)據(jù)集,能夠很好地應(yīng)對高維數(shù)據(jù),適用于多種實際應(yīng)用中的特征選擇。(3)平衡分類誤差:隨機森林具有自然的防過擬合能力,并且能夠在不同類別的分類資料集之間平衡誤差,從而減少模型對噪聲數(shù)據(jù)的敏感性,提升對未知數(shù)據(jù)的泛化能力。(4)內(nèi)置特征重要性評估:隨機森林可以通過計算特征的影響力,自動評估每個特征的重要性,為后續(xù)的特征選擇或降維提供依據(jù)。隨機森林算法通過集成多個決策樹的力量,不僅提高了模型的穩(wěn)定性和準確性,還有效解決了個別樹模型容易過擬合的問題,成為了一種廣泛應(yīng)用于分類和回歸問題的強大工具。2.4機器學(xué)習(xí)的算法2.4.5樸素貝葉斯算法樸素貝葉斯算法是一種基于貝葉斯定理的簡單而高效的分類算法,常用于文本分析、垃圾郵件過濾和情感分析等領(lǐng)域。它由一系列算法組成,這些算法共享一個共同的原則:在分類時,被分類的每個特征都與其他特征的值獨立。2.4機器學(xué)習(xí)的算法1.工作原理樸素貝葉斯算法主要基于貝葉斯定理,其公式如下:2.4機器學(xué)習(xí)的算法使用樸素貝葉斯算法時,模型主要經(jīng)歷以下幾個步驟:(1)特征概率計算:首先計算每個特征在每個類別下的條件概率。這通常是通過統(tǒng)計數(shù)據(jù)集中的特征頻率或使用拉普拉斯平滑等方法來完成。(2)先驗概率估計:然后,需要計算每個類別的先驗概率,這可以通過類別的頻率來獲取。(3)分類:在進行分類時,根據(jù)貝葉斯定理來計算待分類樣本的后驗概率,選擇具有最高后驗概率的類別作為預(yù)測結(jié)果。2.4機器學(xué)習(xí)的算法2.應(yīng)用實例樸素貝葉斯算法在很多實際應(yīng)用中都非常流行,例如:(1)垃圾郵件過濾:許多垃圾郵件過濾器使用樸素貝葉斯算法來分析和分類電子郵件。使用用戶輸入的類標記數(shù)據(jù)(如“垃圾郵件”或“正常郵件”)進行訓(xùn)練后,算法能夠?qū)π锣]件進行適當分類。(2)文本情感分析:在社交媒體和用戶評論中,樸素貝葉斯被廣泛用于情感分析,以判斷文本的情感傾向(如正面、負面或中立)。(3)推薦系統(tǒng):在個性化推薦中,樸素貝葉斯也可以用于分析用戶行為數(shù)據(jù),輔助建立用戶偏好模型。2.4機器學(xué)習(xí)的算法聚類算法是一類用于發(fā)現(xiàn)數(shù)據(jù)集中的元素之間的共性并將其進行分組的無監(jiān)督學(xué)習(xí)技術(shù)。通過對數(shù)據(jù)的聚類分析,我們可以識別出自然形成的類別或群體,從而幫助理解數(shù)據(jù)結(jié)構(gòu)。聚類算法廣泛應(yīng)用于市場細分、社交網(wǎng)絡(luò)分析、圖像處理等多種領(lǐng)域。其中最常用的聚類算法之一是均值聚類算法。這是一種基于劃分的聚類方法,其工作過程可以描述如下:1.工作原理(1)選擇簇數(shù):首先,分析人員需要預(yù)先指定簇的數(shù)量。這個參數(shù)對于最終的聚類結(jié)果有重要影響,因此通常需要通過實驗或交叉驗證來選擇一個合適的值。(2)初始化:隨機選擇個數(shù)據(jù)點作為初始簇中心(或質(zhì)心)。(3)分配步驟:對于每個數(shù)據(jù)點,計算它與每個簇中心的距離,通常采用歐幾里得距離。將每個數(shù)據(jù)點分配給距離其最近的簇中心,從而完成初始分組。(4)更新步驟:根據(jù)當前成員的數(shù)據(jù)點位置,重新計算每個簇的中心位置。具體來說,對于每個簇,從其成員點的平均值計算新的簇中心。(5)迭代:重復(fù)進行分配步驟和更新步驟,直到簇中心位置不再發(fā)生顯著變化或者達到設(shè)定的迭代次數(shù)。這時,聚類過程被視作收斂。2.4.6聚類算法
2.4機器學(xué)習(xí)的算法2.應(yīng)用場景k均值聚類算法具有廣泛的應(yīng)用,主要包括:市場細分:通過對客戶數(shù)據(jù)進行聚類,企業(yè)可以識別出不同顧客群體,制定個性化的市場營銷策略。圖像壓縮:在圖像處理中,均值可以用來識別顏色群體,從而壓縮圖像數(shù)據(jù)。社會網(wǎng)絡(luò)分析:在社交網(wǎng)絡(luò)中,通過聚類用戶行為,可以識別出特定類型的用戶群體,進行深入的網(wǎng)絡(luò)分析。異構(gòu)數(shù)據(jù)分析:在生物信息學(xué)中,均值用于分析基因表達數(shù)據(jù),尋找相似的基因組或樣本。聚類算法,特別是均值聚類算法,提供了一種有效的方式來理解和組織復(fù)雜的數(shù)據(jù)集。2.4機器學(xué)習(xí)的算法支持向量機(SupportVectorMachine,SVM)是一種在統(tǒng)計學(xué)習(xí)理論中的強大算法,廣泛用于分類和回歸分析。它與傳統(tǒng)學(xué)習(xí)方法的思維方式有很大不同,主要體現(xiàn)在通過映射輸入空間到高維特征空間來簡化問題,使得原本非線性可分的問題在高維空間中變得線性可分。2.4.7支持向量機算法2.4機器學(xué)習(xí)的算法1.工作原理支持向量機的基本思想可以概括為以下幾個步驟:(1)空間變換:通過一種非線性變換,將輸入數(shù)據(jù)從原始空間映射到一個高維特征空間。這種變換的目的是尋找一個更有效的分隔超平面。常用的映射方法包括多項式核、徑向基函數(shù)(RBF)核等。(2)尋找最優(yōu)超平面:在高維空間中,支持向量機通過找到一個最優(yōu)的分隔超平面來進行分類。這個超平面最大化了不同類別樣本點的間隔(margin)。具體而言,支持向量機的目標是解決以下優(yōu)化問題:最大化邊界(margin):找到一個超平面,使得到最近的正負樣本的距離最大。確定支持向量:位于邊界附近的樣本點(支持向量)是確定分類決策的關(guān)鍵。超平面的方程通??梢员硎緸椋海?)分類決策:一旦劃分了樣本空間,支持向量機就可以通過超平面進行分類。當新的樣本數(shù)據(jù)出現(xiàn)時,支持向量機判斷該樣本屬于哪個類別,依據(jù)于其到超平面的距離。(4)處理軟間隔:數(shù)據(jù)含噪或不可線性可分時,SVM引入軟間隔,允許少量樣本越界。通過軟間隔優(yōu)化,提高訓(xùn)練誤差容忍度,增強模型泛化。2.4機器學(xué)習(xí)的算法2.應(yīng)用實例支持向量機被廣泛應(yīng)用于多個領(lǐng)域,主要包括:垃圾郵件識別:通過分析特征(如郵件內(nèi)容、發(fā)件人等),支持向量機可以高效地將郵件分類為垃圾郵件或正常郵件。人臉識別:在計算機視覺領(lǐng)域,支持向量機可以用于對人臉數(shù)據(jù)進行分類,以實現(xiàn)身份驗證和識別。文本分類:在文本分析中,支持向量機常用于垃圾郵件過濾、情感分析和文檔分類等任務(wù)。生物信息學(xué):在基因分類和疾病預(yù)測等領(lǐng)域,支持向量機同樣展現(xiàn)了良好的性能。2.4.6支持向量機算法2.4機器學(xué)習(xí)的算法人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)是受人類神經(jīng)系統(tǒng)啟發(fā)而設(shè)計的計算模型,其結(jié)構(gòu)與人類神經(jīng)元所組成的復(fù)雜網(wǎng)絡(luò)大體相似。網(wǎng)絡(luò)由多個個體單元(即神經(jīng)元)相互連接而成,每個單元都有數(shù)值型的輸入和輸出,可以是實數(shù)或線性組合的函數(shù)。神經(jīng)網(wǎng)絡(luò)算法的示意圖如圖2-7所示。2.4.8神經(jīng)網(wǎng)絡(luò)算法圖2-7神經(jīng)網(wǎng)絡(luò)算法2.4機器學(xué)習(xí)的算法1.工作原理神經(jīng)網(wǎng)絡(luò)先設(shè)定學(xué)習(xí)準則,通過訓(xùn)練獲參。判斷出錯時,算法調(diào)整權(quán)重,降低未來同類錯誤概率。這一過程通常涉及以下幾個步驟:前向傳播:數(shù)據(jù)通過輸入層傳遞到隱藏層,最終到達輸出層進行預(yù)測。在這個過程中,每個連接擁有一個權(quán)重值,用于調(diào)整輸入信號的貢獻。計算誤差:通過比較預(yù)測輸出與實際目標的差異,計算出網(wǎng)絡(luò)的誤差。反向傳播:利用誤差進行反向傳播,調(diào)整連接的權(quán)重,以期在下一次迭代中提高準確性。這一過程通常使用優(yōu)化算法,例如梯度下降法來更新權(quán)重。2.4機器學(xué)習(xí)的算法2.應(yīng)用場景人工神經(jīng)網(wǎng)絡(luò)在多種領(lǐng)域和應(yīng)用中展現(xiàn)了強大的能力,包括但不限于:(1)圖像識別:在計算機視覺領(lǐng)域,神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于物體識別、圖像分類和人臉識別等任務(wù)。(2)自然語言處理:在文本處理和生成中,神經(jīng)網(wǎng)絡(luò)用于情感分析、語言翻譯和對話系統(tǒng)等。(3)醫(yī)學(xué)診斷:神經(jīng)網(wǎng)絡(luò)在醫(yī)療領(lǐng)域可以輔助醫(yī)生進行疾病診斷,如癌癥預(yù)測和影像診斷。(4)金融預(yù)測:在金融市場中,神經(jīng)網(wǎng)絡(luò)用于股票價格預(yù)測、風(fēng)險評估和交易策略優(yōu)化。2.4機器學(xué)習(xí)的算法Boosting和Bagging是兩種有效的集成學(xué)習(xí)方法,旨在提高模型的預(yù)測準確性,雖然它們的實現(xiàn)方式和核心思想存在一些差異。1.工作原理(1)BoostingBoosting是一種通用的增強基礎(chǔ)算法性能的回歸分析方法,其主要目標是將多個弱學(xué)習(xí)算法組合成一個強學(xué)習(xí)算法。初始訓(xùn)練:首先訓(xùn)練一個基礎(chǔ)學(xué)習(xí)器(例如決策樹)。該學(xué)習(xí)器的性能可能并不理想,但它將作為后續(xù)學(xué)習(xí)器的基準。調(diào)整權(quán)重:對訓(xùn)練樣本進行加權(quán),給予分類錯誤樣本更高的權(quán)重。這樣,后續(xù)的學(xué)習(xí)器將更加關(guān)注之前錯誤分類的數(shù)據(jù)點。迭代訓(xùn)練:重復(fù)步驟1和2多次,每次訓(xùn)練新的學(xué)習(xí)器,并將其與之前學(xué)習(xí)器的預(yù)測結(jié)果進行加權(quán)組合,形成最終模型。這種組合通常通過加權(quán)平均或投票的方式實現(xiàn)。最終模型:通過逐步改進和組合多個學(xué)習(xí)器,Boosting最終生成一個強大的預(yù)測模型,能夠有效減少模型的偏差。Boosting常用的算法包括AdaBoost、GradientBoosting和XGBoost等。2.4.9Boosting與Bagging算法2.4機器學(xué)習(xí)的算法(2)BaggingBagging(裝袋)方法與Boosting有相似之處,但其核心思想和步驟有所不同。Bagging的主要目標是通過增加學(xué)習(xí)器的多樣性來減少模型的方差,從而提高總體預(yù)測的穩(wěn)定性和準確性。生成多樣本:從原始訓(xùn)練集中隨機抽取多個子集(通常采用自助采樣,即有放回抽樣),每個子集用于訓(xùn)練一個獨立的學(xué)習(xí)器。獨立訓(xùn)練:在每個隨機抽取的子集上獨立訓(xùn)練基礎(chǔ)學(xué)習(xí)器。這些學(xué)習(xí)器可以是相同的模型(如決策樹),也可以是不同的模型。投票機制:在完成所有基礎(chǔ)學(xué)習(xí)器的訓(xùn)練后,針對新樣本的預(yù)測結(jié)果通常采用投票(分類問題)或平均(回歸問題)的方法進行綜合,最終輸出結(jié)果。Bagging最常用的算法是RandomForest,它結(jié)合了多棵決策樹的結(jié)果,從而提高預(yù)測的準確性和可靠性。2.4機器學(xué)習(xí)的算法2.主要區(qū)別(1)模型組合方式Boosting通過加權(quán)組合多個學(xué)習(xí)器,其中后續(xù)學(xué)習(xí)器會關(guān)注前面的錯誤程度。因此,Boosting通常能夠提供更高的準確性,但可能容易過擬合。Bagging則通過隨機樣本的方式訓(xùn)練多個獨立的學(xué)習(xí)器,結(jié)果通過簡單的投票或平均來構(gòu)建,能顯著減少模型的方差。(2)學(xué)習(xí)器的關(guān)系在Boosting中,學(xué)習(xí)器是依賴的,后一個學(xué)習(xí)器會基于前一個學(xué)習(xí)器的表現(xiàn)進行改進。在Bagging中,學(xué)習(xí)器之間是獨立的,不會相互影響。Boosting和Bagging都是強大的集成學(xué)習(xí)方法,能夠提升基礎(chǔ)模型的性能。Boosting更加側(cè)重于逐步修正錯誤,而Bagging則通過引入多樣性來增強模型的穩(wěn)定性。根據(jù)具體任務(wù)的需求和數(shù)據(jù)的特性,選擇合適的集成方法可以顯著提高模型的預(yù)測能力。2.4機器學(xué)習(xí)的算法關(guān)聯(lián)規(guī)則算法是一種用于描述兩個或多個變量之間關(guān)系的技術(shù),能夠客觀反映數(shù)據(jù)本身的性質(zhì)。1.工作原理關(guān)聯(lián)規(guī)則算法的工作流程通常分為兩個階段:(1)查找頻繁項集:在第一個階段,算法從數(shù)據(jù)集中識別出頻繁項集,即在數(shù)據(jù)中出現(xiàn)頻率超過預(yù)設(shè)閾值的項目組合。這個過程通常使用諸如Apriori或FP-Growth等算法。Apriori算法:基于“頻繁項集的所有非空子集也是頻繁的”這一原則,逐步生成頻繁項集,節(jié)省計算量。FP-Growth算法:通過構(gòu)建一種稱為頻繁模式樹(FP-tree)的高效數(shù)據(jù)結(jié)構(gòu),直接從樹中提取頻繁項集,避免了生成候選項集的開銷。(2)生成關(guān)聯(lián)規(guī)則:在找到頻繁項集后,第二個階段是從這些頻繁項集中生成關(guān)聯(lián)規(guī)則。規(guī)則的形式通常為A→B,表示在滿足條件A的情況下,B也可能發(fā)生。關(guān)聯(lián)規(guī)則的強度通常通過以下幾個指標評估:支持度(Support):規(guī)則在數(shù)據(jù)集中出現(xiàn)的頻率,表示為規(guī)則包含的項集在所有交易中所占的比例。置信度(Confidence):表示在發(fā)生A的情況下,B發(fā)生的概率。它反映了規(guī)則的可靠性。提升度(Lift):評估規(guī)則的有效性,表示條件A發(fā)生時,結(jié)果B發(fā)生的概率與未考慮A時B的概率的比值。2.4.10關(guān)聯(lián)規(guī)則算法2.4機器學(xué)習(xí)的算法2.應(yīng)用場景關(guān)聯(lián)規(guī)則算法廣泛應(yīng)用于多個領(lǐng)域,主要包括:(1)市場籃子分析:通過分析客戶購買數(shù)據(jù),識別哪些商品常常一起購買,以便進行促銷、捆綁銷售等活動。(2)推薦系統(tǒng):通過用戶過去的購買行為,為用戶推薦其他潛在感興趣的商品或服務(wù)。(3)欺詐檢測:在金融交易中,識別潛在的欺詐模式,以提高交易安全性。(4)醫(yī)療分析:通過分析患者的病歷數(shù)據(jù),發(fā)現(xiàn)不同癥狀和疾病之間的關(guān)聯(lián)關(guān)系,從而助力臨床決策。關(guān)聯(lián)規(guī)則算法通過識別變量之間的關(guān)系和模式,為用戶提供了深入理解數(shù)據(jù)的手段。其查找頻繁項集和生成關(guān)聯(lián)規(guī)則的兩個階段,幫助我們提取出關(guān)鍵的商業(yè)洞察,為決策提供數(shù)據(jù)支持。在大數(shù)據(jù)和數(shù)據(jù)挖掘日益重要的今天,關(guān)聯(lián)規(guī)則學(xué)習(xí)在各類應(yīng)用中的價值愈加顯著。本章目錄2.1機器學(xué)習(xí)概述12.2基于學(xué)習(xí)方式的分類2.5機器學(xué)習(xí)的應(yīng)用2.4機器學(xué)習(xí)的算法2.3機器學(xué)習(xí)的基本結(jié)構(gòu)2.5機器學(xué)習(xí)的應(yīng)用機器學(xué)習(xí)的目的是從用戶和輸入數(shù)據(jù)中獲取知識,不斷優(yōu)化已有知識結(jié)構(gòu),提升性能,減少錯誤,解決更多問題。數(shù)據(jù)挖掘提取信息助決策;模式識別賦能視覺語音;生物信息學(xué)促基因與醫(yī)療;物聯(lián)網(wǎng)提效需重隱私;聊天機器人服務(wù);自動駕駛提安暢但存挑戰(zhàn)。2.5機器學(xué)習(xí)的應(yīng)用數(shù)據(jù)分析與挖掘從海量數(shù)據(jù)提煉洞察,融合統(tǒng)計與機器學(xué)習(xí),揭示模式與關(guān)系,支撐智能決策與自動化,提升效率與價值。(1)數(shù)據(jù)分析側(cè)重清洗、轉(zhuǎn)換與可視化,用統(tǒng)計評估與解釋,幫助識別趨勢與異常,保障數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 過敏反應(yīng)的藥物治療
- 員工討論會課件
- 老年人護理與老年護理學(xué)
- 護理技能:靜脈輸液并發(fā)癥處理
- 急腹癥護理案例分析視頻
- 肝癌護理中的健康教育
- 員工HSE培訓(xùn)課件
- 吸氧課件講解稿
- 2026屆八省聯(lián)考(T8聯(lián)考)2026屆高三年級12月檢測訓(xùn)練生物試卷(含答案詳解)含湖北湖南山西河北卷
- 美術(shù)學(xué)院畢業(yè)生就業(yè)方向
- 在線網(wǎng)課知慧《形勢與政策(吉林大學(xué))》單元測試考核答案
- 業(yè)主授權(quán)租戶安裝充電樁委托書
- 化工建設(shè)綜合項目審批作業(yè)流程圖
- 親子鑒定的報告單圖片
- 遼寧軌道交通職業(yè)學(xué)院單招《職業(yè)技能測試》參考試題庫(含答案)
- 新概念二單詞表新版,Excel 版
- 2023年陜西西安經(jīng)濟技術(shù)開發(fā)區(qū)招聘120人(共500題含答案解析)筆試必備資料歷年高頻考點試題摘選
- 第八講 發(fā)展全過程人民民主PPT習(xí)概論2023優(yōu)化版教學(xué)課件
- 篇12pmc窗口功能指令舉例講解
- GB/T 7332-2011電子設(shè)備用固定電容器第2部分:分規(guī)范金屬化聚乙烯對苯二甲酸酯膜介質(zhì)直流固定電容器
- GB/T 38658-20203.6 kV~40.5 kV交流金屬封閉開關(guān)設(shè)備和控制設(shè)備型式試驗有效性的延伸導(dǎo)則
評論
0/150
提交評論