智能控制技術概論 課件 5.2 學習控制的類型_第1頁
智能控制技術概論 課件 5.2 學習控制的類型_第2頁
智能控制技術概論 課件 5.2 學習控制的類型_第3頁
智能控制技術概論 課件 5.2 學習控制的類型_第4頁
智能控制技術概論 課件 5.2 學習控制的類型_第5頁
已閱讀5頁,還剩33頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

學習控制的類型智能控制技術目錄一、監(jiān)督學習二、無監(jiān)督學習三、增強學習產(chǎn)品質(zhì)量特性波動5MIE分析法智能控制技術

監(jiān)督學習1學習控制的類型5MIE分析法學習控制的類型監(jiān)督學習利用一組已知類別或帶有明確標簽的樣本數(shù)據(jù),精心訓練模型,使其能夠深刻領悟輸入與輸出之間的微妙映射關系。這一過程,宛如模擬人類的學習之旅,通過反復琢磨訓練樣本中的輸入-輸出對,模型逐漸具備了自我優(yōu)化與自我適應的非凡能力。于是,在復雜多變的環(huán)境中,它依然能夠保持穩(wěn)健的預測或分類性能。智能控制技術5MIE分析法數(shù)據(jù)標注的嚴謹性監(jiān)督學習需要一組精心標注的訓練數(shù)據(jù)作為基石。每一個樣本蘊含著豐富的輸入特征,并鑲嵌著對應的輸出標簽。模型訓練的精妙性在監(jiān)督學習的舞臺上,模型通過不斷調(diào)整自身的參數(shù),竭盡全力最小化預測輸出與實際輸出之間的微妙差異,能夠準確預測或分類新的數(shù)據(jù)。泛化能力的展現(xiàn)訓練有素的模型不僅精通已學過的知識,更具備對新數(shù)據(jù)進行準確預測或分類的能力。010203學習控制的類型智能控制技術學習控制的類型5MIE分析法智能控制技術監(jiān)督學習的典型算法五種算法線性回歸邏輯回歸是一種預測數(shù)值型數(shù)據(jù)的統(tǒng)計學方法是一種名為回歸實則解決二分類問題的經(jīng)典算法支持向量機決策樹是一種基于統(tǒng)計學習理論的經(jīng)典分類算法是一種基于樹結構的分類算法隨機森林構建多個決策樹并巧妙的集成,提高了分類或回歸的性能5MIE分析法智能控制技術線性回歸是一種預測數(shù)值型數(shù)據(jù)的統(tǒng)計學方法,其目標是找到一個線性方程,最佳地描述一個或多個自變量(X)與因變量(Y)之間的關系。簡而言之,它試圖通過一條直線(在二維空間中)或一個超平面(在更高維空間中)來擬合數(shù)據(jù)點,使得預測值與實際值之間的差異最小化。線性回歸包括簡單線性回歸:涉及一個自變量和一個因變量的情況;和多元線性回歸:涉及兩個或更多自變量的情況。線性回歸產(chǎn)品質(zhì)量特性波動學習控制的類型簡單線性回歸,這里只有一個自變量x和一個因變量y。簡單線性回歸計算的初始目標是找到一條直線,其方程可以表示為:y=b+mx5MIE分析法智能控制技術為了找到最佳的m和b,通常采用最小二乘法來最小化殘差平方和,為了使(SSR)最小,則需要對m和b分別求偏導,并令其為0。當存在多個自變量時,多元線性回歸方法更為試用。其模型方程可表示為:線性回歸產(chǎn)品質(zhì)量特性波動學習控制的類型通過矩陣運算,可以得到參數(shù)向量的解析解:5MIE分析法智能控制技術當模型中自變量較多時,R2往往會偏高,即使這些自變量對模型的貢獻并不大。調(diào)整后的R2考慮了模型中自變量的數(shù)量,提供了更為保守的擬合優(yōu)度估計。線性回歸模型的有效性依賴于一系列假設,包括:(1)線性關系:自變量與因變量之間存在線性關系。(2)誤差項的獨立性:誤差項(殘差)之間是相互獨立的。(3)誤差項的等方差性:誤差項的方差在所有觀測值上是恒定的。(4)誤差項的正態(tài)分布:誤差項服從正態(tài)分布。當這些假設不成立時,線性回歸模型的性能可能會受到影響,此時可能需要考慮非線性模型、變換變量或使用更復雜的統(tǒng)計技術。。線性回歸產(chǎn)品質(zhì)量特性波動學習控制的類型5MIE分析法智能控制技術邏輯回歸的核心思想是利用邏輯函數(shù)(也稱為Sigmoid函數(shù))將線性回歸的輸出映射到(0,1)區(qū)間內(nèi),從而得到概率值。Sigmoid函數(shù)是一種S形曲線,其數(shù)學表達式為:邏輯回歸產(chǎn)品質(zhì)量特性波動學習控制的類型其中,z是線性回歸的輸出,即

。當z趨近于正無窮時,

趨近于1;當z趨近于負無窮時,

趨近于0。這樣,我們就能夠?qū)⑷我鈱崝?shù)映射到(0,1)區(qū)間內(nèi),從而得到概率值。5MIE分析法智能控制技術(1)混淆矩陣:混淆矩陣是評估分類模型性能的一種常用工具。它通過將實際類別與模型預測的類別進行比較,來展示模型的分類效果。在混淆矩陣中,真正例(TP)表示實際為正類且被模型預測為正類的樣本數(shù);假正例(FP)表示實際為負類但被模型預測為正類的樣本數(shù);真負例(TN)表示實際為負類且被模型預測為負類的樣本數(shù);假負例(FN)表示實際為正類但被模型預測為負類的樣本數(shù)。(2)準確率、召回率與F1分數(shù):基于混淆矩陣,我們可以計算準確率、召回率和F1分數(shù)等評估指標:1)準確率(Accuracy)=(TP+TN)/(TP+FP+TN+FN)2)召回率(Recall)=TP/(TP+FN)3)F1分數(shù)(F1Score)=2×(準確率×召回率)/(準確率+召回率)(3)ROC曲線與AUC值:ROC曲線是另一種評估分類模型性能的工具。它通過繪制真正例率(TPR)與假正例率(FPR)之間的關系曲線來展示模型的分類效果。1)真正例率(TPR)=TP/(TP+FN)2)假正例率(FPR)=FP/(FP+TN)邏輯回歸產(chǎn)品質(zhì)量特性波動學習控制的類型5MIE分析法智能控制技術SVM的主要優(yōu)勢在于其解決小樣本、非線性及高維模式識別問題中的出色表現(xiàn),且通過引入核技巧,SVM可以有效地處理非線性分類問題。(1)線性可分SVM設訓練樣本集為{(xi,yi)}i=1n,其中xi∈Rd,yi∈{?1,1}。我們希望找到一個超平面w?x+b=0,將兩類樣本正確分開。對于任意樣本點xi,其到超平面的距離可以表示為支持向量機SVM產(chǎn)品質(zhì)量特性波動學習控制的類型5MIE分析法智能控制技術(2)對偶問題通過引入拉格朗日乘子αi≥0,拉格朗日函數(shù)構造如下:令L對w和b的偏導數(shù)為零,得到支持向量機SVM產(chǎn)品質(zhì)量特性波動學習控制的類型將上述結果代入拉格朗日函數(shù),得到對偶問題:5MIE分析法智能控制技術(3)KKT條件與解的性質(zhì)在實際問題中,數(shù)據(jù)往往不是完全線性可分的。為了處理這種情況,軟間隔的概念被引入,允許部分樣本點不滿足約束條件。支持向量機SVM產(chǎn)品質(zhì)量特性波動學習控制的類型類似地,構造拉格朗日函數(shù)并通過求解對偶問題來找到最優(yōu)解。對偶問題可以簡單描述為:5MIE分析法智能控制技術對于給定的輸入特征(x),決策樹如同一位敏銳的偵探,通過一系列的判斷條件將其映射到某個葉節(jié)點,而該葉節(jié)點對應的類別便是預測的結果。決策樹的每個非葉節(jié)點代表一個特征上的決策規(guī)則,葉節(jié)點則代表預測的類別或數(shù)值,決策樹算法的結構產(chǎn)品質(zhì)量特性波動學習控制的類型5MIE分析法智能控制技術非線性關系處理:決策樹能夠處理復雜的非線性問題。易于理解和解釋:決策樹以樹狀圖的形式展示決策過程,使得模型易于被非專業(yè)人士理解。特征選擇:在構建過程中,決策樹能夠自動選擇重要的特征。決策樹算法的優(yōu)點魯棒性:決策樹對數(shù)據(jù)的缺失和異常值不敏感。產(chǎn)品質(zhì)量特性波動學習控制的類型5MIE分析法特征選擇01構建過程的三個關鍵步驟決策樹生成02決策樹剪枝03產(chǎn)品質(zhì)量特性波動學習控制的類型智能控制技術5MIE分析法智能控制技術決策樹的構建過程產(chǎn)品質(zhì)量特性波動學習控制的類型這一過程通常包括特征選擇、決策樹生成和決策樹剪枝三個步驟。第一步,特征選擇的目標是找到能夠最大化分類或回歸效果的特征。常用的特征選擇準則包括信息增益、增益率和基尼指數(shù)。信息增益是決策樹中最常用的特征選擇準則。它基于信息論中的熵(Entropy)概念,衡量了特征對數(shù)據(jù)集分類的不確定性減少的程度。第二步,決策樹的生成是一個遞歸過程。從根節(jié)點開始,選擇最優(yōu)特征并據(jù)此分割數(shù)據(jù)集,生成子節(jié)點。然后,對每個子節(jié)點遞歸執(zhí)行相同操作,直至滿足停止條件(如所有樣本屬于同一類別、達到預設深度等)。第三步,需要對生成的決策樹進行剪枝,用于防止過擬合。剪枝策略包括預剪枝和后剪枝。預剪枝在決策樹生成過程中提前停止樹的增長;后剪枝則先生成完整的決策樹,然后自底向上剪去不必要的子樹。5MIE分析法智能控制技術隨機森林產(chǎn)品質(zhì)量特性波動學習控制的類型隨機森林的輸出是多個決策樹輸出的平均值(對于回歸問題)或多數(shù)投票結果(對于分類問題)。這種集成的方式賦予了隨機森林良好的性能和穩(wěn)定性,使其如同一位穩(wěn)健的領袖,廣泛應用于各種分類和回歸問題。無論是圖像的分類、語音的識別,還是推薦系統(tǒng)的構建,都逃不過它敏銳的洞察力。產(chǎn)品質(zhì)量特性波動5MIE分析法智能控制技術

無監(jiān)督學習2學習控制的類型5MIE分析法智能控制技術學習控制的類型定義無監(jiān)督學習,作為一種在缺乏任何外部監(jiān)督信號條件下的學習范式,其核心在于僅憑數(shù)據(jù)自身的統(tǒng)計規(guī)律來驅(qū)動學習過程。學習控制的類型5MIE分析法智能控制技術聚類算法K-means層次聚類通過迭代優(yōu)化簇中心實現(xiàn)快速聚類,但對初始值和簇形狀敏感通過構建樹狀結構揭示數(shù)據(jù)層次關系,但計算復雜度較高DBSCAN譜聚類基于密度特性可發(fā)現(xiàn)任意形狀簇群,且能有效識別噪聲點運用圖論知識處理復雜數(shù)據(jù)結構,特別適合非線性可分場景學習控制的類型5MIE分析法智能控制技術降維算法主成分分析(PCA)流形學習經(jīng)典線性降維方法,通過正交變換找到最大方差方向?qū)崿F(xiàn)數(shù)據(jù)壓縮針對非線性數(shù)據(jù)結構,如ISOMAP和局部線性嵌入線性判別分析多維縮放基于類別信息進行監(jiān)督降維致力于保持原始距離關系學習控制的類型5MIE分析法智能控制技術異常檢測算法基于統(tǒng)計的Z-Score方法基于距離的KNN算法通過衡量數(shù)據(jù)偏離程度進行檢測,適用于正態(tài)分布數(shù)據(jù)通過近鄰距離判定異常,能處理非線性數(shù)據(jù)基于密度的LOF算法基于機器學習的聚類方法通過局部密度對比識別異常,適合不均勻數(shù)據(jù)集如K-Means、DB-SCAN,通過簇劃分定位異常產(chǎn)品質(zhì)量特性波動5MIE分析法智能控制技術

增強學習3學習控制的類型學習控制的類型5MIE分析法智能控制技術強化學習是機器學習中通過試錯機制進行自我優(yōu)化的分支,其核心是智能體與環(huán)境的持續(xù)交互過程。該框架采用馬爾可夫決策過程作為數(shù)學模型,通過狀態(tài)轉(zhuǎn)移、動作選擇和環(huán)境反饋的循環(huán)機制,使智能體逐步學習最大化累積獎勵的最優(yōu)策略。學習控制的類型5MIE分析法智能控制技術強化學習算法Q-Learning算法SARSA算法是一種基于價值函數(shù)的強化學習方法是一種基于狀態(tài)-動作價值函數(shù)的強化學習方法策略梯度算法深度增強學習算法是強化學習中直接優(yōu)化策略的重要方法是深度學習與強化學習的融合技術5MIE分析法初始化Q值01Q-Learning算法遵循步驟選擇動作02執(zhí)行動作并觀察獎勵05產(chǎn)品質(zhì)量特性波動學習控制的類型智能控制技術更新Q值05學習控制的類型5MIE分析法智能控制技術機器人的目標是從迷宮的起點走到終點(鑰匙),同時盡量避免碰到墻壁和炸彈,如圖所示。迷宮中的每個格子可以看作是一個狀態(tài),機器人在每個格子中可以選擇向上、向下、向左或向右移動一步作為動作。這些動作可以定義為:? 動作1:向上移動? 動作2:向下移動? 動作3:向左移動? 動作4:向右移動當機器人采取一個動作后,它會根據(jù)是否碰到墻壁、踩到炸彈或者到達終點來獲得即時獎勵。通常,到達終點會獲得一個較大的正獎勵,而碰到墻壁則會獲得一個負獎勵。5MIE分析法初始化Q值01SARSA算法的五個步驟基于探索策略選擇動作02執(zhí)行動作獲取環(huán)境反饋03產(chǎn)品質(zhì)量特性波動學習控制的類型智能控制技術根據(jù)策略選擇下一動作04按SARSA規(guī)則更新Q值05學習控制的類型5MIE分析法智能控制技術智能體的目標是從迷宮的起點走到終點,同時盡量避免碰到墻壁和炸彈。迷宮中的每個格子可以看作是一個狀態(tài),智能體在每個格子中可以選擇向上、向下、向左或向右移動一步作為動作。這些動作可以定義為:動作1:向上移動動作2:向下移動動作3:向左移動動作4:向右移動當機器人采取一個動作后,它會根據(jù)是否碰到墻壁、踩到炸彈或者到達終點來獲得即時獎勵。通常,到達終點會獲得一個較大的正獎勵,而碰到墻壁則會獲得一個負獎勵。學習控制的類型5MIE分析法智能控制技術在機器人導航任務中,機器人面臨的是一個復雜的、可能是部分可觀測的環(huán)境,它需要在這樣的環(huán)境中找到從起點到終點的最優(yōu)路徑。為此,將環(huán)境離散化為一系列的格子,每個格子代表一個獨特的狀態(tài)(s)。機器人在每個狀態(tài)下可以選擇向上、向下、向左或向右移動,這些移動構成了機器人的動作集合A={a1,a2,a3,a4},分別對應上、下、左、右四個方向。應用SARSA算法時,機器人會根據(jù)當前的狀態(tài)St和策略π選擇一個動作at,執(zhí)行該動作后,它會觀察環(huán)境給出的即時獎勵rt+1和新的狀態(tài)st+1。然后,根據(jù)SARSA的更新規(guī)則,機器人會計算并更新當前狀態(tài)-動作對的Q值。通過不斷地迭代這個過程,機器人最終能夠?qū)W會如何選擇最優(yōu)的動作序列,從而安全、高效地到達終點。案例舉例1:機器人巡航學習控制的類型5MIE分析法智能控制技術自動駕駛領域同樣是一個復雜且動態(tài)的環(huán)境,車輛需要在不斷變化的交通環(huán)境中做出實時決策。我們可以將交通環(huán)境劃分為一系列的狀態(tài),每個狀態(tài)包含了車輛的位置、速度以及周圍的交通情況(如其他車輛的位置和速度、交通信號燈的狀態(tài)等)。車輛的動作集合可能包括加速、減速、左轉(zhuǎn)、右轉(zhuǎn)等。在自動駕駛中,SARSA算法同樣適用。車輛會根據(jù)當前的狀態(tài)St和策略π選擇一個動作at,并執(zhí)行該動作。隨后,車輛會觀察環(huán)境給出的即時獎勵rt+1(例如,避免碰撞、保持車道、遵守交通規(guī)則等行為的獎勵)和新的狀態(tài)st+1。然后,車輛會使用SARSA的更新規(guī)則來更新其Q值,通過不斷的學習,車輛可以逐漸學會如何根據(jù)當前的交通情況選擇最優(yōu)的動作,從而實現(xiàn)安全、高效的自動駕駛。案例舉例2:自動駕駛中的決策制定5MIE分析法觀察當前狀態(tài)St01Actor-Critic算法遵循步驟選擇動作02執(zhí)行動作并觀察獎勵和新狀態(tài)03產(chǎn)品質(zhì)量特性波動學習控制的類型智能控制技術更新價值函數(shù)04更新策略函數(shù)05學習控制的類型5MIE分析法智能控制技術直接優(yōu)化策略:策略梯度算法直接對策略進行參數(shù)化并優(yōu)化,而不是通過學習價值函數(shù)來間接優(yōu)化策略。這使得策略梯度算法在處理連續(xù)動作空間和高維狀態(tài)空間的問題時更加有效。適用性廣:策略梯度算法不僅適用于離散動作空間的問題,還適用于連續(xù)動作空間的問題。這使得策略梯度算法在機器人控制、自動駕駛等領域具有廣泛的應用前景。易于實現(xiàn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論