機器學(xué)習(xí)與模式識別 課件全套 第1-9章-緒論、數(shù)學(xué)基礎(chǔ) -新進展與趨勢_第1頁
機器學(xué)習(xí)與模式識別 課件全套 第1-9章-緒論、數(shù)學(xué)基礎(chǔ) -新進展與趨勢_第2頁
機器學(xué)習(xí)與模式識別 課件全套 第1-9章-緒論、數(shù)學(xué)基礎(chǔ) -新進展與趨勢_第3頁
機器學(xué)習(xí)與模式識別 課件全套 第1-9章-緒論、數(shù)學(xué)基礎(chǔ) -新進展與趨勢_第4頁
機器學(xué)習(xí)與模式識別 課件全套 第1-9章-緒論、數(shù)學(xué)基礎(chǔ) -新進展與趨勢_第5頁
已閱讀5頁,還剩424頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

機器學(xué)習(xí)與模式識別第一章緒論第七章緒論

1.1機器學(xué)習(xí)與模式識別的發(fā)展史

1.2機器學(xué)習(xí)與模式識別的應(yīng)用

1.3本書的組織結(jié)構(gòu)21.1.1發(fā)展史概覽

3起源于20世紀中葉從統(tǒng)計學(xué)方法到深度學(xué)習(xí)成為人工智能的核心支柱推動自動化、智能化與數(shù)據(jù)驅(qū)動決策1.1.1機器學(xué)習(xí)歷史四階段4階段時間范圍核心目標代表工作第一階段20世紀50-60年代中葉有無知識的學(xué)習(xí),提升系統(tǒng)執(zhí)行能力塞繆爾(Samuel)下棋程序第二階段20世紀60-70年代中葉整合領(lǐng)域知識,模擬人類學(xué)習(xí)過程海斯?羅思、溫斯頓結(jié)構(gòu)學(xué)習(xí)系統(tǒng)第三階段20世紀70-80年代中葉(復(fù)興期)多概念學(xué)習(xí),結(jié)合應(yīng)用場景莫斯托指導(dǎo)式學(xué)習(xí)、蘭里BACON程序第四階段20世紀80年代中葉至今多學(xué)科融合,規(guī)?;瘧?yīng)用深度學(xué)習(xí)突破、集成學(xué)習(xí)興起1.1.2模式識別發(fā)展里程碑

520世紀50年代末:F.羅森布拉特提出感知器,模擬人腦識別功能1957年:周紹康提出統(tǒng)計決策理論,推動模式識別快速發(fā)展1982-1984年:J.霍普菲爾德發(fā)表論文,揭示人工神經(jīng)元網(wǎng)絡(luò)的聯(lián)想存儲與計算能力推動自動化、智能化與數(shù)據(jù)驅(qū)動決策2021年:第四屆中國模式識別與計算機視覺大會(PRCV2021)召開,推動領(lǐng)域融合創(chuàng)新1.1.3機器學(xué)習(xí)與模式識別的關(guān)聯(lián)

6共同依賴:數(shù)據(jù)與特征提取模型構(gòu)建與訓(xùn)練相互借鑒應(yīng)用交叉:人臉識別、語音識別、NLP等共同推動人工智能發(fā)展1.2應(yīng)用領(lǐng)域概覽

7金融醫(yī)療藝術(shù)交通制造自然語言處理電子商務(wù)1.2.1金融領(lǐng)域應(yīng)用

8風(fēng)險預(yù)測投資評估欺詐檢測價值:提升風(fēng)險管理能力1.2.2醫(yī)療領(lǐng)域應(yīng)用

9疾病識別與篩查:乳腺癌、肺癌等早期篩查基因數(shù)據(jù)分析:個性化醫(yī)療藥物研發(fā):縮短周期、降低成本手術(shù)機器人:提升微創(chuàng)手術(shù)精度挑戰(zhàn):數(shù)據(jù)隱私保護、可解釋性、倫理合規(guī)1.2.3藝術(shù)領(lǐng)域應(yīng)用

10圖像生成:DeepDream、StyleGAN、DALL-E音樂創(chuàng)作:MuseNet、BachBot舞臺與影視:虛擬角色、特效生成價值:降低創(chuàng)作門檻,豐富創(chuàng)作手段,實現(xiàn)人機協(xié)同創(chuàng)作1.2.4交通運輸應(yīng)用

11自動駕駛:特斯拉、Waymo智能信號控制:動態(tài)調(diào)整交通流交通事故預(yù)測:分析流量、路況等特征智能車聯(lián)網(wǎng)系統(tǒng):實時導(dǎo)航、車輛追蹤價值:提升交通效率,增強行車安全性1.2.5制造業(yè)應(yīng)用

12預(yù)測性維護:設(shè)備故障預(yù)警質(zhì)量控制:缺陷識別生產(chǎn)自動化:汽車零部件檢測供應(yīng)鏈優(yōu)化:庫存與物流調(diào)度價值:降低成本、提高生產(chǎn)效率與產(chǎn)品可靠性1.2.6自然語言處理應(yīng)用

13情感分析:社交媒體監(jiān)控、產(chǎn)品評價分析文本生成:自動回復(fù)、小說創(chuàng)作語音識別:智能助手、智能家居控制機器翻譯:神經(jīng)網(wǎng)絡(luò)模型提升精準度價值:打破語言壁壘,提升信息處理效率1.2.7電子商務(wù)應(yīng)用

14個性化推薦:淘寶、京東協(xié)同過濾算法圖像搜索:上傳圖片匹配商品庫存管理:銷售趨勢預(yù)測售后響應(yīng)(評論情感分析)價值:優(yōu)化用戶體驗,降低運營風(fēng)險,提升營銷效果1.3本書組織結(jié)構(gòu)

15緒論數(shù)學(xué)基礎(chǔ)機器學(xué)習(xí)基礎(chǔ)模式識別基礎(chǔ)深度學(xué)習(xí)數(shù)據(jù)預(yù)處理與特征工程模型評估與優(yōu)化應(yīng)用案例與實踐最新進展與趨勢1.3章節(jié)邏輯圖

16基礎(chǔ)篇(第2–4章):數(shù)學(xué)、機器學(xué)習(xí)與模式識別基礎(chǔ)技術(shù)篇(第5–7章):深度學(xué)習(xí)、特征工程、模型優(yōu)化應(yīng)用與前沿篇(第8–9章):案例實踐與未來趨勢機器學(xué)習(xí)與模式識別第二章數(shù)學(xué)基礎(chǔ)第二章數(shù)學(xué)基礎(chǔ)

2.1線性代數(shù)

2.2微積分

2.3概率與統(tǒng)計

2.4最優(yōu)化理論182.1線性代數(shù)-內(nèi)積、范數(shù)、正交性和距離

19向量:被定義為具有大小和方向的量,它由一組有序的實數(shù)或復(fù)數(shù)組成,這組數(shù)稱為向量的分量。這些分量描述了向量在多維空間中的位置和方向。一個維向量

有個分量,可以寫成如下向量的形式:行向量的表示形式列向量的表示形式2.1線性代數(shù)-內(nèi)積、范數(shù)、正交性和距離

20內(nèi)積:兩個向量的內(nèi)積定義為它們對應(yīng)分量乘積之和,也被稱為點積。如向量

和向量

的內(nèi)積可以表示為另外,內(nèi)積還可以使用向量的模(長度)和它們之間夾角的余弦來表示:當內(nèi)積為0時,則稱兩個向量正交。2.1線性代數(shù)-內(nèi)積、范數(shù)、正交性和距離

21向量的

范數(shù)是一個標量,其中常用的是

范數(shù)。向量的

范數(shù)定義為向量所有分量的絕對值之和。向量的

范數(shù)也稱為向量的模,即向量的長度。向量的

范數(shù)、

范數(shù)和

范數(shù)分別定義為2.1線性代數(shù)-內(nèi)積、范數(shù)、正交性和距離

22歐氏距離:向量之間的距離通常使用歐氏距離來計算。具體來說,向量

和向量

間的距離可以表示為除了歐氏距離之外,還有多種距離度量方法,如余弦距離、曼哈頓距離、切比雪夫距離等,它們各自適用于不同的應(yīng)用場景。2.1線性代數(shù)-矩陣基礎(chǔ)23矩陣:是一個由數(shù)值按矩形排列成的矩形陣列。一個典型的矩陣可以寫成如下形式:如果矩陣

的行數(shù)m和列數(shù)n相等,稱該矩陣為n階方陣。如果一個方陣的元素滿足

,則稱該矩陣為對稱矩陣。如果一個方陣除對角線元素外其余都是0,則稱該矩陣為對角矩陣。如果對角矩陣的對角線上的元素都為1,則稱該矩陣為單位矩陣。如果一個矩陣的元素都為0,則稱該矩陣為0矩陣,記為O。矩陣的轉(zhuǎn)置定義為行和列下標相互交換,即一個m×n的矩陣轉(zhuǎn)置后為n×m的矩陣。矩陣

的轉(zhuǎn)置記為

。2.1線性代數(shù)-矩陣基礎(chǔ)24線性變換:是一種特殊的函數(shù),它將一個向量映射到另一個向量。這種變換可以通過一個矩陣表示,并對任何向量進行操作以得到新的向量。對于線性空間,設(shè)是由矩陣表示的線性變換,其中那么,對于

中的任意向量

,其變換

可表示為這種表達展示了線性變換如何通過矩陣與向量的乘法來描述向量的映射。線性變換滿足兩個基本性質(zhì):加法保持性和標量乘法保持性,即對任意的

以及實數(shù)

有2.1線性代數(shù)-行列式、矩陣的逆和線性方程組25行列式:是一個數(shù),它是對方陣的一種映射。對于一個n×n的方陣

,其行列式記為det(

)或

。二階矩陣的行列式計算公式為三階矩陣的行列式計算公式為行列式A沿第j列展開的計算公式定義為對于矩陣

,下式可用于判斷

是否可逆:2.1線性代數(shù)-行列式、矩陣的逆和線性方程組26逆:矩陣

的逆是指存在另一個矩陣

使得

,

的逆

,記為

。當

的逆存在時,稱

是可逆的。

的大小與

相同。線性方程組:由多個線性方程構(gòu)成,每個方程表示為一系列變量的線性組合。一個三元線性方程組可表示如下:或可表示為方程組的解取決于系數(shù)矩陣

的性質(zhì)。如果系數(shù)矩陣

的行列式det(

)≠0,則

可逆,這意味著方程組有唯一解

。反之,如果det(

)=0,則

不可逆,方程組可能沒有解或有無限多解,具體情況取決于

的值。2.1線性代數(shù)-特征值、特征向量、跡和秩27對于一個n階矩陣

,如果存在一個數(shù)

和一個非0向量

,滿足:則稱

為矩陣

的特征值,

為該特征值對應(yīng)的特征向量。根據(jù)該定義推導(dǎo)出如下方程組:其中

是n階單位矩陣。根據(jù)線性方程組理論,要讓齊次方程組有非0解,系數(shù)矩陣的行列式必須為0,即上式左邊的多項式稱為矩陣的特征多項式。在求解這個n次方程時,得到特征值方程的根有可能是復(fù)數(shù)。2.1線性代數(shù)-特征值、特征向量、跡和秩28跡:矩陣的跡定義為主對角線元素之和:根據(jù)韋達定理,矩陣所有特征值的和為矩陣的跡:同樣可以證明,矩陣所有特征值的積為矩陣的行列式:秩:矩陣的秩定義為其非零特征值的數(shù)量,記為

,矩陣的秩又可以被定義為非零子式的最高階數(shù)。通常,規(guī)定零矩陣的秩為0。秩為n的n階方陣稱為滿秩矩陣。2.1線性代數(shù)-特征值、特征向量、跡和秩29矩陣的秩也可以用來判定線性方程組解的情況。一個由矩陣方程

表示的線性方程組,其中

是一個m×n的系數(shù)矩陣,

是未知數(shù)向量,

則是常數(shù)項向量。矩陣

的秩記作

,擴展矩陣

的秩記作

:?如果

,方程組有唯一解。?如

,則方程組無解,因為擴展矩陣的秩大于系數(shù)矩陣的秩,表明

不在

列空間的張成范圍內(nèi)。?如果

,方程組有無限多解。此外,一個n階矩陣如果滿足:則稱為正交矩陣。正交矩陣的行列式為1,它的行、列向量之間相互正交,即相同的行或列的內(nèi)積為1,不同行或列的內(nèi)積為0。2.1線性代數(shù)-矩陣分解30常用的矩陣分解形式主要有三角分解、QR分解、滿秩分解、奇異值分解。矩陣的三角分解經(jīng)常用來求線性方程組

的解。由于

,所以

可以變換為

,即有如下方程:先由

求得

,再由

即可求得方程組的根

。此外,還有QR分解,又稱為正交三角分解,它將矩陣分解為一個正交矩陣和一個上三角矩陣的乘積:。2.1線性代數(shù)-矩陣分解31矩陣的滿秩分解是一種將矩陣

分解為兩個矩陣的乘積,其中一個矩陣具有滿列秩,另一個具有滿行秩。具體來說,對于一個m×n的矩陣

,可以分解為

,其中

是一個m×r的矩陣且具有滿列秩(r是

的秩),而是

一個r×n的矩陣且具有滿行秩。奇異值分解:假設(shè)任意的m×n矩陣

,奇異值分解可以表示為

其中,

是一個m×m的正交矩陣,

是一個n×n的正交矩陣,

是一個m×n的對角矩陣,對角線上的元素是奇異值,按降序排列。由于

,并且

是對角矩陣,我們可以知道

的特征向量。類似地,

的特征向量。

的特征值開方構(gòu)成的對角陣。2.2微積分-導(dǎo)數(shù)32導(dǎo)數(shù):導(dǎo)數(shù)定義為函數(shù)的自變量變化值趨于0時函數(shù)值的變化量與自變量的變化量比值的極限,即鏈式法則表述為,若

,那么

的導(dǎo)數(shù)可以表示為2.2微積分-導(dǎo)數(shù)33導(dǎo)數(shù)和函數(shù)的單調(diào)性密切相關(guān)。導(dǎo)數(shù)大于0時函數(shù)單調(diào)增,導(dǎo)數(shù)小于0時函數(shù)單調(diào)減,在極值點處導(dǎo)數(shù)必定為0。導(dǎo)數(shù)等于0的點稱為函數(shù)的駐點,這為求解函數(shù)的極值提供依據(jù)。如果對導(dǎo)數(shù)繼續(xù)求導(dǎo),可以得到高階導(dǎo)數(shù)。記為二階導(dǎo)數(shù)決定函數(shù)的凹凸性。如果二階導(dǎo)數(shù)大于0,則函數(shù)在該區(qū)間為凹函數(shù);如果二階導(dǎo)數(shù)小于0,則函數(shù)在該區(qū)間為凸函數(shù)。根據(jù)一階導(dǎo)數(shù)和二階導(dǎo)數(shù),可以得到一元函數(shù)的極值判別法:在駐點處,如果二階導(dǎo)數(shù)大于0,則該點為函數(shù)的局部極小值點;如果二階導(dǎo)數(shù)小于0,則該點為函數(shù)的局部極大值點。如果二階導(dǎo)數(shù)等于0,則情況不定。2.2微積分-偏導(dǎo)數(shù)和梯度34偏導(dǎo)數(shù):描述了函數(shù)在某一特定方向上的變化率。對于一個二元函數(shù)

,偏導(dǎo)數(shù)分別表示函數(shù)關(guān)于

的變化率。定義為梯度:梯度是由所有偏導(dǎo)數(shù)組成的向量,表示函數(shù)在每個方向上的最速變化率。多元函數(shù)的梯度定義為其中,稱為梯度算子,它作用于一個多元函數(shù)得到一個向量。2.2微積分-偏導(dǎo)數(shù)和梯度35類似地,可以定義函數(shù)的高階偏導(dǎo)數(shù),這比一元函數(shù)的高階導(dǎo)數(shù)復(fù)雜,因為有多個變量。二階偏導(dǎo)數(shù)如下:一般情況下,混合二階偏導(dǎo)數(shù)與求導(dǎo)次序無關(guān),即2.2微積分-雅可比矩陣36在多元函數(shù)中,雅可比矩陣是一個重要的概念,用于描述向量值函數(shù)的一階偏導(dǎo)數(shù)。設(shè)有向量值函數(shù)

,其中

,定義如下:則雅可比矩陣

是一個m×n的矩陣,其中第i行第j列的元素是函數(shù)

對變量

的偏導(dǎo)數(shù),即2.2微積分-雅可比矩陣37這是一個m行n列的矩陣,每一行為一個多元函數(shù)的梯度。對于如下向量值函數(shù)

,其中

,定義如下:它的雅可比矩陣為雅可比矩陣描述了函數(shù)

在輸入空間的每個點的局部線性逼近。2.2微積分-Hessian矩陣38Hessian矩陣是一個用于描述多元函數(shù)二階偏導(dǎo)數(shù)的方陣。設(shè)有實值多元函數(shù)

,定義如下:Hessian矩陣

是一個n×n的矩陣。其中第i行第j列的元素是

的二階偏導(dǎo)數(shù)。具體定義為一般情況下多元函數(shù)的混合二階偏導(dǎo)數(shù)與求導(dǎo)次序無關(guān),因此,Hessian矩陣是一個對稱矩陣。2.2微積分-Hessian矩陣39設(shè)多元函數(shù)

在點

處二階可微,且

。記

處的Hessian矩陣。?若

嚴格正定,則

有局部極小值。?若

嚴格負定,則

有局部極大值。?若

不定,則

是鞍點,不是極值點。?若

為半正定或半負定但不嚴格,則二階判別不確定,需要進一步借助更高階導(dǎo)數(shù)或其他方法分析。對于n階矩陣

,對于任意非0的n維向量

都有則稱矩陣

為正定矩陣。2.2微積分-Hessian矩陣40判定矩陣正定的常用方法有以下幾種:?矩陣的特征值全大于0。?矩陣的所有順序主子式都大于0。?矩陣合同于單位陣

。類似地,如果一個n階矩陣

,對于任何非0的n維向量

,都有如果滿足則稱矩陣

為負定矩陣。則稱矩陣

為半正定矩陣。Hessian矩陣正定性與多元函數(shù)的凹凸性有關(guān),如果Hessian矩陣半正定,則函數(shù)為凸函數(shù);如果Hessian矩陣正定,則函數(shù)為嚴格凸函數(shù)。泰勒展開:泰勒展開是一種將函數(shù)在某點附近表示為其導(dǎo)數(shù)的無窮級數(shù)的方法。設(shè)

是一個在

處具有n階導(dǎo)數(shù)的函數(shù),則

處的泰勒展開式為2.2微積分-泰勒展開41其中,

是n階泰勒多項式的余項,表示截斷誤差。當n→∞時,如果余項趨于零,函數(shù)可以表示為泰勒級數(shù):如果泰勒展開的中心點為

,則稱為麥克勞林展開,麥克勞林展開是泰勒展開的特例。類似地,多元函數(shù)的泰勒展開式為在這里o表示高階無窮小。

是Hessian矩陣,它和一元函數(shù)的泰勒展開在形式上是統(tǒng)一的。2.3概率與統(tǒng)計-隨機事件與概率42隨機事件:隨機事件是指在一定條件下可能發(fā)生也可能不發(fā)生的事件,其結(jié)果具有不確定性和隨機性。隨機事件發(fā)生的可能性可以用概率來度量,隨機事件通常用大寫字母表示,如

等。假設(shè)一隨機事件

,其概率用

表示,其值滿足概率值越大,表示事件發(fā)生的可能性越高。如果一個事件發(fā)生的概率為0,稱為不可能事件;一個事件的發(fā)生概率為1,則稱為必然事件。聯(lián)合概率:當兩個或多個隨機事件被同時考慮時,可以討論它們共同發(fā)生的概率,這種情況被稱為聯(lián)合概率。聯(lián)合概率衡量兩個或多個事件同時發(fā)生的可能性。例如,事件

和事件

共同發(fā)生的概率記為

。邊緣概率:是指在涉及多個事件的概率問題中,只關(guān)注某一個或幾個事件的概率。若有兩個事件

,他們的聯(lián)合概率表示為

。要得到只與事件相關(guān)的概率(

的邊緣概率),需要考慮所有可能涉及

發(fā)生的情況,并且合并這些情況的概率。數(shù)學(xué)表達式為2.3概率與統(tǒng)計-隨機事件與概率43條件概率:對于兩個相關(guān)的隨機事件

,在事件

發(fā)生的條件下事件

發(fā)生的概率稱為條件概率

,定義為即

同時發(fā)生的概率與

發(fā)生概率的比值。如果把事件

作為因,事件

作為果,則概率

稱為先驗概率。后驗概率定義為貝葉斯公式指出:貝葉斯公式描述了先驗概率和后驗概率之間的關(guān)系。如果有

,或者

,則稱隨機事件

獨立。如果隨機事件

獨立,則有可以將上面的定義進行推廣,如果n個隨機事件

相互獨立,則它們同時發(fā)生的概率等于它們各自發(fā)生的概率的乘積:2.3概率與統(tǒng)計-隨機變量44隨便變量:隨機變量是指一種數(shù)值變量,它的取值由隨機試驗的結(jié)果決定。隨機變量可以是離散的,也可以是連續(xù)的,具體取決于它的取值范圍是離散集合還是連續(xù)區(qū)間。離散隨機變量只能取有限或可數(shù)的幾個值。連續(xù)隨機變量可以取任意實數(shù)值,通常表示某個范圍內(nèi)的所有值。對于離散型隨機變量,概率質(zhì)量函數(shù)

表示隨機變量

取值為

的概率,記為離散型隨機變量具有以下特點:?非負性:對于所有

滿足

。?歸一性:所有可能取值的概率之和等于1,即對于連續(xù)隨機變量,概率密度函數(shù)

表示隨機變量

在某個值

附近的概率密度,即其中,

是連續(xù)隨機變量

取值范圍的下界,

是取值范圍的上界。2.3概率與統(tǒng)計-隨機變量45連續(xù)型隨機變量具有以下特點:?非負性:對于所有

滿足

。?歸一性:概率密度函數(shù)在整個定義域上的積分為1,即累積分布函數(shù):累積分布函數(shù)

用于描述隨機變量

小于或等于某個值

的概率:對于離散型隨機變量,累積分布函數(shù)可以表示為對于連續(xù)型隨機變量,累積分布函數(shù)可以表示為2.3概率與統(tǒng)計-隨機變量46數(shù)學(xué)期望:數(shù)學(xué)期望是加權(quán)平均值的抽象,是隨機變量在概率意義下的均值。對于離散型隨機變量x,數(shù)學(xué)期望定義為方差:方差表示隨機變量的離散程度,對于離散型隨機變量

,方差定義為假設(shè)有一個連續(xù)型隨機變量x的概率密度函數(shù)是

,其數(shù)學(xué)期望定義為根據(jù)定積分的定義,可以看到,連續(xù)型隨機變量就是離散型的極限情況。對于連續(xù)型隨機變量,方差定義為2.3概率與統(tǒng)計-常用的概率分布47二項分布:二項分布描述在n次獨立的伯努利試驗中成功的次數(shù)。其概率質(zhì)量函數(shù)表示為常見的離散分布主要有伯努利分布、二項分布和泊松分布。其中,

為成功的概率。伯努利分布適用于單次投硬幣、是否通過測試等。伯努利分布:伯努利分布描述了一次試驗只有兩個可能結(jié)果(成功或失敗)的情況。其概率質(zhì)量函數(shù)表示為其中,

是組合數(shù),

為試驗次數(shù),

為單次成功的概率。泊松分布:泊松分布是描述在一個固定時間間隔或空間區(qū)域內(nèi),某事件隨機且獨立地發(fā)生的次數(shù)的概率分布。泊松分布的概率質(zhì)量函數(shù)表示為其中,

為事件出現(xiàn)的平均次數(shù)。則稱隨機變量

服從參數(shù)為

的泊松分布。2.3概率與統(tǒng)計-常用的概率分布48正態(tài)分布:正態(tài)分布是一種連續(xù)概率分布,其概率密度函數(shù)呈對稱的鐘形,由兩個參數(shù):均值(

)和方差(

)完全確定。均值決定了分布的中心位置,方差決定了分布的離散程度或?qū)挾?。正態(tài)分布的概率密度可表示為常見的連續(xù)分布主要有均勻分布、正態(tài)分布和指數(shù)分布。均勻分布:均勻分布描述在給定區(qū)間內(nèi)所有數(shù)值出現(xiàn)的可能性相同的情況。均勻分布的概率密度可表示為指數(shù)分布:指數(shù)分布是一種重要的連續(xù)概率分布,通常用來描述在固定時間或空間間隔內(nèi)發(fā)生獨立隨機事件的時間間隔。指數(shù)分布的概率密度可表示為其中

是事件發(fā)生的平均率,即單位時間內(nèi)事件的平均發(fā)生次數(shù)。2.3概率與統(tǒng)計-隨機向量49聯(lián)合分布:聯(lián)合分布描述了隨機向量中各個隨機變量聯(lián)合取值的概率情況。對于離散型隨機向量,聯(lián)合概率質(zhì)量函數(shù)

給出了每個可能取值的概率。設(shè)

是一個二維離散隨機向量,則聯(lián)合概率質(zhì)量函數(shù)可以表示為對于連續(xù)隨機向量,聯(lián)合概率密度函數(shù)描述了在某個點上隨機向量的概率密度。

設(shè)

是一個二維連續(xù)隨機向量,則聯(lián)合概率密度函數(shù)可以表示為2.3概率與統(tǒng)計-隨機向量50邊緣分布:邊緣分布是聯(lián)合分布在某些變量上的投影,即忽略其他變量,只關(guān)注某些變量的分布情況。對于隨機向量

,邊緣分布可以通過對聯(lián)合分布進行求和(離散情況)和積分(連續(xù)情況)得到。例如,對于離散情況,

的邊緣概率密度函數(shù)為對于連續(xù)情況,

的邊緣概率密度函數(shù)為在使用條件概率密度函數(shù)

以及條件概率密度函數(shù)

時,

的值是已知的。2.3概率與統(tǒng)計-隨機向量

51為了全面描述隨機向量的統(tǒng)計特性,除了分布之外,還需要了解期望值和協(xié)方差矩陣。隨機向量的期望值是一個向量,其每個元素為對應(yīng)隨機變量的期望值。協(xié)方差矩陣:協(xié)方差矩陣描述了隨機向量各分量之間的協(xié)方差關(guān)系,是一個對稱矩陣,表示變量之間的線性相關(guān)性。隨機向量

的協(xié)方差矩陣定義為其中,協(xié)方差矩陣的元素為多元正態(tài)分布:多元正態(tài)分布是描述隨機向量的分布中最常用的模型之一,特別適用于描述多個相關(guān)變量的聯(lián)合行為。假設(shè)隨機向量X服從n維正態(tài)分布,記作,其中是期望值向量,是協(xié)方差矩陣。多元正態(tài)分布的概率密度函數(shù)為2.3概率與統(tǒng)計-參數(shù)估計52最常用的兩種參數(shù)估計方法是矩估計和最大似然估計。最大似然估計:最大似然估計的目標是找到一組參數(shù)值,使得在這些參數(shù)值下,觀察到的樣本數(shù)據(jù)的似然函數(shù)值最大。似然函數(shù)是指給定參數(shù)值時,樣本數(shù)據(jù)的聯(lián)合概率密度或聯(lián)合概率質(zhì)量。給定一組獨立同分布的樣本數(shù)據(jù)

和參數(shù)

,概率模型

的聯(lián)合密度函數(shù)表示為2.3概率與統(tǒng)計-參數(shù)估計53似然函數(shù)通常記為對于獨立同分布的樣本,似然函數(shù)是每個樣本點概率密度函數(shù)或概率質(zhì)量函數(shù)的乘積。為了方便計算,通常取對數(shù)似然函數(shù):令解該方程,得到參數(shù)的最大似然估計值

。2.4最優(yōu)化理論-最優(yōu)化問題的基本概念54最優(yōu)化理論研究如何通過選擇某些可執(zhí)行的策略使得目標達到最優(yōu)。一個最優(yōu)化問題通常包括以下要素:決策變量、目標函數(shù)以及約束條件。設(shè)一個最優(yōu)化問題,其目標是最小化或最大化目標函數(shù)

,并且受到一組約束條件的限制。最優(yōu)化問題的基本形式可以表示為其中

是決策向量,

分別為不等式約束和等式約束,X表示給定的集合,比如

。在這種情況下,可行集

定義為滿足所有約束條件的

的集合:2.4最優(yōu)化理論-最優(yōu)化問題的基本概念55凸優(yōu)化問題:凸優(yōu)化問題是指目標函數(shù)和約束條件都具有凸性質(zhì)的優(yōu)化問題。其基本思想是利用凸函數(shù)和凸集的良好性質(zhì),使得問題的局部最優(yōu)解也是全局最優(yōu)解,從而簡化問題的求解過程。如果一個最優(yōu)化問題的可行域是凸集且目標函數(shù)是凸函數(shù),則該問題為凸優(yōu)化問題。一個標準的凸優(yōu)化問題可以表示為凸優(yōu)化問題具有一些獨特的性質(zhì):唯一性和全局最優(yōu)性、分離定理和強對偶性。在凸優(yōu)化的框架下,可以進一步細分為無約束最優(yōu)化問題、等式約束最優(yōu)化問題和不等式約束最優(yōu)化問題。其中,

為凸目標函數(shù),

是不等式約束函數(shù),為凸函數(shù);

是等式約束,為仿射(線性)函數(shù)。2.4最優(yōu)化理論-無約束最優(yōu)化問題56無約束最優(yōu)化問題:是指沒有任何約束條件的優(yōu)化問題。目標是在整個空間中找到使目標函數(shù)達到最優(yōu)的點。其數(shù)學(xué)形式表示為梯度下降法:是一種一階優(yōu)化算法,用于尋找函數(shù)的極小值。其基本思想是從一個初始點出發(fā),沿著目標函數(shù)的負梯度方向迭代更新,使得目標函數(shù)值逐步減小,最終找到極小值點。梯度:是一個向量,表示函數(shù)在某一點的最大上升方向。函數(shù)

在點

處的梯度定義為2.4最優(yōu)化理論-無約束最優(yōu)化問題57

梯度的負方向即該點的最速下降方向。梯度下降法的步驟如下:Step1:選擇一個初始點Step2:計算目標函數(shù)在當前點

處的梯度

。Step3:沿著負梯度方向更新迭代點,更新公式為

其中,

是步長,通常通過一維搜索確定。Step4:重復(fù)Step2和Step3,直到梯度的范數(shù)小于預(yù)設(shè)的閾值或達到最大迭代次數(shù)。步長

的選擇對梯度下降法的收斂速度和效果影響很大。常見的步長選擇方法包括固定步長、線搜索和自適應(yīng)步長等。2.4最優(yōu)化理論-等式約束最優(yōu)化問題58等式約束最優(yōu)化問題:是指在優(yōu)化過程中,除了要找到目標函數(shù)的極值點,還需要滿足一組等式約束條件。其標準形式如下:常采用拉格朗日乘數(shù)法求解。該方法是一種用于解決等式約束優(yōu)化問題的數(shù)學(xué)方法,其基本思想是通過引入拉格朗日乘子,將有約束的優(yōu)化問題轉(zhuǎn)化為無約束的優(yōu)化問題來求解??紤]一個最優(yōu)化問題,目標是最小化或最大化目標數(shù)

,同時滿足約束條件

。2.4最優(yōu)化理論-等式約束最優(yōu)化問題59拉格朗日乘數(shù)法通過引入一個拉格朗日乘子λ,構(gòu)造如下拉格朗日函數(shù):

其基本求解步驟如下:Step1:將目標函數(shù)和約束條件結(jié)合,構(gòu)造拉格朗日函數(shù)

。Step2:對拉格朗日函數(shù)

分別對

求偏導(dǎo)數(shù),并令其等于零,得到一組方程:

Step3:解上述方程組,得到

的值,這些值就是最優(yōu)解的候選。Step4:將最優(yōu)解代入約束條件,驗證其是否滿足,如果滿足則該解為最優(yōu)解。2.4最優(yōu)化理論-不等式約束最優(yōu)化問題60不等式約束最優(yōu)化問題:不等式約束最優(yōu)化問題是指在優(yōu)化過程中,需要滿足一組約束條件。這些約束條件可以是等式約束、不等式約束或者二者的組合。其數(shù)學(xué)形式為對于最優(yōu)化問題,若其約束條件為等式約束,則可以直接通過引入拉格朗日乘子進行求解。而對于存在不等式約束的問題,直接引入拉格朗日乘子較難求解。KKT條件擴展了拉格朗日乘數(shù)法的應(yīng)用范圍,不僅包括等式約束,還包括不等式約束。2.4最優(yōu)化理論-不等式約束最優(yōu)化問題61KKT條件包含以下幾個部分:(1)可行性條件:(2)拉格朗日函數(shù)的梯度條件:(3)拉格朗日乘子的非負性:(4)互松弛條件:2.4最優(yōu)化理論-不等式約束最優(yōu)化問題62

其基本求解步驟如下:Step1:構(gòu)造拉格朗日函數(shù)

,其中Step2:對

求偏導(dǎo)數(shù),并設(shè)偏導(dǎo)數(shù)為零,得到KKT條件:

Step3:解這組方程,得到

、和

的值。機器學(xué)習(xí)與模式識別第三章機器學(xué)習(xí)基礎(chǔ)第三章機器學(xué)習(xí)基礎(chǔ)

3.1監(jiān)督學(xué)習(xí)

3.2無監(jiān)督學(xué)習(xí)

3.3半監(jiān)督學(xué)習(xí)64第三章機器學(xué)習(xí)基礎(chǔ)學(xué)習(xí)類型核心特點(數(shù)據(jù)集)關(guān)鍵任務(wù)教學(xué)重點監(jiān)督學(xué)習(xí)分類(離散標簽)、回歸(連續(xù)標簽)經(jīng)典算法原理+參數(shù)優(yōu)化無監(jiān)督學(xué)習(xí)聚類、降維、異常檢測數(shù)據(jù)結(jié)構(gòu)挖掘+算法適用場景半監(jiān)督學(xué)習(xí)少量標記+大量未標記樣本降低標注成本、提升模型泛化性自學(xué)習(xí)流程+梯形網(wǎng)絡(luò)65核心內(nèi)容3.1監(jiān)督學(xué)習(xí)——“有老師指導(dǎo)的學(xué)習(xí)”

66

圖1一維樣本的線性回歸3.1監(jiān)督學(xué)習(xí)核心算法速覽

67算法名稱核心思想適用場景線性回歸房價預(yù)測、銷量預(yù)測(回歸)邏輯回歸用Sigmoid函數(shù)將線性輸出映射到[0,1],輸出“類別概率”,最大化似然估計二分類(如疾病篩查)決策樹以“特征閾值”構(gòu)建樹狀結(jié)構(gòu),用“熵/信息增益”選擇最優(yōu)分裂特征,直觀可解釋分類/回歸(如客戶分層)支持向量機(SVM)找“最大間隔超平面”分隔數(shù)據(jù),用核函數(shù)處理非線性可分問題高維數(shù)據(jù)分類(如圖像識別)隨機森林集成多個決策樹,用“Bagging”降低過擬合,提升泛化能力復(fù)雜數(shù)據(jù)分類(如醫(yī)療診斷)3.1監(jiān)督學(xué)習(xí)經(jīng)典算法(1):線性回歸與邏輯回歸68

一、線性回歸(回歸任務(wù)代表)3.1監(jiān)督學(xué)習(xí)經(jīng)典算法(1):線性回歸與邏輯回歸69

二、邏輯回歸(分類任務(wù)代表)3.1監(jiān)督學(xué)習(xí)經(jīng)典算法(2):決策樹與支持向量機70

一、決策樹(可解釋性強的分類/回歸算法)3.1監(jiān)督學(xué)習(xí)經(jīng)典算法(2):決策樹與支持向量機71核心目標:找到“最大間隔超平面”,使兩類樣本到超平面的距離最大(提升泛化能力);關(guān)鍵技術(shù):軟間隔:允許少量樣本越界,用“鉸鏈損失”平衡間隔與分類錯誤;核函數(shù):將非線性可分數(shù)據(jù)映射到高維空間(如RBF核、多項式核),實現(xiàn)線性可分;應(yīng)用場景:圖像識別、文本分類(高維特征數(shù)據(jù))。二、支持向量機(SVM,高維數(shù)據(jù)分類優(yōu)勢)3.1監(jiān)督學(xué)習(xí)經(jīng)典算法(3):K近鄰、樸素貝葉斯與集成學(xué)習(xí)

72

一、K近鄰(KNN,非參數(shù)算法)3.1監(jiān)督學(xué)習(xí)經(jīng)典算法(3):K近鄰、樸素貝葉斯與集成學(xué)習(xí)

73

二、樸素貝葉斯3.1監(jiān)督學(xué)習(xí)經(jīng)典算法(3):K近鄰、樸素貝葉斯與集成學(xué)習(xí)

74核心思想:“多個弱模型集成→強模型”,通過“Bagging”(有放回抽樣)降低方差(避免過擬合);隨機森林步驟:生成B

個訓(xùn)練樣本集(有放回抽樣);每個樣本集訓(xùn)練

1

棵決策樹(分裂時隨機選特征子集);分類:多數(shù)投票;回歸:平均輸出;優(yōu)勢:抗過擬合、對異常值不敏感。三、集成學(xué)習(xí)(隨機森林)3.2無監(jiān)督學(xué)習(xí)——“自主探索數(shù)據(jù)規(guī)律”

75數(shù)據(jù)集特點:僅含特征向量??,無標簽??(如“用戶行為數(shù)據(jù)”“未分類的圖片集”)核心目標:無需人工干預(yù),自動挖掘數(shù)據(jù)內(nèi)在結(jié)構(gòu),常見任務(wù)包括:聚類:將相似樣本歸為一類(如用戶分群);降維:減少特征維度,保留關(guān)鍵信息(如PCA);異常檢測:識別與多數(shù)樣本差異大的“異常值”(如欺詐交易識別)。圖2k=3的k均值算法的過程。圓是二維特征向量;正方形是移動的質(zhì)心。3.2無監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)的核心差異76對比維度監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)數(shù)據(jù)集需標記樣本(成本高)無需標記樣本(成本低)學(xué)習(xí)目標學(xué)習(xí)“特征→標記”映射挖掘數(shù)據(jù)內(nèi)在結(jié)構(gòu)結(jié)果評估用測試集準確率/誤差評估需人工分析(如聚類有效性指標)典型場景預(yù)測、分類探索性數(shù)據(jù)分析3.2無監(jiān)督學(xué)習(xí)核心算法速覽

77算法名稱核心邏輯優(yōu)勢與適用場景K均值聚類1.指定K個初始質(zhì)心;2.樣本按“歐氏距離”歸為最近質(zhì)心;3.更新質(zhì)心→迭代至穩(wěn)定簡單高效,適用于球形聚類(如用戶分群)DBSCAN(密度聚類)按“ε鄰域密度”劃分聚類,無需指定K,可識別任意形狀聚類適合非球形數(shù)據(jù)(如區(qū)域異常檢測)層次聚類自底向上合并(凝聚式)/自頂向下拆分(分裂式),生成“樹狀圖”需展示聚類層級關(guān)系(如生物分類)3.2無監(jiān)督學(xué)習(xí)經(jīng)典算法(1):K均值聚類78核心原理:基于“距離”的聚類算法,將N個樣本劃分為K個不相交的簇,使簇內(nèi)樣本相似度高、簇間相似度低。詳細算法步驟:步驟1:確定超參數(shù)K(需人工指定,如根據(jù)業(yè)務(wù)需求分“高、中、低”三類用戶);步驟

2:初始化K個質(zhì)心(隨機從樣本中選K個點作為初始簇中心);步驟3:樣本分配:計算每個樣本到各質(zhì)心的歐氏距離,將樣本歸入“最近質(zhì)心”所在簇;步驟

4:更新質(zhì)心:計算每個簇的“樣本均值”,作為新質(zhì)心;步驟5:迭代終止:重復(fù)步驟3-4,直到質(zhì)心位置不再變化或迭代次數(shù)達標。3.2無監(jiān)督學(xué)習(xí)經(jīng)典算法(1):K均值聚類79關(guān)鍵問題與解決辦法問題1:初始質(zhì)心影響結(jié)果→解決:多次運行取最優(yōu)結(jié)果;問題2:K值難確定→解決:用“肘部法則”(簇內(nèi)誤差隨K增大而減小,拐點處為最優(yōu)K);問題3:僅適用于球形簇→解決:改用密度聚類(如DBSCAN)。案例“電商用戶分群”:用K=3,特征為“消費金額、購買頻率”,聚類后得到“高價值用戶、中等價值用戶、低價值用戶”。3.2無監(jiān)督學(xué)習(xí)經(jīng)典算法(2):密度聚類與層次聚類80核心定義:基于“樣本密度”劃分簇,無需指定K,可識別任意形狀的簇(如環(huán)形、不規(guī)則形);關(guān)鍵超參數(shù):??(鄰域半徑):定義“近鄰”的范圍;??(最小樣本數(shù)):若某樣本的??鄰域內(nèi)樣本數(shù)≥??,則該樣本為“核心點”;聚類步驟:隨機選未標記樣本??,找到其??鄰域內(nèi)的所有樣本;若??為核心點,生成新簇,遞歸加入其鄰域內(nèi)的核心點;若??為“噪聲點”(鄰域樣本數(shù)<

??),標記為異常值;重復(fù)直到所有樣本被標記;優(yōu)勢:能自動識別異常值,適用于非球形數(shù)據(jù)(如區(qū)域交通流量聚類)。一、DBSCAN(密度聚類代表)3.2無監(jiān)督學(xué)習(xí)經(jīng)典算法(2):密度聚類與層次聚類81核心分類:凝聚式(自底向上):初始每個樣本為一個簇,逐步合并“最相似的簇”;分裂式(自頂向下):初始所有樣本為一個簇,逐步拆分“最不相似的簇”;關(guān)鍵輸出:樹狀圖(Dendrogram),可通過“截斷樹狀圖”選擇聚類數(shù)目(如截斷在高度2

處,得到

3個簇);應(yīng)用場景:生物學(xué)分類(如物種進化樹)、文本主題聚類。二、層次聚類3.3半監(jiān)督學(xué)習(xí)——“少量標注+大量無標記”的折中

82半監(jiān)督學(xué)習(xí)的核心背景數(shù)據(jù)困境:標記樣本成本高(如醫(yī)療影像需醫(yī)生標注),未標記樣本易獲?。ㄈ玑t(yī)院積累的大量未標注影像);核心假設(shè):利用未標記樣本的“分布信息”,輔助標記樣本訓(xùn)練模型,提升泛化能力。經(jīng)典方法:自學(xué)習(xí)(Self-Training)關(guān)鍵注意事項:置信度閾值需合理(過高:無新樣本加入;過低:引入錯誤標注);易受初始模型偏差影響(初始模型差,后續(xù)迭代會累積錯誤)。標記數(shù)據(jù)初始模型預(yù)測未標記數(shù)據(jù)更新模型第三章機器學(xué)習(xí)基礎(chǔ)對比維度監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)數(shù)據(jù)集少量標記+大量未標記核心目標精準預(yù)測/分類挖掘數(shù)據(jù)結(jié)構(gòu)降低標注成本代表算法線性回歸、SVM、隨機森林K均值、DBSCAN、層次聚類自學(xué)習(xí)、梯形網(wǎng)絡(luò)適用場景房價預(yù)測、垃圾郵件檢測用戶分群、異常檢測醫(yī)療影像診斷(標注少)關(guān)鍵難點標注成本高、過擬合聚類結(jié)果難評估高置信度樣本篩選83三大學(xué)習(xí)類型關(guān)鍵差異表機器學(xué)習(xí)與模式識別第四章模式識別基礎(chǔ)第四章

模式識別基礎(chǔ)跨學(xué)科的領(lǐng)域:涵蓋了計算機科學(xué)、數(shù)學(xué)、統(tǒng)計學(xué)以及人工智能等多個領(lǐng)域模式識別的基本流程:數(shù)據(jù)采集與預(yù)處理、特征提取與選擇、模式分類與識別等環(huán)節(jié)。示例說明:以人臉識別為例,簡述“看到人臉→識別身份”的機器實現(xiàn)邏輯

85第四章

模式識別基礎(chǔ)86第四章

模式識別基礎(chǔ)

4.1特征提取與選擇

4.2統(tǒng)計模式識別

4.3聚類分析

4.4神經(jīng)網(wǎng)絡(luò)874.1特征提取與選擇特征提取與選擇技術(shù)通常介于對象特征數(shù)據(jù)采集和分類識別兩個環(huán)節(jié)之間,所提取與選擇特征的優(yōu)劣,強烈地影響著分類器的設(shè)計和性能。核心價值:影響分類器設(shè)計:好的特征可簡化分類器設(shè)計、提升性能

解決“維數(shù)災(zāi)難”:壓縮高維特征空間至低維,避免樣本不足時的計算復(fù)雜與性能下降

特征通常分為物理、結(jié)構(gòu)和數(shù)學(xué)三類。884.1特征提取與選擇特征處理的核心步驟:特征形成

定義:計算或測量得到的原始特征

原始特征的問題:

-維度過高,如512×512灰度圖像=262144維。

-難反映本質(zhì),如原始像素受攝像機位置、照度影響。

894.1特征提取與選擇特征處理的核心步驟:特征提取

定義:通過映射(線性/非線性)將高維原始特征→低維新特征

數(shù)學(xué)表達:若Y為測量空間、X為特征空間,變換A:Y→X為特征提取器

特征形成

定義:從原始特征中挑選最有效、最具代表性的特征,不生成新特征

目的:進一步降低特征維度

904.1特征提取與選擇特征提取和特征選擇91對比維度特征提取特征選擇核心邏輯變換組合原始特征,生成新特征篩選現(xiàn)有特征,無新特征生成實現(xiàn)方式線性/非線性映射(如K-L變換)專家經(jīng)驗/評價準則挑選(如可分離性判據(jù))典型場景原始特征維度極高(如圖像像素)原始特征存在冗余(如多個高度相關(guān)的特征)組合使用:先提取降維→再映射優(yōu)化,或反之。4.1.2類別可分離性判據(jù)定量衡量特征對分類的有效性,為特征篩選/映射提供標準滿足以下要求:與誤判概率或誤判概率的界限有單調(diào)關(guān)系。當特征相互獨立時,判據(jù)有可加性。判據(jù)具有度量特性。特征數(shù)目是單調(diào)不減的,即加入新的特征后,判據(jù)值不減小。92

基于類間距離的可分離性判據(jù)類域重疊越小,類別的可分離性越好;用幾何距離/離差測度來構(gòu)造類別可分離性判據(jù)。

點與點的歐氏距離:

點到點集的均方歐氏距離:93

基于類間距離的可分離性判據(jù)設(shè)

類類內(nèi)離差矩陣,,則總的類內(nèi)離差矩陣定義為:顯然,類內(nèi)離差矩陣的跡等于類內(nèi)均方歐氏距離,即總的類間離差矩陣定義為總體離差矩陣為:94

基于類間距離的可分離性判據(jù)

可在原始特征空間中用

、

的跡或行列式構(gòu)造許多可分離性判據(jù),如:95

基于類概率密度函數(shù)的

可分離性判據(jù)用概率密度重疊程度衡量,重疊越小→可分離性越好

96(a)完全可分(b)完全不可分圖4-1-1:一維情形下兩類概率密度分布的完全可分與完全不可分的情況下面介紹三種常用的基于類概率密度的判據(jù)。Bhattacharyya判據(jù)():與誤判概率的上界有直接關(guān)系Chernoff判據(jù)()顯然,當s=0.5時,97

基于類概率密度函數(shù)的可分離性判據(jù)

基于類概率密度函數(shù)的

可分離性判據(jù)3.散度判據(jù)()正態(tài)分布下等于馬氏距離平方98對于多類(C>2)問題,采用加權(quán)和的方法綜合各類別的可分離性判據(jù),可形成平均判據(jù)

基于熵函數(shù)的可分離性判據(jù)

用熵來作為不確定性的度量,熵越小→分類確定性越高

熵的定義是

是后驗概率。

應(yīng)選擇使熵最小的那些特征用于分類識別。

目標是使994.1.3特征抽取方法

線性變換框架:

求解最優(yōu)W:設(shè)選

前d個最大特征值對應(yīng)的特征向量100基于可分離性判據(jù)的特征抽取方法4.1.3特征抽取方法

多類問題處理:廣義可分離性判據(jù)+候選向量集廣義可分離性判據(jù)定義如下:

先求出一個候選向量集,采用搜索算法從中選出使J(W)最大的d個向量來構(gòu)成特征抽取矩陣。

101基于可分離性判據(jù)的特征抽取方法

基于離散K-L變換的特征抽取方法

K-L變換又稱主成分分析(PrincipalComponentAnalysis,PCA),是一種基于目標統(tǒng)計特性的最佳正交變換,被廣泛應(yīng)用于數(shù)據(jù)壓縮、特征降維等方面。

變換特性:新分量正交、均方誤差最小、能量集中

核心步驟:

求隨機向量x的自相關(guān)矩陣

求R的特征值和特征向量,構(gòu)成變換矩陣

(選前m個最大特征值)

變換得到m維新向量102

特征模糊化與特征模糊評價特征模糊化:將原有的一個特征轉(zhuǎn)化為若干個模糊特征,如身高的描述可以是“偏高/中等/偏低”等

模糊評價:根據(jù)各類已知樣本對每一個特征定義某種合理的隸屬度函數(shù),構(gòu)造相應(yīng)的模糊集,然后用其模糊程度作為特征的評價。

類內(nèi)模糊度大、類間模糊度小→分類好

1034.1.4特征選擇方法兩個核心問題:確定選擇特征的標準、設(shè)計特征選擇搜索算法兩種方法對比:直接利用窮舉耗散搜索方法,往往是不可能實現(xiàn)的,因此需要優(yōu)化搜索算法。104方法類型定義優(yōu)勢過濾方法與分類器無關(guān),基于數(shù)據(jù)特性評價運行速度快,適用于大規(guī)模數(shù)據(jù)封裝方法結(jié)合分類器性能評價泛化能力更強窮舉法的局限性(舉例:m=20,d=10時組合數(shù)達184756種)

經(jīng)典的優(yōu)化搜索方法1.最優(yōu)搜索算法:自上而下+回溯,利用判據(jù)單調(diào)性剪枝設(shè)原m維空間有六個特征,整個搜索過程可以用樹表示出來,如從6通過“界值”剪枝非最優(yōu)分支

105圖4-1-2應(yīng)用分支定界算法進行特征選擇的搜索樹示例

經(jīng)典的優(yōu)化搜索方法2.次優(yōu)搜索算法:單獨最優(yōu)的特征選擇:只有采用可分離性判據(jù),這種方法才能選出一組最優(yōu)特征。順序前進法:最簡單的自下而上,每次加最優(yōu)特征

順序后退法:最簡單的自上而下,每次刪最差特征增

l減

r法

:加入局部回溯

106由于該方法是在高維空間中計算的,所以計算量比順序前進法更大。

新的優(yōu)化搜索算法遺傳算法:二進制編碼→初始群體→適應(yīng)度評估→選擇/交叉/變異模擬退火算法:基于溫度下降的鄰域搜索,避免局部最優(yōu)Tabu搜索算法:用Tabu表記錄歷史解,避免重復(fù)

1074.2統(tǒng)計模式識別108模式:p維向量

設(shè)識別問題含有C個類別,記為分類變量z,記為

,則模式

屬于

4.2.1基本模型圖4-2-1模式分類器雙模型構(gòu)成:描述性模型(反映類間差異)+預(yù)測模型(預(yù)測未知類別)訓(xùn)練:用標注樣本確定分類器參數(shù),即歸納推理:用訓(xùn)練好的模型識別未知樣本,即演繹4.2.2解決模式識別問題的步驟109從問題到特征

:問題表述:明確研究目的與計劃。

數(shù)據(jù)采集:測量相關(guān)變量記錄采集過程

數(shù)據(jù)初檢:核對數(shù)據(jù)、計算統(tǒng)計量、可視化。

特征選擇或提?。?/p>

選擇:從原始變量中挑最優(yōu)子集提?。壕€性/非線性變換生成新特征如均值、方差如直方圖、散點圖4.2.2解決模式識別問題的步驟110從數(shù)據(jù)分析到評估

:無監(jiān)督聚類:探索性數(shù)據(jù)分析或預(yù)處理分類/回歸方法應(yīng)用:用訓(xùn)練集設(shè)計分類器結(jié)果評估:混淆矩陣,準確率a的計算解釋說明:迭代優(yōu)化,補充樣本、調(diào)整特征等。如SVM、決策樹4.2.3問題討論111分類器的設(shè)計過程涉及

:有限樣本集優(yōu)化有代表性的數(shù)據(jù)圖4-2-2對含噪的一組樣本進行曲線擬合,含噪的數(shù)據(jù)取樣于一個二次函數(shù);擬合曲線分別為線性擬合、二次擬合和高階多項式擬合4.2.5基本決策理論112(1)最小錯誤貝葉斯決策規(guī)則貝葉斯定理:后驗概率決策規(guī)則:若

,則將x

歸入ωj

類。圖4-2-3和圖4-2-4給出了兩類識別問題的一個簡單說明。4.2.5基本決策理論113(1)最小錯誤貝葉斯決策規(guī)則錯誤概率:貝葉斯錯分概率為最小化錯分概率等價于最大化正分概率4.2.5基本決策理論114(2)最小錯誤貝葉斯決策規(guī)則—拒絕分類將采樣空間劃分成兩個互補的區(qū)域:拒絕域R和接受域A(或分類域),定義為:通過貝葉斯最優(yōu)分類器的拒絕函數(shù)計算錯誤率為如果樣本x位于接受域A,則可用基于最小錯誤的貝葉斯決策規(guī)則將其分類。如果x位于拒絕域R,則拒絕對x的分類。4.2.5基本決策理論115(3)最小風(fēng)險貝葉斯決策規(guī)則風(fēng)險定義:考慮錯分代價,損失矩陣A,其元素決策邏輯:選擇使條件風(fēng)險最小的類別與最小錯誤的關(guān)聯(lián):等代價損失矩陣下,等價于最小錯誤決策4.2.5基本決策理論116(4)最小風(fēng)險貝葉斯決策規(guī)則—拒絕分類與最小錯誤貝葉斯決策規(guī)則類似,也可以將拒絕分類引入最小風(fēng)險貝葉斯決策規(guī)則,定義拒絕域R其貝葉斯風(fēng)險為4.2.5基本決策理論117(5)Neyman-Pearson決策規(guī)則適用場景:兩類問題,固定一類錯誤率(誤確定率),使另一類錯誤率(誤否定率)最小化

基于似然比的決策規(guī)則示例:雷達檢測,固定誤警率,最小化漏識率。4.2.5基本決策理論118(6)最小最大決策適用場景:類先驗概率未知的情形核心邏輯:使“最大期望損失”

最小,最優(yōu)解滿足

最小最大一詞指的是使最大期望損失或最大錯誤率最小。圖4-2-5最小最大示意圖4.2.6判別函數(shù)119判別函數(shù)的定義與作用

定義:判別函數(shù)是模式x

的函數(shù),通過函數(shù)值大小劃分類別。如兩類問題,判別函數(shù)是

作用:判別函數(shù)的形式是選定的,將概率決策轉(zhuǎn)化為函數(shù)計算,簡化分類器實現(xiàn)

4.2.6判別函數(shù):三類典型判別函數(shù)120類型形式特點與應(yīng)用線性判別函數(shù)(線性機)超平面劃分,決策域為凸域;如最小距離分類器分段線性判別函數(shù)(每類有多個原型點的情況)非凸決策域;如最近鄰分類器,棋盤形決策邊界廣義線性判別函數(shù)(φ

工作機)解決非線性可分問題;如二次型、徑向基函數(shù)4.2.6判別函數(shù):三類典型判別函數(shù)121類型形式線性判別函數(shù)(線性機)

圖4-2-7最小距離分類器的決策域分段線性判別函數(shù)(每類有多個原型點的情況)

圖4-2-9具有狄利克雷棋盤形布局的決策域

廣義線性判別函數(shù)(φ

工作機)圖4-2-10通過對變量的非線性變換,使得允許使用線性判別函數(shù)成為可能4.2.6判別函數(shù)122廣義線性判別函數(shù)中φi的選擇4.2.7多重回歸123回歸的基本概念:研究因變量(或響應(yīng))Y和自變量(或預(yù)測)X1,…,Xp之間的關(guān)系核心是估計

識別問題是類變量的回歸,即響應(yīng)變量為類變量。

線性回歸:參數(shù)θ是線性的,變量不一定是線性的。用線性回歸實現(xiàn)二分類4.2.7多重回歸124圖4-2-11對若干虛擬數(shù)據(jù)的回歸梗概圖判別函數(shù)的參數(shù)估計,如最小平方誤差,與回歸參數(shù)估計邏輯一致

4.3聚類分析125定義:無監(jiān)督分類,按“相似樣本歸為一類、不相似樣本分入不同類”原則

與統(tǒng)計模式識別的區(qū)別:無需標注訓(xùn)練樣本,依賴數(shù)據(jù)內(nèi)在特性

若選用不同的相似性(或不相似性)度量,會得出不同結(jié)果。圖4-3-1聚類示例

圖4-3-2不同相似性度量4.3.1距離及相似性度量距離應(yīng)滿足三條公理性質(zhì)經(jīng)典距離明考夫斯基距離:馬氏距離:消除量綱與相關(guān)性影響

126特例:當p=2時,等價于歐氏距離當p=1時,等價于絕對值距離當p→∞時,等價于切比雪夫距離不同距離的聚類結(jié)果可能不同4.3.1距離及相似性度量127其他度量名義尺度:相關(guān)系數(shù):如特征間相關(guān)系數(shù)定義為4.3.2聚類準則128一個準則函數(shù),此準則函數(shù)與樣本的分法有關(guān),于是聚類問題成為找一個最佳劃分,使所定義的準則函數(shù)極小。離差平方和準則

定義:

邏輯:類內(nèi)樣本越相似,J越小分類越合理

在某些情況下,以J最小做準則就不很合適圖4-3-3陰影部分被歸錯類4.3.2聚類準則129離散度準則

是建立在離散度矩陣的基礎(chǔ)上的。相關(guān)定義如下:總類內(nèi)離散度矩陣類間離散度矩陣總離散度矩陣等

4.3.2聚類準則130離散度準則目標:類內(nèi)特性接近,類間特性差別大。

3種判據(jù)形式:-跡準則:

最小,等價于離差平方和

-行列式準則:

最小

-其他準則:

最大,具有線性變換不變性。

聚類問題中類別總數(shù)C的確定是一個較重要的問題。上面所說的幾個離散度準則在C值確定以后能夠反映不同分法的合理與否,但對于C值的確定沒有什么幫助。4.3.3系統(tǒng)聚類法131核心邏輯:從單點類開始,逐次合并距離最近的類,直至所有樣本歸為一類

關(guān)鍵要素:類間距離定義

(a)模式空間

(b)聚類圖

圖4-3-4聚類示意圖若門限T取大一些,則最終歸并成兩類,而若門限T取小一些,則歸并為六類4.3.3系統(tǒng)聚類法132方法類間距離定義距離遞推公式最短距離法兩類最近樣本距離新類與其他類間的距離最長距離法和中間距離法兩類最遠樣本距離

距離修正重心法、類平均和可變類平均法兩類重心距離離差平方和法為若把p,q合并,J的增量:4.3.3系統(tǒng)聚類法133離差平方和法和重心法的類間距離定義很相似,只是相差一個因子

,有關(guān)公式見表4-3-1。八種系統(tǒng)聚類法,并類的原則和步驟是完全一樣的。不同的是類間距離的定義和遞推公式,可以用下述公式將它們統(tǒng)一起來:相應(yīng)的參數(shù)αp,αq,β,γ的取值列于表4-3-2.4.3.3系統(tǒng)聚類法134并類距離單調(diào)性:

若有D1≤D1≤D3≤.....成立,則稱這種系統(tǒng)聚類方法具有并類距離單調(diào)性。具有并類單調(diào)性的系統(tǒng)聚類法:最短距離法、最長距離法離差平方和法、類平均法重心法不滿足并類距離單調(diào)性4.3.3系統(tǒng)聚類法135不同聚類方法的不同結(jié)果

(a)原始數(shù)據(jù)(b)最短距離法分類結(jié)果

(c)重心法分類結(jié)果(d)原始數(shù)據(jù)有幾個點的觀察誤差較大時的最短距離法分類結(jié)果圖4-3-9不同聚類方法的不同結(jié)果4.3.4動態(tài)聚類法136動態(tài)聚類法是先對數(shù)據(jù)粗略地分一下類,然后根據(jù)一定的原則對初始分類進行迭代修正,希望經(jīng)過多次迭代,修正收斂到一個合理的分類結(jié)果。圖4-3-10動態(tài)聚類方框圖4.3.4動態(tài)聚類法137(1)K-means算法核心思想:最小化離差平方和J步驟:

選定K個初始中心

樣本歸到最近中心的類

計算新類均值作為新中心

重復(fù)2-3,直至中心不變

特點:簡單高效,對初始中心敏感4.3.4動態(tài)聚類法138(2)ISODATA算法優(yōu)勢:通過類的分裂或合并自適應(yīng)調(diào)整類別數(shù)輸入?yún)?shù):核心步驟:分類→丟棄小類→修正中心→分裂/合并→迭代參數(shù)配合:θC與θS的選用較關(guān)鍵,兩者要配合恰當。具體來說,若θC小,則必須要兩個類靠得很近才能并類;若θS小,則某些類在某分量上的標準差σi>θS的條件容易滿足,因而容易分裂。小的θC和θS將產(chǎn)生較多的類(難并易分)。反之,大的θC和θS將產(chǎn)生較少的類(難分易合)。4.4神經(jīng)網(wǎng)絡(luò):簡介139發(fā)展四階段:從淺層網(wǎng)絡(luò)到深層網(wǎng)絡(luò),從線性可分到復(fù)雜非線性

階段時間關(guān)鍵成果意義啟蒙階段1943-19581943年M-P模型、1949年Hebb規(guī)則、1958年感知器奠定神經(jīng)網(wǎng)絡(luò)基礎(chǔ),首次實現(xiàn)機器分類低潮階段1969-1981《Perceptrons》指出線性感知器局限性暴露技術(shù)瓶頸,研究陷入低谷復(fù)興階段1982-19881982年Hopfield網(wǎng)絡(luò)、1984年Boltzmann機、1986年BP算法、1988年RBF網(wǎng)絡(luò)突破線性局限,實現(xiàn)非線性學(xué)習(xí)再次高潮2006-至今2006年深度學(xué)習(xí)、CNN/RNN/GAN、量子神經(jīng)網(wǎng)絡(luò)處理復(fù)雜數(shù)據(jù),如圖像和語音,性能大幅提升4.4神經(jīng)網(wǎng)絡(luò):簡介140人工神經(jīng)元圖4-4-1生物神經(jīng)網(wǎng)絡(luò)示意圖圖4-4-2人工神經(jīng)元結(jié)構(gòu)模擬生物神經(jīng)元:輸入→加權(quán)求和→激活函數(shù)→輸出人工神經(jīng)網(wǎng)絡(luò)的輸出取決于網(wǎng)絡(luò)的結(jié)構(gòu)、網(wǎng)絡(luò)的連接方式、權(quán)重和激活函數(shù)。4.4神經(jīng)網(wǎng)絡(luò):簡介141人工神經(jīng)網(wǎng)絡(luò)特點:聯(lián)想記憶功能、并行性、非線性、自學(xué)習(xí)和自適應(yīng)性人工神經(jīng)網(wǎng)絡(luò)分類:前饋網(wǎng)絡(luò)(BP、RBF)和反饋網(wǎng)絡(luò)(Hopfield)激活函數(shù)的性質(zhì):非線性、可微性、單調(diào)性常見激活函數(shù):閾值函數(shù)、Sigmoid、tanh、ReLU、P-ReLU、ELU、Maxout4.4神經(jīng)網(wǎng)絡(luò):簡介142主要激活函數(shù)類型公式特點Sigmoid函數(shù)輸出(0,1),存在梯度消失tanh函數(shù)輸出(-1,1),零均值,仍有梯度消失ReLU函數(shù)f(x)=max(0,x)收斂快,x<0時梯度為0P-ReLU函數(shù)f(x)=max(ax,x)(a為參數(shù))解決ReLU梯度消失,a=0.01時為Leaky-ReLUELU函數(shù)抗干擾強,無梯度消失4.4神經(jīng)網(wǎng)絡(luò):簡介143激活函數(shù)圖4-4-4tanh函數(shù)圖4-4-3Sigmoid函數(shù)圖4-4-5ReLU函數(shù)圖4-4-6P-ReLU函數(shù)圖4-4-7ELU函數(shù)4.4.2感知器144(1)單層感知器結(jié)構(gòu):輸入層→一層計算單元→輸出層超平面方程:局限性:僅解決線性可分問題(2)多層感知器:增加一層或多層處理單元,解決非線性問題,如二層感知器可以解決異或邏輯運算問題。4.4.3BP神經(jīng)網(wǎng)絡(luò)145多層前向反饋網(wǎng)絡(luò)結(jié)構(gòu):輸入層→隱含層→輸出層基本原理:前向傳播計算誤差,反向傳播調(diào)整權(quán)值和閾值。圖4-4-8BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)4.4.3BP神經(jīng)網(wǎng)絡(luò)146算法步驟:初始化→輸入樣本→計算各節(jié)點的輸出→誤差判斷→反向調(diào)整→收斂參數(shù)選擇:樣本數(shù)樣本的組成與輸入順序初始權(quán)值隱含層節(jié)點數(shù)圖4-4-9BP神經(jīng)網(wǎng)絡(luò)流程圖4.4.4RBF神經(jīng)網(wǎng)絡(luò)147RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):輸入層→隱含層(徑向基函數(shù))→輸出層(線性變換)徑向基函數(shù):RBF網(wǎng)絡(luò)的輸出可表示為圖4-4-10RBF神經(jīng)網(wǎng)絡(luò)4.4.4RBF神經(jīng)網(wǎng)絡(luò)148一種強有力的核方法。主要步驟是選擇基函數(shù)、選取基函數(shù)的中心、寬度參數(shù)選擇和求權(quán)重值。優(yōu)勢:局部逼近能力強、收斂速度快于BP網(wǎng)絡(luò)、泛化性能穩(wěn)定

適用場景:非線性函數(shù)擬合、圖像邊緣檢測、時間序列預(yù)測常用求權(quán)重系數(shù)的方法有最小均方誤差法和遞推最小二乘法。4.4.5Hopfield網(wǎng)絡(luò)(1)離散Hopfield神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):單層反饋網(wǎng)絡(luò)(神經(jīng)元間相互連接,無明顯輸入輸出層劃分)

每個神經(jīng)元在時刻t的狀態(tài)按式(4-4-10)和式(4-4-11)進行不斷變化。

149圖4-4-11離散Hopfield網(wǎng)絡(luò)的結(jié)構(gòu)4.4.5Hopfield網(wǎng)絡(luò)(1)離散Hopfield神經(jīng)網(wǎng)絡(luò)有異步和同步兩種工作方式。

異步離散Hopfield網(wǎng)絡(luò)步驟:網(wǎng)絡(luò)初始化→隨機選取神經(jīng)元→計算輸入→計算輸出→判斷網(wǎng)絡(luò)是否穩(wěn)定→收斂(2)連續(xù)型Hopfield神經(jīng)網(wǎng)絡(luò)

轉(zhuǎn)移函數(shù)為連續(xù)型函數(shù),工作狀態(tài)為同步工作狀態(tài),能量函數(shù)定義為:1504.4.6最新的幾種深度學(xué)習(xí)網(wǎng)絡(luò)受限玻爾茲曼機(RestrictedBoltzmannMachine,RBM)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)深度信念網(wǎng)絡(luò)(DeepBeliefNets,DBN)循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)生成對抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,GAN)1514.4.6最新的幾種深度學(xué)習(xí)網(wǎng)絡(luò)受限玻爾茲曼機(RBM)152圖4-4-12玻爾茲曼機結(jié)構(gòu)圖4-4-13受限玻爾茲曼機結(jié)構(gòu)4.4.6最新的幾種深度學(xué)習(xí)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)153圖4-4-14卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)4.4.6最新的幾種深度學(xué)習(xí)網(wǎng)絡(luò)深度信念網(wǎng)絡(luò)(DBN):訓(xùn)練步驟主要分為預(yù)訓(xùn)練和微調(diào)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)生成對抗網(wǎng)絡(luò)(GAN):通過生成模型網(wǎng)絡(luò)和判別模型網(wǎng)絡(luò)的互相博弈學(xué)習(xí)產(chǎn)生好的輸出。154圖4-4-15循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)習(xí)題什么是特征提取與選擇?請簡要描述其概念?;陬愰g距離的可分離性判據(jù)是如何評估類別可分離性的?請簡要說明其原理。特征選擇方法有哪些?請列舉并簡要介紹一種經(jīng)典的優(yōu)化搜索方法和一種新的優(yōu)化搜索算法。統(tǒng)計模式識別的基本模型是什么?請簡要描述其組成部分。解決模式識別問題的步驟有哪些?請簡要說明每一步的內(nèi)容。155習(xí)題什么是判別函數(shù),在統(tǒng)計模式識別中有何作用?距離及相似性度量的概念是什么?系統(tǒng)聚類法與動態(tài)聚類法有什么區(qū)別?聚類準則在聚類分析中的作用是什么?感知器的基本原理是什么?BP神經(jīng)網(wǎng)絡(luò)的主要特點和應(yīng)用是什么?受限玻爾茲曼機(RBM)與深度信念網(wǎng)絡(luò)(DBN)有什么關(guān)系?156機器學(xué)習(xí)與模式識別第五章深度學(xué)習(xí)第五章

深度學(xué)習(xí)定義:人工智能領(lǐng)域革命性技術(shù),模擬人腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),從大量數(shù)據(jù)中自動提取特征與模式核心能力:為復(fù)雜任務(wù)提供解決方案,覆蓋圖像識別、自然語言處理、時間序列數(shù)據(jù)處理等領(lǐng)域典型應(yīng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論