《智能科學(xué)技術(shù)導(dǎo)論》-第六講-智能科學(xué)基本問題三

上傳人：憤*** IP屬地：浙江上傳時(shí)間：2026-01-15 格式：PPTX 頁數(shù)：119 大?。?4.81MB 積分：9.6 舉報(bào) 版權(quán)申訴

《智能科學(xué)技術(shù)導(dǎo)論》-第六講-智能科學(xué)基本問題三_第2頁

《智能科學(xué)技術(shù)導(dǎo)論》-第六講-智能科學(xué)基本問題三_第3頁

《智能科學(xué)技術(shù)導(dǎo)論》-第六講-智能科學(xué)基本問題三_第4頁

《智能科學(xué)技術(shù)導(dǎo)論》-第六講-智能科學(xué)基本問題三_第5頁

已閱讀5頁，還剩114頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

模式識(shí)別知識(shí)

推理口智能的基本問題回顧搜索求解智能

探源學(xué)習(xí)

發(fā)現(xiàn)教會(huì)機(jī)器人做事取經(jīng)萬里口基本問題五：學(xué)習(xí)發(fā)現(xiàn)學(xué)習(xí)，是(智能)系統(tǒng)在不斷重復(fù)的工作中對(duì)本身能力的增強(qiáng)或

改

進(jìn)

。

——西蒙道法自然3機(jī)器學(xué)習(xí)需要解答問題：學(xué)什么?——烹飪?永春?說相聲?■從哪里學(xué)?——師傅?師娘?■怎么學(xué)?——手把手?無師自通?訓(xùn)練數(shù)據(jù)訓(xùn)練、優(yōu)化新數(shù)據(jù)輸入模

型預(yù)測未來4機(jī)器學(xué)習(xí)工作機(jī)制：訓(xùn)練到預(yù)測全量數(shù)據(jù)集拆分訓(xùn)練集驗(yàn)證集預(yù)測集模型調(diào)參訓(xùn)練好的模型訓(xùn)練好的模型模型預(yù)測

模型預(yù)測模型評(píng)估

模型評(píng)估訓(xùn)練階段

應(yīng)用階段當(dāng)前炙手可熱的深度機(jī)器學(xué)習(xí)給出的答案學(xué)什么:

函數(shù)從哪里學(xué)：數(shù)據(jù)怎么學(xué)：反向傳播、梯度下降X1X2X3用數(shù)學(xué)的方輸入層

隱層

輸出層■

機(jī)器學(xué)習(xí)概述■

監(jiān)督學(xué)習(xí)■

無監(jiān)督學(xué)習(xí)■

自監(jiān)督學(xué)習(xí)■

從神經(jīng)元到感知機(jī)再到神經(jīng)網(wǎng)絡(luò)■

強(qiáng)化學(xué)習(xí)課程內(nèi)容智能機(jī)器就是函數(shù)y

x+b輸入輸出y為收入，x為工作年限，則預(yù)測曲線為y=kx+b,

那

么k=?,

b=?最簡單的函數(shù)——線性函數(shù)：思想：把函數(shù)估算出來，然后代入新值到函數(shù)中，

得到的結(jié)果，就實(shí)現(xiàn)預(yù)測了!Xoverfittingθo+θ1x+θ?x2+θ?x3+θ4x?復(fù)雜的函數(shù)——非線性函數(shù)：θo+θ1xθo+θ1x+θ?x2UnderfittingJust

right!Xx監(jiān)

督

學(xué)

習(xí)(supervisedlearning)數(shù)據(jù)有標(biāo)簽、

一般為回歸或分類等任務(wù)自監(jiān)督學(xué)習(xí)無

監(jiān)

督

學(xué)

習(xí)(un-supervised

learning)數(shù)據(jù)無標(biāo)簽、

一般為聚類或若干降維任務(wù)強(qiáng)

化

學(xué)

習(xí)(reinforcement

learning)序列數(shù)據(jù)決策學(xué)習(xí)，一般為與從環(huán)境交互中學(xué)習(xí)機(jī)器學(xué)習(xí)的分類■

機(jī)器學(xué)習(xí)概述■監(jiān)督學(xué)習(xí)■

無監(jiān)督學(xué)習(xí)■

自監(jiān)督學(xué)習(xí)■

從神經(jīng)元到感知機(jī)再到神經(jīng)網(wǎng)絡(luò)■

強(qiáng)化學(xué)習(xí)課程內(nèi)容標(biāo)注數(shù)據(jù)標(biāo)識(shí)了類別信息的數(shù)據(jù)學(xué)習(xí)模型如何學(xué)習(xí)得到映射模型損失函數(shù)如何對(duì)學(xué)習(xí)結(jié)果進(jìn)行度量監(jiān)督學(xué)習(xí)的重要元素f(

數(shù)

學(xué)

好

=Yes,會(huì)

編

程

=Yes,身

體

好

嗓

門

大

)→

程序員類別映射函數(shù)從數(shù)據(jù)中學(xué)習(xí)人員

類型標(biāo)注程序員A作家A程序員B醫(yī)生A程序員C程序員D嗓門大YesNoNoYesYesNo機(jī)器學(xué)習(xí)：監(jiān)督學(xué)習(xí)分類問題的標(biāo)注會(huì)編

程YesYesNo身體

好NoNoYesYesNoYesYesYesYes·YesYesYesYesYesYes標(biāo)簽數(shù)據(jù)數(shù)學(xué)好模式●訓(xùn)練集中一共有n個(gè)標(biāo)注數(shù)據(jù)，第i個(gè)標(biāo)注數(shù)據(jù)記為(xi,yi),其中第i個(gè)樣本數(shù)據(jù)為xi,yi是x;的標(biāo)注信息。●從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)得到的映射函數(shù)記為f,f對(duì)xi的預(yù)測結(jié)果記為f(x?)。損失函數(shù)就是用來計(jì)算x;真實(shí)值yi與預(yù)測值f(xi)

之間差值的函數(shù)。●很顯然，在訓(xùn)練過程中希望映射函數(shù)在訓(xùn)練數(shù)據(jù)集上得到

“損失”之和最小，

即minZt=1Loss(f(x;),yi)。訓(xùn)練映射函數(shù)f使得f(xi)預(yù)測結(jié)果盡量等于yi訓(xùn)練數(shù)據(jù)集(x;,yi),i=1,…,n監(jiān)督學(xué)習(xí)：損失函數(shù)損失函數(shù)名稱損失函數(shù)定義0-1損失函數(shù)平方損失函數(shù)Loss(yi,f(xi))=(yi-f(xi))2絕對(duì)損失函數(shù)Loss(yi,f(xi))=Iyi-f(xi)I對(duì)數(shù)損失函數(shù)/對(duì)數(shù)似然損失函數(shù)Loss(y,P(v;Ix?)=-logP(Vilx;)訓(xùn)練映射函數(shù)f使得f(xi)

預(yù)測結(jié)果盡量等于yi訓(xùn)練數(shù)據(jù)集(x;,yi),i=1,…,n典型的損失函數(shù)監(jiān)督學(xué)習(xí)：訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)從訓(xùn)練數(shù)據(jù)集學(xué)習(xí)

得到映射函數(shù)f未知數(shù)據(jù)集上測試映射函數(shù)f在測試數(shù)據(jù)集

測試映射函數(shù)f測試數(shù)據(jù)集(x?',yi'),i=1,…,m訓(xùn)練數(shù)據(jù)集(x;,y;),i=1,…,n期望風(fēng)險(xiǎn)(expected

risk):當(dāng)測試集中存在無窮多數(shù)據(jù)時(shí)產(chǎn)生的損失。期望風(fēng)險(xiǎn)越小，學(xué)習(xí)所得模型越好。經(jīng)驗(yàn)風(fēng)險(xiǎn)(empirical

risk)訓(xùn)練集中數(shù)據(jù)產(chǎn)生的損失。

經(jīng)驗(yàn)風(fēng)險(xiǎn)越小說明學(xué)習(xí)模型

對(duì)訓(xùn)練數(shù)據(jù)擬合程度越好。監(jiān)督學(xué)習(xí)：經(jīng)驗(yàn)風(fēng)險(xiǎn)與期望風(fēng)險(xiǎn)從訓(xùn)練數(shù)據(jù)集學(xué)

習(xí)得到映射函數(shù)f在測試數(shù)據(jù)集

測試映射函數(shù)f測試數(shù)據(jù)集(xi',yi'),i=1,…,m訓(xùn)練數(shù)據(jù)集(x;,yi),i=1,…,n經(jīng)驗(yàn)風(fēng)險(xiǎn)小(訓(xùn)練集上表現(xiàn)好)期望風(fēng)險(xiǎn)小(測試集上表現(xiàn)好)泛化能力強(qiáng)經(jīng)驗(yàn)風(fēng)險(xiǎn)小(訓(xùn)練集上表現(xiàn)好)期望風(fēng)險(xiǎn)大(測試集上表現(xiàn)不好)過學(xué)習(xí)(模型過于復(fù)雜)經(jīng)驗(yàn)風(fēng)險(xiǎn)大(訓(xùn)練集上表現(xiàn)不好)dy期望風(fēng)險(xiǎn)大(測試集上表現(xiàn)不好)欠學(xué)習(xí)經(jīng)驗(yàn)風(fēng)險(xiǎn)大(訓(xùn)練集上表現(xiàn)不好)期望風(fēng)險(xiǎn)小(測

試集上表現(xiàn)好)“神仙算法”

或“黃粱美夢”監(jiān)督學(xué)習(xí)：“過學(xué)習(xí)(over-fitting)”與“欠學(xué)習(xí)

(under-fitting)”經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化2r(期望風(fēng)險(xiǎn)最小化Loss(y

f(x)P(x,y)da監(jiān)督學(xué)習(xí)兩種方法：

判別模型與生成模型監(jiān)督學(xué)習(xí)方法又可以分為生成方法(generative

approach)和判別方法(discriminative

approach)。所學(xué)到的模型分別稱為生

成

模

型(generative

model)和判別模型(discriminative

model).●判別方法直接學(xué)習(xí)判別函數(shù)f(X)

或者條件概率

分布P(Y|X)

作為預(yù)測的模型，即判別模型。●判別模型關(guān)心在給定輸入數(shù)據(jù)下，預(yù)測該數(shù)據(jù)的

輸出是什么。●典型判別模型包括回歸模型、神經(jīng)網(wǎng)絡(luò)、支持向

量機(jī)和Ada

boosting等。人臉)=0.99P(

人

臉|監(jiān)督學(xué)習(xí)兩種方法：

判別模型與生成模型●生成模型從數(shù)據(jù)中學(xué)習(xí)聯(lián)合概率分布P(X,Y)

(通過似然概率P(X|Y)

和類概率

P(Y)

的乘積來求取)●典型方法為貝葉斯方法、隱馬爾可夫鏈●授之于魚、不如授之于“漁”●聯(lián)合分布概率P(X,Y)或似然概率P(X|Y)求

取很困難似然概率：計(jì)算導(dǎo)致樣本X出現(xiàn)的模型參數(shù)值P(Yx)=PXIP×P或者●

分類●識(shí)別●推薦訓(xùn)練數(shù)據(jù)集(x;,yi),i=1,…,n監(jiān)督學(xué)習(xí)應(yīng)用訓(xùn)練映射函數(shù)f線性回歸監(jiān)督模型——線性回歸

(linear

regression)在現(xiàn)實(shí)生活中，往往需要分析若干變量之間的關(guān)系，如碳排放量與氣候變暖之間的關(guān)系、某一商品廣告投入量與該商品

銷售量之間的關(guān)系等，這種分析不同變量之間存在關(guān)系的研究

叫回歸分析，刻畫不同變量之間關(guān)系的模型被稱為回歸模型。

如果這個(gè)模型是線性的，則稱為線性回歸模型。一旦確定了回歸模型，就可以進(jìn)行預(yù)測等分析工作，如從碳排放量預(yù)測氣候變化程度、從廣告投入量預(yù)測商品銷售量等。y=33.73(英寸)+0.516xy:子女平均身高x:

父母平均身高●父母平均身高每增加一個(gè)單位，其

成年子女平均身高只增加0.516個(gè)單

位

，

它反

映

了

這

種“

衰

退

(regression)”

效應(yīng)(“回歸”到

正常人平均身高)?！耠m然x和y之間并不總是具有“衰退”

(回歸)關(guān)系，但是“線性回歸”這一名稱就保留了下來了。英國著名生物學(xué)家兼統(tǒng)計(jì)學(xué)家高爾頓SirFrancisGalton(1822-1911)y=33.73

(英寸)+0.516xy:子女平均身高

x:父母平均身高●給出任意一對(duì)父母平均身高，則可根據(jù)上述方程，計(jì)算得到

其子女平均身高●從父母平均身高來預(yù)測其子女平均身高●如何求取上述線性方程(預(yù)測方程)的參數(shù)?需要從標(biāo)注數(shù)據(jù)

中學(xué)習(xí)得到(監(jiān)督學(xué)習(xí))該回歸模型中兩個(gè)參數(shù)線性回歸：參數(shù)學(xué)習(xí)舉例下表給出了芒提茲尼歐

(Montesinho)地區(qū)發(fā)生森林

火災(zāi)的部分歷史數(shù)據(jù)，表中列舉了每次發(fā)生森林火災(zāi)時(shí)的

氣溫溫度取值x和受到火災(zāi)影響的森林面積y。可否對(duì)氣溫溫度與火災(zāi)所影響的森林面積之間關(guān)系進(jìn)行

建模呢?初步觀察之后，可以使用簡單的線性模型構(gòu)建兩

者之間關(guān)系，即氣溫溫度x與火災(zāi)所影響的森林面積y之間

存在y=

ax+b

形式的關(guān)系。氣溫溫度x5.18.211.513.915.116.219.623.3火災(zāi)影響面積y2.144.628.2411.2413.9916.3319.2328.74回歸模型：y=ax+b求取：最佳回歸模型是最小

化殘差平方和的均值，即要求8

組(x,y)數(shù)據(jù)得到的殘差平均值∑

(y-)2

最小。殘差平均值最

小只與參數(shù)a

和b有關(guān)，最優(yōu)解

即是使得殘差最小所對(duì)應(yīng)的a和

的

值

。氣溫溫度取值和受到火災(zāi)影響森林面積之間的一元線性回歸模型(實(shí)線為最佳回歸模型)線性回歸：參數(shù)學(xué)習(xí)線性回歸：

參數(shù)學(xué)習(xí)回歸模型參數(shù)求?。簓i=axi+b(1≤i≤n)●記在當(dāng)前參數(shù)下第i個(gè)訓(xùn)練樣本xi的預(yù)測值為yi●xi的標(biāo)注值(實(shí)際值)yi與預(yù)測值i

之差記為(yi-y

i)2●

訓(xùn)練集中n個(gè)樣本所產(chǎn)生誤差總和為：目標(biāo)：尋找一組a和b,

使得誤差總和L(a,b)值最小。在線

性回歸中，解決如此目標(biāo)的方法叫最小二乘法。一般而言，要使函數(shù)具有最小值，可對(duì)L(a,b)參數(shù)a

和b分

別求導(dǎo)，令其導(dǎo)數(shù)值為零，再求取參數(shù)a

和b的取值?？梢钥闯觯褐灰o出了訓(xùn)練樣本(x;,yi)(i=1,…,n),

我們就可以從訓(xùn)練樣本出發(fā)，建立一個(gè)線性回歸方程，使得對(duì)訓(xùn)練樣本數(shù)據(jù)而

言，該線性回歸方程預(yù)測的結(jié)果與樣本標(biāo)注

結(jié)果之間的差值和最小?；貧w模型參數(shù)求?。簓i=axi+b(1≤i≤n)4

代入上式回歸模型參數(shù)求取：yi=axi

+b(1≤i≤n)即預(yù)測芒提茲尼歐地區(qū)火災(zāi)所影響森林面積與氣溫溫度之間的一元線性回歸模型為“火災(zāi)所影響的森林面積=1.428×氣溫溫度-7.09”,即y=1.428x-7.09回歸模型參數(shù)求?。簓i=axi+b(1≤i≤n)b=y-ax=-7.09b=y-axk-近鄰(KNN)物以類聚，人以群分k-近鄰

(KNN)·近鄰的表現(xiàn)與樣本自身的表現(xiàn)相近。·主體思想：根據(jù)距離相近的鄰居類別，來判定自己的所屬

類別

。Training

instanceDistanceK=3K=1?Newexample

toclassifyClass

1Class

235k-近鄰

(KNN)需要關(guān)注的點(diǎn)一如何衡量距離?-k

如何取值?一權(quán)值如何定義(不同近鄰的影響力是否一樣)?一如何決定最終的輸出(決策函數(shù))?36k-近鄰

(KNN)·

距

離一樣本之間的相似性度量

特

點(diǎn)一非負(fù)值d(i,j)≥0,d(i,i)=0

一對(duì)稱性d(i,j)=d(j,i)-

三角不等式d(i,j)≤d(i,k)+d(k,j)37k-近鄰

(KNN)·

距離衡量標(biāo)準(zhǔn)閔可夫斯基距離、切比雪夫距離、馬氏距離、巴氏距

離、余弦值等·

閔可夫斯基距離

(Minkowski

Distance)一

X=(x?,X?,…,xn),y=(y?,V?,…,yn)∈R曼哈頓距離歐式距離-p=1:-p=2:38一權(quán)值如何定義(不同近鄰的影響力是否一樣)?不考慮權(quán)值一如何決定最終的輸出(決策函數(shù))?近鄰類別決定最終輸出1-近鄰

(KNN)一如何衡量距離?歐式距離(或其他)-k

如何取值?k=139一如何衡量距離?歐式距離-k

如何取值?經(jīng)驗(yàn)一權(quán)值如何定義(不同近鄰的影響力是否一樣)?不考慮權(quán)值(或距離越近權(quán)值越高)一如何決定最終的輸出(決策函數(shù))?近鄰類別的均值決定最終輸出k-近鄰

(KNN)401-近鄰

k-近鄰5-近鄰1-近鄰41■

機(jī)器學(xué)習(xí)概述■

監(jiān)督學(xué)習(xí)■

無監(jiān)督學(xué)習(xí)■

自監(jiān)督學(xué)習(xí)■

從神經(jīng)元到感知機(jī)再到神經(jīng)網(wǎng)絡(luò)■

強(qiáng)化學(xué)習(xí)課程內(nèi)容無監(jiān)督概述什么是無監(jiān)督學(xué)習(xí)?現(xiàn)實(shí)生活中常常會(huì)有這樣的問題：缺乏足夠的先驗(yàn)知識(shí)，因此難以人工標(biāo)注類別或進(jìn)行人工類別標(biāo)注的成本太高。很自然

地，我們希望計(jì)算機(jī)能代我們完成這些工作，或至少提供一些

幫助。根據(jù)類別未知(沒有被標(biāo)記)的訓(xùn)練樣本解決模式識(shí)別中

的各種問題，稱之為無監(jiān)督學(xué)習(xí)。無監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一種訓(xùn)練方式或者學(xué)習(xí)方式。機(jī)器學(xué)習(xí)類型監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí)監(jiān)督學(xué)習(xí)美國伊利諾伊大學(xué)香檳分校韓家偉(Jianwei

Han)

教授認(rèn)為監(jiān)督學(xué)習(xí)可以被看做“分類

(classification)”的代名詞。計(jì)算機(jī)從有標(biāo)

簽的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)，然

后給定某個(gè)新數(shù)據(jù)，預(yù)測

這個(gè)新數(shù)據(jù)的標(biāo)簽，標(biāo)簽

是指某個(gè)事物所屬的類別

。簡單的說，監(jiān)督學(xué)習(xí)的

工作就是通過有標(biāo)簽的數(shù)

據(jù)訓(xùn)練，構(gòu)建一個(gè)模型，

然后通過這個(gè)模型，給新

數(shù)據(jù)添加上特定的標(biāo)簽。

可以參考右圖的內(nèi)容輔助

理解監(jiān)督學(xué)習(xí)。知道了，老師!(a)

根據(jù)已知數(shù)據(jù)集做訓(xùn)練這我學(xué)過，是狗狗。這是一只狗狗。這只動(dòng)物是什么?無監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)的訓(xùn)練方式，它本質(zhì)上是一個(gè)

統(tǒng)計(jì)手段，在沒有標(biāo)簽的數(shù)

據(jù)里可以發(fā)現(xiàn)潛在的一些結(jié)

構(gòu)的一種訓(xùn)練方式。無監(jiān)督學(xué)習(xí)中模型所學(xué)習(xí)

的數(shù)據(jù)都是無標(biāo)簽的，根據(jù)

類別未知的訓(xùn)練樣本解決模

式識(shí)別中的各種問題。無監(jiān)

督學(xué)習(xí)可以被看作聚類(cluster)

的近義詞，為了方

便理解可以結(jié)合左側(cè)圖片理

解無監(jiān)督學(xué)習(xí)的過程。無監(jiān)督學(xué)習(xí)這只動(dòng)物與狗狗好

像啊，就把他歸為

”狗狗“一類吧。(a)在非標(biāo)簽數(shù)據(jù)集中做歸納監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)1、

監(jiān)督學(xué)習(xí)是一種目標(biāo)明確的訓(xùn)練方式，你知道得到

的是什么,一般用于數(shù)據(jù)預(yù)測，而無監(jiān)督學(xué)習(xí)則沒有明確

目的的訓(xùn)練方法，是程序自動(dòng)產(chǎn)生的分組結(jié)果，主要是聚

類。2、監(jiān)督學(xué)習(xí)需要給數(shù)據(jù)打標(biāo)簽，以實(shí)現(xiàn)分類；而無監(jiān)

督學(xué)習(xí)不需要給數(shù)據(jù)加標(biāo)簽。3、監(jiān)督學(xué)習(xí)主要用于數(shù)據(jù)預(yù)測因而可以衡量效果，而

無監(jiān)督學(xué)習(xí)很難衡量。無監(jiān)督學(xué)習(xí)主要分為：聚類和降維兩大類■

聚

類聚類嘗試在沒有訓(xùn)練的條件下，對(duì)一些沒有標(biāo)簽的

數(shù)據(jù)進(jìn)行歸納分類。根據(jù)相似性對(duì)數(shù)據(jù)進(jìn)行分組，以便

對(duì)數(shù)據(jù)進(jìn)行概括。希望通過某種算法把這一組位置類別

的樣本劃分成若干類別，聚類的時(shí)候，并不關(guān)心某一類

是什么,實(shí)現(xiàn)的只是將相似的東西聚在一起。聚類算法分類：層次聚類、劃分聚類、密度聚類、

密度最大值聚類算法

(MDCA)

、

快速搜索聚類算法(

CFDP)

譜聚類算法

(Spectral

Clustering)、模型聚類

、動(dòng)態(tài)聚類。■降維什么是降維?現(xiàn)在有n個(gè)對(duì)象a1,a2,

…

,an,每個(gè)

對(duì)象有多個(gè)屬性x1,x2,……,xm。當(dāng)我們用矩陣表示這

些對(duì)象時(shí)，便是一個(gè)An×m的矩陣。舉個(gè)實(shí)例：假設(shè)我們有5只貓，每只貓的毛色、體型、身高、體重、

年齡、性別等特征各不相同。這里的貓就是我們的對(duì)象；“貓”這個(gè)稱呼是這個(gè)對(duì)象的標(biāo)簽；毛色、體型、體重等

特征就是我們所說的對(duì)象的屬性。在實(shí)際的圖像識(shí)別過程中，我們可能有大批數(shù)量的貓、

狗的圖片，所需的對(duì)象的屬性也是多個(gè)，這些屬性的個(gè)數(shù)

就是我們所說的維數(shù)。維數(shù)越多，信息量數(shù)據(jù)量越大，占

用的磁盤空間和內(nèi)存較多。實(shí)際上我們在實(shí)際中有時(shí)候并

用不到這么多的信息，所以就需要降維。降維是試圖壓縮

維度，并盡可能地保留分布信息。我們可以將其視為數(shù)據(jù)

壓縮，或者特征選擇。線性降維算法主要有：■主成分分析(PCA)■奇異值分解(SVD)■因子分析

(FA

)■獨(dú)立成分分析

(ICA)無監(jiān)督學(xué)習(xí)的使用場景案例一：發(fā)現(xiàn)異常：有很多違法行為都需要“洗錢”,這些洗錢行為

跟普通用戶的行為不一樣，到底哪里不一樣?如果通過

人為去分析是一件成本很高很復(fù)雜的事情，我們可以通

過這些行為的特征對(duì)，用戶進(jìn)行分類，就更容易找到那

些行為異常的用戶，然后再深入分析他們的行為到底哪

里不一樣，是否屬于違法洗錢的范疇.案例二：細(xì)分用戶這個(gè)對(duì)于廣告平臺(tái)很有意義，我們不僅把用戶按

照性別、年齡、地理位置等維度進(jìn)行用戶細(xì)分，還可

以通過用戶行為對(duì)用戶進(jìn)行分類。通過很多維度的用戶細(xì)分，廣告投放可以更有針對(duì)性，

效果也會(huì)更好。案例三：推薦系統(tǒng)：大家都聽過"啤酒+尿不濕"的故事，這個(gè)故事就是根據(jù)

用戶的購買行為來推薦相關(guān)的商品的一個(gè)例子。比如大家在淘寶、天貓、京東上逛的時(shí)候，總會(huì)根據(jù)

你的瀏覽行為推薦一些相關(guān)的商品，有些商品就是無監(jiān)督

學(xué)習(xí)通過聚類來推薦出來的系統(tǒng)會(huì)發(fā)現(xiàn)一些購買行為相似

的用戶，推薦這類用戶最“喜歡”的商品。K均值聚類K均值聚類

(K-means

聚類)■物以類聚，人以群分(《戰(zhàn)國策

·齊策三》)■輸入：n個(gè)數(shù)據(jù)(無任何標(biāo)注信息)■輸出：k個(gè)聚類結(jié)果■目的：將n個(gè)數(shù)據(jù)聚類到k個(gè)集合(也稱為類簇)d(xi,xj

)值越小，表示x;

和x;越相似；反之越不相似■

聚類集合數(shù)目k問題：如何將n

個(gè)數(shù)據(jù)依據(jù)其相似度大小將它們分別聚

類到k

個(gè)集合，使得每個(gè)數(shù)據(jù)僅屬于一個(gè)聚類集合。K均值聚類算法描述若干定義：■

n個(gè)m-維數(shù)據(jù){x?,X?,…,xn},xi∈Rm(1≤i≤n)■

兩個(gè)m

維數(shù)據(jù)之間的歐氏距離為初始化k個(gè)聚類質(zhì)心c={C?,C?,…,Ck},Cj∈Rm(1≤j≤k),每個(gè)聚類質(zhì)心c;所在集合記為G;第一步：初始化聚類質(zhì)心K均值聚類算法：初始化K均值聚類算法：對(duì)數(shù)據(jù)進(jìn)行聚類第二步：將每個(gè)待聚類數(shù)據(jù)放入唯一一個(gè)聚類集合中計(jì)算待聚類數(shù)據(jù)xi和質(zhì)心c

之間的歐氏距離d(xi,cj)(1≤i≤n,1≤j≤k)將每個(gè)xi放入與之距離最近聚類質(zhì)心所在聚類集合中，即：argmin

d(xi,Cj)Cj∈CK

均值聚類算法：更新聚類質(zhì)心第三步：根據(jù)聚類結(jié)果、更新聚類質(zhì)心根據(jù)每個(gè)聚類集合中所包含的數(shù)據(jù)，更新該聚類集合質(zhì)心值，即：K均值聚類算法：繼續(xù)迭代第四步：算法循環(huán)迭代，直到滿足條件在新聚類質(zhì)心基礎(chǔ)上，根據(jù)歐氏距離大小，將每個(gè)

待聚類數(shù)據(jù)放入唯一一個(gè)聚類集合中再根據(jù)新的聚類結(jié)果、更新聚類質(zhì)心聚類迭代滿足如下任意一個(gè)條件，則聚類停止：●已經(jīng)達(dá)到了迭代次數(shù)上限●

前后兩次迭代中，聚類質(zhì)心基本保持不變63主成分分析主成分分析：PrincipleComponentAnalysis(PCA)主成分分析是一種特征降維方法。人類在認(rèn)知過程中會(huì)主動(dòng)“化繁為簡”奧卡姆剃刀定律

(Occam’sRazor):“如無必要，勿增實(shí)體”,即“簡單有效原理”在數(shù)理統(tǒng)計(jì)中，方差被經(jīng)常用來度量數(shù)據(jù)和其數(shù)學(xué)期

望(即均值)之間偏離程度，這個(gè)偏離程度反映了數(shù)據(jù)分布

結(jié)構(gòu)。在許多實(shí)際問題中，研究數(shù)據(jù)和其均值之間的偏離程

度有著很重要的意義。在降維之中，需要盡可能將數(shù)據(jù)向方差最大方向進(jìn)行

投影，使得數(shù)據(jù)所蘊(yùn)含信息沒有丟失，彰顯個(gè)性。如左下圖

所示，向y

方向投影(使得二維數(shù)據(jù)映射為一

維)就比向x

方向投影結(jié)果在降維這個(gè)意義上而言要好；右下圖則是黃線

方向投影要好。保證樣本投影后方差最大向y

方向投影要好

x方向

向黃線方向投影要好

x方向y

方向y

方向主成分分析：算法動(dòng)機(jī)主成分分析思想是將n

維特征數(shù)據(jù)映射到l

維空間(n>l),

去除原始數(shù)據(jù)之間的冗余性(通過去除相關(guān)性手段達(dá)到

這

一

目的)。將原始數(shù)據(jù)向這些數(shù)據(jù)方差最大的方向進(jìn)行投影。將每個(gè)數(shù)據(jù)從n維高維空間映射到l維低維空間，每個(gè)數(shù)據(jù)所得到最好的k維特征就是使得每一維上樣本方差都盡可

能

大

。·

假定每一維度的特征均值均為零(已經(jīng)標(biāo)準(zhǔn)化)?！?/p>

主成分分析的目的是求取一個(gè)使用一個(gè)d×l

的映射矩陣W?！?/p>

給定一個(gè)樣本xi,可

將xi

從d維空間如下映射到l

維空間：

(xi)1×d(W)d×l●將所有降維后數(shù)據(jù)用Y

表示，有(Y=XW降

維

原

始

映

射

·Y=n×l結(jié)

果

數(shù)

據(jù)

矩

陣·

X=n×d·W=d×l·假設(shè)有n個(gè)d

維樣本數(shù)據(jù)所構(gòu)成的集合D={x?,x?,

中x;(1≤i≤n)∈Rd?！?/p>

集合D

可以表示成一個(gè)n×d

的矩陣X?！?xn},

其?如何求取

映射矩陣W主成分分析：算法描述(3)

矩陣相乘：

(內(nèi)標(biāo)相同)■將每幅人臉圖像轉(zhuǎn)換成列向量■如將一幅32×32的人臉圖像轉(zhuǎn)成1024×1的列向量特征人臉方法：算法描述1024×1特征人臉：算法描述

Y=n

×l

X=n×d

d×l輸入：n

個(gè)1024維人臉樣本數(shù)據(jù)所構(gòu)成的矩陣X,降維后的維數(shù)l,K<n輸出：映射矩陣W={w?,W?,…,Wi}

(其中每個(gè)w;(1≤

j≤1)是一個(gè)特征人臉)算法步驟：1:

對(duì)于每個(gè)人臉樣本數(shù)據(jù)xi進(jìn)行中心化處理：Xi=Xi

一μ,

2:計(jì)算原始人臉樣本數(shù)據(jù)的協(xié)方差矩陣：

3:對(duì)協(xié)方差矩陣

∑進(jìn)行特征值分解，對(duì)所得特征根從到

小排序λ1≥λ2≥…≥

λa4:取前l(fā)個(gè)最大特征根所對(duì)應(yīng)特征向量w?,W?,…,w?

組成

映射矩陣W5:將每個(gè)人臉圖像xi按照如下方法降維：(xi)1×a(W)d×l=1×l特征人臉：算法描述●每個(gè)人臉特征向量wi與原始人臉數(shù)據(jù)xi的維數(shù)是一樣

的，均為1024●選取其中l(wèi)個(gè)作為特征人臉400個(gè)人臉(左)和與之對(duì)應(yīng)的36個(gè)特征人臉■

機(jī)器學(xué)習(xí)概述■

監(jiān)督學(xué)習(xí)■

無監(jiān)督學(xué)習(xí)■自監(jiān)督學(xué)習(xí)■

從神經(jīng)元到感知機(jī)再到神經(jīng)網(wǎng)絡(luò)■

強(qiáng)化學(xué)習(xí)課程內(nèi)容FromComplianceto

Learning自監(jiān)督學(xué)習(xí)(Self-Supenvised

Learning).OM

示示材■

機(jī)器學(xué)習(xí)概述■

監(jiān)督學(xué)習(xí)■

無監(jiān)督學(xué)習(xí)■

自監(jiān)督學(xué)習(xí)■

從神經(jīng)元到感知機(jī)再到神經(jīng)網(wǎng)絡(luò)■

強(qiáng)化學(xué)習(xí)課程內(nèi)容樹突神經(jīng)末梢郎飛氏結(jié)細(xì)胞體軸突髓鞘細(xì)胞核生物神經(jīng)元通過改變連接的強(qiáng)度進(jìn)行學(xué)習(xí)!生物神經(jīng)元施萬細(xì)胞神經(jīng)元模型的圖像化表示MP是構(gòu)建神經(jīng)網(wǎng)絡(luò)大廈的基石!MP模型中的權(quán)重是預(yù)先設(shè)置的，因此不能學(xué)習(xí)。

因此需要設(shè)計(jì)能夠調(diào)整權(quán)值的方法實(shí)現(xiàn)學(xué)習(xí)。W?W?∑W?■

MP神經(jīng)元模型X?X?X3f()

ybaseWi,1Wi,2∑

(b)XjWi,n神經(jīng)元模型的圖像化表示神經(jīng)元模型的公式表示f(·)X1X2XnYi感知機(jī)提出神經(jīng)元

感知機(jī)區(qū)

別

：口感知機(jī)有兩層

(輸入層、輸出層),神經(jīng)元一層

口

神經(jīng)元的權(quán)值是固定的，感知機(jī)的權(quán)值可以改變輸入層f()

W?X3-y輸出層yfb從神經(jīng)元到感知機(jī)(Perceptron)W1W?W?X?X?X?W?W?base+∑感知機(jī)模型(兩層神經(jīng)元組成),每一個(gè)輸入x與其權(quán)

值w相乘求和然后加上一個(gè)偏置，然后輸入到激活函數(shù)f中

。w和b可以不斷調(diào)整，調(diào)整的過程就是學(xué)習(xí)過程!W10

(xo=+1X1XiXn輸入層0m

σ輸出層010i2

σσ圖中的感知機(jī)為例，里面一共是四個(gè)變量p?,P?,W?,W?,b

是常數(shù)，其特性如右圖，它可以提供了一種能力，在w?,W?確

定的時(shí)候，可以“鑒定”p?,p?

的組合是否符合w?,W?

約束的要

求(是不是落在灰色的部分)?？梢杂糜诜诸愑?jì)算!!!InputsTwo-Input

NeuronWP?iwp+b=01+W12

ba=hardlim(Wp+b)Pia=0a=1如圖，從左到右，“與”、

“非”、

“或”問題都是

線性可分的，感知機(jī)可以很容易通過調(diào)節(jié)參數(shù)獲得其決策

邊界，但是“異或”卻是線性不可分的，感知機(jī)對(duì)其無能

為

力

。Y1、異或

(如

在計(jì)算機(jī)

中用于判斷)AB

—Y邏輯表達(dá)式：Y=A·B+A●B=A田B相

同為“0”不同為“1”生活中的異或問題：動(dòng)物異性生殖，襪子左右成對(duì)…感知機(jī)初步解決了學(xué)習(xí)的問題，卻存在一個(gè)致命的問

題，無法解決異或問題!多層感知機(jī)與前饋神經(jīng)網(wǎng)絡(luò)0.5當(dāng)x?=0,x?=0時(shí)，u=1·0+(-1)·0-0.5=-0.5,f(u??)=f(-0.5)=0u??=(-1)·0+1·0-0.5=-0.5,f(u12)=f(-0.5)=0U?=1

·0+1

·0-0.5=-0.5,f(u?)=f(-0.5)=0,所以y=0當(dāng)x?=1,x?=1時(shí)

，u??=1·1+(-1)·1-0.5=-0.5,f(u??)=f(-0.5)=0u??=(-1)·1+1-1-0.5=-0.5,f(u??)=f(-0.5)=0U?=1·0+1·0-0.5=-0.5,f(u?)=f(-0.5)=0,所

以y=0X2(1,1)十(1,0)T1

“異或”問題(x?田

x?)前饋神經(jīng)網(wǎng)絡(luò)解決異或問題f(u)J0.5fum)f()

y0.5(0,1)(0,0)(d)1-1-1xx?0.5f(3)=sm(x)={0

x<0當(dāng)x?=1,x?=0時(shí)，u?=1-1+(-1)·0-0.5=0.5,f(u)=f(0.5)=1u1?=(-1)·1+1·0-0.5=-1.5,f(u??)=f(-1.5)=0Uu?=1

1+1

·0-0.5=0.5,f(u?)=f(0.5)=1,

所以y=1當(dāng)x?=0,x?=1時(shí)

，u?=1·0+(-1)·1-0.5-0.5,f(u?)=f(0.5)=1U12=(-1)·0+1-1-0.5=0.5,f(u??)=f(0.5)=1u?=1-1+1-1-0.51.5.

f(u?)=f(1.5)=1,

所

以y=1輸入輸出x?X?xXOR

X?00001110111知乎@人工智能AT算法X2(1,1)十(1,0)x1

“

異或”問題(x?田x?)f()J0.5fu)1

x-1-1x?●(u)-

y0.5(0,1)(0,0)(d)最早的神經(jīng)網(wǎng)絡(luò)就是前饋神經(jīng)網(wǎng)絡(luò)，他它包括輸入層、隱藏層、輸出層。感知機(jī)就是沒有隱藏層的前饋神經(jīng)網(wǎng)絡(luò)。前饋神經(jīng)網(wǎng)絡(luò)也就是多層感知機(jī)!輸入層隱層

輸出層激活函數(shù)激活函數(shù)(有時(shí)也叫傳遞函數(shù))具有以下性質(zhì)：□非線性□連續(xù)可微性□值域是有限的

口單調(diào)性口具有單調(diào)導(dǎo)數(shù)的光滑函數(shù)□函數(shù)值和輸入近似相等■

Sigmoido(x)=1+e-10SigmoidNanePlotEquationDerivativeIdentityf(x)=xf(x)=181nary

stepLogistic(a.ka

Soft

step)f'(x)=f(x)(1-f(x)TarHf'(x)=1-f(z)2ArcTanf(x)=tan?1(x)RectifiedLinear

Unit

(ReLU)ParanetericRectifiedLinear

Unit

(PReL0)[2]Exponentlal

Linear

Unit

(ELJ)3]SoftPlusf(z)=loge(1+e2)剝易號(hào)1deybnb激活函數(shù)的導(dǎo)數(shù)前向算法前饋神經(jīng)網(wǎng)絡(luò)

接收輸入，信

息通過網(wǎng)絡(luò)向

前流動(dòng)，最終

產(chǎn)生輸出，稱

之為前向傳播OO?=f(h?*W?+h?*W?+b?)O?=f(h?*W?+h?*W?+b?)h?=f(l?*W?+l?*W?+b?)h?=f(l?*W?+l?*W?+b?)y=01+0?損失函數(shù)一條一條的試，那么那條線更好呢?——用損失

函數(shù)

(loss

function)

來

評(píng)估從

y=kx+b

說起，

k=?,b=?

loss(xi,y;)=(Xi-y;)2損失函數(shù)是用來估量模型的預(yù)測值f(x)

與真實(shí)值Y的不一致程度，它是一個(gè)非負(fù)實(shí)值函數(shù)，損失函數(shù)越

小，模型認(rèn)為性能就越好。1.平方損失函數(shù)(最小二乘法，

Ordinary

LeastSquares,OLS)最小二乘的基本原則是：最優(yōu)擬合直線應(yīng)該是使

各點(diǎn)到回歸直線的距離和最小的直線，即平方和最小。當(dāng)樣本個(gè)數(shù)為n時(shí)，此時(shí)的損失函數(shù)為：而在實(shí)際應(yīng)用中，通常會(huì)使用均方差

(MSE)

作

為一項(xiàng)衡量指標(biāo)，公式如下：反向傳播算法真實(shí)標(biāo)簽y1YkYKY1YkYk輸入層X1-Xn—Xn—X1Xn—輸出層L222δ?Lδ;正向傳播反向傳播隱層12

δ?1σσσ隱層l+12

σσσ隱層l2

22δ?1σ誤差■鏈?zhǔn)角髮?dǎo)鏈?zhǔn)椒▌t是微積分中的求導(dǎo)法則，

用以求一個(gè)復(fù)

合函數(shù)的導(dǎo)數(shù)。所謂的復(fù)合函數(shù)，是指以一個(gè)函數(shù)

是另一個(gè)函數(shù)的自變量。如：

f(x)=3x,g(x)=x+3,g(f(x))就是一個(gè)復(fù)合函，有：g(f(x))=3x+3。鏈?zhǔn)椒▌t用文字描述，就是“由兩個(gè)函數(shù)湊起來

的復(fù)合函數(shù)，其導(dǎo)數(shù)等于里邊函數(shù)代入外邊函數(shù)的

值之導(dǎo)數(shù)，乘以里邊函數(shù)的導(dǎo)數(shù)。若h(x)=f(g(x)),則h'(x)=f'(g(x))g'(x)舉

例

：f(x)=x2,g(x)=2x+1,

則{f[g(x)]}'=2[g(x)]×g'(x)=2[2x+1]×2=8x+4An輸入層

隱含層

輸出層誤差正向傳播誤差反向傳播期望值■

反向傳播X?22?y?y2y3求

的梯度▽E,然后用下式更新全體權(quán)值W(s+1)=W(s)-η▽E梯度矩陣▽E由

E對(duì)每一個(gè)權(quán)重

的偏導(dǎo)數(shù)構(gòu)成采用鏈?zhǔn)角髮?dǎo)，最終得到結(jié)果如下(推導(dǎo)略):E誤差函數(shù)為：梯度下降■

梯度下降法損失函數(shù)J導(dǎo)數(shù)可以代表方向，對(duì)應(yīng)J增大的方向-n4參數(shù)theta■η的選擇根據(jù)量子力學(xué)理論：“世界的本質(zhì)是波函數(shù)。

”

也就是世界的本質(zhì)不是原子、光子，不是我們眼中所看到的這些已經(jīng)表象的東西，它的本質(zhì)是個(gè)函數(shù)。

則學(xué)習(xí)的關(guān)系和規(guī)律就可以用函數(shù)來表示。進(jìn)一步，根據(jù)萬用近似定理(指一個(gè)神經(jīng)網(wǎng)絡(luò)可

以以任意精度來近似任何連續(xù)函數(shù))則說明這種學(xué)

習(xí)是可行的。fx)可被近似模擬(a)

任意函數(shù)

(b)

被神經(jīng)網(wǎng)絡(luò)以任意精度模擬convolution

convolution

pooling

densepoolingdense6@14x14S2feature

map6@28×28C1feature

map早期嘗試Hubel&WieselZF

Net,

基于AlexNet,2013ILSVRC

冠軍歷史突破AlexNet使

用MNIST數(shù)據(jù)集，LeNet這是最早用于數(shù)字識(shí)別的CNN網(wǎng)絡(luò)加深2014ILSVRC,

圖像識(shí)別略差于VGGGoogLeNet,

但是在很多圖像分析問題(比如object

detection)上效果好密集連接DenseNet

2017年ILSVRC進(jìn)一步降低Classification錯(cuò)誤率如何去構(gòu)建這個(gè)深度網(wǎng)絡(luò)呢?一堆Net跳躍連接

2015年LSVRC,ResNetClassification獲得第一名發(fā)展和演化增加新的功能單元

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《智能科學(xué)技術(shù)導(dǎo)論》-第六講-智能科學(xué)基本問題三

文檔簡介

溫馨提示

最新文檔

評(píng)論

《智能科學(xué)技術(shù)導(dǎo)論》-第六講-智能科學(xué)基本問題三

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔