版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
模式識(shí)別知識(shí)
推理口智能的基本問題回顧搜索求解智能
探源學(xué)習(xí)
發(fā)現(xiàn)教會(huì)機(jī)器人做事取經(jīng)萬里口基本問題五:學(xué)習(xí)發(fā)現(xiàn)學(xué)習(xí),是(智能)系統(tǒng)在不斷重復(fù)的工作中對(duì)本身能力的增強(qiáng)或
改
進(jìn)
。
——西蒙道法自然3機(jī)器學(xué)習(xí)需要解答問題:學(xué)什么?——烹飪?永春?說相聲?■從哪里學(xué)?——師傅?師娘?■怎么學(xué)?——手把手?無師自通?訓(xùn)練數(shù)據(jù)訓(xùn)練、優(yōu)化新數(shù)據(jù)輸入模
型預(yù)測未來4機(jī)器學(xué)習(xí)工作機(jī)制:訓(xùn)練到預(yù)測全量數(shù)據(jù)集拆分訓(xùn)練集驗(yàn)證集預(yù)測集模型調(diào)參訓(xùn)練好的模型訓(xùn)練好的模型模型預(yù)測
模型預(yù)測模型評(píng)估
模型評(píng)估訓(xùn)練階段
應(yīng)用階段當(dāng)前炙手可熱的深度機(jī)器學(xué)習(xí)給出的答案學(xué)什么:
函數(shù)從哪里學(xué):數(shù)據(jù)怎么學(xué):反向傳播、梯度下降X1X2X3用數(shù)學(xué)的方輸入層
隱層
輸出層■
機(jī)器學(xué)習(xí)概述■
監(jiān)督學(xué)習(xí)■
無監(jiān)督學(xué)習(xí)■
自監(jiān)督學(xué)習(xí)■
從神經(jīng)元到感知機(jī)再到神經(jīng)網(wǎng)絡(luò)■
強(qiáng)化學(xué)習(xí)課程內(nèi)容智能機(jī)器就是函數(shù)y
=k
x+b輸入輸出y為收入,x為工作年限,則預(yù)測曲線為y=kx+b,
那
么k=?,
b=?最簡單的函數(shù)——線性函數(shù):思想:把函數(shù)估算出來,然后代入新值到函數(shù)中,
得到的結(jié)果,就實(shí)現(xiàn)預(yù)測了!Xoverfittingθo+θ1x+θ?x2+θ?x3+θ4x?復(fù)雜的函數(shù)——非線性函數(shù):θo+θ1xθo+θ1x+θ?x2UnderfittingJust
right!Xx監(jiān)
督
學(xué)
習(xí)(supervisedlearning)數(shù)據(jù)有標(biāo)簽、
一般為回歸或分類等任務(wù)自監(jiān)督學(xué)習(xí)無
監(jiān)
督
學(xué)
習(xí)(un-supervised
learning)數(shù)據(jù)無標(biāo)簽、
一般為聚類或若干降維任務(wù)強(qiáng)
化
學(xué)
習(xí)(reinforcement
learning)序列數(shù)據(jù)決策學(xué)習(xí),一般為與從環(huán)境交互中學(xué)習(xí)機(jī)器學(xué)習(xí)的分類■
機(jī)器學(xué)習(xí)概述■監(jiān)督學(xué)習(xí)■
無監(jiān)督學(xué)習(xí)■
自監(jiān)督學(xué)習(xí)■
從神經(jīng)元到感知機(jī)再到神經(jīng)網(wǎng)絡(luò)■
強(qiáng)化學(xué)習(xí)課程內(nèi)容標(biāo)注數(shù)據(jù)標(biāo)識(shí)了類別信息的數(shù)據(jù)學(xué)習(xí)模型如何學(xué)習(xí)得到映射模型損失函數(shù)如何對(duì)學(xué)習(xí)結(jié)果進(jìn)行度量監(jiān)督學(xué)習(xí)的重要元素f(
數(shù)
學(xué)
好
=Yes,會(huì)
編
程
=Yes,身
體
好
=
?
,
嗓
門
大
=
?
)→
程序員類別映射函數(shù)從數(shù)據(jù)中學(xué)習(xí)人員
類型標(biāo)注程序員A作家A程序員B醫(yī)生A程序員C程序員D嗓門大YesNoNoYesYesNo機(jī)器學(xué)習(xí):監(jiān)督學(xué)習(xí)分類問題的標(biāo)注會(huì)編
程YesYesNo身體
好NoNoYesYesNoYesYesYesYes·YesYesYesYesYesYes標(biāo)簽數(shù)據(jù)數(shù)學(xué)好模式●訓(xùn)練集中一共有n個(gè)標(biāo)注數(shù)據(jù),第i個(gè)標(biāo)注數(shù)據(jù)記為(xi,yi),其中第i個(gè)樣本數(shù)據(jù)為xi,yi是x;的標(biāo)注信息。●從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)得到的映射函數(shù)記為f,f對(duì)xi的預(yù)測結(jié)果記為f(x?)。損失函數(shù)就是用來計(jì)算x;真實(shí)值yi與預(yù)測值f(xi)
之間差值的函數(shù)。●很顯然,在訓(xùn)練過程中希望映射函數(shù)在訓(xùn)練數(shù)據(jù)集上得到
“損失”之和最小,
即minZt=1Loss(f(x;),yi)。訓(xùn)練映射函數(shù)f使得f(xi)預(yù)測結(jié)果盡量等于yi訓(xùn)練數(shù)據(jù)集(x;,yi),i=1,…,n監(jiān)督學(xué)習(xí):損失函數(shù)損失函數(shù)名稱損失函數(shù)定義0-1損失函數(shù)平方損失函數(shù)Loss(yi,f(xi))=(yi-f(xi))2絕對(duì)損失函數(shù)Loss(yi,f(xi))=Iyi-f(xi)I對(duì)數(shù)損失函數(shù)/對(duì)數(shù)似然損失函數(shù)Loss(y,P(v;Ix?)=-logP(Vilx;)訓(xùn)練映射函數(shù)f使得f(xi)
預(yù)測結(jié)果盡量等于yi訓(xùn)練數(shù)據(jù)集(x;,yi),i=1,…,n典型的損失函數(shù)監(jiān)督學(xué)習(xí):訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)從訓(xùn)練數(shù)據(jù)集學(xué)習(xí)
得到映射函數(shù)f未知數(shù)據(jù)集上測試映射函數(shù)f在測試數(shù)據(jù)集
測試映射函數(shù)f測試數(shù)據(jù)集(x?',yi'),i=1,…,m訓(xùn)練數(shù)據(jù)集(x;,y;),i=1,…,n期望風(fēng)險(xiǎn)(expected
risk):當(dāng)測試集中存在無窮多數(shù)據(jù)時(shí)產(chǎn)生的損失。期望風(fēng)險(xiǎn)越小,學(xué)習(xí)所得模型越好。經(jīng)驗(yàn)風(fēng)險(xiǎn)(empirical
risk)訓(xùn)練集中數(shù)據(jù)產(chǎn)生的損失。
經(jīng)驗(yàn)風(fēng)險(xiǎn)越小說明學(xué)習(xí)模型
對(duì)訓(xùn)練數(shù)據(jù)擬合程度越好。監(jiān)督學(xué)習(xí):經(jīng)驗(yàn)風(fēng)險(xiǎn)與期望風(fēng)險(xiǎn)從訓(xùn)練數(shù)據(jù)集學(xué)
習(xí)得到映射函數(shù)f在測試數(shù)據(jù)集
測試映射函數(shù)f測試數(shù)據(jù)集(xi',yi'),i=1,…,m訓(xùn)練數(shù)據(jù)集(x;,yi),i=1,…,n經(jīng)驗(yàn)風(fēng)險(xiǎn)小(訓(xùn)練集上表現(xiàn)好)期望風(fēng)險(xiǎn)小(測試集上表現(xiàn)好)泛化能力強(qiáng)經(jīng)驗(yàn)風(fēng)險(xiǎn)小(訓(xùn)練集上表現(xiàn)好)期望風(fēng)險(xiǎn)大(測試集上表現(xiàn)不好)過學(xué)習(xí)(模型過于復(fù)雜)經(jīng)驗(yàn)風(fēng)險(xiǎn)大(訓(xùn)練集上表現(xiàn)不好)dy期望風(fēng)險(xiǎn)大(測試集上表現(xiàn)不好)欠學(xué)習(xí)經(jīng)驗(yàn)風(fēng)險(xiǎn)大(訓(xùn)練集上表現(xiàn)不好)期望風(fēng)險(xiǎn)小(測
試集上表現(xiàn)好)“神仙算法”
或“黃粱美夢”監(jiān)督學(xué)習(xí):“過學(xué)習(xí)(over-fitting)”與“欠學(xué)習(xí)
(under-fitting)”經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化2r(期望風(fēng)險(xiǎn)最小化Loss(y
f(x)P(x,y)da監(jiān)督學(xué)習(xí)兩種方法:
判別模型與生成模型監(jiān)督學(xué)習(xí)方法又可以分為生成方法(generative
approach)和判別方法(discriminative
approach)。所學(xué)到的模型分別稱為生
成
模
型(generative
model)和判別模型(discriminative
model).●判別方法直接學(xué)習(xí)判別函數(shù)f(X)
或者條件概率
分布P(Y|X)
作為預(yù)測的模型,即判別模型。●判別模型關(guān)心在給定輸入數(shù)據(jù)下,預(yù)測該數(shù)據(jù)的
輸出是什么。●典型判別模型包括回歸模型、神經(jīng)網(wǎng)絡(luò)、支持向
量機(jī)和Ada
boosting等。人臉)=0.99P(
人
臉|監(jiān)督學(xué)習(xí)兩種方法:
判別模型與生成模型●生成模型從數(shù)據(jù)中學(xué)習(xí)聯(lián)合概率分布P(X,Y)
(通過似然概率P(X|Y)
和類概率
P(Y)
的乘積來求取)●典型方法為貝葉斯方法、隱馬爾可夫鏈●授之于魚、不如授之于“漁”●聯(lián)合分布概率P(X,Y)或似然概率P(X|Y)求
取很困難似然概率:計(jì)算導(dǎo)致樣本X出現(xiàn)的模型參數(shù)值P(Yx)=PXIP×P或者●
分類●識(shí)別●推薦訓(xùn)練數(shù)據(jù)集(x;,yi),i=1,…,n監(jiān)督學(xué)習(xí)應(yīng)用訓(xùn)練映射函數(shù)f線性回歸監(jiān)督模型——線性回歸
(linear
regression)在現(xiàn)實(shí)生活中,往往需要分析若干變量之間的關(guān)系,如碳排放量與氣候變暖之間的關(guān)系、某一商品廣告投入量與該商品
銷售量之間的關(guān)系等,這種分析不同變量之間存在關(guān)系的研究
叫回歸分析,刻畫不同變量之間關(guān)系的模型被稱為回歸模型。
如果這個(gè)模型是線性的,則稱為線性回歸模型。一旦確定了回歸模型,就可以進(jìn)行預(yù)測等分析工作,如從碳排放量預(yù)測氣候變化程度、從廣告投入量預(yù)測商品銷售量等。y=33.73(英寸)+0.516xy:子女平均身高x:
父母平均身高●父母平均身高每增加一個(gè)單位,其
成年子女平均身高只增加0.516個(gè)單
位
,
它反
映
了
這
種“
衰
退
(regression)”
效應(yīng)(“回歸”到
正常人平均身高)?!耠m然x和y之間并不總是具有“衰退”
(回歸)關(guān)系,但是“線性回歸”這一名稱就保留了下來了。英國著名生物學(xué)家兼統(tǒng)計(jì)學(xué)家高爾頓SirFrancisGalton(1822-1911)y=33.73
(英寸)+0.516xy:子女平均身高
x:父母平均身高●給出任意一對(duì)父母平均身高,則可根據(jù)上述方程,計(jì)算得到
其子女平均身高●從父母平均身高來預(yù)測其子女平均身高●如何求取上述線性方程(預(yù)測方程)的參數(shù)?需要從標(biāo)注數(shù)據(jù)
中學(xué)習(xí)得到(監(jiān)督學(xué)習(xí))該回歸模型中兩個(gè)參數(shù)線性回歸:參數(shù)學(xué)習(xí)舉例下表給出了芒提茲尼歐
(Montesinho)地區(qū)發(fā)生森林
火災(zāi)的部分歷史數(shù)據(jù),表中列舉了每次發(fā)生森林火災(zāi)時(shí)的
氣溫溫度取值x和受到火災(zāi)影響的森林面積y。可否對(duì)氣溫溫度與火災(zāi)所影響的森林面積之間關(guān)系進(jìn)行
建模呢?初步觀察之后,可以使用簡單的線性模型構(gòu)建兩
者之間關(guān)系,即氣溫溫度x與火災(zāi)所影響的森林面積y之間
存在y=
ax+b
形式的關(guān)系。氣溫溫度x5.18.211.513.915.116.219.623.3火災(zāi)影響面積y2.144.628.2411.2413.9916.3319.2328.74回歸模型:y=ax+b求取:最佳回歸模型是最小
化殘差平方和的均值,即要求8
組(x,y)數(shù)據(jù)得到的殘差平均值∑
(y-)2
最小。殘差平均值最
小只與參數(shù)a
和b有關(guān),最優(yōu)解
即是使得殘差最小所對(duì)應(yīng)的a和
b
的
值
。氣溫溫度取值和受到火災(zāi)影響森林面積之間的一元線性回歸模型(實(shí)線為最佳回歸模型)線性回歸:參數(shù)學(xué)習(xí)線性回歸:
參數(shù)學(xué)習(xí)回歸模型參數(shù)求?。簓i=axi+b(1≤i≤n)●記在當(dāng)前參數(shù)下第i個(gè)訓(xùn)練樣本xi的預(yù)測值為yi●xi的標(biāo)注值(實(shí)際值)yi與預(yù)測值i
之差記為(yi-y
i)2●
訓(xùn)練集中n個(gè)樣本所產(chǎn)生誤差總和為:目標(biāo):尋找一組a和b,
使得誤差總和L(a,b)值最小。在線
性回歸中,解決如此目標(biāo)的方法叫最小二乘法。一般而言,要使函數(shù)具有最小值,可對(duì)L(a,b)參數(shù)a
和b分
別求導(dǎo),令其導(dǎo)數(shù)值為零,再求取參數(shù)a
和b的取值??梢钥闯觯褐灰o出了訓(xùn)練樣本(x;,yi)(i=1,…,n),
我們就可以從訓(xùn)練樣本出發(fā),建立一個(gè)線性回歸方程,使得對(duì)訓(xùn)練樣本數(shù)據(jù)而
言,該線性回歸方程預(yù)測的結(jié)果與樣本標(biāo)注
結(jié)果之間的差值和最小?;貧w模型參數(shù)求?。簓i=axi+b(1≤i≤n)4
代入上式回歸模型參數(shù)求取:yi=axi
+b(1≤i≤n)即預(yù)測芒提茲尼歐地區(qū)火災(zāi)所影響森林面積與氣溫溫度之間的一元線性回歸模型為“火災(zāi)所影響的森林面積=1.428×氣溫溫度-7.09”,即y=1.428x-7.09回歸模型參數(shù)求?。簓i=axi+b(1≤i≤n)b=y-ax=-7.09b=y-axk-近鄰(KNN)物以類聚,人以群分k-近鄰
(KNN)·近鄰的表現(xiàn)與樣本自身的表現(xiàn)相近。·主體思想:根據(jù)距離相近的鄰居類別,來判定自己的所屬
類別
。Training
instanceDistanceK=3K=1?Newexample
toclassifyClass
1Class
235k-近鄰
(KNN)需要關(guān)注的點(diǎn)一如何衡量距離?-k
如何取值?一權(quán)值如何定義(不同近鄰的影響力是否一樣)?一如何決定最終的輸出(決策函數(shù))?36k-近鄰
(KNN)·
距
離一樣本之間的相似性度量
·
特
點(diǎn)一非負(fù)值d(i,j)≥0,d(i,i)=0
一對(duì)稱性d(i,j)=d(j,i)-
三角不等式d(i,j)≤d(i,k)+d(k,j)37k-近鄰
(KNN)·
距離衡量標(biāo)準(zhǔn)閔可夫斯基距離、切比雪夫距離、馬氏距離、巴氏距
離、余弦值等·
閔可夫斯基距離
(Minkowski
Distance)一
X=(x?,X?,…,xn),y=(y?,V?,…,yn)∈R曼哈頓距離歐式距離-p=1:-p=2:38一權(quán)值如何定義(不同近鄰的影響力是否一樣)?不考慮權(quán)值一如何決定最終的輸出(決策函數(shù))?近鄰類別決定最終輸出1-近鄰
(KNN)一如何衡量距離?歐式距離(或其他)-k
如何取值?k=139一如何衡量距離?歐式距離-k
如何取值?經(jīng)驗(yàn)一權(quán)值如何定義(不同近鄰的影響力是否一樣)?不考慮權(quán)值(或距離越近權(quán)值越高)一如何決定最終的輸出(決策函數(shù))?近鄰類別的均值決定最終輸出k-近鄰
(KNN)401-近鄰
vs
k-近鄰5-近鄰1-近鄰41■
機(jī)器學(xué)習(xí)概述■
監(jiān)督學(xué)習(xí)■
無監(jiān)督學(xué)習(xí)■
自監(jiān)督學(xué)習(xí)■
從神經(jīng)元到感知機(jī)再到神經(jīng)網(wǎng)絡(luò)■
強(qiáng)化學(xué)習(xí)課程內(nèi)容無監(jiān)督概述什么是無監(jiān)督學(xué)習(xí)?現(xiàn)實(shí)生活中常常會(huì)有這樣的問題:缺乏足夠的先驗(yàn)知識(shí),因此難以人工標(biāo)注類別或進(jìn)行人工類別標(biāo)注的成本太高。很自然
地,我們希望計(jì)算機(jī)能代我們完成這些工作,或至少提供一些
幫助。根據(jù)類別未知(沒有被標(biāo)記)的訓(xùn)練樣本解決模式識(shí)別中
的各種問題,稱之為無監(jiān)督學(xué)習(xí)。無監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一種訓(xùn)練方式或者學(xué)習(xí)方式。機(jī)器學(xué)習(xí)類型監(jiān)督學(xué)習(xí)
無監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí)監(jiān)督學(xué)習(xí)美國伊利諾伊大學(xué)香檳分校韓家偉(Jianwei
Han)
教授認(rèn)為監(jiān)督學(xué)習(xí)可以被看做“分類
(classification)”的代名詞。計(jì)算機(jī)從有標(biāo)
簽的訓(xùn)練數(shù)據(jù)中學(xué)習(xí),然
后給定某個(gè)新數(shù)據(jù),預(yù)測
這個(gè)新數(shù)據(jù)的標(biāo)簽,標(biāo)簽
是指某個(gè)事物所屬的類別
。簡單的說,監(jiān)督學(xué)習(xí)的
工作就是通過有標(biāo)簽的數(shù)
據(jù)訓(xùn)練,構(gòu)建一個(gè)模型,
然后通過這個(gè)模型,給新
數(shù)據(jù)添加上特定的標(biāo)簽。
可以參考右圖的內(nèi)容輔助
理解監(jiān)督學(xué)習(xí)。知道了,老師!(a)
根據(jù)已知數(shù)據(jù)集做訓(xùn)練這我學(xué)過,是狗狗。這是一只狗狗。這只動(dòng)物是什么?無監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)的訓(xùn)練方式,它本質(zhì)上是一個(gè)
統(tǒng)計(jì)手段,在沒有標(biāo)簽的數(shù)
據(jù)里可以發(fā)現(xiàn)潛在的一些結(jié)
構(gòu)的一種訓(xùn)練方式。無監(jiān)督學(xué)習(xí)中模型所學(xué)習(xí)
的數(shù)據(jù)都是無標(biāo)簽的,根據(jù)
類別未知的訓(xùn)練樣本解決模
式識(shí)別中的各種問題。無監(jiān)
督學(xué)習(xí)可以被看作聚類(cluster)
的近義詞,為了方
便理解可以結(jié)合左側(cè)圖片理
解無監(jiān)督學(xué)習(xí)的過程。無監(jiān)督學(xué)習(xí)這只動(dòng)物與狗狗好
像啊,就把他歸為
”狗狗“一類吧。(a)在非標(biāo)簽數(shù)據(jù)集中做歸納監(jiān)督學(xué)習(xí)
VS
無監(jiān)督學(xué)習(xí)1、
監(jiān)督學(xué)習(xí)是一種目標(biāo)明確的訓(xùn)練方式,你知道得到
的是什么,一般用于數(shù)據(jù)預(yù)測,而無監(jiān)督學(xué)習(xí)則沒有明確
目的的訓(xùn)練方法,是程序自動(dòng)產(chǎn)生的分組結(jié)果,主要是聚
類。2、監(jiān)督學(xué)習(xí)需要給數(shù)據(jù)打標(biāo)簽,以實(shí)現(xiàn)分類;而無監(jiān)
督學(xué)習(xí)不需要給數(shù)據(jù)加標(biāo)簽。3、監(jiān)督學(xué)習(xí)主要用于數(shù)據(jù)預(yù)測因而可以衡量效果,而
無監(jiān)督學(xué)習(xí)很難衡量。無監(jiān)督學(xué)習(xí)主要分為:聚類和降維兩大類■
聚
類聚類嘗試在沒有訓(xùn)練的條件下,對(duì)一些沒有標(biāo)簽的
數(shù)據(jù)進(jìn)行歸納分類。根據(jù)相似性對(duì)數(shù)據(jù)進(jìn)行分組,以便
對(duì)數(shù)據(jù)進(jìn)行概括。希望通過某種算法把這一組位置類別
的樣本劃分成若干類別,聚類的時(shí)候,并不關(guān)心某一類
是什么,實(shí)現(xiàn)的只是將相似的東西聚在一起。聚類算法分類:層次聚類、劃分聚類、密度聚類、
密度最大值聚類算法
(MDCA)
、
快速搜索聚類算法(
CFDP)
譜聚類算法
(Spectral
Clustering)、模型聚類
、動(dòng)態(tài)聚類。■降維什么是降維?現(xiàn)在有n個(gè)對(duì)象a1,a2,
…
…
,an,每個(gè)
對(duì)象有多個(gè)屬性x1,x2,……,xm。當(dāng)我們用矩陣表示這
些對(duì)象時(shí),便是一個(gè)An×m的矩陣。舉個(gè)實(shí)例:假設(shè)我們有5只貓,每只貓的毛色、體型、身高、體重、
年齡、性別等特征各不相同。這里的貓就是我們的對(duì)象;“貓”這個(gè)稱呼是這個(gè)對(duì)象的標(biāo)簽;毛色、體型、體重等
特征就是我們所說的對(duì)象的屬性。在實(shí)際的圖像識(shí)別過程中,我們可能有大批數(shù)量的貓、
狗的圖片,所需的對(duì)象的屬性也是多個(gè),這些屬性的個(gè)數(shù)
就是我們所說的維數(shù)。維數(shù)越多,信息量數(shù)據(jù)量越大,占
用的磁盤空間和內(nèi)存較多。實(shí)際上我們在實(shí)際中有時(shí)候并
用不到這么多的信息,所以就需要降維。降維是試圖壓縮
維度,并盡可能地保留分布信息。我們可以將其視為數(shù)據(jù)
壓縮,或者特征選擇。線性降維算法主要有:■主成分分析(PCA)■奇異值分解(SVD)■因子分析
(FA
)■獨(dú)立成分分析
(ICA)無監(jiān)督學(xué)習(xí)的使用場景案例一:發(fā)現(xiàn)異常:有很多違法行為都需要“洗錢”,這些洗錢行為
跟普通用戶的行為不一樣,到底哪里不一樣?如果通過
人為去分析是一件成本很高很復(fù)雜的事情,我們可以通
過這些行為的特征對(duì),用戶進(jìn)行分類,就更容易找到那
些行為異常的用戶,然后再深入分析他們的行為到底哪
里不一樣,是否屬于違法洗錢的范疇.案例二:細(xì)分用戶這個(gè)對(duì)于廣告平臺(tái)很有意義,我們不僅把用戶按
照性別、年齡、地理位置等維度進(jìn)行用戶細(xì)分,還可
以通過用戶行為對(duì)用戶進(jìn)行分類。通過很多維度的用戶細(xì)分,廣告投放可以更有針對(duì)性,
效果也會(huì)更好。案例三:推薦系統(tǒng):大家都聽過"啤酒+尿不濕"的故事,這個(gè)故事就是根據(jù)
用戶的購買行為來推薦相關(guān)的商品的一個(gè)例子。比如大家在淘寶、天貓、京東上逛的時(shí)候,總會(huì)根據(jù)
你的瀏覽行為推薦一些相關(guān)的商品,有些商品就是無監(jiān)督
學(xué)習(xí)通過聚類來推薦出來的系統(tǒng)會(huì)發(fā)現(xiàn)一些購買行為相似
的用戶,推薦這類用戶最“喜歡”的商品。K均值聚類K均值聚類
(K-means
聚類)■物以類聚,人以群分(《戰(zhàn)國策
·齊策三》)■輸入:n個(gè)數(shù)據(jù)(無任何標(biāo)注信息)■輸出:k個(gè)聚類結(jié)果■目的:將n個(gè)數(shù)據(jù)聚類到k個(gè)集合(也稱為類簇)d(xi,xj
)值越小,表示x;
和x;越相似;反之越不相似■
聚類集合數(shù)目k問題:如何將n
個(gè)數(shù)據(jù)依據(jù)其相似度大小將它們分別聚
類到k
個(gè)集合,使得每個(gè)數(shù)據(jù)僅屬于一個(gè)聚類集合。K均值聚類算法描述若干定義:■
n個(gè)m-維數(shù)據(jù){x?,X?,…,xn},xi∈Rm(1≤i≤n)■
兩個(gè)m
維數(shù)據(jù)之間的歐氏距離為初始化k個(gè)聚類質(zhì)心c={C?,C?,…,Ck},Cj∈Rm(1≤j≤k),每個(gè)聚類質(zhì)心c;所在集合記為G;第一步:初始化聚類質(zhì)心K均值聚類算法:初始化K均值聚類算法:對(duì)數(shù)據(jù)進(jìn)行聚類第二步:將每個(gè)待聚類數(shù)據(jù)放入唯一一個(gè)聚類集合中計(jì)算待聚類數(shù)據(jù)xi和質(zhì)心c
之間的歐氏距離d(xi,cj)(1≤i≤n,1≤j≤k)將每個(gè)xi放入與之距離最近聚類質(zhì)心所在聚類集合中,即:argmin
d(xi,Cj)Cj∈CK
均值聚類算法:更新聚類質(zhì)心第三步:根據(jù)聚類結(jié)果、更新聚類質(zhì)心根據(jù)每個(gè)聚類集合中所包含的數(shù)據(jù),更新該聚類集合質(zhì)心值,即:K均值聚類算法:繼續(xù)迭代第四步:算法循環(huán)迭代,直到滿足條件在新聚類質(zhì)心基礎(chǔ)上,根據(jù)歐氏距離大小,將每個(gè)
待聚類數(shù)據(jù)放入唯一一個(gè)聚類集合中再根據(jù)新的聚類結(jié)果、更新聚類質(zhì)心聚類迭代滿足如下任意一個(gè)條件,則聚類停止:●已經(jīng)達(dá)到了迭代次數(shù)上限●
前后兩次迭代中,聚類質(zhì)心基本保持不變63主成分分析主成分分析:PrincipleComponentAnalysis(PCA)主成分分析是一種特征降維方法。人類在認(rèn)知過程中會(huì)主動(dòng)“化繁為簡”奧卡姆剃刀定律
(Occam’sRazor):“如無必要,勿增實(shí)體”,即“簡單有效原理”在數(shù)理統(tǒng)計(jì)中,方差被經(jīng)常用來度量數(shù)據(jù)和其數(shù)學(xué)期
望(即均值)之間偏離程度,這個(gè)偏離程度反映了數(shù)據(jù)分布
結(jié)構(gòu)。在許多實(shí)際問題中,研究數(shù)據(jù)和其均值之間的偏離程
度有著很重要的意義。在降維之中,需要盡可能將數(shù)據(jù)向方差最大方向進(jìn)行
投影,使得數(shù)據(jù)所蘊(yùn)含信息沒有丟失,彰顯個(gè)性。如左下圖
所示,向y
方向投影(使得二維數(shù)據(jù)映射為一
維)就比向x
方向投影結(jié)果在降維這個(gè)意義上而言要好;右下圖則是黃線
方向投影要好。保證樣本投影后方差最大向y
方向投影要好
x方向
向黃線方向投影要好
x方向y
方向y
方向主成分分析:算法動(dòng)機(jī)主成分分析思想是將n
維特征數(shù)據(jù)映射到l
維空間(n>l),
去除原始數(shù)據(jù)之間的冗余性(通過去除相關(guān)性手段達(dá)到
這
一
目的)。將原始數(shù)據(jù)向這些數(shù)據(jù)方差最大的方向進(jìn)行投影。將每個(gè)數(shù)據(jù)從n維高維空間映射到l維低維空間,每個(gè)數(shù)據(jù)所得到最好的k維特征就是使得每一維上樣本方差都盡可
能
大
。·
假定每一維度的特征均值均為零(已經(jīng)標(biāo)準(zhǔn)化)?!?/p>
主成分分析的目的是求取一個(gè)使用一個(gè)d×l
的映射矩陣W?!?/p>
給定一個(gè)樣本xi,可
將xi
從d維空間如下映射到l
維空間:
(xi)1×d(W)d×l●將所有降維后數(shù)據(jù)用Y
表示,有(Y=XW降
維
原
始
映
射
·Y=n×l結(jié)
果
數(shù)
據(jù)
矩
陣·
X=n×d·W=d×l·假設(shè)有n個(gè)d
維樣本數(shù)據(jù)所構(gòu)成的集合D={x?,x?,
中x;(1≤i≤n)∈Rd?!?/p>
集合D
可以表示成一個(gè)n×d
的矩陣X?!?xn},
其?如何求取
映射矩陣W主成分分析:算法描述(3)
矩陣相乘:
(內(nèi)標(biāo)相同)■將每幅人臉圖像轉(zhuǎn)換成列向量■如將一幅32×32的人臉圖像轉(zhuǎn)成1024×1的列向量特征人臉方法:算法描述1024×1特征人臉:算法描述
Y=n
×l
X=n×d
W=
d×l輸入:n
個(gè)1024維人臉樣本數(shù)據(jù)所構(gòu)成的矩陣X,降維后的維數(shù)l,K<n輸出:映射矩陣W={w?,W?,…,Wi}
(其中每個(gè)w;(1≤
j≤1)是一個(gè)特征人臉)算法步驟:1:
對(duì)于每個(gè)人臉樣本數(shù)據(jù)xi進(jìn)行中心化處理:Xi=Xi
一μ,
2:計(jì)算原始人臉樣本數(shù)據(jù)的協(xié)方差矩陣:
3:對(duì)協(xié)方差矩陣
∑進(jìn)行特征值分解,對(duì)所得特征根從到
小排序λ1≥λ2≥…≥
λa4:取前l(fā)個(gè)最大特征根所對(duì)應(yīng)特征向量w?,W?,…,w?
組成
映射矩陣W5:將每個(gè)人臉圖像xi按照如下方法降維:(xi)1×a(W)d×l=1×l特征人臉:算法描述●每個(gè)人臉特征向量wi與原始人臉數(shù)據(jù)xi的維數(shù)是一樣
的,均為1024●選取其中l(wèi)個(gè)作為特征人臉400個(gè)人臉(左)和與之對(duì)應(yīng)的36個(gè)特征人臉■
機(jī)器學(xué)習(xí)概述■
監(jiān)督學(xué)習(xí)■
無監(jiān)督學(xué)習(xí)■自監(jiān)督學(xué)習(xí)■
從神經(jīng)元到感知機(jī)再到神經(jīng)網(wǎng)絡(luò)■
強(qiáng)化學(xué)習(xí)課程內(nèi)容FromComplianceto
Learning自監(jiān)督學(xué)習(xí)(Self-Supenvised
Learning).OM
示示材■
機(jī)器學(xué)習(xí)概述■
監(jiān)督學(xué)習(xí)■
無監(jiān)督學(xué)習(xí)■
自監(jiān)督學(xué)習(xí)■
從神經(jīng)元到感知機(jī)再到神經(jīng)網(wǎng)絡(luò)■
強(qiáng)化學(xué)習(xí)課程內(nèi)容樹突神經(jīng)末梢郎飛氏結(jié)細(xì)胞體軸突髓鞘細(xì)胞核生物神經(jīng)元通過改變連接的強(qiáng)度進(jìn)行學(xué)習(xí)!生物神經(jīng)元施萬細(xì)胞神經(jīng)元模型的圖像化表示MP是構(gòu)建神經(jīng)網(wǎng)絡(luò)大廈的基石!MP模型中的權(quán)重是預(yù)先設(shè)置的,因此不能學(xué)習(xí)。
因此需要設(shè)計(jì)能夠調(diào)整權(quán)值的方法實(shí)現(xiàn)學(xué)習(xí)。W?W?∑W?■
MP神經(jīng)元模型X?X?X3f()
ybaseWi,1Wi,2∑
(b)XjWi,n神經(jīng)元模型的圖像化表示神經(jīng)元模型的公式表示f(·)X1X2XnYi感知機(jī)提出神經(jīng)元
感知機(jī)區(qū)
別
:口感知機(jī)有兩層
(輸入層、輸出層),神經(jīng)元一層
口
神經(jīng)元的權(quán)值是固定的,感知機(jī)的權(quán)值可以改變輸入層f()
W?X3-y輸出層yfb從神經(jīng)元到感知機(jī)(Perceptron)W1W?W?X?X?X?W?W?base+∑感知機(jī)模型(兩層神經(jīng)元組成),每一個(gè)輸入x與其權(quán)
值w相乘求和然后加上一個(gè)偏置,然后輸入到激活函數(shù)f中
。w和b可以不斷調(diào)整,調(diào)整的過程就是學(xué)習(xí)過程!W10
(xo=+1X1XiXn輸入層0m
2
σ輸出層010i2
2
σσ圖中的感知機(jī)為例,里面一共是四個(gè)變量p?,P?,W?,W?,b
是常數(shù),其特性如右圖,它可以提供了一種能力,在w?,W?確
定的時(shí)候,可以“鑒定”p?,p?
的組合是否符合w?,W?
約束的要
求(是不是落在灰色的部分)??梢杂糜诜诸愑?jì)算!!!InputsTwo-Input
NeuronWP?iwp+b=01+W12
ba=hardlim(Wp+b)Pia=0a=1如圖,從左到右,“與”、
“非”、
“或”問題都是
線性可分的,感知機(jī)可以很容易通過調(diào)節(jié)參數(shù)獲得其決策
邊界,但是“異或”卻是線性不可分的,感知機(jī)對(duì)其無能
為
力
。Y1、異或
(如
在計(jì)算機(jī)
中用于判斷)AB
=1
—Y邏輯表達(dá)式:Y=A·B+A●B=A田B相
同為“0”不同為“1”生活中的異或問題:動(dòng)物異性生殖,襪子左右成對(duì)…感知機(jī)初步解決了學(xué)習(xí)的問題,卻存在一個(gè)致命的問
題,無法解決異或問題!多層感知機(jī)與前饋神經(jīng)網(wǎng)絡(luò)0.5當(dāng)x?=0,x?=0時(shí),u=1·0+(-1)·0-0.5=-0.5,f(u??)=f(-0.5)=0u??=(-1)·0+1·0-0.5=-0.5,f(u12)=f(-0.5)=0U?=1
·0+1
·0-0.5=-0.5,f(u?)=f(-0.5)=0,所以y=0當(dāng)x?=1,x?=1時(shí)
,u??=1·1+(-1)·1-0.5=-0.5,f(u??)=f(-0.5)=0u??=(-1)·1+1-1-0.5=-0.5,f(u??)=f(-0.5)=0U?=1·0+1·0-0.5=-0.5,f(u?)=f(-0.5)=0,所
以y=0X2(1,1)十(1,0)T1
“異或”問題(x?田
x?)前饋神經(jīng)網(wǎng)絡(luò)解決異或問題f(u)J0.5fum)f()
y0.5(0,1)(0,0)(d)1-1-1xx?0.5f(3)=sm(x)={0
x<0當(dāng)x?=1,x?=0時(shí),u?=1-1+(-1)·0-0.5=0.5,f(u)=f(0.5)=1u1?=(-1)·1+1·0-0.5=-1.5,f(u??)=f(-1.5)=0Uu?=1
·
1+1
·0-0.5=0.5,f(u?)=f(0.5)=1,
所以y=1當(dāng)x?=0,x?=1時(shí)
,u?=1·0+(-1)·1-0.5-0.5,f(u?)=f(0.5)=1U12=(-1)·0+1-1-0.5=0.5,f(u??)=f(0.5)=1u?=1-1+1-1-0.51.5.
f(u?)=f(1.5)=1,
所
以y=1輸入輸出x?X?xXOR
X?00001110111知乎@人工智能AT算法X2(1,1)十(1,0)x1
“
異或”問題(x?田x?)f()J0.5fu)1
x-1-1x?●(u)-
y0.5(0,1)(0,0)(d)最早的神經(jīng)網(wǎng)絡(luò)就是前饋神經(jīng)網(wǎng)絡(luò),他它包括輸入層、隱藏層、輸出層。感知機(jī)就是沒有隱藏層的前饋神經(jīng)網(wǎng)絡(luò)。前饋神經(jīng)網(wǎng)絡(luò)也就是多層感知機(jī)!輸入層隱層
輸出層激活函數(shù)激活函數(shù)(有時(shí)也叫傳遞函數(shù))具有以下性質(zhì):□非線性□連續(xù)可微性□值域是有限的
口單調(diào)性口具有單調(diào)導(dǎo)數(shù)的光滑函數(shù)□函數(shù)值和輸入近似相等■
Sigmoido(x)=1+e-10SigmoidNanePlotEquationDerivativeIdentityf(x)=xf(x)=181nary
stepLogistic(a.ka
Soft
step)f'(x)=f(x)(1-f(x)TarHf'(x)=1-f(z)2ArcTanf(x)=tan?1(x)RectifiedLinear
Unit
(ReLU)ParanetericRectifiedLinear
Unit
(PReL0)[2]Exponentlal
Linear
Unit
(ELJ)3]SoftPlusf(z)=loge(1+e2)剝易號(hào)1deybnb激活函數(shù)的導(dǎo)數(shù)前向算法前饋神經(jīng)網(wǎng)絡(luò)
接收輸入,信
息通過網(wǎng)絡(luò)向
前流動(dòng),最終
產(chǎn)生輸出,稱
之為前向傳播OO?=f(h?*W?+h?*W?+b?)O?=f(h?*W?+h?*W?+b?)h?=f(l?*W?+l?*W?+b?)h?=f(l?*W?+l?*W?+b?)y=01+0?損失函數(shù)一條一條的試,那么那條線更好呢?——用損失
函數(shù)
(loss
function)
來
評(píng)估從
y=kx+b
說起,
k=?,b=?
loss(xi,y;)=(Xi-y;)2損失函數(shù)是用來估量模型的預(yù)測值f(x)
與真實(shí)值Y的不一致程度,它是一個(gè)非負(fù)實(shí)值函數(shù),損失函數(shù)越
小,模型認(rèn)為性能就越好。1.平方損失函數(shù)(最小二乘法,
Ordinary
LeastSquares,OLS)最小二乘的基本原則是:最優(yōu)擬合直線應(yīng)該是使
各點(diǎn)到回歸直線的距離和最小的直線,即平方和最小。當(dāng)樣本個(gè)數(shù)為n時(shí),此時(shí)的損失函數(shù)為:而在實(shí)際應(yīng)用中,通常會(huì)使用均方差
(MSE)
作
為一項(xiàng)衡量指標(biāo),公式如下:反向傳播算法真實(shí)標(biāo)簽y1YkYKY1YkYk輸入層X1-Xn—Xn—X1Xn—輸出層L222δ?Lδ;正向傳播反向傳播隱層12
2
2
δ?1σσσ隱層l+12
2
2
σσσ隱層l2
22δ?1σ誤差■鏈?zhǔn)角髮?dǎo)鏈?zhǔn)椒▌t是微積分中的求導(dǎo)法則,
用以求一個(gè)復(fù)
合函數(shù)的導(dǎo)數(shù)。所謂的復(fù)合函數(shù),是指以一個(gè)函數(shù)
是另一個(gè)函數(shù)的自變量。如:
f(x)=3x,g(x)=x+3,g(f(x))就是一個(gè)復(fù)合函,有:g(f(x))=3x+3。鏈?zhǔn)椒▌t用文字描述,就是“由兩個(gè)函數(shù)湊起來
的復(fù)合函數(shù),其導(dǎo)數(shù)等于里邊函數(shù)代入外邊函數(shù)的
值之導(dǎo)數(shù),乘以里邊函數(shù)的導(dǎo)數(shù)。若h(x)=f(g(x)),則h'(x)=f'(g(x))g'(x)舉
例
:f(x)=x2,g(x)=2x+1,
則{f[g(x)]}'=2[g(x)]×g'(x)=2[2x+1]×2=8x+4An輸入層
隱含層
輸出層誤差正向傳播誤差反向傳播期望值■
反向傳播X?22?y?y2y3求
E
的梯度▽E,然后用下式更新全體權(quán)值W(s+1)=W(s)-η▽E梯度矩陣▽E由
E對(duì)每一個(gè)權(quán)重
的偏導(dǎo)數(shù)構(gòu)成采用鏈?zhǔn)角髮?dǎo),最終得到結(jié)果如下(推導(dǎo)略):E誤差函數(shù)為:梯度下降■
梯度下降法損失函數(shù)J導(dǎo)數(shù)可以代表方向,對(duì)應(yīng)J增大的方向-n4參數(shù)theta■η的選擇根據(jù)量子力學(xué)理論:“世界的本質(zhì)是波函數(shù)。
”
也就是世界的本質(zhì)不是原子、光子,不是我們眼中所看到的這些已經(jīng)表象的東西,它的本質(zhì)是個(gè)函數(shù)。
則學(xué)習(xí)的關(guān)系和規(guī)律就可以用函數(shù)來表示。進(jìn)一步,根據(jù)萬用近似定理(指一個(gè)神經(jīng)網(wǎng)絡(luò)可
以以任意精度來近似任何連續(xù)函數(shù))則說明這種學(xué)
習(xí)是可行的。fx)可被近似模擬(a)
任意函數(shù)
(b)
被神經(jīng)網(wǎng)絡(luò)以任意精度模擬convolution
convolution
pooling
densepoolingdense6@14x14S2feature
map6@28×28C1feature
map早期嘗試Hubel&WieselZF
Net,
基于AlexNet,2013ILSVRC
冠軍歷史突破AlexNet使
用MNIST數(shù)據(jù)集,LeNet這是最早用于數(shù)字識(shí)別的CNN網(wǎng)絡(luò)加深2014ILSVRC,
圖像識(shí)別略差于VGGGoogLeNet,
但是在很多圖像分析問題(比如object
detection)上效果好密集連接DenseNet
2017年ILSVRC進(jìn)一步降低Classification錯(cuò)誤率如何去構(gòu)建這個(gè)深度網(wǎng)絡(luò)呢?一堆Net跳躍連接
2015年LSVRC,ResNetClassification獲得第一名發(fā)展和演化增加新的功能單元
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年河北機(jī)電職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試備考試題帶答案解析
- 2026年湖北科技職業(yè)學(xué)院單招綜合素質(zhì)筆試備考題庫帶答案解析
- 醫(yī)療急救禮儀與應(yīng)急響應(yīng)能力
- 2026年廣西交通職業(yè)技術(shù)學(xué)院單招職業(yè)技能筆試模擬試題帶答案解析
- 醫(yī)生問診技巧與醫(yī)患關(guān)系維護(hù)
- 細(xì)胞周期蛋白依賴性激酶樣5缺乏癥診療指南總結(jié)2026
- 護(hù)理護(hù)理專業(yè)繼續(xù)教育與培訓(xùn)體系
- D打印技術(shù)在醫(yī)療器械定制中的應(yīng)用
- 醫(yī)療機(jī)器人與手術(shù)導(dǎo)航
- 醫(yī)療行業(yè)創(chuàng)新項(xiàng)目市場推廣與營銷
- 黔南州2024-2025學(xué)年度第一學(xué)期期末質(zhì)量監(jiān)測八年級(jí)數(shù)學(xué)
- 前置胎盤護(hù)理查房課件
- 2024年居間服務(wù)合同:律師事務(wù)所合作與業(yè)務(wù)推廣
- 全球變暖課件高級(jí)
- 農(nóng)貿(mào)市場保潔服務(wù) 投標(biāo)方案(技術(shù)標(biāo) )
- 合作的合同書模板
- (正式版)FZ∕T 13061-2024 燈芯絨棉本色布
- 0.4kV配網(wǎng)不停電作業(yè)用工器具技術(shù)條件V11
- 滿腹經(jīng)綸相聲臺(tái)詞完整篇
- 2023年10月自考05678金融法試題及答案含評(píng)分標(biāo)準(zhǔn)
- 新蘇教版六年級(jí)科學(xué)上冊第一單元《物質(zhì)的變化》全部教案
評(píng)論
0/150
提交評(píng)論