模式識(shí)別及Python實(shí)現(xiàn) 課件 第1-5章 模式識(shí)別概述 -其他典型分類(lèi)方法_第1頁(yè)
模式識(shí)別及Python實(shí)現(xiàn) 課件 第1-5章 模式識(shí)別概述 -其他典型分類(lèi)方法_第2頁(yè)
模式識(shí)別及Python實(shí)現(xiàn) 課件 第1-5章 模式識(shí)別概述 -其他典型分類(lèi)方法_第3頁(yè)
模式識(shí)別及Python實(shí)現(xiàn) 課件 第1-5章 模式識(shí)別概述 -其他典型分類(lèi)方法_第4頁(yè)
模式識(shí)別及Python實(shí)現(xiàn) 課件 第1-5章 模式識(shí)別概述 -其他典型分類(lèi)方法_第5頁(yè)
已閱讀5頁(yè),還剩139頁(yè)未讀 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

模式識(shí)別及Python實(shí)現(xiàn)第一章:模式識(shí)別概述模式識(shí)別誕生于20世紀(jì)20年代,隨著40年代計(jì)算機(jī)的出現(xiàn),50年代人工智能的第一次浪潮涌起,模式識(shí)別在60年代迅速發(fā)展成一門(mén)學(xué)科。經(jīng)過(guò)多年的發(fā)展,模式識(shí)別研究取得了大量

成果,在人工智能、圖像識(shí)別、醫(yī)療診斷、語(yǔ)音識(shí)別等領(lǐng)域

實(shí)現(xiàn)了成功應(yīng)用。但是,鑒于模式識(shí)別研究涉及大量復(fù)雜問(wèn)題,現(xiàn)有的理論方法對(duì)于解決實(shí)際問(wèn)題仍有局限。為了使讀者全面地掌握模式識(shí)別學(xué)科的研究現(xiàn)狀,對(duì)現(xiàn)有方法的有效性和局限性有較為全面的認(rèn)知,正確使用基本的模式識(shí)別方法,

本章主要介紹模式識(shí)別的基本概念、模式識(shí)別系統(tǒng)的組成及應(yīng)用,以呈現(xiàn)模式識(shí)別的現(xiàn)狀及探究可能的未來(lái)發(fā)展方向。前

言PREFACE目錄CONTENT12345基本概念系統(tǒng)組成基本方法應(yīng)用場(chǎng)景本書(shū)主要內(nèi)容PART

01基本概念Basic

Concept模式識(shí)別是指通過(guò)一系列數(shù)學(xué)方法讓計(jì)算機(jī)實(shí)現(xiàn)對(duì)各種事物或現(xiàn)象的分析、描述、判斷、識(shí)別的過(guò)程,

最終目標(biāo)是使用計(jì)算機(jī)實(shí)現(xiàn)人對(duì)外界事物識(shí)別和分

類(lèi)的能力。對(duì)于具有相似性質(zhì)的事物,人們常常會(huì)

根據(jù)其相似性進(jìn)行分類(lèi),從而更全面地掌握客觀事

物。模式識(shí)別的目的和作用就是面對(duì)某一具體事物

時(shí),能將其正確地歸入某一類(lèi)別。例如,在數(shù)字識(shí)

別任務(wù)中,由于人們具有各種書(shū)寫(xiě)習(xí)慣,數(shù)字“5”

存在不同的寫(xiě)法。但在本質(zhì)上,它們都是數(shù)字“5”,

屬于同一類(lèi)別。如何正確地將不同寫(xiě)法的數(shù)字“5”

歸為同一類(lèi)別,這就是模式識(shí)別系統(tǒng)所要實(shí)現(xiàn)的。對(duì)于一個(gè)魯棒的模式識(shí)別系統(tǒng),即使從未見(jiàn)過(guò)某種

寫(xiě)法的“5”,也應(yīng)能正確地將其分到“5”這個(gè)類(lèi)別中

去。55555S55555S5555

Ss

5S手寫(xiě)數(shù)字“5”◎

8系統(tǒng)組成02

SystemCompositionPART數(shù)據(jù)獲取的作用是用計(jì)數(shù)據(jù)預(yù)處理的作用是去算機(jī)可以運(yùn)算的符號(hào)來(lái)

除所獲取信息中的噪聲,

表示所研究的對(duì)象。

增強(qiáng)有用的信息,使信般情況下,數(shù)據(jù)獲取需

息更有利于后續(xù)識(shí)別的要通過(guò)各種儀器或傳感

處理過(guò)程。常用的預(yù)處器獲取如腦電圖、心電

理方法大致有以下幾類(lèi):圖等一維波形,或指紋、

(1)數(shù)據(jù)統(tǒng)計(jì)及可視化。照片等二維圖像,以及

(2)數(shù)據(jù)清洗。其他的物理參量或邏輯

(3)數(shù)據(jù)增強(qiáng)。值。分類(lèi)識(shí)別可分為兩方面:分類(lèi)器設(shè)計(jì)和分類(lèi)決策。

分類(lèi)器設(shè)計(jì)是指將樣本

特征空間劃分成由各類(lèi)

占據(jù)的子空間,確定相應(yīng)

的決策分界和判決規(guī)則,

使按此類(lèi)判決規(guī)則分類(lèi)

時(shí)錯(cuò)誤率最低。分類(lèi)決

策是指對(duì)于待識(shí)別樣本

實(shí)施同樣的數(shù)據(jù)獲取、預(yù)處理、特征提取與選

擇,用所設(shè)計(jì)的分類(lèi)器進(jìn)行分類(lèi)。為了有效地實(shí)現(xiàn)分類(lèi)識(shí)別,需要對(duì)原始數(shù)據(jù)進(jìn)

行特征提取與選擇,以

得到最能反映分類(lèi)本質(zhì)

的特征。通過(guò)特征提取

與選擇可以將高維數(shù)的

測(cè)量空間中表示的模式

變?yōu)樵诘途S數(shù)的特征空

間中表示的模式,對(duì)所

獲取的信息實(shí)現(xiàn)從測(cè)量

空間到特征空間的轉(zhuǎn)

換。數(shù)據(jù)獲取

預(yù)處理

特征提取與選擇

分類(lèi)識(shí)別模

識(shí)

統(tǒng)基本方法Basic

MethodPART

03根據(jù)學(xué)習(xí)方法分類(lèi)根據(jù)學(xué)習(xí)方法進(jìn)行分類(lèi),模式識(shí)別方法可以分

為監(jiān)督模式識(shí)別方法、非監(jiān)督模式識(shí)別方法

及半監(jiān)督模式識(shí)別方法。(1)對(duì)于監(jiān)督模式識(shí)別問(wèn)題,能夠獲得一

定數(shù)量類(lèi)別已知的訓(xùn)練樣本作為學(xué)習(xí)過(guò)程的

“導(dǎo)師”,在其分類(lèi)識(shí)別過(guò)程中通常人為給

定分類(lèi)準(zhǔn)則,通過(guò)設(shè)計(jì)有監(jiān)督的學(xué)習(xí)過(guò)程使

系統(tǒng)能完成特定的識(shí)別任務(wù)。(2)對(duì)于非監(jiān)督模式識(shí)別問(wèn)題,訓(xùn)練樣本

的類(lèi)別是未知的,通過(guò)考查訓(xùn)練樣本之間的相

似性來(lái)進(jìn)行分類(lèi)識(shí)別,也稱(chēng)作“聚類(lèi)”。在實(shí)際應(yīng)用中,無(wú)類(lèi)別標(biāo)簽的樣本數(shù)據(jù)易于

獲取,而有類(lèi)別標(biāo)簽的樣本數(shù)據(jù)收集成本較

大,標(biāo)注一般也比較費(fèi)時(shí)費(fèi)力。在這種情況

下,半監(jiān)督模式識(shí)別方法更適用。根據(jù)表示方式分類(lèi)根據(jù)表示方式的不同,已有的模式識(shí)別方法

可以分為統(tǒng)計(jì)模式識(shí)別方法和結(jié)構(gòu)模式識(shí)別

方法兩類(lèi)。(1)統(tǒng)計(jì)模式識(shí)別方法。對(duì)于圖像識(shí)別問(wèn)

題來(lái)說(shuō),該方法重要的是找出能反映圖像特

點(diǎn)的特征度量,把圖像數(shù)據(jù)進(jìn)行信息壓縮,來(lái)

抽取圖像的特征。(2)結(jié)構(gòu)模式識(shí)別方法。該方法是把作為

一個(gè)整體進(jìn)行分類(lèi)比較困難的復(fù)雜模式分解

為若干較簡(jiǎn)單的子模式,而子模式又可分解

為若干基元,通過(guò)對(duì)基元的識(shí)別來(lái)識(shí)別子模

式,最終達(dá)到識(shí)別模式。以上兩類(lèi)模式識(shí)別方法相比,結(jié)構(gòu)模式識(shí)別

方法的訓(xùn)練較為困難。基本方法模式識(shí)別有很多類(lèi)方法,下面主要介紹根據(jù)表示方式分類(lèi)和根據(jù)學(xué)習(xí)方法分類(lèi)的方法。應(yīng)用場(chǎng)景

04

ApplicationScenarioPART(1)圖像識(shí)別為基礎(chǔ)的

智能視頻監(jiān)控技術(shù)。(2)汽車(chē)自動(dòng)駕駛領(lǐng)域。(3)圖像檢索。(4)對(duì)動(dòng)態(tài)視頻、音頻等

其他形式多媒體信息的檢

索。以人臉圖像識(shí)別為代表的

生物特征識(shí)別技術(shù)在邊檢

通關(guān)、居民證照、公安司

法、信息網(wǎng)絡(luò)等公共安全

領(lǐng)域和門(mén)禁、考勤、學(xué)校、

醫(yī)院、超市等民用領(lǐng)域都

得到了廣泛應(yīng)用。以隱馬爾可夫模型和統(tǒng)計(jì)

語(yǔ)言模型為基礎(chǔ)的語(yǔ)音識(shí)

別技術(shù)近期獲得了較大進(jìn)

展。這一時(shí)期的語(yǔ)音識(shí)別

技術(shù)多應(yīng)用于語(yǔ)音評(píng)測(cè)、

聲訊服務(wù)和安全監(jiān)控等領(lǐng)

域。文字識(shí)別技術(shù)可以把紙張

文檔和拍照文本圖像變成

電子文本,具有廣泛的應(yīng)

用價(jià)值,包括:印刷體光

學(xué)字符識(shí)別、手寫(xiě)體文字

識(shí)別、手寫(xiě)體數(shù)字識(shí)別。語(yǔ)音識(shí)別文字識(shí)別應(yīng)用場(chǎng)景生物特征識(shí)別別與檢索圖像識(shí)本書(shū)主要內(nèi)容

05

Main

ContentsPART本書(shū)主要內(nèi)容全書(shū)共分9章。第1章是模式識(shí)別概述。結(jié)合實(shí)例講述模式識(shí)別的基本概念和模式識(shí)別系統(tǒng)的基本組成,同時(shí)也展示了

模式識(shí)別廣闊的應(yīng)用空間。第2章是線(xiàn)性分類(lèi)器。介紹了經(jīng)典的Fisher線(xiàn)性判別分析、感知準(zhǔn)則函數(shù)和多類(lèi)線(xiàn)性分類(lèi)器。第3章是貝葉斯分類(lèi)器。重點(diǎn)講述作為理論基礎(chǔ)的貝葉斯決策理論,還介紹了基于正態(tài)分布的最小錯(cuò)誤

率貝葉斯分類(lèi)器和樸素貝葉斯分類(lèi)器。第4章是概率密度函數(shù)估計(jì)。介紹基于概率密度函數(shù)的基本估計(jì)方法,包括最大似然估計(jì)、近鄰估計(jì)和

Parzen窗口估計(jì)。第5章介紹了其他幾種常用的分類(lèi)方法,包括近鄰法、支持向量機(jī)、決策樹(shù)和隨機(jī)森林。第6章是特征提取與選擇。包括主成分分析、多維尺度分析和特征選擇方法。第7章是聚類(lèi)分析。介紹了非監(jiān)督模式識(shí)別方法,包括基于模型的方法、動(dòng)態(tài)聚類(lèi)方法和分級(jí)聚類(lèi)方法。第8章是深度神經(jīng)網(wǎng)絡(luò)。包括經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)(CNN)

和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。第9章是模式識(shí)別在圖像分析中的應(yīng)用與發(fā)展。綜合前8章介紹的模式識(shí)別方法,介紹一些經(jīng)典的模式

識(shí)別系統(tǒng),包括人耳識(shí)別系統(tǒng)、手寫(xiě)體數(shù)字識(shí)別系統(tǒng)、中文文本分類(lèi)系統(tǒng)設(shè)計(jì)等謝

看T

H

A

N

K

Y

0

U模式識(shí)別及Python實(shí)現(xiàn)第二章:線(xiàn)性分類(lèi)器模式識(shí)別的基本問(wèn)題之一就是通過(guò)特定的方式找到不同類(lèi)別樣本之間的分界面,實(shí)現(xiàn)對(duì)不同類(lèi)別樣本的分類(lèi)。

一種最直接的方法就是直接使用樣本設(shè)計(jì)分類(lèi)器,其基本思想是:假

定判別函數(shù)的形式是已知的,用樣本直接估計(jì)判別函數(shù)中的

參數(shù)。但在實(shí)際應(yīng)用中,通常不知道判別函數(shù)的最優(yōu)形式,此時(shí)可以根據(jù)對(duì)問(wèn)題的理解設(shè)定判別函數(shù)的類(lèi)型,進(jìn)而利用

樣本求解判別函數(shù)。因此,需要考慮三方面的問(wèn)題:判別函數(shù)的類(lèi)型、分類(lèi)器設(shè)計(jì)的準(zhǔn)則以及使用何種算法計(jì)算出最優(yōu)的判別函數(shù)參數(shù)。本章主要介紹線(xiàn)性分類(lèi)器的設(shè)計(jì)方法。前

言PREFACE感知器算法廣義線(xiàn)性判別函數(shù)

多類(lèi)線(xiàn)性分類(lèi)器基本概念Fisher線(xiàn)性判別分析12345目

錄CONTENT基本概念Basic

ConceptPART

011.核心定義:模式識(shí)別系統(tǒng)的主要目的是判斷給定的樣本x

的類(lèi)別屬性。(1)決策面:用于劃分決策域的邊界稱(chēng)為決策面,在數(shù)學(xué)上用解析形式可以表示成決策面方

程。(2)分類(lèi)器:在模式識(shí)別中,能夠?qū)⒔o定樣本根據(jù)一定的規(guī)則進(jìn)行分類(lèi)的算法統(tǒng)稱(chēng)為分類(lèi)器。(3)判別函數(shù):將能夠表達(dá)決策規(guī)則、判定待識(shí)別樣本類(lèi)別信息的函數(shù)g(x)稱(chēng)為判別函數(shù)。判別函數(shù)可以是線(xiàn)性函數(shù),也可以是非線(xiàn)性函數(shù),這取決于樣本集在特征空間的分布情況。

如果判別函數(shù)g(x)

是所有特征向量的線(xiàn)性組合構(gòu)成的,稱(chēng)其為線(xiàn)性判別函數(shù),線(xiàn)性判別函數(shù)

可以表示為:g(x)=wTx+wo其中

,x=[x?,x?]T,w=[w?,w?]T

。決策面為一條直線(xiàn),決策面方程可以寫(xiě)成如下形式:g(x)=wTx+wo=0◎(4)線(xiàn)性可分樣本與線(xiàn)性不可分樣本:如果兩類(lèi)樣本之間有明確的分界線(xiàn),且可以使用如圖(a)所示的直線(xiàn)將兩類(lèi)樣本分開(kāi),則稱(chēng)這些樣本是線(xiàn)性可分的;如果兩類(lèi)樣本之間并沒(méi)有明確的分界線(xiàn),無(wú)法使用一條直線(xiàn)將其分開(kāi),我們稱(chēng)樣本是線(xiàn)性不可分的,如圖(b)所示。(a)線(xiàn)性可分

(b)線(xiàn)性不可分◎0xx?2.幾何解釋?zhuān)喝舸嬖趦蓚€(gè)特征向量x?

和x?

均位于決策面g(x)=0

上,則x?

和x?

應(yīng)滿(mǎn)足:wTx?+Wo=wTx?+wo其中

,x?-x?表示決策面上的一個(gè)向量。(1)權(quán)向量:權(quán)向量w

和決策面上的任一

向量正交,即權(quán)向量w

和決策面正交。也就是說(shuō),權(quán)

量w

是決策面的法向量。(2)決策面:決策面H將特征空間分為兩部分,即:

w?類(lèi)對(duì)應(yīng)決策域R?

w?

類(lèi)對(duì)應(yīng)決策域R?。(3)判別函數(shù):判別函數(shù)g(x)

可以看成是特征空間中某點(diǎn)x

到?jīng)Q策面H的距離的一種代數(shù)度量。

若把特征向量x

表示為:其中,

xp

是x在決策面H

上的投影向量,r

是x到?jīng)Q策面H的距離,

示w

向上的單位向量。

可以按樣本x

到?jīng)Q策面H的距離r的正負(fù)號(hào)判斷其類(lèi)別?!?/p>

下圖給出了在特征空間維度為2時(shí)線(xiàn)性判別函數(shù)的幾何解釋?!?.線(xiàn)性分類(lèi)器的設(shè)計(jì):根據(jù)以上的介紹可知,對(duì)于線(xiàn)性分類(lèi)器的設(shè)計(jì),其關(guān)鍵是確定決策面H

的方向w

和位置wo。線(xiàn)性分類(lèi)器的設(shè)計(jì)步驟可總結(jié)如下:(1)收集一組具有類(lèi)別標(biāo)簽的樣本集X={x?,X?,…,XN}。(2)根據(jù)問(wèn)題的需要選取準(zhǔn)則函數(shù)

J。(3)使用最優(yōu)化技術(shù)求解準(zhǔn)則函數(shù)

J極值點(diǎn)處對(duì)應(yīng)的w*

和w。經(jīng)過(guò)上面的步驟,即可得到線(xiàn)性判別函數(shù)g(x)=wTx+Wo,

完成分類(lèi)器設(shè)計(jì)。對(duì)于未知類(lèi)別的待識(shí)別樣本x,

可根據(jù)判別函數(shù)的取值對(duì)其類(lèi)別進(jìn)行判斷。◎Fisher線(xiàn)性判別分析Fisher

Linear

DiscriminantAnalysis02PART(1

)

想:

個(gè)

方向

,

使

類(lèi)

遠(yuǎn)

類(lèi)

影后

集。

對(duì)

類(lèi)的

線(xiàn)

類(lèi)問(wèn)

來(lái)

說(shuō),

可以

有的

點(diǎn)

個(gè)

方向

上,

后的

空間

個(gè)

點(diǎn)

類(lèi)

區(qū)

開(kāi)

來(lái)。

過(guò)

點(diǎn)

方向

直的

類(lèi)問(wèn)

。(

2

)目

標(biāo):

對(duì)

進(jìn)

影以

分閾

值的

問(wèn)

。

個(gè)

方向,

使

類(lèi)

本的

類(lèi)

、

類(lèi)內(nèi)

。xx有利于分類(lèi)的投影方向不利于分類(lèi)的投影方向◎凸1.度量樣本離散程度的基本概念:(1)在原始d維特征空間:第i類(lèi)樣本的均值向量mi:

,i=1,2衡量第i類(lèi)樣本聚集程度的類(lèi)內(nèi)離散度矩陣S?:S?=

∑xjew?(x;-m;)(x;-m;),i=1,2總類(lèi)內(nèi)離散度矩陣Sw:

兩類(lèi)樣本的類(lèi)內(nèi)離散度矩陣之和Sw=S?+S?類(lèi)間離散度矩陣Sb:衡量不同類(lèi)別樣本之間的離散程度Sb=(m?-m?)(m?-m?)(2)在投影后的一維特征空間:第i類(lèi)樣本的均值:

,i=1,2第i類(lèi)樣本的類(lèi)內(nèi)離散度:S?=∑yjeu?(y,-m)2,i=1,2兩類(lèi)樣本的總類(lèi)內(nèi)離散度:

Sw=S?+S?兩類(lèi)樣本的類(lèi)間離散度:變成了投影后兩類(lèi)樣本均值之差的平方

Sb=(m?-m?)2

投影之后的類(lèi)內(nèi)離散度和類(lèi)間離散度不再是一個(gè)矩陣,而是一個(gè)數(shù)值?!蛏鲜街械腏F(w)

被稱(chēng)為廣義瑞利商(Generalized

Rayleigh

Quotient)?!?/p>

82.Fisher

準(zhǔn)則函數(shù):Fisher線(xiàn)性判別分析方法希望投影后樣本的類(lèi)內(nèi)離散度盡可能小,而類(lèi)間離散度盡可能大。

根據(jù)這兩條規(guī)則,可以定義Fisher

準(zhǔn)則函數(shù)如下:Fisher線(xiàn)性判別分析的求解問(wèn)題就變成了尋找最優(yōu)的投影方向w

使得Fisher準(zhǔn)則函數(shù)JF(w)最大化的問(wèn)題。經(jīng)過(guò)公式代入,F(xiàn)isher準(zhǔn)則函數(shù)可以寫(xiě)成關(guān)于w的表達(dá)式:3.求解最優(yōu)投影方向:由于w

模值的變化并不會(huì)影響w

的方向,即不會(huì)影響JF(w)的值,所以我們可以假定JF(w)的

分母項(xiàng)是一個(gè)非零常數(shù),通過(guò)最大化分子項(xiàng)來(lái)達(dá)到最大化JF(w)的目的。因此,F(xiàn)isher

準(zhǔn)則函數(shù)的求解問(wèn)題可以轉(zhuǎn)化為:wTspws.t.

wTSww=c≠0通過(guò)引入拉格朗日乘子λ,將問(wèn)題轉(zhuǎn)化為以下拉格朗日函數(shù)的無(wú)約束求極值問(wèn)題:L(w,λ)=wTSpw-λ(wTSww-c)求關(guān)于w

的偏導(dǎo),并令其為0,可以得到:由此可得,使得準(zhǔn)則函數(shù)JF(w)最大化的極值解w*應(yīng)滿(mǎn)足:Sbw*=λSww*◎

8由于矩陣Sw

是非奇異的,式Sbw*=λSww*兩邊同時(shí)左乘,可以得到:Sw1Sbw*=λw*其中,λ是矩陣S-1Sb

,w*是矩陣S-1Sb的特征向量。w*即為要求取的最優(yōu)投影方向。

把式2-15帶入式2-28可以得到:λw*=S-1(m?-m?)(m?-m?)Tw*令R=(m?-m?

)Tw*,

則可變?yōu)椋簑*就是使準(zhǔn)則函數(shù)JF(w)

取極大值時(shí)的解,即Fisher

判別準(zhǔn)則下的最優(yōu)投影方向。利用最優(yōu)投影方向w*,

可以將樣本進(jìn)行投影,獲得一維特征空間的樣本特征:yi=w*Tx◎

8由

于R

是一個(gè)標(biāo)量,不影響w*

的方向,因此可以忽略比例因子

9取向量w*

:4.閾值確定:為了獲得決策面,還需要確定樣本在

維投影方向上的閾值y?

。在

,

值y???/p>

:(

1

)

當(dāng)

空間

數(shù)d

數(shù)

量N

足夠大時(shí),可采用貝葉斯決策規(guī)則,獲得在

維投影空間的“最優(yōu)”

分類(lèi)器

。(

2

)

關(guān)

驗(yàn)

,

使

值y。的

據(jù)

,

時(shí)

可以

義閾值為

:其中

,N?

w?類(lèi)

本的

個(gè)

數(shù)

,N?

w?

類(lèi)

本的

個(gè)

數(shù)

,m?是

后w?類(lèi)

,m?是投影后ω2類(lèi)樣本均值,m

。(

3

)

時(shí)

驗(yàn)

類(lèi)

個(gè)

數(shù)

,

值y?

類(lèi)

術(shù)平均值

,

:(4)當(dāng)考慮樣本的先驗(yàn)分布時(shí),假設(shè)兩類(lèi)樣本均服從正態(tài)分布且協(xié)方差相同時(shí),可以采用如下閾值y。的

方式

:◎85.步驟總結(jié):綜上,對(duì)于兩類(lèi)別的分類(lèi)問(wèn)題,F(xiàn)isher

線(xiàn)性判別分析方法的步驟可總結(jié)如下:(1)計(jì)算兩類(lèi)樣本的均值向量m?和m?;(2)計(jì)算兩類(lèi)樣本的類(lèi)內(nèi)離散度矩陣S?

和S?,

進(jìn)而求總類(lèi)內(nèi)離散度矩陣Sw;(

3

)由m?、m?和Sw,

求最優(yōu)投影方向向w*;(4)選取并計(jì)算閾值yo;(5)對(duì)于待識(shí)別樣本,根據(jù)決策規(guī)則進(jìn)行分類(lèi)。決策規(guī)則可以表示為:◎

8則03

感知器算法Perceptron

AlgorithmPART1.基本概念感知器(Perceptron)算法是一種可以直接得到線(xiàn)性判別函數(shù)的方法。如圖所示,感知器可被看作是一種最簡(jiǎn)單形式的前饋式人工神經(jīng)網(wǎng)絡(luò),可以用來(lái)解決線(xiàn)性可分的分類(lèi)問(wèn)題。其中,[x?…,xa]T

為感知器的輸入向量,[w?

,…,Wa]T

為權(quán)值,θ為閾值,y為輸出。感知器輸入與輸出的關(guān)系可用下式進(jìn)行表達(dá):其中,f(x)

為激活函數(shù)?!蚋兄髂P?.規(guī)范化增廣樣本向量假設(shè)給定線(xiàn)性判別函數(shù)g(x)為:g(x)=wTx+wo其中,x=[x?,x?,…,xa]T

為樣本的d維特征向量,

w=[w?,W?,…,Wa]T為權(quán)向量,wo為閾值權(quán)。分別對(duì)x和w

增加一維,即:y=[x?,X?,…,xa,1]Tα=[w?,W?,…,Wa,Wo]T稱(chēng)y

為增廣樣本向量,α為增廣權(quán)向量。線(xiàn)性判別函數(shù)g(x)變?yōu)椋篻(y)=αTy為了方便討論,對(duì)樣本集Y={y?,y?,…,yn}中的樣本進(jìn)行重新定義,規(guī)則如下:

i=1,2,…,N那么,具有線(xiàn)性可分性的樣本集Y中的樣本均滿(mǎn)足:αTy>0,i=1,2,…,N這里,樣本y′稱(chēng)為規(guī)范化增廣樣本向量?!蛉鐖D所示,對(duì)于任意一個(gè)樣本yi,αTyi=0確定了權(quán)向量空間中的一個(gè)過(guò)原點(diǎn)的超平面Hi,其法向量為yi

。

解向量如果存在,

則其必位于超平面H的正側(cè)。

N

個(gè)樣本將產(chǎn)生N個(gè)超平面,解向量應(yīng)位于N個(gè)超平面正側(cè)的交迭區(qū)域,且該區(qū)域的任意向量都

是解向量a*。因此,樣本集中所有樣本對(duì)

應(yīng)的解向量往往不是唯一的,而是由無(wú)窮

多個(gè)解向量組成的區(qū)域,即為解區(qū)。3.解向量和解區(qū)對(duì)于具有線(xiàn)性可分性的樣本集

Y={y?,y?,…,yn},若存在一個(gè)權(quán)向量α使得下式成立:αTyi>0,i=1,2,…,N則稱(chēng)權(quán)向量α為一個(gè)解向量,記為a*。在權(quán)向量空間中,所有解向量組成的區(qū)域稱(chēng)為解區(qū)。a1y?=0a?y?=0g(1)=a"y=0

y?

y?a'y?=0L

α*y?ay?=0

y?解向量和解區(qū)示意圖4.感知器準(zhǔn)則函數(shù)由Rosenblatt提出的感知準(zhǔn)則函數(shù)定義如下:Jp(α)=∑aTyk≤0(-aTyk)其中,yk

為被權(quán)向量α錯(cuò)分類(lèi)的樣本集。當(dāng)樣本y∈yk

時(shí),有:αTyk≤0當(dāng)且僅當(dāng)全部樣本分類(lèi)正確且沒(méi)有錯(cuò)分樣本時(shí),即yk

為空集時(shí),Jp(α*)=minJp(α)=0,此時(shí)α*就是要求解的最優(yōu)解向量。對(duì)于求解使Jp(α)達(dá)到極小值時(shí)的解向量α*,可以使用梯度下降法進(jìn)行迭代求解。梯度下降法的迭代公式定義如下:α(t+1)=α(t)

PtJp(α)其中,pt表示修正步長(zhǎng)。廣義線(xiàn)性判別函數(shù)Generalized

Linear

DiscriminantFunction04PART建立如下二次判別函數(shù):g(x)=(x-a)(x-b)則可以將兩類(lèi)樣本劃分開(kāi)來(lái),決策規(guī)則是:x位于決策面上將判別函數(shù)式展開(kāi),寫(xiě)成如下形式:X

∈w?

x

∈w?最常見(jiàn)的處理方式就是選擇一種映射x→y,將樣本的特征進(jìn)行空間映射,在原特征空間中線(xiàn)性不可

分的樣本在新的特征空間中就變成了線(xiàn)性可分的。g(x)=Co+C?x+C?x2可以看出,g(x)

中存在x的二次項(xiàng),顯然不是一個(gè)線(xiàn)性判別函數(shù)。

但是,如果我們采取下面的映射x→y,

使得顯然,此時(shí)的g(y)滿(mǎn)足線(xiàn)性判別函數(shù)的形式,此時(shí)其稱(chēng)為廣義線(xiàn)性判別函數(shù),a

稱(chēng)為廣義權(quán)向量。則映射之后判別函數(shù)g(x)可以表示為如下形式:非線(xiàn)性判別函數(shù)示例05

Multiclass

LinearClassifier多類(lèi)線(xiàn)性分類(lèi)器PART線(xiàn)性可分的多分類(lèi)問(wèn)題一般有兩種解決思路:

一種是把多類(lèi)問(wèn)題轉(zhuǎn)化為多個(gè)兩類(lèi)問(wèn)題,通過(guò)構(gòu)建多個(gè)兩類(lèi)分類(lèi)器實(shí)現(xiàn)多類(lèi)的分類(lèi);另一種是直接構(gòu)建多類(lèi)分類(lèi)器。1.

法通過(guò)構(gòu)建多個(gè)兩類(lèi)分類(lèi)器實(shí)現(xiàn)多類(lèi)分類(lèi)的方法又稱(chēng)為兩分法,其主要有兩種典型的做法:“

一對(duì)多”

方法和“一對(duì)一”方法?!耙粚?duì)多”方法:基本思想是首先使用一個(gè)兩類(lèi)分類(lèi)器將屬于w?

類(lèi)的樣本和其他類(lèi)別的樣本分開(kāi),然后再使用一個(gè)兩類(lèi)分類(lèi)器將屬于w?

類(lèi)的樣本和其他類(lèi)別樣本分開(kāi),以此類(lèi)推,直到所有樣本都被正確分類(lèi)為止。該方法一共需要c個(gè)兩類(lèi)分類(lèi)器,我們可以用c

個(gè)判別函數(shù)進(jìn)行表示:gi(x)=wx,

i=1,2,…,c其中,每個(gè)判別函數(shù)都滿(mǎn)足:通過(guò)這些判別函數(shù),可以把c類(lèi)的分類(lèi)問(wèn)題轉(zhuǎn)化成c個(gè)屬于wi和不屬于w;的兩類(lèi)的分類(lèi)問(wèn)題。這里,我們把不屬于wi的記為Wi,從而將“一對(duì)多”方法稱(chēng)為wi/Wi兩分法?!?/p>

8i=1,2,…,Cgij(x)=-gij(x)通過(guò)上述判別函數(shù),“一對(duì)一”方法可以把c類(lèi)的分類(lèi)問(wèn)題轉(zhuǎn)化成多個(gè)兩類(lèi)的分類(lèi)問(wèn)題。與Wi/Wi兩分法的不同之處在于,轉(zhuǎn)化成的兩類(lèi)問(wèn)題的數(shù)目不同,而且此時(shí)的兩類(lèi)問(wèn)題變成了Wi/W;問(wèn)題。因此,“一對(duì)一”方法又稱(chēng)為wi/w;兩分法?!颉耙粚?duì)一”方法:基本思想是對(duì)c類(lèi)中的每?jī)深?lèi)之間都構(gòu)造一個(gè)分類(lèi)器。由于把wi和w;分開(kāi)與把w;和wi分開(kāi)效果是一樣的,因此這種方法共需要c(c-1)/2

個(gè)分類(lèi)器。我們可以使用不同的判別函數(shù)來(lái)表示不同的分類(lèi)器:gij(x)=w;jTx,i,j=1,2,…,c,i≠j其中,每個(gè)判別函數(shù)都滿(mǎn)足:i=1,2,…,C上述兩種方法存在的問(wèn)題:“一對(duì)多”方法:Wi/Wi兩分法的問(wèn)題在于,如果c個(gè)類(lèi)別中,每個(gè)類(lèi)別的樣本數(shù)目相差不大,

那么在執(zhí)行每個(gè)兩分類(lèi)問(wèn)題時(shí),會(huì)造成樣本數(shù)目不均衡的問(wèn)題。此時(shí),一個(gè)類(lèi)別的樣本數(shù)大約是另一類(lèi)別樣本數(shù)的c-1

倍,兩類(lèi)分類(lèi)器可能會(huì)因?yàn)闃颖緮?shù)目相差過(guò)大而導(dǎo)致分類(lèi)結(jié)果具有偏向性?!耙粚?duì)一”方法:Wi/W;兩分法相對(duì)來(lái)說(shuō)不容易存在兩類(lèi)樣本數(shù)目過(guò)于不均衡的問(wèn)題,但其

所需要的分類(lèi)器數(shù)目卻要更多一些。上述兩種兩分法存在的另一個(gè)問(wèn)題是,會(huì)形成“歧義”區(qū)域。“歧義”區(qū)域的意思是存在不屬于c類(lèi)中任意一個(gè)類(lèi)別的區(qū)域。如

圖所示,陰影區(qū)域不屬于任一類(lèi)別。采用兩分法實(shí)現(xiàn)多類(lèi)分類(lèi)器時(shí)可能出現(xiàn)的“歧義”區(qū)域

◎2.多類(lèi)線(xiàn)性分類(lèi)器多類(lèi)線(xiàn)性分類(lèi)器就是對(duì)c個(gè)類(lèi)別的每一個(gè)類(lèi)別都設(shè)計(jì)一個(gè)線(xiàn)性判別函數(shù),即:gi(x)=wiTx+Wio,i=1,2,…,C在決策時(shí),如果存在某一類(lèi)別wi的判別函數(shù)滿(mǎn)足:gi(x)>g;(x),Vj≠i則把樣本歸為wi類(lèi)。不同于兩分法,多類(lèi)線(xiàn)性分類(lèi)器不會(huì)形

成決

義”的區(qū)域,可以保證

樣本

空間中的所有區(qū)域都

被c個(gè)類(lèi)別“完美”劃分,如圖所示。多類(lèi)線(xiàn)性分類(lèi)器

◎2.求

法在多類(lèi)線(xiàn)性可分的情況下,求解多類(lèi)線(xiàn)性分類(lèi)器的方法與兩類(lèi)情況下的感知器算法是類(lèi)似的,可以使

用單樣本的固定增量法進(jìn)行不斷修正和求解。算法的具體步驟如下:(1)選擇任意的初始權(quán)向量wi(0),i=1,2,…,c,

置t=0。(2)對(duì)樣本集中的任意一個(gè)樣本yk∈Wi,計(jì)算αi(t)Tyk。若α;(t)Tyk>α;(t)Tyk,

則表明該樣本被正確分類(lèi),所有權(quán)向量不變;若存在某個(gè)類(lèi)別wj,使得α?(t)Tyk≤αj(t)Tyk,則表明該樣本被錯(cuò)誤分

類(lèi),需要對(duì)相關(guān)的權(quán)向量進(jìn)行修正,規(guī)則如下:其中,pt為步長(zhǎng),可以設(shè)定為常數(shù),也可以設(shè)定為隨時(shí)間t而變化的量。(3)繼續(xù)考察樣本集中的另一個(gè)樣本,重復(fù)步驟(2),直至分類(lèi)器對(duì)所有樣本都能正確分類(lèi)為止。與感知器算法一樣,這種算法屬于逐步修正法。可以證明,對(duì)于線(xiàn)性可分的多類(lèi)樣本集,該算法經(jīng)過(guò)

有限次迭代后會(huì)收斂到一組解向量。◎謝

看T

H

A

N

K

Y

0

U模式識(shí)別及Python實(shí)現(xiàn)第三章:貝葉斯分類(lèi)器貝葉斯決策理論是處理模式識(shí)別分類(lèi)問(wèn)題的基本理論之一,對(duì)分類(lèi)器的設(shè)計(jì)具有重要的指導(dǎo)意義。貝葉斯決策理論的基本思想是,給定具有特征向量的待識(shí)別樣本,計(jì)算其屬于某一類(lèi)的概率,并將它屬于某一類(lèi)的概率值作為后續(xù)分類(lèi)決策的依據(jù)。在具體實(shí)際應(yīng)用過(guò)程中,我們往往需要首先根據(jù)訓(xùn)練樣本來(lái)估計(jì)各類(lèi)的概率密度函數(shù),然后再進(jìn)行分類(lèi)決策。在使用貝葉斯分類(lèi)器時(shí),我們要求滿(mǎn)足以下兩個(gè)前提條件:(1)每類(lèi)樣本的概率密度函數(shù)是已知的;(2)樣本的類(lèi)別數(shù)是已知的。本章將詳細(xì)介紹在滿(mǎn)足以上兩個(gè)條件的前提下,貝葉斯分類(lèi)器的設(shè)計(jì)方法。前

言PREFACE基本概念貝葉斯決策貝葉斯分類(lèi)器目

錄CONTENT123基本概念Basic

ConceptPART

01在實(shí)際應(yīng)用中,先驗(yàn)概率一般不作為分類(lèi)決策的唯一依據(jù)。但倘若用于統(tǒng)計(jì)先驗(yàn)概率的樣本數(shù)量足夠大時(shí),可將其作為分類(lèi)決策的主要因素。◎1.先驗(yàn)概率:先驗(yàn)概率是根據(jù)以往經(jīng)驗(yàn)和分析得到的概率,往往通過(guò)大量抽樣實(shí)驗(yàn)估計(jì)得到。對(duì)于c類(lèi)的分類(lèi)問(wèn)題,我們用wi表示第i個(gè)類(lèi)別,則w;類(lèi)的先驗(yàn)概率用P(wi)表示,且滿(mǎn)

足:2.類(lèi)條件概率密度:類(lèi)條件概率密度是指該類(lèi)樣本的特征在特征空間的分布屬性,即:wi類(lèi)樣本的類(lèi)條件概率密度就是在特征空間中,w;類(lèi)樣本的特征x出現(xiàn)的概率密度。常用p(x|wi)來(lái)

表示wi類(lèi)的類(lèi)條件概率密度函數(shù)。W;類(lèi)的類(lèi)條件概率密度只與w;類(lèi)樣本的分布有關(guān)

系,與其他類(lèi)的樣本分布無(wú)關(guān)。在實(shí)際應(yīng)用中,如果統(tǒng)計(jì)數(shù)據(jù)滿(mǎn)足正態(tài)分布,這時(shí)可采用正態(tài)密度函數(shù)作為類(lèi)條件概率密度的函數(shù)形式。在正態(tài)密度函數(shù)中,只有期望μ和方差σ2是未知的參數(shù)。我們

可以通過(guò)對(duì)大量實(shí)驗(yàn)樣本的統(tǒng)計(jì)估計(jì)出這兩個(gè)參數(shù),進(jìn)而確定類(lèi)條件概率密度函數(shù)。3.后驗(yàn)概率:后驗(yàn)概率是指在事件發(fā)生后,由某個(gè)因素引起這一事件發(fā)生的概率,即在某一屬性x

被觀測(cè)到的條件下,wi類(lèi)別發(fā)生的概率,常用P(wi|x)表示wi的后驗(yàn)概率。◎

84.貝葉斯公式:貝葉斯公式由18世紀(jì)英國(guó)數(shù)學(xué)家貝葉斯于1963年提出,其可以將先驗(yàn)概率P(wi)、類(lèi)條件概率密度p(x|wi)和后驗(yàn)概率P(wi|x)聯(lián)合起來(lái)。假設(shè)有c類(lèi)樣本,利用貝葉斯公

式可以得到利用先驗(yàn)概率P(wi)和類(lèi)條件概率密度p(x|wi)計(jì)算后驗(yàn)概率P(wi|x)的方

法,即:其中,p(x)是所有類(lèi)別的概率密度,可由下式計(jì)算:◎貝葉斯決策

02

Bayesian

DecisionPART依據(jù)貝葉斯公式,可以利用已知或估計(jì)出的先驗(yàn)概率和類(lèi)條件概率密度計(jì)算各類(lèi)樣本的后驗(yàn)概率,并使用某種準(zhǔn)則完成分類(lèi)識(shí)別,這就是貝葉斯決策的基本思想。其中,最小錯(cuò)誤率貝葉斯決策和最小風(fēng)

險(xiǎn)貝葉斯決策是最基本的兩種方法。1.最小錯(cuò)誤貝葉斯決策:當(dāng)按照某一種分類(lèi)準(zhǔn)則對(duì)目標(biāo)樣本進(jìn)行分類(lèi)時(shí),一般都存在決策判斷錯(cuò)誤的概率。最小錯(cuò)誤率貝葉斯

決策方法的出發(fā)點(diǎn)就是使分類(lèi)決策的錯(cuò)誤率最小。如果兩類(lèi)樣本的類(lèi)條件概率密度分別為p(x|w?)

和p(x|w?)

則利用如果兩類(lèi)樣本的類(lèi)條件概率密度分別為p(x|w?)

和p(x|w?),

則利用貝葉斯公式可由先驗(yàn)概率和類(lèi)條件概率密度計(jì)算出后驗(yàn)概率p(x|w?)和

p(x|w?)。

利用后驗(yàn)概率,可以定義兩類(lèi)別分類(lèi)問(wèn)題的決策規(guī)則如下:上式就是二分類(lèi)情況下最小錯(cuò)誤率貝葉斯決策規(guī)則,即:在先驗(yàn)概率和類(lèi)條件概率密度已知的情況下,利用貝葉斯公式計(jì)算后驗(yàn)概率,并通過(guò)比較樣本屬于兩類(lèi)的后驗(yàn)概率,將待識(shí)別樣本決策為后

驗(yàn)概率大的一類(lèi)。該決策規(guī)則可以使分類(lèi)器的總體錯(cuò)誤率最小。◎?qū)τ赾類(lèi)別的分類(lèi)問(wèn)題,最小錯(cuò)誤率貝葉斯決策規(guī)則可表示為:若P(wi|x)=maxj=1,2,,c{P(W;|x)},則x∈Wi利用貝葉斯公式可以得到以下最小錯(cuò)誤率貝葉斯決策規(guī)則的等價(jià)形式:(1)由于貝葉斯公式的分母與分類(lèi)結(jié)果無(wú)關(guān),所以決策時(shí)只需要比較貝葉斯公式分子的大小即可。決策規(guī)則可寫(xiě)為:若p(x|wi)P(wi)=max;=1,2,…c{p(x|wj)P(w;)},則x∈Wi(2)對(duì)于二分類(lèi)問(wèn)題,可以表示為如下等價(jià)形式:其

,L(x)稱(chēng)為似然比,λ稱(chēng)為似然比閾值。對(duì)待識(shí)別樣本x

進(jìn)行分類(lèi)時(shí),首先計(jì)算其對(duì)應(yīng)的似然比L(x),

然后將似然比與閾值λ進(jìn)行比較。若似然比大于閾值,則決策x∈W?;

若似然比小于閾值,則

決策x∈W?。(3)在某些特定情況下,用對(duì)數(shù)形式進(jìn)行計(jì)算會(huì)更加方便。有:則則其

,L(x)稱(chēng)為似然比,λ稱(chēng)為似然比閾值。對(duì)待識(shí)別樣本x

進(jìn)行分類(lèi)時(shí),首先計(jì)算其對(duì)應(yīng)的似然比L(x),然后將似然比與閾值λ進(jìn)行比較。若似然比大于閾值,則決策x∈W1;

若似然比小于閾值,則

策x∈W?。(3)在某些特定情況下,用對(duì)數(shù)形式進(jìn)行計(jì)算會(huì)更加方便。有:(2)對(duì)于二分類(lèi)問(wèn)題,可以表示為如下等價(jià)形式:◎

8下面對(duì)分類(lèi)決策的錯(cuò)誤率問(wèn)題進(jìn)行探討,并證明最小錯(cuò)誤率貝葉斯決策確實(shí)能使分類(lèi)錯(cuò)誤率最小。首先,這里分類(lèi)決策的錯(cuò)誤率是指平均錯(cuò)誤率,用P(e)來(lái)表示,其定義為:x)表示觀測(cè)值為x時(shí)的條件錯(cuò)誤概率,

p(x)為觀測(cè)值x出現(xiàn)的概率密度函數(shù),◎

8其

,P(e對(duì)于區(qū)域R?內(nèi)任意的x

值,都有P(W?|x)>P(w?|x),P?(e)

在每個(gè)x

值處都取最小者。同樣,對(duì)于區(qū)域R?

內(nèi)的任意x

值,都有P(w?|x)>P(w?|x),P?(e)在每個(gè)x

值處都取最小者。也就是說(shuō),對(duì)于樣本空間

中每個(gè)任意的x值,錯(cuò)誤率都取最小者。因此,分類(lèi)決策的平均錯(cuò)誤率P(e)

也必然為最小。如圖所示,

t為一維特征空間的分界點(diǎn)。顯然,

t的位置不同,錯(cuò)誤率也不同。圖中,左半邊的陰影部

分面積代表P(w?)P?(e),右半邊陰影部分面積代表P(w?)P?(e),兩者之和為總錯(cuò)誤率P(e)。最小錯(cuò)誤率貝葉斯決策錯(cuò)誤率

2.最小風(fēng)險(xiǎn)貝葉斯決策:最小風(fēng)險(xiǎn)貝葉斯決策是考慮各種分類(lèi)錯(cuò)誤引起的損失而提出的一種決策規(guī)則。假定有c類(lèi)樣本,用W;(j=1,2,…,c)表示類(lèi)別,用αi(i=1,2,…,k)

表示可以做出的決策。在實(shí)際應(yīng)用中,有些樣本可能不能決策其屬于任何一類(lèi),有時(shí)也可以在決策時(shí)把幾類(lèi)樣本合并成同一個(gè)大類(lèi),所

以k不一定等于c。對(duì)于給定樣本x,令損失函數(shù)λ(αi,W;)表示對(duì)于W;類(lèi)的樣本x,

采取決策α;所帶來(lái)的

損失。每個(gè)決策都會(huì)帶來(lái)一定的損失,它是由樣本的真實(shí)狀態(tài)wj和決策α;來(lái)決定的。λ(αi,Wj)可以用表格的形式給出,即決策表。決策類(lèi)型W?W?…Wcα?λ(a?,W?)λ(a?,W?)…λ(a?

,wc)α?λ(a?,W?)λ(a?,W?)…λ(az,wc)……::αkλ(αk,W?)λ(ak,W?)…λ(αk,Wc)損失函數(shù)λ(ai,Wj)的決策表對(duì)應(yīng)x的不同取值,采取決策α?

時(shí)的條件風(fēng)險(xiǎn)值是不同的。我們可將決策α看成隨x變化的函數(shù),記為

a(x)

。

因此,對(duì)特征空間中所有可能的樣本x

采取決策所造成的期望損失(期望風(fēng)險(xiǎn))可由下式計(jì)算:R(a)=?R(α(x)|x)p(x)dx其中,積分運(yùn)算是在整個(gè)特征空間進(jìn)行的。期望風(fēng)險(xiǎn)R(a)

表示的是對(duì)整個(gè)特征空間上所有x的取值采取決策α(x)所帶來(lái)的損失;而條件風(fēng)險(xiǎn)R(a;|x)表示對(duì)特定的某一樣本x

采取決策α;所帶來(lái)的損失。而

最小風(fēng)險(xiǎn)貝葉斯決策就是最小化期望風(fēng)險(xiǎn),即:給定樣本x,

假設(shè)它的各個(gè)狀態(tài)的后驗(yàn)概率P(wj|x)(j=1,2,…,c)

已經(jīng)確定。對(duì)于樣本x,

如果采取決策αi(i=1,2,

,k),從上表所示的決策表可以看出其對(duì)應(yīng)c

個(gè)λ(αi,Wj)

因此,采取決策α;的期望損失(條件風(fēng)險(xiǎn))可定義為:◎

要使期望風(fēng)險(xiǎn)R(α)

最小,就是要對(duì)所有的x使得R(a(x)|x)最小。所以,最小風(fēng)險(xiǎn)貝葉斯決策規(guī)則可以表述為:若R(ai|x)=min;=1,…,k{R(a;I

x)},則α=αi在已知先驗(yàn)概率和類(lèi)條件概率密度的條件下,對(duì)樣本x,最小風(fēng)險(xiǎn)貝葉斯決策的步驟可總結(jié)如下:(1)利用貝葉斯公式計(jì)算后驗(yàn)概率P(w;|x),j=1,2,…,C;(2)由決策表,利用式3-14計(jì)算條件風(fēng)險(xiǎn)R(αi|x),i=1,2,…,k;(3)根據(jù)決策規(guī)則:若R(ai|x)=min;=1,….k{R(ajI

x)},則α=αi選擇風(fēng)險(xiǎn)最小的決策。◎03

BayesianClassifier貝葉斯分類(lèi)器PART1.基于正態(tài)分布的最小錯(cuò)誤率貝葉斯分類(lèi)器正態(tài)分布也稱(chēng)作高斯分布,之所以引入正態(tài)分布來(lái)解決問(wèn)題,是因?yàn)閷?duì)大量實(shí)際數(shù)據(jù)來(lái)說(shuō),正態(tài)分布假設(shè)是一種合理的近似。另一方面,正態(tài)分布在數(shù)學(xué)上具有很多好的性質(zhì),便于計(jì)算分析。對(duì)于最小錯(cuò)誤率貝葉斯決策,判別函數(shù)可以定義為:gi(x)=p(x|wi)P(wi),i=1,2,…,c其決策規(guī)則為:若gi(x)>g;(x),i=1,2,

,c,j≠i,則x∈Wi決策面方程為:gi(x)>gj(x)設(shè)x為維數(shù)為n的特征向量,且p(x|wi)服從正態(tài)分布,即:p(x|wi)~N(μi,∑i)其中,

μi是w;類(lèi)樣本的均值向量,

∑是w;類(lèi)樣本的協(xié)方差矩陣,則wi類(lèi)的判別函數(shù)可表示為:其中,與類(lèi)別無(wú)關(guān),不影響分類(lèi)決策,可以去掉。因此,可以進(jìn)一步簡(jiǎn)化為:為了進(jìn)一步理解多元正態(tài)分布下的判別函數(shù)和決策面,我們下面分幾種情況進(jìn)行討論。1.∑i=σ2I這種情況意味著每一類(lèi)的協(xié)方差矩陣都是相等的,且類(lèi)內(nèi)各特征維度間相互獨(dú)立,具有相同的方差。從幾何形狀上看,相當(dāng)于各個(gè)樣本都集中在以該類(lèi)的均值μi點(diǎn)為中心的同等大小和形狀的超球體內(nèi)。此時(shí),協(xié)方差矩陣

;為:對(duì)于待識(shí)別樣本x,

決策規(guī)則為:若g(x)=maxig;(x),

則x∈w其中

,i=1,…,c

相應(yīng)的決策面方程為:gi(x)=gj(x)下面再分兩種情況進(jìn)行討論。

◎進(jìn)一步簡(jiǎn)化式3-26,去掉與類(lèi)別無(wú)關(guān)的項(xiàng)判別函數(shù)可表示為:(1)c類(lèi)的先驗(yàn)概率不等,即:

P(wi)≠P(wj)當(dāng)

c

類(lèi)的先驗(yàn)概率P(Wi),i=1,…,c

相互之間不相等時(shí),進(jìn)

步化簡(jiǎn)并忽略與類(lèi)別無(wú)關(guān)的項(xiàng),決策面方

程可表示為:wT(x-xo)=0其中

,w=μi

一μj,由

,w是由點(diǎn)μj到點(diǎn)μi的向量,決策面

過(guò)x?

點(diǎn),且與向量w

正交。由于特征向量之間的協(xié)方差都為0,所以此時(shí)等概率面皆為

超球體。當(dāng)不同類(lèi)的先驗(yàn)概率不同時(shí),其決策界面將會(huì)遠(yuǎn)離先驗(yàn)概率較大的均值點(diǎn)。如圖所示,對(duì)于決策界面X?待分類(lèi)點(diǎn)OP(@?)>P(a)決策面將會(huì)遠(yuǎn)離w?類(lèi)的均值點(diǎn)μ2。兩

類(lèi)問(wèn)

,P(w?)>P(w?),◎X?可以看出,此時(shí)分類(lèi)決策的結(jié)果只與每類(lèi)的均值μi有關(guān)。在對(duì)樣本x

進(jìn)行分類(lèi)時(shí),只要計(jì)算樣本x

各類(lèi)均值μ的歐氏距離的平方

|

|x-

μill2,

本x

歸到具有mini

=1

…clIx-μill2的類(lèi)。因此,這種分類(lèi)

器又叫做“最小距離分類(lèi)器”。此時(shí),決策面方程為:wT(x-xo)=0(1)c類(lèi)的先驗(yàn)概率相等,即:

P(wi)=P(wj)當(dāng)c

類(lèi)的先驗(yàn)概率P(wi),i=1,…,c都相等時(shí),則可以去除判別函數(shù)中的InP(wi)項(xiàng),進(jìn)

步簡(jiǎn)化可得:P(O?)=P(

)◎

8由上式可知,決策面通過(guò)x?

點(diǎn),且與向量w

正交。當(dāng)不同類(lèi)的先驗(yàn)概率不同時(shí),x?點(diǎn)不是點(diǎn)μi和點(diǎn)μj

連線(xiàn)的中點(diǎn)。◎2.2i=∑這種情況下,每類(lèi)的協(xié)方差矩陣均相等。從幾何形狀上看,相當(dāng)于各個(gè)樣本都集中在以該類(lèi)的均值

μi

點(diǎn)為中心的同等大小和形狀的超橢球體內(nèi)。?=2?=…=2

c

=

∑,

所以

同樣,下面分兩種情況進(jìn)行討論。(1)c

類(lèi)的先驗(yàn)概率不等,即:

P(Wi)≠P(Wj)當(dāng)c類(lèi)的先驗(yàn)概率P(Wi),i=1,…,c相互之間不相等時(shí),決策面方程式3-27可化簡(jiǎn)為:wT(x-xo)=0其中,w=2-1(μi-

μj),P(w?)>P(w)由于w=z-1(μi-μj)通常不在(μi-μj)方向,所以決策面通常不與(

μi-μj)正交。如圖所示,對(duì)于兩分類(lèi)問(wèn)題,P(w?)>P(w?),

決策面不通過(guò)μ1和μ2連線(xiàn)的中點(diǎn),而是遠(yuǎn)離先驗(yàn)概率較大的均值點(diǎn)μ2。先驗(yàn)概率不同時(shí)的決策面◎(2)c

類(lèi)的先驗(yàn)概率相等,即:

P(wi)=P(wj)當(dāng)c

類(lèi)的先驗(yàn)概率P(wi),i=1,…,c都相等時(shí),則可以去除判別函數(shù)中的InP(wi)項(xiàng),進(jìn)一步簡(jiǎn)化為:gi(x)=(x-μi)Tz-1(x-μi)=γ2其中,γ表示馬氏距離。此時(shí),決策面方程為:wT(x-xo)=0其中,w=∑-1(μi-μj),xo=1/2(μi+μj)??梢钥闯?,決策面通過(guò)點(diǎn)

μi和點(diǎn)μ;連線(xiàn)的中點(diǎn),并與向量w

正交。如圖所示,對(duì)于兩分類(lèi)問(wèn)題,當(dāng)P(w?)=P(w?)時(shí),決策面過(guò)μ1和μ2的連線(xiàn)中點(diǎn),但不與μ?和μ2的連線(xiàn)正交。先驗(yàn)概率相同時(shí)的決策面◎2.

各類(lèi)均方差矩陣不相等這種情況是多元正態(tài)分布的

一般情況,即:

;任意,各類(lèi)的協(xié)方差矩陣不相等。此時(shí),判別函數(shù)為二次型函數(shù),可表示為:由該式?jīng)Q定的決策面為超曲面,隨著

;,μi,P(wi)

的不同而呈現(xiàn)出不同的超二次曲面,如超球面、超橢球面、超拋物面、超雙曲面或超平面。下圖給出了二元正態(tài)分布下兩類(lèi)決策面的5種形式。其中:

O決策面方程為:(d)雙曲線(xiàn)(b)橢圓(e)直線(xiàn)2.樸素貝葉斯分類(lèi)器在實(shí)際應(yīng)用中,通常需要利用樣本的多個(gè)屬性進(jìn)行分類(lèi)決策,而屬性之間往往具有一定的關(guān)聯(lián)性。為了簡(jiǎn)化問(wèn)題的求解,可以考慮采用屬性條件獨(dú)立性假設(shè),即對(duì)所有已知類(lèi)別的樣本,假設(shè)所有的屬性

之間相互獨(dú)立,即每個(gè)屬性獨(dú)立地對(duì)分類(lèi)結(jié)果產(chǎn)生影響。在此屬性條件獨(dú)立性假設(shè)的基礎(chǔ)上,利用貝

葉斯決策理論進(jìn)行分類(lèi),被稱(chēng)為樸素貝葉斯分類(lèi)器。研究發(fā)現(xiàn):在大多數(shù)情況下,尤其是應(yīng)用于大型

數(shù)據(jù)庫(kù)時(shí),樸素貝葉斯分類(lèi)器表現(xiàn)出良好的性能。樸素貝葉斯分類(lèi)器的步驟可總結(jié)如下:(1)對(duì)每個(gè)類(lèi)別,計(jì)算先驗(yàn)概率P(Wi),i=1,2,…,C;(2)對(duì)每個(gè)特征屬性,計(jì)算其對(duì)應(yīng)的類(lèi)條件概率密度p(x;|Wi),i=1,2,…,C;(3)利用式:計(jì)算每類(lèi)樣本對(duì)應(yīng)的判別函數(shù)g;(x);(4)根據(jù)決策規(guī)則:若gi(x)=maxi=1,2,

,c9i(x),

則x∈Wi對(duì)待識(shí)別樣本進(jìn)行分類(lèi)。

◎謝

看T

H

A

N

K

Y

0

U模式識(shí)別及Python實(shí)現(xiàn)第四章:概率密度函數(shù)估計(jì)對(duì)于類(lèi)條件概率密度函數(shù)的估計(jì),可分為參數(shù)估計(jì)和非參數(shù)估計(jì)兩類(lèi)。在參數(shù)估計(jì)中,概率密度函數(shù)的形式是已知的,

但其中的部分或全部參數(shù)是未知的。此時(shí),概率密度函數(shù)的

估計(jì)問(wèn)題就是利用樣本集對(duì)概率密度函數(shù)的某些參數(shù)進(jìn)行估

計(jì)。最常用的參數(shù)估計(jì)方法主要有最大似然估計(jì)和貝葉斯估

計(jì)。其中,最大似然估計(jì)是把參數(shù)看作是確定性的量,只是其取值未知。貝葉斯估計(jì)則把待估計(jì)的參數(shù)看成是符合某種先驗(yàn)概率分布的隨機(jī)變量。在非參數(shù)估計(jì)中,概率密度函數(shù)

的形式是未知的,直接利用學(xué)習(xí)樣本對(duì)概率密度函數(shù)進(jìn)行估

計(jì)。常用的非參數(shù)估計(jì)方法主要有Parzen窗估計(jì)法和近鄰估前

言PREFACE目

錄CONTENT1基本概念2

最大似然估計(jì)方法3貝葉斯估計(jì)與貝葉斯學(xué)習(xí)4

非參數(shù)估計(jì)基本概念Basic

ConceptPART

01(1)統(tǒng)計(jì)量:樣本中包含著總體的信息,針對(duì)不同要求構(gòu)造出樣本的某種函數(shù),通過(guò)樣本

集把有關(guān)信息抽取出來(lái)。若觀測(cè)樣本為x?,X?,…,Xn,

則函數(shù)f(x?,X?,…,Xn)是樣本集的統(tǒng)計(jì)

量。(2)參數(shù)空間:

總體分布未知參數(shù)θ的全部可容許值組成的集合稱(chēng)為參數(shù)空間,記為0。(3)點(diǎn)估計(jì)、估計(jì)量和估計(jì)值:點(diǎn)估計(jì)就是要構(gòu)造一個(gè)統(tǒng)計(jì)量d(x?,X?,…,Xn)作為參數(shù)θ的

估計(jì)?。在統(tǒng)計(jì)學(xué)中,稱(chēng)θ為θ的估計(jì)量。把樣本的觀測(cè)值代入統(tǒng)計(jì)量d,

得到一個(gè)具體數(shù)值,

這個(gè)數(shù)值在統(tǒng)計(jì)學(xué)中稱(chēng)為θ的估計(jì)值。(4)區(qū)間估計(jì):

用區(qū)間[d?

,d?

]

作為θ可能取值范圍的一種估計(jì)。這個(gè)區(qū)間稱(chēng)為置信區(qū)間,

這類(lèi)估計(jì)稱(chēng)為區(qū)間估計(jì)。最大似然估計(jì)方法02

Maximum

Likelihood

MethodPART最大似然估計(jì)的目的是確定所抽取的樣本來(lái)自哪個(gè)概率密度函數(shù)的可能性最大,即在參數(shù)空間Θ中找到一個(gè)參數(shù)值θ,它能使似然函數(shù)1(θ)極大化。這里,?是參數(shù)θ的最大似然估計(jì)量,記作

θ=argmaxl(θ)其

,argmax表示使似然函數(shù)I(θ)取得最大值時(shí)參數(shù)θ的取值。因此,參數(shù)θ的最大似然估計(jì)量是下

面方程的解:對(duì)數(shù)函數(shù)的單調(diào)遞增性質(zhì)決定了使對(duì)數(shù)似然函數(shù)達(dá)到最大值的θ同時(shí)也是使似然函數(shù)達(dá)到最大值的θ。因此,為了便于分析,還可以定義對(duì)數(shù)似然函數(shù):可以證明,這時(shí)θ的最大似然估計(jì)量是下面方程的解:◎如果未知參數(shù)不止一個(gè),即當(dāng)θ=[01,θ?,

…,θs]T是由多個(gè)參數(shù)組成的向量時(shí),求解似然函數(shù)的最大值就需要對(duì)θ的每一維分別求偏導(dǎo)。最大似然估計(jì)量的求解方法:在似然函數(shù)滿(mǎn)足連續(xù)、可微的條件下,如果θ是一維變量,即只有一個(gè)待估計(jì)參數(shù),其最大似然估計(jì)量就是微分方程:或的解。如果上式的解合能使似然函數(shù)值最大,則合就是θ的最大似然估計(jì)量。但是,在某些情況下,似然函數(shù)可能有多個(gè)極值,此時(shí)可能會(huì)沒(méi)有唯一解,其中使似然函數(shù)值最大的解才是最大似然估計(jì)量。例如,在下圖中有7個(gè)解,雖然它們都是微分方程的解,但是只有θ才能使似然函數(shù)取最大值。最大似然估計(jì)示意圖例

4

.

1

設(shè)

集X=(x?,x?,…,xn)是

體中

獨(dú)

態(tài)

布N(μ,o2),

其均值μ和方差σ2均未

,

值μ

?

2

計(jì)

。解:設(shè)θ?=μ,θ?=σ2,θ=[θ1,θ?

]

T,

:樣本集X

的似然函數(shù)為:對(duì)

數(shù)

數(shù)

:◎

參數(shù)θ的最大似然估計(jì)θ?、θ

?滿(mǎn)足下面的方程組:解方程組可得θ?和θ2的最大似然估計(jì)為:對(duì)

H(θ)分別關(guān)于θ?和θ?求偏導(dǎo),可得:◎差矩陣

∑是

的,◎

4

.

2

設(shè)樣本集X=(x?,x2,…,xn)是從總體中獨(dú)立抽取的,且服從多元正態(tài)分布N(μ,∑),若協(xié)方均

值向

μ未知,求

值向

μ的

計(jì)

。解:由題意知,樣本的總體概率密度為:對(duì)上式關(guān)于均值向量μ求偏導(dǎo)得:樣本

集X

的似然函數(shù)為:對(duì)數(shù)似然函數(shù)為:可以推出:即

:所以,均值向量μ的最大似然估計(jì)為:◎貝葉斯估計(jì)與貝葉斯學(xué)03

dyesian

Estimation

andBayesianLearningPART貝葉斯估計(jì)是另

種常用的概率密度函數(shù)參數(shù)估計(jì)方法。1.

計(jì)在貝葉斯估計(jì)中,把待估計(jì)的參數(shù)θ看作是具有先驗(yàn)分布密度p(θ)的

機(jī)

其目

標(biāo)

據(jù)

X=(x?,x?,…,xn)

估計(jì)最優(yōu)的參數(shù)θ(記作θ*)。在實(shí)際應(yīng)用中,最常用的損失函數(shù)是平方誤差損

失函數(shù),即:λ(θ,θ)=(θ-

θ)2在最小平方誤差損失函數(shù)下,貝葉斯估計(jì)的步驟是:(1)確定參數(shù)θ的先驗(yàn)分布密度p(θ),其中待估計(jì)的參數(shù)θ為隨機(jī)變量。(

2

)由

獨(dú)

數(shù)

式p(x|

θ)是已

,

的聯(lián)合條件概率密度函數(shù),即:(3)利用貝葉斯公式求參數(shù)θ的后驗(yàn)概率分布,即:(

4

)

式求參數(shù)θ的貝葉斯估計(jì)量θ*?!?λ(θ,θ)=(θ-

θ)2通過(guò)該式,我們可以將概率密度函數(shù)p(x|X)看作是所有可能的參數(shù)取值下樣本概率密度的加權(quán)平均,其中權(quán)重就是給定樣本集X的條件下參數(shù)θ的后驗(yàn)概率?!?/p>

8進(jìn)行貝葉斯估計(jì)的最終目的是確定概率密度函數(shù)p(x|X)。

數(shù)

,

以將問(wèn)題的求解轉(zhuǎn)化為估計(jì)概率密度函數(shù)中的參數(shù)。在貝葉斯估計(jì)的框架下,在由式得

數(shù)

驗(yàn)

率p(θ|X)后,可以不利用步驟(4)求解參數(shù)θ的貝葉斯估計(jì)量,而是利用下式直接求樣本的概率密度函數(shù):解:由題意知,樣本總體概率密度為:均值μ的概率密度為:利用貝葉斯公式,可得:例4

.

3設(shè)

集X=(x?,x?,…,xn)

是從總體中獨(dú)立抽取的,且服從單變量正態(tài)分布N(μ,o2),其

差o2是已

知的,均值μ未知。假定均值μ服從均值為μ?

、方差為

o2

的正態(tài)分布,求均值μ的貝葉斯估計(jì)量。由于分母只是用來(lái)對(duì)估計(jì)出的后驗(yàn)概率密度進(jìn)行歸

化的常數(shù)項(xiàng),因此下面只討論上式的分子部分,即:◎在上式中,與μ不依賴(lài)的量都全部包含

也是一個(gè)正態(tài)分布,可以寫(xiě)為:使用待定系數(shù)法,令上面兩個(gè)式中對(duì)應(yīng)的系數(shù)相等,可求得:其中,解上面的方程,可得:均值μ的貝葉斯估計(jì)量為:◎2.

貝葉斯學(xué)習(xí)與貝葉斯估計(jì)對(duì)概率密度函數(shù)的參

數(shù)

進(jìn)

計(jì)

不同,貝葉斯學(xué)習(xí)是直接

度函

數(shù)。給定包

含N個(gè)樣本

的樣本集XN=(x?,x?,

,xn),貝葉斯學(xué)習(xí)是指在求出未知參數(shù)

θ的后

驗(yàn)

布p(θ|XM)

,

數(shù)

θ

計(jì)

θ

,而是直接求樣本的概率

度函數(shù)p(x|XN),即

:p(x|X~)=J。p(x,θ|X?)dθ=J?p(x|θ)p(θ|XN)de其

中:當(dāng)

N>1

時(shí)

,

有:p(XN|θ)=p(xnlθ)p(X-1|θ)將式子帶入可得:◎

由式可知,隨著樣本數(shù)目的增加,可以得到一系列對(duì)概率密度函數(shù)參數(shù)的估計(jì):pθ),p(θ|x?),p(θ|x?,x?),…,p(θ|x?,X?,

,xn),

…這

個(gè)

過(guò)

稱(chēng)

計(jì)。

數(shù)目

,

驗(yàn)

會(huì)

于以

θ

實(shí)

為中

個(gè)

,

:這

過(guò)

稱(chēng)

學(xué)

習(xí)。

對(duì)

4

.

3

,

學(xué)

習(xí)

出μ

驗(yàn)

數(shù)p(x|X),

即:p(x|X)=?p(μ|X)p(x|μ)dμ增

個(gè)

可以

對(duì)μ

計(jì)

。

著N的增大,p(μ

|X)就

來(lái)

起,當(dāng)N→

時(shí),它就

于δ

數(shù)

,

。◎p(X,XY2,…,XA)非參數(shù)估計(jì)04

Nonparametric

EstimationPART1.基

理最大似然估計(jì)方法和貝葉斯估計(jì)方法都屬于參數(shù)估計(jì)方法,要求待估計(jì)的概率密度函數(shù)的形式已知,

只是利用樣本集估計(jì)函數(shù)的參數(shù)。在實(shí)際應(yīng)用中,往往并不知道概率密度函數(shù)的形式,而且有些樣本

集的分布也很難用已知的函數(shù)形式進(jìn)行描述。在這種情況下,就需要用非參數(shù)估計(jì)方法來(lái)確定樣本的

概率密度函數(shù)。非參數(shù)估計(jì)方法不對(duì)概率密度函數(shù)的形式作任何假設(shè),而是直接用樣本估計(jì)出整個(gè)函

數(shù)

。非參數(shù)估計(jì)的問(wèn)題可以定義為:已知樣本集X={x?,x?,…,xn}中的樣本來(lái)自同

個(gè)類(lèi)別,且它們是從

服從概率密度函數(shù)p(x)

的總體中獨(dú)立抽取出來(lái)的,求p(x)

計(jì)p(x)。設(shè)

本x是從總體中獨(dú)立抽取出來(lái)的,其概率密度函數(shù)為p(x),

空間中有

區(qū)域Ω,則x落入?yún)^(qū)域Ω的

率P是

:概

率P

是概率密度函數(shù)p(x)

種平均形式。假設(shè)樣本集X={x?,x?,…,xn}中的N個(gè)樣本是從總體中獨(dú)立抽取的,則這N個(gè)樣本中有k

個(gè)樣本落入?yún)^(qū)域Ω的概率符合二項(xiàng)分布,其值為:Pk=CKPk(1-P)N-kk

的數(shù)學(xué)期望為:◎此時(shí),得到的概率密度函數(shù)p(x)

是空間平均估計(jì)值。因此,若想得到理想的估計(jì)p(x),

是p(x)

的空間平均估計(jì)值,需要讓區(qū)域2的體積V

趨于0。如果只從理論上來(lái)考慮,假定有無(wú)限多的樣本可供利

用,我們可以采用下面的步驟進(jìn)行估計(jì)x點(diǎn)處的密度。首先構(gòu)造

個(gè)包含x的區(qū)域序列Ω1,Ω?2,

…。對(duì)區(qū)

域Ω1采用1個(gè)樣本進(jìn)行估計(jì),對(duì)區(qū)域Ω2采用2個(gè)樣本進(jìn)行估計(jì),以此類(lèi)推?!蛞虼耍?dāng)小區(qū)域中實(shí)際落入k

個(gè)樣本時(shí),可以認(rèn)為k/N是

率P的

個(gè)很好的估計(jì),也就是概率密度函數(shù)p(x)

平均值的

個(gè)好的估計(jì),即:假

設(shè)p(x)

是連續(xù)的,且區(qū)域Ω的范圍很小,以至于p(x)在Ω上幾乎是不變的,可以近似為:如

積V固定,樣本數(shù)N

,

值k/N將在概率上收斂,即:其

,V

是區(qū)域Ω的體積。由上述兩個(gè)式子可知,p(x)

的估計(jì)為:則

n(x)收斂于p(x)。

個(gè)

當(dāng)

數(shù)N

增加時(shí),區(qū)域Ωn

數(shù)kn也

積VN不斷減少,且落入?yún)^(qū)域Ωn中的

數(shù)kn要

遠(yuǎn)

遠(yuǎn)

數(shù)N,以使pn(x)收

于p(x)。滿(mǎn)

個(gè)

條件的區(qū)域序列

般有以下兩種選擇方法:(1)Parzen

窗口估計(jì)法,使區(qū)域序列Ωn

以N的

個(gè)函

數(shù)(

如VN=1/√N(yùn))的

關(guān)

,

對(duì)

kn

kn/N

加以

制以

使pn(x)

于p(x)。(2)kn近

計(jì)

讓kn為

N的

個(gè)函

數(shù)(

例如kn=√N(yùn)),而

使

區(qū)

域Ωn

數(shù)

為kn。◎設(shè)VN是區(qū)域Ωn的體積

,kn

是落入?yún)^(qū)域Ωn的

數(shù)

,Pn(x)是對(duì)p(x)的第N次

計(jì)

,

:若滿(mǎn)足以下三個(gè)條件:(1)(2)(3)2.Parzen

窗口

計(jì)

法假定x

d

的一

個(gè)

點(diǎn)

個(gè)

以x

為中

,hn為邊長(zhǎng)的超立方體。該超立方體的體積為:Vn=h?對(duì)于d維

個(gè)

點(diǎn)x?,

若向量x—x?中

個(gè)

對(duì)

于hn/2,則x;

體內(nèi)

,否則就位于超立方體外。為了計(jì)算落入超立方體內(nèi)的樣本數(shù)kn,

個(gè)d

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論