版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)032.3.1支持向量機(jī)
概念支持向量機(jī)(SupportVectorMachine,SVM)是一種二分類(lèi)模型,它的目的是構(gòu)造一個(gè)“超平面”,并利用“超平面”將不同類(lèi)別的樣本做劃分。同時(shí)使得樣本集中的點(diǎn)到這個(gè)分類(lèi)超平面的最小距離(即分類(lèi)間隔)最大化。即搜索所有可能的線性分類(lèi)器中最佳的那個(gè),最終轉(zhuǎn)化為一個(gè)凸二次規(guī)劃問(wèn)題求解。存在多個(gè)劃分超平面將兩類(lèi)訓(xùn)練樣本分開(kāi)2.3.1支持向量機(jī)
2.3.1支持向量機(jī)
如圖2-6所示,距離超平面最近訓(xùn)練樣本點(diǎn)使式(2-3)的等號(hào)成立,被稱為“支持向量”
(SupportVector),兩個(gè)異類(lèi)支持向量到超平面的距離之和為:r被稱為“間隔”(Margin)2.3.1支持向量機(jī)
想要找到具有“最大間隔”(maximummargin)的劃分超平面,就要找到能滿足式(2-3)中約束的參數(shù)w和b,使得r最大,即顯然,為了最大化間隔,只需要最大化,這等價(jià)于最小化。于是,式(2-5)可以寫(xiě)為2.3.1支持向量機(jī)
對(duì)偶問(wèn)題希望通過(guò)求解式(2-6)得到最大間隔劃分超平面對(duì)應(yīng)的模型:2.3.1支持向量機(jī)
2.3.1支持向量機(jī)
從對(duì)偶問(wèn)題接觸的是式(2-11)中的拉格朗日乘子,它恰好對(duì)應(yīng)訓(xùn)練樣本。注意到式中的不等約束,因此上述過(guò)程需要滿足卡路什-庫(kù)恩-塔克(Karush-Kuhn-Tucker,KKT)條件,即2.3.1支持向量機(jī)
核函數(shù)在前面的討論中,我們假設(shè)訓(xùn)練樣本是線性可分的,即存在一個(gè)劃分超平面能將訓(xùn)練樣本正確分類(lèi)。但是在實(shí)際任務(wù)中,原始樣本空間內(nèi)也許并不存在一個(gè)能正確劃分兩類(lèi)樣本的超平面,例如圖2-7中(a)的異或問(wèn)題就不是線性可分的。2.3.1支持向量機(jī)
對(duì)于這樣的問(wèn)題,可將樣本從原始空間映射到一個(gè)更高維的特征空間,使得樣本在這個(gè)特征空間中線性可分。例如,在圖2-7(b)中,如果將原始的二維空間映射到一個(gè)合適的三維空間,就可以找到一個(gè)合適的劃分超平面。如果原始空間是有限維度的,即屬性數(shù)有限,那么就一定存在一個(gè)高維特征空間使樣本可分。2.3.1支持向量機(jī)
2.3.1支持向量機(jī)
表2.1常用核函數(shù)2.3.1支持向量機(jī)
軟間隔(softmargin)在前面的討論中,我們一直假設(shè)訓(xùn)練樣本在樣本空間或特征空間中是線性可分得,即存在一個(gè)超平面能將不同類(lèi)的樣本完全劃分開(kāi)。然后,在現(xiàn)實(shí)任務(wù)中往往很難確定合適的核函數(shù)使得訓(xùn)練樣本在特征空間中線性可分;退一部說(shuō),即便可以恰好找到某個(gè)核函數(shù)使訓(xùn)練集在特征空間中線性可分,也很難斷定這個(gè)貌似線性可分的結(jié)果不是由于過(guò)擬合所造成的。緩解該問(wèn)題的一個(gè)辦法是允許支持向量機(jī)在一些樣本上出錯(cuò)。為此,要引入軟間隔(softmargin)的概念,如圖2-8所示。2.3.1支持向量機(jī)
具體來(lái)講,前面介紹的支持向量機(jī)形式是要求所有樣本都滿足約束式(1-3),即所有樣本都必須劃分正確,這稱為硬間隔(hardmargin),而軟間隔則是允許某些樣本不滿足約束數(shù)學(xué)性質(zhì)2.3.1支持向量機(jī)
三種常用的替代損失函數(shù):hinge損失、指數(shù)損失、對(duì)率損失。2.3.2K-means聚類(lèi)
K-means聚類(lèi)是一種常用的基于距離的聚類(lèi)算法,旨在將數(shù)據(jù)集劃分為K個(gè)簇。算法的目標(biāo)是最小化簇內(nèi)的點(diǎn)到簇中心的距離總和。K-means的核心思想K-means的目標(biāo)是將數(shù)據(jù)集劃分為若干個(gè)簇(clusters),使得每個(gè)數(shù)據(jù)點(diǎn)屬于距離最近的簇中心。通過(guò)反復(fù)調(diào)整簇中心的位置,K-means不斷優(yōu)化簇內(nèi)的緊密度,從而獲得盡量緊湊、彼此分離的簇。簇:K-means通過(guò)最小化簇內(nèi)距離的平方和,使得數(shù)據(jù)點(diǎn)在簇內(nèi)聚集。一個(gè)簇就是一個(gè)數(shù)據(jù)點(diǎn)的集合,這些點(diǎn)在某種意義上“彼此相似”。簇中心(Centroid):簇中心是簇中所有點(diǎn)的平均值,表示簇的中心位置。簇分配和更新:K-means通過(guò)反復(fù)迭代調(diào)整簇的分配,使得簇內(nèi)數(shù)據(jù)點(diǎn)與簇中心的距離盡可能小,實(shí)現(xiàn)逐步收斂。2.3.2K-means聚類(lèi)
如右圖所示,根據(jù)數(shù)據(jù)集先隨機(jī)選取K個(gè)對(duì)象作為初始的聚類(lèi)中心。然后計(jì)算每個(gè)對(duì)象與各個(gè)種子聚類(lèi)中心之間的距離,把每個(gè)對(duì)象分配給距離它最近的聚類(lèi)中心。聚類(lèi)中心以及分配給它們的對(duì)象就代表一個(gè)聚類(lèi)。一旦全部對(duì)象都被分配了,每個(gè)聚類(lèi)的聚類(lèi)中心就會(huì)根據(jù)聚類(lèi)中現(xiàn)有的對(duì)象被重新計(jì)算。這個(gè)過(guò)程將不斷重復(fù)直到滿足某個(gè)終止條件。終止條件可以是以下任何一個(gè):沒(méi)有(或最小數(shù)目)對(duì)象被重新分配給不同的聚類(lèi);沒(méi)有(或最小數(shù)目)聚類(lèi)中心再發(fā)生變化;誤差平方和局部最小。2.3.2K-means聚類(lèi)
K-means聚類(lèi)的步驟K-means聚類(lèi)分為兩個(gè)主要步驟:分配(Assignment)和更新(Update)。以下是詳細(xì)步驟。選擇K值:設(shè)定簇的數(shù)量K。初始化簇中心:隨機(jī)選擇K個(gè)數(shù)據(jù)點(diǎn)作為初始簇中心。分配步驟:對(duì)于數(shù)據(jù)集中的每個(gè)點(diǎn),將它分配到距離最近的簇中心對(duì)應(yīng)的簇。這里的“距離”通常使用歐
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026吉安市新供商貿(mào)物流有限公司招募就業(yè)見(jiàn)習(xí)人員2人筆試參考題庫(kù)及答案解析
- 2026年西安市蓮湖第一學(xué)校招聘筆試備考題庫(kù)及答案解析
- 2026浙江麗水蓮都區(qū)投資促進(jìn)中心招募見(jiàn)習(xí)生1人考試參考題庫(kù)及答案解析
- 2026上半年安徽事業(yè)單位聯(lián)考合肥市巢湖市招聘22人筆試備考試題及答案解析
- 2026湖南邵東市城區(qū)第五完全小學(xué)春季見(jiàn)習(xí)教師招聘考試參考題庫(kù)及答案解析
- 2026山東淄博文昌湖省級(jí)旅游度假區(qū)面向大學(xué)生退役士兵專(zhuān)項(xiàng)崗位招聘1人筆試模擬試題及答案解析
- 2026年家族辦公室運(yùn)營(yíng)培訓(xùn)
- 2026浙江大學(xué)醫(yī)學(xué)院附屬第一醫(yī)院江西醫(yī)院(江西省心血管神經(jīng)腫瘤醫(yī)學(xué)中心)高層次人才招聘27人(9)考試參考題庫(kù)及答案解析
- 首都師大附中科學(xué)城學(xué)校教師招聘考試備考題庫(kù)及答案解析
- 2026年甘肅嘉峪關(guān)市人力資源和社會(huì)保障局招聘公益性崗位考試參考題庫(kù)及答案解析
- DB5101∕T 214-2025 公園城市立體綠化技術(shù)指南
- 基本藥物培訓(xùn)課件資料
- 汪金敏 培訓(xùn)課件
- 物流公司托板管理制度
- 醫(yī)療護(hù)理操作評(píng)分細(xì)則
- 自考-經(jīng)濟(jì)思想史知識(shí)點(diǎn)大全
- 銀行資金閉環(huán)管理制度
- 2024年山東省胸痛中心質(zhì)控報(bào)告
- 中外航海文化知到課后答案智慧樹(shù)章節(jié)測(cè)試答案2025年春中國(guó)人民解放軍海軍大連艦艇學(xué)院
- dlt-5161-2018電氣裝置安裝工程質(zhì)量檢驗(yàn)及評(píng)定規(guī)程
- 學(xué)習(xí)無(wú)人機(jī)航拍心得體會(huì)1000字
評(píng)論
0/150
提交評(píng)論