版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、主講人weibo羅 青小青青_Lo機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘基本算法介紹sina目錄1234監(jiān)督學(xué)習(xí)模型算法模型檢驗(yàn)和評(píng)估優(yōu)化算法數(shù)據(jù)篩選與預(yù)處理監(jiān)督學(xué)習(xí)算法算法原理代碼應(yīng)用1234神經(jīng)網(wǎng)絡(luò)決策樹(shù)貝葉斯SVM優(yōu)缺點(diǎn)學(xué)習(xí)系統(tǒng)兩大步驟:獲取經(jīng)驗(yàn)和學(xué)以致用學(xué)習(xí)系統(tǒng)模型應(yīng)對(duì)外部環(huán)境的刺激輸入,在實(shí)踐的過(guò)程中不斷學(xué)習(xí),獲取經(jīng)驗(yàn)知識(shí),并且運(yùn)用我們所學(xué)到的經(jīng)驗(yàn)知識(shí)指導(dǎo)我們?nèi)粘I顚?shí)踐,通過(guò)實(shí)踐效果的反饋,也就是在實(shí)踐過(guò)程中獲得經(jīng)驗(yàn)教訓(xùn),從而不斷更新我們的閱歷知識(shí),在以后的生活中,將自己的經(jīng)驗(yàn)知識(shí)學(xué)以致用。監(jiān)督學(xué)習(xí)模型以鴻翔買(mǎi)西瓜為例樣本:西瓜輸入:特征向量(大小、色澤、聲響、產(chǎn)地)輸出:甜不甜,水分多不多判斷西瓜好
2、壞依據(jù):以往買(mǎi)西瓜的經(jīng)驗(yàn)教訓(xùn)訓(xùn)練數(shù)據(jù):特征向量目標(biāo)向量測(cè)試數(shù)據(jù):特征向量輸出向量神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖x1y1輸出層(k)隱藏層(j)輸入層(i)xiykymxnojo1op輸入:特征向量(x1,x2,xi,xn)輸出:結(jié)果向量(y1,y2,yk,ym)BP神經(jīng)網(wǎng)絡(luò)環(huán) 境實(shí)踐學(xué)習(xí)知識(shí)庫(kù)執(zhí)行與評(píng)價(jià)輸入向量網(wǎng)絡(luò)權(quán)陣結(jié)點(diǎn)閾值輸出向量目標(biāo)向量誤差改正激勵(lì)函數(shù)訓(xùn)練二值函數(shù)S形函數(shù)雙曲正切函數(shù)更新知識(shí)庫(kù)返回重新實(shí)踐學(xué)習(xí)學(xué)習(xí)模型獲取知識(shí)(經(jīng)驗(yàn)方法)神經(jīng)網(wǎng)絡(luò)模型獲取知識(shí)(經(jīng)驗(yàn)方法)輸入層隱含層輸出層神經(jīng)網(wǎng)絡(luò)應(yīng)用實(shí)例圖像分類(lèi)航空影像圖分類(lèi)結(jié)果圖輸入特征向量:第i分量表示樣本多邊形第i波段的平均灰度值(RGB)(R1
3、,G1,B1) (R2,G2,B2) (R3,G3,B3) (Rn,Gn,Bn)-特征向量輸出向量:第k分量表示樣本多邊形屬于第k類(lèi)的概率 (1,0,0,0) (0,1,0,0) (1,0,0,0) -訓(xùn)練樣本目標(biāo)向量 (0.5, 0.2, 0.6, 0.3) (0.13, 0.88, 0.12,0.4) -測(cè)試樣本實(shí)際輸出神經(jīng)網(wǎng)絡(luò)應(yīng)用實(shí)例-新聞分組主題關(guān)鍵詞體育球類(lèi)、比賽、NBA、國(guó)足、超級(jí)丹娛樂(lè) 八卦、狗仔、緋聞、時(shí)尚、電影財(cái)經(jīng) 股票、牛市、開(kāi)盤(pán)、銀行、通貨膨脹女性美容、瘦身、家居、感情、育兒輸入特征向量:每一個(gè)關(guān)鍵詞在文中出現(xiàn)頻次組成特征向量 (23,18,20,30,10,0,4,2,
4、3,.)輸出向量:第k個(gè)分量是新聞稿屬于第k個(gè)主題的概率 訓(xùn)練目標(biāo)向量:(1,0,0,0) 實(shí)際輸出:(0.5,0.6,0.7,0.2)BP神經(jīng)網(wǎng)絡(luò)代碼實(shí)現(xiàn)決策樹(shù)應(yīng)用實(shí)例-給高鑫找對(duì)象性別年齡長(zhǎng)相品性NO女男NO90后非90后NONOYES漂亮一般良好一般決策樹(shù)算法決策樹(shù)代碼性別, 年齡, 長(zhǎng)相, 品性A女, 20, 良好, 一般 yesB女, 24, 漂亮, 良好 yesC女, 26, 一般, 良好 noD女, 28, 漂亮, 良好 noE男, 22, 漂亮, 良好 no貝葉斯-以疾病診斷為例貝葉斯公式P(A|B)=P(A)P(B|A)/P(B)P(Disease|Symptom)= P(D
5、isease)* P(Symptom|Disease)/ P(Symptom)先驗(yàn)概率根據(jù)以往的經(jīng)驗(yàn)和分析得到的概率患病概率P(Disease)和顯現(xiàn)某種癥狀P(Symptom)通過(guò)統(tǒng)計(jì)病例庫(kù)獲得后驗(yàn)概率 得到“結(jié)果”的信息后重新修正的概率P(Symptom|Disease)通過(guò)統(tǒng)計(jì)確診病例庫(kù)患某種病顯現(xiàn)某種癥狀的概率獲得前提假設(shè)(樸素貝葉斯)各個(gè)特征之間應(yīng)該是相互獨(dú)立的如果疾病1顯現(xiàn)癥狀A(yù)時(shí),很大可能顯現(xiàn)癥狀B,則癥狀A(yù)B之間就是相互依賴(lài)的關(guān)系。樸素貝葉斯垃圾郵件過(guò)濾問(wèn)題描述給定一封郵件,判定它是否屬于垃圾郵件前提假設(shè):各單詞之間相互獨(dú)立公式推導(dǎo)P(h+|D) = P(h+) * P(D|h
6、+) / P(D)P(h-|D) = P(h-) * P(D|h-) / P(D)P(D|h+) = P(d1,d2,.,dn|h+) P(D|h+) = P(d1|h+) * P(d2|d1, h+) * P(d3|d2,d1, h+) * .P(D|h+) = P(d1|h+) * P(d2|h+) * P(d3|h+) * . P(di|h+)為單詞di 在垃圾郵件中出現(xiàn)的頻率支持向量機(jī)-SVM基本原理 通過(guò)一些支持向量(H1、H2上的點(diǎn)數(shù)據(jù))確定一個(gè)分類(lèi)平面H,使得數(shù)據(jù)分成兩類(lèi),甚至多類(lèi)。優(yōu)點(diǎn)-適用小樣本,高維特征數(shù)據(jù)分類(lèi)各監(jiān)督學(xué)習(xí)算法比較貝葉斯決策樹(shù)神經(jīng)網(wǎng)絡(luò)SVM是否支持增量式學(xué)習(xí)支
7、持不支持支持不支持黑盒or白盒解析性好解析性好黑盒黑盒抗噪性較好較好較好不好能否能進(jìn)行特征組合不能較好不能較好能能能否處理特征間的依賴(lài)關(guān)系不能較好能較好可以可以線性or非線性非線性線性非線性非線性時(shí)間效率快較快慢慢空間效率一般較多一般一般最大優(yōu)勢(shì)高效率,具有一定解析性具有解析性處理復(fù)雜非線性問(wèn)題,不需要了解內(nèi)部機(jī)制支持小樣本,高維以及非線性最大缺陷無(wú)法處理基于特征組合所產(chǎn)生的變化結(jié)果不適合大規(guī)模數(shù)據(jù)訓(xùn)練時(shí)間長(zhǎng),連接權(quán)重難以解釋?zhuān)趨?shù)設(shè)置方面沒(méi)有明確的規(guī)則可參照對(duì)于核函數(shù)的選擇沒(méi)有明確規(guī)則可參照對(duì)于噪聲數(shù)據(jù)敏感適用情況大樣本且需要了解內(nèi)部機(jī)制數(shù)據(jù)規(guī)模不大且需要了解內(nèi)部機(jī)制大樣本且內(nèi)部系統(tǒng)結(jié)構(gòu)未
8、知大樣本且內(nèi)部系統(tǒng)結(jié)構(gòu)未知模型檢驗(yàn)評(píng)估交叉驗(yàn)證方法:將已知類(lèi)別信息的樣本數(shù)據(jù)分為k份,k-1份用來(lái)作為訓(xùn)練樣本數(shù)據(jù)訓(xùn)練出模型,一份作為測(cè)試數(shù)據(jù)測(cè)試模型的好壞檢測(cè)指標(biāo):分類(lèi)準(zhǔn)確率、混淆矩陣、kappa系數(shù)等A/B測(cè)試方法:建立一個(gè)測(cè)試頁(yè)面,測(cè)試頁(yè)面與原有頁(yè)面前端相似,但是后端測(cè)試頁(yè)面采用新的推薦算法,而原有頁(yè)面沒(méi)有推薦算法或是舊算法檢測(cè)指標(biāo):點(diǎn)擊率,轉(zhuǎn)化率等非監(jiān)督學(xué)習(xí)物以類(lèi)聚,人以群分描述聚類(lèi)點(diǎn):特征向量相似性衡量:歐式距離法、皮爾遜相關(guān)系數(shù)法聚類(lèi)法則:Kmeans,系統(tǒng)聚類(lèi)舞會(huì)party的抱團(tuán)特征向量:每個(gè)人的喜好向量歐式距離:喜好向量的歐式距離聚類(lèi)法則:kmeans優(yōu) 化 算 法搜 索 策
9、略窮盡搜索啟發(fā)式搜索基本搜索思想遍歷解空間中所有的可能解沿著使成本變小的方向進(jìn)行搜索具體實(shí)例灰度圖像二值化(OSTU)算法在0,255區(qū)間尋找最佳閾值貪心算法和動(dòng)態(tài)規(guī)劃隨機(jī)搜索,爬山法,A*搜索,模擬退火,進(jìn)化計(jì)算(遺傳算法,群體智能,如蟻群算法)優(yōu)點(diǎn)算法簡(jiǎn)單,能保證得到最優(yōu)解算法能很快得到結(jié)果一般能得到最優(yōu)解缺點(diǎn)時(shí)間復(fù)雜度高,效率低下容易陷入局部最優(yōu),可能得不到全局最優(yōu)解算法相對(duì)復(fù)雜改進(jìn)方法及適用情況窮盡搜索一般適用于解空間范圍較小的情況,如灰度圖像(8bit圖)取值范圍為0,255隨機(jī)重復(fù)爬山法最適合者+最幸運(yùn)者群體智能優(yōu)化算法搜索策略比較優(yōu)化舉例圖像二值化問(wèn)題描述將一副灰度圖像分為前景和
10、背景的黑白圖像描述題解灰度取值為0,255的整數(shù)值目標(biāo)函數(shù)f(g)= 類(lèi)內(nèi)方差/類(lèi)間方差 類(lèi)間方差越大,類(lèi)內(nèi)方差越小,目標(biāo)函數(shù)值越小,其分割的前景和背景對(duì)比度越大,二分圖像質(zhì)量越好。搜索策略窮舉0,255,或者按照進(jìn)化計(jì)算,蟻群算法等遺傳進(jìn)化遺傳進(jìn)化實(shí)例大學(xué)聚會(huì)安排最優(yōu)出行方案問(wèn)題描述大學(xué)同學(xué)回長(zhǎng)沙聚會(huì),為大家安排時(shí)間成本和金錢(qián)花銷(xiāo)最少的車(chē)次序列描述題解假設(shè)每個(gè)同學(xué)從出發(fā)點(diǎn)到長(zhǎng)沙都有6趟的車(chē)次。編號(hào)為0,1,2,3,4,5所有同學(xué)車(chē)次序列:10345253(基因片段, 其長(zhǎng)度為人數(shù))目標(biāo)函數(shù)F(x)=a*價(jià)格+b*旅行時(shí)間+c*等待時(shí)間+d*(出發(fā)時(shí)間-12)a+b+c+d=1搜索策略選擇、交
11、叉、變異有效數(shù)據(jù)才是王道-數(shù)據(jù)預(yù)處理數(shù)據(jù)抽樣樣本量足夠無(wú)偏樣本數(shù)據(jù)能反映總體數(shù)據(jù)數(shù)據(jù)整理清除無(wú)效數(shù)據(jù),使其噪音小圖像去噪增強(qiáng)處理,高分影像分類(lèi)的多尺度分割文本分類(lèi)的分詞以及關(guān)鍵詞篩選特征提取針對(duì)具體應(yīng)用,抽取能反映樣本的本質(zhì)特征圖像處理最主要是顏色信息,其次是形狀信息文本處理一般以關(guān)鍵詞的頻次,距離作為特征Review-know how to use機(jī)器學(xué)習(xí)系統(tǒng)模型監(jiān)督學(xué)習(xí)的輸入輸出各種算法的優(yōu)缺點(diǎn)和適應(yīng)場(chǎng)景算法模型的評(píng)價(jià)和驗(yàn)證數(shù)據(jù)的篩選和解讀Questions機(jī)器學(xué)習(xí)系統(tǒng)主要的維度有哪幾個(gè)?機(jī)器學(xué)習(xí)系統(tǒng)有效最關(guān)鍵的步驟是什么?機(jī)器學(xué)習(xí)的主要步驟是什么?少量粗糙的數(shù)據(jù)+復(fù)雜的算法?大量有效的數(shù)據(jù)+簡(jiǎn)單的算法?如何進(jìn)行數(shù)據(jù)篩選?如何進(jìn)行數(shù)據(jù)的解讀?機(jī)器學(xué)習(xí)在web應(yīng)用中最關(guān)鍵的是什么?機(jī)器學(xué)習(xí)相關(guān)應(yīng)用
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中職醫(yī)療器械維護(hù)與管理(醫(yī)療器械法規(guī)基礎(chǔ))試題及答案
- 2026年畜牧養(yǎng)殖綜合(多品種飼養(yǎng))試題及答案
- 2025年大學(xué)大四(財(cái)務(wù)管理)營(yíng)運(yùn)資金優(yōu)化綜合測(cè)試試題及答案
- 救火安全教育課件
- 貴州省安順市開(kāi)發(fā)區(qū)2025年八年級(jí)上學(xué)期期末考試物理試題附答案
- 養(yǎng)老院老人生活照顧人員職業(yè)發(fā)展規(guī)劃制度
- 養(yǎng)老院老人健康飲食營(yíng)養(yǎng)師管理制度
- 2026年嵌入式開(kāi)發(fā)工程師校招題庫(kù)含答案
- 2026年粉末冶金工技能等級(jí)考核要點(diǎn)試題含答案
- 2026年快件處理員職業(yè)技能考點(diǎn)突破練習(xí)題集含答案
- 研學(xué)旅行指導(dǎo)手冊(cè)
- 大學(xué)生社會(huì)支持評(píng)定量表附有答案
- 植入式靜脈給藥裝置(輸液港)-中華護(hù)理學(xué)會(huì)團(tuán)體標(biāo)準(zhǔn)2023
- GB/T 2988-2023高鋁磚
- 東風(fēng)7電路圖解析
- 數(shù)字填圖系統(tǒng)新版(RgMap2.0)操作手冊(cè)
- FZ/T 73009-2021山羊絨針織品
- JJF 1069-2012 法定計(jì)量檢定機(jī)構(gòu)考核規(guī)范(培訓(xùn)講稿)
- DFMEA編制作業(yè)指導(dǎo)書(shū)新版
- DB35∕T 1844-2019 高速公路邊坡工程監(jiān)測(cè)技術(shù)規(guī)程
- 城市管理綜合執(zhí)法局城管執(zhí)法與執(zhí)法程序PPT模板
評(píng)論
0/150
提交評(píng)論