版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)實(shí)踐第1頁(yè),共101頁(yè)。聲明 Acknowledgments假設(shè)參與此門課程的同學(xué)具有python基礎(chǔ)及高等數(shù)學(xué)基礎(chǔ)。不要求有深刻的算法基礎(chǔ),但對(duì)于基本的數(shù)據(jù)結(jié)構(gòu)和算法要有一定了解。參考資料:取自于sklearn、tensorflow官方網(wǎng)站、斯坦福大學(xué)CS224d、CS231n課件、Github的部分代碼倉(cāng)庫(kù)、部分來(lái)源于網(wǎng)絡(luò)和搜索引擎,也有部分資料和代碼是自行完成的。參考書籍:機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)習(xí)方法、模式識(shí)別與機(jī)器學(xué)習(xí)、Hands-On Machine Learning With Scikit-Learn & TensorFlow等課后如果有問題,歡迎聯(lián)系交流第2頁(yè),共10
2、1頁(yè)。Day1大綱 人工智能概述 人工智能中的數(shù)學(xué)基礎(chǔ) 回歸與分類 線性回歸,Logistic 回歸,Softmax回歸 決策樹 多種決策樹模型,Bagging,Boosting思想 樸素貝葉斯 自然語(yǔ)言處理,文本分類第3頁(yè),共101頁(yè)。人工智能概述第4頁(yè),共101頁(yè)。從人工智能談起智能設(shè)備、聊天機(jī)器人、無(wú)人駕駛、機(jī)器人/x/page/y03792kgjj1.html第5頁(yè),共101頁(yè)。什么是人工智能?人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分
3、支,它試圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式作出反應(yīng)的智能機(jī)器。機(jī)器人語(yǔ)音識(shí)別圖像識(shí)別自然語(yǔ)言處理專家系統(tǒng)知識(shí)工程機(jī)器學(xué)習(xí)人工智能是對(duì)人的意識(shí)、思維的信息過程的模擬。人工智能不是人的智能,但能像人那樣的思考,甚至超過人的智能。第6頁(yè),共101頁(yè)。弱人工智能、強(qiáng)人工智能、超人工智能弱人工智能Artificial Narrow Intelligence(ANI):弱人工智能是擅長(zhǎng)于單個(gè)方面的人工智能。強(qiáng)人工智能Artificial General Intelligence(AGI):人類級(jí)別的人工智能。強(qiáng)人工智能是指在各方面都能喝人類比肩的人工智能,人類能干的腦力活它都能干。超
4、人工智能Artificial Super Intelligence(ASI):知名人工智能思想家Nick Bostrom把超級(jí)智能定義為”在幾乎所有領(lǐng)域都比最聰明的人類大腦都聰明很多,包括科學(xué)創(chuàng)新、通識(shí)和社交技能“。第7頁(yè),共101頁(yè)。圖靈測(cè)試第8頁(yè),共101頁(yè)。人工智能的歷史1956年夏天:達(dá)特茅斯會(huì)議,提出“人工智能“20世紀(jì)60年代:感知機(jī)20世紀(jì)70年代:專家系統(tǒng)、知識(shí)工程20世紀(jì)80年代:日本第五代機(jī)20世紀(jì)90年代:統(tǒng)計(jì)機(jī)器學(xué)習(xí)2006年:深度學(xué)習(xí)2012年:卷積神經(jīng)網(wǎng)絡(luò).第9頁(yè),共101頁(yè)。人工智能的歷史AI發(fā)展現(xiàn)狀?第10頁(yè),共101頁(yè)。機(jī)器是否具有真正的智能人眼中的圖像第11
5、頁(yè),共101頁(yè)。機(jī)器是否具有真正的智能計(jì)算機(jī)眼中的圖像目前只能實(shí)現(xiàn)感知智能,尚無(wú)法實(shí)現(xiàn)推理智能第12頁(yè),共101頁(yè)。舉個(gè)例子第13頁(yè),共101頁(yè)。還有很長(zhǎng)的路要走計(jì)算機(jī)無(wú)法真正理解符號(hào)、數(shù)字背后的語(yǔ)義所有的行為都是在“猜”圖像、語(yǔ)音:原始信息,感知智能語(yǔ)言、藝術(shù):人工信息,推理智能第14頁(yè),共101頁(yè)。學(xué)習(xí)方法打好機(jī)器學(xué)習(xí)基礎(chǔ)學(xué)會(huì)原理、注重聯(lián)系動(dòng)手實(shí)踐分析數(shù)據(jù),提升google機(jī)器學(xué)習(xí)教程:/x/page/y03792kgjj1.htmlAngrew NG 機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等課程第15頁(yè),共101頁(yè)。準(zhǔn)備工作 安裝anaconda3并配置pycharm 安裝sklearn/numpy/pan
6、das/matplotlib/xgboost 安裝pycharm,并設(shè)置python解釋器路徑 編寫hello,world并成功執(zhí)行第16頁(yè),共101頁(yè)。人工智能中的數(shù)學(xué)基礎(chǔ)第17頁(yè),共101頁(yè)。數(shù)學(xué)分析映射與函數(shù) 極限導(dǎo)數(shù) 導(dǎo)數(shù)是曲線的斜率,是曲線變化 快慢的反應(yīng);可導(dǎo)一定連續(xù),反之不然思考:極值如何求解?第18頁(yè),共101頁(yè)。數(shù)學(xué)分析常用函數(shù)求導(dǎo)公式動(dòng)手實(shí)踐(2):求sigmoid函數(shù)導(dǎo)數(shù)第19頁(yè),共101頁(yè)。數(shù)學(xué)分析泰勒展開式常用函數(shù)的泰勒展開在某鄰域內(nèi),存在一階近似、二階近似、逼近非線性函數(shù)求解第20頁(yè),共101頁(yè)。數(shù)學(xué)分析梯度下降法練習(xí):使用梯度下降法求解y=x2思考:什么情況下有全
7、局最優(yōu)解?10J(0,1)01J(0,1)第21頁(yè),共101頁(yè)。數(shù)學(xué)分析練習(xí) sgd.py運(yùn)行平方函數(shù)平方函數(shù)的導(dǎo)數(shù)第22頁(yè),共101頁(yè)。數(shù)學(xué)分析練習(xí) sgd.py運(yùn)行GD_decay:x_start - 初始位置df - 平方函數(shù)epochs - 迭代次數(shù)lr - 學(xué)習(xí)率decay - 學(xué)習(xí)率衰減系數(shù)循環(huán):迭代計(jì)算下一次x的位置第23頁(yè),共101頁(yè)。數(shù)學(xué)分析首先生成基礎(chǔ)采樣點(diǎn)給后面使用做了雙重驗(yàn)證并繪制圖像第24頁(yè),共101頁(yè)。數(shù)學(xué)分析梯度下降法xt+1 = xt - af(xt)”最快”過于盲目、有缺陷進(jìn)一步利用曲線二階導(dǎo)的信息進(jìn)行迭代求解,稱為牛頓法xt+1 = xt - f(xt)/f
8、(xt)第25頁(yè),共101頁(yè)。數(shù)學(xué)分析多元函數(shù)的導(dǎo)數(shù)如何表達(dá)?多元函數(shù)的梯度呢?多元函數(shù)的二階導(dǎo)是什么?f(x) = f(x1,x2,.) 一階(偏)導(dǎo)數(shù):fx1(x1,x2.),fx2(x1,x2.),.,它們的線性加和稱為方向?qū)?shù)hessian矩陣G第26頁(yè),共101頁(yè)。數(shù)學(xué)分析總結(jié) 變量、函數(shù) 求導(dǎo)規(guī)則、泰勒展開式Y(jié)an LeCun:可微分式編程第27頁(yè),共101頁(yè)。線性代數(shù)線性變換 指旋轉(zhuǎn)、推移,他們的組合是線性變換為什么研究線性變換第28頁(yè),共101頁(yè)。線性代數(shù)矩陣和乘法矩陣的本質(zhì):線性變換!什么情況下矩陣乘法是旋轉(zhuǎn)矩陣呢?第29頁(yè),共101頁(yè)。線性代數(shù)矩陣僅對(duì)角線有非零值的矩陣為縮
9、放矩陣,對(duì)角線元素代表了每個(gè)維度的縮放強(qiáng)度列向量正交且為單位向量的矩陣,也即正交陣為旋轉(zhuǎn)矩陣思考:這兩個(gè)矩陣的現(xiàn)實(shí)意義?第30頁(yè),共101頁(yè)。線性代數(shù)分離技術(shù) - 特征值分解非常重要且廣泛的應(yīng)用包括:控制系統(tǒng)推薦系統(tǒng)文本相似度處理圖像壓縮.第31頁(yè),共101頁(yè)。線性代數(shù)分離技術(shù) - svd/NFM分解useritem第32頁(yè),共101頁(yè)。線性代數(shù)再看特征值分解相似矩陣思考:(1) 變換與逆矩陣(2) 什么情況下有逆矩陣(3) P與P的逆乘積第33頁(yè),共101頁(yè)。線性代數(shù)行列式考察單位陣、旋轉(zhuǎn)陣行列式的本質(zhì):線性變換的縮放因子變換是否降維(秩)第34頁(yè),共101頁(yè)。線性代數(shù)總結(jié)矩陣 線性變換特征
10、值 縮放強(qiáng)度行列式 縮放強(qiáng)度第35頁(yè),共101頁(yè)。概率論概率與直觀 不斷拋擲一枚硬幣,得到正面與反面的頻率比例是多少呢? 經(jīng)過無(wú)數(shù)次拋擲,頻率的極限趨近于X?拋擲趨于無(wú)窮次時(shí),正反面頻率一致,根據(jù)大數(shù)定理第36頁(yè),共101頁(yè)。概率論概率的計(jì)算已知A、B獨(dú)立時(shí)第37頁(yè),共101頁(yè)。概率論條件概率全概率公式貝葉斯公式練習(xí):小明有8支步槍,其中有5支校準(zhǔn)過。校準(zhǔn)過的槍支擊準(zhǔn)靶心的概率為0.8,沒有校準(zhǔn)過的槍支擊準(zhǔn)靶心的概率為0.3,現(xiàn)小明隨機(jī)的選一支槍,結(jié)果中靶,問該槍已被校準(zhǔn)的概率。第38頁(yè),共101頁(yè)。概率論根據(jù)貝葉斯公式第39頁(yè),共101頁(yè)。概率論重溫貝葉斯公式強(qiáng)調(diào):這是一個(gè)非常重要的公式,記
11、住它,基本就掌握了機(jī)器學(xué)習(xí)一半的內(nèi)容第40頁(yè),共101頁(yè)。概率論期望與方差E(x)表征了數(shù)據(jù)的加權(quán)平均值,D(x)表征了數(shù)據(jù)的波動(dòng)程度第41頁(yè),共101頁(yè)。概率論變量的分布 有一類試驗(yàn),比如拋擲硬幣得到正面還是反面,項(xiàng)目成功或失敗,產(chǎn)品是否有缺陷,只有兩個(gè)可能結(jié)果。記這兩個(gè)可能的結(jié)果為0和1,該分布就稱為伯努利分布。第42頁(yè),共101頁(yè)。概率論變量的分布 伯努利分布重復(fù)N次,就構(gòu)成了二項(xiàng)分布。排列、組合數(shù)公式復(fù)習(xí):袋子中有五個(gè)標(biāo)號(hào)的小球,每次從中抽取一個(gè),抽取三次,得到的排列方式有多少種呢?袋子中有五個(gè)標(biāo)號(hào)的小球,每次抽取一個(gè),抽取三次,不考慮球之間的順序,得到的編號(hào)組合有多少種呢?第43頁(yè),
12、共101頁(yè)。概率論變量的分布 高斯分布,服從中心極限定律,是非常重要的分布。第44頁(yè),共101頁(yè)。概率論練習(xí) multi_guassian.py 第45頁(yè),共101頁(yè)。概率論熵 世界杯比賽有32支球隊(duì)參加,最少用多少bit信息表示出最后獲勝的隊(duì)伍?第46頁(yè),共101頁(yè)??偨Y(jié)人工智能中的數(shù)學(xué)并不難,關(guān)鍵是掌握常用的思維方式練習(xí)推導(dǎo),理解數(shù)學(xué)表達(dá)式所蘊(yùn)含的現(xiàn)實(shí)意義 第47頁(yè),共101頁(yè)。機(jī)器學(xué)習(xí)實(shí)踐第48頁(yè),共101頁(yè)。機(jī)器學(xué)習(xí)實(shí)踐機(jī)器學(xué)習(xí)基礎(chǔ)理論和概念機(jī)器學(xué)習(xí)基本方法項(xiàng)目實(shí)戰(zhàn)分析第49頁(yè),共101頁(yè)。機(jī)器學(xué)習(xí)基礎(chǔ)機(jī)器學(xué)習(xí)主要是研究如何使計(jì)算機(jī)從給定數(shù)據(jù)中學(xué)習(xí)規(guī)律,并利用學(xué)習(xí)到的規(guī)律(模型)來(lái)對(duì)未
13、知或無(wú)法觀測(cè)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。 第50頁(yè),共101頁(yè)。機(jī)器學(xué)習(xí)基礎(chǔ)從學(xué)習(xí)方式上講,分為:監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí) 從學(xué)習(xí)結(jié)果上講,分為:回歸分類強(qiáng)調(diào):目前主流學(xué)習(xí)技術(shù)是監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在通用場(chǎng)景下還不是特別的work第51頁(yè),共101頁(yè)。機(jī)器學(xué)習(xí)基礎(chǔ)從學(xué)習(xí)方式上講,分為:監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí) 從學(xué)習(xí)結(jié)果上講,分為:回歸分類強(qiáng)調(diào):目前主流學(xué)習(xí)技術(shù)是監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在通用場(chǎng)景下還不是特別的work第52頁(yè),共101頁(yè)。線性回歸線性回歸是最基礎(chǔ)的回歸算法 train0123456789x0123456789y24.6-24.012.2-55.9-
14、57.816.5-7.9-17.3-23.187.4思考:x與y符合什么關(guān)系呢?觀察到x與y的關(guān)系(模型選擇),y=ax+b,建立線性回歸模型通過優(yōu)化方法設(shè)法擬合數(shù)據(jù),得到最優(yōu)的a評(píng)估該模型是否準(zhǔn)確,查看訓(xùn)練集上的準(zhǔn)確率評(píng)估該模型的泛化性能,在測(cè)試集上的準(zhǔn)確率第53頁(yè),共101頁(yè)。線性回歸 基本概念訓(xùn)練集測(cè)試集(交叉驗(yàn)證法、自助法等)目標(biāo)函數(shù)損失函數(shù)優(yōu)化方法擬合、過擬合準(zhǔn)確率、泛化性能 第54頁(yè),共101頁(yè)。線性回歸 目標(biāo)函數(shù)、優(yōu)化方法推導(dǎo)不可能有一個(gè)理想的線性函數(shù)經(jīng)過所有訓(xùn)練集的數(shù)據(jù)點(diǎn),這個(gè)問題怎么處理呢?高斯:“把偏移都看做誤差”這又是一個(gè)假設(shè),但是機(jī)器學(xué)習(xí)的套路就是這樣的第55頁(yè),共10
15、1頁(yè)。線性回歸 使用求極值方法求解目標(biāo)函數(shù)第56頁(yè),共101頁(yè)。線性回歸 使用求極值方法求解目標(biāo)函數(shù)思考:XTX一定可逆嗎?第57頁(yè),共101頁(yè)。線性回歸 直接采用極值方法求解,有什么缺點(diǎn)?如果不是拿到所有樣本點(diǎn)再求解,僅僅只看眼前的梯度逐漸求解呢?第58頁(yè),共101頁(yè)。線性回歸 使用梯度下降法求解目標(biāo)函數(shù)10J(0,1)第59頁(yè),共101頁(yè)。線性回歸只根據(jù)眼前的路徑梯度下降求解的方法,稱為隨機(jī)梯度下降法(SGD)實(shí)際上使用樣本的過程中,出于效率和穩(wěn)定性的考慮,我們使用MiniBatch-SGD方法,使用批處理平均來(lái)進(jìn)行梯度更新,而不是對(duì)每一個(gè)數(shù)據(jù)都進(jìn)行一次梯度更新 思考:目標(biāo)函數(shù)一定有最小值
16、嗎?第60頁(yè),共101頁(yè)。線性回歸進(jìn)一步分析 可以對(duì)樣本是非線性的,對(duì)系數(shù)是線性的polynomial方法第61頁(yè),共101頁(yè)。線性回歸準(zhǔn)確度評(píng)估對(duì)于連續(xù)數(shù)據(jù)(回歸問題),一般使用方差評(píng)估對(duì)于離散數(shù)據(jù)(分類問題)accuracy、precision/recall例:訓(xùn)練樣本有100個(gè),正負(fù)標(biāo)記各50個(gè),經(jīng)過模型分類后,正負(fù)樣本結(jié)果仍為各50個(gè)。在正樣本中,分對(duì)40個(gè),分錯(cuò)10個(gè),負(fù)樣本中,分對(duì)30個(gè),分錯(cuò)20個(gè),則:accuracy = (100 - 10 - 20) / 100 = 0.7precision = 40 / 50 = 0.8recall = 40 / 60 = 0.66 第62
17、頁(yè),共101頁(yè)。線性回歸準(zhǔn)確度評(píng)估 強(qiáng)調(diào):F1越大越好,最大值是1,對(duì)于二分類問題,F(xiàn)1=0.5就等價(jià)于”胡猜”第63頁(yè),共101頁(yè)。線性回歸再談準(zhǔn)確度問題 訓(xùn)練集上的P、R達(dá)到100%,是最好的情況嗎? 第64頁(yè),共101頁(yè)。線性回歸避免過擬合,引入正則化技術(shù) 分別稱為L(zhǎng)ASSO回歸、Ridge回歸LASSO具有稀疏作用,Ridge收斂更快我們說,目標(biāo)函數(shù)仍然是不帶正則化的原函數(shù),經(jīng)過改造的上式稱為損失函數(shù)強(qiáng)調(diào):優(yōu)化的目標(biāo)就是讓loss最小第65頁(yè),共101頁(yè)。線性回歸練習(xí):使用線性回歸預(yù)測(cè)房?jī)r(jià)走勢(shì) degree線性回歸模型擬合及預(yù)測(cè)第66頁(yè),共101頁(yè)。線性回歸 線性回歸是一種回歸算法模型
18、簡(jiǎn)單、計(jì)算量較小對(duì)誤差敏感對(duì)數(shù)據(jù)預(yù)處理要求較高思考:能否使用線性回歸解決分類問題呢?第67頁(yè),共101頁(yè)。logistic回歸logistic回歸是最基礎(chǔ)的分類算法 回顧伯努利分布,一次實(shí)驗(yàn)的結(jié)果只有0、1兩種選擇 根據(jù)貝葉斯公式,如果只考慮P(A|B),則稱為極大似然估計(jì) 以硬幣實(shí)驗(yàn)為例,現(xiàn)投擲10次,出現(xiàn)正面6次,反面4次假設(shè)硬幣正反概率出現(xiàn)的先驗(yàn)分布P(B)均勻,且上述證據(jù)P(A)已成定局,則求P(B|A)就是求P(A|B)即似然函數(shù)的最大值第68頁(yè),共101頁(yè)。logistic回歸logistic回歸推導(dǎo) 根據(jù)極大似然估計(jì),假設(shè)事件發(fā)生的概率是p,則最大似然函數(shù)為: 有了P是不夠的!我
19、們要擬合原始數(shù)據(jù)引入sigmoid假設(shè):擴(kuò)展知識(shí)點(diǎn):廣義線性模型假設(shè)第69頁(yè),共101頁(yè)。logistic回歸logistic回歸推導(dǎo) 擴(kuò)展知識(shí)點(diǎn):廣義線性模型假設(shè): 第70頁(yè),共101頁(yè)。logistic回歸繼續(xù)推導(dǎo) 強(qiáng)調(diào):雖然logistic回歸是最基本的分類模型,但它的使用極為廣泛,尤其在金融、推薦、商業(yè)化等場(chǎng)景中。第71頁(yè),共101頁(yè)。logistic回歸練習(xí):使用logistic回歸對(duì)鳶尾花數(shù)據(jù)做分類 第72頁(yè),共101頁(yè)。logistic回歸logistic回歸是一種分類算法模型簡(jiǎn)單、計(jì)算量較小對(duì)異常數(shù)據(jù)點(diǎn)并不敏感對(duì)數(shù)據(jù)預(yù)處理要求較高 第73頁(yè),共101頁(yè)。logistic回歸思考
20、,如下數(shù)據(jù)能夠使用logistic分類嗎?這個(gè)技巧稱為核(kernel)方法,是一種非線性分類器,想深入研究的同學(xué)們可以自行查閱svm、kernel相關(guān)資料。第74頁(yè),共101頁(yè)。Q&A?Disscussion第75頁(yè),共101頁(yè)。決策樹決策樹能用來(lái)做回歸,也可以用來(lái)做分類是一類算法的總稱 決策樹是描述對(duì)數(shù)據(jù)進(jìn)行分類的樹形模型,可以是二叉樹或非二叉樹,內(nèi)部節(jié)點(diǎn)(綠色)表示一個(gè)特征或?qū)傩裕~子節(jié)點(diǎn)(橘色)表示一個(gè)結(jié)果類。在做回歸任務(wù)時(shí),以葉子節(jié)點(diǎn)的值指代輸出值。思考:分類標(biāo)準(zhǔn)如何選定?第76頁(yè),共101頁(yè)。決策樹信息熵:表征了信息不確定性的程度分類屬性應(yīng)當(dāng)以最高熵減為標(biāo)準(zhǔn)進(jìn)行人種分類訓(xùn)練數(shù)據(jù)編號(hào)
21、眼睛顏色頭發(fā)顏色身高體重亞洲人1BlackBlackShortFatYes2BlackWhiteTallThinYes3BlackWhiteShortThinYes4BrownGoldTallFatNo5BrownGoldShortFatNo6BrownWhiteTallThinNo考慮一本書,只有一個(gè)中文漢子,編碼它需要幾個(gè)字節(jié)呢?第77頁(yè),共101頁(yè)。決策樹以眼睛顏色分類:s(d1)以頭發(fā)顏色分類:s(d2)以身高分類:s(d3)以體重分類:s(d4)編號(hào)眼睛顏色頭發(fā)顏色身高體重亞洲人1BlackBlackShortFatYes2BlackWhiteTallThinYes3BlackWhi
22、teShortThinYes4BrownGoldTallFatNo5BrownGoldShortFatNo6BrownWhiteTallThinNo第78頁(yè),共101頁(yè)。決策樹上文中計(jì)算了信息增益(等同于信息熵減),也即間接的利用了所謂的條件熵,這里給出形式化的推導(dǎo)H(Y|X) = H(X,Y) - H(X)第79頁(yè),共101頁(yè)。決策樹具體步驟 (1)、首先選擇“眼睛”這個(gè)屬性 (2)、分裂出三個(gè)中間節(jié)點(diǎn),之后選擇其他屬性,繼續(xù)劃分 (3)、直到新節(jié)點(diǎn)中的類別均一致,或特征都用盡為止思考:第(3)步是最好的情況嗎?剪枝、限制樹高等以上,就是決策樹中的ID3算法第80頁(yè),共101頁(yè)。決策樹思考如
23、下問題: 如果數(shù)據(jù)某一列是人員id(數(shù)字),那么按信息增益的分裂方式, 該列一定會(huì)被作為首選屬性,然而這對(duì)泛化性能毫無(wú)益處 這是ID3算法的缺陷,因此C4.5算法采用了信息增益率 第81頁(yè),共101頁(yè)。隨機(jī)森林一棵樹比較單薄弱分類器的bagging策略隨機(jī)森林在bagging策略上作出修改: (1)、bootstrap采樣 (2)、隨機(jī)選擇特征,選擇最佳屬性建立決策樹 (3)、形成隨機(jī)森林,通過投票得到結(jié)果 注:bootstrap來(lái)自于”pull up by your own bootstraps”,意思是依靠自己的資源,稱為自助法。前面已經(jīng)講過,這是一種對(duì)樣本的重復(fù)利用方法。OOB數(shù)據(jù):約為
24、36%,用作測(cè)試數(shù)據(jù)。投票!第82頁(yè),共101頁(yè)。隨機(jī)森林思考如下問題: (1)logistic回歸能否用于形成隨機(jī)森林 (2)隨機(jī)森林有什么好處,同時(shí)有什么問題? 假定當(dāng)前已經(jīng)得到了m-1棵決策樹,是否可以通過現(xiàn)有樣本和決策樹的信息,對(duì)第m棵決策樹的建立產(chǎn)生有益的影響呢?第83頁(yè),共101頁(yè)。提升提升是一種機(jī)器學(xué)習(xí)思想,可以用于回歸和分類問題,它每一步產(chǎn)生一個(gè)弱預(yù)測(cè)模型,并加權(quán)累加至總模型中,如果每一步?jīng)Q策樹的生成都是根據(jù)損失函數(shù)的梯度方向,則稱之為梯度提升(Gradient boosting)梯度提升算法首先假設(shè)一個(gè)損失函數(shù),對(duì)于回歸可以采用L2 Loss,在這個(gè)基礎(chǔ)上,通過迭代選擇一個(gè)負(fù)
25、梯度方向上的基分類器來(lái)逼近局部最小值考慮利用已有信息,每棵樹都在之前的結(jié)果上擬合殘差使用一階導(dǎo)得到gbdt(gradient boosting decision tree)、二階導(dǎo)得到xgboost 第84頁(yè),共101頁(yè)。提升GBDT模型訓(xùn)練數(shù)據(jù):f(x,y,z)=1,2,3,4,5F0如何選擇?損失函數(shù)計(jì)算?Fm呢?強(qiáng)調(diào):GBDT基于的決策樹,是一種回歸樹。同時(shí)既不是以ID3、C4.5為方式劃分的,也不是以CART方式劃分的。它的分割方式是窮舉每一個(gè)特征分割點(diǎn),使LSL最小。第85頁(yè),共101頁(yè)。提升回顧二階泰勒展開xgboost利用了二階導(dǎo),并加入了正則化處理第86頁(yè),共101頁(yè)。提升繼續(xù)
26、推導(dǎo)第87頁(yè),共101頁(yè)。提升舉個(gè)例子強(qiáng)調(diào):在一棵樹的構(gòu)建之內(nèi),不斷選擇分割屬性,并枚舉分割點(diǎn),使損失函數(shù)下降最快。第88頁(yè),共101頁(yè)。決策樹練習(xí):使用xgboost對(duì)鳶尾花數(shù)據(jù)做分類 第89頁(yè),共101頁(yè)。決策樹總結(jié)決策樹是一類具有可解釋性、泛化性能較好的模型精度高、無(wú)需特征歸一化,能夠處理缺失值,共線性特征適合于低維稠密數(shù)據(jù),不適合高維稀疏數(shù)據(jù)決策樹類算法兼具特征選擇能力在金融、推薦、商業(yè)化領(lǐng)域用途十分廣泛 第90頁(yè),共101頁(yè)。樸素貝葉斯自然語(yǔ)言處理泛談 南京/市長(zhǎng)/江大橋南京市/長(zhǎng)江/大橋切詞是自然語(yǔ)言處理中最基礎(chǔ)、最重要的工作。切詞是否準(zhǔn)確,直接影響到文本處理的精確度。由于中文的特
27、殊性,切詞精度問題在很長(zhǎng)一段時(shí)期內(nèi)無(wú)法得到較好的改善。詞典法規(guī)則法語(yǔ)言模型基于隱馬爾可夫模型等基于LSTM模型,序列標(biāo)注交集型歧義:結(jié)婚的和尚未結(jié)婚的 他說的確實(shí)在理 組合型歧義:學(xué)生會(huì)宣傳部 把手抬起來(lái)第91頁(yè),共101頁(yè)。樸素貝葉斯語(yǔ)言模型 看成句子出現(xiàn)的概率問題:這樣分詞問題算是有了一個(gè)可用的解決方案,同時(shí)機(jī)器翻譯等任務(wù)也被整合成了語(yǔ)言模型之間的映射問題。思考:這樣做有什么問題?取n-gram這是語(yǔ)言模型的基礎(chǔ)工作,常見的是3-gram第92頁(yè),共101頁(yè)。樸素貝葉斯再次回顧貝葉斯公式: 假設(shè)有正常/垃圾兩類文本的訓(xùn)練數(shù)據(jù),上述公式的意思也可以這樣表達(dá):思考:A可能是一篇文章、一句話,上述模型如何求解呢?第93頁(yè),共101頁(yè)。樸素貝葉斯樸素貝葉斯是最基礎(chǔ)的文本分類模型它對(duì)文本做了馬爾科夫假設(shè) 強(qiáng)調(diào):文本上的馬爾科夫假設(shè)是非常強(qiáng)的約束樸素貝葉斯效果較好,與文本的稀疏性有關(guān)第94頁(yè),共101頁(yè)。樸素貝葉斯舉個(gè)例子 訓(xùn)練語(yǔ)料內(nèi)容垃圾1您好,請(qǐng)關(guān)注xxx機(jī)器學(xué)習(xí)產(chǎn)品,我們的聯(lián)系方式是xxx12老師好,我想請(qǐng)教您一個(gè)機(jī)器學(xué)習(xí)的問題03最新優(yōu)惠促銷,打折甩賣,免費(fèi)產(chǎn)品咨詢14基于區(qū)塊鏈的版權(quán)數(shù)據(jù)保護(hù),是未來(lái)一個(gè)可能的技術(shù)方向05我們使用機(jī)器學(xué)習(xí)對(duì)圖片進(jìn)行分類,模型關(guān)注的是圖片哪個(gè)區(qū)域?0第95頁(yè),共101頁(yè)。樸素貝葉斯舉個(gè)例子 思考:這樣做有什么問題?拉普拉斯平滑
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025 小學(xué)四年級(jí)科學(xué)下冊(cè)壓縮空氣玩具原理講解課件
- 2026湖北荊州市監(jiān)利市事業(yè)單位人才引進(jìn)64人參考考試試題附答案解析
- 2026福建南平市建陽(yáng)區(qū)文化體育和旅游局招聘1人備考考試試題附答案解析
- 2026年上半年黑龍江省人民政府黑瞎子島建設(shè)和管理委員會(huì)事業(yè)單位公開招聘工作人員4人參考考試試題附答案解析
- 建立有效的家屬溝通與教育
- 2026山東臨沂莒南縣部分事業(yè)單位招聘綜合類崗位29人備考考試題庫(kù)附答案解析
- 2026廣西柳州市融安縣公安局招聘警務(wù)輔助人員50人備考考試試題附答案解析
- 2026重慶銅梁區(qū)慶隆鎮(zhèn)人民政府向社會(huì)公開招聘1人參考考試試題附答案解析
- 2026“夢(mèng)工場(chǎng)”招商銀行重慶分行寒假實(shí)習(xí)生招聘?jìng)淇伎荚囶}庫(kù)附答案解析
- 2026年度菏澤鄄城縣事業(yè)單位公開招聘初級(jí)綜合類崗位人員備考考試試題附答案解析
- 2024-2025學(xué)年七年級(jí)語(yǔ)文上學(xué)期期末專題復(fù)習(xí):基礎(chǔ)知識(shí)運(yùn)用(含答案)
- 膠體與界面化學(xué)
- 高溫熔融金屬企業(yè)安全知識(shí)培訓(xùn)
- 深圳益電通變頻器說明書TD90
- 2024至2030年中國(guó)公安信息化與IT行業(yè)發(fā)展形勢(shì)分析及運(yùn)行策略咨詢報(bào)告
- 機(jī)動(dòng)車商業(yè)保險(xiǎn)條款(2020版)
- 食管破裂的護(hù)理查房
- 民辦高中辦學(xué)方案
- 高教主賽道創(chuàng)業(yè)計(jì)劃書
- 一年級(jí)上冊(cè)生字練字帖(僅打印)
- 委托付款三方協(xié)議中英文版
評(píng)論
0/150
提交評(píng)論