版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第2章邏輯回歸及最大熵模型(一)概述
邏輯回歸模型是一種常用的回歸或分類模型,可以視為廣義線性模型的特例。本節(jié)將介紹線性回歸模型和廣義線性模型的概念,邏輯回歸和多分類邏輯回歸以及如何通過最大熵模型解釋邏輯回歸。目錄線性回歸廣義線性回歸最大熵模型評價指標(biāo)一個實例線性回歸線性回歸研究的是自變量與因變量之間的線性關(guān)系。對于特征及其對應(yīng)的標(biāo)簽,線性回歸假設(shè)二者之間存在線性映射其中和分別表示待學(xué)習(xí)的權(quán)重及偏置。權(quán)重的分量反應(yīng)了各特征變量的重要程度。線性回歸的目標(biāo)是求解和,使得與盡可能接近。求解線性回歸模型的基本方法是最小二乘法。最小二乘法是一個不帶條件的最優(yōu)化問題,優(yōu)化目標(biāo)是讓整個樣本集合上的預(yù)測值與真實值之間的歐式距離之和最小。一元線性回歸給定空間中的一組樣本點,目標(biāo)函數(shù)為令目標(biāo)函數(shù)對和的偏導(dǎo)數(shù)為0則可得到和的估計值多元線性回歸可以將同樣看作權(quán)重,即此時,優(yōu)化目標(biāo)為其中為樣本矩陣的增廣矩陣,為對應(yīng)的標(biāo)簽向量求解優(yōu)化目標(biāo)可得當(dāng)可逆時,線性回歸模型存在唯一解。多元線性回歸當(dāng)樣本集合中的樣本太少或者存在大量線性相關(guān)的維度,則可能會出現(xiàn)多個解的情況??梢栽谠季€性回歸模型的基礎(chǔ)上增加正則化項目以降低模型的復(fù)雜度,使得模型變得簡單。若加入L2正則化,則優(yōu)化目標(biāo)可寫作此時,線性回歸又稱為嶺回歸。求解式有增加了一個擾動項。此時不僅能夠降低模型的復(fù)雜度、防止過擬合,而且能夠使可逆,有唯一解。多元線性回歸當(dāng)正則化項為L1正則化時,線性回歸模型又稱為Lasso回歸,此時優(yōu)化目標(biāo)可寫作L1正則化能夠得到比L2正則化更為稀疏的解。所謂稀疏是指
中會存在多個值為0的元素,從而起到特征選擇的作用。由于L1范數(shù)使用絕對值表示,所以目標(biāo)函數(shù)不是連續(xù)可導(dǎo),此時不能再使用最小二乘法進(jìn)行求解??墒褂媒颂荻认陆颠M(jìn)行求解(PGD),這里不詳細(xì)展開講解。線性模型通常是其他模型的基本組成單元。堆疊若干個線性模型,同時引入非線性化激活函數(shù),就可以實現(xiàn)對任意數(shù)據(jù)的建模。例如,神經(jīng)網(wǎng)絡(luò)中的一個神經(jīng)元就是由線性模型加激活函數(shù)組合而成。廣義線性回歸上面描述的都是狹義線性回歸,其基本假設(shè)是y與x直接呈線性關(guān)系。如果不是線性關(guān)系,那么使用線性回歸模型進(jìn)行擬合后會得到較大的誤差。為了解決這個問題,可以尋找這樣一個函數(shù)g,使得g(y)與y之間是線性關(guān)系。舉例來說,假設(shè)x是一個標(biāo)量,y與x的實際關(guān)系是。令其中是要估計的未知參數(shù)。那么g(y)與x呈線性關(guān)系,此時可以使用線性回歸對進(jìn)行參數(shù)估計,從而間接得到。這樣的回歸稱為廣義線性回歸。邏輯回歸邏輯回歸是一種廣義線性回歸,通過回歸對數(shù)幾率的方式將線性回歸應(yīng)用于分類任務(wù)。對于一個二分類問題,令表示樣本x對應(yīng)的類別變量。設(shè)x屬于類別1的概率為,則自然有、。比值稱為幾率,幾率的對數(shù)即為對數(shù)幾率邏輯回歸通過回歸式計算對數(shù)幾率來間接得到p的值,即
,解得為了方便描述,令則有
邏輯回歸由于樣本集合給定的樣本屬于類別1的概率非0即1,所以無法用最小二乘法求解。此時可以考慮使用極大似然估計進(jìn)行求解。給定樣本集合,似然函數(shù)為對數(shù)似然函數(shù)為之后可用經(jīng)典的啟發(fā)式最優(yōu)化算法梯度下降法(此處不詳細(xì)解釋)求解此式。邏輯回歸上圖是二維空間中使用邏輯回歸進(jìn)行二分類的示例。圖中樣本存在一定的噪聲(正類中混合有部分負(fù)類樣本、負(fù)類中混合有部分正類樣本)。可以看到邏輯回歸能夠抵御一定的噪聲干擾。多分類邏輯回歸二分類邏輯回歸也可擴(kuò)展到多分類邏輯回歸。將帶入
有通過歸納可將邏輯回歸推廣到任意多分類問題中。當(dāng)類別數(shù)目為k時有
令式中分子分母都除以多分類邏輯回歸可得此式同樣可以通過極大似然估計的方式轉(zhuǎn)化成對數(shù)似然函數(shù),然后通過梯度下降法求解。交叉熵?fù)p失函數(shù)交叉熵?fù)p失函數(shù)是神經(jīng)網(wǎng)絡(luò)中常用的一種損失函數(shù)。K分類問題中,假設(shè)樣本屬于每個類別的真實概率為其中只有樣本所屬的類別的位置值為1,其余位置皆為0。假設(shè)分類模型的參數(shù)為,其預(yù)測的樣本屬于每個類別的概率
滿足則樣本的交叉熵?fù)p失定義為對所有樣本有當(dāng)k=2時,此式(2-28)與對數(shù)似然函數(shù)形式相同。所以交叉熵?fù)p失函數(shù)與通過極大似然函數(shù)導(dǎo)出的對損似然函數(shù)類似,可以通過梯度下降法求解。最大熵模型信息論中,熵是對隨機(jī)變量的不確定性的度量?,F(xiàn)實世界中,不加約束的事物都會朝著“熵增”的方向發(fā)展,也就是不確定性增加的方向發(fā)展??梢宰C明,當(dāng)隨機(jī)變量呈均勻分布時,熵值最大。機(jī)器學(xué)習(xí)中,最大熵原理即假設(shè):描述一個概率分布時,在滿足所有約束條件的情況下,熵最大的模型是最好的。即在滿足所有約束條件下,數(shù)據(jù)是隨機(jī)分布的。以企業(yè)的管理條例為例,一般的管理條例規(guī)定了員工的辦事準(zhǔn)則,而對于管理條例中未規(guī)定的行為,在可供選擇的選項中,員工們會有不同的選擇??梢哉J(rèn)為每個選項被選中的概率是相等的。實際情況也往往如此,這就是一個熵增的過程。最大熵模型對于離散隨機(jī)變量,假設(shè)其有M個取值。記,則其熵定義為
對于連續(xù)變量,假設(shè)其概率密度函數(shù)為,則其熵定義為最大熵模型的導(dǎo)出給定一個大小為m的樣本集合,假設(shè)輸入變量為X,輸出變量為Y。以頻率代替概率,可以估計出X的邊緣分布及(X,Y)的聯(lián)合分布其中和分別表示訓(xùn)練樣本中出現(xiàn)的頻數(shù)和出現(xiàn)的頻數(shù)。在樣本量足夠大的情況下,認(rèn)為反映真實的樣本分布。基于此,最大熵模型使用條件熵進(jìn)行建模最大熵模型的導(dǎo)出根據(jù)定義,最大熵模型是在滿足一定約束條件下熵最大的模型。最大熵模型的思路是:從樣本集合使用特征函數(shù)抽取特征,然后希望特征函數(shù)關(guān)于經(jīng)驗聯(lián)合分布的期望,等于特征函數(shù)關(guān)于模型和經(jīng)驗邊緣分布的期望。特征函數(shù)關(guān)于經(jīng)驗聯(lián)合分布的期望定義為特征函數(shù)關(guān)于模型和經(jīng)驗邊緣分布的期望定義為最大熵模型的導(dǎo)出也即希望,稱為乘法準(zhǔn)則。最大熵模型的約束也即希望在不同的特征函數(shù)下通過估計的參數(shù)來滿足乘法準(zhǔn)則。由此,最大熵模型的學(xué)習(xí)過程可以轉(zhuǎn)化為一個最優(yōu)化問題的求解過程。即在給定若干特征提取函數(shù)。以及的所有可能取值的條件下,求解最大熵模型的導(dǎo)出將該最大化問題轉(zhuǎn)化為最小化問題即,即可用拉格朗日乘子法求解。拉格朗日函數(shù)為其中為引入的拉格朗日乘子。通過最優(yōu)化可求得
其中最大熵模型與邏輯回歸之間的關(guān)系分類問題中,假設(shè)特征函數(shù)個數(shù)M等于樣本輸入變量的個數(shù)n,即n=M。以二分類問題為例,定義如下特征函數(shù),每個特征函數(shù)只提取一個屬性的值則有注意,此處,不包含最大熵模型與邏輯回歸之間的關(guān)系可以看到,此時最大熵模型等價于二分類邏輯回歸模型。對于多分類問題,可定義,則
其中此式與前面K分類公式等價,此時最大熵模型等價于多分類邏輯回歸。最大熵模型的可以通過擬牛頓法、梯度下降法等學(xué)習(xí),評價指標(biāo)對于一個分類任務(wù),往往可以訓(xùn)練許多不同模型。那么,如何從眾多模型中挑選出綜合表現(xiàn)最好的那一個,這就涉及到了對模型的評價問題。接下來將介紹一些常用的模型評價指標(biāo)?;煜仃嚮煜仃囀抢斫獯蠖鄶?shù)評價指標(biāo)的基礎(chǔ),這里用一個經(jīng)典表格來解釋混淆矩陣是什么混淆矩陣混淆矩陣包含四部分的信息:1) 真陰率(TN)表明實際是負(fù)樣本預(yù)測成負(fù)樣本的樣本數(shù)。2) 假陽率(FP)表明實際是負(fù)樣本預(yù)測成正樣本的樣本數(shù)。3) 假陰率(FN)表明實際是正樣本預(yù)測成負(fù)樣本的樣本數(shù)。4) 真陽率(TP)表明實際是正樣本預(yù)測成正樣本的樣本數(shù)。大部分的評價指標(biāo)都是建立在混淆矩陣基礎(chǔ)上的,包括準(zhǔn)確率、精確率、召回率、F1-score,當(dāng)然也包括AUC。準(zhǔn)確率準(zhǔn)確率是最為常見的一項指標(biāo),即預(yù)測正確的結(jié)果占總樣本的百分比,其公式如下
雖然準(zhǔn)確率可以判斷總的正確率,但是在樣本不平衡的情況下,并不能作為很好的指標(biāo)來衡量結(jié)果。假設(shè)在所有樣本中,正樣本占90%,負(fù)樣本占10%,樣本是嚴(yán)重不平衡的。模型將全部樣本預(yù)測為正樣本即可得到90%的高準(zhǔn)確率,如果僅使用準(zhǔn)確率這一單一指標(biāo),模型就可以像這樣偷懶獲得很高的評分。正因如此,也就衍生出了其它兩種指標(biāo):精確率和召回率。精確率與召回率精確率又叫查準(zhǔn)率,它是針對預(yù)測結(jié)果而言的。精確率表示在所有被預(yù)測為正的樣本中實際為正的樣本的概率。意思就是在預(yù)測為正樣本的結(jié)果中,有多少把握可以預(yù)測正確,公式如下
召回率又叫查全率,它是針對原樣本而言的。召回率表示在實際為正的樣本中被預(yù)測為正樣本的概率,公式如下
召回率一般應(yīng)用于寧可錯殺一千,絕不放過一個的場景下。例如在網(wǎng)貸違約率預(yù)測中,相比信譽(yù)良好的用戶,我們更關(guān)心可能會發(fā)生違約的用戶。召回率越高,代表不良用戶被預(yù)測出來的概率越高。PR曲線分類模型對每個樣本點都會輸出一個置信度。通過設(shè)定置信度閾值,就可以完成分類。不同的置信度閾值對應(yīng)著不同的精確率和召回率。一般來說,置信度閾值較低時,大量樣本被預(yù)測為正例,所以召回率較高,而精確率較低;置信度閾值較高時,大量樣本被預(yù)測為負(fù)例,所以召回率較低,而精確率較高。PR曲線就是以精確率為縱坐標(biāo)
,以召回率為橫坐標(biāo)做出的曲線
如圖ROC曲線與AUC曲線對于某個二分類分類器來說,輸出結(jié)果標(biāo)簽(0還是1)往往取決于置信度以及預(yù)定的置信度閾值。比如常見的閾值就是0.5,大于0.5的認(rèn)為是正樣本,小于0.5的認(rèn)為是負(fù)樣本。如果增大這個閾值,預(yù)測錯誤(針對正樣本而言,即指預(yù)測是正樣本但是預(yù)測錯誤,下同)的概率就會降低,但是隨之而來的就是預(yù)測正確的概率也降低;如果減小這個閾值,那么預(yù)測正確的概率會升高但是同時預(yù)測錯誤的概率也會升高。實際上,這種閾值的選取一定程度上反映了分類器的分類能力。我們當(dāng)然希望無論選取多大的閾值,分類都能盡可能地正確。為了形象地衡量這種分類能
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年廣東省韶關(guān)市單招職業(yè)適應(yīng)性測試題庫及完整答案詳解1套
- 2026年鄭州體育職業(yè)學(xué)院單招職業(yè)技能測試題庫參考答案詳解
- 2026年浙江理工大學(xué)單招職業(yè)傾向性考試題庫及參考答案詳解
- 四川省遂寧市射洪中學(xué)2024-2025學(xué)年高二上學(xué)期期中考試地理試題含答案地理答案
- 醫(yī)院筆試面試題目及答案
- 2025年·錦州市部分事業(yè)單位赴高校公開招聘應(yīng)屆畢業(yè)生備考題庫(第二批)及一套答案詳解
- 2026年龍游縣機(jī)關(guān)事業(yè)單位編外人員招聘備考題庫及1套完整答案詳解
- 昆明市第十二中學(xué)教育集團(tuán)2025年12月聘用制教師招聘備考題庫有答案詳解
- 2025年成都市金牛國投人力資源服務(wù)有限公司公開招聘26名網(wǎng)格員備考題庫及1套參考答案詳解
- 中國鐵建投資集團(tuán)有限公司2026屆校園招聘30人備考題庫完整答案詳解
- GB/T 4957-2003非磁性基體金屬上非導(dǎo)電覆蓋層覆蓋層厚度測量渦流法
- GB/T 27806-2011環(huán)氧瀝青防腐涂料
- GB/T 12618.1-2006開口型平圓頭抽芯鉚釘10、11級
- FZ/T 52051-2018低熔點聚酯(LMPET)/聚酯(PET)復(fù)合短纖維
- 設(shè)備吊裝方案編制受力計算
- 食品工程原理概述經(jīng)典課件
- 養(yǎng)老院機(jī)構(gòu)組織架構(gòu)圖
- 財經(jīng)法規(guī)與會計職業(yè)道德
- 會計學(xué)本-財務(wù)報表分析綜合練習(xí)
- 傳播學(xué)概論教學(xué)課件
- 《中國傳統(tǒng)文化心理學(xué)》課件第五章 傳統(tǒng)文化與心理治療(修)
評論
0/150
提交評論