付費下載
下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、AUCAUO一種用來度量分類模型好壞的一個標準。通常,AUC勺值介于0.5到1.0之間,較大的AUC代表了較好的分類模型AUC0.5的情況下:AUCft0.50.7時有較低準確性;AUCft0.70.9時有一定準確性;AUCft0.9以上時有較高準確性;AUCffi接近于1,說明診斷效果越好。其實,AUC勺值就是處于ROC曲線下方的那部分面積的大小。ROa線:受試者工作特征曲線,曲線上每個點反映著對同一信號刺激的感受性。橫軸:1特異度,又稱負正類率(FPR);縱軸:靈敏度,又稱真正類率(TPR)。例如:針對一個二分類問題,將實例分成正類或者負類,會出現(xiàn)四種情況:(1)若一個實例是正類,并且被預
2、測成為正類,即為真正類(TP);(2)若一個實例是正類,但是被預測成為負類,即為假負類(FN);(3)若一個實例是負類,但是被預測成為正類,即為假正類(FP);(4)若一個實例是負類,并且被預測成為負類,即為真負類(TN)o如下表:某不情法實際負正預測負真負類(TN)假用1(FN)正假正類(FP)真正類(TP)特異度:真負類率(TNR,刻畫的是分類器所識別出的負實例占所有負實例的比例,TNR=TN/(FP+TN)1特異度:假正類(FPR,刻畫的是分類器錯認為正類的負實例占所有負實例的比例,F(xiàn)PR=1-TNR=FP/(FP+TN靈敏度:真正類(TPR,刻畫的是分類器所識別出的正實例占所有正實例的
3、比例,TPR=TP/(TP+FN)假設采用邏輯回歸分類器, 具給出針對每個實例為正類的概率, 那么通過設定一個閾值如0.6,概率大于等于0.6的為正類,小于0.6的為負類。對應的就可以算出一組(FPR,TPR),在平面中得到對應坐標點。隨著閾值的逐漸減小,越來越多的實例被劃分為正類,但是這些正類中同樣也摻雜著真正的負實例,即TPR和FPR會同時增大。閾值最大時,對應坐標點為(0,0),閾值最小時,對應坐標點(1,1)。分類器的一個重要功能“概率輸出”,即表示分類器認為某個樣本具有多大的概率屬于正樣本(或負樣本)。通過更深入地了解各個分類器的內(nèi)部機理,我們總能想辦法得到一種概率輸出。通常來說,是
4、將一個實數(shù)范圍通過某個變換映射到(0,1)區(qū)間A3。假如已經(jīng)得到了所有樣本的概率輸出(屬于正樣本的概率),根據(jù)每個測試樣本屬于正樣本的概率值從大到小排序。下圖是一個示例,圖中共有20個測試樣本,“Class”一欄表示每個測試樣本真正的標簽(p表示正樣本,n表示負樣本),“Score”表示每個測試樣本屬于正樣本的概率。Inst#Inst#ClassClassScoreScoreInst#Inst#ClassClassScoreScore1P P.911P PA2P P.812n n.393n n,713P P.384P P.614n n.375P P.5515n n.366P P.5416n n
5、357n n,5317P P.348n n.5218n n.339P P.5119P P.3010n n.50520n n,1將“Score”值作為閾彳 直,當測試柞 本屬于正樣本1的概率大于E戈等于這個閾值時,認為它為正樣本,否則為負樣本。舉例來說,對于圖中的第4個樣本,其“Score”值為0.6,那么樣本1,2,3,4都被認為是正樣本,因為它們的“Score”值都大于等于0.6,而其他樣本則都認為是負樣本。每次選取一個不同的閾值,我們就可以得到一組FPR和TPR即ROO線上的一點。這樣一來,我們一共得至IJ了20組FPR和TPR的值,將它們畫在ROQa線的結(jié)果如下圖:020.3Od050.
6、6OJO.E09E:alscpositiverateAUCfi是一個概率值,當你隨機挑選一個正樣本以及負樣本,當前的分類算法根據(jù)計算得到的Score值將這個正樣本排在負樣本前面的概率就是AUCB,AUC值越大,當前分類算法越有可能將正樣本排在負樣本前面,從而能夠更好地分類。首先對score從大到小排序, 然后令最大score對應的sample的rank為n,第二大score對應sample的rank為n-1,以此類推。然后把所有的正類樣本的rank相加,再減去M-1種兩個正樣本組合的情況。得到的就是所有的樣本中有多少對正類樣本的score大于負類樣本的score。然后再除以MXN=即:卜面是利
7、用決策樹預測客戶流失的案例,假設流失為正,不流失為負用測試集的復合矩陣計算它的AUC3 3SR1-SR1-流失的符合矩陣(行表示實際值)ROCk的點:(0.198,0.62)日評估度星,Partition,Partition,楔型派流失SR1-SR1-流失SR2SR2-流先GmiGmi0 049505649505610232102322 2TestingTesting- -AUCAUC0.71074507450S960S96GiniGini0420.0.494901920192*Partrti*PartrtiMI*=1_Training1_TrainingU Uo oYesYes*Partit
8、ion*-2_TesbngNo*Partition*-2_TesbngNo1 1_Training_TrainingAUCAUC0.7470.7470.790.790.6160.616決策樹R1流失分析預測實際負正預測負TN=178FN=22正FP=44TP=36基尼系數(shù)基尼系數(shù)在決策樹中是一種數(shù)據(jù)分類不純性檢測的方法,分支時基尼系數(shù)越小,則分的類越好。以下是給定的t點的Gini計算方法:GINI(t)=I-p(j|t)2其中,(p(j|t)是在結(jié)點t中,類j發(fā)生的概率。C10C26Gini=0.000C13C23Gini=0.500C12C24Gini=0.444當一個結(jié)點p分割成k個部分(
9、孩子),劃分的質(zhì)量可由下面公式計算:nGINIspM一二GINI(i)i=in其中,ni=孩子結(jié)點i的記錄數(shù),n=父結(jié)點p的記錄數(shù).對于二元屬性,結(jié)點被劃分成兩個部分,得到的GINI值越小,這種劃分越可行.例如,計算B點的Gini值,檢驗這種劃分是否合適。GinHINI)=1_(5/6產(chǎn)_(2/6)2-Q.194Gjni(N2)=1-(1/6)2-(4/6尸-0.528Gini(B)=7/12*0/194+5/12*0.528=0.333基尼系數(shù)較小,此劃分可行。15*0I學 K 盤鼠息計1DO.Q叫934|a a評估度量|根霍AUGGiniAUGGini$R$R-流失071107110.42
10、20.422類別與nNo32.05125JU計B.J617tJ節(jié),4謂別nNo行.圜9?14吊s如urn電計3艮43丁35目協(xié)同過濾協(xié)同過濾常常被用于分辨某位特定顧客可能感興趣的東西,這些結(jié)論來自于對其他相似顧客對哪些產(chǎn)品感興趣的分析。也就是說,算法通過對用戶歷史行為數(shù)據(jù)的挖掘發(fā)現(xiàn)用戶的偏好,基于不同的偏好對用戶進行群組劃分并推薦品味相似的商品。要實現(xiàn)協(xié)同過濾的推薦算法,要進行以下三個步驟:收集數(shù)據(jù)一一找到相似用戶和物品一一進行推薦兩種推薦方式:(1)基于用戶的協(xié)同過濾;(2)基于物品的協(xié)同過濾?;谟脩舻膮f(xié)同過濾:(1)找到與目標用戶興趣相似的用戶集合;(2)找到這個集合中用戶喜歡的、并且目標用戶沒有聽說過的物品推薦給目標用戶?;谖锲返膮f(xié)同過濾:(1)找到相似的物品集合;(2)找到目標用戶喜歡的物品所在的集合,將集合中排除他喜歡的物品外其他的物品推薦給
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 溶劑精制裝置操作工春節(jié)假期安全告知書
- 健康教育普及手冊(標準版)
- 2025年項目進度控制與管理手冊
- 樂山市峨眉第二中學校2025-2026學年高二上學期10月月考物理試題
- 安全生產(chǎn)法律法規(guī)管理制度
- 2025年GCP題庫題庫帶答案(模擬題)
- 糞便檢查試題及答案
- 2025年天津市安全員考試題庫及答案
- 2025會計從業(yè)考試匯票試題及答案
- 2025年注冊藥師《藥品知識與運用》備考試題及答案解析
- 體系培訓文件課件9001
- 外科急危重癥護理
- 生物實驗室樣本管理制度
- 客戶投訴理賠管理制度
- GB/T 45451.1-2025包裝塑料桶第1部分:公稱容量為113.6 L至220 L的可拆蓋(開口)桶
- 文物基礎知識題庫單選題100道及答案
- GB/T 44819-2024煤層自然發(fā)火標志氣體及臨界值確定方法
- 《風力發(fā)電廠調(diào)試規(guī)程》
- 搞笑小品劇本《我的健康誰做主》臺詞完整版-宋小寶徐崢
- 正大天虹方矩管鍍鋅方矩管材質(zhì)書
- 兔子解剖實驗報告
評論
0/150
提交評論