準(zhǔn)確率(Accuracy),精確率(Precision),召回率(Recall)和F1M_第1頁
準(zhǔn)確率(Accuracy),精確率(Precision),召回率(Recall)和F1M_第2頁
準(zhǔn)確率(Accuracy),精確率(Precision),召回率(Recall)和F1M_第3頁
準(zhǔn)確率(Accuracy),精確率(Precision),召回率(Recall)和F1M_第4頁
準(zhǔn)確率(Accuracy),精確率(Precision),召回率(Recall)和F1M_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、準(zhǔn)確率(Accuracy),精確率(Precision),召回率(Recall)和F1-M。機(jī)器學(xué)習(xí)(ML)啟然語言處理(NLP),信息檢索(IR)等領(lǐng)域,評估(Evaluation)是一個(gè)必要的工作,而其評價(jià)指標(biāo)往往有如下幾點(diǎn):準(zhǔn)確率(Accuracy),精確率(Precision),召回率(Recall)和F1-Measure(注:相對來說,IR的groundtruth很多時(shí)候是一個(gè)OrderedList,而不是一個(gè)Bool類型的UnorderedCollection,在都找到的情況下,排在第三名還是第四名損失并不是很大,而排在第一名和第一百名,雖然都是“找到了”,但是意義是不一樣的,因此

2、更多可能適用于之類評估指標(biāo)。)本文將簡單介紹其中幾個(gè)概念。中文中這幾個(gè)評價(jià)指標(biāo)翻譯各有不同,所以一般情況下推薦使用英文?,F(xiàn)在我先假定一個(gè)具體場景作為例子。假如某個(gè)班級有男生80人,女羽20,共計(jì)00人目標(biāo)是找出所有女生.現(xiàn)在某人挑選出5個(gè)人,其中2人是女生,另外還錯(cuò)誤的把30個(gè)男生也當(dāng)作女生挑選出來了.作為評估者的你需要來評估Velvaauiaono下他的工作首先我們可以計(jì)算確率率(ccuu(ay)y其定義是:對于給定的測試數(shù)據(jù)集,分類器正確分類的樣本數(shù)與總樣本數(shù)之比。也就是損失函數(shù)是1損失時(shí)測試數(shù)據(jù)集上的準(zhǔn)確率.這樣說聽起來有點(diǎn)抽象,簡單說就是,前面的場景中,實(shí)際情況是那個(gè)班級有男的和女的兩

3、類,某人(也就是定義中所說的分類器)他又定正確了,而總?cè)藬?shù)是100人,所以它的accuracy就是70%(70/100).級中的人分為男女兩類。accuracy需要得到的是分正君分的正確占總?cè)松妆壤?。很容易,我們可以得?他把其中70(20女+50男)人判由準(zhǔn)確率,我們的確可以在一些場合,從某種意義上得到一個(gè)分類器是否有效,但它并不總是能有效的評價(jià)一個(gè)分類器的工作。舉個(gè)例子,google抓取了argcv100個(gè)頁面,而它索引中共有10,000,000個(gè)頁面,隨機(jī)抽一個(gè)頁面,分類下,這是不是argcv的頁面呢?如果以accuracy來判斷我的工作,那我會把所有的頁面都判斷為不是argcv的頁面,

4、因?yàn)槲疫@樣效率非常高(returnfalse,句話),而accuracy已經(jīng)到了99.999%(9,999,900/10,000,000),完爆其它很多分類器辛辛苦苦算的值,而我這個(gè)算法顯然不是需求期待的,那怎么解決呢?這就是precision,recall和f1-measure出場的時(shí)間了.在說precision,recall和f1-measure之前,我們需要先需要定義TP,FN,FP,TN四種分類情況.按照前面例子,我們需要從一個(gè)班級中的人中尋找所有女址如果把這個(gè)任務(wù)當(dāng)成一個(gè)分類器的話,那么女生就是我們需要的,而男生不是,所以我們稱女生為正類,而男生為負(fù)類相關(guān)(Relevant),正類無

5、關(guān)(NonRelevant),負(fù)類被檢索到(Retrieved)truepositives(TP正類判定為正類,例子中就是正確的判定這位是女生)falsepositives(FP負(fù)類判定為正類,存?zhèn)?,例子中就是分明是男生卻判斷為女生,當(dāng)下偽娘橫行,這個(gè)錯(cuò)常有人犯)未被檢索到(NotRetrieved)falsenegatives(FN正類判定為負(fù)類,去真,例子中就是,分明是女生,這哥們卻判斷為男生-梁山伯同學(xué)犯的錯(cuò)就是這個(gè))truenegatives(TN負(fù)類判定為負(fù)類,也就是一個(gè)男生被判斷為男生,像我這樣的純爺們一準(zhǔn)兒就會在此處)通過這張表,我們可以很容易得到這幾個(gè)值:TP=20FP=30F

6、N=0TN=50精確率(precision)的公式是I,它計(jì)算的是所有正確被檢索的item(TP)占所有實(shí)際被檢索到的(TP+FP)的比例.在例子中就是希望知道此君得到的所有人中,正確的人(也就是女生)占有的比例所以其precision也就是40%(20女生/(20女生+30誤判為女生的男生)召回率(recall)的公式是I,它計(jì)算的是所有正確被檢索的item(TP)占所有應(yīng)該檢索到的item(TP+FN)的比例。在例子中就是希望知道此君得到的女生占本班中所有女生的比例,所以其recall也就是100%(20女生/(20女生+0誤判為男生的女生)F1值就是精確值和召回率的調(diào)和均值,也就是調(diào)整下

7、也就是).例子中F1-measure也就是約為需要說明的是,有人列了這樣個(gè)公式將F-measure般化.F1-measure認(rèn)為精確率和召回率的權(quán)重是一樣的,但有些場景下,我們可能認(rèn)為精確率會更加重要,調(diào)整參數(shù)a,使用Fa-measure可以幫助我們更好的evaluate結(jié)果.話雖然很多,其實(shí)實(shí)現(xiàn)非常輕松,點(diǎn)擊可以看到我的一個(gè)簡單的實(shí)現(xiàn).Reerences李航.統(tǒng)計(jì)學(xué)習(xí)方法M.北京:清華大學(xué)出版社,2012.2自己理解+我老師的說法就是,準(zhǔn)確率就找得得對召回率就是找得全。大概就是你問問一個(gè)模型,這堆東西是不是某個(gè)類的時(shí)候,準(zhǔn)確率就說是說這東西就西實(shí)是的是率吧,召回率就是,它它說是但但它漏說了(

8、1-召回率)這么多。在信息檢索、分類體系中,有一系列的指標(biāo),搞清楚這些指標(biāo)對于評價(jià)檢索和分類性能非常重要,因此最近根據(jù)網(wǎng)友的博客做了一個(gè)匯總。準(zhǔn)確率、召回率、F1信息檢索、分類、識別、翻譯等領(lǐng)域兩個(gè)最基本指標(biāo)是召召z回率decaaindaite準(zhǔn)Is確率(pracisRB)a回率也醴查全率準(zhǔn)確率也查準(zhǔn)率,概念公式召回率(Recall)=系統(tǒng)檢索到的相關(guān)文件/系統(tǒng)所有相關(guān)的文件總數(shù)準(zhǔn)確率(Precision)=系統(tǒng)檢索到的相關(guān)文件/系統(tǒng)所有檢索到的文件總數(shù)圖示表示如下:A:(搜到的也想要的)B:檢索到的,但是不相關(guān)的(搜到的但沒用的)C:未檢索到的,但卻是相關(guān)的(沒搜到,然而實(shí)際上想要的)D:未

9、檢索到的,也不相關(guān)的(沒搜到也沒用的)注意:準(zhǔn)確率和召回率是互相影響的,理想情況下肯定是做到兩者都高,但是一般情況下準(zhǔn)確率高、召回率就低,召回率低、準(zhǔn)確率高,當(dāng)然如果兩者都低,那是什么地方出問題了。一般情況,用不同的閥值,統(tǒng)計(jì)出一組不同閥值下的精確率和召回率,如下圖:如果是做搜索,那就是保證召回的情況下提升準(zhǔn)確率;如果做疾病監(jiān)測、反垃圾,則是保準(zhǔn)確率的條件下,提升召回。所以,在兩者都要求高的情況下,可以用F1來衡量。F1=*P*R/(P+R)公式基本上就是這樣,但是如何算圖1中的A、B、C、D呢?這需要人兀標(biāo)注,如標(biāo)注注數(shù)據(jù)需要要較時(shí)時(shí)間且枯燥如果僅僅是做實(shí)驗(yàn)實(shí)驗(yàn)可以用用現(xiàn)成的語料。當(dāng)然,還有

10、一個(gè)辦法,找個(gè)一個(gè)比較成熟的算法作為基準(zhǔn),用該算法的結(jié)果作為樣本來進(jìn)行比照,這個(gè)方法也有點(diǎn)問題,如果有現(xiàn)成的很好的算法,就不用再研究了。AP和mAP(meanAveragePrecision)mAP是為解決P,R,F-measure的單點(diǎn)值局限性的。為了得到一個(gè)能夠反映全局性能的指標(biāo),可以看考察下圖,其中兩條曲線方塊點(diǎn)與圓點(diǎn))分布對應(yīng)了兩個(gè)檢索系統(tǒng)的準(zhǔn)確率-召回率曲線可以看出,雖然兩個(gè)系統(tǒng)的性能曲線有所交疊但是以圓點(diǎn)標(biāo)示的系統(tǒng)的性能在絕大多數(shù)情況下要遠(yuǎn)好于用方塊標(biāo)示的系統(tǒng)。從中我們可以發(fā)現(xiàn)一點(diǎn),如果一個(gè)系統(tǒng)的性能較好,其曲線應(yīng)當(dāng)盡可能的向上突出。更加具體的,曲線與坐標(biāo)軸之間的面積應(yīng)當(dāng)越大。最理

11、想的系統(tǒng),其包含的面積應(yīng)當(dāng)是1,而所有系統(tǒng)的包含的面積都應(yīng)當(dāng)大于0。這就是用以評價(jià)信息檢索系統(tǒng)的最常用性能指標(biāo),平均準(zhǔn)確率mAP其規(guī)范的定義如下:(其中P,R分別為準(zhǔn)確率與召回率)ROC和AUCROC和AUC是評價(jià)分類器的指標(biāo),上面第一個(gè)圖的ABCD仍然使用,只是需要稍微變換。口回到ROC上來,ROC的全名叫做ReceiverOperatingCharacteristic。ROC關(guān)注兩個(gè)指標(biāo)TruePositiveRate(TPR)=TP/TP+FNTPR代表能將正例分對的概率FalsePositiveRate(FPR)=FP/FP+TN,FPR代表將負(fù)例錯(cuò)分為正例的概率在ROC空間中,每個(gè)點(diǎn)

12、的橫坐標(biāo)是FPR,縱坐標(biāo)是TPR,這也就描繪了分類器在TP(真正的正例)和FP(錯(cuò)誤的正例)間的trade-off。ROC的主要分析工具是一個(gè)畫在ROC空間的曲線一一ROCcurve。我們知道,對于二值分類問題,實(shí)例的值往往是連續(xù)值,我們通過設(shè)定個(gè)閾值,將實(shí)例分類到正類或者負(fù)類(比如大于閾值劃分為正類)。因此我們可以變化閾值,根據(jù)不同的閾值進(jìn)行分類,根據(jù)分類結(jié)果計(jì)算得到ROC空間中相應(yīng)的點(diǎn),連接這些點(diǎn)就形成ROCcurve。ROCcurve經(jīng)過(0,0)(1,1),實(shí)際上(0,0)和(1,1)連線形成的ROCcurve實(shí)際上代表的是一個(gè)隨機(jī)分類器。一般情況下,這個(gè)曲線都應(yīng)該處于(0,0)和(1

13、,1)連線的上方。如圖所示。用ROCcurve來表示分類器的performance很直觀好用??墒?,人們總是希望能有一個(gè)數(shù)值來標(biāo)志分類器的好壞。于是AreaUnderrocCurve(AUC)就出現(xiàn)了。顧名思義,AUC的值就是處于ROCcurve下方的那部分面積的大小。通常,AUC的值介于0.5到1.0之間,較大的AUC代表了較好的Performance。AUC計(jì)算工具:P/R和ROC是兩個(gè)不同的評價(jià)指標(biāo)和計(jì)算方式,一般情況下,檢索用前者,分類、識別等用后者。參考鏈接::Recall,又稱“查全率”還是查全率好記,也更能體現(xiàn)其實(shí)質(zhì)意義。準(zhǔn)確率“召回率”與“準(zhǔn)確率”雖然沒有必然的關(guān)系(從上面公式

14、中可以看到),在實(shí)際應(yīng)用中,是相互制約的。要根據(jù)實(shí)際需求,找到一個(gè)平衡點(diǎn)。當(dāng)我們問檢索系統(tǒng)某一件事的所有細(xì)節(jié)時(shí)(輸入檢索query查詢詞),Recal指:檢索系統(tǒng)能“回憶”起那些事的多少細(xì)節(jié),通俗來講就是回憶的能力”?!澳芑貞浧饋淼募?xì)節(jié)數(shù)”除以“系統(tǒng)知道這件事的所有細(xì)節(jié),就是“記憶率”,也就是recall召回率。簡單的,也可以理解為查全率。2【機(jī)器學(xué)習(xí)理論】第部分準(zhǔn)確率Accuracy精確度Precision召回率RecallF-core準(zhǔn)確率和召回率是用于信息檢索和統(tǒng)計(jì)學(xué)分類領(lǐng)域的兩個(gè)度量值,用于評價(jià)結(jié)果的質(zhì)量,在機(jī)器學(xué)習(xí)中對于數(shù)據(jù)進(jìn)行預(yù)測的過程中,同樣的使用這些指標(biāo)來評價(jià)預(yù)測的結(jié)果的質(zhì)量。

15、準(zhǔn)確率是檢索出相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)準(zhǔn)率準(zhǔn)率召回率是指檢索出的相關(guān)文檔數(shù)和文檔庫中的所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)的查全率正確率=正確識別的個(gè)體總數(shù)/識別出的個(gè)體總數(shù)召回率=正確識別的個(gè)體總數(shù)/測試集中存在的個(gè)體總數(shù)F值=正確率*召回率*2/(正確率+召回率)(F值即為正確率和召回率的調(diào)和平均值)預(yù)測值與實(shí)際值之間的差異:PredictedconditionTruecondition假設(shè)原始樣本中有兩類TruepositiveFalseNegative(TypeIIerror)FalsePositive(Type1error)魚其中:Truenegati

16、ve1總共有P個(gè)類別為1的樣本,假設(shè)類別1為正例。2:總共有N個(gè)類別為0的樣本,假設(shè)類別0為負(fù)例。經(jīng)過分類后:3:有TP個(gè)類別為1的樣本被系統(tǒng)正確判定為類別1,F(xiàn)N個(gè)類別為1的樣本被系統(tǒng)誤判定為類別0,顯然有P=TP+FN;4:有FP個(gè)類別為0的樣本被系統(tǒng)誤判斷定為類別1,TN個(gè)類別為0的樣本被系統(tǒng)正確判為類別0,顯然有N=FP+TN;精確度(Precision):P=TP/(TP+FP);反映了被分類器判定的正例中真正的正例樣本的比重。準(zhǔn)確率(Accuracy)A=(TP+TN)/(P+N)=(TP+TN)/(TP+FN+FP+TN);反映了分類器統(tǒng)對整個(gè)樣本的判定能力一一能將正的判定為正,

17、負(fù)的判定為負(fù)。召回率(Recall),也稱為TruePositiveRate:R=TP/(TP+FN)=1-FN/T;反映了被正確判定的正例占總的正例的比重。F-measureorbalaneedF-scoreF=2*召回率*準(zhǔn)確率/(召回率+準(zhǔn)確率);這就是傳統(tǒng)上通常說的F1measure。3圖像分害U評價(jià)標(biāo)準(zhǔn)代碼(Imagesegmentationevaluationmetricscode)圖像分割評價(jià)標(biāo)準(zhǔn)代碼(Imagesegmentationevaluationmetricscode)分享圖像分割中用到的多種評價(jià)標(biāo)準(zhǔn)的代碼,方便使用。若有問題還望各位提醒指正。強(qiáng)烈建議參考如下兩篇文章m

18、ainfunction(輸入圖像SEG和GT分別為算法分割結(jié)果圖像、分割金標(biāo)準(zhǔn)圖像。對于多類分割的圖像,需要先取出SEG和GT中對應(yīng)的各類,然后使用下述函數(shù)單獨(dú)計(jì)算該類。):plainI%testallsegmentationmetricfunctionsISEG=imread(O.png);IGT=imread(1.png);4.I%binarizeSEG=im2bw(SEG,0.1);IGT=im2bw(GT,0.1);8.dr=Dice_Ratio(SEG,GT)Ihd=Hausdorff_Dist(SEG,GT)jaccard=Jaccardndex(SEG,GT)apd=Avg_Pe

19、rpenDist(SEG,GT)confm_index=ConformityCoefficient(SEG,GT)Iprecision=Precision(SEG,GT)Irecall=Recall(SEG,GT)Dice_Ratio:Hausdorff_Dist(得到hd之后,還需要乘以像素的物理距離,才是真正的Hausdorff距離)(update:對于三維體數(shù)據(jù)中該距離的計(jì)算,ITK方面給出的計(jì)算流程是:先將體數(shù)據(jù)匹配到同一物理空間,然后進(jìn)行計(jì)算,這就要求兩個(gè)體數(shù)據(jù)必須具備相同的物理參數(shù)。所以本代碼不適用于三維體數(shù)據(jù)的計(jì)算。):plainplainfunctionhd=Hausdorff

20、_Dist(SEG,GT)I%SEG,GTarethebinarysegmentationandgroundtruthareas,respectively.I%erodeelementIs=cat(3,000;010;000,010;111;010,000;010;000);I%generateboundaryBoundary_SEG=logical(SEG)&imerode(logical(SEG),s);Boundary_GT=logical(GT)&imerode(logical(GT),s);I%distancetonearestboundarypointDist_SEG=bwdist

21、(Boundary_SEG,euclidean);Dist_GT=bwdist(Boundary_GT,euclidean);I%distancetoanotherboundarymin_S2G=sort(Dist_GT(Boundary_SEG(:),ascend);min_G2S=sort(Dist_SEG(Boundary_GT(:),ascend);I%hausdorffdistancehd=max(min_S2G(end),min_G2S(end);IendJaccard_lndex:Avg_PerpenDist(得到apd之后,還需要乘以像素的物理距離,才是真正的apd值):pla

22、infunctionapd=Avg_PerpenDist(SEG,GT)I%SEG,GTarethebinarysegmentationandgroundtruthareas,respectively.I%erodeelementIs=cat(3,000;010;000,010;111;010,000;010;000);I%generateboundaryBoundary_SEG=logical(SEG)&imerode(logical(SEG),s);Boundary_GT=logical(GT)&imerode(logical(GT),s);I%distancetonearestboundarypointDist_GT=bwdist(B

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論