版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、實驗二 用身高和/或體重數(shù)據(jù)進行性別分類姓名:學(xué)號:班級:姓名:學(xué)號:班級:一、實驗?zāi)康暮鸵螅ㄒ唬┘由顚Ψ菂?shù)估計的認識,和對它與參數(shù)估計在適用情況、估計結(jié)果方面的異同的理解。(二)掌握直接設(shè)計線性分類器的方法,并與基于概率密度估計的貝葉斯分類器進行比較。(三)掌握留一法估計錯誤率的方法。二、實驗內(nèi)容(一)在第一次實驗中,挑選一次用身高(身高與體重)作為特征,并且先驗概率分別為男生0.5,女生0.5的情況。改用Parzen窗法或者kn近鄰法估計概率密度函數(shù),得出貝葉斯分類器,對測試樣本進行測試,比較與參數(shù)估計(最大似然法)基礎(chǔ)上得到的分類器和分類性能的差別。(二)同時采用身高和體重數(shù)據(jù)作為特
2、征,用Fisher線性判別方法求分類器,將該分類器應(yīng)用到訓(xùn)練和測試樣本,考察訓(xùn)練和測試錯誤情況。將訓(xùn)練樣本和求得的決策邊界畫到圖上,同時把以往用Bayes方法求得的分類器也畫到圖上,比較結(jié)果的異同。(三)選擇上述Bayes分類器和Fisher分類器,用留一法在訓(xùn)練集上估計錯誤率,與在測試集上得到的錯誤率進行比較。三、原理簡述及程序框圖(一)挑選身高(身高與體重)為特征,選擇先驗概率為男生0.5女生0.5的一組1.用Parzen窗法來求概率密度函數(shù),再用貝葉斯分類器進行分類。Parzen窗法,窗函數(shù)為,我們選用正態(tài)函數(shù)窗,窗寬為(h是調(diào)節(jié)的參量,N是樣本個數(shù)) ,(d表示維度)。因為區(qū)域是一維的
3、,所以體積為。Parzen公式為。因此,女生的條件概率密度為 男生的條件概率密度為根據(jù)貝葉斯決策規(guī)則知:如果,則,否則,。2.流程圖如下:選擇窗函數(shù)及窗寬求出樣本類別為男或女的類條件概率密度得出決策規(guī)則并對測試樣本進行判別確定特征及先驗概率(二)要求是同時采用身高和體重數(shù)據(jù)作為特征,用Fisher線性判別方法求分類器,將該分類器應(yīng)用到訓(xùn)練和測試樣本,考察訓(xùn)練和測試錯誤情況。將訓(xùn)練樣本和求得的決策邊界畫到圖上,同時把以往用Bayes方法求得的分類器也畫到圖上,比較結(jié)果的異同。1.取男生和女生的先驗概率分別為0.5,0.5。在設(shè)計貝葉斯分類器時,首先求各類樣本均值向量,然后求各個樣本的類內(nèi)離散度矩
4、陣,再求出樣本的總類內(nèi)離散矩陣,根據(jù)公式求出把二維X空間投影到一維Y空間的最好的投影方向。再求出一維Y空間中各類樣本均值,其中。再根據(jù)決策規(guī)則,當(dāng)時,當(dāng)時,這樣就可判斷出x屬于什么類別了。本次實驗為二維,所以分界閾值我們用如下方法得到:。2.將測試樣本中的值代入,求出一維空間投影y,并將其與分界閾值來進行比較來分類。3.根據(jù)課本對Fisher線性判別法的介紹,得到的算法流程圖如下: 求各類樣本均值向量求類內(nèi)離散度矩陣用公式求最好的變換向量二維空間向一維y空間投影一維空間樣本均值求取閾值決策判斷計算各類樣本的錯誤率(三)選擇上述或以前實驗的任意一種方法,用留一法在訓(xùn)練集上估計錯誤率,并與在測試集
5、上得到的錯誤率進行比較。1.用 Fisher線性判別法,并用留一法來估計它在訓(xùn)練集上的錯誤率,并將結(jié)果與Fisher線性判別法對測試集進行判別時得到的錯誤率進行比較。2.具體流程圖如下:導(dǎo)入兩個訓(xùn)練樣本集依次將女生樣本集中的每一個樣本當(dāng)做測試集,余下的所有樣本做訓(xùn)練集用Fisher法判斷被選出來的樣本,若判斷錯誤,計數(shù)一次將男生按照以上方法再進行判別,計數(shù),得到錯誤率再將以上方法用以測試集,得到錯誤率四、實驗結(jié)果及分析總結(jié)問題(一)實驗結(jié)果及分析以下h為窗寬,若h過大,使估計量變成N個寬度較大且函數(shù)值變化緩慢的函數(shù)的疊加,從而使它是的一個平均的估計,使估計的分辨率降低;反之,若h很小,趨近于0
6、,則使就成了N個以樣本為中心的尖峰函數(shù)的疊加,使估計的統(tǒng)計變動很大。因此,h的選取,對估計量有很大影響。經(jīng)過多次測試,我們表1選擇h=4,表2選擇h=7.另外,先驗概率的改變通過手動輸入改變。訓(xùn)練樣本為FEMALE.txt MALE.txt,測試樣本為test2.txt表1.以身高為特征的各估計方法的判別錯誤率(h=4) 女生先驗概率男生先驗概率男生錯誤個數(shù)女生錯誤個數(shù)總錯誤個數(shù)男生錯誤率女生錯誤率總錯誤率Parzen窗法0.250.752283016%8.8%10%0.50.53443813.6%8%12.67%0.750.258028232%4%27.33%最大似然Bayes0.250.7
7、5 206.667%0.50.5279%0.750.256020%訓(xùn)練樣本為FEMALE.txt MALE.txt,測試樣本為test2.txt、表2.以身高與體重作為特征的各估計方法的判別錯誤率(h=7) 女生先驗概率男生先驗概率男生錯誤個數(shù)女生錯誤個數(shù)總錯誤個數(shù)男生錯誤率女生錯誤率總錯誤率Parzen窗法估計0.250.757222914%8.8%9.67%0.50.53824015.2%4%13.33%0.750.252464818.4%4%16%最大似然估計0.250.7586143.2%12%4.67%0.50.52933211.6%6%10.67%0.750.25916023.6%
8、2%20%分析:由表中數(shù)據(jù)可知,最大似然估計這種參數(shù)估計方法和Parzen窗這種非參數(shù)估計方法用來進行分類時,最大似然估計判別的錯誤率低。問題(二)實驗結(jié)果及分析1.用Fisher線性判別方法求分類器,訓(xùn)練樣本為MALE.txt,FAMALE.txt,將分類器分別應(yīng)用到訓(xùn)練樣本和測試樣本(test2.txt)上,比較其錯誤率表3.用Fisher線性判別方法的錯誤率判別對象男生錯誤個數(shù)女生錯誤個數(shù)總錯誤個數(shù)男生錯誤率女生錯誤率總錯誤率測試樣本2622910.8%4%9.6%訓(xùn)練樣本831216%7%11%分析:由表中數(shù)據(jù)可以看出,用訓(xùn)練樣本得到的分類器在對測試樣本進行測試時錯誤率較低,測試結(jié)果較
9、好,但測試訓(xùn)練樣本時,其錯誤率較高,測試結(jié)果不好。2.將訓(xùn)練樣本和求得的決策邊界畫到圖上(1)男生女生先驗概為0.5,0.5;(曲線代表最大似然決策邊界,直線代表fisher決策邊界,紅點和綠點分別表示訓(xùn)練樣本中女生和男生)圖1決策樣本和決策邊界分析:從圖中可以看出,直線判錯的曲線判錯的個數(shù)少,我們可以比較得出對訓(xùn)練樣本Fisher判別比最大似然判別效果更好。問題(三)實驗結(jié)果及分析留一法測試結(jié)果如下:表4.留一法錯誤率判別對象男生錯誤個數(shù)女生錯誤個數(shù)錯誤率測試樣本81328%訓(xùn)練樣本8412%分析:由表中可以直接看出,用留一法在訓(xùn)練樣本集上估計錯誤率時小于它在測試樣本集上估計的錯誤率,此外留
10、一法在測試樣本集上女生錯誤個數(shù)遠低于男生錯誤個數(shù)。五、體會本次實驗,我們用了接近三天的時間來完成。首先,我們了解了題目要求,在確保對題目完全理解的基礎(chǔ)上,開始一步一步分析,求解。對每個小題,及其每一問,我們都經(jīng)過查書,查資料,編代碼幾個步驟,仔細分析每一步算法,得出流程圖。經(jīng)過第一次作業(yè)的編程,本次編程我們覺得輕松了很多,但還會出現(xiàn)一些細節(jié)上的錯誤,不過,這些在我們經(jīng)過不斷的調(diào)試之后問題都被發(fā)現(xiàn)并解決??傮w而言,本次試驗,讓我們對Parzen窗法求類條件概率密度,以及Fisher線性判別法都有了更大的了解。六、附錄Matlab程序源代碼:%特征是身高,先驗概率為0.5、0.5時用Parzen窗
11、法,貝葉斯分類器。clc;clear all;FH FW=textread(FEMALE.txt,%f%f);MH MW=textread(MALE.txt,%f%f);FA=FH FW;MA=MH MW;N1=max(size(FA);h1=4;hn1=h1/(sqrt(N1);VN1=h1/(sqrt(N1);N2=max(size(MA);h2=4;hn2=h2/(sqrt(N2);VN2=h2/(sqrt(N2);tH tW=textread(test2.txt,%f%f%*s);X=tH tW;M N=size(X);s=zeros(M,1);A=X(:,1) X(:,2) s;er
12、ror=0;errorgirl=0;errorboy=0;errorrate=0;errorgirlrate=0;errorboyrate=0;girl=0;boy=0;bad=0;for k=1:M %測試集 x=A(k); p=0.5;%p為屬于女生的先驗概率,則1-p為男生的先驗概率 for i=1:N1 pp(i)=1/sqrt(2*pi)*exp(-0.5*(abs(x-FA(i)2/(hn12);%pp(i)是窗函數(shù) end p1=sum(1/VN1*pp); y1=1/N1*p1;%是女生的條件概率密度函數(shù) for j=1:N2 qq(j)=1/sqrt(2*pi)*exp(-0
13、.5*(abs(x-MA(j)2/(hn22); end q1=sum(1/VN2*qq); y2=1/N2*q1;%男生的概率密度函數(shù),即其條件概率 g=p*y1-(1-p)*y2;%g為判別函數(shù) if g0 if k=50 s(k,1)=0;%判為女生 girl=girl+1; else errorboy=errorboy+1; end elseif g0 if k0 if k=50 s(k,1)=0;%判為女生 girl=girl+1; else errorboy=errorboy+1; end elseif g0 if ky0 errorgirl=errorgirl+1; else i
14、f y(k)y0 boy=boy+1; else if y(k)y0 errorboy=errorboy+1; else bad=bad+1; end endenderrorgirlerrorboybadgirl=errorboy+girlboy=boy+errorgirlerror=errorgirl+errorboyerrorgirlrate=errorgirl/50errorboyrate=errorboy/250errorrate=error/l3%畫圖filename,pathname,filterindex = uigetfile(MALE.txt, 請讀入男生訓(xùn)練集);fileA
15、ddrs = pathname,filename;A1 A2=textread(fileAddrs,%f%f);filename,pathname,filterindex = uigetfile(FEMALE.txt, 請讀入女生訓(xùn)練集);fileAddrs = pathname,filename;B1 B2=textread(fileAddrs,%f%f);AA=A1 A2;BB=B1 B2;A=AA;B=BB;k1,l1=size(A);k2,l2=size(B);w,y0=fisher(AA,BB);for i=1:l1 x=A(1,i); y=A(2,i);%x是身高,y是體重 plo
16、t(x,y,R.); hold onendfor i=1:l2 x=B(1,i); y=B(2,i); plot(x,y,G.); hold onenda1=min(A(1,:);%男生身高最小值a2=max(A(1,:);%男生身高最大值b1=min(B(1,:);%女生身高最小值b2=max(B(1,:);%女生身高最大值a3=min(A(2,:);%男生體重最小值a4=max(A(2,:);%男生體重最大值b3=min(B(2,:);%女生體重最小值b4=max(B(2,:);%女生體重最大值if a1b2 b=a2;else b=b2;%b是所有人中身高最大值endif a3b4 d=
17、a4;else d=b4;%d為所有人中體重最大值endx=a:0.01:b;y=(y0-x*w(1,1)/w(2,1);plot(x,y,B);hold on;%身高體重相關(guān),判別測試樣本%自行輸入先驗概率P1=0.5;P2=0.5;FA=A;MA=B;a=cov(FA)*(length(FA)-1)/length(FA);b=cov(MA)*(length(MA)-1)/length(MA);W1=-1/2*inv(a);W2=-1/2*inv(b);Ave1=(sum(FA)/length(FA);Ave2=(sum(MA)/length(MA);w1=inv(a)*Ave1;w2=in
18、v(b)*Ave2;w10=-1/2*Ave1*inv(a)*Ave1-1/2*log(det(a)+log(P1);w20=-1/2*Ave2*inv(b)*Ave2-1/2*log(det(b)+log(P2); syms x ; syms y ; h=x y; h1=h*W1*h+w1*h+w10; h2=h*W2*h+w2*h+w20 ; h=h1-h2; ezplot(h,130,200,30,100)%功能:應(yīng)用Fisher準則判斷一個身高體重二維數(shù)據(jù)的性別vector=x;y;yy=(w.)*vector;if yyy0 value=2;%表示樣本是男生else value=1;
19、%表示樣本是女生end%功能:使用留一法求訓(xùn)練樣本錯誤率A1 A2=textread(MALE.txt,%f%f);B1 B2=textread(FEMALE.txt,%f%f);AA=A1 A2;BB=B1 B2;A=AA;B=BB;m1=2;m2=2;n1=50;n2=50;tempA=zeros(m1,n1-1);count=0;for i=1:n1 for j=1:(i-1) tempA(:,j)=A(:,j); end for j=(i+1):n1 tempA(:,j-1)=A(:,j); end w,y0=fisher(tempA.),BB); flag=classify_CH(A(1,i),A(2,i),w,y0); if flag=1 count=count+1; endendtempB=zeros(m2,n2-1);for i=1:n2 for j=1:(i-1) tempB(:,j)=B(:,j); end for j=(i+1):n2 tempB(:,j-1)=B(:,j); end w,y0=fisher(AA,(tempB.); flag=classify_CH(B(1,i),B(2,i),w,y0); if flag=2 count=count+1; endenderr
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 會議檔案管理與歸檔制度
- 商城小程序庫存管理:功能全的平臺
- 2026年首都師大附中教育集團招聘備考題庫及答案詳解參考
- 2026年石城縣文化旅游發(fā)展集團有限公司下屬子公司經(jīng)理(職業(yè)經(jīng)理人)招聘備考題庫及答案詳解參考
- 中學(xué)學(xué)生社團活動總結(jié)與評估制度
- 2026年河?xùn)|區(qū)婦幼保健計劃生育服務(wù)中心招聘派遣制工作人員備考題庫及完整答案詳解一套
- 2026年武漢市第三十二中學(xué)招聘初中教師備考題庫及一套答案詳解
- 2026年長樂區(qū)教師進修學(xué)校公開遴選教研員及財務(wù)人員備考題庫及1套完整答案詳解
- 企業(yè)員工培訓(xùn)與職業(yè)發(fā)展目標(biāo)制度
- 2026年數(shù)字版權(quán)授權(quán)合作協(xié)議
- GB/T 1095-2003平鍵鍵槽的剖面尺寸
- 小學(xué)二年級數(shù)學(xué)寒假作業(yè)
- 《凝聚態(tài)物理學(xué)新論》配套教學(xué)課件
- 《發(fā)明專利申請書》word版
- 2023年(中考)初中英語知識歸納總結(jié)(二)(精華打印版)
- 學(xué)術(shù)論文的撰寫方法與規(guī)范課件
- 【高等數(shù)學(xué)練習(xí)題】蘭州職業(yè)技術(shù)學(xué)院專升本自考真題匯總(附答案解析)
- 學(xué)術(shù)道德學(xué)術(shù)規(guī)范(答案)
- 學(xué)習(xí)《政府采購貨物和服務(wù)招標(biāo)投標(biāo)管理辦法》(財政部令第87號)
- 初中英語新課程標(biāo)準及教材分析-完整版PPT
- 高考作文與閱讀-朱以撒:挺拔之姿(附精彩點評與文章珠璣)
評論
0/150
提交評論