版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第6章分類預(yù)測6.3k-近鄰分類K-近鄰分類K-近鄰(K-NearestNeighbor,KNN)分類算法,最初是由Cover和Hart于1968年提出,是一個理論上比較成熟的方法。算法原理簡單直觀:未知樣本的類別,由特征空間中K個最相似(即特征空間中最鄰近)的樣本的大多數(shù)類別來確定。是一種基于實例的懶惰學(xué)習(xí)方法。K-近鄰分類K-近鄰分類算法的處理過程為:對于待預(yù)測的未分類樣本,計算其與數(shù)據(jù)集中每個樣本之間的相似度;篩選出最近鄰的K個數(shù)據(jù)樣本;根據(jù)K個最近鄰數(shù)據(jù)樣本的類別,采用多數(shù)投票機(jī)制確定待預(yù)測樣本的類別。K-近鄰分類這里有幾個問題需要詳細(xì)討論:以何種指標(biāo)來衡量數(shù)據(jù)樣本之間的相似度;K值如何確定;采用多數(shù)投票機(jī)制判定樣本類別時如何設(shè)計具體算法。相似度度量1.距離(1)歐幾里得距離(EuclideanDistance)(2)曼哈頓距離(ManhattanDistance)(3)明可夫斯基距離(MinkowskiDistance)(4)馬氏距離(Mahalanobisdistance)(5)漢明距離(HammingDistance)2.相似系數(shù)(1)余弦相似度(2)相關(guān)系數(shù)(3)Jaccard相似系數(shù)(JaccardSimilarityCoefficient)“距離”度量定義距離函數(shù),基于屬性值進(jìn)行計算非負(fù)性對于任意x,y,兩者之間的距離d(x,y)≥0,當(dāng)x
=y時,等號成立。對稱性對于任意x,y,兩者之間的距離d(x,y)=d(y,x),即距離是標(biāo)量而不是向量。三角不等式對于任意x,y,z,有d(x,y)
≤d(x,z)+d(z,y)。即對象x到對象y的距離小于等于途經(jīng)其他任何對象z的距離之和。也稱為相似性“距離”度量歐幾里得距離EuclideanDistance對于n維數(shù)據(jù)
X={x1,x2,…,xn},Y={y1,y2,…,yn},其歐幾里得距離為在二維空間中的歐幾里得距離就是平面中兩點之間的實際距離。在三維空間中的歐幾里得距離就是立體(三維)空間中兩點之間的實際距離?!熬嚯x”度量曼哈頓距離對于n維數(shù)據(jù)
X={x1,x2,…,xn},Y={y1,y2,…,yn},其曼哈頓距離為(6,6)(2,2)歐幾里得距離=5.66曼哈頓距離=(6-2)+(6-2)=844xy“距離”度量明可夫斯基距離MinkowskiDistance對于n維數(shù)據(jù)
X={x1,x2,…,xn},Y={y1,y2,…,yn},其明可夫斯基距離為相似系數(shù)余弦相似度對于n維數(shù)據(jù)
X={x1,x2,…,xn},Y={y1,y2,…,yn},即對于x,y兩個向量,有:cos(x,y)=(x?y)/‖x‖?‖y‖
余弦相似度【例如】分析以下兩個句子的相似性:
句子A:我喜歡看電視,不喜歡看電影。句子B:我不喜歡看電視,也不喜歡看電影。1)可以將兩個句子進(jìn)行分詞:句子A:我/喜歡/看電視/不/喜歡/看/電影句子B:我/不/喜歡/看/電視/也/不/喜歡/看/電影2)對所出現(xiàn)的各個詞匯(我
喜歡
看
電視
電影
不
也),計算其詞頻:句子A:我1,喜歡2,看2,電視1,電影1,不1,也0句子B:我1,喜歡2,看2,電視1,電影1,不2,也1余弦相似度【例如】分析以下兩個句子的相似性:
句子A:我喜歡看電視,不喜歡看電影。句子B:我不喜歡看電視,也不喜歡看電影。3)將詞頻轉(zhuǎn)換為向量:句子A:x=(1221110)句子B:y=(1221121)4)計算其余弦相似度,有:余弦相似度由此,我們就得到了“找出相似文章”的一種算法:使用TF-IDF算法,找出兩篇文章的關(guān)鍵詞;每篇文章各取出若干個關(guān)鍵詞(比如20個),合并成一個集合,計算每篇文章對于這個集合中的詞的詞頻(為了避免文章長度的差異,可以使用相對詞頻);生成兩篇文章各自的詞頻向量;計算兩個向量的余弦相似度,值越大就表示越相似。相似系數(shù)余弦相似度相關(guān)系數(shù)反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計指標(biāo)相關(guān)系數(shù)按積差的方法計算,以兩變量與各自平均值的離差為基礎(chǔ),通過兩個離差相乘來反映兩變量之間相關(guān)程度。x與y之間的協(xié)方差x,y的均方差相似系數(shù)余弦相似度相關(guān)系數(shù)Jaccard相似系數(shù)(JaccardSimilarityCoefficient)用于比較有限樣本集之間的相似性與差異性A、B的相似性:Jaccard距離:余弦相似度TF-IDF算法TF-IDF通過統(tǒng)計方法,對字詞對于語料庫中的一份文件或文件集的重要程度進(jìn)行評估。字詞的重要性隨其在文件中出現(xiàn)的次數(shù)正比增加,隨其在語料庫中出現(xiàn)的頻率成反比下降,即如果某字在一篇文章中出現(xiàn)的頻率TF高,而在其他文章中很少出現(xiàn),則認(rèn)為該字詞具有很好的類別區(qū)分能力,適合用于分類。這里TF為詞頻(TermFrequency),表示詞條在文檔d中出現(xiàn)的頻率;IDF為逆向文件頻率(InverseDocumentFrequency),表示包含詞條的文檔的數(shù)量,值越大,表明詞條具有很好的類別區(qū)分能力。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評級。除了TF-IDF以外,因特網(wǎng)上的搜索引擎還會使用基于鏈接分析的評級方法,以確定文件在搜尋結(jié)果中出現(xiàn)的順序。K-近鄰分類這里有幾個問題需要詳細(xì)討論:以何種指標(biāo)來衡量數(shù)據(jù)樣本之間的相似度;K值如何確定;采用多數(shù)投票機(jī)制判定樣本類別時如何設(shè)計具體算法。K值如何確定K值是K-近鄰算法的一個超參數(shù),表示選擇多少個最近鄰的樣本來進(jìn)行預(yù)測。K值的選擇對算法的性能有很大影響,需要根據(jù)具體的應(yīng)用問題和數(shù)據(jù)的特征進(jìn)行設(shè)置和調(diào)整。K值如何確定K值如何確定當(dāng)K值設(shè)置偏小時算法會更多地關(guān)注局部的細(xì)節(jié),精確度較高,同時對訓(xùn)練數(shù)據(jù)中的噪聲和異常值較為敏感,增加了過擬合風(fēng)險,泛化性降低,導(dǎo)致分類結(jié)果不穩(wěn)定。當(dāng)K值設(shè)置偏大時算法更多地關(guān)注整體的趨勢,對局部噪聲和異常值的敏感度降低,但可能使模型過于平滑,忽略了數(shù)據(jù)中的某些重要細(xì)節(jié),導(dǎo)致分類結(jié)果過于籠統(tǒng)。K值的增加通常意味著計算復(fù)雜度的提高。在實際應(yīng)用中通過交叉驗證等方法來選擇合適的K值除了K值外,還可以考慮調(diào)整其他參數(shù)(如相似度度量方式、特征權(quán)重等)來進(jìn)一步優(yōu)化算法的性能。K-近鄰分類這里有幾個問題需要詳細(xì)討論:以何種指標(biāo)來衡量數(shù)據(jù)樣本之間的相似度;K值如何確定;采用多數(shù)投票機(jī)制判定樣本類別時如何設(shè)計具體算法。多數(shù)投票機(jī)制判定方法:以出現(xiàn)次數(shù)最多的樣本類別以樣本類別的平均值必要時可對類別屬性進(jìn)行編碼以鄰樣本類別加權(quán)平均值權(quán)重可以選近鄰樣本距離的倒數(shù)或與最大值的差變化:以近鄰半徑判定變化:K-近鄰回歸計算待預(yù)測樣本與K個最近鄰樣本的距離,取平均值作為預(yù)測結(jié)果數(shù)據(jù)點0數(shù)據(jù)點1變化:K-近鄰回歸計算待預(yù)測樣本與Radius半徑內(nèi)的樣本的距離,取平均值作為預(yù)測結(jié)果數(shù)據(jù)點0數(shù)據(jù)點1算法特點K-近鄰方法算法原理簡單,易于理解和實現(xiàn)算法基于實例進(jìn)行分類判別,直接利用數(shù)據(jù)集進(jìn)行預(yù)測沒有顯式的訓(xùn)練過程,能夠較為輕松地處理多分類問題算法從原理上依賴于極限定理,但在類別判別時,只與少量的相鄰樣本有關(guān),因此可以較好地處理非線性數(shù)據(jù),也能夠避免樣本的不平衡問題對于
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 喚醒護(hù)理的培訓(xùn)與教育
- 大豐市小海中學(xué)高二生物三同步課程講義第講生態(tài)系統(tǒng)的信息傳遞
- 2025年辦公自動化設(shè)備租賃合同(公司)
- 《PCB 電路板智能化專用設(shè)備運維技術(shù)規(guī)范》標(biāo)準(zhǔn)征求意見稿
- 大數(shù)據(jù)驅(qū)動的風(fēng)險管理模型
- 鼻竇炎患者的心理護(hù)理
- 金融系統(tǒng)對抗攻擊的防御策略
- 土地整治優(yōu)化
- 房顫冷凍消融治療與及進(jìn)展
- 2026 年中職康復(fù)治療技術(shù)(關(guān)節(jié)松動訓(xùn)練)試題及答案
- 學(xué)堂在線 臨床中成藥應(yīng)用 章節(jié)測試答案
- 物流協(xié)會管理辦法
- 跑步健康課件圖片
- 醫(yī)用耗材管理辦法原文
- 高州市緬茄杯數(shù)學(xué)試卷
- 傳承紅色基因鑄就黨紀(jì)之魂建黨104周年七一黨課
- 詩詞大會搶答題庫及答案
- 立式油罐知識培訓(xùn)課件
- 口腔健康科普指南
- 2025年《智能客戶服務(wù)實務(wù)》課程標(biāo)準(zhǔn)
- 公司便民雨傘管理制度
評論
0/150
提交評論