版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、第一章無監(jiān)督學習方法:聚類分析、基本概念相似性度量和基于集群的探索的集群搜尋演算法系統(tǒng)集群分解集群動態(tài)集群,1.1基本概念,分類和集群的差異分類:使用已知類別中的示例培訓集組織分類器(教練學習)集群(集群):將分類器(集群)組織到不知道字典示例的類別中。相似性和距離簇相似性:模式之間有相似性。這既表現(xiàn)在實物的突出特征上,又表現(xiàn)在抽象后特征空間內(nèi)的特征矢量分布狀態(tài)上。聚類分析定義:對于未顯示類別的模式樣本集,根據(jù)樣本之間的相似性分類,不相似的類別分類為其他類別,這些分類也稱為聚類分析分類或無監(jiān)督分類。分類依據(jù):樣例的要素矢量對應于要素空間中的一個點,整個模式樣例集合的要素矢量可以看作要素空間中的
2、一個點,點之間的距離函數(shù)可以用作陣列相似性的測量,并且可以將其用作陣列的分類基礎。聚類分析是徐璐根據(jù)不同對象之間的差異,根據(jù)距離函數(shù)的規(guī)律對模式進行分類的。距離函數(shù)的定義特征向量的特性,聚類分析的有效性:聚類分析方法牙齒是否有效與模式特征向量的分布形式有很大關系。向量點的分布是一組,同一采樣組密集(距離近),徐璐其他采樣組較遠,則很容易聚集。樣本組的矢量分布聚集在一起,徐璐其他組的樣本混合,很難分類。(威廉莎士比亞,模板,矢量,矢量,矢量,矢量,矢量,矢量,矢量,矢量,矢量,矢量)聚類分析特定對象的關鍵是選擇合適的要素。特征選擇好,矢量分布容易區(qū)分,選擇不好,矢量分布難分離。要素空間維要素信息
3、冗馀:在對象分析和要素提取中,經(jīng)常提取重復要素以增加對象識別信息的數(shù)量。高維特征空間分析的復雜性:特征空間維度越高,聚類分析復雜性越高。高維特征空間降維方法:相關分析:特性矢量的相關矩陣r,分析相關性主成分分析:基于正交變換的獨立成分分析:獨立性基礎,特征表示數(shù)值表示:對于實際問題,為了便于電腦分析和計算,特征必須量化。量化方法取決于分析對象。連續(xù)量的量化:僅需要量化值(例如長度、重量等)的情況下,作為連續(xù)量測量的特性。等級量的量化:測量分析對象等級的數(shù)量,并以學生成績的優(yōu)秀、良好、中、差為1、2、3、4等的量化形式進行量化。定性量的量化:定性指標,沒有數(shù)量關系,沒有順序要求。例如,性別特征:
4、男性和女性可以用0和1來表示。兩種茄子類型的圖案分類的例子,以黑白圍棋選擇顏色為特征分類,白色分為“1”,黑色分為“0”,容易分類。以大小為特征分類,白瓷和黑子的特征相同,不能分類。1.2相似性度量和聚類準則,1,相似性度量歐氏距離:特性空間中兩個模式樣本的Euclid距離,模式X和Z之間的距離越小,相似性越大。x和Z的尺寸必須一致地消除尺寸不匹配對群集的影響。要素數(shù)據(jù)的規(guī)格化(標準化,也稱為規(guī)格化),馬爾可夫距離:表相模式矢量X和平均矢量M之間的距離平方,C通過將協(xié)方差矩陣作為陣列的整個協(xié)方差矩陣引入,從而消除了樣例之間的關聯(lián)性。如果要素矢量在歐洲距離處的分量值很大,則可能會遮擋值較小的項目
5、的作用。這是歐式距離的不足。采用馬爾可夫距離時,可以屏蔽牙齒點。由于關聯(lián)性強的分量,協(xié)方差矩陣C的對角線的對應值更大。再把牙齒項目倒過來,減少其影響。協(xié)方差為對角矩陣時,特征組件徐璐無關。如果協(xié)方差是單位矩陣,則馬爾科夫距離和歐氏距離相等。其中是示例矢量的k分量。M2到明氏距離是歐氏距離。M1表示鄰居距離:廣義明氏距離,角度相似性函數(shù):陣列向量X和Z之間角度的馀弦,反映幾何圖形的相似性。旋轉(zhuǎn)坐標系或平移尺寸時,角度馀弦測量保持不變(對于變位和線性變換不成立)。第二,集群標準的確定,啟發(fā)式直觀、經(jīng)驗地選擇實際問題的相似性度量,確定牙齒相似性度量的閾值,然后選擇特定的訓練樣本,測試度量和閾值的可靠
6、性。最后,根據(jù)最近的鄰居規(guī)則指定特定模式示例屬于群集類別。例如:對于歐氏距離,反映了樣本之間的親近性,但是在將樣本分成不同類別時,距離測量的閾值基準也必須指定為集群的判別基準?;谌杭暮瘮?shù)方法群集是結合示例以最大限度地劃分類別的方法,因此群集標準必須是反映類別間相似性(或可分離性)的函數(shù)。同時,由于類由示例組成,因此類的可分離性和示例之間的差異是直接相關的。因此,集群基準函數(shù)J表示模式樣本集X和模式類別Sj,j=1,2,C的函數(shù),即J表示屬于C個集群類別的所有模式樣本和該類別模式的平均值之間的誤差平方和。J值取決于群集格式,群集的目的是使J值非常小。由此可見,聚類分析轉(zhuǎn)換變成了尋找基準函數(shù)極
7、值的最優(yōu)化問題。牙齒集群方法通常稱為最小方差分割,適用于各類型樣本密集、數(shù)量相似、類間樣本明顯分離(圖例解釋)的情況下確定類內(nèi)距離和類間距離的問題。基于群集的函數(shù)有多種茄子不同的格式。1.3根據(jù)臨時群集搜尋演算法,1,最近規(guī)則的簡單探索法,提供N個要分類的模式樣本。按距離閾值T算法群集中心的進程:使用Step 1:隨機示例Xi作為群集的初始值。例如,z1=x1,D21T,新群集中心Z2=,步驟2:計算D31T和D32T(如果群集中心z1和Z2已存在)確定新群集中心Z3=X3。Step I:討論牙齒方法的優(yōu)點。計算很簡單。如果已知模式樣本的集合分布的字典知識,則可以得到更好的聚類結果。實際上,很
8、難獲得高維模式樣本的準確字典知識,因此可以徐璐使用不同的閾值和起始點進行測試和驗證結果。牙齒方法在很大程度上依賴于第一集群中心的位置(初始化問題)分類模式樣本排序順序(集群樣本選擇問題)距離閾值T的大小(確定標準問題)樣本分布的幾何特性(樣本的固有特性問題)、最大最小距離算法基本思想。根據(jù)實際問題選擇距離函數(shù),類之間的距離導航的核心是最大類之間的距離,最小類內(nèi)的距離。算法過程說明:首先,根據(jù)距離最小的方法預先選擇集群中心,根據(jù)最近的規(guī)則將模式分類到集群中心(詳細步驟見蔡元龍版模式識別. 22)。算法性能分析:增加了算法復雜性,在群集中心選擇過程中消耗了更多資源。1.4系統(tǒng)集群,系統(tǒng)集群:首先將
9、每個樣本作為一個類,然后根據(jù)它們之間的相似性或接近性對類別進行多點聚集,直到獲得適當?shù)姆诸愐?。相似性,接近性用距離表示。收斂的核心是在每次迭代中形成的簇間和與樣本的距離計算,不同的距離函數(shù)可以得到不同的結果。兩種茄子類型的距離計算依據(jù):1。最短距離:兩個類別中最近的兩個采樣之間的距離,2。最大距離:兩個類別中最遠的兩個采樣之間的距離。3.中間距離:最短距離和最長距離都是單向的,所以有時使用中間距離。類1和類23之間的最短距離為d12,最大距離為d13,類23的長度為d23,中間距離為:向上一般化:4。重心距離:平均之間的距離5。類別平均距離:兩個類別中每個元素之間距離的平方相加后的平均值,6
10、。將I類的偏差平方之和定義為:偏差平方和增量:樣例被劃分為p,q,p,q與R類組合時,定義偏差平方增量:算法流程說明:步驟1:初始距離矩陣的計算D(0)說明:(1);(2)距離矩陣,對稱矩陣。對角線上的元值表示同類之間的距離,即0。步驟2:聚合第n次迭代的距離矩陣D(n),說明:選擇距離矩陣中的最小距離,如果存在相同的,則可以選擇其中之一。忽略對角線的元素。Step3:根據(jù)第n個聚合結果計算新合并類之間的距離矩陣D(n 1)說明:合并類的距離計算必須遵循距離的計算規(guī)則。例如,距離反映兩種茄子類型的重心距離,它是合并后仍然需要反映的重心距離。步驟4:確定收斂(設置距離閾值D)說明:確定算法收斂條
11、件判斷標準。示例1:(簡單的一維情況)1,將所有采樣設置為6茄子類別,2,距離矩陣D(0),3,查找最小元素:4,1,3合并7=(1,3) 4,6合并否則停止,如下圖所示。3,查找最小元素:4,8,5,2合并,9=(2,5,4,6),1.5分解群集,分解群集:將所有采樣視為一種,并按相似性、接近性分解。目標函數(shù)兩種茄子類型的平均方差,N:總樣本數(shù),類1樣本數(shù),類2樣本數(shù),簇框分解,示例2:已知的21個樣本,每個樣本的兩個茄子特性,原始數(shù)據(jù)矩陣如下表所示:解釋:第一分類時計算所有樣本,每個當時的E值,1(約翰f肯尼迪,美國電視電視劇)繼續(xù)計算,指定的E值最大。E(1)=56.6,第二次,第三次迭
12、代繼續(xù)計算E(2),E(3),E值1 56.6 2 79.16 3 90.90 4 102.61 5 120.11 6 137.15 7 154.10 8,因此分為兩個茄子類別每次分類后要重新計算的值。您可以使用以下迭代公式:1.6動態(tài)集群同時考慮系統(tǒng)集群和集群分解,1,動態(tài)集群的方法首先選擇距離作為樣本之間的相似性度量。確定聚類結果評價的基準函數(shù);給出了特定的初始分類,并利用迭代方法找到了獲得基準函數(shù)極值的最佳聚類結果。動態(tài)集群塊圖表,第二,表示點(種子點)的選擇方法:代表點是初始分類的集群中心數(shù)K的經(jīng)驗代表點,根據(jù)問題的性質(zhì)、數(shù)據(jù)分布直觀地表示更合理的代表點K。隨機將所有樣例劃分為K類別,
13、計算每種類型的重心,并用作每種類型的代表點。使用前k個采樣點作為代表點。密度大?。哼x擇每個采樣作為球體中心,D作為半徑作為球體。落在球內(nèi)部的采樣數(shù)稱為點的密度,按密度大小排序。首先,選擇密度最大的點作為第一個代表點,即第一個群集中心。再次考慮第二密度點,如果第二密度點與第一個代表點的距離大于D1(人為規(guī)定的正數(shù)),則第二密度點將用作第二個代表點。否則不能用作代表點,因此可以根據(jù)密度大小考察。選定代表點之間的距離全部大于D1。D1牙齒太小意味著點太多,D1牙齒太大,點太小。通常,選擇d12d。代表點內(nèi)密度的一般要求大于t。T0是規(guī)定的正數(shù)。3,在選擇初始分類和曹征代表點放置后,代表點是集群中心,
14、計算從其他樣本到集群中心的距離,將所有樣本歸屬最近的集群中心點以形成初始分類,重新計算每個集群中心稱為批處理法。選擇代表點后,依次計算其他樣品的分類,計算第一個樣品后,將其分類為最近的類別,形成新的分類。計算新群集中心,并通過計算從第二個示例到新群集中心的距離對第二個示例進行分類。也就是說,每個示例的分類將更改群集中心。牙齒方法一個接一個地稱為處理方法。直接使用樣本進行初始分類,首先確定距離D,將第一個樣本用作第一類集群中心,調(diào)查第二個樣本,如果第二個樣本小于第一個集群中心的D距離,則將第二個樣本分類為第一類,否則,將第二個樣本作為第二類集群中心,考慮其他樣本,并根據(jù)從樣本到集群中心的距離是否大于D或小于D來確定是否進行分割。最佳初始分類:如圖所示,隨著初始分類K的增加,指導方針函數(shù)下降迅速,通過拐點A后下降速度減慢。拐點A是最好的初始分類。4,K-平均算法:批處理任務方法示例:已知20個示例,每個示例具有兩個特征,數(shù)據(jù)分布如下圖所示。第一步:K=2,選擇初始群集中心為,第三步:根據(jù)兩個新拆分的茄子類別設置新群集中心,第4步:重新計算到旋轉(zhuǎn)第2步:z1(2)、z2(2)的距離,將其分類為最近的群集中心,將其分為兩個茄子類別,然后(3)K值和初始集群中心對分類結果影響
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司內(nèi)部審計制度
- 外研版三起四年級下冊Module 9單詞講解課件1
- 產(chǎn)品采收或銷售記錄制度
- 分子動理論知識
- 2025-2030細胞培養(yǎng)肉規(guī)?;a(chǎn)成本控制與消費者接受度調(diào)研報告
- 2025-2030細胞培養(yǎng)肉成本下降關鍵技術路徑
- 2025-2030紙張制造行業(yè)市場分析環(huán)保再生產(chǎn)業(yè)投資爭先分析
- 2025-2030約旦汽車零部件行業(yè)市場供需分析及投資評估規(guī)劃分析研究報告
- 2025-2030系統(tǒng)集成服務提供商需求供給現(xiàn)狀監(jiān)測及客戶維護方案
- 2025-2030突尼斯現(xiàn)代農(nóng)業(yè)園建設項目運營管理研究報告
- 無人機吊運培訓課件
- 學堂在線 雨課堂 學堂云 積極心理學(上)厚德載物篇 章節(jié)測試答案
- T∕CECS 21-2024 超聲法檢測混凝土缺陷技術規(guī)程
- (正式版)SHT 3551-2024 石油化工儀表工程施工及驗收規(guī)范
- 病原生物與免疫學試題(含答案)
- 尼帕病毒專題知識宣講
- 液化石油氣重大危險源事故專項應急救援預案
- 現(xiàn)代企業(yè)管理制度
- GB/T 24312-2022水泥刨花板
- YS/T 3014-2013載金炭
- YC/T 299-2016煙草加工過程害蟲防治技術規(guī)范
評論
0/150
提交評論