大數(shù)據(jù)應(yīng)用基礎(chǔ)聚類(lèi)算法2_第1頁(yè)
大數(shù)據(jù)應(yīng)用基礎(chǔ)聚類(lèi)算法2_第2頁(yè)
大數(shù)據(jù)應(yīng)用基礎(chǔ)聚類(lèi)算法2_第3頁(yè)
大數(shù)據(jù)應(yīng)用基礎(chǔ)聚類(lèi)算法2_第4頁(yè)
大數(shù)據(jù)應(yīng)用基礎(chǔ)聚類(lèi)算法2_第5頁(yè)
已閱讀5頁(yè),還剩22頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

聚類(lèi)分析1注意我們考核非常松盡可能全部高于80分。2一個(gè)簡(jiǎn)單的聚類(lèi)例子這是按照顏色進(jìn)行一維聚類(lèi)。實(shí)踐中,維度經(jīng)常多于一個(gè)。3基本特點(diǎn)聚類(lèi)(clustering)是指根據(jù)“物以類(lèi)聚”原理,將本身尚未歸類(lèi)的樣本根據(jù)多個(gè)維度(多個(gè)屬性)聚集成不同的組,這樣的一組數(shù)據(jù)對(duì)象的集合叫做簇或群組。怎樣聚類(lèi)算成功呢?經(jīng)過(guò)劃分后,使得:屬于同一群組的樣本之間彼此足夠相似,屬于不同群組的樣本應(yīng)該足夠不相似。4分類(lèi)與聚類(lèi)的區(qū)別分類(lèi)(Classification)有訓(xùn)練過(guò)程。分類(lèi)是事先定義好類(lèi)別,類(lèi)別數(shù)不變。分類(lèi)器需要由人工標(biāo)注的分類(lèi)訓(xùn)練數(shù)據(jù)集訓(xùn)練得到,屬于有指導(dǎo)學(xué)習(xí)范疇。而聚類(lèi)則是沒(méi)有訓(xùn)練過(guò)程。在進(jìn)行聚類(lèi)前,并不知道將要?jiǎng)澐殖蓭讉€(gè)組和什么樣的組。聚類(lèi)則沒(méi)有事先預(yù)定的類(lèi)別,類(lèi)別數(shù)不確定。聚類(lèi)不需要人工標(biāo)注和預(yù)先訓(xùn)練分類(lèi)器,類(lèi)別在聚類(lèi)過(guò)程中自動(dòng)生成。5聚類(lèi)分析的主要應(yīng)用領(lǐng)域作為獨(dú)立的工具來(lái)分析數(shù)據(jù)發(fā)現(xiàn)離群點(diǎn)為其他算法做數(shù)據(jù)預(yù)處理6聚類(lèi)分析的最典型應(yīng)用領(lǐng)域客戶(hù)分群,進(jìn)而制定差異化的營(yíng)銷(xiāo)方案

7聚類(lèi)分析的最典型應(yīng)用領(lǐng)域客戶(hù)分群,進(jìn)而制定差異化的營(yíng)銷(xiāo)方案

例子:如圖,按照收入和年齡把客戶(hù)聚類(lèi)為兩類(lèi)8聚類(lèi)的其他應(yīng)用按照血型對(duì)學(xué)生進(jìn)行分班確定婚禮客人如何排座位9離群點(diǎn)檢測(cè)離群點(diǎn)檢測(cè)和聚類(lèi)是高度相關(guān)的。聚類(lèi)是發(fā)現(xiàn)數(shù)據(jù)集中的主要群體,而離群點(diǎn)檢測(cè)則試圖識(shí)別那些顯著偏離多數(shù)實(shí)例的異常情況。離群點(diǎn)檢測(cè)可以用聚類(lèi)方法,但也可以用其它方法,例如:分類(lèi)方法。其常見(jiàn)的目的是:信用卡欺詐檢測(cè)。這需要把和正常交易明顯不同的交易識(shí)別出來(lái)。例如,盜竊卡的人的購(gòu)物地點(diǎn)和所購(gòu)商品都很不同于真正的卡主、也不同于大多數(shù)顧客。比如,其一次購(gòu)物量比卡主大得多,并且購(gòu)物地點(diǎn)遠(yuǎn)離卡主的通常的購(gòu)物地點(diǎn)。10聚類(lèi)算法的分類(lèi)類(lèi)聚類(lèi)算法主要包括:劃分方法((PartitioningMethod):包括K均值方法等等層次方法((HierarchicalMethod)基于密度的方法(Density-based)基于網(wǎng)格的方法(Grid-based)基于模型的方法(Model-based)其中,前兩種方法法最常用。11K均值算法K-means算法是無(wú)可可爭(zhēng)議的使使用最多的的算法。它是劃分方方法的一種種。它原理簡(jiǎn)單單,容易實(shí)實(shí)現(xiàn)。它適合使用用數(shù)值型屬屬性,而不不是類(lèi)別型型屬性。它的一個(gè)不不足之處是是:對(duì)于離兩個(gè)群組組的中心都都很近的點(diǎn)點(diǎn),你會(huì)不不知道該放放到哪個(gè)群群組中。這其實(shí)也也是其他一一些聚類(lèi)算算法的局限限性。12K均值算法的步驟驟K均值算法,,概括起來(lái)來(lái)有五個(gè)步步驟:設(shè)定一個(gè)數(shù)數(shù)K,表明總共共有幾個(gè)群群簇(組));從所有實(shí)例中中隨機(jī)選擇K個(gè)實(shí)例,分別代表一一個(gè)群簇的的初始中心;對(duì)剩余的每個(gè)實(shí)例,,根據(jù)其與各各個(gè)組的初始中心的距離,將它們分配到離自己最近近的一個(gè)群群簇中;然后,更新群簇中心,即:重新新計(jì)算得出出每個(gè)群簇簇的新的中中心點(diǎn);這個(gè)過(guò)程不斷重復(fù)(即:重復(fù)復(fù)第3、4步),直到每個(gè)群群簇中心不再變化,即直到所所有實(shí)例在K組分布中都都找到離自自己最近的群簇。13K均值算法——什么是中心心值14K均值算法的的步驟注意看C點(diǎn),它離上上面的群的的新的的距距離中心比比離下面那那個(gè)群的新新的中心更更近,所以以它被重新新劃分到上上面那個(gè)群群了。15K均值算法的步驟驟16K均值算法的的應(yīng)用:圖圖像壓縮群的個(gè)數(shù)越越少,意味味著圖像被被轉(zhuǎn)化成顏顏色數(shù)量很很少的圖像像了。17K均值算法的的應(yīng)用:圖圖像壓縮原理和上面面人物照片片是一致的的。18K均值算法可以用用于三個(gè)維維度前面圖像壓壓縮的例子子是基于一一個(gè)維度。。這里抽象展展示了基于于三個(gè)維度度的聚類(lèi)。。19如何在軟件中為K均值算法設(shè)設(shè)定參數(shù)在軟件中,,通常都要要設(shè)定群的個(gè)數(shù)。還可以指定距離的度量量方式。例如如選擇歐幾幾里德距離離或曼哈頓頓距離。大大多數(shù)聚類(lèi)類(lèi)分析都使使用距離度度量來(lái)衡量量?jī)蓚€(gè)實(shí)例例之間的遠(yuǎn)遠(yuǎn)近。20如何在軟件件中為K均值算法設(shè)設(shè)定參數(shù)此外,還可可以設(shè)定聚聚類(lèi)時(shí)采用哪些屬性同時(shí),數(shù)據(jù)標(biāo)準(zhǔn)化是聚類(lèi)分析析中最重要要的一個(gè)數(shù)數(shù)據(jù)預(yù)處理理步驟。如果果之前沒(méi)做做過(guò)標(biāo)準(zhǔn)化化,可以現(xiàn)現(xiàn)在進(jìn)行。。21如何評(píng)價(jià)聚聚類(lèi)分析的的結(jié)果?這方面和分分類(lèi)算法有有一個(gè)顯著著不同:分類(lèi)算法的的評(píng)判有訓(xùn)訓(xùn)練集、驗(yàn)驗(yàn)證集的客客觀參照。。而聚類(lèi)結(jié)果果的評(píng)判缺乏很明確確、客觀的、、統(tǒng)計(jì)學(xué)意意義上的參照依據(jù)。對(duì)于聚類(lèi),,業(yè)務(wù)專(zhuān)家從實(shí)踐踐角度的評(píng)評(píng)估是最重重要的評(píng)價(jià)價(jià)層面。如如果多數(shù)業(yè)業(yè)務(wù)專(zhuān)家對(duì)對(duì)于聚類(lèi)的的結(jié)果都看看不懂,那那么這個(gè)結(jié)結(jié)果很可能能是值得懷懷疑的。如果聚類(lèi)的的結(jié)果比較較容易理解解、解釋?zhuān)?,業(yè)務(wù)人員員會(huì)更能實(shí)實(shí)施這個(gè)結(jié)結(jié)果。22聚類(lèi)之前的的預(yù)處理——特征篩選在實(shí)踐中,,聚類(lèi)中的的輸入變量不不能太多,尤其是在在樣本數(shù)量量有限的情情況下。否則:運(yùn)算耗時(shí);;更重要的是是變量之間間的相關(guān)性性會(huì)損害聚聚類(lèi)效果;;變量太多會(huì)使人難難以理解每每個(gè)群的實(shí)實(shí)際含義。。因此,通常常會(huì)采用相關(guān)性分析、結(jié)合合業(yè)務(wù)知識(shí)識(shí)進(jìn)行變量量篩選等方方法來(lái)降維維。然后根根據(jù)少量幾幾個(gè)維度進(jìn)進(jìn)行聚類(lèi)類(lèi)。被篩掉的變變量可以在在聚類(lèi)完成成后再用于于對(duì)每個(gè)群群的進(jìn)一步步分析,比比如描述性性統(tǒng)計(jì)、分分類(lèi)算法。。23聚類(lèi)之前的的預(yù)處理——異常值K-means對(duì)數(shù)據(jù)的噪噪聲和異常值比較敏感。。這些個(gè)別數(shù)數(shù)據(jù)對(duì)于平平均值的影影響非常大大。為此,我們們可以:直接刪除那那些比其他他任何數(shù)據(jù)據(jù)點(diǎn)都要遠(yuǎn)遠(yuǎn)離聚類(lèi)中中心點(diǎn)的異異常值。與此類(lèi)似地地,在聚類(lèi)類(lèi)之后,有些些群體內(nèi)樣樣本數(shù)量太太少、這種種群體在實(shí)實(shí)際應(yīng)用中中可以忽略略不計(jì)。采用隨機(jī)抽樣。。這樣,作作為稀有事事件的數(shù)據(jù)據(jù)噪聲和異異常值能被被抽進(jìn)樣本本的概率會(huì)會(huì)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論