人工智能素養(yǎng)課件 第3章 機(jī)器學(xué)習(xí)_第1頁
人工智能素養(yǎng)課件 第3章 機(jī)器學(xué)習(xí)_第2頁
人工智能素養(yǎng)課件 第3章 機(jī)器學(xué)習(xí)_第3頁
人工智能素養(yǎng)課件 第3章 機(jī)器學(xué)習(xí)_第4頁
人工智能素養(yǎng)課件 第3章 機(jī)器學(xué)習(xí)_第5頁
已閱讀5頁,還剩109頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章機(jī)器學(xué)習(xí)content目錄01機(jī)器學(xué)習(xí)概述02回歸分析03分類04聚類分析05實(shí)踐案例機(jī)器學(xué)習(xí)概述01什么是機(jī)器學(xué)習(xí)定義核心機(jī)器學(xué)習(xí)指通過算法和統(tǒng)計(jì)模型,使計(jì)算機(jī)系統(tǒng)能夠從數(shù)據(jù)中自動(dòng)學(xué)習(xí)規(guī)律,并利用這些規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)或決策,而無須顯式編程。本質(zhì)讓機(jī)器具備“從經(jīng)驗(yàn)中學(xué)習(xí)”的能力關(guān)注開發(fā)能夠通過經(jīng)驗(yàn)(數(shù)據(jù))自動(dòng)提升任務(wù)表現(xiàn)的程序。從數(shù)據(jù)中學(xué)習(xí)規(guī)律摒棄傳統(tǒng)編程邏輯數(shù)據(jù)即“訓(xùn)練素材”算法構(gòu)建學(xué)習(xí)模型模型是規(guī)律的數(shù)學(xué)表達(dá)算法的偏好決定學(xué)習(xí)方向優(yōu)化與迭代損失函數(shù)量化學(xué)習(xí)誤差迭代優(yōu)化調(diào)整模型參數(shù)泛化能力實(shí)現(xiàn)未知預(yù)測(cè)從特殊到一般的歸納推理避免“過擬合”與“欠擬合”機(jī)器學(xué)習(xí)的核心思想可以從四個(gè)維度進(jìn)行理解:機(jī)器學(xué)習(xí)系統(tǒng)的基本組成數(shù)據(jù)層數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)存儲(chǔ)算法層監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí)模型層模型構(gòu)建與訓(xùn)練模型評(píng)估與優(yōu)化應(yīng)用層預(yù)測(cè)、決策服務(wù)人機(jī)交互界面發(fā)展歷程萌芽期(20世紀(jì)50至70年代):算法理論奠基以符號(hào)主義為主導(dǎo),核心關(guān)注邏輯推理與人工規(guī)則設(shè)計(jì)圖靈測(cè)試、感知機(jī)經(jīng)典機(jī)器學(xué)習(xí)期(20世紀(jì)80年代至2000年):統(tǒng)計(jì)學(xué)習(xí)崛起聚焦于小數(shù)據(jù)場(chǎng)景下的模型優(yōu)化決策樹、反向傳播算法、支持向量機(jī)、概率圖模型、強(qiáng)化學(xué)習(xí)深度學(xué)習(xí)復(fù)興期(2000年至今):大數(shù)據(jù)與算力驅(qū)動(dòng)大數(shù)據(jù)與算力成為核心驅(qū)動(dòng)力,多層神經(jīng)網(wǎng)絡(luò)突破了算力與數(shù)據(jù)瓶頸。AlexNet、循環(huán)神經(jīng)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)、Transformer架構(gòu)、大規(guī)模預(yù)訓(xùn)練模型機(jī)器學(xué)習(xí)的主要類型01監(jiān)督學(xué)習(xí)核心思想在于利用“輸入-輸出”標(biāo)注對(duì)訓(xùn)練模型,賦予模型對(duì)新輸入數(shù)據(jù)進(jìn)行預(yù)測(cè)的能力,適用于存在明確目標(biāo)變量02無監(jiān)督學(xué)習(xí)核心優(yōu)勢(shì)在于無須標(biāo)注數(shù)據(jù),而是通過挖掘數(shù)據(jù)的分布模式或關(guān)聯(lián)性來實(shí)現(xiàn)聚類、降維等操作。03半監(jiān)督學(xué)習(xí)核心思想是將少量標(biāo)注數(shù)據(jù)與大量未標(biāo)注數(shù)據(jù)結(jié)合使用,以此降低人工標(biāo)注的成本。04強(qiáng)化學(xué)習(xí)核心思想是讓智能體與環(huán)境進(jìn)行交互,借助“動(dòng)作-獎(jiǎng)勵(lì)”的反饋機(jī)制學(xué)習(xí)最優(yōu)策略,最終目標(biāo)是最大化長(zhǎng)期累積獎(jiǎng)勵(lì)。05遷移學(xué)習(xí)核心思想是把在源領(lǐng)域中學(xué)習(xí)到的知識(shí)遷移到目標(biāo)領(lǐng)域,有效解決小數(shù)據(jù)場(chǎng)景下的模型訓(xùn)練難題。機(jī)器學(xué)習(xí)流程問題定義與目標(biāo)明確精準(zhǔn)確定機(jī)器學(xué)習(xí)需要解決的具體問題類型,并清晰設(shè)定相應(yīng)的評(píng)估指標(biāo)。數(shù)據(jù)收集與預(yù)處理數(shù)據(jù)來源豐富多樣。數(shù)據(jù)預(yù)處理又包含數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)劃分等步驟。特征工程從原始數(shù)據(jù)中提取或構(gòu)造對(duì)模型更有效的特征模型選擇與訓(xùn)練基于問題類型(如分類、回歸、聚類)匹配算法。對(duì)模型的關(guān)鍵超參數(shù)進(jìn)行初始化操作。模型評(píng)估與調(diào)優(yōu)通常采用交叉驗(yàn)證和測(cè)試集評(píng)估兩種方法客觀衡量模型性能。模型部署與監(jiān)控把經(jīng)過評(píng)估和調(diào)優(yōu)的模型,集成到不同的應(yīng)用場(chǎng)景中回歸分析02回歸分析概述概念回歸分析是統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)領(lǐng)域用于探究變量間數(shù)量依賴關(guān)系的核心方法,其本質(zhì)是通過建立數(shù)學(xué)模型y≈f(X),刻畫因變量(目標(biāo)變量,通常用y表示)對(duì)一個(gè)或多個(gè)自變量(解釋變量,用X=x?,x?,…,xn表示)的響應(yīng)規(guī)律。通過最小化預(yù)測(cè)誤差(損失函數(shù))來優(yōu)化模型參數(shù),從而實(shí)現(xiàn)對(duì)連續(xù)型結(jié)果的預(yù)測(cè)與因果關(guān)系解釋?;貧w分析概述回歸分析模型的基本形式y(tǒng)=f(x?,x?,…,xn)+?(1)f為確定性函數(shù)(如線性函數(shù)、多項(xiàng)式函數(shù)等),描述變量間的規(guī)律。(2)?為隨機(jī)誤差項(xiàng)(不可觀測(cè)的隨機(jī)因素,如測(cè)量誤差、未納入模型的變量影響),通常假設(shè)?~N(0,σ2)(正態(tài)分布)?;貧w分析概述回歸分析的主要類型(1)線性回歸假設(shè)因變量與自變量存在線性關(guān)系,模型形式為y=wX+b。其局限性在于無法擬合復(fù)雜非線性關(guān)系,對(duì)異常值敏感。(2)多項(xiàng)式回歸通過添加自變量的高次項(xiàng)(如x2,x3)將線性模型擴(kuò)展為非線性模型,以擬合非線性關(guān)系。其局限性在于高次項(xiàng)易導(dǎo)致過擬合,需結(jié)合正則化或交叉驗(yàn)證控制復(fù)雜度。(3)嶺回歸/Lasso回歸通過加入L2/L1正則化解決共線性問題?;貧w分析概述回歸分析的主要類型(4)邏輯回歸雖然名為回歸,實(shí)為分類算法(預(yù)測(cè)概率),用于預(yù)測(cè)二分類或多分類結(jié)果(如“是/否”“良性/惡性”)。邏輯回歸通過sigmoid函數(shù)將線性組合wX+b映射到(0,1)區(qū)間,輸出屬于正類的概率。(5)非線性回歸不假設(shè)變量間為線性或多項(xiàng)式關(guān)系,通過非線性函數(shù)或算法擬合復(fù)雜規(guī)律,常見類型包括:決策樹回歸、支持向量機(jī)回歸(SVR)、神經(jīng)網(wǎng)絡(luò)回歸。線性回歸一元線性回歸模型一元線性回歸模型也稱為簡(jiǎn)單線性回歸模型,模型形式為:y=a

x+b+?其中,y是因變量,x是自變量,a是權(quán)重系數(shù),b是縱截距,?是隨機(jī)誤差項(xiàng),它服從正態(tài)分布,均值為0,方差為σ2。線性回歸一元線性回歸模型一元線性回歸研究一個(gè)自變量與一個(gè)因變量之間的關(guān)系。線性回歸分析中的誤差是預(yù)測(cè)值和實(shí)際值之間的差,要想得到理想的擬合線,就必須使誤差項(xiàng)?達(dá)到最小。線性回歸一元線性回歸模型【例3-1】根據(jù)職場(chǎng)發(fā)展規(guī)律,工作年限增長(zhǎng)通常伴隨收入水平提升。已知某行業(yè)從業(yè)人員的工作年限數(shù)據(jù)[1,2,3,4,5,6,7,8,9,10](單位:年),以及與之對(duì)應(yīng)的收入數(shù)據(jù)[3500,4200,5600,6300,7800,8900,10200,11500,13200,14800](單位:元)。請(qǐng)使用sklearn構(gòu)建并訓(xùn)練線性回歸模型,計(jì)算模型的均方誤差和決定系數(shù),并繪制實(shí)際數(shù)據(jù)點(diǎn)和回歸直線的可視化圖表。線性回歸#已知數(shù)據(jù)years_experience=np.array([1,2,3,4,5,6,7,8,9,10])salary=np.array([3500,4200,5600,6300,7800,8900,10200,11500,13200,14800])#準(zhǔn)備數(shù)據(jù)X=years_experience.reshape(-1,1)#特征矩陣(工作年限)y=salary#目標(biāo)變量(收入)#構(gòu)建并訓(xùn)練模型model=LinearRegression()model.fit(X,y)y_pred=model.predict(X)#模型評(píng)估slope=model.coef_[0]#斜率(回歸系數(shù))intercept=ercept_#截距mse=mean_squared_error(y,y_pred)r2=r2_score(y,y_pred)#輸出結(jié)果print(f"回歸方程:收入={slope:.2f}×工作年限+{intercept:.2f}")print(f"均方誤差(MSE):{mse:.2f}")print(f"決定系數(shù)(R2):{r2:.2f}")#可視化plt.figure(figsize=(10,6))plt.scatter(X,y,color='blue',label='實(shí)際數(shù)據(jù)')plt.plot(X,y_pred,color='red',linewidth=2,label='回歸直線')plt.xlabel('工作年限(年)')plt.ylabel('收入(元)')plt.title('工作年限與收入的線性回歸模型')plt.legend()plt.grid(True)plt.show()線性回歸回歸方程:收入=1254.55×工作年限+1700.00均方誤差(MSE):111454.55決定系數(shù)(R2):0.99線性回歸一元線性回歸模型【例3-2】根據(jù)農(nóng)業(yè)知識(shí),在一定范圍內(nèi),溫度升高可能促進(jìn)小麥生長(zhǎng)。已知平均溫度數(shù)據(jù)[15,17,19,21,23,25,27,29,30],以及與之對(duì)應(yīng)的小麥產(chǎn)量數(shù)據(jù)[424,433,512,596,548,588,718,689,676]。請(qǐng)使用sklearn構(gòu)建并訓(xùn)練線性回歸模型,計(jì)算模型的均方誤差和決定系數(shù),并繪制實(shí)際數(shù)據(jù)點(diǎn)和回歸直線的可視化圖表。線性回歸#模擬數(shù)據(jù)(平均溫度與小麥產(chǎn)量)temperatures=np.array([15,17,19,21,23,25,27,29,30])wheat_yield=np.array([424,433,512,596,548,588,718,689,676])#數(shù)據(jù)準(zhǔn)備X=temperatures.reshape(-1,1)#特征矩陣(溫度)y=wheat_yield#目標(biāo)變量(產(chǎn)量)#創(chuàng)建并訓(xùn)練線性回歸模型model=LinearRegression()model.fit(X,y)y_pred=model.predict(X)#獲取模型參數(shù)slope=model.coef_[0]#斜率(回歸系數(shù))intercept=ercept_#截距#模型評(píng)估m(xù)se=mean_squared_error(y,y_pred)r2=r2_score(y,y_pred)#輸出結(jié)果print(f"回歸方程:小麥產(chǎn)量={slope:.2f}×溫度+{intercept:.2f}")print(f"均方誤差(MSE):{mse:.2f}")print(f"決定系數(shù)(R2):{r2:.2f}")#可視化plt.figure(figsize=(10,6))plt.scatter(X,y,color='green',label='實(shí)際數(shù)據(jù)')plt.plot(X,y_pred,color='red',linewidth=2,label='回歸直線')plt.xlabel('平均溫度(°C)')plt.ylabel('小麥產(chǎn)量(公斤/畝)')plt.title('溫度與小麥產(chǎn)量的線性回歸模型')plt.legend()plt.grid(True)plt.show()線性回歸回歸方程:小麥產(chǎn)量=18.94×溫度+142.42均方誤差(MSE):1246.02決定系數(shù)(R2):0.88線性回歸一元線性回歸模型【例3-3】根據(jù)工業(yè)生產(chǎn)經(jīng)驗(yàn),培訓(xùn)時(shí)間越長(zhǎng),工人技能越熟練,產(chǎn)品合格率往往越高。已知工人的平均培訓(xùn)時(shí)間為[5,10,15,20,25,30,35,40],以及與之對(duì)應(yīng)的產(chǎn)品合格率[60,62,68,74,73,76,85,87]。請(qǐng)使用sklearn構(gòu)建并訓(xùn)練線性回歸模型,計(jì)算模型的均方誤差和決定系數(shù),并繪制實(shí)際數(shù)據(jù)點(diǎn)和回歸直線的可視化圖表。線性回歸#模擬數(shù)據(jù)(培訓(xùn)時(shí)間與產(chǎn)品合格率)training_hours=np.array([5,10,15,20,25,30,35,40])X=training_hours.reshape(-1,1)#特征矩陣(培訓(xùn)時(shí)間)y=[60,62,68,74,73,76,85,87]#目標(biāo)變量(合格率)#創(chuàng)建并訓(xùn)練線性回歸模型model=LinearRegression()model.fit(X,y)y_pred=model.predict(X)#獲取模型參數(shù)slope=model.coef_[0]#斜率(回歸系數(shù))intercept=ercept_#截距#模型評(píng)估m(xù)se=mean_squared_error(y,y_pred)r2=r2_score(y,y_pred)#輸出結(jié)果print(f"回歸方程:產(chǎn)品合格率={slope:.2f}×培訓(xùn)時(shí)間+{intercept:.2f}")print(f"均方誤差(MSE):{mse:.2f}")print(f"決定系數(shù)(R2):{r2:.2f}")#可視化plt.figure(figsize=(10,6))plt.scatter(X,y,color='blue',label='實(shí)際數(shù)據(jù)')plt.plot(X,y_pred,color='red',linewidth=2,label='回歸直線')plt.xlabel('培訓(xùn)時(shí)間(小時(shí))')plt.ylabel('產(chǎn)品合格率(%)')plt.title('培訓(xùn)時(shí)間與產(chǎn)品合格率的線性回歸模型')plt.legend()plt.grid(True)plt.show()線性回歸回歸方程:產(chǎn)品合格率=0.78×培訓(xùn)時(shí)間+55.61均方誤差(MSE):3.55決定系數(shù)(R2):0.96線性回歸多元線性回歸模型對(duì)于多變量線性回歸(多元線性回歸),模型形式為:y=β0

+β1x1+β2x2+...+βpxp+?其中,x1,x2,...,xp是自變量,y是因變量,β0是縱截距,β1,β2,...,βp是x1,x2,...,xp

的系數(shù),?是隨機(jī)誤差項(xiàng),它服從正態(tài)分布。線性回歸【例3-4】對(duì)于公司銷售額進(jìn)行預(yù)測(cè),考慮廣告投入、研發(fā)支出和員工數(shù)量三個(gè)因素的影響。已知廣告投入:[202,448,370,206,171,288,120,202,221,314]研發(fā)支出:[100,100,165,225,245,165,60,155,55,165]員工數(shù)量:[245,285,105,415,395,200,260,475,385,205]公司銷售額:[4124,6935,6513,7627,7512,6254,2699,6512,4255,6506]通過模擬數(shù)據(jù)和多元線性回歸模型,量化每個(gè)因素對(duì)銷售額的影響程度(回歸系數(shù)),評(píng)估模型整體預(yù)測(cè)能力(MSE和R2),并通過可視化直觀理解各因素與銷售額的關(guān)系。線性回歸#模擬數(shù)據(jù)(廣告投入、研發(fā)支出和員工數(shù)量)advertising=np.array([202,448,370,206,171,288,120,202,221,314])rd_spending=np.array([100,100,165,225,245,165,60,155,55,165])employees=np.array([245,285,105,415,395,200,260,475,385,205])#銷售額sales=[4124,6935,6513,7627,7512,6254,2699,6512,4255,6506]#數(shù)據(jù)準(zhǔn)備X=np.column_stack((advertising,rd_spending,employees))#特征矩陣y=sales#目標(biāo)變量#創(chuàng)建并訓(xùn)練多元線性回歸模型model=LinearRegression()model.fit(X,y)y_pred=model.predict(X)#獲取模型參數(shù)coef_adv,coef_rd,coef_emp=model.coef_#各特征的系數(shù)intercept=ercept_#截距#模型評(píng)估m(xù)se=mean_squared_error(y,y_pred)r2=r2_score(y,y_pred)線性回歸#輸出結(jié)果print(f"回歸方程:銷售額={coef_adv:.2f}×廣告投入+{coef_rd:.2f}×研發(fā)支出+{coef_emp:.2f}×員工數(shù)量+{intercept:.2f}")print(f"均方誤差(MSE):{mse:.2f}")print(f"決定系數(shù)(R2):{r2:.2f}")#3D可視化(廣告投入、研發(fā)支出與銷售額)plt.figure(figsize=(12,10))ax=plt.subplot(projection='3d')ax.scatter(advertising,rd_spending,y,c='blue',marker='o',alpha=0.6,label='實(shí)際數(shù)據(jù)')#生成網(wǎng)格以繪制回歸平面x_surf=np.linspace(min(advertising),max(advertising),20)y_surf=np.linspace(min(rd_spending),max(rd_spending),20)x_surf,y_surf=np.meshgrid(x_surf,y_surf)#計(jì)算回歸平面上的點(diǎn)(固定員工數(shù)量為平均值)z_surf=coef_adv*x_surf+coef_rd*y_surf+coef_emp*np.mean(employees)+interceptax.plot_surface(x_surf,y_surf,z_surf,color='red',alpha=0.3,label='回歸平面')ax.set_xlabel('廣告投入(萬元)')ax.set_ylabel('研發(fā)支出(萬元)')ax.set_zlabel('銷售額(萬元)')ax.set_title('廣告投入、研發(fā)支出與銷售額的關(guān)系')plt.tight_layout()plt.show()線性回歸回歸方程:銷售額=10.28×廣告投入+19.89×研發(fā)支出+5.08×員工數(shù)量+-1080.94均方誤差(MSE):2317.35決定系數(shù)(R2):1.00多項(xiàng)式回歸多項(xiàng)式回歸(PolynomialRegression)是線性回歸的擴(kuò)展,用于擬合自變量與因變量之間的非線性關(guān)系。與簡(jiǎn)單的線性回歸不同,多項(xiàng)式回歸通過引入自變量的高次項(xiàng)(如x2,x3),提供了更為復(fù)雜的非線性模型來擬合數(shù)據(jù)。多項(xiàng)式回歸模型的形式為:y=β0

+β1x+β2x2+...+βnxn+?其中,x是自變量,y是因變量,β0是縱截距,β1,β2,...,βn是x,x2,...,xn

的系數(shù),?是隨機(jī)誤差項(xiàng)。多項(xiàng)式回歸對(duì)于多項(xiàng)式回歸模型,其目標(biāo)是找到一組參數(shù)β1,β2,...,βn,使得模型能夠盡可能準(zhǔn)確地?cái)M合數(shù)據(jù)。多項(xiàng)式回歸的核心思想是將非線性問題轉(zhuǎn)化為線性問題,通過構(gòu)造高次特征,使用線性回歸的方法求解高次項(xiàng)的系數(shù)。多項(xiàng)式回歸多項(xiàng)式回歸的步驟:(1)特征擴(kuò)展:根據(jù)原始特征??,生成多項(xiàng)式特征(??,??

2,…,??n)。通過簡(jiǎn)單的特征擴(kuò)展,將線性模型升級(jí)為非線性模型。(2)模型訓(xùn)練:對(duì)擴(kuò)展后的特征應(yīng)用線性回歸(最小化MSE)。多項(xiàng)式回歸#原始特征矩陣(2個(gè)樣本,2個(gè)特征)X=np.array([[1,2],[3,4]])poly=PolynomialFeatures(degree=2)X_poly=poly.fit_transform(X)#查看結(jié)果print("原始特征:\n",X)print("\n擴(kuò)展后的特征:\n",X_poly)print("\n特征名稱:",poly.get_feature_names_out())【例3-7】已知兩個(gè)樣本的兩個(gè)特征為[1,2],[3,4],輸出二維特征的多項(xiàng)式擴(kuò)展。原始特征:[[12][34]]擴(kuò)展后的特征:[[1.1.2.1.2.4.][1.3.4.9.12.16.]]特征名稱:['1''x0''x1''x0^2''x0x1''x1^2']多項(xiàng)式回歸#生成模擬數(shù)據(jù)np.random.seed(42)x=np.linspace(-3,3,100).reshape(-1,1)y_true=2*x**2+3*x+1y_noise=y_true+np.random.normal(0,2,size=x.shape)degree=2poly=PolynomialFeatures(degree=degree,include_bias=False)x_poly=poly.fit_transform(x)#生成x,x2model=LinearRegression()model.fit(x_poly,y_noise)【例3-8】使用多項(xiàng)式回歸模型,擬合二次函數(shù)y=2x2+3x+1。計(jì)算模型評(píng)估指標(biāo)(MSE),并輸出模型的系數(shù)和截距。y_pred=model.predict(x_poly)mse=mean_squared_error(y_noise,y_pred)print(f"模型系數(shù):{model.coef_}")print(f"模型截距:{ercept_}")print(f"MSE:{mse:.4f}")plt.scatter(x,y_noise,label='觀測(cè)數(shù)據(jù)',alpha=0.6)plt.plot(x,y_true,'g-',label='真實(shí)函數(shù)')plt.plot(x,y_pred,'r--',label=f'多項(xiàng)式擬合(degree={degree})')plt.legend()plt.title('多項(xiàng)式回歸')plt.grid(True)plt.show()多項(xiàng)式回歸模型系數(shù):[[3.045977562.04072352]]模型截距:[0.66766832]MSE:3.2472實(shí)踐案例特征工程是機(jī)器學(xué)習(xí)中至關(guān)重要的環(huán)節(jié),直接影響模型性能。通常包含以下步驟:(1)數(shù)據(jù)清洗:缺失值和異常值處理直接影響模型基礎(chǔ)質(zhì)量。(2)特征衍生:結(jié)合業(yè)務(wù)知識(shí)構(gòu)造有意義的新特征(如單價(jià)、到市中心距離)。(3)特征轉(zhuǎn)換:標(biāo)準(zhǔn)化和編碼是數(shù)值與類別特征的必要處理。(4)特征選擇:通過統(tǒng)計(jì)檢驗(yàn)或模型重要性篩選核心特征,減少冗余。(5)迭代優(yōu)化:特征工程是迭代過程,需結(jié)合模型反饋持續(xù)改進(jìn)。特征工程實(shí)踐案例在特征工程案例的基礎(chǔ)上,繼續(xù)進(jìn)行模型訓(xùn)練與選擇評(píng)估?;貧w分析實(shí)踐案例(1)分類目標(biāo)變量:將房?jī)r(jià)的75%分位數(shù)作為閾值,創(chuàng)建二分類目標(biāo)變量"高價(jià)房"保持類別平衡(約25%正類,75%負(fù)類)(2)多樣化的分類算法:包含4種常用分類算法:邏輯回歸、決策樹、隨機(jī)森林、K近鄰每個(gè)算法都使用網(wǎng)格搜索進(jìn)行超參數(shù)優(yōu)化(3)全面的評(píng)估指標(biāo):計(jì)算準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)和ROCAUC提供詳細(xì)的分類報(bào)告和混淆矩陣分析分類實(shí)踐案例(4)可視化功能:特征重要性可視化每個(gè)模型的混淆矩陣和ROC曲線不同模型的各項(xiàng)指標(biāo)對(duì)比圖(5)完整的工作流程:數(shù)據(jù)加載、預(yù)處理、特征工程、特征選擇、模型訓(xùn)練和評(píng)估避免數(shù)據(jù)泄露(排除直接的價(jià)格信息)分類第3章機(jī)器學(xué)習(xí)第3節(jié)

分類目錄01

分類思維概述02

神經(jīng)網(wǎng)絡(luò)03

支持向量機(jī)04

決策樹05

隨機(jī)森林06

模型評(píng)估指標(biāo)01分類思維概述分類思維的重要性

認(rèn)識(shí)世界的關(guān)鍵途徑分類是我們認(rèn)識(shí)自然和把握世界規(guī)律的重要途徑,通過對(duì)事物進(jìn)行分類,能更清晰地了解其特征和規(guī)律。

傳統(tǒng)文化中的分類思想我國傳統(tǒng)文化里,“物以類聚,人以群分”“格物致知”等典故蘊(yùn)含著豐富的分類思想,體現(xiàn)了古人對(duì)分類的重視。分類思維的應(yīng)用領(lǐng)域

農(nóng)業(yè)領(lǐng)域在農(nóng)業(yè)中,像《齊民要術(shù)》對(duì)農(nóng)作物進(jìn)行分類,有助于更好地種植和管理農(nóng)作物。

生物醫(yī)學(xué)領(lǐng)域從基因測(cè)序的生物分類到《本草綱目》對(duì)藥物的系統(tǒng)分類,以及現(xiàn)代醫(yī)學(xué)疾病類型的診斷。

其他領(lǐng)域在棋類和商業(yè)方面,如圍棋的棋譜分類和電商用戶畫像的區(qū)分,分類思維也有廣泛應(yīng)用。機(jī)器學(xué)習(xí)的分類任務(wù)

分類任務(wù)的概念機(jī)器學(xué)習(xí)的分類任務(wù),是讓計(jì)算機(jī)具備“辨物識(shí)類”的人工智能,使其能對(duì)不同事物進(jìn)行準(zhǔn)確分類。

實(shí)現(xiàn)分類任務(wù)的意義通過分類任務(wù),計(jì)算機(jī)可以處理各種復(fù)雜的數(shù)據(jù),為圖像識(shí)別、自然語言處理等領(lǐng)域提供支持。02神經(jīng)網(wǎng)絡(luò)M-P神經(jīng)元模型起源人工神經(jīng)網(wǎng)絡(luò)的研究起源于1943年,心理學(xué)家沃倫?麥卡洛克和數(shù)學(xué)家沃爾特?皮茨提出M-P模型,奠定了人工神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ)。關(guān)鍵步驟M-P模型的關(guān)鍵一步是模仿生物神經(jīng)元的信號(hào)處理機(jī)制,建立可計(jì)算的神經(jīng)元數(shù)學(xué)模型。數(shù)學(xué)表示來自n個(gè)神經(jīng)元的輸入信號(hào)借助帶有權(quán)重的連接輸入給當(dāng)前神經(jīng)元,再通過激活函數(shù)產(chǎn)生輸出。神經(jīng)元訓(xùn)練是調(diào)節(jié)參數(shù)使輸出接近預(yù)期值。核心邏輯比喻可將M-P神經(jīng)元比喻作“決策工廠”,輸入信號(hào)如原材料,有強(qiáng)弱之分,工廠按閾值決定是否“開工”,這是其處理信息的核心邏輯。激活函數(shù)

01階躍函數(shù)

02擠壓函數(shù)也稱sigmoid函數(shù),

若sigmoid函數(shù)值大于0.5,則大概率為正樣本;反之,則大概率為負(fù)樣本。

03雙曲正切函數(shù)是sigmoid函數(shù)變體,取值范圍[-1,1],輸出以0為中心,但仍存在飽和時(shí)梯度消失的缺陷。

04使用非線性激活函數(shù)的原因若不使用非線性激活函數(shù),整個(gè)網(wǎng)絡(luò)輸出是線性的,而實(shí)際問題多為非線性,所以需在輸出層使用非線性激活函數(shù)適應(yīng)現(xiàn)實(shí)的非線性空間。表示:如果當(dāng)前神經(jīng)元接收的總信息量超過閾值,它就會(huì)被激活(用1模擬興奮狀態(tài));反之,神經(jīng)元處于抑制狀態(tài)(用0來模擬)。這與現(xiàn)實(shí)中生物神經(jīng)元的興奮與抑制兩種狀態(tài)非常吻合。神經(jīng)網(wǎng)絡(luò)的發(fā)展01前饋神經(jīng)網(wǎng)絡(luò)與感知機(jī)前饋神經(jīng)網(wǎng)絡(luò)(FNN)是最早期可實(shí)際運(yùn)行的人工神經(jīng)網(wǎng)絡(luò),Rosenblatt于1958年提出感知機(jī),是首個(gè)可學(xué)習(xí)的前饋神經(jīng)網(wǎng)絡(luò)模型,但只能處理線性可分問題。02BP神經(jīng)網(wǎng)絡(luò)1986年,Rumelhart、Hinton和Williams等人提出BP神經(jīng)網(wǎng)絡(luò),基于誤差逆向傳播算法訓(xùn)練,解決了多層感知機(jī)訓(xùn)練難題,為深度學(xué)習(xí)興起打下基礎(chǔ)。03深度學(xué)習(xí)領(lǐng)域相關(guān)模型近半個(gè)多世紀(jì),卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)等模型相繼被提出,應(yīng)用于復(fù)雜數(shù)據(jù)的識(shí)別與分類。04DeepSeek大模型近期蓬勃發(fā)展的DeepSeek大模型,其核心機(jī)制是通過深度神經(jīng)網(wǎng)絡(luò)來提高信息檢索的效率和準(zhǔn)確性。03支持向量機(jī)支持向量機(jī)的產(chǎn)生背景

前饋神經(jīng)網(wǎng)絡(luò)的局限性上世紀(jì)60年代,前饋神經(jīng)網(wǎng)絡(luò)(感知機(jī))是處理分類問題的主要工具,但只能解決線性可分問題,對(duì)“異或(XOR)”等非線性問題幾乎無能為力。經(jīng)驗(yàn)誤差最小化的不足很多機(jī)器學(xué)習(xí)方法采用經(jīng)驗(yàn)誤差最小化設(shè)計(jì)方法訓(xùn)練模型,如神經(jīng)元訓(xùn)練方法。但采集數(shù)據(jù)有限時(shí),訓(xùn)練數(shù)據(jù)集無法完整體現(xiàn)分布特性,導(dǎo)致模型結(jié)果不佳。線性可分支持向量機(jī)的原理與數(shù)學(xué)模型

超平面的概念超平面是直線、平面在高維空間的推廣,d=1時(shí)表示直線,d=2時(shí)表示平面,d>2時(shí)為超平面。線性可分支持向量機(jī)目的是在d維特征空間找超平面劃分樣本點(diǎn)。

間隔的計(jì)算以d=1為例,線性可分支持向量機(jī)尋找使兩類點(diǎn)間隔最大的直線,運(yùn)用向量代數(shù)知識(shí)可計(jì)算間隔。d維特征空間上的線性可分支持向量機(jī)也有對(duì)應(yīng)間隔計(jì)算方式。

模型的求解方法線性可分支持向量機(jī)的數(shù)學(xué)模型可通過高等數(shù)學(xué)、最優(yōu)化理論的拉格朗日乘子法求解。非線性的支持向量機(jī)處理非線性問題的優(yōu)勢(shì)相較于前饋神經(jīng)網(wǎng)絡(luò),支持向量機(jī)的優(yōu)勢(shì)在于能研究非線性問題,如無法用直線分隔的數(shù)據(jù)點(diǎn),可用曲線分界。核技巧的應(yīng)用非線性支持向量機(jī)使用核技巧將非線性分類問題轉(zhuǎn)換為線性問題解決。常用核函數(shù)有徑向基函數(shù)核、多項(xiàng)式函數(shù)核、Sigmoid核、預(yù)計(jì)算核矩陣等。

支持向量機(jī)的分類參數(shù)

常用參數(shù)匯總基于scikit-learn1.0.2版本,常用參數(shù)有C、kernel、gamma等,涵蓋正則化、核函數(shù)類型、系數(shù)等方面,各有其數(shù)據(jù)類型和取值范圍。

參數(shù)分類說明參數(shù)分為優(yōu)化相關(guān)(如C、tol、max_iter)、核函數(shù)相關(guān)(如kernel、gamma等)、計(jì)算效率相關(guān)(如shrinking、cache_size等)。

參數(shù)調(diào)優(yōu)優(yōu)先級(jí)通常優(yōu)先調(diào)整C和gamma(尤其是kernel='rbf'時(shí)),其次考慮核函數(shù)類型和class_weight。04決策樹決策樹的組成決策樹的構(gòu)建原理和步驟

特征選擇構(gòu)建決策樹的第一步,需選取對(duì)訓(xùn)練數(shù)據(jù)有明顯分類能力的特征。如信息增益越大,特征對(duì)數(shù)據(jù)的劃分效果越好。

決策樹的生成從根節(jié)點(diǎn)出發(fā),每一步選擇最優(yōu)特征進(jìn)行劃分,遞歸生成子節(jié)點(diǎn),不斷分割數(shù)據(jù)集,直到滿足停止條件,最終生成完整的決策樹。

剪枝優(yōu)化遞歸生成決策樹后可能存在過擬合現(xiàn)象。通過預(yù)剪枝剔除冗余分支,極小化決策樹的損失函數(shù),提高模型的泛化能力。決策樹算法簡(jiǎn)介

發(fā)展歷程1975年RossQuinlan提出ID3算法,后在此基礎(chǔ)上提出C4.5算法,其他團(tuán)隊(duì)提出CART算法,CART不僅可用于分類,還能用于回歸。

常用函數(shù)與調(diào)用方法在Python中,可用scikit-learn庫實(shí)現(xiàn)決策樹模型。如用DecisionTreeClassifier創(chuàng)建分類器,fit用于訓(xùn)練模型,predict用于進(jìn)行預(yù)測(cè)。

算法比較ID3以信息增益為特征核心度量,傾向選取值多的特征;C4.5用信息增益率,可處理連續(xù)特征和缺失值;CART用基尼指數(shù),支持分類與回歸,生成二叉樹。決策樹的優(yōu)點(diǎn)與缺點(diǎn)模型假設(shè)

優(yōu)點(diǎn)是無須預(yù)先假設(shè)數(shù)據(jù)的先驗(yàn)概率分布,適應(yīng)多種場(chǎng)景;缺點(diǎn)是無法保證收斂到全局最優(yōu)解。數(shù)據(jù)兼容性

優(yōu)點(diǎn)是支持連續(xù)值、離散值、語義數(shù)據(jù)等多元類型,缺失值處理靈活;缺點(diǎn)是在高維數(shù)據(jù)下性能可能下降,特征交互表達(dá)能力有限??山忉屝?/p>

優(yōu)點(diǎn)是樹結(jié)構(gòu)與規(guī)則鏈直觀易懂,適合業(yè)務(wù)場(chǎng)景的決策邏輯可視化;缺點(diǎn)是未剪枝時(shí)分類規(guī)則可能復(fù)雜,喪失解釋優(yōu)勢(shì)。抗噪聲能力

優(yōu)點(diǎn)是剪枝機(jī)制可抑制噪聲影響,缺失值處理策略減少數(shù)據(jù)質(zhì)量依賴;缺點(diǎn)是天然傾向于擬合訓(xùn)練數(shù)據(jù),未優(yōu)化時(shí)易過擬合,泛化能力弱。05隨機(jī)森林隨機(jī)森林概述隨機(jī)森林的概念隨機(jī)森林是通過Bagging算法與隨機(jī)子空間方法,將多棵決策樹組成一體的集成學(xué)習(xí)方法?!半S機(jī)”的體現(xiàn)“隨機(jī)”體現(xiàn)在兩方面,一是每棵決策樹的訓(xùn)練樣本采用Bagging算法隨機(jī)抽??;二是決策樹每個(gè)節(jié)點(diǎn)的分裂字段隨機(jī)選擇。性能優(yōu)勢(shì)對(duì)比與決策樹、SVM等傳統(tǒng)方法相比,隨機(jī)森林抗過擬合能力強(qiáng)、處理非線性關(guān)系優(yōu)、參數(shù)敏感性低、不受特征共線性影響、小樣本性能良好且計(jì)算效率高。研究熱點(diǎn)方向當(dāng)前研究熱點(diǎn)有深度隨機(jī)森林、在線隨機(jī)森林、因果隨機(jī)森林和量子隨機(jī)森林等方向。隨機(jī)森林的構(gòu)建步驟數(shù)據(jù)采樣(Bagging)從原始數(shù)據(jù)訓(xùn)練集通過有放回抽樣生成多個(gè)bootstrap樣本集,每個(gè)樣本集樣本數(shù)量與原始數(shù)據(jù)集相同。特征隨機(jī)選擇在構(gòu)建每棵決策樹時(shí),從所有特征中隨機(jī)選擇一部分特征作為候選劃分特征。單棵決策樹構(gòu)建對(duì)每個(gè)bootstrap樣本集,使用決策樹算法(如CART等)構(gòu)建決策樹,節(jié)點(diǎn)劃分時(shí)僅在隨機(jī)選擇的特征中選最優(yōu)特征。結(jié)果集成對(duì)于分類問題,通過多數(shù)投票法確定最終分類結(jié)果;對(duì)于回歸問題,通過平均值確定最終回歸結(jié)果。隨機(jī)森林中樹的多樣性

使用不同樣本和特征的原因使用不同樣本和特征可增加樹之間的多樣性,降低相關(guān)性,從而減少集成模型的方差。

所有樹相同的后果若所有樹相同,集成模型將退化為單棵樹,無法獲得“集體智慧”的優(yōu)勢(shì),準(zhǔn)確率和穩(wěn)定性都會(huì)下降。06模型評(píng)估指標(biāo)基本概念

真正例(TP)實(shí)際類別為正樣本,模型預(yù)測(cè)也為正樣本的情況。例如在疾病診斷中,患者確實(shí)患病,模型也診斷為患病。

假負(fù)例(FN)實(shí)際類別為正樣本,但模型預(yù)測(cè)為負(fù)樣本。如患者實(shí)際患病,模型卻診斷為未患病。

假正例(FP)實(shí)際類別為負(fù)樣本,模型預(yù)測(cè)為正樣本。就像健康人被模型診斷為患病。

真負(fù)例(TN)實(shí)際類別為負(fù)樣本,模型預(yù)測(cè)也為負(fù)樣本。比如健康人被模型正確診斷為未患病?;煜仃囋u(píng)價(jià)指標(biāo)

01準(zhǔn)確率預(yù)測(cè)正確的樣本數(shù)占總樣本數(shù)的比例,公式為(TP+TN)/(TP+TN+FP+FN)。但在數(shù)據(jù)不平衡時(shí)存在局限,如電商欺詐訂單檢測(cè)。

02錯(cuò)誤率分類錯(cuò)誤的樣本數(shù)占總樣本數(shù)的比例,與準(zhǔn)確率互補(bǔ),即錯(cuò)誤率=1-準(zhǔn)確率。

03靈敏度(召回率、真正率)所有正例中被分對(duì)的比例,公式為TP/(TP+FN)。在疾病診斷中,反映模型正確識(shí)別患病樣本的能力。

04特效度(真陰性率)所有負(fù)例中被分對(duì)的比例,公式為TN/(TN+FP)。高特效度可減少誤診,如疾病診斷中不易將健康人誤診為患者。

05精確率模型預(yù)測(cè)為正例的樣本中,真正屬于正例的比例,公式為TP/(TP+FP)。在垃圾郵件分類中,反映判斷為垃圾郵件里確實(shí)是垃圾郵件的占比。其他評(píng)價(jià)指標(biāo)

F1分?jǐn)?shù)精確率和召回率的調(diào)和平均數(shù),綜合考慮了兩者,能更全面地評(píng)估模型性能。

ROC曲線受試者工作特征曲線,展示真正例率(TPR)與假正例率(FPR)的關(guān)系,直觀反映模型性能。

AUCROC曲線下的面積,衡量模型的整體性能,AUC值越接近1,模型性能越好。

PR曲線精確率-召回率曲線,展示精確率和召回率隨閾值變化的關(guān)系,幫助選擇合適的閾值。指標(biāo)的綜合應(yīng)用銀行信用卡欺詐檢測(cè)場(chǎng)景在該場(chǎng)景中,召回率更為關(guān)鍵。因?yàn)槁┡衅墼p交易帶來的經(jīng)濟(jì)損失嚴(yán)重,高召回率能盡可能多地識(shí)別出真正的欺詐交易。綜合評(píng)估僅關(guān)注召回率也不夠,還需結(jié)合精確率等指標(biāo)。若精確率過低,會(huì)產(chǎn)生大量誤判,增加人工復(fù)核成本。指標(biāo)協(xié)同通過ROC曲線、AUC等指標(biāo)綜合判斷模型整體性能,同時(shí)考慮計(jì)算速度、魯棒性等,以選擇最合適的模型。不同算法的評(píng)估指標(biāo)比較神經(jīng)網(wǎng)絡(luò)在準(zhǔn)確率上表現(xiàn)較好,尤其在處理復(fù)雜非線性問題時(shí)。但計(jì)算速度可能較慢,魯棒性相對(duì)較弱,對(duì)數(shù)據(jù)質(zhì)量要求較高。支持向量機(jī)對(duì)于線性可分和非線性問題都有較好的處理能力,精確率和召回率較平衡。但參數(shù)敏感性高,調(diào)參耗時(shí)。決策樹可解釋性強(qiáng),但容易過擬合,在高維數(shù)據(jù)下性能可能下降。在處理連續(xù)值和離散值數(shù)據(jù)時(shí)表現(xiàn)較好。隨機(jī)森林抗過擬合能力強(qiáng),計(jì)算效率高,能處理高維數(shù)據(jù)和非線性關(guān)系。在多個(gè)評(píng)估指標(biāo)上都有較好的綜合表現(xiàn)。評(píng)估指標(biāo)的選擇原則

數(shù)據(jù)特點(diǎn)若數(shù)據(jù)不平衡,準(zhǔn)確率可能不適用,應(yīng)重點(diǎn)關(guān)注召回率、精確率等指標(biāo)。如電商欺詐訂單檢測(cè),正常訂單占比高。

應(yīng)用場(chǎng)景在醫(yī)療診斷中,更看重召回率,避免漏診;在垃圾郵件分類中,精確率更重要,減少誤判正常郵件。

模型目標(biāo)若追求模型整體性能,可關(guān)注AUC;若注重模型的穩(wěn)定性,可考慮魯棒性指標(biāo)。第3章機(jī)器學(xué)習(xí)第4節(jié)

聚類分析01

聚類分析概述02

K-Means聚類03

層次聚類04

模型評(píng)估指標(biāo)目錄01聚類分析概述76聚類分析:通過觀察個(gè)體不同維度的特征,把

相似的對(duì)象歸為同一類,從而將群體中的個(gè)體

分類到不同的族群。有兩種情況:

對(duì)樣品分類

(Q型)&對(duì)變量分類

(R型)

本章我們只討論對(duì)樣品分類。如何刻畫“相似性”?

何為“類”?

引例:五省居民消費(fèi)情況的類型劃分77如何衡量“相似性”并進(jìn)行分類?

分成幾類?無監(jiān)督學(xué)習(xí)及其特點(diǎn)78在聚類分析中,類別的個(gè)數(shù)及個(gè)體標(biāo)簽本身并不存在,只是根據(jù)個(gè)體特征的相似性形成“合理的”聚集,無“標(biāo)準(zhǔn)答案”參考,因此屬于深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)。聚類的目的在于把相似的東西聚在一起,而我們并不關(guān)心這一類是什么。因此,一個(gè)聚類算法通常只需要知道如何計(jì)算相似度就可以開始工作了。比如在引例中,是通過消費(fèi)數(shù)據(jù)的各種信息維度刻畫相似性,把相似的省放在一類,主觀地將省分成不同類型,并沒說這類省就有一個(gè)叫做什么的固有標(biāo)簽,這就是無監(jiān)督學(xué)習(xí)。大學(xué)生按學(xué)習(xí)成績(jī)可聚成:學(xué)霸,學(xué)渣;按興趣愛好可聚成:吃貨,文藝青年,旅游達(dá)人等族群。79聚類的類別沒有“標(biāo)準(zhǔn)答案”根據(jù)不同信息維度的特征聚出來的類別是不一樣的。聚類分析是一種比較主觀的分析方法,沒有標(biāo)準(zhǔn)答案,

通常用在數(shù)據(jù)分析的描述性部分。

相似性度量如何刻畫樣品的“相似性”?相似性度量有:距離&相似系數(shù)。其定義與三種尺度的變量類型有密切關(guān)系。80間隔尺度:變量用連續(xù)的量來表示,如長(zhǎng)度、重量、速度、溫度、獎(jiǎng)金等。有序尺度:變量的度量不用明確數(shù)量表示,而是用等級(jí)來表示,如文化程度,產(chǎn)品上、中、下三個(gè)等級(jí)。名義尺度:變量既無等級(jí)關(guān)系也無數(shù)量關(guān)系,如性別、職業(yè)、產(chǎn)品的型號(hào)、顏色等。81本節(jié)主要討論間隔尺度變量的樣品聚類分析方法。相似系數(shù)更常用來度量指標(biāo)之間的相似性。性質(zhì)越相近的指標(biāo),它們的相似系數(shù)絕對(duì)值越接近1,彼此無關(guān)的樣品之間的相似系數(shù)越接近0。主要有兩種相似系數(shù):夾角余弦、相關(guān)系數(shù)。距離更常用來度量間隔尺度樣品之間的接近程度,將一個(gè)p元樣品看作p維空間的一個(gè)點(diǎn),距離相近的點(diǎn)歸為一類。距離的主要類型有:歐式、明氏、馬氏距離等。本章最常用的相似性度量為歐氏距離。距離(間隔尺度變量情形)82歐氏距離

是聚類分析中最常用的距離。

但有缺點(diǎn):與指標(biāo)量綱(單位)及指標(biāo)間相關(guān)性有關(guān)。明考夫斯基距離(明氏距離)

馬氏距離,其中Σ為總體的協(xié)方差陣。02K-Means聚類K-均值法(是動(dòng)態(tài)聚類法、非譜系聚類法的一種)允許樣品從一個(gè)類移動(dòng)到另一個(gè)類中。K-均值法的計(jì)算量比前一節(jié)系統(tǒng)聚類法小得多。因此計(jì)算機(jī)無須存儲(chǔ)大量數(shù)據(jù),所能承受的樣品數(shù)目要遠(yuǎn)遠(yuǎn)超過使用系統(tǒng)聚類法所能承受的樣品數(shù)目。84K-均值法只能用于對(duì)樣品的聚類,而不能對(duì)變量聚類。k均值法的實(shí)施步驟(1)選擇k個(gè)樣品作為初始凝聚點(diǎn),或者將所有樣品分成k個(gè)初始類,然后將這k個(gè)類的重心(均值)作為初始凝聚點(diǎn)。(2)對(duì)除凝聚點(diǎn)之外的所有樣品逐個(gè)歸類,將每個(gè)樣品歸入距離凝聚點(diǎn)最近的那個(gè)類(通常采用歐氏距離),該類的凝聚點(diǎn)更新為這一類目前的均值,直至所有樣品都?xì)w了類。(3)重復(fù)步驟(2),直至所有的樣品都不能再分配為止。85最終的聚類結(jié)果在一定程度上依賴于初始凝聚點(diǎn)的選擇。(1)隨意將這些樣品分成兩類,

則這兩個(gè)初始類的均值分別是5和6.5。(2)計(jì)算1到兩個(gè)類(均值)的絕對(duì)值距離1不用重新分配。計(jì)算6到兩個(gè)類的距離86故6應(yīng)重新分配到

中。修正后的兩個(gè)類為

,新的類均值分別為4.5和6.333。

例1設(shè)有五個(gè)樣品,指標(biāo)分別是1,2,6,8,11.采用k均值法聚類,指定k=2。

87(3)計(jì)算8到

的距離,

8重新分配到

中,兩個(gè)新類為

其類均值分別為1和6.75。(4)再計(jì)算2到

的距離,

重新分配2到

中,兩個(gè)新類為

其類均值分別為1.5和8.333(5)再次計(jì)算每個(gè)樣品到類均值的距離,結(jié)果如下表最終得到的兩個(gè)類為{1,2}和{6,8,11}。88

各樣品到類均值的距離03層次聚類法層次聚類法是通過一系列合并(或分割)來進(jìn)行的,適用于樣品數(shù)目n不是很大的情形?;舅枷胧牵?/p>

90

由單個(gè)個(gè)體開始,逐步合并“最相似”的個(gè)體,

直到所有個(gè)體合并為一個(gè)族群。

層次聚類法步驟91開始將n個(gè)樣品各自作為一類,規(guī)定樣品間的距離(通常用歐氏距離)和類與類之間的距離(不同聚類法情形有不同定義);

然后將距離最近的兩類合并成一個(gè)新類,計(jì)算新類與其他類的距離;重復(fù)進(jìn)行最近類的合并,每次減少一類,直至所有樣品合并為一類。畫聚類圖,決定類的個(gè)數(shù)與分類結(jié)果。

距離矩陣對(duì)于n個(gè)樣本

計(jì)算兩兩之間的歐式距離92可得距離矩陣

D=(dij)

n×n

聚類分析的各種方法都是對(duì)距離矩陣進(jìn)行運(yùn)算?;蚱椒綒W式距離例如:兩個(gè)二元樣本

歐氏距離

平方歐氏距離

例1

設(shè)有五個(gè)樣品,每個(gè)只測(cè)量了一個(gè)指標(biāo),分別是

1,2,6,8,11,求距離矩陣。G1G2G3G4G5G10G210G3540G47620G5109530表1

D(0)93解:記G1={1},G2={2},G3={6},G4={8},G5={11},樣品間采用歐式距離(p=1時(shí)

dij=|xi-xj|),得距離矩陣D(0)(由于對(duì)稱,故只寫出下三角部分)一、最短距離法定義類與類之間的距離為兩類最近樣品間的距離,94圖1最短距離法:DKL=d23

例1設(shè)有五個(gè)樣品,每個(gè)只測(cè)量了一個(gè)指標(biāo),分別是

1,2,6,8,11,試用最短距離法將它們分類。G1G2G3G4G5G10G210G3540G47620G5109530表1

D(0)95

Step1:記G1={1},G2={2},G3={6},G4={8},G5={11},樣品間采用歐式距離(p=1時(shí)

dij=|xi-xj|),得距離矩陣D(0)(由于對(duì)稱,故只寫出下三角部分)96

Step2:第一次聚類(1)將距離最近的兩類合并成一個(gè)新類:

選擇D(0)中的非對(duì)角線最小元素,d21=1,

則將G1和G2合并成一個(gè)新類G6

=

G1∪G2={1,2}。(2)計(jì)算新類G6與任一類GJ之間的距離

D63=min{5,4}=4,

D64=min{7,6}=6,

D65=min{10,9}=9,

D34,D35,D45不變。

得第一次聚類后的距離矩陣

D(1)(下頁的表2)G6G3G4G5G6=G1∪G20G340G4620G59530

D(1)97

Step3:第二次聚類:選擇D(1)中的非對(duì)角線最小元素,D43=2,

得新類G7

=

G3∪G4。計(jì)算G7與任一類G5

,G6的距離:D75=min{D35,D45}=min{5,3}=3,

D76=min{D36,D46}=min{4,6}=4,

D65不變。

得第二次聚類后的距離矩陣

D(2)(下頁的表)最短距離法的類間距離

D(2)G6G7G5G6=G1∪G20G7=G3∪G440G593098

Step4:第三次聚類:選擇D(2)中的非對(duì)角線最小元素,D75=3得新類G8

=

G7∪G5。計(jì)算G8與類G6

=G1∪G2的距離:D86=min{D76,D56}=min{4,9}=4,

得第三次聚類后的距離矩陣

D(3)(下頁的表)99

D(3)G6G8G60G840圖2最短距離法樹形圖分成幾類?

分類結(jié)果?由距離閾值T決定,也與實(shí)際目標(biāo)有關(guān)。100

Step5:確定類的個(gè)數(shù)與分類結(jié)果

在實(shí)際問題中有時(shí)給出閾值T,要求類間距離小于T。

T=3.5,則分為兩類:G6

=G1∪G2與

G8

=G3∪G4∪G5。

T=2.5,則分為三類:G6

=G1∪G2、

G7

=G3∪G4、

G5。閾值T可取樹形圖中前后兩步距離變化大的位置,比如

T=3.5。最短距離法的聚類步驟設(shè)由GK與GL合并成新類

GM=GK∪G

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論