Python數(shù)據(jù)處理、分析、可視化與數(shù)據(jù)化運(yùn)營(yíng) (第二版) 課件 第7章 數(shù)據(jù)建模與文本分析進(jìn)階_第1頁(yè)
Python數(shù)據(jù)處理、分析、可視化與數(shù)據(jù)化運(yùn)營(yíng) (第二版) 課件 第7章 數(shù)據(jù)建模與文本分析進(jìn)階_第2頁(yè)
Python數(shù)據(jù)處理、分析、可視化與數(shù)據(jù)化運(yùn)營(yíng) (第二版) 課件 第7章 數(shù)據(jù)建模與文本分析進(jìn)階_第3頁(yè)
Python數(shù)據(jù)處理、分析、可視化與數(shù)據(jù)化運(yùn)營(yíng) (第二版) 課件 第7章 數(shù)據(jù)建模與文本分析進(jìn)階_第4頁(yè)
Python數(shù)據(jù)處理、分析、可視化與數(shù)據(jù)化運(yùn)營(yíng) (第二版) 課件 第7章 數(shù)據(jù)建模與文本分析進(jìn)階_第5頁(yè)
已閱讀5頁(yè),還剩49頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)建模與文本分析進(jìn)階07Python數(shù)據(jù)處理、分析、可視化與數(shù)據(jù)化運(yùn)營(yíng)(第二版)本章學(xué)習(xí)目標(biāo)理解線性回歸的基本原理和適用場(chǎng)景學(xué)習(xí)邏輯回歸的基本概念,以及與線性回歸的聯(lián)系與區(qū)別掌握KMeans聚類的原理、實(shí)施步驟和結(jié)果評(píng)估方法能夠通過(guò)實(shí)際案例,運(yùn)用所學(xué)知識(shí),使用Python解決數(shù)據(jù)分析問(wèn)題理解中文分詞的基本概念和常見方法,以及關(guān)鍵字提取的應(yīng)用場(chǎng)景7.1線性回歸線性回歸的基本概念和原理線性回歸的特點(diǎn)和適用場(chǎng)景線性回歸的實(shí)施步驟和關(guān)鍵要點(diǎn)線性回歸模型的效果評(píng)估7.1線性回歸線性回歸是一種統(tǒng)計(jì)學(xué)方法,用于建立自變量(輸入變量)和因變量(輸出變量)之間的線性關(guān)系。線性回歸的基本概念和原理自變量與因變量之間存在線性關(guān)系,即可以用一條直線來(lái)描述二者之間的關(guān)系。概念:假設(shè):y=β0+β1x+ε。其中,y為因變量,β0為截距,β1為斜率,x為自變量,ε為隨機(jī)誤差公式:7.1線性回歸(1)簡(jiǎn)單直觀:線性回歸模型的形式簡(jiǎn)單直觀,通過(guò)最小化殘差平方和來(lái)確定最佳擬合直線的截距和斜率,易于理解和解釋。(2)計(jì)算效率高:計(jì)算線性回歸模型的參數(shù)通常使用最小二乘法等方法,計(jì)算速度較快,適用于大規(guī)模數(shù)據(jù)集。(3)廣泛適用性:線性回歸適用于因變量和自變量之間的線性關(guān)系建模,可用于連續(xù)型因變量的預(yù)測(cè)和關(guān)聯(lián)分析。(4)可解釋性強(qiáng):線性回歸模型的參數(shù)(截距和斜率)直觀地反映了自變量對(duì)因變量的影響程度,具有較強(qiáng)的可解釋性。線性回歸的特點(diǎn)和適用場(chǎng)景線性回歸是最簡(jiǎn)單的回歸模型之一,具有以下特點(diǎn)7.1線性回歸(1)預(yù)測(cè)分析:適用于對(duì)連續(xù)型因變量進(jìn)行預(yù)測(cè),如銷售額、房?jī)r(jià)等。通過(guò)建立線性回歸模型,可以預(yù)測(cè)未來(lái)的趨勢(shì)和變化。(2)關(guān)聯(lián)分析:通過(guò)檢查回歸系數(shù)的顯著性和符號(hào),可以確定變量之間的關(guān)系方向和強(qiáng)度。(3)效果評(píng)估:可以用于評(píng)估某些因素對(duì)特定結(jié)果的影響程度,如廣告投入對(duì)銷售額的影響。(4)趨勢(shì)分析:可以用于分析數(shù)據(jù)的趨勢(shì),幫助預(yù)測(cè)未來(lái)的發(fā)展方向。通過(guò)觀察回歸直線的斜率,可以判斷數(shù)據(jù)的增長(zhǎng)或下降趨勢(shì)。(5)數(shù)據(jù)探索和假設(shè)檢驗(yàn):可以用于探索數(shù)據(jù)之間的關(guān)系,并進(jìn)行假設(shè)檢驗(yàn)。通過(guò)檢驗(yàn)回歸系數(shù)的顯著性,可以驗(yàn)證假設(shè)并得出結(jié)論。線性回歸的特點(diǎn)和適用場(chǎng)景線性回歸適用于以下場(chǎng)景7.1線性回歸(1)數(shù)據(jù)準(zhǔn)備:收集并準(zhǔn)備用于分析的數(shù)據(jù)集,包括自變量和因變量的數(shù)據(jù)。(2)數(shù)據(jù)預(yù)處理:實(shí)際情況進(jìn)行處理,如填充缺失值、去除異常值等。將數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集用于訓(xùn)練和擬合模型,測(cè)試集用于檢驗(yàn)?zāi)P托Ч?。?)擬合模型:使用最小二乘法等方法擬合線性回歸模型。(4)模型檢驗(yàn):模型使用訓(xùn)練集擬合后,需使用測(cè)試集檢驗(yàn)?zāi)P托Ч?,通常稱為交叉檢驗(yàn)。(5)模型評(píng)估:使用各種統(tǒng)計(jì)指標(biāo)(如R2、調(diào)整R2、均方誤差等)評(píng)估模型的擬合程度。(6)預(yù)測(cè)和解釋:使用模型進(jìn)行預(yù)測(cè),并解釋自變量對(duì)因變量的影響程度??赏ㄟ^(guò)模型自身的predict等方法進(jìn)行預(yù)測(cè),并解釋結(jié)果。線性回歸的實(shí)施步驟和關(guān)鍵要點(diǎn)線性回歸的實(shí)施步驟如下:7.1線性回歸線性回歸的實(shí)施步驟和關(guān)鍵要點(diǎn)代碼實(shí)現(xiàn):導(dǎo)入庫(kù)1importpandasaspd2fromsklearn.linear_modelimportLinearRegression3fromsklearn.model_selectionimporttrain_test_split4fromsklearn.metricsimportmean_squared_error,r2_score代碼實(shí)現(xiàn):讀取數(shù)據(jù)集5df=pd.read_excel('raw_data.xlsx',sheet_name='線性回歸')7.1線性回歸線性回歸的實(shí)施步驟和關(guān)鍵要點(diǎn)代碼實(shí)現(xiàn):數(shù)據(jù)預(yù)處理6X=df[['房屋面積']]7y=df['房屋總價(jià)']8X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)代碼實(shí)現(xiàn):模型訓(xùn)練9model=LinearRegression()10model.fit(X_train,y_train)7.1線性回歸線性回歸的實(shí)施步驟和關(guān)鍵要點(diǎn)代碼實(shí)現(xiàn):模型預(yù)測(cè)和檢驗(yàn)11y_pred=model.predict(X_test)12mse=mean_squared_error(y_test,y_pred)13print('均方誤差:',mse)14r2=r2_score(y_test,y_pred)15print('R2分?jǐn)?shù):',r2)16intercept=ercept_17coefficient=model.coef_[0]18print(f'回歸方程:y={coefficient}x+{intercept}')均方誤差:3761700.377796296R2分?jǐn)?shù):0.8167395557821736回歸方程:y=4649.695581295032x+535059.29409119797.1線性回歸線性回歸的實(shí)施步驟和關(guān)鍵要點(diǎn)注意要點(diǎn)(1)線性關(guān)系假設(shè):應(yīng)用線性回歸模型前,需確認(rèn)自變量和因變量之間存在線性關(guān)系??赏ㄟ^(guò)散點(diǎn)圖檢驗(yàn)和分析二者之間的關(guān)系。(2)多重共線性:若回歸分析中包含多個(gè)自變量,且它們之間存在高度相關(guān)性,可能導(dǎo)致模型不穩(wěn)定。需注意多重共線性問(wèn)題,可通過(guò)計(jì)算自變量之間的相關(guān)系數(shù)來(lái)檢測(cè)。若存在共線性,可保留其中一個(gè)變量,去除其他相關(guān)性高的變量。(3)異常值處理:需識(shí)別和處理數(shù)據(jù)集中的異常值,以確保模型準(zhǔn)確性??赏ㄟ^(guò)箱線圖和散點(diǎn)圖檢測(cè)異常值,并考慮刪除或修正這些異常值。(4)模型檢驗(yàn):任何數(shù)據(jù)分析和建模都應(yīng)通過(guò)訓(xùn)練集和測(cè)試集(甚至驗(yàn)證集)來(lái)檢驗(yàn)?zāi)P托Ч?,避免過(guò)擬合。在訓(xùn)練集上效果好但在測(cè)試集上效果差的情況稱為過(guò)擬合。7.1線性回歸線性回歸模型的效果評(píng)估線性回歸模型評(píng)估主要關(guān)注模型的擬合優(yōu)度、系數(shù)的顯著性以及殘差的分布等(1)擬合優(yōu)度:線性回歸模型的擬合優(yōu)度通常用R2分?jǐn)?shù)來(lái)衡量。該分?jǐn)?shù)表示模型對(duì)觀測(cè)數(shù)據(jù)的擬合程度,取值范圍在0到1之間。R2分?jǐn)?shù)越接近1,說(shuō)明模型對(duì)數(shù)據(jù)的擬合越好。(2)系數(shù)的顯著性:在線性回歸模型中,自變量的系數(shù)表示自變量對(duì)因變量的影響程度。系數(shù)的顯著性通常通過(guò)p值來(lái)檢驗(yàn)。一般而言,當(dāng)p值小于0.05時(shí),表示系數(shù)在統(tǒng)計(jì)上是顯著的,說(shuō)明自變量對(duì)因變量的影響是顯著的。7.1線性回歸線性回歸模型的效果評(píng)估線性回歸模型評(píng)估主要關(guān)注模型的擬合優(yōu)度、系數(shù)的顯著性以及殘差的分布等(3)殘差的分布:殘差是指模型預(yù)測(cè)值與實(shí)際觀測(cè)值之間的差異。在一個(gè)良好的模型中,殘差應(yīng)該是隨機(jī)分布在0附近的。通過(guò)繪制殘差圖,我們可以觀察殘差的分布情況。如果殘差呈現(xiàn)某種規(guī)律性,那么就說(shuō)明模型可能存在問(wèn)題,需要進(jìn)一步改進(jìn)。(4)其他回歸模型評(píng)估指標(biāo):除了R2分?jǐn)?shù)和系數(shù)的顯著性檢驗(yàn)外,我們還可以使用均方誤差(MSE)、平均絕對(duì)誤差(MAE)、解釋方差分(ExplainedVarianceScore)、最大誤差(MaxError)等指標(biāo)來(lái)評(píng)估模型的預(yù)測(cè)能力。這些指標(biāo)可以幫助我們?cè)u(píng)估模型在實(shí)際預(yù)測(cè)中的表現(xiàn)。7.1線性回歸線性回歸模型的效果評(píng)估代碼實(shí)現(xiàn):模型效果評(píng)估1fromsklearn.metricsimportmean_absolute_error,explained_variance_score,max_error2print('平均絕對(duì)誤差:',mean_absolute_error(y_test,y_pred))3print('解釋方差分:',explained_variance_score(y_test,y_pred))4print('最大誤差:',max_error(y_test,y_pred))均絕對(duì)誤差:1599.1653852188379解釋方差分:0.864831485121816最大誤差:4473.684829684447.2邏輯回歸邏輯回歸與線性回歸的聯(lián)系與區(qū)別邏輯回歸的特點(diǎn)和適用場(chǎng)景邏輯回歸模型的實(shí)施步驟和要點(diǎn)邏輯回歸模型的效果評(píng)估邏輯回歸的基本概念和原理7.2邏輯回歸邏輯回歸是一種常用的分類算法,尤其在二分類問(wèn)題中表現(xiàn)優(yōu)異。邏輯回歸的基本概念和原理(1)目標(biāo):邏輯回歸的目標(biāo)是預(yù)測(cè)一個(gè)事件的概率。(2)假設(shè):假設(shè)事件的發(fā)生是由一個(gè)或多個(gè)特征決定的。(3)輸出:輸出是一個(gè)介于0和1之間的概率值,表示事件發(fā)生的可能性。概念:假設(shè):7.2邏輯回歸邏輯回歸與線性回歸的聯(lián)系與區(qū)別對(duì)比維度邏輯回歸線性回歸模型聯(lián)系1.同屬?gòu)V義線性模型(GLM),均為線性模型的特例2.基于線性回歸推廣而來(lái),可視為線性回歸的一種變體應(yīng)用場(chǎng)景主要用于分類問(wèn)題(尤其二分類),預(yù)測(cè)事件發(fā)生的概率主要用于回歸問(wèn)題,預(yù)測(cè)連續(xù)型變量的值(如房屋價(jià)格、商品銷量)輸出結(jié)果概率值,范圍在

0-1

之間連續(xù)實(shí)數(shù)值,無(wú)固定范圍(可是任意實(shí)數(shù))評(píng)估指標(biāo)常用準(zhǔn)確率、精確率、召回率、F1值等常用均方誤差(MSE)、R平方值等模型目標(biāo)最大化似然函數(shù),提升分類準(zhǔn)確性最小化殘差平方和,提升模型擬合程度7.2邏輯回歸(1)輸出概率值:邏輯回歸模型輸出樣本屬于某一類別的概率值,常用于判斷樣本屬于某一類別的可能性大小。我們可以基于概率來(lái)設(shè)定類別判斷的閾值。(2)線性模型:邏輯回歸是一種線性模型,利用線性函數(shù)的組合進(jìn)行分類。(3)簡(jiǎn)單高效:相比于其他復(fù)雜的分類算法,邏輯回歸模型計(jì)算簡(jiǎn)單,容易理解和實(shí)現(xiàn)。(4)可解釋性強(qiáng):模型的結(jié)果易于解釋,可以分析各個(gè)特征對(duì)分類結(jié)果的影響程度。邏輯回歸的特點(diǎn)和適用場(chǎng)景邏輯回歸主要特點(diǎn)7.2邏輯回歸(1)分類問(wèn)題:邏輯回歸常用于分類問(wèn)題,如判斷郵件是否為垃圾郵件、預(yù)測(cè)用戶是否購(gòu)買某種產(chǎn)品等。(2)數(shù)據(jù)線性可分的數(shù)據(jù)場(chǎng)景:邏輯回歸假設(shè)數(shù)據(jù)是線性可分的,適用于數(shù)據(jù)分布在一個(gè)超平面兩側(cè)的情況。數(shù)據(jù)線性可分意味著不同類別的數(shù)據(jù)可以通過(guò)一個(gè)線性函數(shù)進(jìn)行分割。(3)需要快速實(shí)現(xiàn)和部署的應(yīng)用場(chǎng)景:邏輯回歸計(jì)算簡(jiǎn)單,適合需要快速實(shí)現(xiàn)和部署的場(chǎng)景,可快速部署上線并驗(yàn)證業(yè)務(wù)假設(shè)和結(jié)果。邏輯回歸的特點(diǎn)和適用場(chǎng)景邏輯回歸適用于以下場(chǎng)景7.2邏輯回歸(1)數(shù)據(jù)收集:收集包含特征和標(biāo)簽的數(shù)據(jù)集。特征是用來(lái)預(yù)測(cè)標(biāo)簽的屬性,而標(biāo)簽是我們希望模型預(yù)測(cè)的結(jié)果。(2)數(shù)據(jù)預(yù)處理:包括處理缺失值、異常值、進(jìn)行特征縮放、特征編碼和處理不平衡數(shù)據(jù)等操作。同時(shí),將數(shù)據(jù)集拆分為訓(xùn)練集和測(cè)試集。(3)模型訓(xùn)練:使用訓(xùn)練集訓(xùn)練邏輯回歸模型。(4)模型評(píng)估:通過(guò)交叉檢驗(yàn),使用測(cè)試集評(píng)估模型的性能。(5)模型優(yōu)化:根據(jù)評(píng)估結(jié)果調(diào)整模型的超參數(shù),例如正則化參數(shù)和學(xué)習(xí)率,以提高模型的性能。(6)預(yù)測(cè)與解釋:基于優(yōu)化后的模型,對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)并獲得結(jié)果。邏輯回歸的實(shí)施步驟和關(guān)鍵要點(diǎn)邏輯回歸的實(shí)施步驟如下:7.2邏輯回歸邏輯回歸的實(shí)施步驟和關(guān)鍵要點(diǎn)代碼實(shí)現(xiàn):導(dǎo)入庫(kù)1importpandasaspd2fromsklearn.model_selectionimporttrain_test_split3fromsklearn.linear_modelimportLogisticRegression4fromsklearn.metricsimportaccuracy_score,roc_auc_score代碼實(shí)現(xiàn):讀取數(shù)據(jù)集5data=pd.read_excel('raw_data.xlsx',sheet_name='邏輯回歸')7.2邏輯回歸邏輯回歸的實(shí)施步驟和關(guān)鍵要點(diǎn)代碼實(shí)現(xiàn):數(shù)據(jù)預(yù)處理6X=data[['學(xué)習(xí)時(shí)間','出勤率','作業(yè)按時(shí)提交率']]7y=data['通過(guò)考試']8X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)代碼實(shí)現(xiàn):模型訓(xùn)練9model=LogisticRegression()10model.fit(X_train,y_train)7.2邏輯回歸邏輯回歸的實(shí)施步驟和關(guān)鍵要點(diǎn)代碼實(shí)現(xiàn):模型預(yù)測(cè)和檢驗(yàn)11y_pred=model.predict(X_test)12print("模型準(zhǔn)確率:",accuracy_score(y_test,y_pred))13print("ROCAUC:",roc_auc_score(y_test,y_pred))模型準(zhǔn)確率:0.8ROCAUC:0.81318681318681327.2邏輯回歸邏輯回歸的實(shí)施步驟和關(guān)鍵要點(diǎn)注意要點(diǎn)(1)特征選擇:特征過(guò)多時(shí),需要選擇與目標(biāo)變量相關(guān)性高的特征,避免使用與目標(biāo)變量不相關(guān)或高度相關(guān)的特征。(2)正則化:通過(guò)正則化(如L1正則化、L2正則化)來(lái)避免過(guò)擬合,提高模型的泛化能力。如果模型效果不佳,可以考慮使用正則化。(3)處理不平衡數(shù)據(jù):若數(shù)據(jù)集中正負(fù)樣本數(shù)量差異較大,可以通過(guò)過(guò)采樣、欠采樣或使用特定的損失函數(shù)來(lái)處理不平衡數(shù)據(jù)。也可以使用ROCAUC、F1得分等指標(biāo)來(lái)評(píng)估不均衡數(shù)據(jù)下的模型效果。7.2邏輯回歸邏輯回歸模型的效果評(píng)估在評(píng)估邏輯回歸模型時(shí),我們通常使用以下指標(biāo)來(lái)評(píng)價(jià)模型的效果(1)準(zhǔn)確率(Accuracy):準(zhǔn)確率是指模型正確預(yù)測(cè)的樣本數(shù)占總樣本數(shù)的比例。盡管準(zhǔn)確率是最直觀的評(píng)估指標(biāo)之一,但在數(shù)據(jù)不平衡的情況下可能會(huì)產(chǎn)生誤導(dǎo),因?yàn)槟P涂赡芨鼉A向于預(yù)測(cè)出現(xiàn)頻率較高的類別。(2)精確率(Precision):精確率是指模型預(yù)測(cè)為正例的樣本中,真正例的比例。精確率高意味著模型在預(yù)測(cè)正例時(shí)更為準(zhǔn)確,適用于希望確保分類結(jié)果為正例時(shí)的情況。(3)召回率(Recall):召回率是指真實(shí)的正例中,模型成功預(yù)測(cè)為正例的比例。召回率高表示模型能夠識(shí)別出更多的正例,適用于希望盡量減少漏判正例的情況。7.2邏輯回歸邏輯回歸模型的效果評(píng)估在評(píng)估邏輯回歸模型時(shí),我們通常使用以下指標(biāo)來(lái)評(píng)價(jià)模型的效果(4)F1分?jǐn)?shù)(F1Score):F1分?jǐn)?shù)是精確率和召回率的調(diào)和平均數(shù),綜合考慮了模型的準(zhǔn)確性和召回率。F1分?jǐn)?shù)越高,模型的性能越好。(5)AUC(AreaUnderCurve):AUC表示ROC曲線下的面積,用于衡量模型在不同閾值下分類器的性能。AUC值越接近1,模型性能越好。(6)對(duì)數(shù)損失(LogLoss):對(duì)數(shù)損失是一種用于評(píng)估概率估計(jì)的標(biāo)準(zhǔn)。對(duì)數(shù)損失越小,說(shuō)明模型的概率預(yù)測(cè)越準(zhǔn)確。7.2邏輯回歸線性回歸模型的效果評(píng)估代碼實(shí)現(xiàn):模型效果評(píng)估1fromsklearn.metricsimportprecision_score,recall_score,f1_score,log_loss2print("精確率:",precision_score(y_test,y_pred))3print("召回率:",recall_score(y_test,y_pred))4print("F1分?jǐn)?shù):",f1_score(y_test,y_pred))5print("對(duì)數(shù)損失:",log_loss(y_test,model.predict_proba(X_test)))7.3KMeans聚類聚類與分類回歸的聯(lián)系與區(qū)別KMeans聚類的應(yīng)用領(lǐng)域和優(yōu)勢(shì)KMeans聚類模型的實(shí)施步驟和要點(diǎn)如何選擇合適的Kmeans聚類數(shù)量KMeans聚類的基本概念和原理KMeans聚類模型的效果評(píng)估7.3KMeans聚類K均值聚類是一種常用的聚類算法,用于將數(shù)據(jù)點(diǎn)劃分為不同的簇,使得同一簇內(nèi)的數(shù)據(jù)點(diǎn)彼此相似度較高,而不同簇之間的數(shù)據(jù)點(diǎn)相似度較低。KMeans聚類的基本概念和原理通過(guò)迭代優(yōu)化簇的質(zhì)心位置,使得簇內(nèi)數(shù)據(jù)點(diǎn)到其質(zhì)心的距離最小化,從而實(shí)現(xiàn)數(shù)據(jù)點(diǎn)的聚類。概念:原理:7.3KMeans聚類聚類與分類回歸的聯(lián)系與區(qū)別對(duì)比維度聚類分類模型聯(lián)系輸出結(jié)果為將數(shù)據(jù)點(diǎn)分配到不同的類別或簇中數(shù)據(jù)需求通常不需要事先標(biāo)記好的類別信息,僅依賴數(shù)據(jù)自身特征需要已知的類別標(biāo)簽,以標(biāo)簽為依據(jù)進(jìn)行模型訓(xùn)練和學(xué)習(xí)核心目的發(fā)現(xiàn)數(shù)據(jù)中的潛在結(jié)構(gòu),將數(shù)據(jù)點(diǎn)劃分為特征相似的組建立預(yù)測(cè)模型,利用已知類別標(biāo)簽的訓(xùn)練數(shù)據(jù),對(duì)新輸入的數(shù)據(jù)進(jìn)行類別判斷監(jiān)督學(xué)習(xí)類型屬于無(wú)監(jiān)督學(xué)習(xí),無(wú)需已知類別標(biāo)簽指導(dǎo)分組過(guò)程屬于有監(jiān)督學(xué)習(xí),必須依賴已知類別標(biāo)簽訓(xùn)練模型輸出差異僅輸出數(shù)據(jù)點(diǎn)所屬的簇(類別)結(jié)果除輸出數(shù)據(jù)點(diǎn)的類別結(jié)果外,還可輸出數(shù)據(jù)點(diǎn)屬于該類別的概率值7.3KMeans聚類(1)市場(chǎng)細(xì)分:在市場(chǎng)營(yíng)銷中,可以使用KMeans聚類將客戶分成不同的群體,從而針對(duì)不同群體制定個(gè)性化的營(yíng)銷策略。(2)圖像分割:在計(jì)算機(jī)視覺(jué)領(lǐng)域,KMeans聚類可以用于圖像分割。(3)推薦系統(tǒng):在推薦系統(tǒng)中,可以使用KMeans聚類將用戶分成不同的群體,從而推薦更符合用戶興趣的產(chǎn)品或服務(wù)。(4)異常檢測(cè):KMeans聚類可以用于異常檢測(cè),將數(shù)據(jù)點(diǎn)分配到簇的過(guò)程中,可以檢測(cè)出與其他數(shù)據(jù)點(diǎn)差異較大的異常點(diǎn)。(5)文本聚類:在自然語(yǔ)言處理領(lǐng)域,可以使用KMeans聚類對(duì)文本進(jìn)行聚類,從而實(shí)現(xiàn)文本分類和主題提取等功能。KMeans聚類的應(yīng)用領(lǐng)域和優(yōu)勢(shì)KMeans聚類在許多領(lǐng)域都有著廣泛的應(yīng)用和優(yōu)勢(shì)7.3KMeans聚類(1)算法簡(jiǎn)單易懂:KMeans聚類算法直觀且易于實(shí)現(xiàn),適合初學(xué)者入門。(2)計(jì)算效率高:KMeans算法在大規(guī)模數(shù)據(jù)集上具有較高的計(jì)算效率,適用于處理大規(guī)模數(shù)據(jù)。(3)適用性廣泛:KMeans算法適用于各種數(shù)據(jù)類型和數(shù)據(jù)分布,具有很強(qiáng)的通用性。(4)可擴(kuò)展性強(qiáng):KMeans算法可以與其他算法結(jié)合使用,如PCA降維等,以進(jìn)一步提高聚類效果和加速算法收斂速度。KMeans聚類的應(yīng)用領(lǐng)域和優(yōu)勢(shì)KMeans聚類的優(yōu)勢(shì)7.3KMeans聚類(1)數(shù)據(jù)準(zhǔn)備。(2)數(shù)據(jù)預(yù)處理:預(yù)先處理,例如缺失值、異常值、數(shù)據(jù)量綱差異等。(3)模型構(gòu)建:導(dǎo)入KMeans模型,并設(shè)置聚類數(shù)量(即簇的數(shù)量)。(4)模型訓(xùn)練:使用生成的數(shù)據(jù)對(duì)KMeans模型進(jìn)行訓(xùn)練。KMeans模型通過(guò)迭代計(jì)算數(shù)據(jù)點(diǎn)與簇中心點(diǎn)之間的距離,并更新簇的分配情況。(5)模型評(píng)估:雖然KMeans是一種非監(jiān)督學(xué)習(xí)算法,但為了確保聚類質(zhì)量,我們可以通過(guò)一些評(píng)估指標(biāo)來(lái)評(píng)估模型的表現(xiàn),如輪廓系數(shù)。(6)結(jié)果預(yù)測(cè):對(duì)新的數(shù)據(jù)點(diǎn)進(jìn)行預(yù)測(cè),即將其分配到最近的簇中。KMeans聚類模型的實(shí)施步驟和要點(diǎn)KMeans聚類的實(shí)施步驟如下:7.3KMeans聚類KMeans聚類模型的實(shí)施步驟和要點(diǎn)代碼實(shí)現(xiàn):導(dǎo)入庫(kù)1importpandasaspd2fromsklearn.clusterimportKMeans3fromsklearn.metricsimportsilhouette_score4importmatplotlib.pyplotasplt代碼實(shí)現(xiàn):讀取數(shù)據(jù)集5df=pd.read_excel('raw_data.xlsx',sheet_name='聚類')7.3KMeans聚類KMeans聚類模型的實(shí)施步驟和要點(diǎn)代碼實(shí)現(xiàn):數(shù)據(jù)預(yù)處理6X=df[['客流量','轉(zhuǎn)化率']]代碼實(shí)現(xiàn):模型訓(xùn)練7kmeans=KMeans(n_clusters=3,random_state=42)8kmeans.fit(X)9labels=kmeans.labels_7.3KMeans聚類KMeans聚類模型的實(shí)施步驟和要點(diǎn)代碼實(shí)現(xiàn):模型預(yù)測(cè)和檢驗(yàn)10silhouette_avg=silhouette_score(X,labels)11print(f"平均輪廓系數(shù)為:{silhouette_avg}")代碼實(shí)現(xiàn):聚類結(jié)果可視化12plt.figure(figsize=(8,6))13plt.scatter(X['客流量'],X['轉(zhuǎn)化率'],c=labels,cmap='viridis')14plt.xlabel('客流量')15plt.ylabel('轉(zhuǎn)化率')16plt.title('KMeans聚類結(jié)果')17plt.show()平均輪廓系數(shù)為:0.78152159125322417.3KMeans聚類如何選擇合適的Kmeans聚類數(shù)量在KMeans聚類中,簇的數(shù)量K是一個(gè)需要預(yù)先指定的參數(shù)。選擇合適的K值可以使聚類結(jié)果更具解釋性和實(shí)用性,而選擇不當(dāng)?shù)腒值可能會(huì)導(dǎo)致聚類效果不佳。業(yè)務(wù)角度:從業(yè)務(wù)角度來(lái)看,聚類結(jié)果應(yīng)具有解釋性和實(shí)用性,能夠反映出業(yè)務(wù)領(lǐng)域的特征和規(guī)律。評(píng)估聚類結(jié)果時(shí),可以考慮以下幾點(diǎn):(1)業(yè)務(wù)解釋性:聚類結(jié)果是否能被業(yè)務(wù)專家理解和解釋,是否符合業(yè)務(wù)領(lǐng)域的常識(shí)和規(guī)律。(2)業(yè)務(wù)有效性:聚類結(jié)果是否能幫助業(yè)務(wù)決策或優(yōu)化業(yè)務(wù)流程,是否能提高業(yè)務(wù)效率或降低成本。7.3KMeans聚類如何選擇合適的Kmeans聚類數(shù)量在KMeans聚類中,簇的數(shù)量K是一個(gè)需要預(yù)先指定的參數(shù)。選擇合適的K值可以使聚類結(jié)果更具解釋性和實(shí)用性,而選擇不當(dāng)?shù)腒值可能會(huì)導(dǎo)致聚類效果不佳。模型角度:從模型角度來(lái)看,聚類結(jié)果應(yīng)具有穩(wěn)定性和準(zhǔn)確性,能夠在不同數(shù)據(jù)集上穩(wěn)定地劃分?jǐn)?shù)據(jù)點(diǎn)。評(píng)估聚類結(jié)果時(shí),可以考慮以下幾點(diǎn):(1)穩(wěn)定性:聚類結(jié)果在不同數(shù)據(jù)集上是否具有一致性,是否受到數(shù)據(jù)集大小和特征選擇的影響。(2)準(zhǔn)確性:聚類結(jié)果是否能準(zhǔn)確地將相似的數(shù)據(jù)點(diǎn)劃分到同一簇,將不相似的數(shù)據(jù)點(diǎn)劃分到不同簇中。7.3KMeans聚類KMeans模型的效果評(píng)估在評(píng)估KMeans模型時(shí),我們通常使用以下指標(biāo)來(lái)評(píng)價(jià)模型的效果(1)輪廓系數(shù)法(SilhouetteMethod):該方法結(jié)合了聚類內(nèi)部的緊密度和聚類之間的分離度,用于衡量聚類的質(zhì)量。通過(guò)計(jì)算不同聚類數(shù)量下的平均輪廓系數(shù),選擇平均輪廓系數(shù)最大的聚類數(shù)量作為最優(yōu)選擇?!?.3.4”中使用的就是這種方法。(2)Gap統(tǒng)計(jì)量法(GapStatistics):該方法比較了原始數(shù)據(jù)和隨機(jī)生成數(shù)據(jù)的SSE(SumofSquaredErrors),通過(guò)計(jì)算不同聚類數(shù)量下的Gap統(tǒng)計(jì)量(原始數(shù)據(jù)的SSE減去隨機(jī)數(shù)據(jù)的SSE),選擇Gap統(tǒng)計(jì)量最大的聚類數(shù)量作為最優(yōu)選擇。(3)DB指數(shù)法(Davies-BouldinIndex):該指數(shù)通過(guò)計(jì)算聚類內(nèi)部的緊密度和聚類之間的分離度的比值來(lái)衡量聚類的質(zhì)量。選擇DB指數(shù)最小的聚類數(shù)量作為最優(yōu)選擇。7.3KMeans聚類KMeans模型的效果評(píng)估代碼實(shí)現(xiàn):模型效果評(píng)估1fromsklearn.metricsimportdavies_bouldin_score2print(f"DB指數(shù)為:{davies_bouldin_score(X,labels)}")DB指數(shù)為:0.29995725899555897.4中文分詞與關(guān)鍵字提取中文分詞在不同領(lǐng)域的應(yīng)用中文分詞方法:基于詞典和基于統(tǒng)計(jì)關(guān)鍵詞提取的作用和應(yīng)用場(chǎng)景使用TF提取關(guān)鍵字中文分詞的基本概念7.4中文分詞與關(guān)鍵字提取中文分詞指的是將一個(gè)漢字序列切分成具有語(yǔ)義合理性的詞語(yǔ)序列的過(guò)程。中文分詞的基本概念將連續(xù)的漢字序列切分成具有語(yǔ)義完整性的詞語(yǔ),為后續(xù)的文本理解和信息檢索提供基礎(chǔ)。概念:目的:7.4中文分詞與關(guān)鍵字提?。?)搜索引擎:可以幫助搜索引擎理解用戶輸入的中文查詢,提高搜索引擎的檢索效率和準(zhǔn)確性。(2)信息檢索:在信息檢索領(lǐng)域,提高信息檢索系統(tǒng)的搜索效率和準(zhǔn)確性。(3)文本挖掘:幫助識(shí)別文本中的關(guān)鍵詞和短語(yǔ),實(shí)現(xiàn)對(duì)文本內(nèi)容的分析和挖掘,提取出文本中的主題和信息,幫助分析人員更好地理解文本內(nèi)容。(4)機(jī)器翻譯:中文分詞可以幫助機(jī)器理解源語(yǔ)言文本,更準(zhǔn)確地進(jìn)行翻譯,將源語(yǔ)言文本切分成短語(yǔ)和詞語(yǔ),提高翻譯的質(zhì)量和準(zhǔn)確性。(5)情感分析:中文分詞可以幫助識(shí)別文本中的情感詞和情感短語(yǔ),實(shí)現(xiàn)對(duì)文本情感的分析和判斷,更準(zhǔn)確地識(shí)別文本中的情感色彩,幫助分析人員更好地理解文本的情感傾向。中文分詞在不同領(lǐng)域的應(yīng)用中文分詞作為中文文本處理的基礎(chǔ)步驟,在各個(gè)領(lǐng)域都有著廣泛的應(yīng)用7.4中文分詞與關(guān)鍵字提取基于詞典的分詞方法利用預(yù)先構(gòu)建的詞典確定分詞位置。在分詞過(guò)程中,將待分文本逐個(gè)與詞典中的詞語(yǔ)匹配,若匹配成功則將詞語(yǔ)切分出來(lái)。這種方法簡(jiǎn)單直觀,適用于處理專業(yè)詞匯較多的文本。但由于中文詞匯數(shù)量龐大且詞語(yǔ)組合靈活,詞典無(wú)法包含所有可能的詞語(yǔ),因此無(wú)法處理未在詞典中出現(xiàn)的新詞和專業(yè)術(shù)語(yǔ)。中文分詞方法:基于詞典和基于統(tǒng)計(jì)1.基于詞典的中文分詞方法7.4中文分詞與關(guān)鍵字提取基于統(tǒng)計(jì)的分詞方法通過(guò)分析大量的中文語(yǔ)料庫(kù),統(tǒng)計(jì)詞語(yǔ)出現(xiàn)的頻率和詞語(yǔ)之間的搭配關(guān)系來(lái)確定分詞位置。常用的統(tǒng)計(jì)模型包括隱馬爾可夫模型(HMM)和條件隨機(jī)場(chǎng)(CRF)等。這種方法可以自動(dòng)學(xué)習(xí)詞語(yǔ)出現(xiàn)的規(guī)律,對(duì)新詞和專業(yè)術(shù)語(yǔ)有一定的適應(yīng)能力。但對(duì)語(yǔ)料庫(kù)的質(zhì)量和規(guī)模有一定要求,且對(duì)于詞語(yǔ)歧義性較高的情況處理效果可能不佳。在實(shí)際應(yīng)用中,基于詞典和基于統(tǒng)計(jì)的分詞方法常結(jié)合使用,通過(guò)詞典匹配和統(tǒng)計(jì)模型相結(jié)合的方式來(lái)提高分詞的準(zhǔn)確性和效率。同時(shí),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的分詞方法也逐漸得到應(yīng)用,取得了一定的效果。中文分詞方法:基于詞典和基于統(tǒng)計(jì)2.基于統(tǒng)計(jì)的中文分詞方法7.4中文分詞與關(guān)鍵字提取中文分詞方法:基于詞典和基于統(tǒng)計(jì)基于結(jié)巴分詞的代碼實(shí)現(xiàn)1importjieba2text="中文分詞是文本處理的基礎(chǔ)步驟。"3seg_list=jieba.cut(text,cut_all=False)4print("分詞結(jié)果:","".join(seg_list))分詞結(jié)果:中文分詞是文本處理的基礎(chǔ)步驟。7.4中文分詞與關(guān)鍵字提取(1)幫助理解文本內(nèi)容:關(guān)鍵詞提取有助于人們快速了解文本的主題和要點(diǎn),起到提煉和概括文本信息的作用。(2)提高信息檢索效率:通過(guò)將文本的關(guān)鍵詞作為索引,可以提高信息檢索的效率和準(zhǔn)確性。(3)輔助文本摘要生成:關(guān)鍵詞通常是文本的核心內(nèi)容,可用于生成文本摘要,幫助用戶快速獲取文本要點(diǎn)。(4)支持文本分類:關(guān)鍵詞可作為文本分類的特征,幫助分類模型更好地區(qū)分不同類別的文本關(guān)鍵詞提取的作用和應(yīng)用場(chǎng)景關(guān)鍵詞提取是從文本中自動(dòng)或半自動(dòng)地抽取具有代表性和重要性的詞語(yǔ)或短語(yǔ)的過(guò)程。在信息檢索、文本摘要、文本分類等領(lǐng)域,關(guān)鍵詞提取具有重要作用:7.4中文分詞與關(guān)鍵字提?。?)搜索引擎:搜索引擎通過(guò)提取文檔的關(guān)鍵詞生成搜索結(jié)果摘要,幫助用戶快速了解搜索結(jié)果。(2)新聞?wù)涸谛侣剤?bào)道中,關(guān)鍵詞提取可幫助編輯快速概括新聞要點(diǎn),生成新聞?wù)?,避免完整閱讀所有新聞內(nèi)容。(3)學(xué)術(shù)文獻(xiàn):在學(xué)術(shù)領(lǐng)域,關(guān)鍵詞提取可幫助研究人員快速了解文獻(xiàn)的主題和研究重點(diǎn),提高科研效率和項(xiàng)目進(jìn)度。(4)情感分析:關(guān)鍵詞提取可幫助識(shí)別文本中的情感詞,從而判斷文本的情感傾向。同時(shí),基于關(guān)鍵字的組合,可提取用戶的標(biāo)簽特性,形成對(duì)用戶的畫像描述。關(guān)鍵詞提取的作用和應(yīng)用場(chǎng)景關(guān)鍵詞提取在以下應(yīng)用場(chǎng)景中常見:7.4中文分詞與關(guān)鍵字提取在自然語(yǔ)言處理和信息檢索領(lǐng)域,詞頻統(tǒng)計(jì)是一種常見的方法,用于衡量一個(gè)詞語(yǔ)在文本中的重要性。TF(TermFrequency,詞頻)是其中一種常用的詞頻統(tǒng)計(jì)方法。TF(TermFrequency,詞頻)是一種用于衡量一個(gè)詞在文本中重要性的統(tǒng)計(jì)方法。它表示某個(gè)詞在文檔中出現(xiàn)的頻率,計(jì)算方式為該詞在文檔中出現(xiàn)的次數(shù)除以文檔總詞數(shù)。TF有助于我們了解一個(gè)詞在文檔中的重要程度。一般來(lái)說(shuō),一個(gè)詞在文檔中出現(xiàn)的次數(shù)越多,它對(duì)于該文檔的主題的貢獻(xiàn)越大。因此,在搜索引擎中,當(dāng)計(jì)算文檔與關(guān)鍵詞的相關(guān)性時(shí),TF是一個(gè)重要的因素之一。使用TF提取關(guān)鍵字7.4中文分詞與關(guān)鍵字提取使用TF提取關(guān)鍵字代碼實(shí)現(xiàn):基于詞頻統(tǒng)計(jì)提取關(guān)鍵字1importjieba2fromcollectionsimportCounter3text="異常數(shù)據(jù)通常被認(rèn)定是一種“噪音”。產(chǎn)生數(shù)據(jù)“噪音”的原因很多,例如業(yè)務(wù)運(yùn)營(yíng)操作、數(shù)據(jù)采

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論