Python數(shù)據(jù)分析與應(yīng)用課件第12、13章 Seaborn；Sklearn

上傳人：q*** IP屬地：山東上傳時(shí)間：2024-12-14 格式：PPT 頁(yè)數(shù)：50 大?。?71KB 積分：20 舉報(bào) 版權(quán)申訴

Python數(shù)據(jù)分析與應(yīng)用課件第12、13章 Seaborn；Sklearn_第2頁(yè)

Python數(shù)據(jù)分析與應(yīng)用課件第12、13章 Seaborn；Sklearn_第3頁(yè)

Python數(shù)據(jù)分析與應(yīng)用課件第12、13章 Seaborn；Sklearn_第4頁(yè)

Python數(shù)據(jù)分析與應(yīng)用課件第12、13章 Seaborn；Sklearn_第5頁(yè)

已閱讀5頁(yè)，還剩45頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第12章Seaborn

《Python數(shù)據(jù)分析與應(yīng)用》SeabornSeaborn是基于matplotlib的圖形可視化python包，便于做出各種統(tǒng)計(jì)圖表。Pandas與Seaborn都是使用matplotlib作圖，但是兩者區(qū)別較大，如下所示：（1）Pandas善于簡(jiǎn)單繪圖，而更豐富的圖使用Seaborn繪制。（2）Pandas沒(méi)有太多的參數(shù)優(yōu)化圖形，Seaborn提供大量參數(shù)調(diào)整圖形。安裝Seaborn繪圖特色Matplotlib繪圖Seaborn繪圖importmatplotlib.pyplotaspltx=[1,3,5,7,9,11,13,15,17,19]y_bar=[3,4,6,8,9,10,9,11,7,8]y_line=[2,3,5,7,8,9,8,10,6,7]plt.bar(x,y_bar)plt.plot(x,y_line,'-o',color='y‘)importmatplotlib.pyplotaspltx=[1,3,5,7,9,11,13,15,17,19]y_bar=[3,4,6,8,9,10,9,11,7,8]y_line=[2,3,5,7,8,9,8,10,6,7]importseabornassnssns.set()#聲明使用Seaborn樣式plt.bar(x,y_bar)plt.plot(x,y_line,'-o',color='y‘)相比于Matplotlib默認(rèn)的純白色背景，Seaborn默認(rèn)的淺灰色網(wǎng)格背景看起來(lái)的確要細(xì)膩舒適一些。而柱狀圖的色調(diào)、坐標(biāo)軸的字體大小也都有一些變化。圖表分類（1）矩陣圖（2）回歸圖（3）關(guān)聯(lián)圖（4）類別圖（5）分布圖數(shù)據(jù)集seaborn內(nèi)置數(shù)據(jù)集，包括常見(jiàn)的泰坦尼克、鳶尾花等經(jīng)典數(shù)據(jù)集。

使用load_dataset函數(shù)調(diào)用數(shù)據(jù)集。繪圖設(shè)置繪圖元素主題設(shè)置調(diào)色板設(shè)置繪圖元素

seaborn通過(guò)set_context方法設(shè)置繪圖元素參數(shù)，主要影響標(biāo)簽、線條和其他元素的效果，與style有點(diǎn)區(qū)別，不會(huì)影響整體的風(fēng)格。語(yǔ)法如下所示：seaborn.set_context(context=None,font_scale=1,rc=None)主題設(shè)置Seaborn通過(guò)set_style設(shè)置darkgrid,whitegrid,dark,white,ticks5種主題風(fēng)格。其中，white和ticks包含沒(méi)有必要的上邊框和右邊框。另外，sns.despine()用于去掉圖形右邊和上面的邊線。調(diào)色板顏色不但代表各種特征，而且提高整個(gè)圖的觀賞性。Seaborn使用color_palette函數(shù)實(shí)現(xiàn)分類色板。繪圖seaborn共有5個(gè)大類21種圖。（1）關(guān)系類圖表（Relationalplots）（2）分類圖表（Categoricalplots）（3）分布圖（Distributionplot）（4）回歸圖（Regressionplots）（5）矩陣圖（Matrixplots）直方圖Seaborn提供distplot函數(shù)實(shí)現(xiàn)importnumpyasnpimportmatplotlib.pyplotaspltimportseabornassns#生成100個(gè)成標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)數(shù)x=np.random.normal(size=100)

#kde=True，進(jìn)行核密度估計(jì)sns.distplot(x,kde=True)#密度曲線KDEplt.show()核密度圖

核密度圖一般與直方圖搭配使用，顯示數(shù)據(jù)的分布的“疏密程度”，核密度圖顯示為擬合后的曲線，“峰”越高表示數(shù)據(jù)越“密集”。Seaborn提供kdeplot函數(shù)實(shí)現(xiàn)。importnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsnp.random.seed(4)#設(shè)置隨機(jī)數(shù)種子Gaussian=np.random.normal(0,1,1000)#創(chuàng)建一組平均數(shù)為0，標(biāo)準(zhǔn)差為1，總個(gè)數(shù)為1000的符合標(biāo)準(zhǔn)正態(tài)分布的數(shù)據(jù)ax.hist(Gaussian,bins=25,histtype="stepfilled",normed=True,alpha=0.6)sns.kdeplot(Gaussian,shade=True)plt.show()散點(diǎn)圖Seaborn提供stripplot函數(shù)實(shí)現(xiàn)。importseabornassnsimportmatplotlib.pyplotaspltsns.set(style="whitegrid",color_codes=True)tips=sns.load_dataset("tips")#“小費(fèi)”數(shù)據(jù)集sns.stripplot(data=tips)plt.show()箱型圖Seaborn提供boxplot函數(shù)實(shí)現(xiàn)。importseabornassnsimportmatplotlib.pyplotasplt

sns.set_style("whitegrid")tips=sns.load_dataset("tips")#載入自帶數(shù)據(jù)集“tips”,研究三個(gè)變量關(guān)系,是否抽煙與日期為分類變量,消費(fèi)是連續(xù)變量#結(jié)論發(fā)現(xiàn)吸煙者在周末消費(fèi)明顯大于不吸煙的人ax=sns.boxplot(x="day",y="total_bill",hue="smoker",data=tips,palette="Set3")plt.show()小提琴圖

小提琴圖其實(shí)是箱線圖與核密度圖的結(jié)合，箱線圖展示了分位數(shù)的位置，小提琴圖用于展示任意位置的密度。通過(guò)小提琴圖可以知道哪些位置的密度較高。在小提琴圖中，白點(diǎn)是中位數(shù)，黑色盒形的范圍是上四分位點(diǎn)和下四分位點(diǎn)，細(xì)黑線表示須，表示離群點(diǎn)的離群程度，越長(zhǎng)表示離群點(diǎn)越遠(yuǎn)。鳶尾花（Iris）數(shù)據(jù)集每類50個(gè)數(shù)據(jù)，每個(gè)數(shù)據(jù)包含花萼長(zhǎng)度（sepallength）、花萼寬度（sepalwidth）、花瓣長(zhǎng)度（petallength）、花瓣寬度（petalwidth）4個(gè)屬性條形圖Seaborn提供barplot函數(shù)實(shí)現(xiàn)。importseabornassnsimportnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltx=np.arange(8)y=np.array([1,5,3,6,2,4,5,6])df=pd.DataFrame({"x-axis":x,"y-axis":y})sns.barplot("x-axis","y-axis",palette="RdBu_r",data=df)plt.xticks(rotation=90)plt.show()熱力圖Seaborn提供heatmap函數(shù)實(shí)現(xiàn)。importnumpyasnp;np.random.seed(0)importseabornassns;sns.set()importmatplotlib.pyplotaspltuniform_data=np.random.rand(10,12)f,ax=plt.subplots(figsize=(9,6))ax=sns.heatmap(uniform_data)plt.show()點(diǎn)圖Seaborn提供pointplot函數(shù)實(shí)現(xiàn)。importmatplotlib.pyplotaspltimportseabornassnsplt.figure(dpi=150)tips=sns.load_dataset("tips")sns.pointplot(x="time",y="total_bill",data=tips)多變量圖Seaborn提供jointplot函數(shù)實(shí)現(xiàn)。importseabornassnsimportmatplotlib.pyplotasplt

data=sns.load_dataset("exercise")sns.jointplot(x="id",y="pulse",data=data)plt.show()等高線圖

importseabornassnsimportmatplotlib.pyplotaspltdata=sns.load_dataset("exercise")sns.jointplot(x="id",y="pulse",kind="kde",data=data)#參數(shù)kind="kde"plt.show()第12章Sklearn

《Python數(shù)據(jù)分析與應(yīng)用》SklearnScikit-learn(sklearn)是機(jī)器學(xué)習(xí)中常用的第三方模塊，對(duì)常用的機(jī)器學(xué)習(xí)方法進(jìn)行了封裝，具有分類、回歸、聚類、降維、模型選擇、預(yù)處理六大模塊

Sklearn（1）分類：識(shí)別某個(gè)對(duì)象屬于哪個(gè)類別，常用的算法有：SVM（支持向量機(jī)）、KNN（最近鄰）、randomforest（隨機(jī)森林）。（2）回歸：預(yù)測(cè)與對(duì)象相關(guān)聯(lián)的連續(xù)值屬性，常見(jiàn)的算法有：SVR（支持向量機(jī)）、ridgeregression（嶺回歸（3）聚類：將相似對(duì)象自動(dòng)分組，常用的算法有：spectralclustering、K-means。Sklearn（4）降維：減少要考慮的隨機(jī)變量的數(shù)量，常見(jiàn)的算法有：PCA（主成分分析）、featureselection（特征選擇）。（5）模型選擇：用于比較、驗(yàn)證、選擇參數(shù)和模型，常用的模塊有：gridsearch（網(wǎng)格搜索）、crossvalidation（交叉驗(yàn)證）、metrics（度量）。（6）預(yù)處理：包括數(shù)據(jù)清洗和特征提取，常用的模塊有preprocessing（數(shù)據(jù)預(yù)處理）和featureextraction（特征提?。?。無(wú)監(jiān)督學(xué)習(xí)算法算

法

說(shuō)

明cluster 聚類Decomposition因子分解Mixture高斯混合模型neural_network無(wú)監(jiān)督的神經(jīng)網(wǎng)絡(luò)Covariance協(xié)方差估計(jì)有監(jiān)督學(xué)習(xí)算

法

說(shuō)

明tree決策樹svm支持向量機(jī)neighbors近鄰算法linear_model廣義線性模型neural_network神經(jīng)網(wǎng)絡(luò)kernel_ridge嶺回歸naive_bayes

樸素貝葉斯數(shù)據(jù)轉(zhuǎn)換模

塊

說(shuō)

明feature_extraction特征提取feature_selection特征選擇preprocessing預(yù)處理評(píng)價(jià)指標(biāo)術(shù)

語(yǔ)Sklearn函數(shù)混淆矩陣confusion_matrix準(zhǔn)確率accuracy_score召回率recall_scoref1_scoref1_scoreROC曲線roc_curveAUC面積roc_auc_score分類評(píng)估報(bào)告classification_report安裝SklearnSklearn數(shù)據(jù)集

機(jī)器學(xué)習(xí)領(lǐng)域有句話：“數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限而已?！?/p>

數(shù)據(jù)作為機(jī)器學(xué)習(xí)的最關(guān)鍵要素，決定著模型選擇、參數(shù)的設(shè)定和調(diào)優(yōu)。Sklearn的數(shù)據(jù)集是datasets模塊，導(dǎo)入數(shù)據(jù)集代碼如下所示： fromsklearnimportdatasets sklearn提供三種數(shù)據(jù)集，分別是小數(shù)據(jù)集、大數(shù)據(jù)集和生成數(shù)據(jù)集。Sklearn小數(shù)據(jù)集Sklearn大數(shù)據(jù)集Sklearn生成數(shù)據(jù)集劃分?jǐn)?shù)據(jù)集根據(jù)數(shù)據(jù)集的特點(diǎn)，有留出法、交叉驗(yàn)證法和自助法等，具體如下所示：數(shù)據(jù)集較小且可以有效劃分訓(xùn)練集/測(cè)試集的時(shí)候，采用留出法。數(shù)據(jù)集較小且難以有效劃分訓(xùn)練集/測(cè)試集的時(shí)候，采用自助法。數(shù)據(jù)集數(shù)量充足時(shí)，通常采用留出法或者k折交叉驗(yàn)證法。K近鄰算法KNN具有如下個(gè)步驟：步驟1：

算距離。計(jì)算待分類樣本Xu與已分類樣本點(diǎn)的距離，計(jì)算距離有等方法。步驟2：

找鄰居。圈定與待分類樣本距離最近的3個(gè)已分類樣本，作為待分類樣本的近鄰。步驟3：

做分類。根據(jù)3個(gè)近鄰中的多數(shù)樣本所屬的類別來(lái)決定待分類樣本，將Xu的類別預(yù)測(cè)為ω1。K近鄰算法Sklearn提供了KneighborsClassifier解決分類問(wèn)題

KNeighborsClassifier(n_neighbors,weights,algorithm,leaf_size,p)

決策樹通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類，將在不同條件下得到不同的結(jié)果的決策過(guò)程繪制成圖形，很像一棵倒立的樹。這種從數(shù)據(jù)產(chǎn)生決策樹的機(jī)器學(xué)習(xí)技術(shù)叫做決策樹（DecisionTrees，縮寫DT）。決策樹類似于流程圖的樹結(jié)構(gòu)，采用IF……THEN的思路，每個(gè)葉結(jié)點(diǎn)對(duì)應(yīng)一個(gè)分類，非葉結(jié)點(diǎn)對(duì)應(yīng)著某個(gè)屬性上的劃分，根據(jù)樣本在該屬性上的不同取值將其劃分為若干子集。決策樹Sklearn提供DecisionTreeClassifier用于分類變量，具體語(yǔ)法如下所示DecisionTreeClassifier(criterio,splitter,max_depth,min_samples_split)參數(shù)解釋如下所示：criterion：內(nèi)置標(biāo)準(zhǔn)為gini（基尼系數(shù)）或者entropy（信息熵）。splitter:切割方法，如splitter=’best’max_depth：決策樹最大深度min_samples_split:最少切割樣本的數(shù)量線性模型線性模型是用直線最大可能地?cái)M合所有數(shù)據(jù)特征，利用數(shù)理統(tǒng)計(jì)中回歸分析確定變量間相互依賴的定量關(guān)系。根據(jù)自變量數(shù)目分為一元線性回歸和多元線性回歸，一元線性回歸是指自變量為單一特征，數(shù)學(xué)表達(dá)形式如下所示。參數(shù)w是指直線的斜率，b是指截距。線性模型

sklearn的linear_model模塊的LinearRegression函數(shù)實(shí)現(xiàn)，具體語(yǔ)法如下所示：sklearn.linear_model.LinearRegression(fit_intercept=True)參數(shù)：fit_intercept：是否計(jì)算截距，默認(rèn)為計(jì)算。屬性：coef_：回歸系數(shù)(斜率)。intercept_:截距樸素貝葉斯

樸素貝葉斯模型或樸素貝葉斯分類器(NaiveBayesClassifier，簡(jiǎn)稱NBC)發(fā)源于古典數(shù)學(xué)理論，是基于貝葉斯理論與特征條件獨(dú)立假設(shè)的分類方法

，通過(guò)單獨(dú)考量每一特征被分類的條件概率，做出分類預(yù)測(cè)。貝葉斯算法具有如下優(yōu)點(diǎn)：（1）有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)，以及穩(wěn)定的分類效率。（2）所需估計(jì)的參數(shù)很少，對(duì)缺失數(shù)據(jù)不太敏感，算法也比較簡(jiǎn)單。樸素貝葉斯

Sklearn提供GaussianNB用于高斯分布，具體語(yǔ)法如下所示：GaussianNB(priors=True)GaussianNB類的主要參數(shù)僅有一個(gè)，即先驗(yàn)概率priorsSklearn提供MultinomialNB用于多項(xiàng)式分布，具體語(yǔ)法如下所示：MultinomialNB(alpha=1.0,fit_prior=True,class_prior=None)MultinomialNB參數(shù)比GaussianNB多，3個(gè)參數(shù)含義如下所示：alpha:先驗(yàn)平滑因子，默認(rèn)等于1，當(dāng)?shù)扔?時(shí)表示拉普拉斯平滑fit_prior:是否去學(xué)習(xí)類的先驗(yàn)概率，默認(rèn)是True。class_prior:各個(gè)類別的先驗(yàn)概率。支持向量機(jī)

支持向量機(jī)（SupportVectorMachine,縮寫SVM）的基本思想是在N維數(shù)據(jù)找到N-1維的超平面（hyperplane）作為分類的決策邊界。確定超平面的規(guī)則是找到離超平面最近的那些點(diǎn)，使這些點(diǎn)離超平面的距離盡可能遠(yuǎn)。離超平面最近的實(shí)心圓和空心圓稱為支持向量，超平面的距離之和稱為“間隔距離”，“間隔距離”越大，分類的準(zhǔn)確率越高。

支持向量機(jī)

kernel參數(shù)取值為linear，如下所示：SVC(kernel='linear',C)參數(shù)解釋如下：C:

懲罰系數(shù)，用來(lái)控制損失函數(shù)的懲罰系數(shù)，類似于LR中的正則化系數(shù)。C越大，相當(dāng)于懲罰松弛變量，希望松弛變量接

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

Python數(shù)據(jù)分析與應(yīng)用課件第12、13章 Seaborn；Sklearn

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

Python數(shù)據(jù)分析與應(yīng)用 課件 第12、13章 Seaborn；Sklearn

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

Python數(shù)據(jù)分析與應(yīng)用課件第12、13章 Seaborn；Sklearn