人工智能數(shù)據(jù)服務(wù) 課件 3-5 項目三 任務(wù)3-5 特征工程_第1頁
人工智能數(shù)據(jù)服務(wù) 課件 3-5 項目三 任務(wù)3-5 特征工程_第2頁
人工智能數(shù)據(jù)服務(wù) 課件 3-5 項目三 任務(wù)3-5 特征工程_第3頁
人工智能數(shù)據(jù)服務(wù) 課件 3-5 項目三 任務(wù)3-5 特征工程_第4頁
人工智能數(shù)據(jù)服務(wù) 課件 3-5 項目三 任務(wù)3-5 特征工程_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

任務(wù)3-5從數(shù)據(jù)到智慧的橋梁:特征工程5知識&技能圖譜特征工程是機器學(xué)習(xí)模型構(gòu)建的關(guān)鍵環(huán)節(jié)。無論是圖像識別中的像素值、聲音分析中的頻譜特征,還是金融預(yù)測中的市場指標(biāo),特征工程都發(fā)揮著至關(guān)重要的作用。這些原始數(shù)據(jù)本身可能復(fù)雜且難以理解,但正是通過特征工程,我們能夠從中提取出有意義的信息,將其轉(zhuǎn)化為模型能夠利用的特征。然而,計算機模型并不能像人類專家那樣直接理解這些原始數(shù)據(jù)的內(nèi)在含義。它們需要明確、量化的特征輸入,以便進(jìn)行有效的學(xué)習(xí)和預(yù)測。因此,特征工程的任務(wù)就是將原始數(shù)據(jù)轉(zhuǎn)化為模型能夠理解的格式和結(jié)構(gòu)。本任務(wù)將從Scikit-learn的內(nèi)置數(shù)據(jù)集中加載鳶尾花數(shù)據(jù)集以及一些隨機生成的數(shù)據(jù)集,利用python的pandas模塊,完成給數(shù)據(jù)的特征提取。部分?jǐn)?shù)據(jù)集如圖所示,文本包含多方面內(nèi)容。實驗圖像實驗圖像3.5.1特征工程的定義特征工程是指在機器學(xué)習(xí)和數(shù)據(jù)科學(xué)中,利用領(lǐng)域知識和數(shù)據(jù)分析技術(shù)對原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換、提取和選擇,以創(chuàng)建能夠有效訓(xùn)練機器學(xué)習(xí)模型的特征集的過程。特征工程的過程對數(shù)據(jù)集中的特征進(jìn)行深入理解和加工,提高模型的預(yù)測性能和泛化能力。數(shù)據(jù)清洗3.5.1特征工程的定義特征工程包括數(shù)據(jù)清洗、特征提取、特征轉(zhuǎn)換以及特征選擇等步驟,通過這些步驟,可以將原始數(shù)據(jù)轉(zhuǎn)化為更具代表性和可解釋性的特征集,有助于機器學(xué)習(xí)模型更準(zhǔn)確地捕捉數(shù)據(jù)的模式和規(guī)律,從而提高模型的預(yù)測能力和魯棒性。數(shù)據(jù)清洗3.5.1特征工程的定義在特征工程的實踐中,數(shù)據(jù)科學(xué)家需要針對具體的問題領(lǐng)域和數(shù)據(jù)特點,精心設(shè)計特征工程流程,以確保所構(gòu)建的特征集能夠最大程度地表達(dá)數(shù)據(jù)的特征和規(guī)律。特征工程的目標(biāo)是通過對數(shù)據(jù)進(jìn)行合理的加工和轉(zhuǎn)換,提取出對模型預(yù)測有重要影響的信息,并剔除對模型預(yù)測無益或冗余的信息,從而提高機器學(xué)習(xí)模型的效果。數(shù)據(jù)清洗3.5.1特征工程的定義因此,特征工程在整個機器學(xué)習(xí)任務(wù)中占據(jù)著至關(guān)重要的地位,它直接影響著模型的性能和預(yù)測能力,是數(shù)據(jù)科學(xué)中不可或缺的環(huán)節(jié)。通過精心設(shè)計的特征工程流程,數(shù)據(jù)科學(xué)家可以充分挖掘數(shù)據(jù)潛在的信息和規(guī)律,為機器學(xué)習(xí)模型的訓(xùn)練和應(yīng)用提供更加可靠和有效的特征表示。數(shù)據(jù)清洗3.5.2特征工程的應(yīng)用場景特征工程在機器學(xué)習(xí)、自然語言處理、圖像處理、時間序列分析、金融風(fēng)控、推薦系統(tǒng)以及醫(yī)療健康等領(lǐng)域具有廣泛的應(yīng)用場景:數(shù)據(jù)清洗3.5.2特征工程的應(yīng)用場景(1)機器學(xué)習(xí):特征工程是構(gòu)建高效模型的關(guān)鍵步驟。通過對原始數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換和特征選擇,特征工程能夠提取出對模型訓(xùn)練有重要影響的特征,從而提高模型的預(yù)測準(zhǔn)確性和泛化能力。無論是圖像分類、語音識別還是時間序列預(yù)測,特征工程都能為機器學(xué)習(xí)模型提供更好的輸入,使其在處理復(fù)雜任務(wù)時更加高效和準(zhǔn)確。數(shù)據(jù)清洗3.5.2特征工程的應(yīng)用場景(2)自然語言處理:在文本分類、情感分析、命名實體識別等任務(wù)中,特征工程包括文本分詞、詞袋模型構(gòu)建、TF-IDF特征提取、詞嵌入表示等,以提取文本數(shù)據(jù)中的信息并轉(zhuǎn)化為機器學(xué)習(xí)可用的特征。數(shù)據(jù)清洗3.5.2特征工程的應(yīng)用場景(3)圖像處理:在圖像識別、目標(biāo)檢測、圖像分割等領(lǐng)域,特征工程涉及圖像預(yù)處理、特征提取、特征編碼等操作,以將圖像數(shù)據(jù)轉(zhuǎn)化為適合機器學(xué)習(xí)算法處理的特征表示。(4)時間序列分析:在股票預(yù)測、交通流量預(yù)測、天氣預(yù)報等任務(wù)中,特征工程涉及時間序列數(shù)據(jù)的滑動窗口、滯后特征、季節(jié)性特征等構(gòu)建,以捕捉數(shù)據(jù)的周期性和趨勢。數(shù)據(jù)清洗3.5.2特征工程的應(yīng)用場景(5)金融風(fēng)控:在信用評分、欺詐檢測等領(lǐng)域,特征工程包括對客戶信息、交易記錄等數(shù)據(jù)進(jìn)行特征構(gòu)建和組合,以提高風(fēng)險預(yù)測和決策的準(zhǔn)確性。數(shù)據(jù)清洗3.5.2特征工程的應(yīng)用場景(6)推薦系統(tǒng):通過對用戶的興趣偏好、歷史行為、社交關(guān)系等數(shù)據(jù)進(jìn)行特征提取和分析,特征工程能夠構(gòu)建出精確的用戶畫像,為推薦算法提供更準(zhǔn)確的目標(biāo)用戶群體。這有助于提升推薦系統(tǒng)的推薦效果,提高用戶滿意度和轉(zhuǎn)化率。數(shù)據(jù)清洗3.5.2特征工程的應(yīng)用場景(7)醫(yī)療健康:在醫(yī)學(xué)影像分析、疾病診斷等任務(wù)中,特征工程涉及醫(yī)療數(shù)據(jù)的特征提取、特征選擇、特征轉(zhuǎn)換等過程,以輔助醫(yī)生進(jìn)行診斷和治療。數(shù)據(jù)清洗3.5.2特征工程的應(yīng)用場景特征工程在各個領(lǐng)域的數(shù)據(jù)科學(xué)和機器學(xué)習(xí)任務(wù)中都扮演著至關(guān)重要的角色,通過精心設(shè)計和實施合適的特征工程流程,可以提高模型的性能和泛化能力,從而更好地解決實際問題并取得更好的預(yù)測效果。數(shù)據(jù)清洗3.5.3特征提取3.5.3特征提取特征提取的目標(biāo)是從原始數(shù)據(jù)中提煉出最具代表性和信息豐富的特征,以便為機器學(xué)習(xí)模型提供有效的輸入。特征提取的過程可以幫助減少數(shù)據(jù)維度、消除噪音、突出數(shù)據(jù)中的重要信息,并為后續(xù)的模型訓(xùn)練提供更具有意義的特征表示。數(shù)據(jù)清洗3.5.3特征提取在實際應(yīng)用中,特征提取通常需要結(jié)合領(lǐng)域知識和數(shù)據(jù)分析技巧,以確保提取的特征能夠最大程度地反映數(shù)據(jù)的特性。在特征提取過程中,常用的方法包括基于統(tǒng)計學(xué)的特征提取、基于信息論的特征選擇以及基于領(lǐng)域知識的特征構(gòu)建等。統(tǒng)計學(xué)方法可以通過計算數(shù)據(jù)的均值、方差、相關(guān)性等統(tǒng)計指標(biāo)來提取特征,數(shù)據(jù)清洗3.5.3特征提取例如PCA(主成分分析)可以用來降低數(shù)據(jù)的維度并提取最具代表性的特征。信息論方法則可以利用信息增益、互信息等指標(biāo)來選擇對目標(biāo)變量預(yù)測最具影響力的特征。此外,基于領(lǐng)域知識的特征構(gòu)建可以結(jié)合專業(yè)領(lǐng)域的經(jīng)驗和見解,設(shè)計出符合實際場景需求的特征表示方式,從而提高模型的泛化能力和預(yù)測性能。數(shù)據(jù)清洗3.5.3特征提取1文本特征提取在文本數(shù)據(jù)處理中,特征提取是為了將文本數(shù)據(jù)轉(zhuǎn)換成機器學(xué)習(xí)算法可以理解和處理的數(shù)字形式表示。常見的文本特征提取方法包括詞袋模型和TF-IDF技術(shù)。數(shù)據(jù)清洗3.5.3特征提?。?)詞袋模型:詞袋模型是一種簡單但有效的表示方法,它將文本表示為詞匯的集合,忽略了單詞順序和語法,只考慮詞匯在文本中的出現(xiàn)頻率。通過構(gòu)建文檔-詞語矩陣,將每個文檔表示為一個向量,其中每個元素代表相應(yīng)詞語在文檔中的出現(xiàn)次數(shù),從而實現(xiàn)文本特征的向量化表示。數(shù)據(jù)清洗3.5.3特征提取(2)TF-IDF:另一個常見的文本特征提取方法是TF-IDF(詞頻-逆文檔頻率)技術(shù),它綜合考慮了詞頻和文檔頻率兩個因素。TF指的是詞頻,即某個詞在文檔中出現(xiàn)的頻率;IDF指的是逆文檔頻率,衡量了一個詞的普遍重要性。數(shù)據(jù)清洗3.5.3特征提取TF-IDF通過將詞頻和逆文檔頻率相乘來計算每個詞的權(quán)重,突出了在一個文檔中頻繁出現(xiàn)但在整個語料庫中較少出現(xiàn)的詞匯,從而更好地描述文本特征。TF-IDF技術(shù)可以幫助區(qū)分文檔之間的差異性,將注意力集中在那些具有辨別性的詞語上,提高了文本特征的區(qū)分度。數(shù)據(jù)清洗3.5.3特征提取2圖像特征提取在圖像數(shù)據(jù)處理中,特征提取旨在從原始像素級數(shù)據(jù)中提取出能夠描述圖像內(nèi)容的高級特征,以便機器學(xué)習(xí)算法能夠更好地理解和處理圖像信息。常見的圖像特征提取方法包括顏色直方圖、梯度直方圖和紋理特征等。數(shù)據(jù)清洗3.5.3特征提?。?)顏色直方圖:顏色直方圖是一種描述圖像中顏色分布情況的統(tǒng)計特征。通過將圖像中的像素按照顏色進(jìn)行統(tǒng)計,生成不同顏色通道上的直方圖,可以反映出圖像中各種顏色的分布比例。顏色直方圖在圖像檢索、圖像分類等任務(wù)中具有重要作用,能夠幫助區(qū)分不同類別的圖像。數(shù)據(jù)清洗3.5.3特征提?。?)梯度直方圖:梯度直方圖主要用于捕捉圖像中的邊緣信息。通過計算圖像中每個像素點的梯度值和方向,然后對梯度進(jìn)行統(tǒng)計,生成梯度直方圖,可以揭示圖像中邊緣的分布情況和密集程度。梯度直方圖在目標(biāo)檢測、圖像分割等任務(wù)中發(fā)揮著重要作用,有助于提取圖像中的結(jié)構(gòu)信息。數(shù)據(jù)清洗3.5.3特征提取(3)紋理特征:紋理特征是描述圖像局部紋理變化的重要特征之一。紋理特征可以通過統(tǒng)計圖像像素間的灰度差異、局部結(jié)構(gòu)等信息來描述圖像區(qū)域的紋理特性,幫助區(qū)分不同紋理風(fēng)格的圖像。在紋理識別、表面質(zhì)地分析等領(lǐng)域,紋理特征的提取對于圖像分類和識別具有重要意義。數(shù)據(jù)清洗3.5.3特征提取3音頻特征提取在音頻數(shù)據(jù)處理領(lǐng)域,特征提取旨在將原始聲音信號轉(zhuǎn)換為可供機器學(xué)習(xí)算法處理的高級特征表示。其中,頻譜特征是最常用和有效的聲音特征之一。通過對聲音信號進(jìn)行頻譜分析,可以將聲音信號在頻域上進(jìn)行表征,揭示聲音中不同頻率成分的強度和分布情況。數(shù)據(jù)清洗3.5.3特征提取其中,Mel頻率倒譜系數(shù)(MFCC)是一種經(jīng)典的頻譜特征提取方法,被廣泛應(yīng)用于語音識別、音樂信息檢索等領(lǐng)域。MFCC的計算過程包括將聲音信號分幀、加窗、進(jìn)行傅立葉變換等步驟,最終提取出描述聲音頻譜特征的系數(shù)。MFCC能夠有效地捕捉聲音信號的頻譜特征,降低了特征維度并保留了關(guān)鍵信息,使得聲音數(shù)據(jù)能夠被機器學(xué)習(xí)模型更好地理解和處理。數(shù)據(jù)清洗3.5.3特征提取4統(tǒng)計特征提取基本統(tǒng)計量:包括均值、中位數(shù)、眾數(shù)、標(biāo)準(zhǔn)差、四分位數(shù)等。這些統(tǒng)計量能夠提供數(shù)據(jù)的基本分布情況,有助于了解數(shù)據(jù)的集中趨勢和離散程度。頻數(shù)分析:對于分類數(shù)據(jù),可以統(tǒng)計各類別的頻數(shù)或頻率,以了解數(shù)據(jù)的分布情況。數(shù)據(jù)清洗3.5.3特征提取相關(guān)性分析:使用相關(guān)系數(shù)(如皮爾遜相關(guān)系數(shù))來分析不同列數(shù)據(jù)之間的線性關(guān)系。這有助于識別潛在的關(guān)聯(lián)或趨勢。

特征編碼:對于分類數(shù)據(jù),可以使用獨熱編碼、標(biāo)簽編碼等方法將其轉(zhuǎn)化為數(shù)值型數(shù)據(jù),以便進(jìn)行后續(xù)的分析和建模。數(shù)據(jù)清洗3.5.3特征提取在提取統(tǒng)計特征時,還需要注意數(shù)據(jù)的清洗和預(yù)處理工作,如處理缺失值、異常值、重復(fù)值等,以確保提取到的特征具有代表性和準(zhǔn)確性。數(shù)據(jù)清洗3.5.4特征轉(zhuǎn)換特征轉(zhuǎn)換通過對原始數(shù)據(jù)進(jìn)行變換和映射,可以使數(shù)據(jù)更適合用于模型訓(xùn)練。對數(shù)變換是常見的特征轉(zhuǎn)換方法之一,特別適用于偏態(tài)分布數(shù)據(jù),通過取對數(shù)可以將數(shù)據(jù)轉(zhuǎn)換為近似正態(tài)分布,有助于減輕異常值對模型的影響,提高模型的魯棒性。數(shù)據(jù)清洗3.5.4特征轉(zhuǎn)換特征縮放可將特征值范圍縮放到相似尺度,避免特征單位對模型性能造成負(fù)面影響。特征編碼將非數(shù)值型特征轉(zhuǎn)換為數(shù)值型特征,以便模型處理。數(shù)據(jù)清洗3.5.5特征選擇特征選擇是從已有的多個特征中選擇出最相關(guān)、最有效的特征子集,以使得系統(tǒng)的特定指標(biāo)最優(yōu)化。這是從原始特征中選擇一些最有效的特征來降低數(shù)據(jù)集維度的過程,從而提高學(xué)習(xí)算法的性能。在進(jìn)行特征選擇時,通??紤]以下幾個方面:數(shù)據(jù)清洗3.5.5特征選擇相關(guān)性是特征選擇的一個核心考量因素。相關(guān)性指的是特征與目標(biāo)變量之間的相關(guān)程度,選擇與目標(biāo)變量高度相關(guān)的特征可以提供更有力的預(yù)測能力。數(shù)據(jù)清洗3.5.5特征選擇特征的重要性也是特征選擇的重要指標(biāo)。一些機器學(xué)習(xí)模型(如決策樹、隨機森林)可以提供特征重要性排名,反映了不同特征對模型預(yù)測的貢獻(xiàn)程度。通過分析特征重要性,可以優(yōu)先保留對模型預(yù)測有顯著影響的特征,同時剔除那些貢獻(xiàn)較小或冗余的特征。數(shù)據(jù)清洗3.5.5特征選擇特征選擇還需要考慮特征之間的相關(guān)性。當(dāng)特征之間存在高度相關(guān)性時,可能會引入多重共線性問題,影響模型的穩(wěn)定性和解釋性。因此,在進(jìn)行特征選擇時,需要注意剔除高度相關(guān)的特征,以避免模型過度依賴某些特征而降低泛化能力。數(shù)據(jù)清洗3.5.5特征選擇特征選擇是通過精心篩選、評估和組合特征,提取最具信息量的特征子集,以降低模型復(fù)雜度、減少過擬合風(fēng)險,并加快模型訓(xùn)練和推理速度。數(shù)據(jù)清洗3.5.5特征選擇綜合利用以上方法和技術(shù),結(jié)合領(lǐng)域知識和數(shù)據(jù)特點,進(jìn)行全面而有效的特征選擇是提高機器學(xué)習(xí)模型性能的關(guān)鍵步驟。通過精心設(shè)計特征選擇流程,可以提高模型的預(yù)測準(zhǔn)確性、穩(wěn)定性和解釋性,從而更好地應(yīng)用于實際問題中并取得良好的效果。數(shù)據(jù)清洗64班級:組別:姓名:掌握程度:任務(wù)名稱基于pandas的特征工程任務(wù)目標(biāo)提取給定數(shù)據(jù)的特征操作系統(tǒng)Win10、Win11工具清單Python,pycharm,pandas操作步驟文本特征提取圖像特征提取語音特征提取統(tǒng)計特征提取特征轉(zhuǎn)換特征選擇考核標(biāo)準(zhǔn)按照要求提取合適的特征。步驟一文本特征提取64SUGGESTION1pip命令是Python包管理器,用于安裝、卸載、管理Python包。-U選項用于更新已安裝的包到最新版本。pip安裝scikit-learn,終端輸入:pipinstall-Uscikit-learn。264pip安裝pandas,終端輸入:pipinstallpandas。641本地test1.txt文件文字集展示,如圖:12641代碼示例如下:enumerate()函數(shù)同時列出數(shù)據(jù)和數(shù)據(jù)下標(biāo),常用于for循環(huán)中??梢詭湍阍谘h(huán)中同時獲取數(shù)據(jù)的位置(索引)和內(nèi)容,就像在一本書上標(biāo)頁碼一樣,方便你后續(xù)處理數(shù)據(jù)。1264TfidfVectorizer是scikit-learn庫中用于將文本數(shù)據(jù)轉(zhuǎn)換為TF-IDF特征矩陣的類。TF-IDF是一種用于信息檢索與文本挖掘的常用加權(quán)技術(shù),它可以衡量一個詞在文檔集中的重要程度。比如某些詞可能在一篇文章中出現(xiàn)很多次,但在整個文本集合中卻很少見,這種詞就可能更加重要。get_feature_names_out()方法可以幫你獲取TF-IDF轉(zhuǎn)換后的特征名列表,也就是說,它告訴你每個數(shù)字在TF-IDF矩陣中代表的是什么詞或短語,這樣你就能更好地理解數(shù)字的含義。tfidf_matrix.shape可以告訴你TF-IDF矩陣的形狀,也就是有多少行(文本數(shù)量)和多少列(特征數(shù)量)。fit_transform()方法是將原始文本數(shù)據(jù)轉(zhuǎn)換成TF-IDF特征矩陣的一種方式。它會根據(jù)你提供的文本數(shù)據(jù),先進(jìn)行擬合(fit),然后將數(shù)據(jù)轉(zhuǎn)換(transform)成TF-IDF特征矩陣,這樣你就可以進(jìn)一步分析文本數(shù)據(jù)了。1261代碼運行結(jié)果如右圖和下圖(下頁):14112641步驟二圖像特征提取在運行案例前,請先安裝繪制圖表的相應(yīng)庫,在終端輸入:pipinstallmatplotlib61611這段代碼分別繪制出圖像紅色、綠色和藍(lán)色通道的直方圖,每個直方圖都展示了對應(yīng)顏色通道的像素強度分布。運行結(jié)果如下:61若代碼中沒有設(shè)置圖像顯示中文,則運行結(jié)果的x、y坐標(biāo)標(biāo)簽和標(biāo)題會呈現(xiàn)格子狀,如下:1且出現(xiàn)如下警告:步驟三音頻特征提取64SUGGESTION1我們使用librosa庫,這是一個廣泛用于音樂和音頻分析的Python庫,提供了音頻處理的各種功能,終端輸入:pipinstalllibrosa641我們以ginkiha的SnowyTown這一音樂音頻來進(jìn)行案例的測試。代碼實例如下:64SUGGESTION1運行結(jié)果如下:641音頻特征提取主要有以下用途:1.語音識別通過提取音頻中的特征,如梅爾頻率倒譜系數(shù)(MFCCs),可以讓機器理解并轉(zhuǎn)換人類語音為文本,這是智能助手、語音命令控制和自動字幕生成等技術(shù)的基礎(chǔ)。2.音樂信息檢索在音樂數(shù)據(jù)庫中,音頻特征被用來索引和分類音樂,用戶可以通過哼唱、描述音樂風(fēng)格或旋律來搜索音樂。它也用于個性化推薦,根據(jù)用戶的喜好推薦相似的歌曲或藝術(shù)家。3.情感分析音頻特征可以揭示說話者或演唱者的情感狀態(tài),這對于創(chuàng)建能夠理解人類情感反應(yīng)的交互系統(tǒng)至關(guān)重要,比如客戶服務(wù)機器人或心理健康監(jiān)測應(yīng)用。6414.噪聲抑制和語音增強在通信、錄音和會議系統(tǒng)中,通過分析音頻特征,可以識別并減少背景噪音,提高語音的清晰度和可理解性。5.音頻分類在安全監(jiān)控、生物聲學(xué)研究或內(nèi)容過濾中,音頻特征用于自動識別特定類型的音頻事件,如槍聲檢測、鳥鳴識別或非法內(nèi)容過濾。6.音頻同步和編輯在視頻制作、電影后期制作以及音頻編輯軟件中,準(zhǔn)確的音頻特征提取有助于同步音頻和視頻內(nèi)容,以及進(jìn)行高級編輯操作,如去除回聲或進(jìn)行音質(zhì)優(yōu)化。7.健康監(jiān)測呼吸聲、心跳聲等生物聲音的特征提取可用于遠(yuǎn)程健康監(jiān)測,幫助診斷呼吸系統(tǒng)疾病、心臟問題等。步驟四統(tǒng)計特征提取64SUGGESTION1代碼示例如下:64SUGGESTION1下面是代碼運行結(jié)果及其詳細(xì)分析。1.df變量及基本統(tǒng)計量:代碼運行結(jié)果:64SUGGESTION1關(guān)于基本統(tǒng)計信息,以下是統(tǒng)計量的簡要解釋:Count每一列非空值的數(shù)量。例如,"Age"列有6個有效數(shù)據(jù)點,意味著年齡數(shù)據(jù)完整無缺失。Unique顯示每一列中唯一值的數(shù)量。對于"Education"列顯示為NaN,因為在使用describe(include='all')時,獨特計數(shù)對于非數(shù)值列并不適用,通常應(yīng)查看value_counts()結(jié)果來獲取此類信息。Top顯示每一列中最常出現(xiàn)的值及其頻率。例如,在"Education"列中,"Bachelor"是最常出現(xiàn)的類別,出現(xiàn)了3次。Freq對應(yīng)于"Top"列,表示最常出現(xiàn)值的頻數(shù)。在這里,"Bachelor"出現(xiàn)了3次。Mean平均值,表示數(shù)據(jù)集中的平均數(shù)。例如,"Age"的平均值約為34.33歲,"Income"的平均收入約為63,333.33美元。Std標(biāo)準(zhǔn)差,衡量數(shù)據(jù)點與平均值的偏差程度。數(shù)值越大,說明數(shù)據(jù)越分散;反之,數(shù)據(jù)越集中。"Age"的標(biāo)準(zhǔn)差約為11.11,"Income"的標(biāo)準(zhǔn)差約為14,023.79。Min最小值,數(shù)據(jù)集中的最低數(shù)值。25%第一四分位數(shù)(Q1),數(shù)據(jù)中小于或等于該值的數(shù)值占總體的25%.Median中位數(shù),數(shù)據(jù)排序后位于中間的數(shù),反映數(shù)據(jù)的中心位置。75%第三四分位數(shù)(Q3),數(shù)據(jù)中小于或等于該值的數(shù)值占總體的75%。64SUGGESTION12.Education的頻數(shù)分析、Age和Income相關(guān)性分析:代碼運行結(jié)果:641在頻數(shù)分析的結(jié)果中,Education列展示了不同教育程度的頻數(shù),即每種教育水平出現(xiàn)的次數(shù)。

Bachelor(學(xué)士學(xué)位)出現(xiàn)了3次。

Master(碩士學(xué)位)出現(xiàn)了2次。

PhD(博士學(xué)位)出現(xiàn)了1次。在所分析的數(shù)據(jù)集中,擁有學(xué)士學(xué)位的人數(shù)最多,其次是碩士學(xué)位,博士學(xué)位人數(shù)最少。而相關(guān)性分析的結(jié)果是一個相關(guān)系數(shù)矩陣,用于量化兩個變量之間的線性關(guān)系強度和方向。這里使用的是皮爾遜相關(guān)系數(shù),其值范圍從-1到1。Age與Age的相關(guān)系數(shù)為1.0000任何變量與自身完全相關(guān),相關(guān)系數(shù)為1,表示完全正相關(guān)。Age與Income的相關(guān)系數(shù)為0.6524這意味著年齡與收入之間存在正向的線性關(guān)系。系數(shù)接近1但小于1,表明隨著年齡的增長,收入傾向于增加,但這種關(guān)系不是絕對的,存在一定的變異性。相關(guān)系數(shù)的絕對值大于0.5通常被認(rèn)為是中等到強相關(guān)。Income與Income的相關(guān)系數(shù)為1.0000同理,收入與自身完全相關(guān)。64SUGGESTION1年齡與收入之間存在中等到強的正相關(guān)關(guān)系,意味著在所分析的數(shù)據(jù)集中,一般情況下年齡較大的個體傾向于有較高的收入,但這并不意味著每一個年齡增長的個體收入都會增加,因為相關(guān)性不等于因果關(guān)系,還有其他因素可能影響收入。3.Education的特征編碼代碼運行結(jié)果:641在特征編碼的結(jié)果中,原始數(shù)據(jù)中的分類變量"Education"已經(jīng)被轉(zhuǎn)換成了啞變量(One-HotEncoding)形式,即將每個類別轉(zhuǎn)化為一個單獨的二進(jìn)制特征列。具體轉(zhuǎn)換如下:Education_Bachelor如果原始數(shù)據(jù)中"Education"列為"Bachelor",則此列為True,否則為False。Education_Master如果原始數(shù)據(jù)中"Education"列為"Master",則此列為True,否則為False。Education_PhD如果原始數(shù)據(jù)中"Education"列為"PhD",則此列為True,否則為False。這種編碼方式使得分類數(shù)據(jù)可以被機器學(xué)習(xí)算法直接處理,因為算法通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論