版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
啞變量處理類別型數(shù)據(jù)教師:亢華愛北京信息職業(yè)技術(shù)學(xué)院商務(wù)數(shù)據(jù)分析與應(yīng)用專業(yè)教學(xué)資源庫目錄Contents啞變量處理類別型數(shù)據(jù)概述1PART概述概述啞變量又稱虛擬變量、名義變量從名稱上看就知道,它是人為虛設(shè)的變量,.用來反映某個變量的不同類別使用啞變量處理類別轉(zhuǎn)換,事實上就是將分類變量轉(zhuǎn)換為啞變量矩陣或指標(biāo)矩陣,矩陣的值通常用“0”或“1”表示。概述假設(shè)變量“職業(yè)”的取值分別為司機、學(xué)生、導(dǎo)游、工人、教師共5種選項,如果使用啞變量表示,則可以分別表示為col_司機(1=司機/0=非司機)、col_學(xué)生(1=學(xué)生/0=非學(xué)生)、col_導(dǎo)游(1=導(dǎo)游/0=非導(dǎo)游)、col_工人(1=工人/0=非工人)、col_教師(1=教師/0=非教師),使用啞變量處理后的結(jié)果如圖所示啞變量概述可以使用get_dummies()函數(shù)對類別特征進(jìn)行啞變量處理,其語法格式如下在Pandas中Pandas.get_dummies(data,prefix=None,prefix_sep='_',dununy_na=False,
columns=None,sparse=False,drop_first=False,dtype=None)概述參數(shù)含義(1)data:可接收數(shù)組、DataFrame或Series對象,表25啞變量處理的數(shù)據(jù)。(2)prefix:表示列名的前綴,默認(rèn)為None。(3)prefix_sep:用于附加前綴作為分隔符使用,默認(rèn)為“_”。(4)dummy_na:表示是否為NaN值添加一列,默認(rèn)為False。(5)columns:表示DataFrame要編碼的列名,默認(rèn)為None。(6)sparse:表示虛擬列是否是稀疏的,默認(rèn)為False。(7)drop_first:是否通過從k個分類級別中刪除第一個級來獲得k-1個分類級別,默認(rèn)為False2PART啞變量處理類別型數(shù)據(jù)接下來,通過一個示例來演示通過get_dummies()函數(shù)進(jìn)行啞變量處理的效果,具體代碼如下In[45]:importpandasaspddf1=pd.DataFrame({'職業(yè)':['工人','學(xué)生','司機','教師','導(dǎo)游']})pd.get_dummies(df1,prefix=['col_']) #啞變量處理Out[45]:col_司機
co1_學(xué)生
col_導(dǎo)游col_工人 col_教師00001010100021 0 0 0 030 00 0 140 0 1 0 0啞變量處理類別型數(shù)據(jù)啞變量處理類別型數(shù)據(jù)上述示例中創(chuàng)建了一個DataFrame對象df1,接著調(diào)用了get_dummies()函數(shù)進(jìn)行啞變量處理,將數(shù)據(jù)變成啞變量矩陣,每個特征數(shù)據(jù)(如學(xué)生)為單獨一列,通過prefix參數(shù)給每個列名添加了前綴“col”,并用“_”進(jìn)行連接,使其變?yōu)閏ol_司機、col_學(xué)生、col_導(dǎo)游、col_工人、col_教師。通過輸出結(jié)果可以看岀,一旦原始數(shù)據(jù)中的值在矩陣中出現(xiàn),就會以數(shù)值1表現(xiàn)出來,其余則以0顯示參
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中學(xué)學(xué)生社團活動經(jīng)費公開制度
- 人力資源制度
- 企業(yè)供應(yīng)商選擇與合作關(guān)系制度
- 2026年生物醫(yī)藥研究員高級筆試模擬卷
- 2026年醫(yī)學(xué)專業(yè)知識與技能考試題庫及答案
- 2026年政府采購法規(guī)知識競賽試題及答案
- 2026年食品營養(yǎng)學(xué)試題與答案參考
- 2025年人工智能輔助司法量刑建議系統(tǒng)使用規(guī)范協(xié)議
- 2024年遼寧兵器工業(yè)職工大學(xué)馬克思主義基本原理概論期末考試題含答案解析(必刷)
- 古文在寫作中的運用課件
- 2026年山東省煙草專賣局(公司)高校畢業(yè)生招聘流程筆試備考試題及答案解析
- 附圖武陵源風(fēng)景名勝區(qū)總體規(guī)劃總平面和功能分區(qū)圖樣本
- 八年級下冊《昆蟲記》核心閱讀思考題(附答案解析)
- 煤礦復(fù)產(chǎn)安全培訓(xùn)課件
- 2025年中職藝術(shù)設(shè)計(設(shè)計理論)試題及答案
- 2026屆高考?xì)v史二輪突破復(fù)習(xí):高考中外歷史綱要(上下兩冊)必考??贾R點
- 鐵路交通法律法規(guī)課件
- 2025年體育行業(yè)專家聘用合同范本
- 對于尼龍件用水煮的原因分析
- ECMO患者血糖控制與胰島素泵管理方案
- 消防安全操作規(guī)程操作規(guī)程
評論
0/150
提交評論