版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第Python機(jī)器學(xué)習(xí)入門(二)之Python數(shù)據(jù)理解目錄1.數(shù)據(jù)導(dǎo)入1.1使用標(biāo)準(zhǔn)Python類庫導(dǎo)入數(shù)據(jù)1.2使用Numpy導(dǎo)入數(shù)據(jù)1.3使用Pandas導(dǎo)入數(shù)據(jù)2.數(shù)據(jù)理解2.1數(shù)據(jù)基本屬性2.1.1查看前10行數(shù)據(jù)2.1.2查看數(shù)據(jù)維度,數(shù)據(jù)屬性和類型:2.1.3查看數(shù)據(jù)描述性統(tǒng)計(jì)2.2數(shù)據(jù)相關(guān)性和分布分析2.2.1數(shù)據(jù)相關(guān)矩陣2.2.2數(shù)據(jù)分布分析3.數(shù)據(jù)可視化3.1單一圖表3.1.1直方圖3.1.2密度圖3.1.3箱線圖3.2多重圖表3.2.1相關(guān)矩陣圖3.2.2散點(diǎn)矩陣圖總結(jié)統(tǒng)計(jì)學(xué)是什么?概率與數(shù)學(xué)。用概率與數(shù)學(xué)來分析人,分析的永遠(yuǎn)不是人。用永遠(yuǎn)不是人的結(jié)論指導(dǎo)人實(shí)在是一種偏誤。在這個(gè)意義上講,解讀強(qiáng)于技術(shù)。
——?jiǎng)⒌洛?/p>
1.數(shù)據(jù)導(dǎo)入
在訓(xùn)練機(jī)器學(xué)習(xí)的模型時(shí),需要大量的數(shù)據(jù),最常用的方法是利用歷史數(shù)據(jù)來訓(xùn)練模型。這些歷史數(shù)據(jù)通常是以csv文件儲(chǔ)存,或者能夠方便地轉(zhuǎn)化為csv文件。在開始機(jī)器學(xué)習(xí)時(shí),我們首先要導(dǎo)入csv數(shù)據(jù)文件。
csv文件是用逗號(hào)(,)分隔的文本文件。在csv文件中注釋是以(#)開頭。
在接下來的文章中,將使用PimaIndians數(shù)據(jù)集,它是從UCI機(jī)器學(xué)習(xí)倉庫(/ml/index.php)中獲取的。也可到網(wǎng)盤中下載(/s/1nv2xuVpXWHC1HUdS1c5QaQ)提取碼:d4im。
PimaIndians是一個(gè)分類問題的數(shù)據(jù)集,主要記錄了印第安人最近五年內(nèi)是否患有糖尿病的醫(yī)療數(shù)據(jù)。
1.1使用標(biāo)準(zhǔn)Python類庫導(dǎo)入數(shù)據(jù)
Python提供了一個(gè)標(biāo)準(zhǔn)的類庫CSV,用來處理CSV文件。
fromcsvimportreader
#python標(biāo)準(zhǔn)庫導(dǎo)入數(shù)據(jù)
filename='pima_data.csv'
withopen(filename,'rt')asraw_data:
readers=reader(raw_data,delimiter=",")
x=list(readers)
data=np.array(x).astype('float')
print(data.shape)
代碼比較簡(jiǎn)單,此處不做過多贅述。
運(yùn)行結(jié)果:
(768,9)
1.2使用Numpy導(dǎo)入數(shù)據(jù)
使用numpy的loadtxt()方法導(dǎo)入數(shù)據(jù)。使用這個(gè)函數(shù)處理的數(shù)據(jù)沒有文件頭,并且所有的數(shù)據(jù)結(jié)構(gòu)都一樣,也就是說,數(shù)據(jù)類型都一樣。
importnumpyasnp
#使用Numpy導(dǎo)入數(shù)據(jù)
fromnumpyimportloadtxt
filename='pima_data.csv'
withopen(filename,'rt')asraw_data:
data=loadtxt(raw_data,delimiter=',')
print(data.shape)
loadtxt中的第一個(gè)參數(shù)為數(shù)據(jù)實(shí)例,第二個(gè)參數(shù)為分隔符。
輸出結(jié)果同上
(768,9)
1.3使用Pandas導(dǎo)入數(shù)據(jù)
通過Pandas來導(dǎo)入CSV文件要使用pandas.read_csv()函數(shù)。這個(gè)函數(shù)的返回值使DataFrame。在機(jī)器學(xué)習(xí)的項(xiàng)目中,經(jīng)常利用pandas來做數(shù)據(jù)處理和準(zhǔn)備工作。因此,推薦使用Pandas來導(dǎo)入數(shù)據(jù)。
#推薦使用?。。。?/p>
#使用Pandas導(dǎo)入數(shù)據(jù)
frompandasimportread_csv
filename='pima_data.csv'
names=['preg','plas','pres','skin','test','mass','pedi','age','class']
#設(shè)置文件頭
data=read_csv(filename,names=names)
print(data.shape)
print(data.head(10))
使用Pandas導(dǎo)入數(shù)據(jù)可以設(shè)置文件頭,便于后續(xù)數(shù)據(jù)理解。read_csv()方法有兩個(gè)參數(shù),一個(gè)是文件名,一個(gè)是文件頭數(shù)組。
輸出結(jié)果同上
(768,9)
2.數(shù)據(jù)理解
為了得到更準(zhǔn)確的結(jié)果,必須理解數(shù)據(jù)的特征、分布情況,以及需要解決的問題,一邊建立相關(guān)的算法模型并進(jìn)行優(yōu)化。
2.1數(shù)據(jù)基本屬性
對(duì)數(shù)據(jù)的簡(jiǎn)單審視,是加強(qiáng)對(duì)數(shù)據(jù)理解最有效的方法之一。通過對(duì)數(shù)據(jù)的觀察,可以發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在關(guān)系。這些發(fā)現(xiàn)有助于對(duì)數(shù)據(jù)進(jìn)行整理。
2.1.1查看前10行數(shù)據(jù)
使用的數(shù)據(jù)集依然是PimaIndians數(shù)據(jù)集:
frompandasimportread_csv
filename='pima_data.csv'
names=['preg','plas','pres','skin','test','mass','pedi','age','class']
data=read_csv(filename,names=names)
#查看前十行數(shù)據(jù)
print(data.head(10))
先使用pandas導(dǎo)入數(shù)據(jù)集,再使用print函數(shù)數(shù)據(jù)data的head屬性以查看前10行數(shù)據(jù)。
輸出結(jié)果:
pregplaspresskintestmasspediageclass
061487235033.60.63501
11856629026.60.35310
28183640023.30.67321
318966239428.10.17210
40137403516843.12.29331
55116740025.60.20300
637850328831.00.25261
71011500035.30.13290
82197704554330.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 贈(zèng)錢協(xié)議書范本
- 銷售電熱器協(xié)議書
- 業(yè)績承包協(xié)議書
- 延保退款協(xié)議書
- 營運(yùn)服務(wù)協(xié)議書
- 應(yīng)急住房協(xié)議書
- 2025浙江吉利控股集團(tuán)G-TOP博士專項(xiàng)招聘筆試重點(diǎn)題庫及答案解析
- 展位變更協(xié)議書
- 巡山記錄協(xié)議書
- 舞獅表演協(xié)議書
- 2025年四川軍事理論專升本考試復(fù)習(xí)題庫附答案
- 2025年民航上海醫(yī)院(瑞金醫(yī)院古北分院)事業(yè)編制公開招聘62人備考題庫帶答案詳解
- 2025年云南省人民檢察院聘用制書記員招聘(22人)備考考試題庫及答案解析
- 2025西部機(jī)場(chǎng)集團(tuán)航空物流有限公司招聘筆試參考題庫附帶答案詳解(3卷)
- 橙子分揀裝箱一體機(jī)結(jié)構(gòu)設(shè)計(jì)
- (一診)達(dá)州市2026屆高三第一次診斷性測(cè)試生物試題(含標(biāo)準(zhǔn)答案)
- 員工宿舍樓裝修改造工程施工組織設(shè)計(jì)方案
- 錢銘怡《心理咨詢與心理治療》筆記和習(xí)題(含考研真題)詳解
- 防水工程專項(xiàng)施工方案
- JJG 1148-2022 電動(dòng)汽車交流充電樁(試行)
- 腦機(jī)接口技術(shù)與應(yīng)用研究報(bào)告(2025年)
評(píng)論
0/150
提交評(píng)論