Python機(jī)器學(xué)習(xí)入門(二)之Python數(shù)據(jù)理解_第1頁
Python機(jī)器學(xué)習(xí)入門(二)之Python數(shù)據(jù)理解_第2頁
Python機(jī)器學(xué)習(xí)入門(二)之Python數(shù)據(jù)理解_第3頁
Python機(jī)器學(xué)習(xí)入門(二)之Python數(shù)據(jù)理解_第4頁
Python機(jī)器學(xué)習(xí)入門(二)之Python數(shù)據(jù)理解_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第Python機(jī)器學(xué)習(xí)入門(二)之Python數(shù)據(jù)理解目錄1.數(shù)據(jù)導(dǎo)入1.1使用標(biāo)準(zhǔn)Python類庫導(dǎo)入數(shù)據(jù)1.2使用Numpy導(dǎo)入數(shù)據(jù)1.3使用Pandas導(dǎo)入數(shù)據(jù)2.數(shù)據(jù)理解2.1數(shù)據(jù)基本屬性2.1.1查看前10行數(shù)據(jù)2.1.2查看數(shù)據(jù)維度,數(shù)據(jù)屬性和類型:2.1.3查看數(shù)據(jù)描述性統(tǒng)計(jì)2.2數(shù)據(jù)相關(guān)性和分布分析2.2.1數(shù)據(jù)相關(guān)矩陣2.2.2數(shù)據(jù)分布分析3.數(shù)據(jù)可視化3.1單一圖表3.1.1直方圖3.1.2密度圖3.1.3箱線圖3.2多重圖表3.2.1相關(guān)矩陣圖3.2.2散點(diǎn)矩陣圖總結(jié)統(tǒng)計(jì)學(xué)是什么?概率與數(shù)學(xué)。用概率與數(shù)學(xué)來分析人,分析的永遠(yuǎn)不是人。用永遠(yuǎn)不是人的結(jié)論指導(dǎo)人實(shí)在是一種偏誤。在這個(gè)意義上講,解讀強(qiáng)于技術(shù)。

——?jiǎng)⒌洛?/p>

1.數(shù)據(jù)導(dǎo)入

在訓(xùn)練機(jī)器學(xué)習(xí)的模型時(shí),需要大量的數(shù)據(jù),最常用的方法是利用歷史數(shù)據(jù)來訓(xùn)練模型。這些歷史數(shù)據(jù)通常是以csv文件儲(chǔ)存,或者能夠方便地轉(zhuǎn)化為csv文件。在開始機(jī)器學(xué)習(xí)時(shí),我們首先要導(dǎo)入csv數(shù)據(jù)文件。

csv文件是用逗號(hào)(,)分隔的文本文件。在csv文件中注釋是以(#)開頭。

在接下來的文章中,將使用PimaIndians數(shù)據(jù)集,它是從UCI機(jī)器學(xué)習(xí)倉庫(/ml/index.php)中獲取的。也可到網(wǎng)盤中下載(/s/1nv2xuVpXWHC1HUdS1c5QaQ)提取碼:d4im。

PimaIndians是一個(gè)分類問題的數(shù)據(jù)集,主要記錄了印第安人最近五年內(nèi)是否患有糖尿病的醫(yī)療數(shù)據(jù)。

1.1使用標(biāo)準(zhǔn)Python類庫導(dǎo)入數(shù)據(jù)

Python提供了一個(gè)標(biāo)準(zhǔn)的類庫CSV,用來處理CSV文件。

fromcsvimportreader

#python標(biāo)準(zhǔn)庫導(dǎo)入數(shù)據(jù)

filename='pima_data.csv'

withopen(filename,'rt')asraw_data:

readers=reader(raw_data,delimiter=",")

x=list(readers)

data=np.array(x).astype('float')

print(data.shape)

代碼比較簡(jiǎn)單,此處不做過多贅述。

運(yùn)行結(jié)果:

(768,9)

1.2使用Numpy導(dǎo)入數(shù)據(jù)

使用numpy的loadtxt()方法導(dǎo)入數(shù)據(jù)。使用這個(gè)函數(shù)處理的數(shù)據(jù)沒有文件頭,并且所有的數(shù)據(jù)結(jié)構(gòu)都一樣,也就是說,數(shù)據(jù)類型都一樣。

importnumpyasnp

#使用Numpy導(dǎo)入數(shù)據(jù)

fromnumpyimportloadtxt

filename='pima_data.csv'

withopen(filename,'rt')asraw_data:

data=loadtxt(raw_data,delimiter=',')

print(data.shape)

loadtxt中的第一個(gè)參數(shù)為數(shù)據(jù)實(shí)例,第二個(gè)參數(shù)為分隔符。

輸出結(jié)果同上

(768,9)

1.3使用Pandas導(dǎo)入數(shù)據(jù)

通過Pandas來導(dǎo)入CSV文件要使用pandas.read_csv()函數(shù)。這個(gè)函數(shù)的返回值使DataFrame。在機(jī)器學(xué)習(xí)的項(xiàng)目中,經(jīng)常利用pandas來做數(shù)據(jù)處理和準(zhǔn)備工作。因此,推薦使用Pandas來導(dǎo)入數(shù)據(jù)。

#推薦使用?。。。?/p>

#使用Pandas導(dǎo)入數(shù)據(jù)

frompandasimportread_csv

filename='pima_data.csv'

names=['preg','plas','pres','skin','test','mass','pedi','age','class']

#設(shè)置文件頭

data=read_csv(filename,names=names)

print(data.shape)

print(data.head(10))

使用Pandas導(dǎo)入數(shù)據(jù)可以設(shè)置文件頭,便于后續(xù)數(shù)據(jù)理解。read_csv()方法有兩個(gè)參數(shù),一個(gè)是文件名,一個(gè)是文件頭數(shù)組。

輸出結(jié)果同上

(768,9)

2.數(shù)據(jù)理解

為了得到更準(zhǔn)確的結(jié)果,必須理解數(shù)據(jù)的特征、分布情況,以及需要解決的問題,一邊建立相關(guān)的算法模型并進(jìn)行優(yōu)化。

2.1數(shù)據(jù)基本屬性

對(duì)數(shù)據(jù)的簡(jiǎn)單審視,是加強(qiáng)對(duì)數(shù)據(jù)理解最有效的方法之一。通過對(duì)數(shù)據(jù)的觀察,可以發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在關(guān)系。這些發(fā)現(xiàn)有助于對(duì)數(shù)據(jù)進(jìn)行整理。

2.1.1查看前10行數(shù)據(jù)

使用的數(shù)據(jù)集依然是PimaIndians數(shù)據(jù)集:

frompandasimportread_csv

filename='pima_data.csv'

names=['preg','plas','pres','skin','test','mass','pedi','age','class']

data=read_csv(filename,names=names)

#查看前十行數(shù)據(jù)

print(data.head(10))

先使用pandas導(dǎo)入數(shù)據(jù)集,再使用print函數(shù)數(shù)據(jù)data的head屬性以查看前10行數(shù)據(jù)。

輸出結(jié)果:

pregplaspresskintestmasspediageclass

061487235033.60.63501

11856629026.60.35310

28183640023.30.67321

318966239428.10.17210

40137403516843.12.29331

55116740025.60.20300

637850328831.00.25261

71011500035.30.13290

82197704554330.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論