下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第Pandas中的unique()和nunique()區(qū)別詳解Pandas中Series和DataFrame的兩種數(shù)據(jù)類型中都有nunique()和unique()方法。這兩個(gè)方法作用很簡單,都是求Series或Pandas中的不同值。而unique()方法返回的是去重之后的不同值,而nunique()方法則直接放回不同值的個(gè)數(shù)。
具體如下:
如果Series或DataFrame中沒有None值,則unique()方法返回的序列數(shù)據(jù)的長度等于nunique()方法的返回值(如上述代碼中所展示的)。則當(dāng)Series或DataFrame中有None值時(shí),這兩個(gè)就不一定相等了。具體如下:
從上述結(jié)果可知,nunique()可以通過參數(shù)dropna來自定義設(shè)置在統(tǒng)計(jì)不同值過程中是否需要包含None值,而unique()方法中沒有可設(shè)置的參數(shù),該方法在統(tǒng)計(jì)時(shí)無法排除None值。
1unique()
統(tǒng)計(jì)list中的不同值時(shí),返回的是array.它有三個(gè)參數(shù),可分別統(tǒng)計(jì)不同的量,返回的都是array.
當(dāng)list中的元素也是list時(shí),盡量不要用這種方法.
importnumpyasnp
a=[1,5,4,2,3,3,5]
#返回一個(gè)array
print(np.unique(a))
#[12345]
#返回該元素在list中第一次出現(xiàn)的索引
print(np.unique(a,return_index=True))
#(array([1,2,3,4,5]),array([0,3,4,2,1]))
#返回原list中每個(gè)元素在新的list中對應(yīng)的索引
print(np.unique(a,return_inverse=True))
#(array([1,2,3,4,5]),array([0,4,3,1,2,2,4]))
#返回該元素在list中出現(xiàn)的次數(shù)
print(np.unique(a,return_counts=True))
#(array([1,2,3,4,5]),array([1,1,2,1,2]))
#當(dāng)加參數(shù)時(shí),unique()返回的是一個(gè)tuple,這里利用了tuple的性質(zhì),即有多少個(gè)元素即可賦值給對應(yīng)的多少個(gè)變量
p,q,m,n=np.unique(a,return_index=True,return_inverse=True,return_counts=True)
print(p,q,m,n)
#[12345][03421][0431224][11212]
#注意當(dāng)list中的元素不是數(shù)字而是list的時(shí)候,輸出的數(shù)據(jù)類型與list中元素的長度有關(guān)
#利用這種方法對list中元素去重或求里面元素的個(gè)數(shù)都不是好方法,很容易出錯(cuò)
統(tǒng)計(jì)series中的不同值時(shí),返回的是array,它沒有其它參數(shù)
importpandasaspd
se=pd.Series([1,3,4,5,2,2,3])
print(se.unique())
#[13452]
2.nunique()
可直接統(tǒng)計(jì)dataframe中每列的不同值的個(gè)數(shù),也可用于series,但不能用于list.返回的是不同值的個(gè)數(shù).
df=pd.DataFrame({'A':[0,1,1],'B':[0,5,6]})
print(df)
print(df.nunique())
#AB
#000
#115
#216
#A2
#B3
#dtype:int64
也可與groupby結(jié)合使用,統(tǒng)計(jì)每個(gè)塊的不同值的個(gè)數(shù).
all_user_repay=all_user_repay.groupby(['user_id'])['listing_id'].agg(['nunique']).reset_index()
#user_idnunique
#0401
#1561
#2981
#31031
#41221
到此這篇關(guān)于Pandas中的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年建筑供電系統(tǒng)中的電能質(zhì)量與節(jié)能
- 2026年土木工程施工過程中的質(zhì)量保證
- 2026春招:小學(xué)教師筆試題及答案
- 賀卡傳情的課件
- 貸款產(chǎn)品課件
- 醫(yī)院員工著裝規(guī)范與禮儀
- 婦產(chǎn)科分娩護(hù)理要點(diǎn)回顧
- 醫(yī)院醫(yī)療信息化項(xiàng)目管理禮儀
- 2026年安徽中澳科技職業(yè)學(xué)院單招綜合素質(zhì)筆試備考題庫帶答案解析
- 醫(yī)療信息化部門禮儀準(zhǔn)則
- 堵漏施工方案報(bào)價(jià)
- 電線電纜使用說明書
- 幼兒園小班語言兒歌《大一歲了》課件
- 監(jiān)理歸檔資料培訓(xùn)課件
- 七年級(jí)數(shù)學(xué)工程問題單元試卷及答案
- 藥物不良事件課件
- 八年級(jí)語文上冊期末考點(diǎn)專題01 漢字書寫與書法鑒賞(原卷版)
- 兒科??平ㄔO(shè)與發(fā)展規(guī)劃指南
- 煤礦基本知識(shí)培訓(xùn)課件
- 回顧性研究設(shè)計(jì)及寫作要點(diǎn)
- T/CECS 10128-2021不銹鋼二次供水水箱
評(píng)論
0/150
提交評(píng)論