版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)科學(xué)中的實用統(tǒng)計學(xué)
(第2版)
目錄
第1章探索性數(shù)據(jù)分析
1.1結(jié)構(gòu)化數(shù)據(jù)的要素
擴展閱讀
1.2矩形數(shù)據(jù)
1.2.1數(shù)據(jù)框和索引
1.2.2非矩形數(shù)據(jù)結(jié)構(gòu)
1.2.3擴展閱讀
1.3位置估計
1.3.1均值
1.3.2中位數(shù)和健壯的估計
1.3.3示例:人口和謀殺率的位置估計
1.3.4擴展閱讀
1.4變異性估計
1.4.1標準差以及相關(guān)估計
1.4.2基于百分位數(shù)的估計
1.4.3示例:美國各州人口數(shù)量的變異性估計
1.4.4擴展閱讀
1.5探索數(shù)據(jù)分布
1.5.1百分位數(shù)與箱線圖
1.5.2頻數(shù)表和直方圖
1.5.3密度圖和密度估計
1.5.4擴展閱讀
1.6探索二元數(shù)據(jù)和分類型數(shù)據(jù)
1.6.1眾數(shù)
1.6.2期望值
1.6.3概率
1.6.4擴展閱讀
1.7相關(guān)性
1.7.1散點圖
1.7.2擴展閱讀
1.8探索兩個及以?上的變量
1.8.1六邊形分箱圖和等高線圖(繪制數(shù)值型數(shù)據(jù)之間的關(guān)系)
1.8.2兩個分類變量
1.8.3分類型數(shù)據(jù)和數(shù)值型數(shù)據(jù)
1.8.4多個變量的可視化
1.8.5擴展閱讀
1.9小結(jié)
第2章數(shù)據(jù)與抽樣分布
2.1隨機抽樣和樣本偏差
2.:.1偏差
2.1.2隨機選擇
2.1.3數(shù)量和質(zhì)量:什么時候數(shù)量更重要
2.1.4樣本均值與總體均值
2.1.5擴展閱讀
2.2選擇偏差
2.2.1均值回歸
2.2.2擴展閱讀
2.3統(tǒng)計量的抽樣分布
2.3.1中心極限定理
2.3.2標準誤差
2.3.3擴展閱讀
2.4Bootstrap方法
2.4.1重抽樣與Bootstrap方法
2.4.2擴展閱讀
2.5置信區(qū)間
擴展閱讀
2.6正態(tài)分布
標準正態(tài)分布與QQ圖
2.7長尾分布
擴展閱讀
2.8學(xué)生的t分布
擴展閱讀
2.9二項分布
擴展閱讀
2.10卡方分布
擴展閱讀
2.11F分布
擴展閱讀
2.12泊松及其相關(guān)分布
2.12.1泊松分布
2.12.2指數(shù)分布
2:2.3估計故障率
2.12.4韋布爾分布
2.12.5擴展閱讀
2.13小結(jié)
第3章統(tǒng)計實驗與顯著性檢驗
3.1A/B測試
3.1.1為什么要有對照組
3.1.2為什么只有A/B,沒有C/D…一
3.1.3擴展閱讀
3.2假設(shè)檢驗
3.2.1零假設(shè)
3.2.2備擇假設(shè)
3.2.3單向假設(shè)檢驗與雙向假設(shè)檢驗
3.2.4擴展閱讀
3.3重抽樣
3.3.1置換檢驗
3.3.2示例:Web黏性
3.3.3窮盡置換檢驗和Bootstrap置換檢驗
3.3.4置換檢驗:數(shù)據(jù)科學(xué)的底線
3.3.5擴展閱讀
3.4統(tǒng)計顯著性和p值
3.4.1p值
3.4.2a
3.4.3第一類錯誤和第二類錯誤
3.4.4數(shù)據(jù)科學(xué)與p值
3.4.5擴展閱讀
3.5t檢驗
擴展閱讀
3.6多重檢驗
擴展閱讀
3.7自由度
擴展閱讀
3.8ANOVA
3.8.1F統(tǒng)計量
3.8.2雙向AN0VA
3.8.3擴展閱讀
3.9卡方檢驗
3.9.1卡方檢驗:一種重抽樣方法
3.9.2卡方檢驗:統(tǒng)計理論
3.9.3費希爾精確檢驗
3.9.4與數(shù)據(jù)科學(xué)的關(guān)聯(lián)
3.9.5擴展閱讀
3.10多臂老虎機算法
擴展閱讀
3.11檢驗力與樣本容量
3.11.1樣本容量
3.11.2擴展閱讀
32小結(jié)
第4章回歸與預(yù)測
4.1簡單線性回歸
4.1.1回歸方程
4.1.2擬合值與殘差
4.1.3最小二乘法
4.1.4預(yù)測與解釋(分析)
4.1.5擴展閱讀
4.2多元線性回歸
4.2.1示例:金縣房屋數(shù)據(jù)
4.2.2模型評估
4.2.3交叉驗證
4.2.4模型選擇與逐步回歸
4.2.5加權(quán)同歸
4.2.6擴展閱讀
4.3使用回歸進行預(yù)測
4.3.1外推風(fēng)險
4.3.2置信區(qū)間與預(yù)測區(qū)間
4.4回歸中的因子變量
4.4.1虛擬變量的表示方法
4.4.2多水平因子變量
4.4.3有序因子變量
4.5解釋回歸方程
4.5.1相關(guān)的預(yù)測變量
4.5.2多重共線性
4.5.3混淆變量
4.5.4交互作用與主效應(yīng)
4.6回歸診斷
4.6.1離群點
4.6.2強影響值
4.6.3異方差、非正態(tài)與相關(guān)誤差
4.6.4偏殘差圖與非線性
4.7多項式回歸與樣條回歸
4.7.1多項式回歸
4.7.2樣條回歸
4.7.3廣義可加模型
4.7.4擴展閱讀
4.8小結(jié)
第5章分類
5.1樸素貝葉斯算法
5.1.1為什么進行精確貝葉斯分類是不現(xiàn)實的
5.1.2樸素貝葉斯問題求解
5.1.3數(shù)值型預(yù)測變量
5.1.4擴展閱讀
5.2判別分析
5.2.1協(xié)方差矩陣
5.2.2費希爾線性判別分析
5.2.3一個簡單的例子
5.2.4擴展閱讀
5.3邏輯回歸
5.3.1邏輯響應(yīng)函數(shù)和logit函數(shù)
5.3.2邏輯回歸和廣義線性模型
5.3.3廣義線性模型
5.3.4邏輯回歸的預(yù)測值
5.3.5系數(shù)和優(yōu)勢比的解釋
5.3.6線性回歸與邏輯回歸:共性與差異
5.3.7評估模型
5.3.8擴展閱讀
5.4分類模型評估
5.4.1混淆矩陣
5.4.2稀有類問題
5.4.3精確度、召回率和特異度
5.4.4ROC曲線
5.4.5AUC
5.4.6提升度
5.4.7擴展閱讀
5.5非平衡數(shù)據(jù)的處理策略
5.5.1欠采樣
5.5.2過采樣與上(下)加權(quán)
5.5.3數(shù)據(jù)生成
5.5.4基于成本的分類
5.5.5探索預(yù)測結(jié)果
5.5.6擴展閱讀
5.6小結(jié)
第6章統(tǒng)計機器學(xué)習(xí)
6.1KNN
6.1.1一個小例子:預(yù)測貸款違約
6.1.2距離的度量
6.1.3獨熱編碼
6.1.4標準化(歸一化,z分數(shù))
6.1.5K的選擇
6.1.6KNN作為特征引擎
6.2樹模型
6.2.1一個簡單的例子
6.2.2遞歸分割算法
6.2.3測量同質(zhì)性或不純度
6.2.4讓樹停止生長
6.2.5預(yù)測連續(xù)的值
6.2.6如何使用樹
6.2.7擴展閱讀
6.3裝袋法與隨機森林
6.3.1裝袋法
6.3.2隨機森林
6.3.3變量的重要性
6.3.4超參數(shù)
6.4提升方法
6.4.1提升算法
6.4.2XGBoost
6.4.3正則化:避免過擬合
6.4.4超參數(shù)與交叉驗證
6.5小結(jié)
第7章無監(jiān)督學(xué)習(xí)
7.1主成分分析
7.1.1一個簡單的例子
7.1.2計算主成分
7.1.3解釋主成分
7.1.4對應(yīng)分析
7.1.5擴展閱讀
7.2K-均值聚類
7.2.1一個簡單的例子
7.2.2K-均值算法
7.2.3簇的解釋
7.2.4選擇簇的數(shù)量
7.3層次聚類
7.3.1一個簡單的例子
7.3.2樹狀圖
7.3.3凝聚算法
7.3.4測量相異度
7.4基于模型的聚類
7.4.1多元正態(tài)分布
7.4.2混合正態(tài)分布
7.4.3選擇簇的數(shù)量
7.4.4擴展閱讀
7.5數(shù)據(jù)縮放與分類變量
7.5.1縮放變量
7.5.2主導(dǎo)變量
7.5.3分類數(shù)據(jù)和Gower距離
7.5.4混合數(shù)據(jù)聚類中的問題
7.6小結(jié)
擴展閱讀
第1章探索性數(shù)據(jù)分析
本章重點介紹所有數(shù)據(jù)科學(xué)項目中的第一個步驟:探索數(shù)據(jù)。
經(jīng)典統(tǒng)計學(xué)關(guān)注的幾乎只有推斷。推斷有時候是一系列非常復(fù)雜的過程,目的是由小樣本得出
與大型總體相關(guān)的結(jié)論。1962年,約翰?圖基(見圖1-1)發(fā)表了一篇影響深遠的論文“The
FutureofDataAnalysis^[Tukey-1962],對統(tǒng)計學(xué)進行了一場革新。他創(chuàng)建了一門新的科
學(xué)學(xué)科,稱為數(shù)據(jù)分析,并將統(tǒng)計推斷作為其中的一個組成部分。圖基融合了工程學(xué)和計算機
科學(xué)[他創(chuàng)造了bit(比特)和software(軟件)這兩個術(shù)語,其中bit是binarydigit
(二進制數(shù)字)的縮寫],他的理念也一直延續(xù)下來,棄成為數(shù)據(jù)科學(xué)基礎(chǔ)的一個重要組成部
分。1977年,隨著圖基經(jīng)典著作《探索性數(shù)據(jù)分析》[Tukcy-1977]的出版,探索性數(shù)據(jù)分析
這個領(lǐng)域正式建立。在書中,他使用了簡單的統(tǒng)計圖(如箱線圖、散點圖)以及一些摘要統(tǒng)計
量(均值、中位數(shù)、分位數(shù)等)來描繪一個數(shù)據(jù)集。
圖1-1:約翰?圖基,杰出的統(tǒng)計學(xué)家,他在50多年前提出的思想奠定了數(shù)據(jù)科學(xué)的基礎(chǔ)
隨著計算能力的提高以及一些功能強大的數(shù)據(jù)分析軟件的成熟,探索性數(shù)據(jù)分析迅速發(fā)展,現(xiàn)
在已經(jīng)遠遠超出了它的初始范圍。這門學(xué)科發(fā)展的主要驅(qū)動力在于新技術(shù)的快速發(fā)展、更多和
更大規(guī)模數(shù)據(jù)的使用,以及定量分析在各種學(xué)科中的廣泛應(yīng)用。斯坦福大學(xué)的統(tǒng)計學(xué)教授大衛(wèi)
?多諾霍在讀大學(xué)時曾經(jīng)是圖基的學(xué)生,他在新澤西州普林斯頓舉行的圖基百年紀念活動中做
了一次演講,并在此基礎(chǔ)上發(fā)表了一篇著名的文章[Donoho-2015],追溯了數(shù)據(jù)科學(xué)的起源,
并將其歸功于圖基在數(shù)據(jù)分析領(lǐng)域所做的開創(chuàng)性工作。
1.1結(jié)構(gòu)化數(shù)據(jù)的要素
數(shù)據(jù)可以來自多種數(shù)據(jù)源:傳感器測量、事件、文本、圖像和視頻,物聯(lián)網(wǎng)(InternetofThings,
IoT)則源源不斷地噴涌出大量信息。多數(shù)數(shù)據(jù)是非結(jié)構(gòu)化的。圖像是一組像素,每個像素中
都包含RGB(紅、綠、藍)顏色信息。文本是一個由單詞和非單詞字符組成的序列,通常分為
節(jié)、小節(jié),等等。點擊流是用戶在與app或網(wǎng)頁進行交互時產(chǎn)生的一個操作序列。實際上,
數(shù)據(jù)科學(xué)的一個主要挑戰(zhàn)就是將原始數(shù)據(jù)轉(zhuǎn)化為可以操作的信息。要使用本書中介紹的統(tǒng)計學(xué)
概念,就必須通過各種處理和操作,將非結(jié)構(gòu)化的原始數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化形式。結(jié)構(gòu)化數(shù)據(jù)的
一種最常見的形式就是帶有行和列的表,比如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),或者為某項研究而收集的
數(shù)據(jù)。
結(jié)陶化數(shù)據(jù)有兩種基本類型:數(shù)值型與分類型。數(shù)值型數(shù)據(jù)有兩種形式:連續(xù)型,比如風(fēng)速和
持續(xù)時間;離散型,比如某個事件的發(fā)生次數(shù)。分類型數(shù)據(jù)只能在一個固定集合中取值,比如
電視屏幕類型(等離子、LCD.LED等)或州的名稱(阿拉巴馬、阿拉斯加等)。二元數(shù)據(jù)是
分類型數(shù)據(jù)的一種重要特例,它只能在兩個值之間任取其一,比如0/1、是/否,或真/假。另
?種有用的分類型數(shù)據(jù)是定序數(shù)據(jù),其中的類別是有一-定順序的,例如數(shù)值評分(1、2、3、4
和5)o
我們?yōu)槭裁匆P(guān)心數(shù)據(jù)類型的分類呢?事實證明,對于數(shù)據(jù)分析和預(yù)測性建模,數(shù)據(jù)類型在幫
助確定可視化、數(shù)據(jù)分析以及統(tǒng)計模型的類型方面有重要作用。實際上,像R和Python這
樣的數(shù)據(jù)科學(xué)軟件就是在使用這些數(shù)據(jù)類型來提高計算性能。更重要的是,變量的數(shù)據(jù)類型決
定了軟件如何計算這個變量。
本節(jié)關(guān)鍵術(shù)語
數(shù)值型數(shù)據(jù)
在一個數(shù)值范圍內(nèi)進行表示的數(shù)據(jù)。
連續(xù)型數(shù)據(jù)
可以在一個區(qū)間內(nèi)任意取值的數(shù)據(jù)。
同義詞
區(qū)間數(shù)據(jù)、浮點數(shù)據(jù)、數(shù)值數(shù)據(jù)
離散型數(shù)據(jù)
只能取整數(shù)值的數(shù)據(jù),比如計數(shù)。
同義詞
整數(shù)數(shù)據(jù)、計數(shù)數(shù)據(jù)
分類型數(shù)據(jù)
只能從一組特定值中取值的數(shù)據(jù),這些值表示一組可能的分類。
同義詞
枚舉數(shù)據(jù)、因子、名義數(shù)據(jù)
二元數(shù)據(jù)
分類型數(shù)據(jù)的一種特殊情況,它只有兩個類別值,例如,0/1、真/假。
同義詞
二分類數(shù)據(jù)、邏輯數(shù)據(jù)、指示型數(shù)據(jù)、布爾型數(shù)據(jù)
定序數(shù)據(jù)
具有明確排列順序的分類型數(shù)據(jù)。
同義詞
有序因子
軟件工程師和數(shù)據(jù)庫程序員可能會奇怪:為什么需要在分析中使用分類型數(shù)據(jù)和定序數(shù)據(jù)這兩
個概念?畢竟,類別只是一組文本值(或數(shù)值),底層數(shù)據(jù)庫會自動處理它們的內(nèi)部表示。然
而,將數(shù)據(jù)明確地標識為分類型,使其區(qū)別于文本數(shù)據(jù),確實有如下好處。
?如果知道數(shù)據(jù)是分類型的,可以將其作為一種信號,告訴軟件如何使用統(tǒng)計過程(如生成
圖表或擬合模型)。具體而言,在R中,定序數(shù)據(jù)可以表示為一個ordered,factor,在圖形、
表格和模型中都可以保持由用戶確定的固定順序。在Python中,scikit-learn可以使用
sklcarn.preprocessing.OrdmalEncondcr來支持定序數(shù)據(jù)。
?可以對存儲和索引進行優(yōu)化(就像在關(guān)系數(shù)據(jù)庫中那樣)。
?在軟件中,如果給定一個分類變量,那么它的可能取值就被限定了(比如枚舉類型)。
第三條“好處”可能會導(dǎo)致一些出人意料的行為:在R中,數(shù)據(jù)導(dǎo)入函數(shù)(如read,csv)的
默認行為是自動地將文本列轉(zhuǎn)換為factoro在這個列上的后續(xù)操作會假定該列的值只能是初
始導(dǎo)入的那些值,所以如果向該列分配一個新的文本值就會觸發(fā)一條警告,并生成一個NA(缺
失值)。Python中的pandas包不會自動地進行這種轉(zhuǎn)換,不過,你可以在read_csv函數(shù)
中明確指定某?列為分類型數(shù)據(jù)。
本節(jié)要點
?數(shù)據(jù)通常通過類型在軟件中進行分類。
?數(shù)據(jù)類型包括數(shù)值型(連續(xù)型、離散型)和分類型(二元數(shù)據(jù)、定序數(shù)據(jù))。
?軟件中的數(shù)據(jù)類型可以作為一種信號,告訴軟化如何處理這種數(shù)據(jù).
擴展閱讀
?數(shù)據(jù)類型有時會令人迷惑,因為類型之間會有重疊,而且一種軟件中的分類會與另一種軟
件中不同。R教程網(wǎng)站(RTutorial)介紹了R語言中的分類,pandas文檔也描述了Python
中不同的數(shù)據(jù)類型以及對應(yīng)的處理方式。
?數(shù)據(jù)庫有更詳細的數(shù)據(jù)類型分類,其中還包括了對精度級別、定長或變長字段等方面的考
慮。參見W3Schools中對SQL的介紹。
1.2矩形數(shù)據(jù)
在數(shù)據(jù)科學(xué)分析中,典型的引用框架是矩形數(shù)據(jù)對象,比如電子表格或數(shù)據(jù)庫中的表。
矩形數(shù)據(jù)是一個通用術(shù)語,表示二維矩陣,其中行表示」,己錄(事例),列表示特征(變量)。
數(shù)據(jù)框是R和Python中矩形數(shù)據(jù)的一種具體形式。數(shù)據(jù)并不總是以這種形式開始的,非結(jié)
構(gòu)叱數(shù)據(jù)(比如文本)必須經(jīng)過一些處理,使得它們可以表示為矩形數(shù)據(jù)中的一組特征(參見
L:節(jié))。對于多數(shù)數(shù)據(jù)分析和建模任務(wù),關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)必須被提取出來并放到一個單
獨的表格中。
本節(jié)關(guān)鍵術(shù)語
數(shù)據(jù)框
矩形數(shù)據(jù)(比如一個電子表格)是統(tǒng)計模型和機器學(xué)習(xí)模型的基本數(shù)據(jù)結(jié)構(gòu)。
特征
表格中的一列通常稱為一個特征。
同義詞
屬性、輸入、預(yù)測器、變量
結(jié)果
很多數(shù)據(jù)科學(xué)項目需要預(yù)測一個結(jié)果,通常是“是”或“否”(在表17中,就是“拍賣是
否需要競價”)。在實驗或研究中,有時會使用特征來預(yù)測結(jié)果。
同義詞
因變量、響應(yīng)、目標、輸出
記錄
表格中的一行通常稱為一條記錄。
同義詞
事例、示例、實例、觀測、模式、樣本
表1-1:一個典型的數(shù)據(jù)框格式
CategoryCurrencysellerRatingDurationendDayClosePriceOpenPriceCompetitive?
Music/Movie/GameUS32495Mon0.010.010
Music/Movic/GamcUS32495Mon0.010.010
AutomotiveUS31157Tue0.010.010
.AutomotiveUS31157Tue0.010.010
AutomotiveUS31157Tue0.010.010
AutomotiveUS31157Tuc0.010.00
AutomotiveUS31157Tue0.010.011
.AutomotiveUS31157Tue0.010.011
在表IT中,既有測量數(shù)據(jù)或計數(shù)數(shù)據(jù),如持續(xù)時間(Duration)和價格(Price),也有分
類型數(shù)據(jù),如類別(Category)和貨幣(Currency)o正如前面說過的,分類變量的一種特殊
形式是二元變量(是/否或0/1)o表1T中最后一列就是二元變量,它是一個指示變量,表
示拍賣是競價的(有多個出價人)還是非競價的。在預(yù)測拍賣是否競價的情形中,這個指示變
量恰好也是一個結(jié)果變量。
1.2.1數(shù)據(jù)框和索引
傳統(tǒng)數(shù)據(jù)庫表格會指定一列或多列作為索引,索引本質(zhì)上是一個行編號,這樣做可以大大提高
特定數(shù)據(jù)庫查詢的效率。在Pytlion中,如果使用pandas庫,基本矩形數(shù)據(jù)結(jié)構(gòu)就是
DataFrame對象。默認情況下,會基于行的順序為DataFrame自動創(chuàng)建一個整數(shù)索引。在
pandas中,還可以設(shè)置多級別和多層次的索引,以提高特定操作的效率。
在R中,基本的矩形數(shù)據(jù)結(jié)構(gòu)是data,frame對象,data.frame也有一個基于行順序的隱含
整數(shù)索引。盡管通過row.names屬性可以創(chuàng)建一個自定義的鍵,但R原生的data,frame還
是不支持用戶自定義索引或多級索引。為了克服這種缺陷,我們經(jīng)常使用兩個新的包:
data,table和dplyr,它們都支持多級索引,在處理data,frame對象時,速度會顯著提高。
矩形數(shù)據(jù)的術(shù)語會令人迷惑。統(tǒng)計學(xué)家和數(shù)據(jù)科學(xué)家對同一事物使用不同的術(shù)語。統(tǒng)計學(xué)家在
模型中使用預(yù)測變量來預(yù)測一個響應(yīng)或因變量,數(shù)據(jù)科學(xué)家則使用特征來預(yù)測一個目標。還有
一個詞尤其令人迷惑:計算機科學(xué)家使用樣本這個術(shù)語表示一個單行,而對統(tǒng)計學(xué)家來說,樣
本則意味著一個行的集合。
1.2.2非矩形數(shù)據(jù)結(jié)構(gòu)
除了矩形數(shù)據(jù)之外,還有其他一些數(shù)據(jù)結(jié)構(gòu)。
時間序列數(shù)據(jù)記錄了對同一變量的一組連續(xù)測量,它是統(tǒng)計預(yù)測方法的原始材料,也是物聯(lián)網(wǎng)
設(shè)備所生成的數(shù)據(jù)的核心成分。
空間數(shù)據(jù)結(jié)構(gòu)可用于地圖和定位分析,相比于矩形數(shù)據(jù),它更復(fù)雜,也更多變。在對象表示中,
數(shù)據(jù)的重點在于對象(例如一間房屋)和它的空間坐標。相反,域視圖關(guān)注的則是空間的一個
小單元以及某個相關(guān)度量的值(例如像素亮度)。
圖(或網(wǎng)絡(luò))數(shù)據(jù)結(jié)構(gòu)用于表示實際的、社會性的或抽象的關(guān)系。例如,像Facebook或
LinkedTn這樣的社交網(wǎng)絡(luò)圖可以表示出網(wǎng)絡(luò)上人群之間的聯(lián)系,與多條道路相連的集散中心
則是實際網(wǎng)絡(luò)的一個例子。圖結(jié)構(gòu)對于特定的問題類型是非常有用的,比如網(wǎng)絡(luò)優(yōu)化和推薦系
統(tǒng)。
在數(shù)據(jù)科學(xué)中,以上每種數(shù)據(jù)類型都有獨特的使用方法。本書重點介紹矩形數(shù)據(jù),它是預(yù)測建
模的基礎(chǔ)構(gòu)件。
《統(tǒng)計學(xué)中的圖
在計算機科學(xué)和信息技術(shù)中,圖這個術(shù)語通常用來表示實體之間的聯(lián)系,以及一種底層數(shù)據(jù)結(jié)
構(gòu)。在統(tǒng)計學(xué)中,圖用來表示各種統(tǒng)計圖和可視化結(jié)果,而不是實體之間的聯(lián)系;這個術(shù)語只
用于可視化,不適用于數(shù)據(jù)結(jié)構(gòu)。
本節(jié)要點
?數(shù)據(jù)科學(xué)中的基本數(shù)據(jù)結(jié)構(gòu)是一個長方形矩陣,其中的行表示記錄,列表示變量(特征)。
?數(shù)據(jù)科學(xué)中的術(shù)語非常令人迷惑。有很多同義詞來自不同學(xué)科,這些學(xué)科(統(tǒng)計學(xué)、計算
機科學(xué)和信息技術(shù))都對數(shù)據(jù)科學(xué)貢獻良多。
1.2.3擴展閱讀
?R中關(guān)于數(shù)據(jù)框的文檔。
?Python中關(guān)于數(shù)據(jù)框的文檔。
1.3位置估計
表示測量數(shù)據(jù)或計數(shù)數(shù)據(jù)的變量會有成千上萬個不同的值。探索數(shù)據(jù)的一個基本步驟就是為每
個特征(變量)得到一個“典型值”:對大多數(shù)數(shù)據(jù)所處的位置進行一個估計(也就是數(shù)據(jù)的
集中趨勢)。
本節(jié)關(guān)鍵術(shù)語
均值
所有數(shù)據(jù)值的和除以值的數(shù)量。
同義詞
平均數(shù)
加權(quán)均值
乘以權(quán)重后所有數(shù)據(jù)值的和再除以權(quán)重的總和。
同義詞
加權(quán)平均數(shù)
中位數(shù)
使得一半數(shù)據(jù)比它大,另一半數(shù)據(jù)比它小的值。
同義詞
第50個百分位數(shù)
百分位數(shù)
使得一定百分比的數(shù)據(jù)比它小的值。
同義詞
分位數(shù)
加權(quán)中位數(shù)
在排序數(shù)據(jù)中,使得它前面和后面的數(shù)據(jù)的權(quán)重之和是總權(quán)重一半的那個值。
切尾均值
去掉了一定數(shù)量的極端值之后,所有值的平均數(shù)。
同義詞
截尾均值
健壯
對吸值不敏感。
同義詞
耐抗性
離群值
與多數(shù)數(shù)據(jù)截然不同的數(shù)據(jù)值。
同義詞
極端值
乍一看,數(shù)據(jù)的摘要統(tǒng)計非常簡單:算出數(shù)據(jù)的均值即可。實際上,雖然均值容易計算也確實
可用,但并不總是中心值最好的量度。正因如此,統(tǒng)計學(xué)家們研究并推廣了幾種均值的替代估
計。
.度量和估計
統(tǒng)計學(xué)家經(jīng)常使用估計這個術(shù)語來表示根據(jù)當前數(shù)據(jù)計算出的某個值,以體現(xiàn)出從數(shù)據(jù)中得出
的結(jié)果與理論上的真實結(jié)果或事物的真實狀態(tài)之間的區(qū)別。而數(shù)據(jù)科學(xué)家和商業(yè)分析師更喜歡
將這個值稱為一個度量。這種差別反映出了統(tǒng)計學(xué)與數(shù)據(jù)科學(xué)所用方法的不同,因為統(tǒng)計學(xué)的
核心任務(wù)是解釋不確定性,而數(shù)據(jù)科學(xué)關(guān)注的則是企業(yè)或組織的具體目標。因此,統(tǒng)計學(xué)家使
用的是估計,數(shù)據(jù)科學(xué)家則使用度量。
1.3.1均值
最基本的位置估計就是均值,或稱平均值。用所有值的和除以值的數(shù)量,就可以得到均值???/p>
一下這個整數(shù)集合:{3,5,1,2}o它的均值就是(3+5+1+2)/4=11/4=2.75。符號五(讀作
“工拔”)用來表示總體中一個樣本的均值。對于一個有n個值(口..口?一??了“)的集合來
說,它的均值計算公式為:
m曷四我蜀
均值硒
凰N(或n)表示記錄或觀測的總數(shù)。在統(tǒng)計學(xué)中,如果表示總體中觀測的總數(shù),就使用
大寫的N;如果表示總體中的一個樣本,就使用小寫的n0在數(shù)據(jù)科學(xué)中,這種區(qū)分無關(guān)緊
要,所以大小寫均可。
均值的一個變體是截尾均值,它的計算方法是先對數(shù)據(jù)進行排序,然后在兩端去掉一定數(shù)量的
值,冉對剩下的值計算平均數(shù)??梢詫⑴藕眯虻闹当硎緸橘盅形挠叶渲虚T【是最
小值,是最大值,那么去掉了P個最小值和R個最大值的截尾均值計算公式為:
截尾均值瞅』版
截尾均值消除了極端值的影響。例如,在國際跳水比賽中,5名裁判中的最高分和最低分被去
掉,最后得分是其余3名裁判給出的分數(shù)的平均數(shù)。這使得一名裁判很難操縱選手得分,即
使他可能會偏向自己國家的運動員。截尾均值的用途非常廣泛,很多情況下,人們更傾向于使
用截尾均值而非普通均值。參見L3.2節(jié),該節(jié)進行了進一步的討論。
另外一種均值是加權(quán)均值,計算方法是將每個數(shù)據(jù)值皿乘以一個用戶定義的權(quán)重wt,再用
它們的總和除以權(quán)重的總和。計算加權(quán)均值的公式如下:
使用加權(quán)均值的兩個主要原因如下。
?有些值本質(zhì)上就比其他值更多變,而高度可變的觀測應(yīng)該被賦予更低的權(quán)重。例如,如果
我們要計算來自多個傳感器的數(shù)據(jù)平均值,其中有一個傳感器的精確度更低,那么就應(yīng)該降低
來自這個傳感器的數(shù)據(jù)的權(quán)重。
?收集到的數(shù)據(jù)不能同等地代表我們想測量的不同群組。例如,因為某種在線實驗執(zhí)行方法
的問題,我們可能得不到一個能夠精確反映出用戶庫中所有群組的數(shù)據(jù)集合。為了時此進行修
正,我們可以給代表性較差的群組中的值賦予較高的權(quán)重。
1.3.2中位數(shù)和健壯的估計
中位數(shù)是有序數(shù)據(jù)列表中的中間數(shù)值。如果數(shù)據(jù)值的數(shù)量是個偶數(shù),那么中間值實際上不是數(shù)
據(jù)集中的一個值,而是將有序數(shù)據(jù)分為上半部分和下半部分的兩個值的平均數(shù)。與使用了所有
觀測的均值相比,中位數(shù)僅依賴于有序數(shù)據(jù)中心位置的那些值。雖然這似乎是一個劣勢,但因
為均值對數(shù)據(jù)敏感得多,所以在很多實例中,中位數(shù)是一個更好的位置度量。假設(shè)我們想研究
一下西雅圖市華盛頓湖附近地區(qū)典型家庭的收入情況。在比較麥地那地區(qū)和溫德米爾地區(qū)的時
候,使用均值會得到迥異的結(jié)果,因為比爾?蓋茨就住在麥地那。如果使用中位數(shù),那么不管
比爾?蓋茨多么富有,都不會有什么影響一一中間觀測的位置總是保持不變。
與使用加權(quán)均值的理由一樣,我們也可以計算出加權(quán)中位數(shù)。與中位數(shù)一樣,盡管每個數(shù)據(jù)值
都有一個關(guān)聯(lián)權(quán)重,我們還是先對數(shù)據(jù)進行排序。加權(quán)中位數(shù)并不是中間數(shù)值,而是使得有序
列表中上半部分的權(quán)重總和與下半部分的權(quán)重總和相等的那個值。與中位數(shù)一樣,加權(quán)中位數(shù)
對于離群值也是很健壯的。
離群值
中位數(shù)被認為是對位置的健壯估計,因為它不受離群值(極端情況)的影響,而離群值會使結(jié)
果產(chǎn)生偏差。離群值是數(shù)據(jù)集中與其他值距離非常遠的注意值。在各種數(shù)據(jù)摘要和統(tǒng)計圖中,
對離群值的表示都遵循某種慣例(參見1.5.1節(jié)),盡管如此,離群值的確切定義還是有些
主觀的。雖然離群值本身并不是一個無效或錯誤的數(shù)據(jù)值(如前面比爾?蓋茨的例子),但它
通常是數(shù)據(jù)誤操作的結(jié)果,例如,混用了不同單位(如千米與米)的數(shù)據(jù)或?qū)鞲衅鞯腻e誤讀
取。如果離群值是由數(shù)據(jù)誤操作造成的,就會使均值成為一個糟糕的位置估計,但中位數(shù)依然
有效。在任何情況下,離群值都應(yīng)該被識別出來,而且需要進一步的調(diào)查研究。
凰異常檢測
在一般的數(shù)據(jù)分析中,離群值有時候包含豐富的信息,有時候就是個干擾。與之不同的是,異
常檢測關(guān)注的重點就是離群值,而絕大多數(shù)其他數(shù)據(jù)的用途就是定義“正?!鼻闆r,以測量出
與之不同的異常情況。
中位數(shù)不是唯一健壯的位置估計,實際上,截尾均值也被廣泛用于避免離群值的影響。例如,
除非是非常小的數(shù)據(jù)集,否則都可以截掉10%(一種常用選擇)的底端數(shù)據(jù)和10%的頂端數(shù)
據(jù),以使數(shù)據(jù)不受離群值的影響。截尾均值可以看作中位數(shù)與均值的一種折中方案:它對于處
理數(shù)據(jù)中的極端值非常健壯,同時也使用了更多數(shù)據(jù)來計算位置估計。
S其他健壯的位置度量
統(tǒng)計學(xué)家們開發(fā)出了很多其他位置估計量,主要目標是得到一種比均值更健壯也更高效(即能
更好地識別出數(shù)據(jù)集中的微小位置差異)的統(tǒng)計量。盡管這些方法對小數(shù)據(jù)集可能有用,但對
中等規(guī)模甚至大型的數(shù)據(jù)集來說,可能沒有多大作用。
1.3.3示例:人口和謀殺率的位置估計
表1-2給出了數(shù)據(jù)集的前幾行,其中包括了美國各州的人口和謀殺率(單位為每年每十萬人
中被謀殺的數(shù)量)的數(shù)據(jù)(來自于2010年人口普查數(shù)據(jù))。
表1-2:名為state的data.frame中的幾行數(shù)據(jù),按州列出了人口和謀殺率
StatePopulationMurderrateAbbreviation
1Alabama47797365.7AL
2Alaska7102315.6AK
3Arizona63920174.7AZ
-1Arkansas29159185.6AR
5California372539564.4CA
6Colorado50291962.8CO
7Connecticut35740972.4CT
8Delaware8979345.8DE
使用R計算出人口的均值、截尾均值和中位數(shù):
>state<-read,csv('state,csv')
>mean(state[[*Population']])
[1]6162876
>mean(state[[*Population']],trinFO.1)
[1]4783697
>median(state[['Population,]])
[1]4436370
如果要使用Python計算均值和中位數(shù),可以使用數(shù)據(jù)框的pandas方法。計算截尾均值則需
要使用scipy.stats中的trimmean函數(shù):
state=pd.read_csv('state,csv')
state「Population1].mean()
trin_mcan(state['Population,],0.1)
statedPopulation'].medianO
均值大于截尾均值,而截尾均值大于中位數(shù)。
這是因為截尾均值分別去掉了人口最多和最少的五個州〔trim二0.1在數(shù)據(jù)兩端各去除10%的
值)。如果我們想計算美國的平均謀殺率,就需要使用加權(quán)均值或加權(quán)中位數(shù),以體現(xiàn)出各州
的人口差異。因為R的基礎(chǔ)程序中沒有計算加權(quán)中位數(shù)的函數(shù),所以需要安裝一個額外的包,
比如matrixStats:
>weighted,mean(state[['Murder.Rate*]]>w=state[['Population']])
[1]4.445834
>1ibraryCmatrixStats')
>weightedMcdian(stateMurder.Rate']],w=state[[*Population'U)
[1]4.4
NunPy可以計算加權(quán)均值。定于加權(quán)中位數(shù),我們可以使用wquantiles這個專門的程序包。
np.average(state[*Murder.Rate*],wights=statc[,Population'])
wquantiles.median(state['Murder.Rate'],weights=state['Population*])
在這種情況下,加權(quán)均值和加權(quán)中位數(shù)基本上是一樣的。
本節(jié)要點
?均值是對位置的基本度量,但它對極端值(離群值)非常敏感。
?其他度量(中位數(shù)、截尾均值)對離群值和非正常分布更不敏感,因此更健壯。
1.3.4擴展閱讀
?維基百科上關(guān)于集中趨勢的文章中廣泛討論了各種位置度量。
?約翰?圖基1977年的經(jīng)典著作《探索性數(shù)據(jù)分析》現(xiàn)在仍被廣泛閱讀。
1.4變異性估計
在對某個特征的摘要統(tǒng)計中,位置只是其中的一個維度。另一個維度是變異性(variability),
也稱為離散度(dispersion)。它測量的是數(shù)據(jù)值是緊密聚集還是分散的。統(tǒng)計學(xué)的核心任務(wù)
都與變異性相關(guān):測量變異性.、消除變異性、從真實變異性中識別出隨機因素、找出真實變異
性的各種來源,以及在變異性存在的情況下做出決策。
偏差
觀測值與位置估計之間的差異。
同義詞
誤差、殘差
方差
與均值的偏差的平方和除以n-1,其中n是數(shù)據(jù)值的數(shù)量。
同義詞
均方誤差
標準誤差
方差的平方根。
平均絕對偏差
所有數(shù)據(jù)值與均值的偏差的絕時值的均值。
同義詞
L1范數(shù)、曼哈頓范數(shù)
中位數(shù)絕對偏差
所有數(shù)據(jù)值與中位數(shù)間偏差的絕對值的中位數(shù)。
極差
數(shù)據(jù)集中最大值和最小值之差。
順序統(tǒng)計量
基于從小到大排序的數(shù)據(jù)值的度量。
同義詞
秩
百分位數(shù)
舉例來說,第P個百分位數(shù)的意思是,一個數(shù)據(jù)集中百分之P的值小于等于它,百分之
的值大于等于它。
同義詞
分位數(shù)
四分位距(IQR)
第75個百分位數(shù)和第25個百分位數(shù)之間的差異。
同義詞
四分位差
測量位置有多種方法(均值、中位數(shù)等),同樣,測量變異性也有多種方法。
L4.1標準差以及相關(guān)估計
最常用的變異性估計基于位置估計與觀測數(shù)據(jù)之間的差異(或偏差)。對于一組數(shù)據(jù){1,4,4},
均值為3,中位數(shù)是4。與均值之間的偏差就是數(shù)據(jù)與均值的差:1-3=-2,4-3=1,4-3=1o通
過這些偏差,我們可以知道數(shù)據(jù)是如何分散在中心值周圍的。
測量變異性的一種方法是為這些偏差估計出一個典型值。對偏差本身進行平均沒有太大意義,
因為負偏差與正偏差會互相抵消。實際上,相對于均值的偏差的總和肯定是0o一種簡單的方
法是對均值偏差的絕對值取平均數(shù)。在前面的例子中,偏差的絕對值是{2,1,1),它們的平
均數(shù)是(2+1+D/3七1.33。這稱為平均絕對偏差,它的計算公式如下:
平均絕對偏差
其中至是樣本均值。
最著名的變異性仙計是方差和標準差,它們基于偏差的平方。方差是偏差平方的平均數(shù),標準
差是方差的平方根:
標準差=5=/殛
標準差比方差更容易解釋,因為它具有與原始數(shù)據(jù)相同的尺度。有些奇怪的是,雖然標準差的
計算公式更復(fù)雜,也更難以直觀地理解,但統(tǒng)計學(xué)中更愿意使用標準差,而不是平均絕對偏差。
原因在于標準差在統(tǒng)計理論中的優(yōu)勢地位:從數(shù)學(xué)上看,處理平方值要比絕對值方便得多,特
別是對于統(tǒng)計模型。
自由度是n還是zrl?
在統(tǒng)計學(xué)圖書中,總是會有這樣的討論:為什么方差計算公式中的分母是,一1,而不是n?
這就引出了自由度的概念。這種區(qū)別不是很重要,因為n通常足夠大,所以除以n還是
I不會有很大差別。但如果你對此很感興趣,那我們就解釋一下。這種情況的前提是基于
樣本對總體進行估計。
如果你在方差計算公式中使用n作為分母,就會低估總體方差和標準差的真實值。這稱為有
偏估計。不過,如果你除以?-1,而不是n,那方差就變成了無偏估計。
要想充分解釋為什么使用n會導(dǎo)致有偏估計,就要涉及自由度的概念。自由度考慮了在計算
估計量時限制條件的數(shù)量。在這種方差計算中,有個自由度,因為存在一個限制:標
準差依賴于計算:樣本均值。在多數(shù)問題中,數(shù)據(jù)科學(xué)家并不需要考慮自由度。
不管是方差、標準差,還是平均絕對偏差,它們對離群值和極端值都比較敏感(參見1.3.2節(jié)
中對健壯位置估計的討論)。方差和標準差對離群值尤其敏感,因為它們基于偏差的平方。
變異性的一種健壯估計是中位數(shù)絕對偏差,或稱MAD:
MAD二中位數(shù)胭窺=回⑼扇—朗/司@聞1%=聞口
其中m表示中位數(shù)。和中位數(shù)一樣,MAD也不受極端值的影響。類似于截尾均值(參見1.3.1
節(jié)),我們也可以計算出截尾標準差。
K方差、標準差、平均絕對偏差和中位數(shù)絕對偏差互不等價,即使數(shù)據(jù)來自于一個正態(tài)分
布。實際上,標準差總是大于平均絕對偏差,而平均絕對偏差也總是大于中位數(shù)絕對偏差。有
時候,中位數(shù)絕對偏差會乘以一個固定的縮放因子,使得MAD在正態(tài)分布情況下與標準差具
有相同的尺度。常用的縮放因子是1.4826,它可以使50%的正態(tài)分布值落在土MAD的范圍內(nèi)。
1.4.2基于百分位數(shù)的估計
估計數(shù)據(jù)的離散度還有另外一種方法,它基于有序數(shù)據(jù)的分布情況。基于有序數(shù)據(jù)的統(tǒng)計量稱
為順序統(tǒng)計量。最基本的測量方式是極差:最大值與最小值之間的差異。最大值和最小值本身
就非常有用,了解它們有助于識別離群值,但極差對離群值非常敏感,作為一種測量數(shù)據(jù)離散
度的方式,它的作用有限。
為了避免對離群值的敏感性,我們可以看一下在兩端各去掉一些值之后的數(shù)據(jù)范圍。確切地說,
這種估計基于百分位數(shù)之間的差異。在一個數(shù)據(jù)集中,第P個百分位數(shù)是使得至少百分之P
個值小于等于它,至少百分之的值大于等于它的那個值。例如,要找出第80個
百分位數(shù),可以先對數(shù)據(jù)排序,然后從最小值開始,向最人值方向數(shù)過80%的數(shù)值。請注意,
中位數(shù)就是第50個百分位數(shù)。百分位數(shù)與分位數(shù)本質(zhì)上是一樣的,只不過分位數(shù)是用分數(shù)來
表示的(所以分位數(shù)0.8等同于第80個百分位數(shù))。
變異性的一種常用測量方式是第25個百分位數(shù)和第75個百分位數(shù)之間的差異,稱為四分位
距(或IQR)o下面是一個簡單的例子:{3,1,5,3,6,7,2,9}0對其進行排序,得到{1,
2,3,3,5,6,7,9}。第25個百分位數(shù)是2.5,第75個百分位數(shù)是6.5,所以四分位距
是6.5-2.5=4。軟件使用的方法和上面稍有不同,所以可能得到不同的答案(見下面的提示)。
一般來說,這種差異是非常小的。
對于非常大的數(shù)據(jù)集,要計算出準確的百分位數(shù)需要高昂的計算成本,因為要對所有數(shù)據(jù)值進
行排序。機器學(xué)習(xí)與統(tǒng)計軟件可以使用特殊算法(如[ZhangTang-2007])快速計算出一個近
似的百分位數(shù),同時確保一定的精確度。
*百分位數(shù):精確定義
如果有偶數(shù)個數(shù)據(jù)(”為偶數(shù)),那么根據(jù)前面的定義,百分位數(shù)就沒有明確的值。實際上,
我們可以在順序統(tǒng)計量丁川和TIM1I之間取任意值,其中J滿足:
嚴格的定義是,百分位數(shù)是使用介于0和1之間的權(quán)重對-r0和0JM)的加權(quán)平均:
百分位數(shù)同口科?磷磁中冷獺W
在選擇w時,不同統(tǒng)計軟件所用的方法有微小的差異。實際上,R中的quantile函數(shù)提供
了9種方法來計算分位數(shù)。除非是小數(shù)據(jù)集,否則你通常不用關(guān)心計算百分位數(shù)的準確方法。
在編寫本書的時候,Python中的numpy.quantile函數(shù)僅支持一種方法,即線性插值。
1.4.3示例:美國各州人口數(shù)量的變異性估計
表「3(為方便起見,復(fù)制了表1-2)給出了數(shù)據(jù)集中的前幾行,其中包含了美國各州的人口
和謀殺率數(shù)據(jù)。
表1-3:名為state的data.frame中的幾行數(shù)據(jù),按州列出了人口和謀殺率
StatePopulationMurderrateAbbreviation
1Alabama47797365.7AL
2Alaska7102315.6AK
3Arizona63920174.7AZ
-1Arkansas29159185.6AR
5California372539564.4CA
6Colorado50291962.8CO
7Connecticut35740972.4CT
8Delaware8979345.8DE
使用R中用于計算標準差、二QR和MAD的內(nèi)置函數(shù),可以得到各州人口數(shù)據(jù)的變異性估計:
>sdCstatetfPopulation*]])
[1]6848235
>IQR(statc[['Population*]])
[1]4847308
>mad(state[['Population,]])
[1]3849870
pandas的數(shù)據(jù)框?qū)ο筇峁┝擞嬎銟藴什詈头治粩?shù)的方法。使用分位數(shù),可以非常容易地確定
TQR。至于健壯的MAD,我們可以使用statsmodels包中的robust,scale,mad函數(shù):
state[*Population*].std()
statedPopulation,].quantile(0.75)-state['Population,].quantile(0.25)
robust,scale,mad(statefPopulation'])
標準差幾乎是MAD的二倍(在R中,MAD被默認調(diào)整到與均值一樣的尺度)。別大驚小怪,
因為標準差對離群值非常敏感。
本節(jié)要點
?方差和標準差是使用最廣泛的變異性統(tǒng)計量。
?方差和標準差都對離群值非常敏感。
?更健壯的度量方式包括平均絕對偏差、中位數(shù)絕對偏差和百分位數(shù)(分位數(shù))。
1.4.4擴展閱讀
?DavidLane的統(tǒng)計學(xué)在線資源中有一節(jié)介紹了百分位數(shù)。
?KevinDavenport在R-Bloggers上發(fā)表了一篇非營有用的文章“AbsoluteDeviation
AroundtheMedian”,介紹了相對于中位數(shù)的偏差及其健壯特性。
1.5探索數(shù)據(jù)分布
前面介紹的所有估計量都將數(shù)據(jù)總結(jié)為一個數(shù)值,以描述數(shù)據(jù)的位置或變異性。同樣,對數(shù)據(jù)
的整體分布進行探索也是非常有用的。
本節(jié)關(guān)鍵術(shù)語
箱線圖
由圖基提出的一種統(tǒng)計圖,可作為一種快速可視化數(shù)據(jù)分布情況的方法。
同義詞
箱須圖
頻數(shù)表
一個表格,包含了落入一組間隔(箱子)的數(shù)值型數(shù)據(jù)的個數(shù)。
直方圖
根據(jù)頻數(shù)表繪出的一種統(tǒng)計圖,其中工軸是箱子,以軸是計數(shù)(或比例)數(shù)據(jù)。條形圖與直
方圖在外觀上非常相似,但一定不能將二者混淆。參見1.6節(jié)以了解二者的差異。
密度圖
直方圖的平滑版本,通常基于核密度估計。
1.5.1百分位數(shù)與箱線圖
1.4.2節(jié)介紹了如何使用百分位數(shù)來測量數(shù)據(jù)的分布情況。對于整個分布的摘要統(tǒng)計,百分位
數(shù)也非常有價值。通常會給出四分位數(shù)(第25、50和75個百分位數(shù))和十分位數(shù)(第10、
20、…、90個百分位數(shù))。對于分布尾部(外圍部分)的摘要統(tǒng)計,百分位數(shù)尤為重要。大
眾文化創(chuàng)造了“one-percenters"這個名詞,用來指代那些財富超過了99%的人的億萬富翁。
表1-4給出了美國各州謀殺率的幾個百分位數(shù)。在R中,可以通過quantile函數(shù)生成這些
數(shù)據(jù):
quantile(state[fMurder.Rate*]],p=c(.05,.25,.5,.75,.95))
5%25%50%75%95%
1.6002.4254.0005.5506.510
在Python中,可以使用pandas的數(shù)據(jù)框方法quantile得到這些數(shù)據(jù):
statefMurder.Rate*].quantile([0,05,0.25.0.5.0.75.0.95])
表1-4:美國各州謀殺率的百分位數(shù)
5%25%50%75%95%
1.602.424.005.556.51
中位數(shù)是每10萬人中有4人被謀殺,但變異性還是比較大的:第5個百分位數(shù)只有1.6,
而第95個百分位數(shù)達到了6.51c
箱線圖是由圖基引入的[Tukey-1977],它可以基于百分位數(shù)快速可視化數(shù)據(jù)的分布。圖1-2
顯示了一張由R牛成的表示美國各州人口分布的箱線圖。
boxplot(state[[*Popu1ation*]]/1000000,ylab=,Population(millions),)
圖1-2:美國各州人口箱線圖
pandas為數(shù)據(jù)框?qū)ο筇峁┝硕喾N基本的探索性統(tǒng)計圖,箱線圖就是其中之一。
ax=(stateE*Population*]/1_000_000).plot.box()
ax.set_ylabel('Population(millions)')
從圖1-2中我們可以立刻看出,美國各州人口的中位數(shù)大約是500萬,有一半的州的人口大
致在200萬和700萬之間,還有一些人口特別多的離群值。箱子的頂部和底部分別是第75
個百分位數(shù)和第25個百分位數(shù),箱子中的橫線表示中位數(shù)。兩條虛線稱為須(whisker),
分別從箱子的頂部和底部延伸出去,表示數(shù)據(jù)的極差。箱線圖有多種變體,在R函數(shù)boxplot
的文檔[R-base-2015]中有一些例子。默認情況下,這個R函數(shù)可以將須延伸到箱子外面最
遠的點,除非它超過了1.5倍的四分位距。Matplotlib使用了同樣的實現(xiàn)方式,但其他軟件
可能使用了不同的規(guī)則。
所有在須之外的數(shù)據(jù)都被繪制為一個單獨的點或圓圈(通常被看作離群點)。
1.5.2頻數(shù)表和直方圖
一個變量的頻數(shù)表將變量范圍分為多個段,每個段的間隔相等,它可以表示出每個段中有多少
個變量值。表15給出了R語言中一個表示美國各州人口分布的頻數(shù)表。
breaks<-seq(from=min(statePopulation*]]),
to=max(state[「Population']]),length=l1)
popfreq<-cut(state[[*Population]],breaks=breaks,
right=TRUE,include.lowcst=TRUE)
table(pop_freq)
pandas,cut函數(shù)可以創(chuàng)建一個序列,將數(shù)據(jù)值映射到各個段中。使用value_counts方法,
就可以得到頻數(shù)表。
binnpdPnpiilation=pd.ent(statpfPnpnlation'],10)
binncdPopulation.valuc_counts()
表1-5:美國各州人口頻數(shù)表
BinNumberBinRangeCountStates
1563626?423265824WY,VT,ND,AK,SD,DE,MT,RI,NH,ME,HI,ID,NE,WV,NM,NV,UT,KS,AR,
MS,IA,CT,OK,OR
24232659v90169114KY,LA,SC,AL,CO,MN,Wl,MD,MO,TN,AZ,IN,MA,WA
37901692'115706VA,NJ,NC,GA,Ml,OH
724
411570725152392PA,IL
757
515239758~189081FL
790
61890879T225771NY
823
72257782Q262461TX
856
826246857~299150
889
929915890~335840
922
1033584923~372531CA
956
人口最少的州是懷俄明(WY),有563626人;人口最多的州是加利福尼亞(CA),有37253
956人。各州人口的極差是37253956-563626=36690330,我們必須把它劃分為大小相等
的箱子一一假定分為10個箱子。對于這10個大小相等的箱子,每個箱子的寬度都是3669
033,所以第一箱子的范圍就是從563626到4232658。與之明顯不同的是,最后一個箱子
的范圍是33584923到37253956,其中只有一個州:加利福尼亞。加利福尼亞和得克薩
斯(TX)中間的兩個箱子是空的。將空箱子也包含在內(nèi)是非常重要的,這些箱子中沒有值這一
事實是非常有用的信息。使用不同的箱子大小進行實驗是非常有用的做法。如果箱子太大,數(shù)
據(jù)分布的一些重要特征就有可能被漏掉;如果箱子太小,那么結(jié)果就會過于顆?;?,從而失去
統(tǒng)觀大局的作用。
K頻數(shù)表和百分位數(shù)都通過分箱來對數(shù)據(jù)進行摘要統(tǒng)計。一般來說,四分位數(shù)和十分位數(shù)
在每個箱子中都有同樣數(shù)量的值,但箱子的大小會有所不同(等頻分箱,equal-countbins)。
與之相反,頻數(shù)表在每個箱子中的計數(shù)值是不同的,但箱子大小都是一樣的(等距分箱,
equal-sizebins)。
直方圖是頻數(shù)表的一種可視化方法,它的工軸是箱子,y軸是數(shù)據(jù)計數(shù)。例如,在圖IT中,
中心點在1000萬(le+07)的箱子的范圍大致從800萬到1200萬,其中有6個州。如果
想在R中創(chuàng)建一個與表1-5對應(yīng)的直方圖,可以使用hist函數(shù),加上breaks參數(shù):
hisl(stale[[,Population*]],breaks=breaks)
pandas通過DataFrame.plot.hist方法為數(shù)據(jù)框生成直方圖。使用關(guān)鍵子參數(shù)bins確定箱
子的數(shù)量。各種不同的繪圖方法都可以返回一個axis對?象,使用Matplotlib可以對這個對
象做進一步的調(diào)優(yōu):
ax=(statefPopulation*]/l_000_000).plot.hist(figsize=(4,4))
ax.setxlabelCPopulation(mi11ions),)
直方圖如圖「3所示。一般來說,繪制直方圖時應(yīng)滿足以下條件。
?圖中應(yīng)包括空箱子。
?箱子寬度都是一樣的。
?箱子的數(shù)量(或箱子大小)可由用戶確定。
?條形是緊挨著的一一之間沒有空隙,除非有一個空箱子。
3n
AloL
o
u
①
n
b
a0
lL
L
0100000002000000030000000
Population
圖1-3:美國各州人口直方圖
Mi矩
在統(tǒng)計學(xué)理論中,位置和變異性被稱作數(shù)據(jù)分布的一階矩和二階矩,三階矩和四階矩則稱為偏
度和峰度。偏度表示數(shù)據(jù)是偏向較大的值還是較小的值,而峰度則表示數(shù)據(jù)中具有極端值的傾
向性。通常,我們不使用某種具體的度量方式來測量偏度和峰度,而是通過像圖1-2和圖1-3
這樣的可視化方式來發(fā)現(xiàn)它們。
1.5.3密度圖和密度估計
密度圖將數(shù)據(jù)值的分布表示為一條連續(xù)的曲線,它與直方圖密切相關(guān)。盡管密度圖通常是通過
核密度估計(kerneldensityestimate)([Duong-2001]中有一個簡短的教程)根據(jù)數(shù)據(jù)直
接計算出來的,但完全可以把它看作平滑的直方圖。圖1-4給出了一個疊加在直方圖上的密
度估計。在R中,你可以使用density函數(shù)計算出密度估計:
hisl(stale[[,Murder.Rate']],freq=FAI.SE)
lines(density(state[[,Murder.Rate']]),lwd=3,col=,blue')
pandas提供了density方法來創(chuàng)建密度圖,使用參數(shù)bw_method可以控制密度曲線的平滑
度:
ax=state['Murder.Kate'].plot.hist(density=True,xlim=[0,12],bins=range(l,12))
stateMurder.Rate)].plot,density(ax=ax)O
ax.set_xlabclCMurderRate(per100,000)')
?繪圖函數(shù)經(jīng)常使用一個可選的axis參數(shù)(ax),它可以將此次繪圖結(jié)果添加到同一張圖
中。
與圖卜3中的直方圖相比,密度圖的一個關(guān)鍵區(qū)別是y軸的單位。密度圖相當于使用比例而
不是計數(shù)繪制出來的直方圖(在R中,可以使用參數(shù)freq二FALSE來指定這種操作)。請注
意,密度曲線下面的總面積等于1,你計算的不是箱子中的計數(shù),而是x軸上任意兩點之間
在曲線下的面積,這個面積就相當于兩點之間的分布占總分布的比例。
MurderRate(per100,000)
圖1-4:美國各州謀殺率的密度圖
S密度估計
密度估計是一個內(nèi)容豐富的主題,在統(tǒng)計學(xué)文獻中源遠流長。實際上,已經(jīng)有20多個R包
能提供密度估計的功能。[Deng-Wickham-2011]對這些R包進行了全面的綜述,并特別推薦
了ASII和KernSmooth這兩個包<>pandas和scikit-learn中的密度估
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 未來五年石墨、石膏地質(zhì)堪查服務(wù)企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略分析研究報告
- 2025四川自貢市第一人民醫(yī)院招聘醫(yī)療輔助崗人員11人備考題庫附答案詳解
- 2025中國海洋大學(xué)材料科學(xué)與工程學(xué)院實驗技術(shù)人員招聘1人備考題庫及答案詳解(奪冠系列)
- 未來五年復(fù)合鋼企業(yè)縣域市場拓展與下沉戰(zhàn)略分析研究報告
- 2026年昆明市五華區(qū)龍翔街道社區(qū)衛(wèi)生服務(wù)中心工作人員招聘備考題庫(3人)及參考答案詳解1套
- 2026四川宜賓銘星中醫(yī)醫(yī)院人才招募中醫(yī)醫(yī)生、外科醫(yī)生、編碼員備考題庫及參考答案詳解
- 2026中國人民人壽保險股份有限公司錫林郭勒中心支公司招聘5人備考題庫(內(nèi)蒙古)及答案詳解(新)
- 2025山東濟南市山東大學(xué)新聞傳播學(xué)院非事業(yè)編制人員招聘1人備考題庫及1套完整答案詳解
- 卵巢癌初始治療后的維持治療及復(fù)發(fā)監(jiān)測診療指南及操作規(guī)范
- 2025中國能建葛洲壩電力公司國內(nèi)市場機構(gòu)正副職崗位招聘備考題庫及完整答案詳解
- 口腔修復(fù)學(xué):全口義齒課件
- 膜式壁制造及檢驗工藝演示文稿
- 紅壤區(qū)貧瘠農(nóng)田土壤快速培肥技術(shù)規(guī)程
- 證券市場基礎(chǔ)知識講義全
- 宣城硅鑫新材料有限公司年產(chǎn)1.17萬噸特種硅油系列產(chǎn)品項目環(huán)境影響報告書
- 心肺復(fù)蘇操作考核評分表 (詳)
- 公園建設(shè)項目環(huán)境影響報告書
- 員工就業(yè)規(guī)則
- SS3和SS4簡明電路圖教案
- 路面施工風(fēng)險告知書
- 新生兒常用藥物外滲后的處理課件
評論
0/150
提交評論