《統(tǒng)計(jì)學(xué)-基于R》(第6版)課件 第4章 數(shù)據(jù)的描述統(tǒng)計(jì)量_第1頁
《統(tǒng)計(jì)學(xué)-基于R》(第6版)課件 第4章 數(shù)據(jù)的描述統(tǒng)計(jì)量_第2頁
《統(tǒng)計(jì)學(xué)-基于R》(第6版)課件 第4章 數(shù)據(jù)的描述統(tǒng)計(jì)量_第3頁
《統(tǒng)計(jì)學(xué)-基于R》(第6版)課件 第4章 數(shù)據(jù)的描述統(tǒng)計(jì)量_第4頁
《統(tǒng)計(jì)學(xué)-基于R》(第6版)課件 第4章 數(shù)據(jù)的描述統(tǒng)計(jì)量_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

課程內(nèi)容描述統(tǒng)計(jì)、推斷統(tǒng)計(jì)、其他方法使用軟件R語言學(xué)分與課時3學(xué)分,1~17周,每周3課時課程簡介統(tǒng)計(jì)學(xué)基于R應(yīng)用的統(tǒng)計(jì)學(xué)叢書

基于R

⑥版STATISTICSWITHR賈俊平著中國人民大學(xué)出版社賈俊平2025/9/294.1描述水平的統(tǒng)計(jì)量4.2描述差異的統(tǒng)計(jì)量4.3描述分布形狀的統(tǒng)計(jì)量4.4數(shù)據(jù)標(biāo)準(zhǔn)化4.5數(shù)據(jù)的綜合描述第4章數(shù)據(jù)描述統(tǒng)計(jì)量數(shù)據(jù)的水平也稱位置度量,反映全部數(shù)據(jù)的數(shù)值大小數(shù)據(jù)的差異反映各數(shù)據(jù)間的離散程度分布的形狀反映數(shù)據(jù)分布的偏度和峰度數(shù)據(jù)的描述統(tǒng)計(jì)量數(shù)據(jù)描述的三個角度

簡單平均數(shù)加權(quán)平均數(shù)

平均數(shù)【例4-1】在某年級中隨機(jī)抽取30名學(xué)生,得到每名學(xué)生的數(shù)學(xué)考試分?jǐn)?shù)。計(jì)算考試分?jǐn)?shù)的平均數(shù)R實(shí)現(xiàn)

4.1

描述水平的統(tǒng)計(jì)量平均數(shù)——加權(quán)平均數(shù)——例題分析【例4-2】沿用例4-1。假定將30名學(xué)生的數(shù)學(xué)考試分?jǐn)?shù)分組后結(jié)果表所示。計(jì)算考試分?jǐn)?shù)的平均數(shù)分組組中值(m)人數(shù)(f)60以下55360~7065470~8075480~90851090~100959合計(jì)—30R實(shí)現(xiàn)

4.1

描述水平的統(tǒng)計(jì)量分位數(shù)——中位數(shù)分位數(shù)一組數(shù)據(jù)按從小到大排序后,可以找出排在某個位置上的數(shù)值,該數(shù)值可以代表數(shù)據(jù)水平的高低。這些位置上的數(shù)值就是相應(yīng)的分位數(shù)(quantile)常用的分位數(shù)有中位數(shù)、四分位數(shù)、百分位數(shù)等具有統(tǒng)計(jì)上的穩(wěn)健性(robustness)位置確定數(shù)值計(jì)算

中位數(shù)排序后處于中間位置上的值。不受極端值影響【例4-3】沿用例4-1。計(jì)算30名學(xué)生數(shù)學(xué)考試分?jǐn)?shù)的中位數(shù)R實(shí)現(xiàn)

4.1

描述水平的統(tǒng)計(jì)量分位數(shù)——四分位數(shù)四分位數(shù)一組數(shù)據(jù)排序后處在25%和75%位置上的數(shù)值用3個點(diǎn)將全部數(shù)據(jù)等分為4部分,其中每部分包含25%的數(shù)據(jù)中間的四分位數(shù)就是中位數(shù),因此通常所說的四分位數(shù)是指處在25%位置上和75%位置上的兩個數(shù)值

位置確定——R默認(rèn)算法:type=7

R實(shí)現(xiàn)

4.1

描述水平的統(tǒng)計(jì)量分位數(shù)——百分位數(shù)百分位數(shù)用99個點(diǎn)將數(shù)據(jù)分成100等份,處在各分位點(diǎn)上的數(shù)值就是百分位數(shù)百分位數(shù)提供了各項(xiàng)數(shù)據(jù)在最小值和最大值之間分布的信息

位置確定——R默認(rèn)算法:type=7

R實(shí)現(xiàn)

4.1

描述水平的統(tǒng)計(jì)量眾數(shù)

【例4-6】沿用例4-1。計(jì)算30名學(xué)生考試分?jǐn)?shù)的眾數(shù)R實(shí)現(xiàn)

4.1

描述水平的統(tǒng)計(jì)量極差和四分位差

【例4-7】沿用例4-1。計(jì)算30名學(xué)生考試分?jǐn)?shù)的極差和四分位差R實(shí)現(xiàn)

4.2

描述差異的統(tǒng)計(jì)量方差和標(biāo)準(zhǔn)差方差離差平方和的平均數(shù)標(biāo)準(zhǔn)差方差開平方根后的結(jié)果稱為標(biāo)準(zhǔn)差(SD)【例4-9】沿用例4-2。根據(jù)表4-2的分組數(shù)據(jù),計(jì)算30名學(xué)生考試分?jǐn)?shù)的方差和標(biāo)準(zhǔn)差R實(shí)現(xiàn)

簡單樣本方差簡單樣本標(biāo)準(zhǔn)差

加權(quán)樣本方差加權(quán)樣本標(biāo)準(zhǔn)差

【例4-8】沿用例4-1。計(jì)算30名學(xué)生考試分?jǐn)?shù)的方差和標(biāo)準(zhǔn)差4.2

描述差異的統(tǒng)計(jì)量變異系數(shù)變異系數(shù)變異系數(shù)(coefficientofvariation,CV)也稱離散系數(shù)一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的平均數(shù)之比消除了數(shù)值大小和計(jì)量單位對標(biāo)準(zhǔn)差的影反映一組數(shù)據(jù)的相對離散程度【例4-10】為分析不同行業(yè)上市公司每股收益的差異,在互聯(lián)網(wǎng)服務(wù)行業(yè)和機(jī)械制造行業(yè)各隨機(jī)抽取10家上市公司,得到某年度的每股收益數(shù)據(jù)如表4-3所示。計(jì)算變異系數(shù),比較兩類上市公司每股收益的離散程度R實(shí)現(xiàn)

互聯(lián)網(wǎng)公司機(jī)械制造公司0.460.980.680.621.280.401.400.041.250.601.570.351.050.951.380.421.380.030.910.854.2

描述差異的統(tǒng)計(jì)量偏度系數(shù)

算法1:對應(yīng)于R的e1071包中skewness函數(shù)的type=1。比較傳統(tǒng)教材中的定義算法2:應(yīng)于R的e1071包中skewness函數(shù)的type=2。也是Python的pandas模塊中DataFrame.skew函數(shù),SPSS,SAS,Excel軟件中的默認(rèn)算法算法3:對應(yīng)于R的e1071包中skewness函數(shù)的type=3(函數(shù)默認(rèn)算法),該算法是Mintab軟件中的默認(rèn)算法

4.3

描述分布形狀的統(tǒng)計(jì)量峰度系數(shù)偏度系數(shù)峰度(kurtosis)是指數(shù)據(jù)分布峰值的高低由統(tǒng)計(jì)學(xué)家K.Pearson于1905年首次提出峰度系數(shù)—測度一組數(shù)據(jù)分布峰值高低的統(tǒng)計(jì)量是(coefficientofkurtosis),記作K

算法1:對應(yīng)于R的e1071包中kurtosis函數(shù)的type=1。傳統(tǒng)教材中的定義算法2:對應(yīng)于R的e1071包中kurtosis函數(shù)的type=2。也是Python的pandas模塊中DataFrame.skew函數(shù),SPSS,SAS,Excel軟件中的默認(rèn)算法算法3:對應(yīng)于R的e1071包中kurtosis函數(shù)的type=3(函數(shù)默認(rèn)算法)該算法是Mintab軟件中的默認(rèn)算法

4.3

描述分布形狀的統(tǒng)計(jì)量偏度系數(shù)和峰度系數(shù)——例題分析同分布形狀對應(yīng)的偏度系數(shù)和峰度系數(shù)【例4-11】沿用例4-1。計(jì)算30名學(xué)生考試分?jǐn)?shù)的偏度系數(shù)和峰度系數(shù)R實(shí)現(xiàn)

4.3

描述分布形狀的統(tǒng)計(jì)量數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)標(biāo)準(zhǔn)化在分析和可視化多個變量時,這些變量往往具有不同的量綱(dimension),也就是不同的計(jì)量單位為了對多個變量的特征進(jìn)行比較分析,通常需要將這些變量通過某種變換統(tǒng)一成相同的量綱,這就是所謂的數(shù)據(jù)標(biāo)準(zhǔn)化(standardization),也稱歸一化(normalization)統(tǒng)計(jì)中的標(biāo)準(zhǔn)化方法有多種,這里只介紹較常用的標(biāo)準(zhǔn)化方法,即標(biāo)準(zhǔn)分?jǐn)?shù)和極值標(biāo)準(zhǔn)化4.4

數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)分?jǐn)?shù)標(biāo)準(zhǔn)分?jǐn)?shù)也稱z分?jǐn)?shù)或標(biāo)準(zhǔn)化值,它是一種常用的數(shù)據(jù)歸一化方法。標(biāo)準(zhǔn)分?jǐn)?shù)是將一組原始數(shù)據(jù)變換成均值為0、方差為1的另一組數(shù)據(jù)當(dāng)有多個不同的變量進(jìn)行比較分析時,通常需要作標(biāo)準(zhǔn)化變換標(biāo)準(zhǔn)分?jǐn)?shù)可以用于度量每個數(shù)值在該組數(shù)據(jù)中的相對位置,判斷一組數(shù)據(jù)是否有離群點(diǎn)

【例4-12】沿用例4-1。計(jì)算30名學(xué)生考試分?jǐn)?shù)的標(biāo)準(zhǔn)分?jǐn)?shù)R實(shí)現(xiàn)

4.4

數(shù)據(jù)標(biāo)準(zhǔn)化極值標(biāo)準(zhǔn)化極值標(biāo)準(zhǔn)化極值標(biāo)準(zhǔn)化是另一種標(biāo)準(zhǔn)化變換,它是將一組原始數(shù)據(jù)縮放到[0,1]的范圍內(nèi),也稱最大最小標(biāo)準(zhǔn)化(Min-MaxNormalization)當(dāng)一組數(shù)據(jù)存在較大或較小的離群值時,通常需要作極值標(biāo)準(zhǔn)化變換標(biāo)準(zhǔn)分?jǐn)?shù)可以用于度量每個數(shù)值在該組數(shù)據(jù)中的相對位置,判斷一組數(shù)據(jù)是否有離群點(diǎn)

【例4-13】沿用例4-1。計(jì)算30名學(xué)生考試分?jǐn)?shù)的極值標(biāo)準(zhǔn)化值R實(shí)現(xiàn)

4.4

數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化的性質(zhì)標(biāo)準(zhǔn)化的性質(zhì)標(biāo)準(zhǔn)分?jǐn)?shù)和極值標(biāo)準(zhǔn)化只是對數(shù)據(jù)做了線性變換,它只是簡單地改變數(shù)據(jù)的原點(diǎn)和量綱,它是等度地對數(shù)據(jù)進(jìn)行壓縮或擴(kuò)張,但不改變數(shù)據(jù)在坐標(biāo)軸上的相對位置,自然也就不會改變數(shù)據(jù)分布的形狀,因此有利于不同變量進(jìn)行分布特征的比較。為比較變換的效果,我們繪制出原始數(shù)據(jù)、標(biāo)準(zhǔn)分?jǐn)?shù)和極值標(biāo)準(zhǔn)化值的點(diǎn)圖、箱線圖與核密度圖當(dāng)有多個不同的變量進(jìn)行比較分析時,通常需要作標(biāo)準(zhǔn)化變換4.4

數(shù)據(jù)標(biāo)準(zhǔn)化幾個常用的R函數(shù)R的綜合描述函數(shù)pastecs包中的stat.desc函數(shù)summarytools包中的descr函數(shù)psych包中的describe函數(shù)【例4-14】

沿用例4-10。計(jì)算互聯(lián)網(wǎng)服務(wù)行業(yè)和機(jī)械制造行業(yè)上市公司每股盈的各描述統(tǒng)計(jì)量,并進(jìn)行綜合分析R實(shí)現(xiàn)

4.5

數(shù)據(jù)的綜合描述

一個綜合描述的例子【例4-15】

在某大學(xué)隨機(jī)抽取60名大學(xué)生,調(diào)查得到他們的性別、家庭所在地和月生活費(fèi)支出(單位:元)數(shù)據(jù)如表4-4所示。對調(diào)查數(shù)據(jù)進(jìn)行綜合分析性別家庭所在地月生活費(fèi)支出性別家庭所在地月生活費(fèi)支出女中小城市1500女鄉(xiāng)鎮(zhèn)地區(qū)1850男大型城市2000女鄉(xiāng)鎮(zhèn)地區(qū)2000男大型城市1800女中小城市1700女中小城市1600女大型城市1800女中小城市2000男中小城市1860R實(shí)現(xiàn)

4.5

數(shù)據(jù)的綜合描述一個綜合描述的例子——圖形描述使用summarytools包中的數(shù)據(jù)框描述函數(shù)dfSummary進(jìn)行綜合描述4.5

數(shù)據(jù)的綜合描述一個綜合描述的例子——圖形描述按性別和家庭所在地分組的箱線圖4.5

數(shù)據(jù)的綜合描述一個綜合描述的例子——圖形描述按性別和家庭所在地分組的核密度圖4.5

數(shù)據(jù)的綜合描述一個綜合描述的例子——統(tǒng)計(jì)量描述計(jì)算全部月生活費(fèi)支出的描述統(tǒng)計(jì)量(可根據(jù)需要選擇)n平均數(shù)

中位數(shù)

標(biāo)準(zhǔn)差

極差變異系數(shù)偏度系數(shù)60.001812.331850.00321.001700.000.180.30R實(shí)現(xiàn)

4.5

數(shù)據(jù)的綜合描述一個綜合描述的例子——統(tǒng)計(jì)量描述按性別分組計(jì)算描述統(tǒng)計(jì)量

性別n平均數(shù)中位數(shù)

標(biāo)準(zhǔn)差全距

變異系數(shù)

偏度系數(shù)1男251701.2001780275.48939000.1619382-0.48451392女351891.7141900331.152115000.17505390.4605462按家庭所在地分組

家庭所在地n平均數(shù)中位數(shù)

標(biāo)準(zhǔn)差全距

變異系數(shù)

偏度系數(shù)1大型城市261848.8461850364.135417000.19695280.28498172鄉(xiāng)鎮(zhèn)地區(qū)101757.0001860236.03447000.1343394-0.75802323中小城市241795.8331800308.656510600.17187370.2366286R實(shí)現(xiàn)

4.5

數(shù)據(jù)的綜合描述一個綜合描述的例子——統(tǒng)計(jì)量描述同時按性別和家庭所在地分組計(jì)算描述統(tǒng)計(jì)量R實(shí)現(xiàn)

性別家庭所在地nmeanmedia

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論