版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
課程內(nèi)容描述統(tǒng)計(jì)、推斷統(tǒng)計(jì)、其他方法使用軟件R語言學(xué)分與課時3學(xué)分,1~17周,每周3課時課程簡介統(tǒng)計(jì)學(xué)基于R應(yīng)用的統(tǒng)計(jì)學(xué)叢書
基于R
第
⑥版STATISTICSWITHR賈俊平著中國人民大學(xué)出版社賈俊平2025/9/294.1描述水平的統(tǒng)計(jì)量4.2描述差異的統(tǒng)計(jì)量4.3描述分布形狀的統(tǒng)計(jì)量4.4數(shù)據(jù)標(biāo)準(zhǔn)化4.5數(shù)據(jù)的綜合描述第4章數(shù)據(jù)描述統(tǒng)計(jì)量數(shù)據(jù)的水平也稱位置度量,反映全部數(shù)據(jù)的數(shù)值大小數(shù)據(jù)的差異反映各數(shù)據(jù)間的離散程度分布的形狀反映數(shù)據(jù)分布的偏度和峰度數(shù)據(jù)的描述統(tǒng)計(jì)量數(shù)據(jù)描述的三個角度
簡單平均數(shù)加權(quán)平均數(shù)
平均數(shù)【例4-1】在某年級中隨機(jī)抽取30名學(xué)生,得到每名學(xué)生的數(shù)學(xué)考試分?jǐn)?shù)。計(jì)算考試分?jǐn)?shù)的平均數(shù)R實(shí)現(xiàn)
4.1
描述水平的統(tǒng)計(jì)量平均數(shù)——加權(quán)平均數(shù)——例題分析【例4-2】沿用例4-1。假定將30名學(xué)生的數(shù)學(xué)考試分?jǐn)?shù)分組后結(jié)果表所示。計(jì)算考試分?jǐn)?shù)的平均數(shù)分組組中值(m)人數(shù)(f)60以下55360~7065470~8075480~90851090~100959合計(jì)—30R實(shí)現(xiàn)
4.1
描述水平的統(tǒng)計(jì)量分位數(shù)——中位數(shù)分位數(shù)一組數(shù)據(jù)按從小到大排序后,可以找出排在某個位置上的數(shù)值,該數(shù)值可以代表數(shù)據(jù)水平的高低。這些位置上的數(shù)值就是相應(yīng)的分位數(shù)(quantile)常用的分位數(shù)有中位數(shù)、四分位數(shù)、百分位數(shù)等具有統(tǒng)計(jì)上的穩(wěn)健性(robustness)位置確定數(shù)值計(jì)算
中位數(shù)排序后處于中間位置上的值。不受極端值影響【例4-3】沿用例4-1。計(jì)算30名學(xué)生數(shù)學(xué)考試分?jǐn)?shù)的中位數(shù)R實(shí)現(xiàn)
4.1
描述水平的統(tǒng)計(jì)量分位數(shù)——四分位數(shù)四分位數(shù)一組數(shù)據(jù)排序后處在25%和75%位置上的數(shù)值用3個點(diǎn)將全部數(shù)據(jù)等分為4部分,其中每部分包含25%的數(shù)據(jù)中間的四分位數(shù)就是中位數(shù),因此通常所說的四分位數(shù)是指處在25%位置上和75%位置上的兩個數(shù)值
位置確定——R默認(rèn)算法:type=7
R實(shí)現(xiàn)
4.1
描述水平的統(tǒng)計(jì)量分位數(shù)——百分位數(shù)百分位數(shù)用99個點(diǎn)將數(shù)據(jù)分成100等份,處在各分位點(diǎn)上的數(shù)值就是百分位數(shù)百分位數(shù)提供了各項(xiàng)數(shù)據(jù)在最小值和最大值之間分布的信息
位置確定——R默認(rèn)算法:type=7
R實(shí)現(xiàn)
4.1
描述水平的統(tǒng)計(jì)量眾數(shù)
【例4-6】沿用例4-1。計(jì)算30名學(xué)生考試分?jǐn)?shù)的眾數(shù)R實(shí)現(xiàn)
4.1
描述水平的統(tǒng)計(jì)量極差和四分位差
【例4-7】沿用例4-1。計(jì)算30名學(xué)生考試分?jǐn)?shù)的極差和四分位差R實(shí)現(xiàn)
4.2
描述差異的統(tǒng)計(jì)量方差和標(biāo)準(zhǔn)差方差離差平方和的平均數(shù)標(biāo)準(zhǔn)差方差開平方根后的結(jié)果稱為標(biāo)準(zhǔn)差(SD)【例4-9】沿用例4-2。根據(jù)表4-2的分組數(shù)據(jù),計(jì)算30名學(xué)生考試分?jǐn)?shù)的方差和標(biāo)準(zhǔn)差R實(shí)現(xiàn)
簡單樣本方差簡單樣本標(biāo)準(zhǔn)差
加權(quán)樣本方差加權(quán)樣本標(biāo)準(zhǔn)差
【例4-8】沿用例4-1。計(jì)算30名學(xué)生考試分?jǐn)?shù)的方差和標(biāo)準(zhǔn)差4.2
描述差異的統(tǒng)計(jì)量變異系數(shù)變異系數(shù)變異系數(shù)(coefficientofvariation,CV)也稱離散系數(shù)一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的平均數(shù)之比消除了數(shù)值大小和計(jì)量單位對標(biāo)準(zhǔn)差的影反映一組數(shù)據(jù)的相對離散程度【例4-10】為分析不同行業(yè)上市公司每股收益的差異,在互聯(lián)網(wǎng)服務(wù)行業(yè)和機(jī)械制造行業(yè)各隨機(jī)抽取10家上市公司,得到某年度的每股收益數(shù)據(jù)如表4-3所示。計(jì)算變異系數(shù),比較兩類上市公司每股收益的離散程度R實(shí)現(xiàn)
互聯(lián)網(wǎng)公司機(jī)械制造公司0.460.980.680.621.280.401.400.041.250.601.570.351.050.951.380.421.380.030.910.854.2
描述差異的統(tǒng)計(jì)量偏度系數(shù)
算法1:對應(yīng)于R的e1071包中skewness函數(shù)的type=1。比較傳統(tǒng)教材中的定義算法2:應(yīng)于R的e1071包中skewness函數(shù)的type=2。也是Python的pandas模塊中DataFrame.skew函數(shù),SPSS,SAS,Excel軟件中的默認(rèn)算法算法3:對應(yīng)于R的e1071包中skewness函數(shù)的type=3(函數(shù)默認(rèn)算法),該算法是Mintab軟件中的默認(rèn)算法
4.3
描述分布形狀的統(tǒng)計(jì)量峰度系數(shù)偏度系數(shù)峰度(kurtosis)是指數(shù)據(jù)分布峰值的高低由統(tǒng)計(jì)學(xué)家K.Pearson于1905年首次提出峰度系數(shù)—測度一組數(shù)據(jù)分布峰值高低的統(tǒng)計(jì)量是(coefficientofkurtosis),記作K
算法1:對應(yīng)于R的e1071包中kurtosis函數(shù)的type=1。傳統(tǒng)教材中的定義算法2:對應(yīng)于R的e1071包中kurtosis函數(shù)的type=2。也是Python的pandas模塊中DataFrame.skew函數(shù),SPSS,SAS,Excel軟件中的默認(rèn)算法算法3:對應(yīng)于R的e1071包中kurtosis函數(shù)的type=3(函數(shù)默認(rèn)算法)該算法是Mintab軟件中的默認(rèn)算法
4.3
描述分布形狀的統(tǒng)計(jì)量偏度系數(shù)和峰度系數(shù)——例題分析同分布形狀對應(yīng)的偏度系數(shù)和峰度系數(shù)【例4-11】沿用例4-1。計(jì)算30名學(xué)生考試分?jǐn)?shù)的偏度系數(shù)和峰度系數(shù)R實(shí)現(xiàn)
4.3
描述分布形狀的統(tǒng)計(jì)量數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)標(biāo)準(zhǔn)化在分析和可視化多個變量時,這些變量往往具有不同的量綱(dimension),也就是不同的計(jì)量單位為了對多個變量的特征進(jìn)行比較分析,通常需要將這些變量通過某種變換統(tǒng)一成相同的量綱,這就是所謂的數(shù)據(jù)標(biāo)準(zhǔn)化(standardization),也稱歸一化(normalization)統(tǒng)計(jì)中的標(biāo)準(zhǔn)化方法有多種,這里只介紹較常用的標(biāo)準(zhǔn)化方法,即標(biāo)準(zhǔn)分?jǐn)?shù)和極值標(biāo)準(zhǔn)化4.4
數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)分?jǐn)?shù)標(biāo)準(zhǔn)分?jǐn)?shù)也稱z分?jǐn)?shù)或標(biāo)準(zhǔn)化值,它是一種常用的數(shù)據(jù)歸一化方法。標(biāo)準(zhǔn)分?jǐn)?shù)是將一組原始數(shù)據(jù)變換成均值為0、方差為1的另一組數(shù)據(jù)當(dāng)有多個不同的變量進(jìn)行比較分析時,通常需要作標(biāo)準(zhǔn)化變換標(biāo)準(zhǔn)分?jǐn)?shù)可以用于度量每個數(shù)值在該組數(shù)據(jù)中的相對位置,判斷一組數(shù)據(jù)是否有離群點(diǎn)
【例4-12】沿用例4-1。計(jì)算30名學(xué)生考試分?jǐn)?shù)的標(biāo)準(zhǔn)分?jǐn)?shù)R實(shí)現(xiàn)
4.4
數(shù)據(jù)標(biāo)準(zhǔn)化極值標(biāo)準(zhǔn)化極值標(biāo)準(zhǔn)化極值標(biāo)準(zhǔn)化是另一種標(biāo)準(zhǔn)化變換,它是將一組原始數(shù)據(jù)縮放到[0,1]的范圍內(nèi),也稱最大最小標(biāo)準(zhǔn)化(Min-MaxNormalization)當(dāng)一組數(shù)據(jù)存在較大或較小的離群值時,通常需要作極值標(biāo)準(zhǔn)化變換標(biāo)準(zhǔn)分?jǐn)?shù)可以用于度量每個數(shù)值在該組數(shù)據(jù)中的相對位置,判斷一組數(shù)據(jù)是否有離群點(diǎn)
【例4-13】沿用例4-1。計(jì)算30名學(xué)生考試分?jǐn)?shù)的極值標(biāo)準(zhǔn)化值R實(shí)現(xiàn)
4.4
數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化的性質(zhì)標(biāo)準(zhǔn)化的性質(zhì)標(biāo)準(zhǔn)分?jǐn)?shù)和極值標(biāo)準(zhǔn)化只是對數(shù)據(jù)做了線性變換,它只是簡單地改變數(shù)據(jù)的原點(diǎn)和量綱,它是等度地對數(shù)據(jù)進(jìn)行壓縮或擴(kuò)張,但不改變數(shù)據(jù)在坐標(biāo)軸上的相對位置,自然也就不會改變數(shù)據(jù)分布的形狀,因此有利于不同變量進(jìn)行分布特征的比較。為比較變換的效果,我們繪制出原始數(shù)據(jù)、標(biāo)準(zhǔn)分?jǐn)?shù)和極值標(biāo)準(zhǔn)化值的點(diǎn)圖、箱線圖與核密度圖當(dāng)有多個不同的變量進(jìn)行比較分析時,通常需要作標(biāo)準(zhǔn)化變換4.4
數(shù)據(jù)標(biāo)準(zhǔn)化幾個常用的R函數(shù)R的綜合描述函數(shù)pastecs包中的stat.desc函數(shù)summarytools包中的descr函數(shù)psych包中的describe函數(shù)【例4-14】
沿用例4-10。計(jì)算互聯(lián)網(wǎng)服務(wù)行業(yè)和機(jī)械制造行業(yè)上市公司每股盈的各描述統(tǒng)計(jì)量,并進(jìn)行綜合分析R實(shí)現(xiàn)
4.5
數(shù)據(jù)的綜合描述
一個綜合描述的例子【例4-15】
在某大學(xué)隨機(jī)抽取60名大學(xué)生,調(diào)查得到他們的性別、家庭所在地和月生活費(fèi)支出(單位:元)數(shù)據(jù)如表4-4所示。對調(diào)查數(shù)據(jù)進(jìn)行綜合分析性別家庭所在地月生活費(fèi)支出性別家庭所在地月生活費(fèi)支出女中小城市1500女鄉(xiāng)鎮(zhèn)地區(qū)1850男大型城市2000女鄉(xiāng)鎮(zhèn)地區(qū)2000男大型城市1800女中小城市1700女中小城市1600女大型城市1800女中小城市2000男中小城市1860R實(shí)現(xiàn)
4.5
數(shù)據(jù)的綜合描述一個綜合描述的例子——圖形描述使用summarytools包中的數(shù)據(jù)框描述函數(shù)dfSummary進(jìn)行綜合描述4.5
數(shù)據(jù)的綜合描述一個綜合描述的例子——圖形描述按性別和家庭所在地分組的箱線圖4.5
數(shù)據(jù)的綜合描述一個綜合描述的例子——圖形描述按性別和家庭所在地分組的核密度圖4.5
數(shù)據(jù)的綜合描述一個綜合描述的例子——統(tǒng)計(jì)量描述計(jì)算全部月生活費(fèi)支出的描述統(tǒng)計(jì)量(可根據(jù)需要選擇)n平均數(shù)
中位數(shù)
標(biāo)準(zhǔn)差
極差變異系數(shù)偏度系數(shù)60.001812.331850.00321.001700.000.180.30R實(shí)現(xiàn)
4.5
數(shù)據(jù)的綜合描述一個綜合描述的例子——統(tǒng)計(jì)量描述按性別分組計(jì)算描述統(tǒng)計(jì)量
性別n平均數(shù)中位數(shù)
標(biāo)準(zhǔn)差全距
變異系數(shù)
偏度系數(shù)1男251701.2001780275.48939000.1619382-0.48451392女351891.7141900331.152115000.17505390.4605462按家庭所在地分組
家庭所在地n平均數(shù)中位數(shù)
標(biāo)準(zhǔn)差全距
變異系數(shù)
偏度系數(shù)1大型城市261848.8461850364.135417000.19695280.28498172鄉(xiāng)鎮(zhèn)地區(qū)101757.0001860236.03447000.1343394-0.75802323中小城市241795.8331800308.656510600.17187370.2366286R實(shí)現(xiàn)
4.5
數(shù)據(jù)的綜合描述一個綜合描述的例子——統(tǒng)計(jì)量描述同時按性別和家庭所在地分組計(jì)算描述統(tǒng)計(jì)量R實(shí)現(xiàn)
性別家庭所在地nmeanmedia
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 文物施工現(xiàn)場消防管理
- 老年用藥安全中健康傳播理論的社區(qū)教育方案
- 老年氣候健康科普傳播策略研究
- 老年晚期腫瘤患者壓瘡居家姑息方案
- 《網(wǎng)絡(luò)硬件:構(gòu)建數(shù)字世界的基石》說課設(shè)計(jì)(浙教版初中信息技術(shù)八年級下冊)
- 基因與遺傳?。喝祟愡M(jìn)步課件
- 老年慢性病管理健康教育品牌延伸
- 2026年及未來5年市場數(shù)據(jù)中國滌綸短絲行業(yè)發(fā)展監(jiān)測及投資戰(zhàn)略咨詢報告
- 2026年及未來5年市場數(shù)據(jù)中國廢紙?jiān)偕眯袠I(yè)市場發(fā)展數(shù)據(jù)監(jiān)測及投資戰(zhàn)略咨詢報告
- 2026年及未來5年市場數(shù)據(jù)中國風(fēng)險投資行業(yè)市場發(fā)展數(shù)據(jù)監(jiān)測及投資潛力預(yù)測報告
- 自動駕駛系統(tǒng)關(guān)鍵技術(shù)
- 淮安市2023-2024學(xué)年七年級上學(xué)期期末歷史試卷(含答案解析)
- 完整工資表模板(帶公式)
- 家長要求學(xué)校換老師的申請書
- 奇瑞汽車QC小組成果匯報材料
- 闌尾腫瘤-課件
- CTT2000LM用戶手冊(維護(hù)分冊)
- 正式員工派遣單
- 新員工入職申請表模板
- 中外新聞事業(yè)史課程教學(xué)大綱
- LY/T 1357-2008歧化松香
評論
0/150
提交評論