版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、1,統(tǒng)計學概述,房祥忠 北京大學概率統(tǒng)計系 62751836,2,什么是統(tǒng)計學?,統(tǒng)計學是通過搜集數(shù)據(jù)和分析數(shù)據(jù)從而得到結(jié)論和做出決斷的科學。,3,日常生活中的統(tǒng)計學,顧客滿意度,物價指數(shù),失業(yè)率,平均壽命 而媒體和廠家關(guān)心的電臺收視率。入戶調(diào)查得到。收視率排名決定廣告收費,4,科學研究和生產(chǎn)實踐中的統(tǒng)計學,統(tǒng)計的主要部分都是為了解決科學研究中的問題而發(fā)展起來的 農(nóng)業(yè)和生物科學,物理和化學 工程界利用統(tǒng)計方法進行試驗設(shè)計從而得到產(chǎn)品可靠性和失效的模式 現(xiàn)代工業(yè)利用統(tǒng)計方法建立質(zhì)量控制方法從而使產(chǎn)品質(zhì)量穩(wěn)定。 醫(yī)學利用控制臨床試驗比較新的治療方法和新藥的效果。 遺傳學家利用統(tǒng)計方法給出基因圖和進
2、行DNA匹配,5,總體、個體、樣本,總體就是要研究的個體(對象)的全體。這里的個體可能是人,也可能是住戶,或者產(chǎn)品。 統(tǒng)計學中我們關(guān)心總體的指標 一個樣本就是能夠?qū)嶋H觀測到的總體的一個部分(子集)。,6,從樣本到總體,大多數(shù)總體都太大,甚至個體數(shù)是無限的 花費極大人力、物力和時間。 比如中國的所有家庭就是一個很大的總體,要想了解整個中國的家庭狀況,可行的辦法是選取一個相對小的樣本進行調(diào)查。 為了使得取出的樣本沒有系統(tǒng)偏差,需要采取所謂隨機抽樣的方式進行。得到所謂隨機樣本。隨機偏差,7,概率論和統(tǒng)計學的關(guān)系,大家都會很熟悉名詞“概率統(tǒng)計”。 概率論和統(tǒng)計學是兩個相關(guān)的學科。 統(tǒng)計學利用概率論的工
3、具來對數(shù)據(jù)的變化性進行建模,并且將不確定性加以定量化。,8,概率論統(tǒng)計學聯(lián)系和區(qū)別舉例,在概率論中我們假定總體和它的性質(zhì)都是知道的。然后我們研究從中抽取一個特殊樣本的概率。 舉例來說,假如某地域目前流通的百元鈔票中混進了1%的假鈔,從中任意抽取100張,計算其中沒有假鈔的概率(36.6%)。這是概率論的問題。 而統(tǒng)計學則處理相反的問題。假如我們不知道假鈔所占比例。我們要設(shè)計抽樣方法,然后用樣本中給出的數(shù)據(jù)來估計假鈔的比例,以及確定這種估計的準確性是多少。,9,統(tǒng)計的三個主要任務(wù),收集數(shù)據(jù) 概括和探索數(shù)據(jù) 基于數(shù)據(jù)得到結(jié)論和做出決斷,10,2.1數(shù)據(jù)的類型,分類數(shù)據(jù):為了表示簡單和操作方便,有時
4、用數(shù)字表示總體中個體的類別。 如果數(shù)據(jù)的大小沒有直觀意義,這樣的數(shù)據(jù)稱為分類數(shù)據(jù)。 例如,可以用1表示活期儲蓄,2表示3個月定期儲蓄,3表示6個月定期儲蓄等??梢杂?表示男性職員,0表示女性職員。產(chǎn)品的合格品可以用1代表,不合格品可以用0代表。,11,2.1數(shù)據(jù)的類型,順序數(shù)據(jù): 如果表示類別的數(shù)據(jù)的大小有一定意義,但它們的倍數(shù)或差沒有意義。這樣的數(shù)據(jù)稱為順序數(shù)據(jù)。 很滿意用3表示,滿意用2表示,不滿意用1表示,很不滿意用0表示。,12,2.1數(shù)據(jù)的類型,數(shù)值型數(shù)據(jù):表示個體的某些特征,其大小,倍數(shù)和差都有意義。這樣的數(shù)據(jù)稱為數(shù)值型數(shù)據(jù),定量數(shù)據(jù)或數(shù)量數(shù)據(jù)。,13,2.2 數(shù)據(jù)概括,國家統(tǒng)計局
5、1998-2004發(fā)布的中國統(tǒng)計年鑒 1997-2003全國各地區(qū)城鎮(zhèn)居民平均每人全年家庭總收入。 數(shù)字較多,很難直接得到一個整體的印象。 代表性的數(shù)字,我們稱其為特征。,14,各地區(qū)城鎮(zhèn)居民平均每人全年家庭總收入,15,16,17,數(shù)字特征,最大值(Max):樣本中的最大數(shù)據(jù)值。 最小值(Min):樣本中的最小數(shù)據(jù)值。 眾數(shù):出現(xiàn)次數(shù)最多的數(shù)。例如,在一個樣本中人數(shù)最多的年齡就是眾數(shù)。 中位數(shù)(Median):將樣本從小到大排列,位于中間的值稱為樣本中位數(shù)。如果樣本個數(shù)為偶數(shù),則取中間兩個數(shù)的算術(shù)平均值作為中位數(shù)。,18,分位數(shù)(Quantile):如果樣本中比一個數(shù)w小的樣本所占比例為q。
6、則稱這個數(shù)w為q分位數(shù)。 一般將25%(=1/4)和75%(=3/4)分位數(shù)稱為四分位數(shù),且分別稱為下四分位數(shù)和上四分位數(shù)。 中位數(shù)是50%分位數(shù)。,19,平均值(Mean):將樣本所有數(shù)進行算術(shù)平均得到的值,稱為平均數(shù)。,方差(Var):表示樣本離散程度的量,20,標準差(Sd):方差開方,即s。標準差的尺度與原來的數(shù)據(jù)相同。 四分位長度:定義為上四分位數(shù)與下四分位數(shù)之差。也表示數(shù)據(jù)的分散程度。,21,表2.2各地區(qū)城鎮(zhèn)居民平均每人全年家庭總收入數(shù)據(jù)特征,22,表2.3 根據(jù)四分位對各地區(qū)城鎮(zhèn)居民平均每人全年家庭總收入分類,23,24,25,26,Box-Whisker圖(盒線圖)。 有很多
7、種圖表也可以很直觀地概括數(shù)據(jù)。 盒線圖能夠很直觀的給出數(shù)據(jù)的主要特征。 盒子中間的線代表中位數(shù),頂端代表上四分位點,底端代表下四分位點,如果有加號“+”,則加號表示與其他數(shù)據(jù)相差很遠的個體,我們稱其為離群值或野值,一般是指從這些點從盒子頂端或底端的距離超過1.5倍的盒子長度,既四分位長度。 下面的幾個圖是根據(jù)前面給出的數(shù)據(jù)畫出來的。圖形所占長度越大,則表示數(shù)據(jù)越分散。中位數(shù)的位置也能反映數(shù)據(jù)分布是否有偏。,27,圖2.8 1997年各地區(qū)城鎮(zhèn)居民平均每人全年家庭總收入盒線圖,28,圖2.9 1998年各地區(qū)城鎮(zhèn)居民平均每人全年家庭總收入盒線圖,29,圖2.10 1999-2003年各地區(qū)城鎮(zhèn)居民平均每人全年家庭總收入盒線圖,30,直方圖:如果我們覺得上面給出的盒線圖不夠詳細,我們可以用直方圖表示數(shù)據(jù)。直方圖反映了樣本中取各種值的比例的較詳細情況。首先將按照數(shù)據(jù)大小進行分組。在數(shù)據(jù)軸上取分點,31,32,33,小矩形的面積恰好等于落在該小區(qū)間中數(shù)據(jù)的頻率或比例。這樣所有小矩形的面積加一起是1。,34,表2.4
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年電商平臺主播分成合同
- 2026年供暖數(shù)據(jù)監(jiān)測合同協(xié)議
- 2026年工廠生產(chǎn)線電梯保養(yǎng)合同協(xié)議
- 家禽養(yǎng)殖技術(shù)培訓課件
- 家校安全聯(lián)誼課件
- 培訓講座教學課件
- 培訓講師演講課件模板
- 國家安全培訓活動課件
- 培訓Office的課件作業(yè)
- 口腔醫(yī)療app介紹課件
- 高低溫測試報告表
- 微型消防站應急器材點檢維護記錄
- 新人教版四年級上冊數(shù)學同步練習冊
- 《兩次鴉片戰(zhàn)爭》同步練習
- 生態(tài)保護紅線內(nèi)人類活動生態(tài)環(huán)境影響評價技術(shù)指南
- GB/T 228.3-2019金屬材料拉伸試驗第3部分:低溫試驗方法
- GB/T 10612-2003工業(yè)用篩板板厚
- GA/T 1583-2019法庭科學漢族青少年骨齡鑒定技術(shù)規(guī)程
- FZ/T 80002-2008服裝標志、包裝、運輸和貯存
- 二年級英語北京版試卷
- 《探究小車運動快慢與拉力大小的關(guān)系》試驗評分表
評論
0/150
提交評論