生物統(tǒng)計學.ppt_第1頁
生物統(tǒng)計學.ppt_第2頁
生物統(tǒng)計學.ppt_第3頁
生物統(tǒng)計學.ppt_第4頁
生物統(tǒng)計學.ppt_第5頁
已閱讀5頁,還剩383頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、生物統(tǒng)計學,王建國 電話QQ: 290037120,第一章 緒論統(tǒng)計學的基本功能:,對資料進行整理和描述 用局部數據來推斷和估計全體研究對象的特征 通過顯著性檢驗來鑒定試驗效應 尋找因素間的關系 提供試驗設計的一般原則和方法,統(tǒng)計學的特點,概率性所有結論和結果都有一定的概率保證 二元性理論和實踐的緊密結合,尤以實踐為重 歸納性由特殊到一般、由局部到全體、由樣本到總體(與演繹相對),試驗設計(experiment design),正確地確定抽樣方案,正確地對將要進行的試驗進行科學設計是統(tǒng)計工作的基礎 在試驗工作進行之前,應用統(tǒng)計學原理,制訂出合理的試驗方案,如最適樣本大

2、小,最佳樣本配置,正確的試驗動物種類,試驗整個過程的安排等 使我們可以用最少的人力、物力、財力和時間,獲得盡可能多的、可靠的信息和資料進行統(tǒng)計分析,得到可信的科學結論,從畜牧科研實踐中所得到的數據資料 具有變異性、隨機性和復雜性 。 學習畜牧統(tǒng)計學的目的就是要使用統(tǒng)計學的原理和方法來定量地處理和分析生物數據的這些變異性、不確定性和復雜性,從而得出最令人信服的結論,以闡明事物發(fā)展的規(guī)律 。 畜牧統(tǒng)計學是畜牧學科中的一個重要工具。 它能幫助畜牧工作者發(fā)現隱藏在紛繁復雜的表面現象下面的客觀規(guī)律 。,如何學習畜牧統(tǒng)計學? 首先,確立統(tǒng)計學的思維方式,學會用統(tǒng)計學的思想來武裝自己的頭腦,用統(tǒng)計學的思考方

3、式來觀察世界,觀察周圍的事物。 其次,在畜牧科研、技術推廣等方面要用好用活統(tǒng)計學,除了學好統(tǒng)計學,掌握統(tǒng)計學的基本原理、計算公式、數學概念和含義、具有一定的電腦知識和操作技能外,還必須有堅固、扎實的畜牧學專業(yè)方面的知識,豐富的畜牧實踐。,最后,用畜牧統(tǒng)計學處理和分析每一批資料、每一批數據,都必須有充分的生物學意義和畜牧學意義,而所作的試驗也必須有生物學科的理論意義和實踐意義。 因此,畜牧統(tǒng)計學的學習,統(tǒng)計學方法的應用不能孤立地、單獨地進行,它必須緊密結合畜牧學科的實踐,以取得具有專業(yè)意義和指導意義的結果。,總體和樣本 總體(population):具有相同性質的所有觀測值所組成的集合(set)

4、 在實際工作中只能對總體中具有代表性的一小部分進行研究。被研究的這一小部分觀測值(子集 subset)必須來自于這一總體,并具有很好的代表性。這樣的一批觀測值的子集就稱為樣本(sample),常用統(tǒng)計術語,從總體中得到樣本的過程稱為抽樣(sampling) 一個樣本內觀測值即變量的個數,稱為樣本含量,用 n 表示。 n30為大樣本,n30為小樣本 有限總體的大小用 N 表示。 由于抽樣往往是隨機(random)的,因此抽樣是隨機抽樣(random sampling 簡稱為抽樣),隨機抽樣所得到的樣本稱為隨機樣本(random sample 簡稱為樣本),總體具有時、空性(具有時間和空間的概念)

5、 總體有有限總體與無限總體之分 總體可分為實總體與虛總體 有限總體總是實總體;但實總體不一定是有限總體,虛總體也不能肯定就是無限的。 總體有常量性 總體的特征值一般是常量 總體有不可知性 總體的特征值往往是未知的 另:統(tǒng)計學中的總體和樣本一般是指數據或資料 而試驗設計中的總體和樣本一般是指動物個體。,總體與樣本的關系:樣本必須來自于總體 樣本必須能代表總體 如: 一葉知秋 管窺蠡測 嘗鼎一臠 總體與樣本關系不好的例子: 一葉障目 瞎子摸象,變異和變量 在實踐中,無論是總體還是樣本,無論是調查還是試驗,所得到的數值都是有差別的,這種差別在統(tǒng)計學中稱為統(tǒng)計數據的變異(variation) 具有變異

6、性質的數值在生物統(tǒng)計學中就稱為變量(variate)。 變量在某一個體具體表現出來的數值又稱為變數或稱觀測值(observed value)、數據(data)、資料(data) 變量是和常量(constant)相對應的一個概念,參數和統(tǒng)計量 用來描述總體特征的數值稱為參數(parameter) 由樣本觀測值計算得到的描述樣本特征的數值稱為統(tǒng)計量(statistic) 參數用希臘字母表示 ,如、2、 統(tǒng)計量用英文字母表示 ,如x、s2、b、r 參數一般為一常量,需通過樣本的統(tǒng)計量來進行估計(estimation),從同一總體中抽取不同的樣本所計算得到的同一性質的統(tǒng)計量是不會相同的,因此統(tǒng)計量是變

7、量 這些統(tǒng)計量都可以用來無偏(unbias)地估計相應的參數,誤差 在生物學科中,人們幾乎無法把非試驗條件絕對地控制在同一水平上,同時試驗對象也是錯綜復雜的生物體,因此,很難使所得到的試驗結果完全符合真值。 試驗結果和真值之間的這種差異和偏離,就是誤差(error) 誤差按其來源和性質可分為系統(tǒng)誤差(systematic error)和隨機誤差(random error),系統(tǒng)誤差(systematic error) 指由于某些特定的非試驗條件所造成的使試驗結果朝某一個方向發(fā)生有規(guī)律的偏移。 造成系統(tǒng)誤差的原因有以下幾種: 1. 度量工具的不正確或未經校正 2. 試驗儀器及其讀數器發(fā)生偏差或未

8、經校正 3. 外界試驗條件發(fā)生了很大的變化 4. 觀測時間及順序的影響 5. 試驗人員操作及觀測時的偏愛和習慣 6. 試驗動物分組時發(fā)生的偏差等,這些因素都會使得試驗結果有規(guī)律地偏離真值 由于系統(tǒng)誤差影響了試驗的準確性,因此應當在試驗前就加以預防和克服。 一般來說,系統(tǒng)誤差是能被消除的。,隨機誤差(random error) 指由種種偶然因素引起的、無法加以 預測和控制的無規(guī)律的偏差。 隨機誤差又稱為偶然誤差 隨機誤差的大小、方向都無法確定 。 消除系統(tǒng)誤差以后,試驗過程中主要的誤差來源就是隨機誤差。 在不發(fā)生歧義的情況下,隨機誤差簡稱為誤差 如果觀測次數足夠多的話,隨機誤差有統(tǒng)計學上的意義,

9、每一次觀測所產生的隨機誤差都是獨 立發(fā)生的,且服從一定的規(guī)律 通過各種手段可以把隨機誤差有效地縮小到最低的程度 隨機誤差是進行統(tǒng)計假設檢驗的基礎 降低隨機誤差,可以: 1 提高試驗的精確性 2 可以更好地區(qū)別誤差效應(表面效應)和處理效應,使得試驗結果更正確。 3 對試驗處理間的差異所作出的評定更準確、更可靠 。,錯誤(mistake) 由于工作人員的粗心大意或不負責任(如儀器使用不當,錯讀數據,記錄不準,任意涂改,憑空杜撰等)所產生的測定值與真值的偏差,稱為錯誤 錯誤不是統(tǒng)計學的研究內容 在試驗和調查中,錯誤應當、必須,同時也可以加以消滅 。,準確度和精確度 準確度和精確度和兩類誤差密切相關

10、。 準確度(accuracy):指觀測值與真值接近的程度。 當發(fā)生系統(tǒng)誤差時,觀測值都會有規(guī)律地向某一個方向偏離真值,因而降低了試驗的準確度,精確度(precise) 指在同一處理條件下,同一批觀測值間相互接近的程度。 當隨機誤差較大時,數據較離散,精確度較低 。 準確度是比精確度更重要的一個概念 在任何時候,都應當將系統(tǒng)誤差降至零或最小程度,或將系統(tǒng)誤差化為隨機誤差,以保證有足夠的準確度 。,練習題,I、參數是描述總體的特征數,某一特定總體的參數,其特點是 A完全可以通過一定方法測定的 B容易隨觀察者的角度不同而不同 C固定的變量 D不隨人的意志改變,2、下列四種表述中不正確的一種是( )

11、A樣本是總體中若干個體的隨機集合 B統(tǒng)計上所指的樣本均是指隨機樣本 C保證總體中的每個個體均有相等的概率被抽取作為樣本的抽樣叫隨機抽樣,抽得的樣本叫隨機樣本。 D通過抽樣調查獲得的樣本是隨機樣本,用試驗方法獲得的數據不是隨機樣本,3、研究某肉用仔雞56天體重,因為該肉用仔雞是一個極大的群體,其數量是一個天文數字,該總體屬于( )。 A有限總體 B大總體 C小總體 D 無限總體,4、在總體中( )一部分個體織成的群體稱為樣本。 A人為挑選出 B隨機抽出 C劃分出 D取出,5大樣本和小樣本在統(tǒng)計分析方法有一定的區(qū)別,大樣本和小樣本的主要區(qū)別在于樣本容量,小樣本一般是指( )的隨機樣本。,A樣本容量

12、小于30 B樣本容量小于等于30 C樣本容量大于30 D樣本容量大于60,6、統(tǒng)計上所講的樣本是指( ) A由非隨機抽樣的方法獲得的樣本 B有目的地在總體中選擇若干個體的集合 C. 保證總體中的每個個體具有相等的概率被抽取作為樣本 D隨機樣本,即無限總體采用復置抽樣的方式抽樣,有限小總體采用非復置抽樣的方式抽樣。,7、描述總體的特征數叫參數,對于特定的總體,其總體參數是不變的常數,用( )字母表示 A希臘 B拉丁 C英文 D拼音 8、獲得數據資料的總的原則是( )。 A隨機抽樣 B通過試驗來獲得 C通過調查 D通過普查,9、描述樣本的特征數叫統(tǒng)計量,樣本統(tǒng)計量是變量,用( )字母標示。 A希臘

13、 B拉丁 c英文 D.拼音 10、調查江蘇省2004年全省生豬生產情況時,如果以斷奶休重為指標,則該總體是( ) A無限總體 B有限總體 C既不是有限總體又不是無限總體 D既是有限總體又是無限總休,14、描述樣本的特征數為統(tǒng)計量,統(tǒng)計量一般有兩個,即平均數和變異數,除了地位特征數外,下述( )是常用的統(tǒng)計量。 A中位數,算術平均數,幾何平均數,方差和標準差 B眾數,算術平均數,幾何平均數,方差和標準差 C. 極差,算術平均數,幾何平均數,方差和標準差 D算術平均數,幾何平均數,方差和標準差,第二章 資料整理,原始數據: 大量的、“雜亂無章” 不能直接用于統(tǒng)計分析,必須經過統(tǒng)整理和加工。,第二章

14、 資料整理,資料整理的主要內容 (1)審核與訂正:人為錯誤、小數點等 (2)分組與匯總:內部結構、類型和特征 (3)計 算各種綜合數字特征:如,n、平均數、標準差 (4)統(tǒng)計表或統(tǒng)計圖:顯示資料的基本特征和內在規(guī)律,第二章 資料整理,1 資料的分類 2 數據的頻率分布 3 數據的表示方法 4 集中趨勢的度量 5 離散趨勢的度量,2.1 資料的分類,統(tǒng)計資料:指反映事物、現象或過程的數據資料。 包括原始資料和次級資料。 特點: (1)數字性:數字形式或者可以轉換為數字形式。 (2)大量性:大量相像或對同類相像觀察所取得的 數據資料。 (3)具體性:已經實現的事實的記載。,主要內容: 1)數據的審

15、核與修訂 2)數據的匯總與分組 3)基本統(tǒng)計特征計算 4)用圖表展示結果,1.資料的分類,什么是資料(data)? 資料有哪些種類? 連續(xù)性資料(comtinuous data)? 離散性(間斷性)資料(discrete data)? 離散性資料又分成哪兩類? 計數資料(counting data) 分類資料(categorical data),1 資料的分類 特點:數字性、大量性、具體性 類型: 連續(xù)性資料:一定范圍內可取任何實數值的數據資料。如:身高 離散性資料:一定范圍內只取有限值的數據。 計數資料:用計數的方式得到的數據資料,如:人數,雞蛋數 分類資料:以類別作為分類對象,如:性別,分

16、類資料 公稱尺度:不同類別之間沒有等級之分。 如:性別公、母,正常、不正常。 等級尺度:不同類別之間有內在的等級之分。如:成績的優(yōu)、良、中。,分類資料的相對數表示(): 受精率 孵化率 出苗率 有效率 合格率 出欄率 上市率 情期受胎率 死亡率 資料的采集與核對 資料的采集: 調查 試驗 記錄 資料的檢查與核對: 資料的完整性 資料的正確性 異常數據的校核與認定 錯誤數據的復查和更正,數據的審定與修證,異常數據 觀察數據中存在的極端值。 異常數據的判斷和處理 判斷: 數據是否有錯誤 是否有與眾不同的數據 處理: 四分位數檢驗 格拉布斯檢驗,2.資料的整理,頻數分布:不同類型的觀測值出現次數。

17、連續(xù)性資料的整理:組距式分組法 組距式分組法中的幾個名詞: 全距極差(range) 組距(class interval) 組限(class limit)組中值 組下限 組上限 次數分布表 次數分布圖,離散性資料的頻數分布 70頭母羊窩產仔數,頻數分布,連續(xù)性資料的頻數分布,1)數據分組:將數據分成長度相同的若干區(qū)間。 全距(極差R):樣本資料中變數的最大值(上限)與最小值(下限)之差。 確定組數:取決于樣本中的數據。 確定組距(i):每組最大值和最小值之差。 i=全距/組數 組中值:最大值和最小值的平均數。 =(上限+下限)/2,百分位數,將一組n個數據由小到大排序,如果小于某數值的數據個數為

18、全體數據個數的x%就稱該數為第x百分位數。 下四分位數:25%分位數的后一個。 中位數:50%分位數的后一個。 上四分位數: 75%分位數的后一個。,n=10,3 資料的展現 常用統(tǒng)計圖表 統(tǒng)計表 統(tǒng)計表的結構:標題 標目 線條 數據 統(tǒng)計表的種類 統(tǒng)計圖 統(tǒng)計圖的種類: 長條圖(bar chart) 餅分圖(pie chart) 直方圖(histogram) 折線圖(broken-line chart),2. 3 統(tǒng)計表,統(tǒng)計資料的基本表現形式,也是最常見的形式。 使得數據具有條理性、清晰易懂、便于比較和分析。 形式:標題、縱列標題、橫列標題、表體 見表2-5 類型:簡單表(一組橫標目和一組

19、列標目) 復合表(多組橫標目和一組列標目、一 組橫標目和多組列標目、多組橫標目和多 組列標目) 見p114表和p204表,統(tǒng)計表,簡單三線表 復合三線表,簡單三線表舉例,表1 張莊養(yǎng)豬場經濟收益情況分析表 收益來源 金額(萬元) 百分比() 商品豬 350 44.87 種 豬 200 25.64 種 植 130 16.67 其 他 100 12.82 合 計 780 100.00,復合三線表舉例 表2 某養(yǎng)殖公司各種畜禽的養(yǎng)殖情況(千羽、枚) 場 別 種 類 合 計 肉仔雞 商品蛋雞 種雞 青年雞 種蛋 其他 界南分場 13 6 27 18 11 7 82 邊河分場 6 3 14 25 9 3

20、 60 五通分場 16 13 9 15 5 4 62 崗峰分場 21 0 19 8 15 8 71 合 計 56 22 69 66 40 22 275,利用點、線、面、體形象、直觀地表示統(tǒng)計資料的基本特征和變化趨勢。 一、條形圖 利用平行柱型的長短表示數的大小。 適用于分類資料和離散性數量資料的頻率分布 見圖2-1,2. 3 統(tǒng)計圖,長條圖,二、直方圖 利用距形面積表示各組中數據出現的頻數。 適用于連續(xù)性資料的頻率分布 見圖2-2 三、餅圖 利用扇形面積表示不同類別的頻率,可采用不同 的色彩。 適用于類別不多的分類資料的頻率分布。 見圖2-3,2. 3 統(tǒng)計圖,餅分圖,某雞場各類雞的養(yǎng)殖情況,

21、直方圖,2. 3 統(tǒng)計圖,四、線形圖 利用曲線表示數據的動態(tài)變化趨勢。 不同的指標可以分別用不同的形式來表示,以示 區(qū)別 見圖2-4,折線圖,統(tǒng)計表與統(tǒng)計圖,統(tǒng)計表:信息量大、精確的數值。 不僅反映資料的特征和趨勢,還可以提供 更詳細的信息。 統(tǒng)計圖:形象、生動、直觀 主要反映資料的主要特征和趨勢,經常需要統(tǒng)計表結合統(tǒng)計圖來說明問題;根據研究目的靈活應用;統(tǒng)計表應用更多、更常見。,上次課主要內容回顧,原始資料 2. 統(tǒng)計資料 3. 資料整理的目的和過程 4. 連續(xù)性資料和離散性資料 5. 連續(xù)性資料的頻率分布(全距、組數、組距、組中值、組上限、組下限、頻數、頻率) 6. 離散性資料的頻率分布(

22、類別、頻數、頻率) 7. 統(tǒng)計表(簡單表、復合表、與統(tǒng)計圖的關系) 8. 統(tǒng)計圖(種類以及適合那類資料),在數理統(tǒng)計中,平均數是用來反映一組變數的集中趨勢,即變數分布的中心位置。常用的度量指標有: 1. 算術平均數 2. 中位數(M) 3. 眾數(Mo) 4. 幾何平均數(M g) 5. 調和平均數(H),2.5 集中趨勢的度量,意義: 作為一個資料的代表,指資料中各變數集中 較多的中心位置,用來與另一資料相比較。不同的 平均數適合于不同的數據資料。 例如:不同國家、地區(qū)、種族之間身高、體重等的 比較;不同品種的家畜、家禽之間生產性能 的比較,2.5 集中趨勢的度量,4 資料的集中趨勢度量,在

23、數理統(tǒng)計中,平均數是用來反映一組變數的集中趨勢,即變數分布的中心位置。常用的度量指標有: 1. 算術平均數 2. 中位數(M) 3. 眾數(Mo) 4. 幾何平均數(M g) 5. 調和平均數(H),意義: 作為一個資料的代表,指資料中各變數集中 較多的中心位置,用來與另一資料相比較。不同的 平均數適合于不同的數據資料。 例如:不同國家、地區(qū)、種族之間身高、體重等的 比較;不同品種的家畜、家禽之間生產性能 的比較。,4 集中趨勢的度量,主要內容: 一、算術平均數 二、中位數、眾數、幾何平均數和調和平均數 三、5 種平均數的關系和評價,4 集中趨勢的度量,(1) 算術平均數,一、定義 一組資料中

24、,所有觀測值的總和除以其個數所得到的商,稱為算術平均數,簡稱平均數或均數。最常用的一種集中趨勢度量指標。 樣本的平均數記為 總體平均數記為,:第i個觀察值或變數 n:觀察值或變數的個數 :求和符號(sigma),計算公式:,(1) 算術平均數,一、直接法: 例2.1:5頭豬的體重分別為70、72、80、83、 88kg,問 5頭豬的算術平均數是多少?,從計算結果看5頭豬都距78.6(kg)不遠,所以平均數是數量資料的代表值。,上述計算方法稱為直接法,適用于樣本小,即資料內包含變數個數不多,一般在30個變數以下未經分組的資料。,二、加權法 1. 分類資料:每個類別在某個指標上取相同的值。 2.

25、計數資料和連續(xù)性資料:頻率分布表 加權法,即計算時先將各個變數乘上它的權數,再經過總和,然后除以權數的總和,稱為加權平均數。,xi=變數值 fi=變數值xi出現的頻數,計算公式:,加權法,例2.2:一個有1000個個體的群體,等位基因 A 的 頻率為0.6,另一個400個個體的群體,等位 基因 A 的頻率為0.3,這兩個群體的混合在 一起,整個混合群體的等位基因 A 的頻率 為:,例2.3:200頭大白豬的仔豬的二月窩重,xi=組中值 fi=組中值出現的頻數,三、算術平均數性質,(一)離均差之和為零: 一個樣本觀察值與平均數之差簡稱離均差。,(xi- ) =(x1- )+(x2- )+(xn-

26、 ) = x1+x2+xn+n = xi- nxi/n = 0,例2.1:5頭豬的體重分別為70、72、80、83、 88kg,5頭豬的算術平均數是78.6 kg。 (70-78.6)+(72-78.6)+(80-78.6)+ (83-78.6)+(88-78.6) =(-8.6)(- 6.6)+ 1.4+ 4.4+ 9.4 = 0,離均差,(二)離均差平方和最?。阂粋€樣本的各個觀察值與平均數之差的平方和比各個觀察值與任意其他數之差的平方和小。即:,所以:平均數是與各個觀察值最接近的數值。 所以:平均數代表這個樣本的集中趨勢。,定義:n個非負數的乘積開n次方的根稱為幾何平均 數,用 G 表示。

27、,為了計算方便,各變數先取對數,再相加除以n,即為lgG,再求其反對數,即為G值。,(2) 幾何平均數,從公式可以知道:幾何平均數就是首先將原數據轉換為對數;然后求對數值的算數平均數;最后再取反對數還原。 幾何平均數用于以百分率、比例表示的數據資料,如增長率、利率、藥物效價、抗體滴度等。 能夠消弱數據中個別過分偏大值的影響。,2.5.2 幾何平均數,例2.4:某奶牛場在2005年有100頭奶牛,已知在2006,2007和2008年的奶牛頭數分別為前一年的2,3和4.5倍,求其年平均增加率。 解:,2008年的奶牛頭數為: 100234.52700頭 或者100332700頭,2.5.2 幾何平

28、均數,加權法:分類資料或計數和連續(xù)性資料,對數形式,例2.5 注射了豬疫苗的豬群,測定血球凝集抑制滴度,其抗體滴度分布情況如下,求這群豬的平均抗體滴度。,解: 帶入公式 G =lg-1filgXi/n =lg-1324.4841/183 =lg-11.7731=59.31,定義:各觀察值倒數的平均數的倒數,適用于極端右偏態(tài),(3) 調和平均數,簡單調和平均數,加權調和平均數,從公式可以知道:調和幾何平均數就是首先將原數據轉換為倒數;然后求倒數值的算數平均數;最后再取倒數還原。 調和平均數主要用于速度類資料,或者數據中有個別極端大的值的情況。,例2.6:用某藥物救治12只中毒的小貓,它們的存活天

29、數記錄如下:8,8,8,10,10,7,13,10,9,14,另外有兩只未死亡,求平均存活天數。 解:未死亡的存活天數記為,為極端右偏態(tài),用算術平均數不合理。,定義:將n個觀察值從小到大依次排隊,位于中間的那個觀察值稱為中位數。,(4) 中位數(Md),適用于偏態(tài)分布的資料。 例2.7 :現有一窩仔豬的出生重資料為:1.4,1.0,1.3,1.2,1.6kg,試求其中位數。 解:首先將數據資料排序:1.0,1.2,1.3,1.4, 1.6;然后計算中位數: (n+1)/2=(5+1)/2=3;Md=X3=1.3 如果增加一頭仔豬,出生重為1.8kg,計算中位數: n/2=6/2=3 (n/2)

30、+1=3+1=4; Md=(X3+X4)/2=(1.3+1.4)/2=1.35,對于頻數分布的資料,公式如下:,Lmd:中位數所在組的組下限; fm:中位數所在組的頻數; C:從第一組到中位數所在的前一組的累計頻數 n:樣本含量; i:組距; 例2.8:表2.6 課本P12,=12+35(10066) =12.97,1,定義:在資料中某一個變數出現次數最多,就稱 之為眾數。 1. 離散性資料:出現頻數最多的數。 2. 連續(xù)性資料:頻數分布表中,頻數出現最多的 一組的組中值。 !有的資料可出現多個眾數,即多個數具有相同的最高頻數(p12);有的資料沒有眾數,即所有數出現的頻數都相同。,(5) 眾

31、數(mode ,M0),眾數,(6)各個集中趨勢度量指標之間的關系和評價,一、各個集中趨勢度量指標之間的關系 1.在完全對稱分布情況下,算數平均數、中位數 和眾數三者相等。,2 在為偏態(tài)分布中,眾數(M0)與中位數(Md)及算術平均數(X)三只之間存在如下關系: M0=3Md2X 3 幾何平均數(G)、算術平均數(X)、調和平均數(H)關系: HGX,二、集中趨勢指標的評價 應滿足以下幾個條件: 1.必須有嚴格的定義及算法,避免有主觀成分存在其間; 2.計算過程中應利用全部觀察值; 3.簡單明了,容易領悟,容易計算; 4.受抽樣變動影響不大,即抽樣誤差小。 5.適用于代數方法處理。,(1)算術

32、平均數 能夠滿足以上所有的條件,適用于正態(tài)分布資料。 家畜的大多數數量性狀都是正態(tài)分布,因此算術平均數是最常用的,也是最重要的。 但是當分布不對稱時,呈偏態(tài)時,用算術平均數則難以表示資料的集中趨勢。,(2)中位數 能夠滿足第 2、3條,適用于非參數檢驗。 (3)幾何平均數和調和平均數 能夠滿足第 1、2 5條,適用于右偏態(tài)分布。 (4)眾數 只滿足條件3 作業(yè):p26,4、5題,離散趨勢(變異程度):反應集中趨勢(平均數)對數據的代表程度。 一個樣本內有很多的變數,用平均數作為樣本的代表,其代表程度決定于樣本內各個變數的變異程度。 1.如果各個變數相同或者變異程度比較小,則平均數能夠代表整個樣

33、本。 2.如果各個變數的變異程度比較大,則平均數的代 表性就小。 因此,單靠平均數不能全面、正確地了解樣 本。也不能了解平均數作為樣本的變異程度。,6 離散趨勢的度量,例,即使兩個樣本的平均數相同,但是樣本內變數的變異程度不一定相同。,從以上統(tǒng)計結果可知: 1.甲乙兩品種的平均產仔數相同,都是11頭,從平均數來 看,兩個品種沒有差異。 2.進一步觀察各個變數,兩個樣品的變異程度并不相同。 甲:最小為4,最大為22;乙:最小為8,最大為14 甲的變異程度大于乙 甲的平均數的代表性小于乙的平均數代表性 所以,應該測定其變異程度,定義:全部變數的最大值與最小值之差 R= Max(x)-Min(x)

34、全距可以反映變異程度的一部分,但是不能代表 樣本內各變數之間的變異程度。 目前,被廣泛使用的是以標準差來度量變異程度,表示數據離散程度的方法,(一)全距,(二)標準差的定義 如果一個樣本有n個觀察值x1,x2 xn,設其算術平均數為 ,則該樣本的標準差為:,從公式可以看出,標準差考慮了每個變數與平均數的離差。 每個變數與平均數與平均數相差愈小,樣本變異程度愈小,反之,愈大。 因此,標準差是離散程度的度量,第二章 離散性的度量,三、標準差公式的來源 1.離均差=(x- ) 2.離均差之和= (x- )=0 3.離均差平方和 SS= (x- )2,雖然離均差可以衡量變異程度,但是離均差之和為0,所

35、以不是理想的指標,為了合理地計算平均差異,用平方和的辦法來消除離均差的正負號,離均差平方相加,得到平方和(SS),但是由于不同樣本的觀察值個數不同,所以離均差平方和也不是理想指標。,4.樣本均方和樣本標準差,將離均差平方和求平均數,稱為樣本均方,目的是消除觀察值個數的影響,樣本均方開方,目的是使變異還原,即標準差。,總體是未知的,用樣本標準差估計和推斷總體標準差,四、自由度:df ,n-1: 對于小樣本,計算標準差的時候,樣本含量為n,df=n-1,目的是糾正由于樣本小而發(fā)生的取樣誤差影響。 如果一個樣本含有n個變數,從理論上講,n個變數都同樣用以計算標準差,n個變數與平均數相減有n個離均差。

36、表面上雖有n個比較,但實質上僅有n-1個可以自由變動,最后一個離均差受到離均差之和這個條件的限制,所以不能自由。,例如, 有5個變數,其4個離均差為-2、-1、1、2,則第5個離均差必等于0,如4個離均差為-1、0、1、2時,則第5個離均差必等于-2,這樣才能使離均差的總和等于0。這5個離均差中,因受離均差之和等于0的限制,所以只有4個能自由變動。這時的自由度就是n-1。自由度等于樣本變數的總個數減去計算過程中使用的條件數。,在計算標準差時,條件就是一個,即,所以,自由度為1。 如計算樣本某一個統(tǒng)計數應用2個條件,其自由度則為n-2,如果應用k個條件,則自由度為n-k。 小樣本常用自由度來計算

37、標準差或其他統(tǒng)計數,因為小樣本的全距較群體為小,若為大樣本,當與群體較接近時,可以不用自由度,直接用n即可。自由度的符號以“df”表示。,五、標準差的計算方法,見p24,2.8,變異系數,當兩組數據的單位、數量級等相差很遠時要比較變異系數時用變異系數表示。 C.V.=S/X100% 例如:P26,2.9 平均絕對離差 各觀察值離均差絕對值的平均數。 MD=,本章小結,1資料整理的主要內容: 2資料的分類:連續(xù)性資料,離散性資料 3數據頻數分布的分組:全距,組距,組中值,百分位數 4統(tǒng)計資料的表現形式:統(tǒng)計圖、統(tǒng)計表 5集中趨勢度量:算術平均數、幾何平均數、調和平均數、眾數、中位數,直接計算法、

38、加權法 6離散趨勢度量:方差、標準差、范圍、平均絕對離差、變異系數,第三章 隨機變量與概率分布,1 隨機變量及其種類 2 概率分布 3 正態(tài)分布 4 二項分布 5 普哇松分布,1 隨機變量及其種類,隨機變量(random variable) 在一定范圍內隨機取值的變量。 以一定的概率分布取值的變量。 分類 離散型(discrete)隨機變量:只取有限個可能值(通常為整數) 例:發(fā)病個體數,產仔數 連續(xù)型(continuous)隨機變量:在一定范圍內可取無限個可能值(實數) 例:產奶量,體長,日增重,2 概率分布,概率函數(probability function) 隨機變量取各個可能值的概率函

39、數(離散型隨機變量) 概率密度函數(probability density function) 隨機變量取某一特定值的概率密度的函數(連續(xù)型隨機變量) 概率分布函數(probability distribution function) 隨機變量取值小于或等于某特定值的概率的函數。,1)離散型隨機變量的概率分布,概率函數,X :隨機變量,x:該隨機變量的某一可能取值,概率分布函數,例1:擲一次骰子所得點數的概率函數,概率分布列,例2:擲二次骰子所得點數之和的概率分布,概率分布圖,隨機變量的期望(expectation) - 總體平均數,對于例1:,期望的性質,(a是常量),1. 2. 3. 4.

40、,(當X和Y彼此獨立),隨機變量的函數的期望,設H(X)是隨機變量X的某個函數,例:,對于例1:,隨機變量的方差(variance) - 總體方差,對于例1:,方差的性質 1. Var(a) = 0 (a是常量) 2. Var(aX ) = a2Var(X ) 3. Var(X + Y ) = Var(X ) + Var(Y ) (X和Y彼此獨立) 4. Var(XY ) = Var(X )Var(Y ),/,2)連續(xù)型隨機變量的概率分布,概率密度函數 他可以有無限種可能的值,定義其取某特定值的概率是沒有意義的,只能定義它在某區(qū)間內取值的概率。,概率分布函數,期望,方差,正態(tài)分布(normal

41、 distribution),是最重要的連續(xù)性隨機變量的概率分布。 具有如下概率密度函數的隨機變量稱為正態(tài)分布隨機變量:, = 期望 2 = 方差,(可以證明這個函數滿足概率密度函數的3個條件),正態(tài)分布,正態(tài)分布概率密度函數的幾何表示,正態(tài)曲線,f (x),x,曲線下某區(qū)間的面積即為隨機變量在該區(qū)間取值的概率,正態(tài)分布的特點,只有一個峰,峰值在x = 處 曲線關于x = 對稱,因而平均數=眾數=中位數 x軸為曲線向左、右延伸的漸進線 由兩個參數決定: 平均數 和 標準差 決定曲線在x 軸上的位置 決定曲線的形狀,平均數的影響,標準差的影響,標準正態(tài)分布(standard normal dis

42、tribution),令,Z服從正態(tài)分布,標準正態(tài)分布,對于,標準化,標準正態(tài)分布的概率密度函數,0,正態(tài)分布,標準正態(tài)分布的概率計算 附表1 (p. 274),正態(tài)分布,(1) P( Z u) 或 P(Z -u) (u 0),直接查表,正態(tài)分布,(2) P( Z -u) 或 P(Z u),查表,正態(tài)分布,(3) P( a Z b),或,例:設 Z N(0, 1),求 (1) P(Z 0.64) (2) P(Z 1.53) (3) P(-2.12 Z -0.53) (4) P(-0.54 Z 0.84),正態(tài)分布,正態(tài)分布,P( -1 Z 1) = 68.26% P( -2 Z 2) = 95

43、.45% P( -3 Z 3) = 99.73% P( -1.96 Z 1.96) = 95% P( -2.58 Z 2.58) = 99%,幾個特殊的標準正態(tài)分布概率,正態(tài)分布,68.3%,95.5%,99.7%,對于給定的兩尾概率求標準正態(tài)分布在x軸上的分位點附表2 (p. 299),/2,/2,用2 查附表2,可得一尾概率為 時的分位點u,對于給定的一尾概率求標準正態(tài)分布在x軸上的分位點,一般正態(tài)分布的概率計算 轉換為標準正態(tài)分布計算,例: 設 X N(30, 102),求P(X 40),X N( , 2),P( - X + ) = 68.26% P( - 2 X + 2 ) = 95.

44、45% P( - 3 X + 3 ) = 99.73% P( - 1.96 X + 1.96 ) = 95% P( - 2.58 X + 2.58 ) = 99%,幾個特殊的一般正態(tài)分布概率,正態(tài)分布,-3 -2 - + +2 +3,x,68.3%,95.5%,99.7%,例. 標準正態(tài)分布的兩尾概率之和為0.28,求分位數u值。,例. 設標準正態(tài)分布的右尾概率為0.1587,求分位數u值。 解:雙尾概率=0.15872=0.3174,查表2 0.310.31740.32, 當a=0.31時,u=1.015222 當a=0.32時,u=0.994458,?如何求得a= 0.3714的u值,U=

45、0.999 8581,幾個特殊、常用的分位數,雙尾概率a為0.05時,u= 雙尾概率a為0.01時,u= 左(右)尾概率a為0.05時,u= 左(右)尾概率a為0.01時,u=,偏度與峭度,偏度(skewness) 度量一個分布的對稱性的指標,峭度(kurtosis) 度量一個分布的尖峭或平坦程度的指標,(總體),(樣本),(總體),(樣本),3 二項分布(binomial distribution),假設:1. 在相同條件下進行了n次試驗 2. 每次試驗只有兩種可能結果(1或0) 3. 結果為1的概率為p,為0的概率為1-p 4. 各次試驗彼此間是獨立的 在n次試驗中,結果為1的次數(X =

46、 0,1,2,n)服從二項分布,表示為,二項分布的概率函數,二項分布的期望,二項分布的方差,離散型隨機變量的概率分布,例3:一頭母豬一窩產了10頭仔豬,分別求其中有2頭公豬和6頭公豬的概率。,產公豬頭數的期望值:,產公豬頭數的方差:,習題,P.42 3,5,6,7,8,抽樣分布 參數估計簡介 假設檢驗的基本原理,第四章 統(tǒng)計推斷概述,Simmental,西門塔爾牛 血漿中鐵含量,通過樣本了解總體!,概率,樣本與總體,一般來說不可能直接研究總體的全部:時間、空間、人力、物力等 樣本是總體的一部分,抽取樣本的原則: 無偏:隨機抽樣,有代表性,每個樣本具有相同概率被抽取抽樣方法,以后介紹 精確:每個

47、樣本統(tǒng)計量的標準差越小越好 用樣本推斷總體,因此不能準確敘述總體的特征(概率): 樣本越大代表總體的程度不肯定程度結論正確性,統(tǒng)計推斷,任務:通過樣本數據的分析來對總體進行推斷。 參數估計:利用樣本統(tǒng)計量來對總體參數進行估計。 假設檢驗:利用樣本統(tǒng)計量對總體的分布特征進行檢驗。檢驗樣本對總體的估計準不準。,總體參數的估計,樣本統(tǒng)計量的公式一般與總體參數的公式一致:樣本算術平均數與總體平均數 但是對于方差和標準差? 用不同的符號記總體參數和樣本的統(tǒng)計量:希臘字母與羅馬字母,抽樣分布的概念,樣本統(tǒng)計量的概率分布稱為抽樣分布(sampling distribution) 樣本是通過對總體的隨機抽樣獲

48、得的 樣本統(tǒng)計量是隨機變量,有一定的概率分布。,簡單隨機樣本 抽樣是完全隨機的 - 總體中的每個個體都有相同的機會被抽中 抽樣是彼此對立的 - 每次抽樣的結果都不會影響到其他抽樣的結果,抽樣分布的概念,原總體,樣本1,樣本2,樣本n,新總體,n ,統(tǒng)計量,2 (chi-square)分布,定義 設隨機變量X1, X2, , Xn彼此獨立且都服從標準正態(tài)分布 N(0, 1),則隨機變量,服從自由度df為n的2分布,記為,2 分布,2 分布,性質 2 分布隨機變量的取值范圍為(0,) 2 分布Y 2 (n),則期望E(Y)=n,均方var(Y)=2n 若Y1 2 (n),Y2 2 (m),且相互獨

49、立,則 Y1 Y2 2 (n m) 2 分布為非對稱分布,其分布曲線的形狀由自由度決定,自由度越大,分布越趨于對稱 當 n , 2 (n) N(n, 2n),2 分布,2 分布上側分位數表:附表3(p.300),t 分布,定義 設Z N(0, 1),Y 2 (n),且相互獨立,則,服從自由度為n的 t 分布,記為,t 分布,t 分布,性質 與標準正態(tài)分布相似 關于 t = 0對稱 只有一個峰,峰值在t = 0 分布曲線受自由度影響,自由度越小,離散程度越大 當 n ,t(n) N(0, 1),t 分布,t 分布與正態(tài)分布的比較,t 分布,t分布雙側分位數表:附表4 (p. 302),F 分布,

50、定義 若 X 2 (m),Y 2 (n),且相互獨立,則,服從自由度為m(第一自由度)和n(第二自由度)的 F 分布,記為,F 分布,F 分布,性質 F分布隨機變量的取值范圍為(0,) F分布的分布曲線受兩個自由度的影響 若F F(m, n),則 1/F F(n, m) 若X t(n),則 X2 F(1, n),F 分布,F分布的上側分位數表:附表5(p.304),正態(tài)總體樣本平均數的分布,樣本平均數的期望和方差 設樣本來自均數為,方差為 2的總體 設樣本為簡單隨機樣本,正態(tài)總體樣本平均數的分布,期望,正態(tài)總體樣本平均數的分布,方差,標準差,(平均數的標準誤),正態(tài)總體樣本平均數的分布,正態(tài)總

51、體樣本平均數的分布 設樣本來自正態(tài)總體 N( , 2),則樣本平均數也服從正態(tài)分布,其總體均數為 ,方差為 2/n。,正態(tài)總體樣本方差的 分布,樣本方差的期望和方差 設樣本來自均數為,方差為 2的總體 設樣本為簡單隨機樣本,正態(tài)總體樣本方差的 分布,樣本方差的分布,抽樣誤差,抽樣誤差(Sampling error):由于抽樣造成 衡量抽樣誤差的指標:標準誤(standard error),可以對于每個統(tǒng)計量計算它的標準誤 學過的樣本統(tǒng)計量: 集中趨勢的度量: 離散程度的度量: 但是現在只涉及平均數的標準誤,Simmental,樣本平均數的抽樣分布,西門塔爾牛血液鐵含量,總體,樣本平均數對總體平

52、均數的代表性取決于: 樣本大小 樣本內個體間變異程度,平均數的抽樣分布,樣本統(tǒng)計量的抽樣分布Sampling distribution,Simmental,如果抽樣是隨機的,樣本平均數也是隨機變量,平均數的抽樣分布的性質,如果原總體是正態(tài)分布,平均數的抽樣分布也是正態(tài)分布 如果原總體不是正態(tài)分布,樣本數足夠大時,平均數的抽樣分布近似于正態(tài)分布(中心極限定理),n, 越接近正態(tài),中心極限定理(central limited theorem):n足夠大(eg. 30),樣本平均數近似服從正態(tài)分布,已知原總體的標準差的情況下:,中心極限定理,無論樣本所來自的總體是否服從正態(tài)分布, 只要樣本足夠大,樣

53、本平均數就近似服從正態(tài)分布,樣本越大,近似程度越好。 所需的樣本含量隨原總體的分布而異,但只要樣本含量 30,無論原總體是何分布,都足以滿足近似的要求。 設原總體的期望為,方差為 2,則樣本平均數的期望為,方差為 2 /n。,x2分布,t分布,平均數的抽樣分布的性質,總體:正態(tài)分布的魚體重,平均值:272克,平均數的抽樣分布的性質,樣本平均數抽樣分布的平均數等于原總體平均數 樣本平均數抽樣分布的標準差: 如果每次抽樣大小為n,,這個標準差反應樣本平均數的離散趨勢,稱為平均數的標準誤差(standard error of the mean),簡稱標準誤(SE 或者SEM),標準誤的估計,總體標準

54、差未知,用樣本標準差代替:,總體標準差已知:,樣本平均數的抽樣分布,黑白花奶牛牛奶中的體細胞數,總體,樣本,標準誤的估計,例:美國黑白花奶牛體細胞數服從正態(tài)分布,一次隨機抽樣調查中,共隨機抽取196頭牛,體細胞數的平均數為33.5萬個/毫升,標準差為15.5萬個/毫升,估計平均數的標準誤。,如果抽樣樣本數為49頭,那么標準誤是多少?,如果已知總體標準差為14.5萬個/ml,標準誤又是多少?,標準誤與標準差,觀察值的標準差與平均數的標準誤 標準差: 對觀察值的離散程度的度量 顯示觀察值與平均數的接近程度 可理解為每個觀察值與平均數的離差的平均 可以用于確定總體中大部分觀察值所在的范圍 標準誤 測

55、量用樣本平均數估計總體平均數時的精確程度 用于估計抽樣誤差,反映的是樣本平均數抽樣分布的離散程度 顯示該樣本平均數與總體平均數的接近程度 用于確定估計的總體平均數的置信區(qū)間,參數估計,參數估計的定義 以樣本統(tǒng)計量對總體參數進行估計。 基本形式 點估計(point estimation) 區(qū)間估計(interval estimation),參數估計 - 點估計,以樣本統(tǒng)計量作為總體參數的一個估計值。,例:,樣本觀測值,參數估計 - 點估計,基本方法 - 構造函數g(x)的方法 矩法:用與總體參數相應的樣本統(tǒng)計量作為估計值,必要時可對統(tǒng)計量作適當調整。 最大似然法:用使樣本觀測值的似然函數達到最大

56、的統(tǒng)計量作為估計值。 最小二乘法:用使估計誤差平方和的統(tǒng)計量作為估計值。 貝葉斯法:根據貝葉斯理論構造估計量。,參數估計 - 點估計,衡量估計值優(yōu)劣的指標 無偏性:,無偏估計:,有偏估計:,參數估計 - 點估計,樣本方差的期望,s2是2的無偏估計量,參數估計 - 點估計,抽樣方差/標準誤:估計值的方差/標準差,樣本平均數 的抽樣方差:,樣本方差的 抽樣方差:,參數估計 - 點估計,均方誤差: 將無偏性和抽樣方差綜合起來的指標( Theta ),一致性:估計值隨著樣本的增大而更加接近真值。 有效性: 抽樣方差達到最小的無偏估計。 充分性: 估計函數包含了關于被估參數的全部信息。,參數估計 - 區(qū)

57、間估計,以一定的置信度對參數可能取值范圍的估計。 總體參數u有多大(百分之幾)可能在某個范圍內!,1 - :置信度(置信水平)(可相信的程度) t1, t2:置信區(qū)間 t1、t2:置信限(置信下限、置信上限),求統(tǒng)計量 t1和 t2 ,使得對于給定的 (0 1,常用 =0.05和 =0.01),有,參數估計 - 區(qū)間估計,正態(tài)總體平均數的區(qū)間估計,1.當 2已知時:,標準正態(tài)分布兩尾概率分位點,查表2,求a,1-a的置信區(qū)間,= 置信半徑,參數估計 - 區(qū)間估計,例題,已知某正態(tài)總體的方差為2(sigma)=100,由該總體隨機抽取一個含量為10的樣本,樣本觀察值為:34,19,30,27,1

58、1,29,27,30,48,26,求總體平均數u的95%和99%的置信區(qū)間。 解:1.樣本平均數 =28.1, X = /n=3.16 2.置信水平1-a=0.95和0.99,a=0.05或0.01 3.查表2,得求0.05=1.96 ,求0.01= 4.=1.963.16=6.19 5.置信區(qū)間下限為:X- =28.1-6.19=21.91 置信區(qū)間上限為:X+ =28.1+6.19=34.29 6.95%的置信區(qū)間為(21.91,34.29),28.16.19,參數估計 - 區(qū)間估計,正態(tài)總體平均數的區(qū)間估計,2.當 2未知時:,參數估計 - 區(qū)間估計,t分布兩尾概率分位點,例題,已知某養(yǎng)豬場小豬月重服從正態(tài)分布,隨機抽取一個含量為10的樣本,樣本觀察值為:34,19,30,27,11,29, 27,30,48,26,求

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論