試驗設計與統(tǒng)計分析_第1頁
試驗設計與統(tǒng)計分析_第2頁
試驗設計與統(tǒng)計分析_第3頁
試驗設計與統(tǒng)計分析_第4頁
試驗設計與統(tǒng)計分析_第5頁
已閱讀5頁,還剩305頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第1章 緒論,Introduction,一、什么是統(tǒng)計學,統(tǒng)計學(statistics)是關于數據(data)的科學,是從數據中提取信息的一門學科,包括設計、搜集、整理、分析和表達等步驟 Data are numbers, but they are not “just numbers” 數據(data)+說明 (context)=信息(information) 例:50 (just a number) 50公斤是可接受的體重 50分是不及格的分數,二、統(tǒng)計學分支學科,根據研究領域和研究對象,統(tǒng)計學又分為:數理統(tǒng)計、經濟統(tǒng)計、生物統(tǒng)計、醫(yī)學統(tǒng)計、衛(wèi)生統(tǒng)計 生物統(tǒng)計學(Biostatistics)

2、:用統(tǒng)計學的原理和方法研究生命科學中的問題的學科 。,三、為什么要學統(tǒng)計學,采用統(tǒng)計學方法,發(fā)現(xiàn)不確定現(xiàn)象背后隱藏的規(guī)律。 變異(variation)是社會和生物科學中的普遍現(xiàn)象 變異使得實驗或觀察的結果具有不確定性,,用統(tǒng)計學思維方式考慮有關生物和農業(yè)研究中的問題 以紫花和白花的大豆品種雜交,在F2代共得289株,其中紫花208株,白花81株,能否說花色受一對等位基因控制? 某春小麥良種的千粒重34g,現(xiàn)自外地引入一高產品種,在8個小區(qū)種植,得其千粒重平均為35.2g,能否說新引入品種的千粒重高于當地良種?,三、為什么要學統(tǒng)計學,保證你的研究論文能通過統(tǒng)計學審查 對不同生物學雜志發(fā)表論文的調

3、查結果顯示,有統(tǒng)計錯誤的論文所占比例高達72%,最低也有20%。 國內外權威生物學雜志對來稿都有統(tǒng)計學要求或統(tǒng)計學指導。,三、為什么要學統(tǒng)計學,獲得循證生物學證據的主要手段 “良好愿望的生物學”(well-meaning biology)轉入“以證據為基礎的生物學” (evidence-based biology,EBB)需要有統(tǒng)計學方法的支持。 全世界每年發(fā)表的生物學術論文,能作為可靠“證據”的論文并不多。,三、為什么要學統(tǒng)計學,四、統(tǒng)計學內容,正確 數據 來源,數 據 處 理,數 據 產 品,統(tǒng) 計 推 斷,參數估計,進階推斷,第2章,假設檢驗,第5章,第5章,第68章,基礎知識,第3章,

4、第4章,描述統(tǒng)計學(descriptive statistics)是指用統(tǒng)計指標、統(tǒng)計圖、統(tǒng)計表等方法,對數據的特征及其分布規(guī)律進行檢測與描述。 推斷統(tǒng)計學(inferential statistics)是通過隨機樣本信息推斷總體特征的過程。 區(qū)間估計( interval estimation) 假設檢驗(hypothesis test),四、統(tǒng)計學內容,五、統(tǒng)計學結論的不確定性(Uncertainty),某春小麥良種在8個小區(qū)種植,得其千粒重平均為35.2g。 該品種千粒重在33.836.6g之間,置信度為95%。 Statistics gives us a language for tal

5、king about uncertainty that is used and understood by statistically literate people everywhere.,六、統(tǒng)計學家是科學家,Jacob Bernoulli (伯努利) (1654-1705) Edmond Halley (哈雷) (1656-1742) De Moivre (棣美佛) (1667-1754) Thomas Bayes (貝葉斯) (1702-1761) Leonhard Euler (歐拉) (1707-1783) Pierre Simon Laplace (拉普拉斯) (1749-182

6、7) Adrien Marie Legendre (勒讓德) (1752-1833) Thomas Robert Malthus (馬爾薩斯) (1766-1834) Friedrich Gauss (高斯) (1777-1855) Johann Gregor Mendel (孟德爾) (1822-1884) Karl Pearson (皮爾森) (1857-1936) Ronald Aylmer Fisher (費歇) (1890-1962) Jerzy Neyman (內曼)(1894-1981) Egon Sharpe Pearson (皮爾森) (1895-1980) William

7、Feller (費勒)(1906-1970),六、統(tǒng)計學家是科學家,第2章 數據的組織與表達,Arrangement and Presentation of Data,Section 2.1Data and Data Type數據與數據類型,一、原始數據的組織,資料以電子表格(spreadsheet)方式記錄。 包括個體 (Individual):一筆數據所描述的對象(object)。電子表格中輸入在一行。 及變量( Variable ) :描述任何一個個體的特征,一個變量對不同的個體取不同的數值(value)。電子表格中輸入在一列。,(一) 數量性狀資料 數量性狀(quantitative

8、trait)的度量有計數和量測兩種方式,其所得變數不同。 1. 不連續(xù)性或間斷性變數( discontinuous or discrete variable ) 指用計數方法獲得的數據。 2. 連續(xù)性變數( continuous variable ) 指稱量、度量或測量方法所得到的數據,其各個觀察值并不限于整數,在兩個數值之間可以有微量數值差異的第三個數值存在。,二、試驗資料的性質與分類,(二) 質量性狀資料 質量性狀( qualitative trait )指能觀察而不能量測的狀即屬性性狀,如花藥、子粒、穎殼等器官的顏色、芒的有無、絨毛的有無等。要從這類性狀獲得數量資料,可采用下列兩種方法:

9、 統(tǒng)計次數法 于一定總體或樣本內,統(tǒng)計其具有某個性狀的個體數目及具有不同性狀的個體數目,按類別計其次數或相對次數。 2. 給分法 給予每類性狀以相對數量的方法,二、試驗資料的性質與分類,Section 2.2次數分布表,表1 100個麥穗的每穗小穗數,一、 間斷性變數資料的整理,表2 100個麥穗每穗小 穗數的次數分布表,從表2中看到,一堆雜亂的原始資料表,經初步整理后,就可了解資料的大致情況,另外,經過整理的資料也便于進一步的分析。,每穗小穗數在1520的范圍內變動,把所有觀察值按每穗小穗數多少加以歸類,共分為6組,組與組間相差為1小穗,稱為組距。這樣可得表2形式的次數分布表。,一、 間斷性

10、變數資料的整理,二、 連續(xù)性變數資料的整理,表3 140行水稻產量(單位:克),具體步驟: 1. 數據排序(sort) 首先對數據按從小到大排列(升序)或從大到小排列(降序)。 2. 求極差(range) 所有數據中的最大觀察值和最小觀察值的差數,稱為極差,亦即整個樣本的變異幅度。從表3中查到最大觀察值為254g,最小觀察值為75g,極差為25475=179g。,二、 連續(xù)性變數資料的整理,3. 確定組數和組距( class interval ) 根據極差分為若干組,每組的距離相等,稱為組距。 在確定組數和組距時應考慮: (1)觀察值個數的多少; (2)極差的大小; (3)便于計算; (4)能

11、反映出資料的真實面貌等方面。 樣本大小(即樣本內包含觀察值的個數的多少)與組數多少的關系可參照表4來確定。,二、 連續(xù)性變數資料的整理,表4樣本容量與組數多少的關系,組數確定后,還須確定組距。組距=極差/組數。以表3中140行水稻產量為例,樣本內觀察值的個數為140,查表4可分為816組,假定分為12組,,則組距為179/12=14.9g,為分組方便起見,可以15g作為組距。,二、 連續(xù)性變數資料的整理,4. 選定組限( class limit )和組中點值( 組值,class value ) 以表3中140行水稻產量為例,選定第一組的中點值為75g,與最小觀察值75g相等;則第二組的中點值為

12、75+15=90g,余類推。 各組的中點值選定后,就可以求得各組組限。每組有兩個組限,數值小的稱為下限( lower limit ),數值大的稱為上限( upper limit )。上述資料中,第一組的下限為該組中點值減去1/2組距,即75(15/2)=67.5g,上限為中點值加1/2組距,即75+(15/2)=82.5g。故第一組的組限為67.582.5g。按照此法計算其余各組的組限。,二、 連續(xù)性變數資料的整理,5. 把原始資料的各個觀察值按分組數列的各組組限歸組 可按原始資料中各觀察值的次序,逐個把數值歸于各組。 待全部觀察值歸組后,即可求得各組的次數,制成一個次數分布表。 例如表3中第

13、一個觀察值177應歸于表5中第8組,組限為172.5187.5;第二個觀察值149應歸于第6組,組限為142.5157.5;。依次把140個觀察值都進行歸組,即可制成140行水稻產量的次數分布表(表5)。,二、 連續(xù)性變數資料的整理,表5 140行水稻的次數分布,注:前面提到分為12組,但由于第一組的中點值接近于最小觀察值,故第一組的下限小于最小觀察值,實際上差不多增加了1/2組;這樣也使最后一組的中點值接近于最大值,又增加了1/2組,故實際的組數比原來確定的要多一個組,為13組。,二、 連續(xù)性變數資料的整理,三、 屬性變數資料的整理,屬性變數的資料,也可以用類似次數分布的方法來整理。 在整理

14、前,把資料按各種質量性狀進行分類,分類數等于組數, 然后根據各個體在質量屬性上的具體表現(xiàn),分別歸入相應的組中, 即可得到屬性分布的規(guī)律性認識。 例如,某水稻雜種第二代植株 米粒性狀的分離情況,歸于表6。,表6 水稻雜種二代植株 米粒性狀的分離情況,Section 2.3次數分布圖,一、 方柱形圖,方柱形圖( histogram )適用于表示連續(xù)性變數的次數分布。,現(xiàn)以表3的140行水稻產量的次數分布表為例加以說明。即成方柱形次數分布圖1。,二、多邊形圖,多邊形圖( polygon )也是表示連續(xù)性變數資料的一種普通的方法,且在同一圖上可比較兩組以上的資料。,仍以140行水稻產量次數分布為例,所

15、成圖形即為次數多邊形圖(圖2)。,三、 條形圖,條形圖(bar)適用于間斷性變數和屬性變數資料,用以表示這些變數的次數分布狀況。一般其橫軸標出間斷的中點值或分類性狀,縱軸標出 次數。,現(xiàn)以表6水稻雜種第二代米粒性狀的分離情況為例,可畫成水稻雜種第二代植株4種米粒性狀分離情況條形圖(圖3)。,圖3 水稻F2代米粒性狀分離條形圖,四、 餅圖,餅圖( pie )適用于間斷性變數和屬性變數資料,用以表示這些變數中各種屬性或各種間斷性數據觀察值在總觀察個數中的百分比。,如圖4中白米糯稻在F2群體中占8%,白米非糯、紅米糯稻和紅米非糯分別占17%、21%和54%。,Section 2.4平均數,一、平均數

16、的意義和種類,平均數的意義: 平均數( average )是數據的代表值,表示資料中觀察值的中心位置,并且可作為資料的代表而與另一組資料相比較,借以明確二者之間相差的情況。,平均數的種類 : (1) 算術平均數 一個數量資料中各個觀察值的總和除以觀察值個數所得的商數,稱為算術平均數( arithmetic mean ),記作 。因其應用廣泛,常簡稱平均數或均數(mean)。均數的大小決定于樣本的各觀察值。 (2) 中數 將資料內所有觀察值從大到小排序,居中間位置的觀察值稱為中數( median ),計作Md。如觀察值個數為偶數,則以中間二個觀察值的算術平均數為中數。,一、平均數的意義和種類,(

17、3) 眾數 資料中最常見的一數,或次數最多一組的中點值,稱為眾數( mode ),計作MO。如棉花纖維檢驗時所用的主體長度即為眾數。 (4) 幾何平均數 如有n個觀察值,其相乘積開n次方,即為幾何平均數( geometric mean ),用G代表。,一、平均數的意義和種類,二、算術平均數的計算方法,若樣本較小,即資料包含的觀察值個數不多,可直接計算平均數。設一個含有n個觀察值的樣本,其各個觀察值為x1、x2、x3、xn,則算術平均數由下式算得:,若樣本較大,且已進行了分組,可采用加權法計算算術平均數,即用組中點值代表該組出現(xiàn)的觀測值以計算平均數,其公式為,其中yi 為第i 組中點值,fi 為

18、第 i 組變數出現(xiàn)次數。,例1 在水稻品種比較試驗中,湘矮早四號的5個小區(qū)產量分別為20.0、19.0、21.0、17.5、18.5kg,求該品種的小區(qū)平均產量。,例2 利用表5資料計算平均每行水稻產量。,若采用直接法, =157.47。因此,兩者的結果十分相近。,二、算術平均數的計算方法,三、總體平均數,總體平均數用 來代表,它同樣具有算術平均數所具有的特性。,上式Xi 代表各個觀察值,N代表有限總體所包含的個體數, 表示總體內各個觀察值的總和。,Section 2.5變異數,一、極 差,極差( range ),又稱全距,記作R,是資料中最大觀察值與最小觀察值的差數。,表7 兩個小麥品種的每

19、穗小穗數,甲品種R=2313=10;乙品種R=2016=4。 兩品種的平均同為18,但甲品種的極差大,平均數的代表性差;乙品種的極差小,平均數代表性好。,二、方 差,離均差平方和(簡稱平方和)SS,樣本SS=,總體SS=,均方或方差(variance),樣本均方(mean square) :,總體方差:,樣本均方是總體方差的無偏估計值,三、標準差,(一) 標準差的定義 樣本標準差:,總體標準差:,樣本標準差是總體標準差的估計值。,(二) 自由度,樣本n-1稱為自由度,記作DF,其具體數值則常用 表示。 統(tǒng)計意義:是指樣本內獨立而能自由變動的離均差個數。,三、標準差,(三) 標準差的計算方法,1

20、. 直接法,例3 設某一水稻單株粒重的樣本有5個觀察值,以克為單位,其數為2、8、7、5、4。,三、標準差,2 矯正數法,其中 項稱為矯正數,記作C。,在上例中,將有關數字代入即有:,三、標準差,3 加權法 若樣本較大,已生成次數分布表,可采用加權法計算標準差,其公式為:,三、標準差,例4 利用表5的次數分布資料計算每行水稻產量的標準差。,若采用直接法,其標準差s=36.23(g)。由此可見,直接法和加權法的結果是很相近的。,三、標準差,四、變異系數,變異系數( coefficient of variation ):,變異系數是一個不帶單位的純數,可用以比較二個事物的變異度大小。,例如表8為兩

21、個小麥品種主莖高度的平均數、標準差和變異系數。如只從標準差看,品種甲比乙的變異大些;但因兩者的均數不同,標準差間不宜直接比較。如果算出變異系數,就可以相互比較,這里乙品種的變異系數為11.3%,甲品種為9.5%,可見乙品種的相對變異程度較大。,表8 兩個小麥品種主莖高度的測量結果,四、變異系數,第3章 概率與抽樣分布,Probability and Sampling Distributions,Section 3.1Random Variables隨機變量,事件的實際發(fā)生率稱為頻率。設在相同條件下,獨立重復進行n次試驗,事件A出現(xiàn)f 次,則事件A出現(xiàn)的頻率為f/n。 概率:隨機事件發(fā)生的可能性

22、大小,用大寫的P 表示;取值0,1。,一、頻率與概率frequency and probability,1. 樣本頻率總是圍繞概率上下波動 2. 樣本含量n越大,波動幅度越小,頻率越接近概率。,頻率與概率的關系:,表 在相同條件下盲蝽象在某棉田危害程度的調查結果,一、頻率與概率frequency and probability,一、頻率與概率frequency and probability,小概率原理 若事件A發(fā)生的概率較小,如小于0.05或0.01,則認為事件A在一次試驗中不太可能發(fā)生,這稱為小概率事件實際不可能性原理,簡稱小概率原理。這里的0.05或0.01稱為小概率標準,農業(yè)試驗研究中

23、通常使用這兩個小概率標準。,二、隨機變量,用以記錄隨機試驗結果(outcome)的變量,稱為隨機變量(random variable),用大寫英文字母X, Y 等代表。 隨機變量X的概率分布,表達 X 的可能取值和取這些值的概率規(guī)則。,離散型和連續(xù)型隨機變量,隨機變量的可能取值是離散的數字,如計數型或分類型等,稱為離散型隨機變量(discrete random variable)。 0, 1, 9 。 20次實驗中成功的次數, 二項式分布。 隨機變量的可能取值是某一實數的區(qū)間,如“大于0”或“-22之間”等,稱為連續(xù)型隨機變量(continuous random variable)。 正態(tài)隨機

24、變量,二、隨機變量,三、離散型隨機變量的概率分布,列出離散型隨機變量X的所有可能取值 列出隨機變量取這些值的概率 通常用下面的表格來表示 P(X =xi)=pi稱為離散型隨機變量的概率函數,四、連續(xù)型隨機變量的概率密度,若觀察資料數量夠大,則直方圖(組數適當增加)的整體形態(tài)可用一近似的平滑曲線顯示。 直方圖中縱軸改為次數比例,則該平滑曲線稱為密度曲線(density curve)。,概率密度曲線,密度曲線的性質,曲線都在水平線上 (密度函數=0)。 曲線下所涵蓋的全部面積正好為1(所有可能性為1)。 曲線下任何范圍所涵蓋的面積,為觀察值落在該范圍的比例(概率)。 密度曲線可視為是觀察變量的理論

25、分布圖形。,四、連續(xù)型隨機變量的概率密度,隨機變量X的一切可能取值的完備組中,各可能取值xi與其相對應的概率pi乘積之和 描述隨機變量取值的集中程度 計算公式為,五、隨機變量的數學期望,隨機變量X的每一個取值與期望值的離差平方和的數學期望,記為D(X) 描述離散型隨機變量取值的分散程度 計算公式為,六、隨機變量的方差,Section 3.2The Binomial Distributions二項分布,一、二項分布設定The Binomial Setting,固定的觀察次數 n。 n 次的觀察都獨立,每次的觀察都不會對其他觀察提供任何信息。 每次的觀察都只有兩種可能的結果,多假設為“成功”或“失

26、敗”兩種。 每次的觀察“成功”的概率都一樣,設定為 p。,二、二項分布Binomial Distribution,滿足二項分布設定的試驗,以 X 記錄 n次觀察中“成功”的次數,則稱 X 的分布為參數為 n 與 p 的二項分布(binomial),記為B(n, p)。 X 的所有可能取值為0, 1, , n。 對應的概率函數為 P(X = x) = P(x)。,例1 某種昆蟲在某地區(qū)的死亡率為40%,即p=0.4,現(xiàn)對這種害蟲用一種新藥進行治療試驗,每次抽樣10頭作為一組治療。試問如新藥無療效,則在10頭中死3頭、2頭、1頭,以及全部愈好的概率為多少?,按上述二項分布概率函數式計算,7頭愈好,

27、3頭死去概率: 8頭愈好,2頭死去概率: 9頭愈好,1頭死去概率: 10頭全部愈好的概率:,三、示例,若問10頭中不超過2頭死去的概率為多少?則應該應用累積函數,即,三、示例,四、二項分布的期望值與標準差,期望值: E(X) = np 方差: Var(X) = np(1-p) 標準差:,Section 3.3Normal Distributions正態(tài)分布,一、特點,正態(tài)曲線 所有正態(tài)曲線都有相同的外型 具有對稱、單峰及鐘形的特性。 正態(tài)曲線所代表的分布即為正態(tài)分布(normal distribution) 每一正態(tài)分布都有其平均值 與標準差,m,s,一、特點,正態(tài)曲線較大,m,s,一、特點,

28、正態(tài)曲線的拐點,拐點落在一個處,拐點落在-處,一、特點,二、為什么這么重要,Good descriptions for some distributions of real data 身高, 體重, 考試成績 Good approximations to the results of many kinds of chance outcomes Tossing a coin many times Many statistical inference procedures are based on normal distributions,三、68-95-99.7規(guī)則,正態(tài)分布有其特定的數據分布規(guī)

29、則: 平均值為 , 標準差為 的正態(tài)分布 68%的觀察資料落在m 的 1 之內 95%的觀察資料落在m 的 2 之內 99.7%的觀察資料落在m 的 3 之內,0,1,2,3,-1,-2,-3,m,m+s,m+2s,m+3s,m-s,m-2s,m-3s,68% 的資料,95% 的資料,99.7% 的資料,三、68-95-99.7規(guī)則,四、變量標準化(Standardization),令觀察值 x 服從平均值為 ,標準差為 的分布,則 x 的標準化值(standardized value)定義為 標準化值又稱為 z-值(z-score)。,標準化變量 可以證明 z的平均值為0 z的標準差為1,四

30、、變量標準化(Standardization),五、標準正態(tài)分布,變量 X 服從平均值為 ,標準差為 的正態(tài)分布,簡記為 X N(, 2)。 X 經過標準化后為 Z(=(X-)/ s ),則 Z 也服從正態(tài)分布,并且平均值為 0 ,標準差為 1,即Z N(0, 1)。我們稱 Z 服從標準正態(tài)(standard normal)。,六、標準正態(tài)表,z,表列數字是z左邊的面積,z = - 0.44,z左邊的面積為0.33,- 0.44,0.33,z,表列數字是z左邊的面積,z = 0.44,z左邊的面積為0.67,六、標準正態(tài)表,七、雙側臨界值,在標準正態(tài)曲線圖下, 右方與 左方的面積和為 a ,則

31、稱 為標準正態(tài)分布概率為 a 的雙側臨界值??刹楸怼?m = 0,面積為a/2,面積為a/2,八、單側臨界值,在標準正態(tài)曲線圖下, 右方的面積為 a ,則稱 為標準正態(tài)分布概率為 a 的單側臨界值。可查表。,m = 0,面積為a,例2 假定y是一隨機變數具有正態(tài)分布,平均數 =30,標準差 =5,試計算小于26,小于40的概率,介乎26和40區(qū)間的概率以及大于40的概率。,首先計算:,先將x轉換為u值,九、計算,同理可得: FN(40)=0.9773,所以:P(26x40)=FN(40)FN(26)=0.97730.2119 = 0.7654,P(x40)=1P(x40)=10.9773 =0

32、.0227,查附表,當u=0.8時,F(xiàn)N(26)=0.2119,說明這一分布從到26范圍內的變量數占全部變量數的21.19%,或者說,x26概率為0.2119.,九、計算,例3 在應用正態(tài)分布時,經常要討論隨機變數x離其平均數的差數大于或小于若干個值的概率。例如計算離均差絕對值等于小于和等于大于1 的概率為:,也可以簡寫為,九、計算,相應地,離均差絕對值等于小于2 、等于大于2 、等于小于3 和等于大于3 的概率值為:,九、計算,例4 計算正態(tài)分布曲線的中間概率為0.99時,其y或u值應等于多少?,因為正態(tài)分布是對稱的,故在曲線左邊從到 u的概率和在曲線右邊從u到的概率都應等于 1/2(10.

33、99)=0.005。 查表,u=2.58時, fN(x) =0.004940.005。 于是知,當 2.58時,在其范圍內包括99%的變量,僅有1%變量在此范圍之外。上述結果寫作:,九、計算,同理可求得:,九、計算,同理, 亦可寫成:,以上 乃正態(tài)曲線下左邊一尾x從到 上的面積和右邊一尾y從 到上的面積之和,亦可寫成:,九、計算,Section 3.4Sampling Distributions抽樣分布,一、總體與樣本 population and sample,總體:根據研究目的確定的同質研究對象的全體(集合)。分有限總體與無限總體,樣本:從總體中隨機抽取的部分研究對象,二、總體容量與樣本容

34、量 population size and sample size,總體容量(N):總體中所包含的個體數目。根據N大小,總體分有限總體和無限總體,樣本(n):從總體中隨機抽取的部分研究對象,三、隨機抽樣 random sampling,為了保證樣本的可靠性和代表性,需要采用隨機的方法抽取樣本(在總體中每個個體具有相同的機會被抽到)。,四、參數與統(tǒng)計量 parameter and statistic,參數:總體的統(tǒng)計指標,如總體均數、標準差,采用希臘字母分別記為、。固定的常數,推斷inference,統(tǒng)計量:樣本的統(tǒng)計指標,如樣本均數、標準差,采用英文字母分別記為 。 參數附近波動的隨機變量 。

35、,五、總體均值、方差與標準差,總體均值 總體方差 總體標準差,六、樣本均值、方差與標準差,總體均值 總體方差 總體標準差,七、樣本的概率分布,統(tǒng)計量(為樣本的函數),亦為隨機變量,其概率分布稱為抽樣分布(sampling distribution)。 一般統(tǒng)計量的抽樣分布,則多根據重復抽樣(實驗)結果來了解其概率分布。 的抽樣分布 大數法則,中心極限定理,八、大數法則,由具有有限(finite)平均數 m 的總體隨機抽樣,隨著樣本容量的增加,樣本平均數 越接近總體的均數 m 。 樣本平均數的這種行為稱為大數法則(law of large numbers)。,以 代表樣本容量為 n 的資料平均數

36、,逐漸增加樣本容量,將 n 及對應的 圖示如后。,八、大數法則,Number of observations, n,前 n個樣本的均數,22,23,24,25,26,27,28,29,30,31,32,33,1,5,10,50,100,500,1000,5000,10000,八、大數法則,九、樣本平均數的均數與標準差,令 為樣本容量為 n 的一組SRS的平均數,其總體平均數為 m 與標準差為 s。則 的分布平均數為 m 與標準差為 。 因為 的分布平均數也是 m,故 又稱為 m 的不偏估計。 樣本容量越大,則樣本平均數 的變異越小。,十、正態(tài)的樣本平均數的分布,若總體服從正態(tài) N(m, s2)

37、 ,則SRS的平均數 也服從正態(tài) N(m, )。,十一、中心極限定理(CLT),若總體平均數為 m 、標準差為 s ,當樣本容量夠大時,則SRS的平均數 的分布近似正態(tài) N(m, )。我們稱之為中心極限定理(Central Limit Theorem)。 總體與正態(tài)分布差越多,則樣本容量要越大。 樣本容量越大, SRS的平均數 的分布越近似正態(tài) 。,例5 在江蘇沛縣調查336個m2小地老虎蟲危害情況的結果, =4.73頭, =2.63,試問樣本容量n=30時,由于隨機抽樣得到樣本平均數 等于或小于4.37的概率為多少?,十一、中心極限定理(CLT),查附表,P(u0.36)=0.2266,即概

38、率為22.66% (屬一尾概率)。因所得概率較大,說明差數0.36是隨機誤差,從而證明這樣本平均數4.37是有代表性的,變異系數為:,十一、中心極限定理(CLT),第4章 試驗設計,Designing Experiments,Section 4.1Concepts About Designing Experiments試驗設計的基本概念,一、試驗,對被觀察個體,人、動物或對象,施以處理后,測量有興趣的變量的反應。 試驗進行程序為:試驗單位處理反應 控制試驗環(huán)境只允許有不同處理水平,以避免混合效應的情況。 例:冷凍法對胃潰瘍減輕疼痛的效應 胃潰瘍病人,施以冷凍法(一般相信可降低胃酸的產生),觀察

39、疼痛癥狀減輕的情況。 冷凍法確實有癥狀減輕的效應。,二、試驗指標(experimental index),在試驗中具體測定的性狀或觀測的項目稱為試驗指標。 株高、千粒重、畝產量、日增重、產奶量 、產蛋率、瘦肉率 單指標試驗與多指標試驗,三、試驗因素(experimental factor),試驗中所研究的影響試驗指標的因素叫試驗因素,簡稱因素 如品種、施肥量、灌溉方式 單因素試驗與多因素試驗 試驗因素常用大寫字母A、B、C、等表示,四、因素水平(level of factor),試驗因素所處的某種特定狀態(tài)或數量等級稱為因素水平,簡稱水平 如比較3個品種畝產量的高低,這3個品種就是品種這個因素的

40、3個水平 因素水平用代表該因素的字母加添足標1,2, , 來表示,如 A1 、 A2 、 , B1 、B2、,等,五、試驗處理(treatment),事先設計好的實施在試驗單位上的具體項目叫試驗處理,簡稱處理 單因素試驗,試驗因素的一個水平就是一個處理 在多因素試驗時,試驗因素的一個水平組合就是一個處理,試驗因素不同水平的組合,六、試驗單位(experimental unit),在試驗中能接受不同試驗處理的獨立的試驗載體叫試驗單位 如一只家禽、 一頭家畜、一只小白鼠、一尾魚 試驗單位往往也是觀測數據的單位,七、重復(repetition),在試驗中,將一個處理實施在兩個或兩個以上的試驗單位上,

41、稱為處理有重復 一處理實施的試驗單位數稱為處理的重復數 用某種飼料喂4頭豬,就說這個處理(飼料)有4次重復,八、實例,棉花灌溉試驗,Section 4.2Basic Principles for Designing Experiments試驗設計的基本原則,測量值=真實值+隨機誤差+非隨機誤差 xi = + i 1隨機誤差(隨機抽樣誤差): 影響因素眾多,變化無方向性,不可避免,但可用統(tǒng)計方法進行分析。 2系統(tǒng)誤差 受確定因素影響,大小變化有方向性。 3非系統(tǒng)誤差(過失誤差) 研究者偶然失誤而造成的誤差。,一、試驗誤差,偏差bias,二、準確度與可靠性,準確度(accuracy)或真實性(va

42、lidity) :觀察值與真值的接近程度,受系統(tǒng)誤差的影響(常用指標:如靈敏度、特異度)。 可靠度(reliabiliy),也稱精密度(precision)或重復性(repeatability) :重復觀察時觀察值與其均值的接近程度,受隨機誤差的影響(常用指標:一致百分率、Kappa值)。,三、試驗設計原則與統(tǒng)計顯著性,試驗設計基本原則: 控制(Control)隱藏變量對反應的效應。 隨機化(Randomization)安排試驗單位接受指定的處理。 重復(Replication)試驗于許多試驗單位,以降低結果的機會變異(chance variation)。 統(tǒng)計顯著性(Statistical

43、Significance)。 若觀察的效果太大,在概率分布上極不可能發(fā)生,稱為該效應統(tǒng)計顯著。,試驗設計三原則的關系及作用,重復,隨機化,控制,無偏誤差估計,估計誤差,降低誤差,統(tǒng)計推斷,提高精確性,三原則,作用,Section 4.3Methods of Experiment Design常用試驗設計方法,一、完全隨機設計,所有的試驗單位,隨機指定到所有處理的試驗設計,稱為完全隨機設計(Completely Randomized Design)。 例 節(jié)約能源方案研究:安裝用電量顯示表,是否有警示節(jié)約用電的效果? 分組一處理一 隨機分組二處理二用電量分組三處理三,20戶,20戶,20戶,裝顯

44、示表,張貼圖表,一般宣傳,完全隨機設計的邏輯依據,完全隨機試驗可提供確實的證據,顯示不同處理是造成不同效應的原因。 試驗進行之前的隨機分組,各組成員背景應該在各方面都類似。 試驗進行之中,各組的試驗環(huán)境除了處理外應該都相同。 各組的平均反應差異,必然來自于不同的處理或是各組的隨機差異。 相同處理的兩組也可能有不同平均反應差異。,一、完全隨機設計,二、配對設計與區(qū)組設計,配對設計(matched pairs design): 兩種處理分別(隨機的)施行在一對特性相同或類似的試驗單位上。 例如:雙胞胎 區(qū)組設計(block design): 特性相同或類似的的試驗單位組成區(qū)組(block),在各區(qū)

45、組內隨機安排試驗單位接受指定的處理,稱為區(qū)組設計。,分組一處理一 男性 隨機 分組二處理二 反應 分組三處理三 分組一處理一 女性 隨機 分組二處理二 反應 分組三處理三,試驗單位,二、配對設計與區(qū)組設計,Section 4.4Field Experiment Design田間試驗設計,一、田間試驗的基本要求,試驗目的要明確 試驗條件要有代表性 試驗結果要能夠重演,二、田間試驗的誤差來源及控制途徑,誤差來源 試驗材料固有的差異 試驗時農事操作和管理技術不一致所引起的差異 進行試驗時外界條件的差異 控制誤差的途徑 選擇同質一致的試驗材料 改進操作和管理技術,使之標準化 控制引起差異的外界主要因素

46、,三、控制土壤差異的小區(qū)技術,試驗地土壤肥力差異的形式 小區(qū)面積 小區(qū)的形狀 小區(qū)方向 重復次數,試驗地土壤肥力差異的形式,肥力從大田的一邊到另一邊逐漸改變 斑塊狀差異,小區(qū)面積,小區(qū)面積增加,試驗誤差減小。 小區(qū)面積擴大之后,同一小區(qū)里可能包括肥力不同的地塊,縮小了小區(qū)間的土壤差異; 擴大小區(qū)面積可增加株數,能夠克服植株個體間的差異,增強其代表性,天津綠白菜勘察試驗小區(qū)面積與變異系數,小區(qū)的形狀,小區(qū)長寬比對土壤差異的變化,采用狹長小區(qū)能較全面地包括不同肥力的土壤,相應減少小區(qū)之間的土壤差異,提高試驗精確度。 田間試驗小區(qū)長寬比一般為25:1。 小區(qū)面積較大時,長寬比多用35:1; 1小區(qū)面

47、積較小時,長寬比多用23:1。,小區(qū)方向,肥力梯度,小區(qū)的方向必須是長的一邊與肥力變化最大的方向平行,使區(qū)組方向與肥力梯度方向垂直。,按土壤肥力變異趨勢確定小區(qū)排列方向 (、 、 代表重復;1、2、6代表小區(qū)),重復次數與小區(qū)面積對試驗誤差的影響,重復次數與小區(qū)面積對試驗誤差的相互關系,四、完全隨機設計實例,例:激素和光照對不同水稻品種苗高的影響 試驗單位:播盆 試驗因素:A品種(A1、A2、A3 三個品種),B激素處理(B1對照噴水處理,B2施用20mg/L的赤霉素),C光照處理(C1加光,C2自然光) 試驗處理:共計32212個試驗處理 處理安排:采用盆播,每一處理重復20次,共需240個

48、播盆,每一個處理隨機安排到20個播盆中 試驗指標:苗高,五、配對設計實例,例:不同處理方法鈍化病毒效果研究 試驗單位:番茄植株 試驗因素:處理病毒方法(A1和A2) 試驗處理:共2個處理 配對方法:選生長期、發(fā)育進度、植株大小和其他方面皆比較一致的兩株番茄構成一組,共得7組,每組中一株接種A1處理病毒,另一株接種A2處理病毒 試驗指標:病毒產生的病痕數目,六、隨機區(qū)組設計實例,例:早稻不同品種和密度產量試驗 試驗單位:田間試驗小區(qū),小區(qū)計產面積20cm2。 試驗因素:A品種(A1早熟, A2中熟, A3遲熟),B密度(B1 16.5cm6.6cm, B2 16.5cm9.9cm, B3 16.

49、5cm13.2cm)。 試驗處理:共計339個試驗處理。 試驗指標:小區(qū)產量。,區(qū)組,區(qū)組,區(qū)組,早稻品種和密度兩因素隨機區(qū)組試驗的田間排列,六、隨機區(qū)組設計實例,第5章 假設測驗,Tests of Significance,Section 5.1Principle of Significance Tests假設測驗的基本原理,一、假設測驗的理論基礎,某人宣稱自由球命中率有80%。 命中率有80%的射手,實地投射只有8/20命中率的機會不大。 實地投射結果顯示投20球中8球。 結論:命中率有80%的宣稱不可信。 命中率有80%的自由球射手投20球命中的次數應服從二項分布B(20, 0.8)。

50、命中的次數小于或等于8的概率約為 0.0001。 即重復實地投射20球10,000次只中8球以下的情形約只發(fā)生一次。,假設宣稱的敘述為真(命中率有80%) ,可推得實驗結果發(fā)生的可能性很低,則該實驗結果的發(fā)生(實地投射20球中8球),即為宣稱的敘述不真的好證據。 “Prove by Contradiction” 小概率原理,一、假設測驗的理論基礎,例 某地區(qū)的當地小麥品種一般667m2產300kg,即當地品種這個總體的平均數 =300(kg),并從多年種植結果獲得其標準差=75(kg),而現(xiàn)有某新品種通過25個小區(qū)的試驗,計得其樣本平均產量為每667m2330kg, 即 =330,問新品種產量

51、與當地品種產量是否有顯著差異?,二、假設測驗的步驟,(一) 先假設新品種產量與當地品種產量無差異,記作 無效假設或零假設 對立假設或備擇假設,二、假設測驗的步驟,二、假設測驗的步驟,(二) 在承認上述無效假設的前提下,獲得平均數的抽樣分布,計算假設正確的概率 先承認無效假設,從已知總體中抽取樣本容量為n=25的樣本,該樣本平均數的抽樣分布具正態(tài)分布形狀,平均數 =300(kg),標準誤 =15(kg)。如果新品種的平均產量很接近300 kg,應接受H0。如果新品種的平均產量與300相差很大,應否定H0 。但如果試驗結果與300不很接近也不相差懸殊 , 就要借助于概率原理,具體做法有以下兩種:,

52、1. 計算概率 在假設 為正確的條件下,根據的抽樣分布算出獲得 330kg的概率,或者說算得出現(xiàn)隨機誤差 30(kg)的概率:在此,,查附表,當u=2時,P(概率)界于0.04和0.05之間,即這一試驗結果: 30(kg),屬于抽樣誤差的概率小于5%。,二、假設測驗的步驟,2. 計算接受區(qū)和否定區(qū) 在假設H0為正確的條件下,根據 的抽樣分布劃出一個區(qū)間,如 在這一區(qū)間內則接受H0,如 在這一區(qū)間外則否定H0 。由于,因此,在 的抽樣分布中,落在( )區(qū)間內的有95%,落在這一區(qū)間外的只有5%。,二、假設測驗的步驟,如果以5%概率作為接受或否定H0的界限,則上述區(qū)間( )為接受假設的區(qū)域,簡稱接

53、受區(qū)( acceptance region ); 和 為否定假設的區(qū)域,簡稱否定區(qū)( rejection region )。,同理,若以1%作為接受或否定H0的界限,則( )為接受區(qū)域, 和 為否定區(qū)域。,二、假設測驗的步驟,如上述小麥新品種例, =300, , 1.96 =29.4(kg)。因之,它的兩個2.5%概率 的否定區(qū)域為 30029.4和 300+29.4,即 大于329.4(kg)和小于270.6(kg)的概率只有5。,圖 5%顯著水平假設測驗圖示 (表示接受區(qū)域和否定區(qū)域),二、假設測驗的步驟,(三) 根據“小概率事件實際上不可能發(fā)生”原理接受或否定假設,當 由隨機誤差造成的概

54、率P小于5%或1%時,就可認為它不可能屬于抽樣誤差,從而否定假設。 如P0.05,則稱這個差數是顯著的。 如P0.01,則稱這個差數是極顯著的。 用來測驗假設的概率標準5%或1%等,稱為顯著水平( significance level )。 一般以 表示,如 =0.05或 =0.01。,二、假設測驗的步驟,綜合上述,統(tǒng)計假設測驗的步驟可總結如下: (1) 對樣本所屬的總體提出統(tǒng)計假設,包括無效假設和備擇假設。 (2) 規(guī)定測驗的顯著水平 值。 (3) 在 為正確的假定下,根據平均數( )或其他統(tǒng)計數的抽樣分布,獲得實際差數(如 等)由誤差造成的概率(P值)?;蛘吒鶕岩?guī)定概率,如 =0.05,

55、劃出兩個否定區(qū)域如: 和 。 (4) 將規(guī)定的 值和算得的P值相比較,或者將試驗結果和否定區(qū)域相比較,從而作出接受或否定無效假設的推斷。,二、假設測驗的步驟,如果統(tǒng)計假設為 , 則備擇假設為 , 在假設測驗時所考慮的概率為曲線左邊一尾概率和右邊一尾概率的總和。這類測驗稱為兩尾測驗( two-tailed test ),它具有兩個否定區(qū)域。,如果統(tǒng)計假設為 , 則其對應的備擇假設必為 。因而,這個對應的備擇假設僅有一種可能性,而統(tǒng)計假設僅有一個否定區(qū)域,即曲線的右邊一尾。這類測驗稱一尾測驗( one-tailed test )。一尾測驗還有另一種情況,即 , , 這時否定區(qū)域在左邊一尾.,三、兩

56、尾測驗與一尾測驗,0,-1.96x,+1.96x,0.95,0.025,0.025,左尾,右尾,否定區(qū),否定區(qū),接受區(qū),雙尾測驗 (two-sided test),三、兩尾測驗與一尾測驗,0.95,0.95,0.05,0.05,1.64,-1.64,H0 : 0 HA : 0,假設:,否定區(qū),H0 : 0 HA : 0,左尾測驗,右尾測驗,單尾測驗 (one-sided test),接受區(qū),接受區(qū),三、兩尾測驗與一尾測驗,u 0.05=1.64 u 0.01=2.33,單尾 測驗 分位數,雙尾 測驗 分位數,u 0.05=1.96 u 0.01=2.58,查表時,單尾概率等于雙尾概率乘以2,三

57、、兩尾測驗與一尾測驗,第一類錯誤(type I error),又稱棄真錯誤或 錯誤; 第二類錯誤( type II error ) ,又稱納偽錯誤或 錯誤 第一類錯誤的概率為顯著水平 值。 第二類錯誤的概率為 值。,四、假設測驗的兩類錯誤,關于兩類錯誤的討論可總結如下: (1) 在樣本容量n固定的條件下,提高顯著水平 (取較小的 值),如從5%變?yōu)?%則將增大第二類錯誤的概率 值。 (2) 在n和顯著水平 相同的條件下,真總體平均數 和假設平均數 的相差(以標準誤為單位)愈大,則犯第二類錯誤的概率 值愈小。 (3) 為了降低犯兩類錯誤的概率,需采用一個較低的顯著水平,如 =0.05;或適當增加樣本容量。 (4) 如果顯著水平 已固定下來,則改進試驗技術和增加樣本容量可以有效地降低犯第二類錯誤的概率。,四、假設測驗的兩類錯誤,Section 5.2 Significance Tests for Means平均數的假設測驗,一、t分布,數據來自正態(tài)總體N(,2 )的假設下,隨機樣本的均數 服從正態(tài) N(,2/n ) 標準差未知,用樣本標準差s估計 以 標準化后服從標準正態(tài) 以 標準化后則服從 t 分布 的標準差估計值 又稱為 的標準誤 (standard err

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論