版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
試驗資料的整理特征數(shù)的計算與第二章XYZ華中師范大學(xué)生命科學(xué)學(xué)院一、總體與樣本二、參數(shù)與統(tǒng)計數(shù)三、變量與資料四、因素與水平五、處理與重復(fù)六、效應(yīng)與互作七、誤差與錯誤八、準確性與精確性回顧:第一章緒論在生物學(xué)試驗及調(diào)查中,通過對某種具體事物或現(xiàn)象觀察獲得的結(jié)果稱為資料(data)。原始數(shù)據(jù)無序有序統(tǒng)計分析資料整理揭示事物本質(zhì)第一節(jié):試驗資料的搜集與整理一、試驗資料的類型二、試驗資料的搜集三、試驗資料的整理對試驗資料進行分類是統(tǒng)計歸納的基礎(chǔ)。數(shù)量性狀資料質(zhì)量性狀資料計數(shù)資料(非連續(xù)變量資料)計量資料(連續(xù)變量資料)變量定量變量定性變量連續(xù)變量非連續(xù)變量資料對資料進行分類整理是,必須堅持“同質(zhì)”的原則。
數(shù)量性狀(quantitativecharacter)是指能夠以計數(shù)和測量或度量的方式表示其特征的性狀。觀察測定數(shù)量性狀而獲得的數(shù)據(jù)就是數(shù)量性狀資料(dataofquantitativecharacter)。數(shù)量性狀資料的獲得有計數(shù)和測量兩種方式,因而數(shù)量性狀資料又分為計數(shù)資料和計量資料兩種。一、數(shù)量性狀資料指用計數(shù)方式獲得的數(shù)量性狀資料。在這類資料中,它的各個觀察值只能以整數(shù)表示,在兩個相鄰整數(shù)間不得有任何帶小數(shù)的數(shù)值出現(xiàn),因此各觀察值是不連續(xù)的,所以該類資料也稱為非連續(xù)變量資料或間斷變量資料或離散變量資料。例如,魚的尾數(shù)只可能是1,2,3,4,…,n1、計數(shù)資料(enumerationdata)指用測量或度量法獲得的數(shù)量性狀資料,即用度、量、衡等計量工具直接測定獲得的數(shù)據(jù)資料。其數(shù)據(jù)是用長度、重量、容積、溫度、濃度等來表示,要帶單位。這種資料的各個觀測值不一定是整數(shù),兩個相鄰的整數(shù)間可以有帶小數(shù)的任何數(shù)值出現(xiàn),其小數(shù)位數(shù)的多少由度量工具的精確度而定,它們之間的變異是連續(xù)性的,因此計量資料也稱為連續(xù)變量資料。例如,小麥的株高是8095cm,可以是86.5cm或86.54cm。2、計量資料(measurementdata)
質(zhì)量性狀(qualitativecharacter)是指能觀察到而不能直接測量的性狀。觀察質(zhì)量性狀而獲得的數(shù)據(jù)就是質(zhì)量性狀資料(dataofqualitativecharacter),也稱為屬性性狀資料。這類性狀本身不能直接用數(shù)值表示,要獲得這類性狀的數(shù)據(jù)資料,須對其觀察結(jié)果作數(shù)量化處理,其方法有以下兩種:1.統(tǒng)計次數(shù)法;2.評分法
二、質(zhì)量性狀資料
1、統(tǒng)計次數(shù)法(frequencycounting)株數(shù)頻率紅花26626.6%紫花49449.4%白花24024.0%總計1000100.0%這種由質(zhì)量性狀數(shù)量化得來的資料又叫次數(shù)資料。在一定的總體或樣本中,根據(jù)某一質(zhì)量性狀的類別統(tǒng)計其次數(shù),以次數(shù)作為質(zhì)量性狀的數(shù)據(jù)。例如,在研究豌豆的花色遺傳時,紅花與白花雜交,子二代中紅花、紫花和白花的株數(shù)分類統(tǒng)計如下表。對某一質(zhì)量性狀分成不同級別,對不同級別進行評分來表示其性狀差異的方法。從而將質(zhì)量性狀進行數(shù)量化,以便統(tǒng)計分析。例如,小麥感染銹病的嚴重程度可劃分為0級(免疫)、1級(高度抵抗)、2級(中度抵抗)、3級(感染)。
2、評分法(pointsystem)
兩種不同類型的資料相互間是有區(qū)別的,但有時可根據(jù)研究的目的和統(tǒng)計方法的要求將一種類型資料轉(zhuǎn)化成另一種類型的資料。例如,獸醫(yī)臨床化驗動物的白細胞總數(shù)得到的資料屬于計數(shù)資料,根據(jù)化驗的目的,可按白細胞總數(shù)過高、正?;蜻^低分為三組,清點各組的次數(shù),計數(shù)資料就轉(zhuǎn)化為質(zhì)量性狀次數(shù)資料。第一節(jié):試驗資料的搜集與整理一、試驗資料的類型二、試驗資料的搜集三、試驗資料的整理樣本資料的搜集(collection)是統(tǒng)計分析的第一步,也是全部統(tǒng)計工作的基礎(chǔ)。沒有數(shù)據(jù),就沒有發(fā)言權(quán)。調(diào)查試驗資料搜集的方法普查抽樣調(diào)查隨機抽樣簡單隨機抽樣分層隨機抽樣整體抽樣雙重抽樣順序抽樣典型抽樣二、試驗資料的搜集調(diào)查是對已經(jīng)存在的事情的資料按某種方案進行收集的方法。如地質(zhì)調(diào)查、水樣調(diào)查、河南省內(nèi)的昆蟲調(diào)查等等。資料的調(diào)查又可以分為兩種:普查和抽樣調(diào)查。1、普查(census)
是對研究對象的每一個個體逐一進行調(diào)查的方法。普查一般要求在一定的時間或范圍進行,要求準確和全面。如人口普查、土壤普查等等。普查可以為制定行業(yè)政策提供理論依據(jù)。消耗大量的人力、物力和時間一、調(diào)查(survey)人口普查在國家統(tǒng)一規(guī)定的時間內(nèi),按照統(tǒng)一的方法、統(tǒng)一的項目、統(tǒng)一的調(diào)查表和統(tǒng)一的標準時點,對全國人口普遍地、逐戶逐人地進行的一次性調(diào)查登記。人口普查工作包括對人口普查資料的搜集、數(shù)據(jù)匯總、資料評價、分析研究、編輯出版等全部過程,它是當今世界各國廣泛采用的搜集人口資料的一種最基本的科學(xué)方法,是提供全國基本人口數(shù)據(jù)的主要來源。從1949年至今,中國分別在1953年、1964年、1982年、1990年、2000年與2010年進行過六次全國性人口普查。抽樣調(diào)查是根據(jù)一定的原則從研究對象中抽取一部分具有代表性的個體進行調(diào)查的方法。通過抽樣將獲得的樣本資料進行統(tǒng)計處理,然后利用樣本的特征數(shù)對總體進行推斷。生物學(xué)研究中,進行普查的情況極少,多數(shù)情況下還是進行抽樣調(diào)查。2、抽樣調(diào)查(samplingsurvey)“你不必吃完整一頭牛,才知道它的肉是咬不動的?!?/p>
————SamelJohnson抽樣的方法有多種,主要有:隨機抽樣法、順序抽樣法和典型抽樣法,一般情況下在統(tǒng)計學(xué)中常常采用隨機抽樣的方法。要使樣本無偏差地估計總體,除了樣本容量要足夠大之外,重要的是采用科學(xué)的抽樣方法,抽取有代表性的樣本,取得完整而準確的數(shù)據(jù)資料。
背景法蘭克羅斯??偨y(tǒng)爭取連任、肯薩斯州州長蘭登為共和黨總統(tǒng)候選人美國經(jīng)濟正由大蕭條中逐漸恢復(fù)九百萬人失業(yè),于1929年至1933年間實際所得降低三分之一宣稱一:《文學(xué)文摘》認為蘭登將以57%對43%贏此選戰(zhàn)。此數(shù)字基于二百四十萬人之民意調(diào)查結(jié)果。宣稱二:蓋洛普民意測驗所采用分層抽樣調(diào)查了3000人,預(yù)測羅斯福將當選為美國的新一任總統(tǒng)。選舉結(jié)果羅斯福以62%對38%贏此選戰(zhàn)。為什么?抽樣的廣泛應(yīng)用緣于大選前的民意測驗《文學(xué)文摘》的取樣辦法:通過登記的電話簿發(fā)放問卷在當時僅有一千一百萬個部宅用電話,而全國人口超過1.2億。
可能問題的所在取樣偏差:Digest雜志的取樣中包含過多的富人,而該年貧富間選舉傾向相距極大
怎樣才能預(yù)測準?----樣本要有代表性。
1)隨機抽樣(randomsampling)又被稱為概率抽樣(probabilitysampling),必須滿足2個條件:一是總體中每個個體被抽中的機會是均等的;二是總體中任意一個個體是相互獨立的,是否被抽中不受其他個體的影響。(1)簡單隨機抽樣純隨機抽樣,是指從總體N個單位中任意抽取n個單位作為樣本,使每個可能的樣本被抽中的概率相等的一種抽樣方式。N方法:將總體內(nèi)所有抽樣單位全部編號,采用隨機方法確定被抽單位編號,這些編號所對應(yīng)的抽樣單位抽出來放在一起就構(gòu)成一個隨機樣本。適用對象:個體間差異較小、所需抽取的樣本單位較少的情況。4368652571421044038905138052511121014032905例2.1(2)分層隨機抽樣(stratifiedrandomsampling)分層隨機抽樣是一種混合抽樣。其特點是將總體按變異原因或程度劃分成若干區(qū)層,然后再用簡單隨機抽樣方法,從各區(qū)層按一定的抽樣分數(shù)抽選抽樣單位。抽樣分數(shù)(samplingfraction):一個樣本所包括抽樣單位數(shù)與其總體所包括的抽樣單位數(shù)的比值。方法:(1)將總體變異原因與程度劃分成若干區(qū)層,使得區(qū)層內(nèi)變異盡可能小或變異原因相同,而區(qū)層間變異比較大或變異原因不明。(2)在每一個區(qū)層按一定的抽樣分數(shù)獨立隨機抽樣。相等配置比例配置最優(yōu)配置如果各區(qū)層抽樣單位數(shù)相等,可采用相等配置如果各區(qū)層抽樣單位數(shù)不等,可按相應(yīng)的抽樣分數(shù),將欲抽取的抽樣單位總數(shù)分配到各區(qū)層根據(jù)各區(qū)層抽樣單位數(shù)、抽樣誤差和抽樣費用,確定各區(qū)層應(yīng)抽取的抽樣單位。在變異范圍較大的區(qū)層,抽樣分數(shù)應(yīng)大一些;在抽樣費用較高的區(qū)層,抽樣分數(shù)應(yīng)小一些。分層抽樣的抽樣單位數(shù)目配置方法(1)若總體內(nèi)各抽樣單位間的差異比較明顯,那么就可以把總體分為幾個比較同質(zhì)的區(qū)層,從而提高抽樣的準確度;(2)分層隨機抽樣既運用了隨機原理,也運用了局部控制原理,這樣不僅可以降低抽樣誤差,也可以運用統(tǒng)計方法來估算抽樣誤差;例2.2現(xiàn)有一塊麥田,其長勢呈單向趨向式變化,欲抽樣估產(chǎn),如何進行抽樣?好壞長勢(3)整體抽樣(clustersampling)整體隨機抽樣是把總體分成若干群,以群為單位,進行隨機抽樣,對抽到的樣本進行全面調(diào)查。如果總體內(nèi)主要變異來源明顯來自不同區(qū)層間,且每一區(qū)層均較大,則應(yīng)采用分層抽樣;若主要變異來源明顯來自區(qū)層內(nèi)各單位間,且每一區(qū)層所占面積較小,則宜用整體隨機抽樣。例如,估計麥田的害蟲啃食率,鋼材的合格率等;優(yōu)點1由于一個整體只要一個編號,因而減少了抽樣單位編號數(shù),且因調(diào)查單位數(shù)減少,工作方便;2與簡單隨機抽樣相比較,它常提供較為準確的總體估計值。3只要各群抽選單位數(shù)相等,整體抽樣也可提供總體平均數(shù)的無偏估計。(4)雙重抽樣(doublesampling)變量1變量2簡單變量復(fù)雜變量如果所研究的性狀是不容易觀察測定的,或必須有較多費用,或要求有精密設(shè)備、復(fù)雜計算過程與耗費較多調(diào)查時間的,或必須進行破壞性測定才能獲得觀察結(jié)果的,由于上述種種原因,直接調(diào)查研究這一類型性狀是有困難的。首先,抽取一個初步樣本(樣本量較?。?,并搜取一些簡單項目以獲得有關(guān)總體的信息:做一次隨機抽樣,調(diào)查y(復(fù)雜)和x(簡單)兩種性狀,從中求出y依x的回歸方程。這個樣本容量n不一定很大,但希望x和y有較大的幅度。然后,在此基礎(chǔ)上再進行深入抽樣。雙重抽其具體步驟雙重抽樣的優(yōu)點:1.對于復(fù)雜性狀的調(diào)查研究可以通過僅測定少量抽樣單位而獲得相應(yīng)于大量抽樣單位的精確度;2.當復(fù)雜性狀必須通過破壞性測定才能調(diào)查時,則僅有這種雙重抽樣方法可用。2)順序抽樣(ordinalsampling)順序抽樣又稱為系統(tǒng)抽樣、機械抽樣、等距抽樣它是按某種既定順序從總體(有限總體)中抽取一定數(shù)量的個體構(gòu)成樣本。這種抽樣方法可避免人們主觀偏見的影響,且使用簡便如果總體內(nèi)存在周期性變異,則可能會得到一個偏差很大的樣本,這種現(xiàn)象在統(tǒng)計上稱為系統(tǒng)誤差。由順序抽樣得到的樣本不能計算抽樣誤差,估計總體值。首先,先將總體從1~N相繼編號,計算抽樣距離K=N/n。式中N為總體單位總數(shù),n為樣本容量;然后,然后在1~K中抽一隨機數(shù)k1,作為樣本的第一個單位,接著取k1+K,k1+2K……,直至抽夠n個單位為止。順序抽其的基本做法是:將總體中的各單元先按一定的順序排列、編號,然后決定一個間隔,并在此間隔基礎(chǔ)上選擇被調(diào)查的單位個體例如:欲求100匹馬的體重,你抽取20匹馬作為樣本來稱重。1,K=100/20=5;2,15中隨機選擇3,接著抽取8(3+5),13(8+5),…,98為止。3)典型抽樣(typicalsampling)根據(jù)初步資料或經(jīng)驗判斷,有意識、有目的的選取一個典型群體作為代表(樣本)進行調(diào)查,以估計整個總體,這種抽樣方法就稱為典型抽樣。典型樣本代表著總體的絕大多數(shù),如果選擇合適,可得到可靠的結(jié)果,尤其從容量很大的總體中選取較小數(shù)量的抽樣單位時,往往采用這種抽樣方法。這種抽樣多用于大規(guī)模社會經(jīng)濟調(diào)查,而在總體相對較小或要求估算抽樣誤差時,一般不采用這種方法。試驗是通過處理獲得樣本資料的方法。采用合理的試驗設(shè)計能夠以較少的投入獲得較大的收獲,起到“事半功倍”的效果。常見的試驗設(shè)計方法有:對比設(shè)計、隨機區(qū)組設(shè)計、平衡不完全區(qū)組設(shè)計、裂區(qū)設(shè)計、拉丁方設(shè)計、正交設(shè)計、正交旋轉(zhuǎn)設(shè)計等等。試驗設(shè)計須遵循的三大原則是:隨機、重復(fù)和局部控制。二、試驗(experiment)第一節(jié):試驗資料的搜集與整理一、試驗資料的類型二、試驗資料的搜集三、試驗資料的整理三、資料的整理(一)原始資料(rawdata)的檢查與核對調(diào)查試驗原始數(shù)據(jù)核對:數(shù)據(jù)本身是否有錯誤檢查:取樣是否有差錯訂正:不合理數(shù)據(jù)的訂正檢查和核對原始資料的目的:確保原始資料的完整性和正確性。完整性:是指原始資料無遺缺或重復(fù)。正確性:是指原始資料的測量和記載無差錯或未進行不合理的歸并。檢查中要特別注意特大、特小和異常數(shù)據(jù)(可結(jié)合專業(yè)知識作出判斷)。對于有重復(fù)、異?;蜻z漏的資料,應(yīng)予以刪除或補齊;對有錯誤、相互矛盾的資料應(yīng)進行更正,必要時進行復(fù)查或重新試驗。不必分組直接進行統(tǒng)計分析小樣本n<30將數(shù)據(jù)分成若干組以便統(tǒng)計分析大樣本n≥30次數(shù)分布表次數(shù)分布圖統(tǒng)計分析樣本大小整理的步驟(二)次數(shù)(頻數(shù))分布表統(tǒng)計表的結(jié)構(gòu)和要求:結(jié)構(gòu)簡單,層次分明,安排合理,重點突出,數(shù)據(jù)準確??倷M標目(或空白)縱標目1縱標目2……橫標目1橫標目2數(shù)字資料……表號標題1、標題簡明扼要、準確地說明表的內(nèi)容,有時須注明時間、地點。2、標目標目分橫標目和縱標目兩項。橫標目列在表的左側(cè),縱標目列在表的上端,標目需注明計算單位,如%、kg、cm等等。3、數(shù)字一律用阿拉伯數(shù)字,數(shù)字以小數(shù)點對齊,小數(shù)位數(shù)一致,無數(shù)字的用“─”表示,數(shù)字是“0”的,則填寫“0”。4、線條多用三線表,上下兩條邊線略粗。1.計數(shù)資料的整理采用單項式分組法進行整理。特點:用樣本變量自然值進行分組,每組用一個或幾個變量值來表示。1712141314121114131614141317151414161414151514141411131214131413151413151413141516161413141513151315151514141614151713161416151314141414161213121412151615161413151714131412171415表2-2
100只來亨雞每月的產(chǎn)蛋數(shù)11~17來亨雞每月產(chǎn)蛋數(shù)變動范圍:分為7組統(tǒng)計各組次數(shù)計算頻率和累積頻率制表表2-3
100只來亨雞每月產(chǎn)蛋數(shù)次數(shù)分布表每月產(chǎn)蛋數(shù)次數(shù)頻率累積頻率FrequencyPercentCumulativePercent1120.020.021270.070.0913190.190.2814350.350.6315210.210.8416110.110.951750.051.001自然值進行分組,最大值17,最小值11。2數(shù)據(jù)主要集中在14,向兩側(cè)分布逐漸減少。表2-4小麥品種300個麥穗穗粒數(shù)的次數(shù)分布表每穗粒數(shù)次數(shù)頻率累積頻率FrequencyPercentCumulativePercent
18-2230.01000.010023-27180.06000.0700
28-32
380.12670.1967
33-37510.17000.3667
38-42680.22670.5934
43-47530.17660.7700
48-52410.13670.906753-57220.07330.980058-6260.02001.000045組?9組2計量資料的整理計量資料一般采用組距式(組限式)分組法。全距組數(shù)組距組限歸組制表表2-5
150尾鰱魚體長(cm)56496278414765455855596569627352526051627866455858605752514856465870727677566658585553506563576585
5958546248634661625738585254556652485675725737467656637565485255546271486258465738545365428366485358464626367655605458495256826365547565864677706940565861545352435264585854785256615954596468515968635263(1)求全距,又稱極差(range):R=Xmax-Xmin
=85-37=48(cm)(2)確定組數(shù)和組距(classboundary)組數(shù)是根據(jù)樣本觀測數(shù)的多少及組距的大小來確定的,同時考慮到對資料要求的精確度以及進一步計算是否方便。組數(shù)組距多小統(tǒng)計數(shù)精確,計算不方便少大統(tǒng)計數(shù)不精確,計算方便組數(shù)的確定樣本容量分組數(shù)
30~60
5~860~100
7~10100~200
9~12200~500
10~18>500
15~30表2-6樣本容量與分組數(shù)的關(guān)系組距的確定即每組內(nèi)的上下限范圍。組距=全距/組數(shù)=48/10=4.810組5cm(3)確定組限(classlimit)和組中值(classmidvalue)組限
是指每個組變量值的起止界限。上限下限組中值是兩個組限的中間值。組中值=下限+上限2=組距2下限+=組距2上限-第一組的組中值最好接近于資料的最小值表2-5
150尾鰱魚體長(cm)56496278414765455855596569627352526051627866455858605752514856465870727677566658585553506563576585
5958546248634661625738585254556652485675725737
467656637565485255546271486258465738545365428366485358464626367655605458495256826365547565864677706940565861545352435264585854785256615954596468515968635263最小一組的下限必須小于資料中的最小值,最大一組的上限必須大于資料中的最大值;組限取到10分位或5分位上,計算方便;臨界值就高不就低。35~,40~,45~,…,85~。(4)歸組確定好組數(shù)和各組上下限后,可按原始資料中各觀測值的次序,將各個數(shù)值歸于各組,計算各組的觀測數(shù)次數(shù)、頻率、累積頻率,制成一個次數(shù)分布表。計數(shù)的方法卡片法唱票法畫“正”字畫””表2-6
150尾鰱魚體長的次數(shù)分布表
組限組中值次數(shù)頻率累積頻率FrequencyPercentCumulativePercent35~37.530.02000.020040~42.540.02670.046745~47.5170.11330.160050~52.5280.18670.3467
55~57.540
0.26660.613360~62.5250.16670.780065~67.5170.11330.897370~72.560.04000.933375~77.570.04670.980080~82.520.01330.993385~87.510.00671.0000(三)次數(shù)分布圖和頻率分布圖定義:把次數(shù)(頻率)分布資料畫成統(tǒng)計圖形。特點:直觀、形象包括:條形圖、餅圖、直方圖、多邊形圖和散點圖統(tǒng)計圖繪制的基本要求:(1)標題簡明扼要,列于圖的下方;(2)縱、橫兩軸應(yīng)有刻度,注明單位;(3)橫軸由左至右,縱軸由下而上,數(shù)值由小到大;圖形長寬比例約5:4或6:5;(4)圖中需用不同顏色或線條代表不同事物時,應(yīng)有圖例說明。圖2.2月產(chǎn)蛋數(shù)次數(shù)分布柱形圖圖2.2月產(chǎn)蛋數(shù)頻率分布柱形圖條形圖(barchart),又稱柱形圖計數(shù)資料特點:柱形之間要間隔一定的距離屬性資料2餅圖(piechart)圖2-3來亨雞月產(chǎn)蛋次數(shù)分布圖計數(shù)資料屬性資料圖2.3鰱魚體長次數(shù)分布圖3直方圖(histogram),又稱矩形圖計量資料354045505560657075808590特點:各組之間沒有距離組中值4多邊形圖(polygon),又稱折線圖(broken-linechart)計量資料圖2.3鰱魚體長次數(shù)分布圖組中值5散點圖(scatter)來亨雞月產(chǎn)蛋數(shù)次數(shù)分布散點圖計數(shù)資料5散點圖(scatter)計量資料圖2.3鰱魚體長次數(shù)分布散點圖學(xué)會函數(shù):max,min,sum,countif,countifs等;Excel中次數(shù)分布圖表的制作Previousreview原始數(shù)據(jù)無序有序統(tǒng)計分析資料整理調(diào)查試驗資料搜集的方法數(shù)量性狀資料質(zhì)量性狀資料計數(shù)資料(非連續(xù)變量資料)計量資料(連續(xù)變量資料)變量定量變量定性變量連續(xù)變量非連續(xù)變量資料不必分組直接進行統(tǒng)計分析小樣本n<30將數(shù)據(jù)分成若干組以便統(tǒng)計分析大樣本n≥30次數(shù)分布表次數(shù)分布圖統(tǒng)計分析樣本大小離散數(shù)據(jù):單項式分組法連續(xù)數(shù)據(jù):組距分組法Previousreview第二節(jié)試驗資料特征數(shù)的計算集中性
是變量在趨勢上有著向某一中心聚集,或者說以某一數(shù)值為中心而分布的性質(zhì)。離散性
是變量有著離中分散變
異的性質(zhì)。變量的分布具有兩種明顯的基本特征:集中性和離散性。集中性離散性平均數(shù)變異數(shù)算術(shù)平均數(shù)中位數(shù)眾數(shù)幾何平均數(shù)極差方差標準差變異系數(shù)調(diào)和平均數(shù)特征數(shù)一、平均數(shù)平均數(shù)是統(tǒng)計學(xué)中最常用的統(tǒng)計量,是計量資料的代表值,表示資料中觀測數(shù)的中心位置,并且可作為資料的代表與另一組相比較,以確定二者的差異情況。(一)平均數(shù)的種類:算術(shù)平均數(shù)中位數(shù)眾數(shù)幾何平均數(shù)1.算術(shù)平均數(shù)(arithmeticmean)定義:總體或樣本資料中所有觀測數(shù)的總和除以觀測數(shù)的個數(shù)所得的商,簡稱平均數(shù)、均數(shù)或均值??傮w:樣本:樣本統(tǒng)計量的抽樣分布-SamplingdistributionSimmental如果抽樣是隨機的,樣本平均數(shù)也是隨機變量第二節(jié)試驗資料特征數(shù)的計算總體樣本1樣本2樣本m平均數(shù)的抽樣分布n
統(tǒng)計量?樣本平均數(shù)的分布總體樣本1樣本2樣本mn
統(tǒng)計量?正態(tài)總體樣本標準差的分布標準差的抽樣分布2.中位數(shù)(median)資料中所有觀測數(shù)依大小順序排列,居于中間位置的觀測數(shù)稱為中位數(shù)或中數(shù)。中位數(shù)將該組數(shù)值分為兩半,理論上有50%的變量小于md,,有50%的變量值大于
md,故又稱百分之五十位數(shù),記為P50。Md1、當觀測值個數(shù)n為奇數(shù)時,(n+1)/2位置的觀測值,即x(n+1)/2為中位數(shù):
Md=
2、當觀測值個數(shù)為偶數(shù)時,n/2和(n/2)+1位置的兩個觀測值之和的1/2為中位數(shù),即:
高平常測驗:
0.2~0.25招生考試或水平考試:0.3~0.4m1mdm2區(qū)分度=m1Tm2T-m2-m1T=試卷區(qū)分度3.眾數(shù)(mode)資料中出現(xiàn)次數(shù)最多的那個觀測值或次數(shù)最多一組的組中值或中點值。注意:(1)對于某些數(shù)據(jù)而言,如均勻分布,并不存在眾數(shù);(2)對于某些數(shù)據(jù)存在兩個或兩個以上的眾數(shù);(3)主要用來描述頻率分布。M04.幾何平均數(shù)(geometricmean)資料中有n個觀測數(shù),其乘積開n次方所得數(shù)值。G適用范圍:幾何平均數(shù)適用于變量x為對數(shù)正態(tài)分布,經(jīng)對數(shù)轉(zhuǎn)換后呈正態(tài)分布的資料。G=(二)算術(shù)平均數(shù)的計算方法:直接計算法減去常數(shù)法加權(quán)平均法1、直接計算法
樣本含量n<30以下、未經(jīng)分組資料平均數(shù)的計算。例:隨機抽取20株小麥測量它們的株高(cm)分別為:
79858486848382838384818081828182828280
求小麥的平均株高。若變量xi的值都比較大(或都比較?。?,且接近某一常數(shù)a時,可將它們的值都減去(或加上)常數(shù)a,得到一組新的數(shù)據(jù),計算其平均數(shù),再重新加上(或減去)常數(shù)a。例:設(shè)a為80(cm)則有:
798584868483828383
2-154643233818081828182828280
4101212220“-80”2、減去(加上)常數(shù)法通常對樣本容量n≥30且已分組的資料,多在次數(shù)分布表的基礎(chǔ)上采用加權(quán)法計算平均數(shù)。第i組的次數(shù)fi是權(quán)衡第i個自然值xi在資料中所占比重大小的數(shù)量,因此將fi
稱為是xi的“權(quán)數(shù)”,加權(quán)法也由此而得名。若為計數(shù)資料,且不分組,且,此時直接用自然值乘以次數(shù)來計算,即3、加權(quán)平均法例:表2-8株高x次數(shù)ffx791798021608132438264928332498432528518586186式中:—
第i組的組中值;
—
第i組的次數(shù);
—
分組數(shù)
若為分組資料,則用每組組中值乘以該組次數(shù)之和再除以總次數(shù)來計算,計算公式為:例:將100頭長白母豬的仔豬一月窩重(單位:kg)資料整理成次數(shù)分布表如下,求其加權(quán)平均數(shù)。
表100頭長白母豬仔豬一月窩重次數(shù)分布表組別組中值(x)次數(shù)(f)fx10~1534520~25615030~352691040~4530135050~5524132060~65852070~753225合計1004520即這100頭長白母豬仔豬一月齡平均窩重為45.2kg
計算若干個來自同一總體的樣本平均數(shù)的平均數(shù)時,如果樣本含量不等,也應(yīng)采用加權(quán)法計算。設(shè)是n1個數(shù)的平均數(shù),是n2個數(shù)的平均數(shù),那么全部n1+n2個數(shù)的算術(shù)平均數(shù)是:
例:某牛群有黑白花奶牛1500頭,其平均體重為750kg,而另一牛群有黑白花奶牛1200頭,平均體重為725kg,如果將這兩個牛群混合在一起,其混合后平均體重為多少?此例兩個牛群所包含的牛的頭數(shù)不等,要計算兩個牛群混合后的平均體重,應(yīng)以兩個牛群牛的頭數(shù)為權(quán)數(shù),求兩個牛群平均體重的加權(quán)平均數(shù),即:(三)算術(shù)平均數(shù)的重要性質(zhì)算術(shù)平均數(shù)與樣本內(nèi)的每個值都相關(guān),它的大小受每個值的影響;若每個Xi都乘以相同的數(shù)k,則原平均數(shù)亦應(yīng)乘以k;若每個Xi都加上相同的數(shù)a,則原平均數(shù)亦可直接加上a。離均差之和等于零。離均差平方和最小。(四)算術(shù)平均數(shù)的作用(1)指出一組數(shù)據(jù)資料內(nèi)變量的中心位置,標志著資料所代表性狀的數(shù)量水平和質(zhì)量水平。(2)作為樣本或資料的代表數(shù)與其他資料進行比較。(3)通過平均數(shù)提供計算樣本變異數(shù)的基本數(shù)據(jù)。(4)用樣本的平均數(shù)估計總體平均數(shù)。
用平均數(shù)作為樣本的代表,其代表性的強弱受樣本資料中各觀測值變異程度的影響。如果各觀測值變異小,則平均數(shù)對樣本的代表性強;如果各觀測值變異大,則平均數(shù)對樣本的代表性弱。三組同年齡、同性別兒童體重(kg)的數(shù)據(jù):
I組:2628303234
II組:2025303540
III組:2327303337三組的平均數(shù)均為30,變異如何體現(xiàn)?例:
集中趨勢是數(shù)據(jù)分布的一個重要特征,但單有集中趨勢還不能很好地描述數(shù)據(jù)的分布規(guī)律。僅用平均數(shù)對一個資料的特征作統(tǒng)計描述是不全面的,還需要引入一個表示資料中觀測值變異程度大小的統(tǒng)計量。
變異性指標二、變異數(shù)變異數(shù)的種類:極差方差標準差變異系數(shù)(一)極差(全距,range)極差是數(shù)據(jù)分布的兩端變異的最大范圍,即樣本變量值最大值和最小值之差,用R表示。它是資料中各觀測值變異程度大小的最簡便的統(tǒng)計量。R=max{x1,x2,……,xn}-min{x1,x2,……,xn}={x1,x2,……,xn}max-{x1,x2,……,xn}min表2-5
150尾鰱魚體長(cm)56496278414765455855596569627352526051627866455858605752514856465870727677566658585553506563576585
5958546248634661625738585254556652485675725737
467656637565485255546271486258465738545365428366485358464626367655605458495256826365547565864677706940565861545352435264585854785256615954596468515968635263R=85-37=48(cm)三組同年齡、同性別兒童體重(kg)的數(shù)據(jù):
I組:26283032348
II組:202530354020
III組:232730333714例:極差簡單明了當資料很多而又要迅速對資料的變異程度作出判斷時,可以利用極差。除最大、最小值,不能反映組內(nèi)其他數(shù)據(jù)的變異。樣本較大時抽到較大值與較小值的可能性也較大,因而樣本極差也較大,故樣本含量相差較大時,不宜用極差來比較分布的離散度。優(yōu)點缺點用途極差如何準確地表示樣本內(nèi)各個觀測值的變異程度平均數(shù)可以求出各個觀測值與平均數(shù)的離差,即離均差。離均差可以反映出一個觀測值偏離平均數(shù)的性質(zhì)和程度。離均差之和為零。?圖1圖2圖3圖4平方和(SS)平方和的平均數(shù)樣本量越大,????會越大!(二)方差(Variance)樣本總體?現(xiàn)有一N=3的近似正態(tài)總體,具有變量3,4,5,可以求出μ=4,
σ
2=0.6667,σ
=0.8165。現(xiàn)以n=2作獨立的有放回式抽樣。總共可得到Nn=32=9個樣本樣本編號樣本值
xs2s13,33.00.00.000023,43.50.250.533,54.01.01.044,33.50.250.554,44.00.00.064,54.50.250.575,34.01.01.085,44.50.250.595,55.00.00.0Σ36.03.04.0
平均
4.00.33330.4444
μ=4σ2=0.6667σ
=0.8165自由度(degreeoffreedom,df)自由度指當以樣本的統(tǒng)計量來估計總體的參數(shù)時,樣本中可以自由變動的變量的個數(shù)。自由度=樣本個數(shù)-樣本數(shù)據(jù)受約束條件的個數(shù)在總體平均數(shù)未知時,要計算標準差就必須先知道樣本平均數(shù),而樣本平均數(shù)和n都知道的情況下,數(shù)據(jù)的總和就是一個常數(shù)了。所以,“最后一個”樣本數(shù)據(jù)就不可以變了,因為它要是變,總和就變了,而這是不允許的。所以,為了避免使用有bias的estimator,我們通常使用它的修正值S2:
正態(tài)總體中樣本方差的分布(三)標準差(standarddeviation,Sd)樣本總體樣本方差帶有原觀測單位的平方單位,在僅表示一個資料中各觀測值的變異程度而不作其它分析時,常需要與平均數(shù)配合使用,這時應(yīng)將平方單位還原,即求出樣本方差的平方根。x=411x2=18841X’=6X’2=76表2-89名男子前臂長(cm)標準差計算前臂長x2x’=x-45x’245202500421764-39441936-11411681-4
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年邊緣計算設(shè)備服務(wù)協(xié)議
- 基于區(qū)塊鏈的VRAR版權(quán)數(shù)據(jù)動態(tài)認證與安全防護
- 基于遙感的水分脅迫評估
- 塑料泡沫回收利用
- 第三單元 第15課時 二次函數(shù)的表達式(含平移)
- 修改題目及答案
- 2026 年中職經(jīng)濟觀測技術(shù)(經(jīng)濟觀測基礎(chǔ))試題及答案
- 基于AIGC技術(shù)融合的湖北戲劇文化展示空間設(shè)計探索
- 辦公大樓外墻清洗合同協(xié)議(高空作業(yè)2025年)
- 2025年河北省公需課學(xué)習(xí)-《中華人民共和國立法法》修訂解讀
- 客戶開發(fā)與客戶維護課件
- STM32理論課件教學(xué)課件
- 交通運輸行業(yè)數(shù)據(jù)集建設(shè)實施方案
- 測繪安全培訓(xùn)課件圖片
- 民族團結(jié)教學(xué)課件
- 嚴格電話使用管理辦法
- (2025年標準)簡單砌石墻協(xié)議書
- (2025年標準)鐵路實習(xí)協(xié)議書
- 重慶市涪陵榨菜集團股份有限公司營運能力分析
- 與4s店二手車合作合同協(xié)議
- 《中華民族共同體概論》考試復(fù)習(xí)題庫(含答案)
評論
0/150
提交評論