第二講-數(shù)據(jù)獲取處理.ppt_第1頁(yè)
第二講-數(shù)據(jù)獲取處理.ppt_第2頁(yè)
第二講-數(shù)據(jù)獲取處理.ppt_第3頁(yè)
第二講-數(shù)據(jù)獲取處理.ppt_第4頁(yè)
第二講-數(shù)據(jù)獲取處理.ppt_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余57頁(yè)可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、樣本并非總是與總體一致。這樣我們就需要研究如何抽取樣本?什么樣的樣本較為合適?同時(shí),還要考慮如何有效的處理和分析數(shù)據(jù),如何設(shè)計(jì)最佳試驗(yàn)方案以減少導(dǎo)致錯(cuò)誤結(jié)論的風(fēng)險(xiǎn)。應(yīng)用數(shù)學(xué)理論計(jì)算出出現(xiàn)這種風(fēng)險(xiǎn)可能性的大小,描述這種可能性大小的數(shù)量指標(biāo)稱為概率。運(yùn)用概率論來研究統(tǒng)計(jì)學(xué)的學(xué)科稱為數(shù)理統(tǒng)計(jì)。,1. 怎樣獲取數(shù)據(jù),描述性統(tǒng)計(jì)單純對(duì)一組數(shù)據(jù)的面貌特征進(jìn)行分析研究,推斷性統(tǒng)計(jì)選取樣本,通過對(duì)樣本的描述來推斷整體的特性,統(tǒng)計(jì)方法,我們把搜集記錄下來的數(shù)量依據(jù)稱為數(shù)據(jù),從總體中抽出部分樣本展開調(diào)查來獲取數(shù)據(jù),統(tǒng)計(jì)學(xué)上稱此為抽樣調(diào)查。,所考慮對(duì)象的全體統(tǒng)計(jì)學(xué)上稱為總體或母體,其中每一個(gè)對(duì)象稱為個(gè)體,而從總體中

2、抽取的一部分個(gè)體稱為樣本或子樣,樣本中所含個(gè)體的數(shù)目稱為樣本容量,通常用字母n表示。(樣本分為大樣本(n30)與小樣本(n30),樣本容量的選取取決于實(shí)驗(yàn)的條件和精度,樣本越大,反映總體的信息越充足,但計(jì)算量也越大,故樣本容量最好適當(dāng)。),能充分反映總體的信息 每個(gè)個(gè)體被抽到的可能性相同,個(gè)體與個(gè)體之間互不影響,數(shù)學(xué)上稱為個(gè)體互相獨(dú)立 每個(gè)個(gè)體具有和總體相同的本質(zhì)特性樣本具有某種代表性,數(shù)學(xué)上稱此為與總體同分布。,抽樣調(diào)查要求樣本具有的兩個(gè)特征,滿足以上兩條的樣本稱為隨機(jī)樣本;從總體中抽出一個(gè)隨機(jī)樣本,稱為隨機(jī)抽樣,抽 樣 調(diào) 查,隨機(jī)抽樣 分層抽樣 等距抽樣,隨機(jī)數(shù)表法,抽簽法,有放回抽樣

3、無放回抽樣,簡(jiǎn)單隨機(jī)抽樣 1、隨機(jī)數(shù)表法 隨機(jī)數(shù)表是根據(jù)數(shù)理統(tǒng)計(jì)的原理,由許多隨機(jī)數(shù)字排列起來的數(shù)字表,表中數(shù)字的構(gòu)造方法是:利用計(jì)算機(jī)使0,1,,9十個(gè)數(shù)字號(hào)碼中每次自動(dòng)出現(xiàn)一個(gè)號(hào)碼,用這種方式得到一串?dāng)?shù),編排成組(一般四個(gè)數(shù)為一組) 2、抽簽法 抽簽法是將所有個(gè)體編號(hào)打亂次序用類似于抽簽的方法從中來獲取隨機(jī)樣本,分層抽樣是按一定標(biāo)志把總體內(nèi)的每個(gè)個(gè)體劃分為若干層,使相互差異小的個(gè)體集中在一層內(nèi),從而可以縮小各層內(nèi)個(gè)體之間的差異程度,使樣本中各個(gè)個(gè)體在總體中散布更均勻。 分層抽樣時(shí),從各層抽取的樣本個(gè)數(shù)可以與各層個(gè)體數(shù)成比例。,具體做法是:把總體中 個(gè)個(gè)體劃分為 個(gè)不相重疊的部分,使每一部分

4、包含的個(gè)體數(shù)分別為 ,且 ,則第 層所含的樣本個(gè)體數(shù) 為 (1.1.1),其 中 為樣本容量, 為第 層的層權(quán)數(shù)。 例如,要從某校210名7至9歲兒童中抽出三分之一進(jìn)行智力測(cè)驗(yàn)。已知該校7歲兒童有63人,8歲兒童有112人,9歲兒童有35人,現(xiàn)在用分層抽樣法確定各年齡組兒童入數(shù)。由(1.1.1)式得 (7歲組)=(210/3)(63/210)=21(人), (8歲組)=(210/3)(112/210)=37(人), (9歲組)=(210/3)(35/210)=12(人)。,等距抽樣法:把所有個(gè)體按順序排列起來,然后以確定的相等距離抽取隨機(jī)樣本,有放回抽樣 從總體中抽出一個(gè)個(gè)體記下其特征后再放回

5、總體,然后進(jìn)行第二次抽樣,無放回抽樣 從總體中抽出一個(gè)個(gè)體后不再放回去,再抽第二次,抽樣,當(dāng)總體內(nèi)個(gè)體數(shù)目較多時(shí),這兩種抽樣方式?jīng)]有本質(zhì)區(qū)別。教育統(tǒng)計(jì)中一般采用無放回抽樣,但由于有放回抽樣能簡(jiǎn)化某些計(jì)算,故當(dāng)總體內(nèi)個(gè)體數(shù)目較多時(shí),我們可以看做是有放回抽樣。通過抽樣獲取數(shù)據(jù)離不開求實(shí)的科學(xué)態(tài)度和認(rèn)真的工作作風(fēng),數(shù)據(jù)如果不準(zhǔn)確、不完整、或有遺漏,不僅數(shù)據(jù)本身失去價(jià)值,而且以此進(jìn)行分析推斷還會(huì)導(dǎo)致錯(cuò)誤的結(jié)論。,2. 頻數(shù),數(shù)據(jù)的基本類型,離散型數(shù)據(jù) 取整數(shù)值的數(shù)量指標(biāo),是計(jì)數(shù)性的,數(shù)據(jù)之間不能再劃分為更小的單位,連續(xù)型數(shù)據(jù) 經(jīng)過度量和測(cè)定而得到的數(shù)量指標(biāo)。這類數(shù)據(jù)取值可以連續(xù)變化,盡管數(shù)據(jù)本身仍然是

6、數(shù)軸上的點(diǎn),但數(shù)據(jù)與數(shù)據(jù)之間可以無限細(xì)分,也就是數(shù)據(jù)的取值范圍可以充滿一個(gè)區(qū)間,頻數(shù)分布表示方法,頻數(shù)分布表,離散型數(shù)據(jù)的頻數(shù)分布表,連續(xù)型數(shù)據(jù)的頻數(shù)分布表,累積頻數(shù)分布表,頻數(shù)分布圖,累積頻數(shù)分布曲線圖,一、頻數(shù)分布表 一組數(shù)據(jù)中每個(gè)數(shù)據(jù)出現(xiàn)的次數(shù)稱為這個(gè)數(shù)據(jù)的頻數(shù)。按頻數(shù)分類列出的一覽表稱為頻數(shù)分布表。 1、離散型數(shù)據(jù)的頻數(shù)分布表 例1 某幼兒園測(cè)定5歲組兒童智力,共7個(gè)項(xiàng)目。全園30名5歲兒童中有1人答對(duì)1項(xiàng)、3人答對(duì)2項(xiàng)、4人答對(duì)3項(xiàng)、8人答對(duì)4項(xiàng)、7人答對(duì)5項(xiàng)、5人答對(duì)6項(xiàng)、2人答對(duì)7項(xiàng)。我們列出頻數(shù)分布表如下:,表1.1 30名兒童智力測(cè)定分布,2、連續(xù)型數(shù)據(jù)的頻數(shù)分布表 例2 附

7、中初二年級(jí)實(shí)驗(yàn)班40名同學(xué)期末數(shù)學(xué)統(tǒng)考測(cè)驗(yàn)得分如下:,這一組數(shù)據(jù)中最大值是97.5,最小值是52.0,可見數(shù)據(jù)分布很散,項(xiàng)數(shù)較多。因此我們將它們分組,組的范圍稱為組區(qū)間,每組的起止分別稱為組下限和組上限,每組的大小稱為組距,各組組距一般是相同的。 分組的原則是:100個(gè)以上的數(shù)據(jù)分為1220組,數(shù)據(jù)較少則分為810組。組距為便于計(jì)算一組取為3、5、10較為合適,本例分為10組,組距取5。我們將組號(hào)放在表的第一列,組區(qū)間放在第二列,組中值記為 ,放在第三列, (上限+下限),然后數(shù)出各組的頻數(shù)放在第四列。第二組為(56.5561.55),我們可以提高一位分點(diǎn)或降低一位分點(diǎn),通常我們?nèi)《恍?shù),因

8、此61.5應(yīng)放在第二組。,有了組頻數(shù),當(dāng)然也可以算出組頻率(每組組頻數(shù)與總頻數(shù)之比),為了以后的方便,我們把頻率放在表的最后一列(表1.2),我們從中可以看出數(shù)據(jù)所呈現(xiàn)的統(tǒng)計(jì)規(guī)律性。 表1.2 附中初二年級(jí)實(shí)驗(yàn)班期末數(shù)學(xué)統(tǒng)考測(cè)驗(yàn)成績(jī)分布,綜上,對(duì)于分組數(shù)據(jù)編制頻數(shù)分布表歸納為以下幾步: 第一步 找極差 , 最大值-最小值,由 大致了解數(shù)據(jù)的差異范圍。 第二步 定組距 ,一般為便于計(jì)算, 多取為2、3、5、10等。 第三步 定組數(shù) ,一般數(shù)據(jù)在100個(gè)以上,分為1220組,數(shù)據(jù)較少則分為8-10組,也可以借用下面公式確定近似組數(shù)。 組數(shù) ,其中方括號(hào)為 的整數(shù)部分, 為組距, 例2中, 。 第四

9、步 定分點(diǎn),通常使分點(diǎn)比原測(cè)量精度多一位或少一位,要注意的是最低組的上、下限應(yīng)能包括最小值,最高組的上、下限應(yīng)能包括最大值。 第五步 數(shù)頻數(shù),根據(jù)組限歸類,數(shù)出全體數(shù)據(jù)落入每一組的個(gè)數(shù)。 頻數(shù)分布表也有其缺點(diǎn),我們?cè)谙乱还?jié)會(huì)看到計(jì)算描述一組數(shù)據(jù)特征的數(shù)據(jù)依賴于各組的組中值,因而出現(xiàn)了誤差。但是在理論上我們一般假定各組內(nèi)頻數(shù)分布是均勻的,因而各組的誤差會(huì)相互抵償,使總誤差減少。,二、累積頻數(shù)分布表 累積頻數(shù)分布表的列法是在頻數(shù)分布表上添加一列累積頻數(shù)。具體方法是:從數(shù)值最小的一組開始,逐組累加頻數(shù)至數(shù)值最大的一組,最后累加的頻數(shù)與總頻數(shù)相等。把累積頻數(shù)除以總頻數(shù),得到相應(yīng)的累積頻率;把累積頻率乘

10、以100,得到相應(yīng)的累積百分比。下表是例2中數(shù)據(jù)的累積頻數(shù)、累積頻率,累積百分比分布表。,表1.3 附中初二年級(jí)實(shí)驗(yàn)班期末數(shù)學(xué)統(tǒng)考累積頻數(shù)分布表,三、頻數(shù)分布圖 通常我們用頻數(shù)分布圖來表示數(shù)據(jù)的規(guī)律性,常見的頻數(shù)分布圖為直方圖。 直方圖是在橫軸上標(biāo)出組距,縱軸上標(biāo)出頻率與組距之比,然后以每組組距為底邊,相應(yīng)的頻率與組距之比為高作矩形。顯然,每個(gè)矩形的面積恰好等于數(shù)據(jù)落在該矩形所對(duì)應(yīng)組內(nèi)的頻率,這樣所有矩形面積總和為總頻率1。直方圖是利用各個(gè)矩形的高低來描繪頻數(shù)分布情況的。圖1.1是例2中數(shù)據(jù)的直方圖,圖中斷裂號(hào)表示由0至51.55之間的距離是縮短了的。有時(shí)為了簡(jiǎn)單,橫軸上只標(biāo)出組中值,包括組中

11、值在內(nèi)的區(qū)間即為本組組距。,圖1.4 初二年級(jí)實(shí)驗(yàn)班期末數(shù)學(xué)統(tǒng)考測(cè)驗(yàn)成績(jī)直方圖,四、累積頻數(shù)分布曲線圖 累積頻數(shù)分布曲線圖橫軸取每組上限,縱軸取累積頻數(shù),在相交處畫點(diǎn),順次連續(xù)各點(diǎn)成一上升曲線,又稱S型或肩型曲線,曲線的最低點(diǎn)應(yīng)與基線相接。以累積頻率為縱軸上點(diǎn),重復(fù)上述過程則得到累積頻率分布曲線圖。再把累積頻率乘以100,則得到累積百分比,以累積百分比為縱軸上點(diǎn),重復(fù)上述過程,則得到累積百分比分布曲線圖。 ( 為了方便,一般把累積頻數(shù)分布曲線和累積百分比分布曲線放在一張圖上,左邊縱軸為累積頻數(shù),右邊縱軸為累積百分比。作圖時(shí)要求兩縱軸平行等長(zhǎng),左邊按總頻數(shù)劃分,右邊因?yàn)槔鄯e百分比最大是100,故

12、劃分為100等份。圖1.3是例2中數(shù)據(jù)的累積頻數(shù),累積百分比分布曲線圖。),圖1.3 累積頻數(shù)、累積百分比曲線圖,在教育考試等值研究中,運(yùn)用累計(jì)百分比曲線圖可以對(duì)兩次考試進(jìn)行等值對(duì)應(yīng),這種等值方法稱為百分位等值,這種曲線分布圖有一定的實(shí)用價(jià)值,可以從圖中插值,回答小于或大于某值的頻數(shù)有多少,或回答占總頻數(shù)百分之幾的頻數(shù)小于或大于某值。例如橫軸上給出81.55分,可以從此點(diǎn)向上作垂直于橫軸的直線和曲線相交于一點(diǎn),再由這一點(diǎn)向右作平行于橫軸的直線與縱軸右側(cè)交于一點(diǎn)為60,這表明81.55分位于百分之六十的位置上,說明有百分之六十的學(xué)生得分低于81.55分。反之,如果知道右側(cè)縱軸上的百分位置,在橫軸

13、上也能找到相應(yīng)的分?jǐn)?shù),這個(gè)分?jǐn)?shù)在下一節(jié)稱為百分位數(shù),例如,如有百分之六十的學(xué)生成績(jī)?cè)谀硨W(xué)生之下,那么該生得分大約為81.55分。,3. 集中量數(shù)(1),平均數(shù),算術(shù)平均數(shù),加權(quán)平均數(shù),幾何平均數(shù),3. 集中量數(shù)(1),一、平均數(shù) 平均數(shù)表示一組數(shù)據(jù)集中的位置,又稱為均值。 1、算術(shù)平均數(shù) 算術(shù)平均數(shù)是所有數(shù)據(jù)之和除以數(shù)據(jù)個(gè)數(shù)的商,記為. 讀為“ 杠”。 不分組數(shù)據(jù)求算術(shù)平均數(shù) (1.3.1) 其中 為第 個(gè)數(shù)據(jù) 為數(shù)據(jù)總個(gè)數(shù)。,例1 某校射擊隊(duì)5名隊(duì)員在一次射擊中,射中的環(huán)數(shù)分別為6,7,8,9,10,求平均射中環(huán)數(shù)。 解:由(1.3.1)式 (環(huán))。 如果數(shù)據(jù)中有重復(fù)數(shù),我們采用加權(quán)形式求算

14、術(shù)平均數(shù)?!皺?quán)”為所占的比重,比率,頻率都可以看做為一種“權(quán)”。 例如,某校射擊隊(duì)5名隊(duì)員在一次射擊中射中的環(huán)數(shù)分別為6,6,8,10,10,則 把上式一般化得到 ,其中 為第 個(gè)數(shù)的頻數(shù), 為第 個(gè)數(shù)的頻率。 我們稱由(1.3.2)式定義的 為以頻率為權(quán)的加權(quán)平均數(shù),顯然,權(quán)均為1/N的加權(quán)平均數(shù)為算術(shù)平均數(shù)。,分組數(shù)據(jù)求算術(shù)平均數(shù)(組中值法) 對(duì)于分組數(shù)據(jù)先要列出頻數(shù)分布表,再把每組的各個(gè)數(shù)據(jù)都看作與組中值相同的數(shù),這是因?yàn)槊拷M內(nèi)各個(gè)數(shù)據(jù)雖然有大有小,但其相對(duì)于組中值的誤差最終趨于抵消,故可以把每組的組中值做為每組的代表值,由此得到 簡(jiǎn)記為 (1.3.3), 其中 為第 組的組中值 ,其中

15、 為組數(shù), 為第 組的組頻數(shù)。,例2 求1.2例2中數(shù)據(jù)的算術(shù)平均數(shù)。 解:把表1.2中數(shù)據(jù)代入(1.3.3)式得到 的基本性質(zhì) 常數(shù)性 為常數(shù); (1.3.4) 齊次性 (1.3.5) 可加性 (1.3.6) 特別 (1.3.7),2、加權(quán)平均數(shù) 幾個(gè)作用在不同比重上的平均數(shù)再進(jìn)行平均稱為加權(quán)平均數(shù)。例如, 是 個(gè)數(shù)的平均數(shù), 是 個(gè)數(shù)的平均數(shù), 是 個(gè)數(shù)的平均數(shù), 則 (1.3.8), 如果 則 (1.3.9) 顯然,以頻率為權(quán)的加權(quán)平均數(shù)公式(1.3.2)是(1.3.9)的特殊情形,這是因?yàn)橛善骄鶖?shù)的常數(shù)性, ,對(duì)于分組數(shù)據(jù)用加權(quán)形式求 ,公式(1.3.3)中 相當(dāng)于第 個(gè)數(shù)的平均數(shù) 。

16、,例3 大學(xué)南路小學(xué)一年級(jí)實(shí)驗(yàn)班40名學(xué)生期末數(shù)學(xué)測(cè)驗(yàn)平均分?jǐn)?shù)為82.59,對(duì)比班45名學(xué)生期末數(shù)學(xué)測(cè)驗(yàn)平均分?jǐn)?shù)為69.68,求全年級(jí)期末數(shù)學(xué)測(cè)驗(yàn)平均成績(jī)。 解:由公式(1.3.8) (分). 例4 某校考察學(xué)生成績(jī),期末考試占全學(xué)期的85%,平時(shí)成績(jī)(包括作業(yè),期中考試),占全學(xué)期的15%.如果某學(xué)生期末成績(jī)?yōu)?5分,平時(shí)成績(jī)?yōu)?0分,求該生全學(xué)期平均成績(jī)。 解 由公式(1.3.8) (分),3、幾何平均數(shù) 幾何平均數(shù)是一組數(shù)據(jù)中個(gè) 數(shù)據(jù)連乘積的 次方根,記為 ,其計(jì)算公式為 (1.3.10),例5 某校1999年至2001年招生人數(shù)如表1.4,求該校平均每年招生增長(zhǎng)速度。 表1.4 某校1

17、999年至2001年招生人數(shù),解:由(1.3.10)式 .故該校招生平均年增長(zhǎng)速度為15%.實(shí)際應(yīng)用中,如果N3,可以利用對(duì)數(shù)簡(jiǎn)化計(jì)算,方法是對(duì) 兩邊取對(duì)數(shù),得到 ,查常用對(duì)數(shù)表得到 ,再查反對(duì)數(shù)表得到 。,二、眾數(shù) 數(shù)據(jù)集合中出現(xiàn)次數(shù)最多的那個(gè)數(shù)稱為眾數(shù),用 表示。 1、觀察法 離散型數(shù)據(jù)求眾數(shù) 例如,調(diào)查全班40名學(xué)生業(yè)余愛好,有20人參加體育小組,15人參加音樂小組,5人參加無線電小組。如果用1表示參加體育小組,2表示參加音樂小組,3表示參加無線電小組,則1出現(xiàn)次數(shù)最多,因此眾數(shù)就是1。 分組數(shù)據(jù)求眾數(shù) 首先列出頻數(shù)分布表,再用每組組中值表示該組一般水平,則頻數(shù)最多一組的組中值即為眾數(shù)。

18、顯然,此眾數(shù)是較為粗略的。,2、公式法 如果用 分別表示眾數(shù)所在組下限和上限, 表示與眾數(shù)所在組的下限相鄰組的頻數(shù), 表示與眾數(shù)所在組的上限相鄰組的頻數(shù),如果眾數(shù)是自眾數(shù)所在組的下限向上擠,則眾數(shù)所在位置是 再加上區(qū)間長(zhǎng)度 (組距)的 倍處,這是由于 在相鄰組總頻數(shù)中占 的比重。反過來 ,如果眾數(shù)是自眾數(shù)所在組的上限向下擠,那么眾數(shù)所在位置是 再減去區(qū)間長(zhǎng)度 的 倍處 。由此,我們得到求眾數(shù)的近似公式為 (1.3.13) (1.3.14),3. 集中量數(shù)(2),三、中數(shù) 中數(shù)指一組依次序排列的數(shù)據(jù)中位于正中間的數(shù),它正好分全體頻數(shù)為相等的兩部分,用 表示。 1、不分組數(shù)據(jù)求中數(shù) 數(shù)據(jù)個(gè)數(shù)為奇數(shù)

19、求 例7某校男子體操隊(duì)9名隊(duì)員5項(xiàng)比賽總積分分別為:47, 49, 42, 39, 45, 41, 37, 46, 40,求這9個(gè)數(shù)據(jù)的中數(shù)。 解:把9個(gè)數(shù)據(jù)依大小次序排列為:37, 39, 40, 41, 42, 45, 46, 47, 49。顯然,正中的42為中數(shù),因?yàn)?2左右各有4個(gè)數(shù)。由此,我們得到數(shù)據(jù)個(gè)數(shù)為奇數(shù)時(shí),中數(shù)為第 個(gè)數(shù)目的數(shù)值。,數(shù)據(jù)個(gè)數(shù)為偶數(shù)求 例8 求42,45,50,54,57,58的中數(shù)。 解:由于N=6,由中數(shù)定義,中數(shù)應(yīng)在50與54中間,自然我們?nèi)∑淦骄鶖?shù)為中數(shù),即 由此,數(shù)據(jù)個(gè)數(shù)為偶數(shù)時(shí),以最中間兩個(gè)數(shù)的平均數(shù)為中數(shù)。,2、分組數(shù)據(jù)求中數(shù) 例9 下表給出25個(gè)

20、數(shù)據(jù)的頻數(shù)分布,求中數(shù)。 表1.5 25個(gè)數(shù)據(jù)的頻數(shù)分布,解 由于N=25,因此中數(shù)為第13個(gè)數(shù),在(60-65)這一組,而這一組以下有6個(gè)數(shù)據(jù),須再向上數(shù)7個(gè)數(shù),才能到達(dá)第13個(gè)數(shù)。而每個(gè)區(qū)間的長(zhǎng)度(組距)為5,如果(60-65)這一組內(nèi)10個(gè)數(shù)據(jù)是均勻分布的,那么為到達(dá)第13個(gè)數(shù),需要在中數(shù)所在組的下限處加上區(qū)間長(zhǎng)度的十分之七,即中數(shù)應(yīng)為 因此,我們得到 (1.3.15)。 如果取中數(shù)所在組上限U,相應(yīng)有 (1.3.16)。 其中, 為中數(shù)所在組以上累積頻數(shù), 為中數(shù)所在組以下累積頻數(shù)。,在1.2,我們接觸到了百分位數(shù),介紹了通過累積百分比分布圖找百分位數(shù)的方法,實(shí)際上,中數(shù)也是一個(gè)百分位

21、數(shù),它正好位于百分之五十的位置上。一般的百分位數(shù)用 表示,稱為百分之 分位數(shù),它表示在此百分位數(shù)以下的頻數(shù)占總頻數(shù)的百分之 。由公式(1.3.15)(1.3.16),我們類似可得 (1.3.17) (1.3.18) 其中 為 所在組下限, 為 所在組上限, 為 所在組以下累積頻數(shù), 為 所在組以上累積頻數(shù), 為 所在組頻數(shù),i為組距。,例9中如求,由(1.3.17)式得,四、三種集中量數(shù)的比較 集中量數(shù)的作用是指出一組數(shù)據(jù)中有代表性的數(shù)值,同一組數(shù)值的三種集中量其值一般是不同的,故其實(shí)際意義也是有區(qū)別的。 例如,某中學(xué)數(shù)學(xué)教研室教師年齡分別為22,24,24,25,55(歲),現(xiàn)在問哪一年齡具

22、有代表性?顯然,平均數(shù)30不能作為水平值,這是因?yàn)槠骄鶖?shù)與每一個(gè)數(shù)據(jù)有關(guān),故受極端值55的影響而失去代表性。因此,選擇中數(shù)或眾數(shù)24作為這個(gè)教研室教師年齡的一般水平較為合適。 又如在一次測(cè)驗(yàn)中,某小組9名學(xué)生中有5個(gè)80分,3個(gè)85分,1個(gè)90分.如果用中數(shù)或眾數(shù)80分來作為一般水平值是不合適的,這是因?yàn)檫@次測(cè)驗(yàn)的成績(jī)分布較為特殊,且每個(gè)分?jǐn)?shù)相差不大。因此,在這種情形要用平均數(shù)82.5分作為集中趨勢(shì)的度量。,三種集中量的共性是反映了一組數(shù)據(jù)的集中位置,指出了一組數(shù)據(jù)中有典型意義的數(shù)。 平均數(shù)應(yīng)用最為廣泛,因?yàn)樗紤]到了每一個(gè)數(shù)據(jù),且便于用公式表示,其缺點(diǎn)是當(dāng)數(shù)據(jù)極端出現(xiàn)較大或較小數(shù)時(shí),作為衡量

23、集中趨勢(shì)的度量會(huì)受到較大影響。 中數(shù)是位于一組數(shù)據(jù)正中的一個(gè)數(shù),它不受極端值的影響,但如果數(shù)據(jù)集中成明顯不同且差異很大的幾組時(shí),則不易反映數(shù)據(jù)的集中趨勢(shì)。中數(shù)不與具體某個(gè)數(shù)有關(guān),而只是與數(shù)據(jù)的個(gè)數(shù)有關(guān),因此,只要中間數(shù)值不改變,排列順序不改變,其兩邊數(shù)值任意改變并不影響中數(shù)的值。 眾數(shù)由于出現(xiàn)頻數(shù)最多,往往被認(rèn)為是一組數(shù)據(jù)中最典型的一個(gè)。但在確定眾數(shù)時(shí)不受其它數(shù)據(jù)的影響,這是眾數(shù)最大的缺陷,而且,如果一組數(shù)據(jù)中有幾個(gè)數(shù)同時(shí)符合眾數(shù)定義時(shí),數(shù)則失去代表性。眾數(shù)可以消除極端數(shù)值的影響,但計(jì)算眾數(shù)大多是粗略的,因此,作為集中趨勢(shì)的度量,價(jià)值較小 。,英國(guó)統(tǒng)計(jì)學(xué)家皮爾遜(Pearson)根據(jù)多年經(jīng)驗(yàn),

24、發(fā)現(xiàn)當(dāng)頻數(shù)分布完全對(duì)稱時(shí),平均數(shù),中數(shù),眾數(shù)重合.在頻數(shù)分布不對(duì)稱時(shí),這三種量數(shù)的關(guān)系為 即 這樣,知道其中兩個(gè),可以近似求出第三個(gè)。,4. 差異量數(shù)(1),描述一組數(shù)據(jù)集中趨勢(shì)的水平值只是從一個(gè)側(cè)面反映了一組數(shù)據(jù)的特征。在實(shí)際統(tǒng)計(jì)工作中我們不僅要考察一組數(shù)據(jù)的集中位置,還要考察其分散程度,這種用來衡量一組數(shù)據(jù)分散程度(集中程度)的量稱為差異量數(shù)。常見的差異量數(shù)有:極差、四分位差、平均差、標(biāo)準(zhǔn)差。 一、極差 極差又稱為全距,是一組數(shù)據(jù)中最大值與最小值的差,用R表示。 R=最大值最小值 (1.4.1) 極差是衡量一組數(shù)據(jù)分散程度粗略的度量值。在繪制頻數(shù)分布表時(shí)我們已經(jīng)看到,通過極差可以大致看出一

25、組數(shù)據(jù)的范圍。,對(duì)于分組數(shù)據(jù),R取最高一組的上限與最低一組的下限之差。 由于極差只取決于兩個(gè)極端數(shù)據(jù),不能反映其它數(shù)據(jù)的分散情況,因此,在大多數(shù)情形極差不適用于衡量一組數(shù)據(jù)的分散程度。 例1 兩個(gè)小組學(xué)生身高(米)分別為: 甲方 1.80,1.53,1.52,1.51,1.50 乙方 1.80,1.79,1.78,1.77,1.50 顯然,兩組數(shù)據(jù)的極差都是0.30,但這兩組數(shù)據(jù)有很大的差異,二、四分位差 四分位差指 與 之差的一半,用來描述頻數(shù)分布中間數(shù)值的分散程度,用 表示。 都是百分位數(shù),顯然,再加上 (中數(shù))正好分總頻數(shù)為相等的四部分,為了方便有時(shí)把 記為 ,稱為第一四分位數(shù), 以下占

26、總頻數(shù)的四分之一;把 記為 ,稱為第二四分位數(shù), 以下占總頻數(shù)的四分之二;把 記為 ,稱為第三四分位數(shù), 以下占總頻數(shù)的四分之三,這樣, 的計(jì)算公式為 顯然,四分位差 是相對(duì)于中數(shù) 來衡量一組數(shù)據(jù)分散程度的。這是因?yàn)?,如果一組數(shù)據(jù)頻數(shù)分布對(duì)稱,則有,由求百分位數(shù)公式(1.3.17)類似可得 其中 分別為第一,第三四分位數(shù)所在組下限, 分別為第一,第三四分位數(shù)所在組以下累積頻數(shù), 分別為第一,第三四分位數(shù)所在組頻數(shù),i為組距。 如果數(shù)據(jù)未分組,只須把每個(gè)數(shù)據(jù)依大小順序排列,用總頻數(shù)N除以4,即可得到四分位 。,例2 求20名學(xué)生一次數(shù)學(xué)測(cè)驗(yàn)成績(jī)的四分位差。 解 把20個(gè)數(shù)據(jù)按大小排列為66, 6

27、7, 67, 69, 7071, 72, 73, 74, 76Q1Q285, 86, 88, 88, 9092, 94, 97, 98, 90Q3 則,三、平均差 我們?cè)O(shè)想找到一個(gè)相對(duì)于平均數(shù)來衡量一組數(shù)據(jù)分散程度的差異量,這就是平均差,用MD表示。 例3 兩個(gè)女聲小合唱隊(duì)身高(米)分別為: 甲隊(duì) 1.60,1.62,1.59,1.60,1.59 乙隊(duì) 1.80,1.60,1.50,1.50,1.60 顯然, 。但乙隊(duì)隊(duì)員較甲隊(duì)隊(duì)員身高波動(dòng)大,這是因?yàn)槊總€(gè)隊(duì)員的身高相對(duì)于平均數(shù)都有一個(gè)離差 ,離差越小,越集中于 ,但離差有正有負(fù),如果將全部離差加起來,由于 ,那么 即正、負(fù)離差相抵消,故我們?cè)?/p>

28、考慮總離差時(shí),可以將每個(gè)離差取絕對(duì)值再加起來。這樣并不影響每個(gè)數(shù)據(jù)偏離平均數(shù)的程度,因?yàn)殡x差的長(zhǎng)度 為了使所有離差再集中,我們?cè)偃∑淦骄玫?(1.4.5),如果數(shù)據(jù)已分組,類似有 (1.4.6) 例3中, 可見,乙隊(duì)隊(duì)員身高平均差大大高于甲隊(duì),因此,乙隊(duì)隊(duì)員身高差異較甲隊(duì)大,即分散程度較甲隊(duì)大。 采用平均差來衡量數(shù)據(jù)的分散程度要對(duì)離差取絕對(duì)值,但絕對(duì)值運(yùn)算復(fù)雜且不便于代數(shù)方法處理。如果給每個(gè)離差平方,并不影響其分散程度,且可以避免總離差為零。因此,我們引入另一個(gè)衡量一組數(shù)據(jù)分散程度的差異量標(biāo)準(zhǔn)差。,四、標(biāo)準(zhǔn)差 標(biāo)準(zhǔn)差是方差的平方根,又稱為均方差,用S表示。方差是各個(gè)數(shù)據(jù)與平均數(shù)離差的平方的算

29、術(shù)平均數(shù),用 表示。公式為 (1.4.7) (1.4.8) 對(duì)于分組數(shù)據(jù),類似有 (1.4.9) 其中 為第i組的組頻數(shù), 為第i組的組中值。,計(jì)算 還可利用以下簡(jiǎn)化公式: (1.4.10) 這是因?yàn)?對(duì)于分組數(shù)據(jù),類似簡(jiǎn)化公式為 (1.4.11) 其中a為假定平均數(shù),即頻數(shù)最多一組的組中值。,例4 某區(qū)50名6歲男童身高(單位:cm)分組數(shù)據(jù)如表1.6: 表1.6 50名6歲男童身高分布,求標(biāo)準(zhǔn)差S.,解 N=50,取a=119.5,由公式(1.4.11)得到,標(biāo)準(zhǔn)差是衡量一組數(shù)據(jù)分散程度最有效的量數(shù),標(biāo)準(zhǔn)差越小,這組數(shù)據(jù)越向平均數(shù)集中,即分布的差異越??;標(biāo)準(zhǔn)差越大,這組數(shù)據(jù)偏離平均數(shù)的程度

30、越大,即分布的差異也越大。,故,4. 差異量數(shù)(2),五、差異系數(shù) 差異系數(shù)也稱為相對(duì)差異量,常用倍數(shù)式百分?jǐn)?shù)表示,它從相對(duì)意義上來衡量一組數(shù)據(jù)的分散程度。而受其計(jì)量單位、水平值影響的差異量稱為絕對(duì)差異量,極差,四分位差,平均差,標(biāo)準(zhǔn)差都是絕對(duì)差異量,簡(jiǎn)稱為差異量數(shù)。 常用的差異系數(shù)有:極差系數(shù),標(biāo)準(zhǔn)差系數(shù),四分位差系數(shù)等。,1) 極差系數(shù) 極差系數(shù)為一組數(shù)據(jù)中最大值與最小值的倍數(shù),即 極差系數(shù)=最大值/最小值 (1.4.12) 例5 某班數(shù)學(xué)統(tǒng)編教材與實(shí)驗(yàn)教材測(cè)驗(yàn)成績(jī)?nèi)缦卤?,試用極差系數(shù)比較這兩組數(shù)據(jù)的差異大小。 表1.7 某班數(shù)學(xué)統(tǒng)編教材與實(shí)驗(yàn)教材測(cè)驗(yàn)成績(jī),由表1.7可見,盡管極差一樣,但由于統(tǒng)編教材得分普遍高,因此相對(duì)來說,其差異程度要低于實(shí)驗(yàn)教材。,2) 標(biāo)準(zhǔn)差系數(shù) 標(biāo)準(zhǔn)差系數(shù)為標(biāo)準(zhǔn)差與其算術(shù)平均數(shù)的比值的百分?jǐn)?shù),記為CV. (1.4.13) 顯然,標(biāo)準(zhǔn)差

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論