MBA統(tǒng)計(jì)學(xué)-概率和分布課件_第1頁
MBA統(tǒng)計(jì)學(xué)-概率和分布課件_第2頁
MBA統(tǒng)計(jì)學(xué)-概率和分布課件_第3頁
MBA統(tǒng)計(jì)學(xué)-概率和分布課件_第4頁
MBA統(tǒng)計(jì)學(xué)-概率和分布課件_第5頁
已閱讀5頁,還剩155頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

統(tǒng)計(jì)學(xué)─從數(shù)據(jù)到結(jié)論統(tǒng)計(jì)學(xué)─從數(shù)據(jù)到結(jié)論1第四章機(jī)會(huì)的度量:

概率和分布第四章機(jī)會(huì)的度量:

概率和分布2概率是0和1之間的一個(gè)數(shù)目,表示某個(gè)事件發(fā)生的可能性或經(jīng)常程度。你買彩票中大獎(jiǎng)的機(jī)會(huì)很小(接近0)但有人中大獎(jiǎng)的概率幾乎為1你被流星擊中的概率很小(接近0)但每分鐘有流星擊中地球的概率為1你今天被汽車撞上的概率幾乎是0但在北京每天發(fā)生車禍的概率是1。概率是0和1之間的一個(gè)數(shù)目,表示某個(gè)事件發(fā)生的可能性或經(jīng)常程3發(fā)生概率很小的事件稱為小概率事件(smallprobabilityevent);小概率事件不那么可能發(fā)生,但它往往比很可能發(fā)生的事件更值得研究。在某種意義上,新聞媒體的主要注意力大都集中在小概率事件上。發(fā)生概率很小的事件稱為小概率事件(smallprobabi4§4.1得到概率的幾種途徑1.利用等可能事件如果一個(gè)骰子是公平的,那么擲一次骰子會(huì)以等可能(概率1/6,6種可能之一)得到1至6點(diǎn)的中的每一個(gè)點(diǎn)。拋一個(gè)公平的硬幣,則以等可能(概率1/2)出現(xiàn)正面或反面?!?.1得到概率的幾種途徑1.利用等可能事件5§4.1得到概率的幾種途徑再如從52張牌中隨機(jī)抽取一張,那么它是黑桃的概率為抽取黑桃的可能(k=13)和總可能性(n=52)之比,即k/n=13/52=1/4;類似地抽到的牌是J、Q、K、A四種(共有16種可能)的概率是16/52=4/13?!?.1得到概率的幾種途徑再如從52張牌中隨機(jī)抽取一張,那6§4.1得到概率的幾種途徑其實(shí)即使沒有學(xué)過概率,讀者也多半能夠算出這些概率。計(jì)算這些概率的基礎(chǔ)就是事先知道(或者假設(shè))某些事件是等可能的。這種事件為等可能事件(equallylikelyevent)?!?.1得到概率的幾種途徑其實(shí)即使沒有學(xué)過概率,讀者也多半7§4.1得到概率的幾種途徑2.根據(jù)長期相對頻數(shù)事件并不一定是等可能的,或者人們對于其出現(xiàn)的可能性一無所知。這時(shí)就要靠觀察它在大量重復(fù)試驗(yàn)中出現(xiàn)的頻率來估計(jì)它出現(xiàn)的概率。它約等于事件出現(xiàn)的頻數(shù)k除以重復(fù)試驗(yàn)的次數(shù)n,該比值k/n稱為相對頻數(shù)(relativefrequency)或頻率?!?.1得到概率的幾種途徑2.根據(jù)長期相對頻數(shù)8§4.1得到概率的幾種途徑例如,刮發(fā)票的中獎(jiǎng)密封時(shí),大多得到“謝謝”。如果你刮了150張發(fā)票,只有3張中獎(jiǎng),你會(huì)認(rèn)為,你的中獎(jiǎng)概率大約是3/150=0.02如果一個(gè)學(xué)生在200次上課時(shí),無故曠課10次,那么其曠課的概率可能被認(rèn)為接近10/200=0.05§4.1得到概率的幾種途徑例如,刮發(fā)票的中獎(jiǎng)密封時(shí),大多得9§4.1得到概率的幾種途徑試驗(yàn)次數(shù)n越大則該值越接近于想得到的概率。很多事件無法進(jìn)行長期重復(fù)試驗(yàn)。因此這種通過相對頻數(shù)獲得概率的方法也并不是萬能的。雖然如此,用相對頻數(shù)來確定概率的方法是很常用的。你們可以舉出無數(shù)類似的例子§4.1得到概率的幾種途徑試驗(yàn)次數(shù)n越大則該值越接近于想得10§4.1得到概率的幾種途徑3.主觀概率一些概率既不能由等可能性來計(jì)算,也不可能從試驗(yàn)得出。比如,你今年想學(xué)開車概率、你五年內(nèi)去歐洲旅游的概率等這種概率稱為主觀概率(subjectiveprobability)。可以說,主觀概率是一次事件的概率?;?yàn)榛谒莆盏男畔ⅲ橙藢δ呈录l(fā)生的自信程度。§4.1得到概率的幾種途徑3.主觀概率11§4.2概率的運(yùn)算

在擲骰子中,得到6點(diǎn)的概率是1/6,而得到5點(diǎn)的概率也是1/6。那么擲一次骰子得到5或者6的概率是多少呢?在擲10次骰子中有一半或以上的次數(shù)得到5或6的概率又是多少呢?讀者很快就可能很快會(huì)得到答案。但再復(fù)雜一些,也許就不簡單了?!?.2概率的運(yùn)算在擲骰子中,得到6點(diǎn)的概率是1/6,而12§4.2概率的運(yùn)算

我們需要了解怎樣從簡單的情況計(jì)算稍微復(fù)雜情況時(shí)的概率。需要讀者回憶一下上中學(xué)時(shí)學(xué)過的集合概念,比如兩個(gè)集合的交和并,互余(互補(bǔ))等概念。在概率論中所說的事件(event)相當(dāng)于集合論中的集合(set)。而概率則是事件的某種函數(shù)。為什么會(huì)這么說呢,讓我們看擲兩個(gè)骰子的試驗(yàn)。§4.2概率的運(yùn)算我們需要了解怎樣從簡單的情況計(jì)算稍微復(fù)13§4.2概率的運(yùn)算

如所關(guān)心的是兩骰子點(diǎn)數(shù)之和,則下表包含了所有36種可能試驗(yàn)結(jié)果的搭配和相應(yīng)的點(diǎn)數(shù)和。§4.2概率的運(yùn)算如所關(guān)心的是兩骰子點(diǎn)數(shù)之和,則下表包含14可以看出,如果我們考慮點(diǎn)數(shù)和等于2的事件,則僅有一種可能的試驗(yàn)結(jié)果(兩個(gè)骰子均為一點(diǎn));而如果我們考慮點(diǎn)數(shù)和等于7的事件,則有六種可能的試驗(yàn)結(jié)果。兩個(gè)骰子點(diǎn)數(shù)之和總共有2至12等11種可能,即有11種可能的事件,而這11種事件相應(yīng)于上面所說的36種可能的試驗(yàn)結(jié)果的一些集合。這些事件和試驗(yàn)結(jié)果的集合歸納在下面表中:可以看出,如果我們考慮點(diǎn)數(shù)和等于2的事件,則僅有一種可能的試15§4.2概率的運(yùn)算:1.互補(bǔ)事件的概率如果今天下雨的概率是10%,則今天不下雨的概率就是90%。如果你中獎(jiǎng)的概率是0.0001,那么不中獎(jiǎng)的概率就是1-0.0001=0.9999。這種如果一個(gè)不出現(xiàn),則另一個(gè)肯定出現(xiàn)的兩個(gè)事件稱為互補(bǔ)事件(complementaryevents,或者互余事件或?qū)α⑹录??!?.2概率的運(yùn)算:1.互補(bǔ)事件的概率如果今天下雨的概率16§4.2概率的運(yùn)算:1.互補(bǔ)事件的概率按照集合的記號(hào),如果一個(gè)事件記為A,那么另一個(gè)記為AC(稱為A的余集或補(bǔ)集)。顯然互補(bǔ)事件的概率之和為1,即P(A)+P(AC)=1,或者P(AC)=1-P(A)。在西方賭博時(shí)常常愛用優(yōu)勢或賠率(odds)來形容輸贏的可能。它是互補(bǔ)事件概率之比,即P(A)/P(AC)=P(A)/[1-P(A)]來表示?!?.2概率的運(yùn)算:1.互補(bǔ)事件的概率按照集合的記號(hào),如17§4.2概率的運(yùn)算:2.概率的加法如果兩個(gè)事件不可能同時(shí)發(fā)生,那么至少其中之一發(fā)生的概率為這兩個(gè)概率的和。比如“擲一次骰子得到3或者6點(diǎn)”的概率是“得到3點(diǎn)”的概率與“得到6點(diǎn)”的概率之和,即1/6+1/6=1/3。但是如果兩個(gè)事件可能同時(shí)發(fā)生時(shí)這樣做就不對了。§4.2概率的運(yùn)算:2.概率的加法如果兩個(gè)事件不可能同時(shí)18§4.2概率的運(yùn)算:2.概率的加法假定擲骰子時(shí),一個(gè)事件A為“得到偶數(shù)點(diǎn)”(有3種可能:2、4、6點(diǎn)),另一個(gè)事件B為“得到大于或等于3點(diǎn)”(有4種可能:3、4、5、6點(diǎn));這樣,事件A的概率顯然等于3/6=1/2,即P(A)=1/2。而事件B的概率為P(B)=4/6=2/3。但是,“得到大于或等于3點(diǎn)或者偶數(shù)點(diǎn)”的事件的概率就不是P(A)+P(B)=1/2+2/3=7/6了;§4.2概率的運(yùn)算:2.概率的加法假定擲骰子時(shí),一個(gè)事件19§4.2概率的運(yùn)算:2.概率的加法這顯然多出來了。概率怎么能夠大于1呢?按照中學(xué)時(shí)關(guān)于集合的記號(hào),該事件稱為A和B的并,記為A∪B。剛才多出來的部分就是A和B的共同部分A∩B(稱為A和B的交)的概率(這個(gè)概率算了兩遍);它為“得到既是偶數(shù),又大于等于3”的部分,即4和6兩點(diǎn)。出現(xiàn)事件4或者6的概率為1/6+1/6=1/3?!?.2概率的運(yùn)算:2.概率的加法這顯然多出來了。概率怎20§4.2概率的運(yùn)算:2.概率的加法于是應(yīng)該把算重了的概率減去。這樣“得到大于或等于3點(diǎn)或者偶數(shù)點(diǎn)”的事件A∪B的概率就是P(A∪B)=P(A)+P(B)-P(A∩B)=1/2+2/3-1/3=5/6。這種P(A∪B)=P(A)+P(B)-P(A∩B)的公式也適用于兩個(gè)不可能同時(shí)發(fā)生的事件;但因?yàn)槟菚r(shí)P(A∩B)=0,所以只剩下P(A∪B)=P(A)+P(B)了。§4.2概率的運(yùn)算:2.概率的加法于是應(yīng)該把算重了的概率21§4.2概率的運(yùn)算:2.概率的加法這種交等于空集(A∩B=F,這里F表示空集或空事件)的事件為兩個(gè)不可能同時(shí)發(fā)生的事件,稱為互不相容事件(mutuallyexclusiveevents)?!?.2概率的運(yùn)算:2.概率的加法這種交等于空集(A∩B22§4.2概率的運(yùn)算:3.概率的乘法如果你有一個(gè)固定電話和一個(gè)手機(jī),假定固定電話出毛病的概率為0.01,而手機(jī)出問題的概率為0.05,那么,兩個(gè)電話同時(shí)出毛病的概率是多少呢?聰明的讀者馬上會(huì)猜出,是0.01×0.05=0.0005。但是這種乘法法則,即P(A∩B)=P(A)P(B),僅僅在兩個(gè)事件獨(dú)立(independent)時(shí)才成立。§4.2概率的運(yùn)算:3.概率的乘法如果你有一個(gè)固定電話和23§4.2概率的運(yùn)算:3.概率的乘法如果事件不獨(dú)立則需要引進(jìn)條件概率(conditionalprobability)。比如三個(gè)人抽簽,而只有一個(gè)人能夠抽中,因此每個(gè)人抽中的機(jī)會(huì)是1/3。假定用A1、A2和A3分別代表這三個(gè)人抽中的事件,那么,P(A1)=P(A2)=P(A3)=1/3。§4.2概率的運(yùn)算:3.概率的乘法如果事件不獨(dú)立則需要引24§4.2概率的運(yùn)算:3.概率的乘法但是由于一個(gè)人抽中,其他人就不可能抽中,所以,這三個(gè)事件不獨(dú)立。剛才的乘法規(guī)則不成立;這時(shí),P(A1∩A3)=P(A1∩A2)=P(A2∩A3)=0;如錯(cuò)誤照搬乘法規(guī)則會(huì)得到錯(cuò)誤的(1/3)2=1/9?!?.2概率的運(yùn)算:3.概率的乘法但是由于一個(gè)人抽中,其25§4.2概率的運(yùn)算:3.概率的乘法但是可以計(jì)算條件概率,比如第一個(gè)人抽到(事件A1),則在這個(gè)條件下其他兩個(gè)人抽到的概率都為0;記為P(A2|A1)=P(A3|A1)=0。如第一個(gè)人沒有抽到(事件A1C),那么其他兩人抽到的概率均為1/2,記為P(A2|A1C)=P(A3|A1C)=1/2?!?.2概率的運(yùn)算:3.概率的乘法但是可以計(jì)算條件概率,26§4.2概率的運(yùn)算:3.概率的乘法一般地,在一個(gè)事件B已經(jīng)發(fā)生的情況下,事件A發(fā)生的條件概率定義為(貝葉斯公式)§4.2概率的運(yùn)算:3.概率的乘法一般地,在一個(gè)事件B已27分布隨機(jī)變量取一切可能值或范圍的概率或概率的規(guī)律稱為概率分布(probabilitydistribution,簡稱分布)。概率分布可以用各種圖或表來表示;一些可以用公式來表示。概率分布是關(guān)于總體的概念。有了概率分布就等于知道了總體。分布隨機(jī)變量取一切可能值或范圍的概率或概率的規(guī)律稱為概率分布28分布前面介紹過的樣本均值、樣本標(biāo)準(zhǔn)差和樣本方差等樣本特征的概念是相應(yīng)的總體特征的反映。我們也有描述變量“位置”的總體均值、總體中位數(shù)、總體百分位數(shù)以及描述變量分散(集中)程度的總體標(biāo)準(zhǔn)差和總體方差等概念。具體公式見本章后面小結(jié)分布前面介紹過的樣本均值、樣本標(biāo)準(zhǔn)差和樣本方差等樣本特征的概29§4.3離散變量的分布離散變量只取離散的值,比如骰子的點(diǎn)數(shù)、網(wǎng)站點(diǎn)擊數(shù)、顧客人數(shù)等等。每一種取值都有某種概率。各種取值點(diǎn)的概率總和應(yīng)該是1。當(dāng)然離散變量不不僅僅限于取非負(fù)整數(shù)值。一般來說,某離散隨機(jī)變量的每一個(gè)可能取值xi都相應(yīng)于取該值的概率p(xi),這些概率應(yīng)該滿足關(guān)系§4.3離散變量的分布離散變量只取離散的值,比如骰子的點(diǎn)數(shù)30§4.3.1二項(xiàng)分布最簡單的離散分布應(yīng)該是基于可重復(fù)的有兩結(jié)果(比如成功和失?。┑南嗤?dú)立試驗(yàn)(每次試驗(yàn)成功概率相同)的分布,例如拋硬幣。比如用p代表得到硬幣正面的概率,那么1-p則是得到反面的概率。如果知道p,這個(gè)拋硬幣的試驗(yàn)的概率分布也就都知道了?!?.3.1二項(xiàng)分布最簡單的離散分布應(yīng)該是基于可重復(fù)的有兩31§4.3.1二項(xiàng)分布這種有兩個(gè)可能結(jié)果的試驗(yàn)有兩個(gè)特點(diǎn):一是各次試驗(yàn)互相獨(dú)立,二是每次試驗(yàn)得到一種結(jié)果的概率不變(這里是得到正面的概率總是p)。類似于拋硬幣的僅有兩種結(jié)果的重復(fù)獨(dú)立試驗(yàn)被稱為Bernoulli試驗(yàn)(Bernoullitrials)?!?.3.1二項(xiàng)分布這種有兩個(gè)可能結(jié)果的試驗(yàn)有兩個(gè)特點(diǎn):32§4.3.1二項(xiàng)分布下面試驗(yàn)可看成為Bernoulli試驗(yàn):每一個(gè)進(jìn)入某商場的顧客是否購買某商品每個(gè)被調(diào)查者是否認(rèn)可某種產(chǎn)品每一個(gè)新出嬰兒的性別。根據(jù)這種簡單試驗(yàn)的分布,可以得到基于這個(gè)試驗(yàn)的更加復(fù)雜事件的概率。§4.3.1二項(xiàng)分布下面試驗(yàn)可看成為Bernoulli試驗(yàn)33§4.3.1二項(xiàng)分布為了方便,人們通常稱Bernoulli試驗(yàn)的兩種結(jié)果為“成功”和“失敗”。和Bernoulli試驗(yàn)相關(guān)的最常見的問題是:如果進(jìn)行n次Bernoulli試驗(yàn),每次成功的概率為p,那么成功k次的概率是多少?這個(gè)概率的分布就是所謂的二項(xiàng)分布(binomialdistribution)。§4.3.1二項(xiàng)分布為了方便,人們通常稱Bernoulli34§4.3.1二項(xiàng)分布這個(gè)分布有兩個(gè)參數(shù),一個(gè)是試驗(yàn)次數(shù)n,另一個(gè)是每次試驗(yàn)成功的概率p?;诖?,二項(xiàng)分布用符號(hào)B(n,p)或Bin(n,p)表示。由于n和p可以根據(jù)實(shí)際情況取各種不同的值,因此二項(xiàng)分布是一族分布,族內(nèi)的分布以這兩個(gè)參數(shù)來區(qū)分。§4.3.1二項(xiàng)分布這個(gè)分布有兩個(gè)參數(shù),一個(gè)是試驗(yàn)次數(shù)n,35§4.3.1二項(xiàng)分布二項(xiàng)分布的概率通常用二項(xiàng)分布表來查出。但一般統(tǒng)計(jì)軟件可以很容易得到這個(gè)概率。在目前統(tǒng)計(jì)軟件發(fā)達(dá)的情況下,涉及的二項(xiàng)分布一般都自動(dòng)處理了;在處理實(shí)際問題中很少會(huì)遇到直接計(jì)算二項(xiàng)分布概率的情況?!?.3.1二項(xiàng)分布二項(xiàng)分布的概率通常用二項(xiàng)分布表來查出。36§4.3.1二項(xiàng)分布但這里還是給出其一般公式。下面p(k)代表在n次Bernoulli試驗(yàn)中成功的次數(shù)的概率,p為每次試驗(yàn)成功的概率。有這里為二項(xiàng)式系數(shù),或記為§4.3.1二項(xiàng)分布但這里還是給出其一般公式。下面p(k)37圖4.1九個(gè)二項(xiàng)分布B(5,p)(p=0.1到0.9)的概率分布圖圖4.1九個(gè)二項(xiàng)分布B(5,p)38§4.3.2多項(xiàng)分布和二項(xiàng)分布最類似的是多項(xiàng)分布(multinomialdistribution)。二項(xiàng)分布的每次試驗(yàn)中只有兩種可能的結(jié)果,而多項(xiàng)分布則在每次試驗(yàn)中有多種可能的結(jié)果?!?.3.2多項(xiàng)分布和二項(xiàng)分布最類似的是多項(xiàng)分布(mult39§4.3.2多項(xiàng)分布比如在調(diào)查顧客對5個(gè)品牌的飲料的選擇中,每種品牌都會(huì)以一定的概率中選,假定這些概率為p1,p2,p3,p4,p5。每次試驗(yàn)的結(jié)果只可能有一個(gè),因此這些概率的和為1,即p1+p2+p3+p4+p5=1。在多項(xiàng)分布問題中(用上面5個(gè)品牌的例子說明),所關(guān)心的是在n次試驗(yàn)中(這里是調(diào)查),選擇5個(gè)品牌的人數(shù)分別為m1,m2,m3,m4,m5的概率。自然m1+m2+m3+m4+m5=n。§4.3.2多項(xiàng)分布比如在調(diào)查顧客對5個(gè)品牌的飲料的選擇中40§4.3.2多項(xiàng)分布類似于二項(xiàng)分布,多項(xiàng)分布的符號(hào)可以為M(n;p1,p2,p3,p4,p5),也有用“MN”或“Multi”來表示;§4.3.2多項(xiàng)分布類似于二項(xiàng)分布,多項(xiàng)分布的符號(hào)可以為M41§4.3.3Poisson分布另一個(gè)常用離散分布是Poisson分布(翻譯成“泊松分布”或“普阿松分布”)。它可以認(rèn)為是衡量某種事件在一定期間出現(xiàn)的數(shù)目的概率。比如說在一定時(shí)間內(nèi)顧客的人數(shù)、打入電話總機(jī)電話的個(gè)數(shù)、放射性物質(zhì)放射出來并到達(dá)某區(qū)域的粒子數(shù)等等?!?.3.3Poisson分布另一個(gè)常用離散分布是Pois42§4.3.3Poisson分布在不同條件下,同樣事件在單位時(shí)間中出現(xiàn)同等數(shù)目的概率不盡相同。比如中午和晚上某商店在10分鐘內(nèi)出現(xiàn)5個(gè)顧客的概率就不一定相同。因此,Poisson分布也是一個(gè)分布族。族中不同成員的區(qū)別在于事件出現(xiàn)數(shù)目的均值l不一樣。§4.3.3Poisson分布在不同條件下,同樣事件在單位43§4.3.3Poisson分布參數(shù)為l的Poisson分布變量的概率分布為(p(k)表示Poisson變量等于k的概率)§4.3.3Poisson分布參數(shù)為l的Poisson分布44參數(shù)為3、6、10的Poisson分布(只標(biāo)出了20之內(nèi)的部分)

這里點(diǎn)間的連線沒有意義,僅僅為讀者容易識(shí)別而畫,因?yàn)镻oisson變量僅取非負(fù)整數(shù)值參數(shù)為3、6、10的Poisson分布(只標(biāo)出了20之內(nèi)的部45§4.3.4超幾何分布假定有一批500個(gè)產(chǎn)品,而其中有5個(gè)次品。假定該產(chǎn)品的質(zhì)量檢查采取隨機(jī)抽取20個(gè)產(chǎn)品進(jìn)行檢查。如果抽到的20個(gè)產(chǎn)品中含有2個(gè)或更多不合格產(chǎn)品,則整個(gè)500個(gè)產(chǎn)品將會(huì)被退回。這時(shí),人們想知道,該批產(chǎn)品被退回的概率是多少?這種概率就滿足超幾何分布(hypergeometricdistribution)。§4.3.4超幾何分布假定有一批500個(gè)產(chǎn)品,而其中有5個(gè)46§4.3.4超幾何分布這是一種所謂的“不放回抽樣”,也就是說,一次抽取若干物品,每檢查一個(gè)之后并不放回;超幾何分布族的成員被三個(gè)參數(shù)決定,這里相應(yīng)于產(chǎn)品總個(gè)數(shù)n,其中不合格產(chǎn)品數(shù)目m,不放回抽樣的數(shù)目t;而樣本中有x個(gè)不合格產(chǎn)品的概率為§4.3.4超幾何分布這是一種所謂的“不放回抽樣”,也就是47§4.4連續(xù)變量的分布取連續(xù)值的變量,如高度、長度、重量、時(shí)間、距離等等;它們被稱為連續(xù)變量(continuousvariable)。換言之,一個(gè)隨機(jī)變量如果能夠在一區(qū)間(無論這個(gè)區(qū)間多么?。﹥?nèi)取任何值,則該變量稱為在此區(qū)間內(nèi)是連續(xù)的,其分布稱為連續(xù)型概率分布。它們的概率分布很難準(zhǔn)確地用離散變量概率的條形圖表示。§4.4連續(xù)變量的分布取連續(xù)值的變量,如高度、長度、重量、48§4.4連續(xù)變量的分布想象連續(xù)變量觀測值的直方圖;如果其縱坐標(biāo)為相對頻數(shù),那么所有這些矩形條的高度和為1;完全可以重新設(shè)置量綱,使得這些矩形條的面積和為1。不斷增加觀測值及直方圖的矩形條的數(shù)目,直方圖就會(huì)越來越像一條光滑曲線,其下面的面積和為1。該曲線即所謂概率密度函數(shù)(probabilitydensityfunction,pdf),簡稱密度函數(shù)或密度。下圖為這樣形成的密度曲線?!?.4連續(xù)變量的分布想象連續(xù)變量觀測值的直方圖;如果其縱49逐漸增加矩形條數(shù)目的直方圖和一個(gè)形狀類似的密度曲線。

逐漸增加矩形條數(shù)目的直方圖和一個(gè)形狀類似的密度曲線。50§4.4連續(xù)變量的分布連續(xù)變量落入某個(gè)區(qū)間的概率就是概率密度函數(shù)的曲線在這個(gè)區(qū)間上所覆蓋的面積;因此,理論上,這個(gè)概率就是密度函數(shù)在這個(gè)區(qū)間上的積分。對于連續(xù)變量,取某個(gè)特定值的概率都是零,而只有變量取值于某個(gè)(或若干個(gè))區(qū)間的概率才可能大于0。連續(xù)變量密度函數(shù)曲線(這里用f表示)下面覆蓋的總面積為1,即§4.4連續(xù)變量的分布連續(xù)變量落入某個(gè)區(qū)間的概率就是概率密51§4.4.1正態(tài)分布在北京市場上的精制鹽很多是一公斤袋裝,上面標(biāo)有“凈含量1kg”的字樣。但當(dāng)你用稍微精確一些的天平稱那些袋裝鹽的重量時(shí),會(huì)發(fā)現(xiàn)有些可能會(huì)重些,有些可能會(huì)輕些;但都是在1kg左右。多數(shù)離1kg不遠(yuǎn),離1kg越近就越可能出現(xiàn),離1kg越遠(yuǎn)就越不可能。一般認(rèn)為這種重量分布近似地服從最常用的正態(tài)分布(normaldistribution,又叫高斯分布,Gaussiandistribution)?!?.4.1正態(tài)分布在北京市場上的精制鹽很多是一公斤袋裝,52§4.4.1正態(tài)分布近似地服從正態(tài)分布的變量很常見,象測量誤差、商品的重量或尺寸、某年齡人群的身高和體重等等。在一定條件下,許多不是正態(tài)分布的樣本均值在樣本量很大時(shí),也可用正態(tài)分布來近似?!?.4.1正態(tài)分布近似地服從正態(tài)分布的變量很常見,象測量53§4.4.1正態(tài)分布正態(tài)分布的密度曲線是一個(gè)對稱的鐘型曲線(最高點(diǎn)在均值處)。正態(tài)分布也是一族分布,各種正態(tài)分布根據(jù)它們的均值和標(biāo)準(zhǔn)差不同而有區(qū)別。一個(gè)正態(tài)分布用N(m,s)表示;其中m為均值,而s為標(biāo)準(zhǔn)差。也常用N(m,s2)來表示,這里s2為方差(標(biāo)準(zhǔn)差的平方)。§4.4.1正態(tài)分布正態(tài)分布的密度曲線是一個(gè)對稱的鐘型曲線54§4.4.1正態(tài)分布標(biāo)準(zhǔn)差為1的正態(tài)分布N(0,1)稱為標(biāo)準(zhǔn)正態(tài)分布(standardnormaldistribution)。標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù)用f(x)表示。任何具有正態(tài)分布N(m,s)的隨機(jī)變量X都可以用簡單的變換(減去其均值m,再除以標(biāo)準(zhǔn)差s):Z=(X-m)/s,而成為標(biāo)準(zhǔn)正態(tài)隨機(jī)變量。這種變換和標(biāo)準(zhǔn)得分的意義類似?!?.4.1正態(tài)分布標(biāo)準(zhǔn)差為1的正態(tài)分布N(0,1)稱為55兩條正態(tài)分布的密度曲線。左邊是N(-2,0.5)分布,右邊是N(0,1)分布

兩條正態(tài)分布的密度曲線。左邊是N(-2,0.5)分布,右邊是56§4.4.1正態(tài)分布當(dāng)然,和所有連續(xù)變量一樣,正態(tài)變量落在某個(gè)區(qū)間的概率就等于在這個(gè)區(qū)間上,密度曲線下面的面積。比如,標(biāo)準(zhǔn)正態(tài)分布變量落在區(qū)間(0.51,1.57)中的概率,就是在標(biāo)準(zhǔn)正態(tài)密度曲線下面在0.51和1.57之間的面積。很容易得到這個(gè)面積等于0.24682;也就是說,標(biāo)準(zhǔn)正態(tài)變量在區(qū)間(0.51,1.57)中的概率等于0.24682。如果密度函數(shù)為f(x),那么這個(gè)面積為積分§4.4.1正態(tài)分布當(dāng)然,和所有連續(xù)變量一樣,正態(tài)變量落在57標(biāo)準(zhǔn)正態(tài)變量在區(qū)間(0.51,1.57)中的概率標(biāo)準(zhǔn)正態(tài)變量在區(qū)間(0.51,1.57)中的概率58§4.4.1正態(tài)分布我們有必要引進(jìn)總體的下側(cè)分位數(shù)、上側(cè)分位數(shù)以及相應(yīng)的尾概率的概念。對于連續(xù)型隨機(jī)變量X,a下側(cè)分位數(shù)(又稱為a分位數(shù),a-quantile)定義為數(shù)xa,它滿足關(guān)系這里的a又稱為下(左)側(cè)尾概率(lower/lefttailprobability)§4.4.1正態(tài)分布我們有必要引進(jìn)總體的下側(cè)分位數(shù)、上側(cè)分59§4.4.1正態(tài)分布而a上側(cè)分位數(shù)(又稱a上分位數(shù),a-upperquantile)定義為數(shù)xa,它滿足關(guān)系這里的a也稱為上(右)側(cè)尾概率(upper/righttailprobability)?!?.4.1正態(tài)分布而a上側(cè)分位數(shù)(又稱a上分位數(shù),a-u60§4.4.1正態(tài)分布對于非連續(xù)型的分布,分位數(shù)的定義稍微復(fù)雜一些;顯然,對于連續(xù)分布,a上側(cè)分位數(shù)等于(1-a)下側(cè)分位數(shù),而(1-a)下側(cè)分位數(shù)等于a上側(cè)分位數(shù)。§4.4.1正態(tài)分布對于非連續(xù)型的分布,分位數(shù)的定義稍微復(fù)61§4.4.1正態(tài)分布通常用za表示標(biāo)準(zhǔn)正態(tài)分布的a上側(cè)分位數(shù),即對于標(biāo)準(zhǔn)正態(tài)分布變量Z,有P(Z>za)=a。圖4.6表示了0.05上側(cè)分位數(shù)za=z0.05及相應(yīng)的尾概率(a=0.05)。有些書用符號(hào)z1-a而不是za;因此在看參考文獻(xiàn)時(shí)要注意符號(hào)的定義?!?.4.1正態(tài)分布通常用za表示標(biāo)準(zhǔn)正態(tài)分布的a上側(cè)分位62N(0,1)分布右側(cè)尾概率P(z>za)=a的示意圖N(0,1)分布右側(cè)尾概率P(z>za)=a的示意圖63§4.4.2c2-分布一個(gè)由正態(tài)變量導(dǎo)出的分布是c2-分布(chi-squaredistribution,也翻譯為卡方分布)。該分布在一些檢驗(yàn)中會(huì)用到。n個(gè)獨(dú)立正態(tài)變量平方和稱為有n個(gè)自由度的c2-分布,記為c2(n)。c2-分布為一族分布,成員由自由度區(qū)分。由于c2-分布變量為正態(tài)變量的平方和,它不會(huì)取負(fù)值。§4.4.2c2-分布一個(gè)由正態(tài)變量導(dǎo)出的分布是c2-分布64自由度為2、3、5的c2-分布密度曲線圖自由度為2、3、5的c2-分布密度曲線圖65§4.4.3t-分布正態(tài)變量的樣本均值也是正態(tài)變量,能利用減去其均值再除以其(總體)標(biāo)準(zhǔn)差來得到標(biāo)準(zhǔn)正態(tài)變量。但用樣本標(biāo)準(zhǔn)差來代替未知的總體標(biāo)準(zhǔn)差時(shí),得到的結(jié)果分布就不再是標(biāo)準(zhǔn)正態(tài)分布了。它的密度曲線看上去有些象標(biāo)準(zhǔn)正態(tài)分布,但是中間瘦一些,而且尾巴長一些。這種分布稱為t-分布(t-distribution,或?qū)W生分布,Student’st)。§4.4.3t-分布正態(tài)變量的樣本均值也是正態(tài)變量,能利66§4.4.3t-分布不同的樣本量通過標(biāo)準(zhǔn)化所產(chǎn)生的t分布也不同,這樣就形成一族分布。t分布族中的成員是以自由度來區(qū)分的。這里的自由度等于樣本量減去1(如果樣本量為n,剛才定義的t分布的自由度為n-1)。由于產(chǎn)生t分布的方式很多,簡單說自由度就是樣本量減1是不準(zhǔn)確的。自由度甚至不一定是整數(shù)?!?.4.3t-分布不同的樣本量通過標(biāo)準(zhǔn)化所產(chǎn)生的t分布67標(biāo)準(zhǔn)正態(tài)分布和t(1)分布的密度圖

標(biāo)準(zhǔn)正態(tài)分布和t(1)分布的密度圖68§4.4.3t-分布通常用ta表示t分布相應(yīng)于右側(cè)尾概率a的t變量的a上側(cè)分位數(shù),即對于t分布變量T,有P(T>ta)=a。在突出自由度時(shí),也用tn,a,也有用t1-a或tn,1-a表示的。圖4.9表示了自由度為2的t(2)分布右邊的尾概率(a=0.05)?!?.4.3t-分布通常用ta表示t分布相應(yīng)于右側(cè)尾概率69t(2)分布右側(cè)尾概率P(t>ta)=a的示意圖t(2)分布右側(cè)尾概率P(t>ta)=a的示意圖70§4.4.4F-分布F-分布變量為兩個(gè)c2-分布變量(在除以它們各自自由度之后)的比;而兩個(gè)c2-分布的自由度則為F-分布的自由度,因此,F(xiàn)-分布有兩個(gè)自由度;第一個(gè)自由度等于在分子上的c2-分布的自由度,第二個(gè)自由度等于在分母的c2-分布的自由度?!?.4.4F-分布F-分布變量為兩個(gè)c2-分布變量(在除71自由度為(3,20)和(50,20)的F-分布密度曲線圖

自由度為(3,20)和(50,20)的F-分布密度曲線圖72§4.5累積分布函數(shù)在前面離散分布的情況可以用p(x)表示該變量取值x的概率,如果用大寫英文字母X表示相應(yīng)的隨機(jī)變量,那么概率P(X=x)=p(x)。而§4.5累積分布函數(shù)在前面離散分布的情況可以用p(x)表示73§4.5累積分布函數(shù)在連續(xù)分布的情況,可以用f(x)表示密度函數(shù),則概率(注意在連續(xù)分布中,某單獨(dú)點(diǎn)的概率為0,因此下式中的不等式中的等式可以去掉)§4.5累積分布函數(shù)在連續(xù)分布的情況,可以用f(x)表示密74§4.5累積分布函數(shù)為了計(jì)算概率,只知道密度函數(shù)對于查表或應(yīng)用軟件來得到已知分布的概率是不方便的,最好能夠知道隨機(jī)變量小于或等于某值的概率。在上面公式中,如果知道了下面的值就可以計(jì)算所需的概率了(統(tǒng)計(jì)書中的多數(shù)分布表的概率是以下面累積分布函數(shù)的形式給出的):§4.5累積分布函數(shù)為了計(jì)算概率,只知道密度函數(shù)對于查表或75§4.5累積分布函數(shù)隨機(jī)變量小于或等于某個(gè)數(shù)值的概率就稱為累積分布函數(shù)(cumulativedistributionfunction,簡稱cdf)或分布函數(shù)。累積分布函數(shù)概念的引進(jìn),對于查表或使用軟件得到概率(根據(jù)上面兩個(gè)公式)是很方便的。多數(shù)概率分布表都是以累積分布函數(shù)的形式出現(xiàn)的。在后面介紹軟件時(shí),還要舉例說明如何利用累積分布函數(shù)。§4.5累積分布函數(shù)隨機(jī)變量小于或等于某個(gè)數(shù)值的概率就稱為76§4.6用小概率事件進(jìn)行判斷判明一個(gè)事情的真?zhèn)危枰檬聦?shí)說話。在統(tǒng)計(jì)中事實(shí)總是來源于數(shù)據(jù)。假定某藥廠聲稱該廠生產(chǎn)的某種藥品有60%的療效。但是當(dāng)實(shí)際調(diào)查了100名使用該藥物的患者之后,發(fā)現(xiàn)有40名患者服后有效。這個(gè)數(shù)據(jù)是否支持藥廠的說法呢?藥廠所支持的模型實(shí)際上是一個(gè)參數(shù)為0.6的Bernoulli試驗(yàn)?zāi)P汀?00名患者的服藥,實(shí)際上等于進(jìn)行了100次試驗(yàn)。這就是二項(xiàng)分布B(100,0.6)模型。§4.6用小概率事件進(jìn)行判斷判明一個(gè)事情的真?zhèn)?,需要用事?shí)77§4.6用小概率事件進(jìn)行判斷由于使用了藥廠的0.6成功概率。這個(gè)模型是基于藥廠的觀點(diǎn)的??梢曰谶@個(gè)模型計(jì)算100名患者中有少于或等于40名患者治療有效的概率。通過計(jì)算(或查表,后面會(huì)詳細(xì)描述)易得,在藥廠觀點(diǎn)正確的假定下,這個(gè)概率為0.000042。這說明,如果藥廠正確,那么只有40名患者有效這個(gè)事實(shí)是個(gè)小概率事件,即“少于或等于40名患者有效”的可能性只有大約十萬分之四?!?.6用小概率事件進(jìn)行判斷由于使用了藥廠的0.6成功概率78§4.6用小概率事件進(jìn)行判斷這樣在藥廠的觀點(diǎn)和事實(shí)之間有了矛盾。是事實(shí)準(zhǔn)確還是藥廠準(zhǔn)確呢?顯然人們一般不會(huì)認(rèn)為藥廠的說法可以接受。這樣,就利用小概率事件來拒絕了藥廠的說法。這種用小概率事件對假定的模型進(jìn)行判斷是后面要介紹的假設(shè)檢驗(yàn)的基礎(chǔ)?!?.6用小概率事件進(jìn)行判斷這樣在藥廠的觀點(diǎn)和事實(shí)之間有了79演講完畢,謝謝觀看!演講完畢,謝謝觀看!80統(tǒng)計(jì)學(xué)─從數(shù)據(jù)到結(jié)論統(tǒng)計(jì)學(xué)─從數(shù)據(jù)到結(jié)論81第四章機(jī)會(huì)的度量:

概率和分布第四章機(jī)會(huì)的度量:

概率和分布82概率是0和1之間的一個(gè)數(shù)目,表示某個(gè)事件發(fā)生的可能性或經(jīng)常程度。你買彩票中大獎(jiǎng)的機(jī)會(huì)很小(接近0)但有人中大獎(jiǎng)的概率幾乎為1你被流星擊中的概率很小(接近0)但每分鐘有流星擊中地球的概率為1你今天被汽車撞上的概率幾乎是0但在北京每天發(fā)生車禍的概率是1。概率是0和1之間的一個(gè)數(shù)目,表示某個(gè)事件發(fā)生的可能性或經(jīng)常程83發(fā)生概率很小的事件稱為小概率事件(smallprobabilityevent);小概率事件不那么可能發(fā)生,但它往往比很可能發(fā)生的事件更值得研究。在某種意義上,新聞媒體的主要注意力大都集中在小概率事件上。發(fā)生概率很小的事件稱為小概率事件(smallprobabi84§4.1得到概率的幾種途徑1.利用等可能事件如果一個(gè)骰子是公平的,那么擲一次骰子會(huì)以等可能(概率1/6,6種可能之一)得到1至6點(diǎn)的中的每一個(gè)點(diǎn)。拋一個(gè)公平的硬幣,則以等可能(概率1/2)出現(xiàn)正面或反面?!?.1得到概率的幾種途徑1.利用等可能事件85§4.1得到概率的幾種途徑再如從52張牌中隨機(jī)抽取一張,那么它是黑桃的概率為抽取黑桃的可能(k=13)和總可能性(n=52)之比,即k/n=13/52=1/4;類似地抽到的牌是J、Q、K、A四種(共有16種可能)的概率是16/52=4/13?!?.1得到概率的幾種途徑再如從52張牌中隨機(jī)抽取一張,那86§4.1得到概率的幾種途徑其實(shí)即使沒有學(xué)過概率,讀者也多半能夠算出這些概率。計(jì)算這些概率的基礎(chǔ)就是事先知道(或者假設(shè))某些事件是等可能的。這種事件為等可能事件(equallylikelyevent)。§4.1得到概率的幾種途徑其實(shí)即使沒有學(xué)過概率,讀者也多半87§4.1得到概率的幾種途徑2.根據(jù)長期相對頻數(shù)事件并不一定是等可能的,或者人們對于其出現(xiàn)的可能性一無所知。這時(shí)就要靠觀察它在大量重復(fù)試驗(yàn)中出現(xiàn)的頻率來估計(jì)它出現(xiàn)的概率。它約等于事件出現(xiàn)的頻數(shù)k除以重復(fù)試驗(yàn)的次數(shù)n,該比值k/n稱為相對頻數(shù)(relativefrequency)或頻率?!?.1得到概率的幾種途徑2.根據(jù)長期相對頻數(shù)88§4.1得到概率的幾種途徑例如,刮發(fā)票的中獎(jiǎng)密封時(shí),大多得到“謝謝”。如果你刮了150張發(fā)票,只有3張中獎(jiǎng),你會(huì)認(rèn)為,你的中獎(jiǎng)概率大約是3/150=0.02如果一個(gè)學(xué)生在200次上課時(shí),無故曠課10次,那么其曠課的概率可能被認(rèn)為接近10/200=0.05§4.1得到概率的幾種途徑例如,刮發(fā)票的中獎(jiǎng)密封時(shí),大多得89§4.1得到概率的幾種途徑試驗(yàn)次數(shù)n越大則該值越接近于想得到的概率。很多事件無法進(jìn)行長期重復(fù)試驗(yàn)。因此這種通過相對頻數(shù)獲得概率的方法也并不是萬能的。雖然如此,用相對頻數(shù)來確定概率的方法是很常用的。你們可以舉出無數(shù)類似的例子§4.1得到概率的幾種途徑試驗(yàn)次數(shù)n越大則該值越接近于想得90§4.1得到概率的幾種途徑3.主觀概率一些概率既不能由等可能性來計(jì)算,也不可能從試驗(yàn)得出。比如,你今年想學(xué)開車概率、你五年內(nèi)去歐洲旅游的概率等這種概率稱為主觀概率(subjectiveprobability)??梢哉f,主觀概率是一次事件的概率。或?yàn)榛谒莆盏男畔?,某人對某事件發(fā)生的自信程度?!?.1得到概率的幾種途徑3.主觀概率91§4.2概率的運(yùn)算

在擲骰子中,得到6點(diǎn)的概率是1/6,而得到5點(diǎn)的概率也是1/6。那么擲一次骰子得到5或者6的概率是多少呢?在擲10次骰子中有一半或以上的次數(shù)得到5或6的概率又是多少呢?讀者很快就可能很快會(huì)得到答案。但再復(fù)雜一些,也許就不簡單了。§4.2概率的運(yùn)算在擲骰子中,得到6點(diǎn)的概率是1/6,而92§4.2概率的運(yùn)算

我們需要了解怎樣從簡單的情況計(jì)算稍微復(fù)雜情況時(shí)的概率。需要讀者回憶一下上中學(xué)時(shí)學(xué)過的集合概念,比如兩個(gè)集合的交和并,互余(互補(bǔ))等概念。在概率論中所說的事件(event)相當(dāng)于集合論中的集合(set)。而概率則是事件的某種函數(shù)。為什么會(huì)這么說呢,讓我們看擲兩個(gè)骰子的試驗(yàn)。§4.2概率的運(yùn)算我們需要了解怎樣從簡單的情況計(jì)算稍微復(fù)93§4.2概率的運(yùn)算

如所關(guān)心的是兩骰子點(diǎn)數(shù)之和,則下表包含了所有36種可能試驗(yàn)結(jié)果的搭配和相應(yīng)的點(diǎn)數(shù)和?!?.2概率的運(yùn)算如所關(guān)心的是兩骰子點(diǎn)數(shù)之和,則下表包含94可以看出,如果我們考慮點(diǎn)數(shù)和等于2的事件,則僅有一種可能的試驗(yàn)結(jié)果(兩個(gè)骰子均為一點(diǎn));而如果我們考慮點(diǎn)數(shù)和等于7的事件,則有六種可能的試驗(yàn)結(jié)果。兩個(gè)骰子點(diǎn)數(shù)之和總共有2至12等11種可能,即有11種可能的事件,而這11種事件相應(yīng)于上面所說的36種可能的試驗(yàn)結(jié)果的一些集合。這些事件和試驗(yàn)結(jié)果的集合歸納在下面表中:可以看出,如果我們考慮點(diǎn)數(shù)和等于2的事件,則僅有一種可能的試95§4.2概率的運(yùn)算:1.互補(bǔ)事件的概率如果今天下雨的概率是10%,則今天不下雨的概率就是90%。如果你中獎(jiǎng)的概率是0.0001,那么不中獎(jiǎng)的概率就是1-0.0001=0.9999。這種如果一個(gè)不出現(xiàn),則另一個(gè)肯定出現(xiàn)的兩個(gè)事件稱為互補(bǔ)事件(complementaryevents,或者互余事件或?qū)α⑹录??!?.2概率的運(yùn)算:1.互補(bǔ)事件的概率如果今天下雨的概率96§4.2概率的運(yùn)算:1.互補(bǔ)事件的概率按照集合的記號(hào),如果一個(gè)事件記為A,那么另一個(gè)記為AC(稱為A的余集或補(bǔ)集)。顯然互補(bǔ)事件的概率之和為1,即P(A)+P(AC)=1,或者P(AC)=1-P(A)。在西方賭博時(shí)常常愛用優(yōu)勢或賠率(odds)來形容輸贏的可能。它是互補(bǔ)事件概率之比,即P(A)/P(AC)=P(A)/[1-P(A)]來表示?!?.2概率的運(yùn)算:1.互補(bǔ)事件的概率按照集合的記號(hào),如97§4.2概率的運(yùn)算:2.概率的加法如果兩個(gè)事件不可能同時(shí)發(fā)生,那么至少其中之一發(fā)生的概率為這兩個(gè)概率的和。比如“擲一次骰子得到3或者6點(diǎn)”的概率是“得到3點(diǎn)”的概率與“得到6點(diǎn)”的概率之和,即1/6+1/6=1/3。但是如果兩個(gè)事件可能同時(shí)發(fā)生時(shí)這樣做就不對了?!?.2概率的運(yùn)算:2.概率的加法如果兩個(gè)事件不可能同時(shí)98§4.2概率的運(yùn)算:2.概率的加法假定擲骰子時(shí),一個(gè)事件A為“得到偶數(shù)點(diǎn)”(有3種可能:2、4、6點(diǎn)),另一個(gè)事件B為“得到大于或等于3點(diǎn)”(有4種可能:3、4、5、6點(diǎn));這樣,事件A的概率顯然等于3/6=1/2,即P(A)=1/2。而事件B的概率為P(B)=4/6=2/3。但是,“得到大于或等于3點(diǎn)或者偶數(shù)點(diǎn)”的事件的概率就不是P(A)+P(B)=1/2+2/3=7/6了;§4.2概率的運(yùn)算:2.概率的加法假定擲骰子時(shí),一個(gè)事件99§4.2概率的運(yùn)算:2.概率的加法這顯然多出來了。概率怎么能夠大于1呢?按照中學(xué)時(shí)關(guān)于集合的記號(hào),該事件稱為A和B的并,記為A∪B。剛才多出來的部分就是A和B的共同部分A∩B(稱為A和B的交)的概率(這個(gè)概率算了兩遍);它為“得到既是偶數(shù),又大于等于3”的部分,即4和6兩點(diǎn)。出現(xiàn)事件4或者6的概率為1/6+1/6=1/3。§4.2概率的運(yùn)算:2.概率的加法這顯然多出來了。概率怎100§4.2概率的運(yùn)算:2.概率的加法于是應(yīng)該把算重了的概率減去。這樣“得到大于或等于3點(diǎn)或者偶數(shù)點(diǎn)”的事件A∪B的概率就是P(A∪B)=P(A)+P(B)-P(A∩B)=1/2+2/3-1/3=5/6。這種P(A∪B)=P(A)+P(B)-P(A∩B)的公式也適用于兩個(gè)不可能同時(shí)發(fā)生的事件;但因?yàn)槟菚r(shí)P(A∩B)=0,所以只剩下P(A∪B)=P(A)+P(B)了?!?.2概率的運(yùn)算:2.概率的加法于是應(yīng)該把算重了的概率101§4.2概率的運(yùn)算:2.概率的加法這種交等于空集(A∩B=F,這里F表示空集或空事件)的事件為兩個(gè)不可能同時(shí)發(fā)生的事件,稱為互不相容事件(mutuallyexclusiveevents)?!?.2概率的運(yùn)算:2.概率的加法這種交等于空集(A∩B102§4.2概率的運(yùn)算:3.概率的乘法如果你有一個(gè)固定電話和一個(gè)手機(jī),假定固定電話出毛病的概率為0.01,而手機(jī)出問題的概率為0.05,那么,兩個(gè)電話同時(shí)出毛病的概率是多少呢?聰明的讀者馬上會(huì)猜出,是0.01×0.05=0.0005。但是這種乘法法則,即P(A∩B)=P(A)P(B),僅僅在兩個(gè)事件獨(dú)立(independent)時(shí)才成立?!?.2概率的運(yùn)算:3.概率的乘法如果你有一個(gè)固定電話和103§4.2概率的運(yùn)算:3.概率的乘法如果事件不獨(dú)立則需要引進(jìn)條件概率(conditionalprobability)。比如三個(gè)人抽簽,而只有一個(gè)人能夠抽中,因此每個(gè)人抽中的機(jī)會(huì)是1/3。假定用A1、A2和A3分別代表這三個(gè)人抽中的事件,那么,P(A1)=P(A2)=P(A3)=1/3。§4.2概率的運(yùn)算:3.概率的乘法如果事件不獨(dú)立則需要引104§4.2概率的運(yùn)算:3.概率的乘法但是由于一個(gè)人抽中,其他人就不可能抽中,所以,這三個(gè)事件不獨(dú)立。剛才的乘法規(guī)則不成立;這時(shí),P(A1∩A3)=P(A1∩A2)=P(A2∩A3)=0;如錯(cuò)誤照搬乘法規(guī)則會(huì)得到錯(cuò)誤的(1/3)2=1/9?!?.2概率的運(yùn)算:3.概率的乘法但是由于一個(gè)人抽中,其105§4.2概率的運(yùn)算:3.概率的乘法但是可以計(jì)算條件概率,比如第一個(gè)人抽到(事件A1),則在這個(gè)條件下其他兩個(gè)人抽到的概率都為0;記為P(A2|A1)=P(A3|A1)=0。如第一個(gè)人沒有抽到(事件A1C),那么其他兩人抽到的概率均為1/2,記為P(A2|A1C)=P(A3|A1C)=1/2?!?.2概率的運(yùn)算:3.概率的乘法但是可以計(jì)算條件概率,106§4.2概率的運(yùn)算:3.概率的乘法一般地,在一個(gè)事件B已經(jīng)發(fā)生的情況下,事件A發(fā)生的條件概率定義為(貝葉斯公式)§4.2概率的運(yùn)算:3.概率的乘法一般地,在一個(gè)事件B已107分布隨機(jī)變量取一切可能值或范圍的概率或概率的規(guī)律稱為概率分布(probabilitydistribution,簡稱分布)。概率分布可以用各種圖或表來表示;一些可以用公式來表示。概率分布是關(guān)于總體的概念。有了概率分布就等于知道了總體。分布隨機(jī)變量取一切可能值或范圍的概率或概率的規(guī)律稱為概率分布108分布前面介紹過的樣本均值、樣本標(biāo)準(zhǔn)差和樣本方差等樣本特征的概念是相應(yīng)的總體特征的反映。我們也有描述變量“位置”的總體均值、總體中位數(shù)、總體百分位數(shù)以及描述變量分散(集中)程度的總體標(biāo)準(zhǔn)差和總體方差等概念。具體公式見本章后面小結(jié)分布前面介紹過的樣本均值、樣本標(biāo)準(zhǔn)差和樣本方差等樣本特征的概109§4.3離散變量的分布離散變量只取離散的值,比如骰子的點(diǎn)數(shù)、網(wǎng)站點(diǎn)擊數(shù)、顧客人數(shù)等等。每一種取值都有某種概率。各種取值點(diǎn)的概率總和應(yīng)該是1。當(dāng)然離散變量不不僅僅限于取非負(fù)整數(shù)值。一般來說,某離散隨機(jī)變量的每一個(gè)可能取值xi都相應(yīng)于取該值的概率p(xi),這些概率應(yīng)該滿足關(guān)系§4.3離散變量的分布離散變量只取離散的值,比如骰子的點(diǎn)數(shù)110§4.3.1二項(xiàng)分布最簡單的離散分布應(yīng)該是基于可重復(fù)的有兩結(jié)果(比如成功和失?。┑南嗤?dú)立試驗(yàn)(每次試驗(yàn)成功概率相同)的分布,例如拋硬幣。比如用p代表得到硬幣正面的概率,那么1-p則是得到反面的概率。如果知道p,這個(gè)拋硬幣的試驗(yàn)的概率分布也就都知道了?!?.3.1二項(xiàng)分布最簡單的離散分布應(yīng)該是基于可重復(fù)的有兩111§4.3.1二項(xiàng)分布這種有兩個(gè)可能結(jié)果的試驗(yàn)有兩個(gè)特點(diǎn):一是各次試驗(yàn)互相獨(dú)立,二是每次試驗(yàn)得到一種結(jié)果的概率不變(這里是得到正面的概率總是p)。類似于拋硬幣的僅有兩種結(jié)果的重復(fù)獨(dú)立試驗(yàn)被稱為Bernoulli試驗(yàn)(Bernoullitrials)?!?.3.1二項(xiàng)分布這種有兩個(gè)可能結(jié)果的試驗(yàn)有兩個(gè)特點(diǎn):112§4.3.1二項(xiàng)分布下面試驗(yàn)可看成為Bernoulli試驗(yàn):每一個(gè)進(jìn)入某商場的顧客是否購買某商品每個(gè)被調(diào)查者是否認(rèn)可某種產(chǎn)品每一個(gè)新出嬰兒的性別。根據(jù)這種簡單試驗(yàn)的分布,可以得到基于這個(gè)試驗(yàn)的更加復(fù)雜事件的概率。§4.3.1二項(xiàng)分布下面試驗(yàn)可看成為Bernoulli試驗(yàn)113§4.3.1二項(xiàng)分布為了方便,人們通常稱Bernoulli試驗(yàn)的兩種結(jié)果為“成功”和“失敗”。和Bernoulli試驗(yàn)相關(guān)的最常見的問題是:如果進(jìn)行n次Bernoulli試驗(yàn),每次成功的概率為p,那么成功k次的概率是多少?這個(gè)概率的分布就是所謂的二項(xiàng)分布(binomialdistribution)?!?.3.1二項(xiàng)分布為了方便,人們通常稱Bernoulli114§4.3.1二項(xiàng)分布這個(gè)分布有兩個(gè)參數(shù),一個(gè)是試驗(yàn)次數(shù)n,另一個(gè)是每次試驗(yàn)成功的概率p?;诖耍?xiàng)分布用符號(hào)B(n,p)或Bin(n,p)表示。由于n和p可以根據(jù)實(shí)際情況取各種不同的值,因此二項(xiàng)分布是一族分布,族內(nèi)的分布以這兩個(gè)參數(shù)來區(qū)分。§4.3.1二項(xiàng)分布這個(gè)分布有兩個(gè)參數(shù),一個(gè)是試驗(yàn)次數(shù)n,115§4.3.1二項(xiàng)分布二項(xiàng)分布的概率通常用二項(xiàng)分布表來查出。但一般統(tǒng)計(jì)軟件可以很容易得到這個(gè)概率。在目前統(tǒng)計(jì)軟件發(fā)達(dá)的情況下,涉及的二項(xiàng)分布一般都自動(dòng)處理了;在處理實(shí)際問題中很少會(huì)遇到直接計(jì)算二項(xiàng)分布概率的情況?!?.3.1二項(xiàng)分布二項(xiàng)分布的概率通常用二項(xiàng)分布表來查出。116§4.3.1二項(xiàng)分布但這里還是給出其一般公式。下面p(k)代表在n次Bernoulli試驗(yàn)中成功的次數(shù)的概率,p為每次試驗(yàn)成功的概率。有這里為二項(xiàng)式系數(shù),或記為§4.3.1二項(xiàng)分布但這里還是給出其一般公式。下面p(k)117圖4.1九個(gè)二項(xiàng)分布B(5,p)(p=0.1到0.9)的概率分布圖圖4.1九個(gè)二項(xiàng)分布B(5,p)118§4.3.2多項(xiàng)分布和二項(xiàng)分布最類似的是多項(xiàng)分布(multinomialdistribution)。二項(xiàng)分布的每次試驗(yàn)中只有兩種可能的結(jié)果,而多項(xiàng)分布則在每次試驗(yàn)中有多種可能的結(jié)果?!?.3.2多項(xiàng)分布和二項(xiàng)分布最類似的是多項(xiàng)分布(mult119§4.3.2多項(xiàng)分布比如在調(diào)查顧客對5個(gè)品牌的飲料的選擇中,每種品牌都會(huì)以一定的概率中選,假定這些概率為p1,p2,p3,p4,p5。每次試驗(yàn)的結(jié)果只可能有一個(gè),因此這些概率的和為1,即p1+p2+p3+p4+p5=1。在多項(xiàng)分布問題中(用上面5個(gè)品牌的例子說明),所關(guān)心的是在n次試驗(yàn)中(這里是調(diào)查),選擇5個(gè)品牌的人數(shù)分別為m1,m2,m3,m4,m5的概率。自然m1+m2+m3+m4+m5=n?!?.3.2多項(xiàng)分布比如在調(diào)查顧客對5個(gè)品牌的飲料的選擇中120§4.3.2多項(xiàng)分布類似于二項(xiàng)分布,多項(xiàng)分布的符號(hào)可以為M(n;p1,p2,p3,p4,p5),也有用“MN”或“Multi”來表示;§4.3.2多項(xiàng)分布類似于二項(xiàng)分布,多項(xiàng)分布的符號(hào)可以為M121§4.3.3Poisson分布另一個(gè)常用離散分布是Poisson分布(翻譯成“泊松分布”或“普阿松分布”)。它可以認(rèn)為是衡量某種事件在一定期間出現(xiàn)的數(shù)目的概率。比如說在一定時(shí)間內(nèi)顧客的人數(shù)、打入電話總機(jī)電話的個(gè)數(shù)、放射性物質(zhì)放射出來并到達(dá)某區(qū)域的粒子數(shù)等等。§4.3.3Poisson分布另一個(gè)常用離散分布是Pois122§4.3.3Poisson分布在不同條件下,同樣事件在單位時(shí)間中出現(xiàn)同等數(shù)目的概率不盡相同。比如中午和晚上某商店在10分鐘內(nèi)出現(xiàn)5個(gè)顧客的概率就不一定相同。因此,Poisson分布也是一個(gè)分布族。族中不同成員的區(qū)別在于事件出現(xiàn)數(shù)目的均值l不一樣?!?.3.3Poisson分布在不同條件下,同樣事件在單位123§4.3.3Poisson分布參數(shù)為l的Poisson分布變量的概率分布為(p(k)表示Poisson變量等于k的概率)§4.3.3Poisson分布參數(shù)為l的Poisson分布124參數(shù)為3、6、10的Poisson分布(只標(biāo)出了20之內(nèi)的部分)

這里點(diǎn)間的連線沒有意義,僅僅為讀者容易識(shí)別而畫,因?yàn)镻oisson變量僅取非負(fù)整數(shù)值參數(shù)為3、6、10的Poisson分布(只標(biāo)出了20之內(nèi)的部125§4.3.4超幾何分布假定有一批500個(gè)產(chǎn)品,而其中有5個(gè)次品。假定該產(chǎn)品的質(zhì)量檢查采取隨機(jī)抽取20個(gè)產(chǎn)品進(jìn)行檢查。如果抽到的20個(gè)產(chǎn)品中含有2個(gè)或更多不合格產(chǎn)品,則整個(gè)500個(gè)產(chǎn)品將會(huì)被退回。這時(shí),人們想知道,該批產(chǎn)品被退回的概率是多少?這種概率就滿足超幾何分布(hypergeometricdistribution)?!?.3.4超幾何分布假定有一批500個(gè)產(chǎn)品,而其中有5個(gè)126§4.3.4超幾何分布這是一種所謂的“不放回抽樣”,也就是說,一次抽取若干物品,每檢查一個(gè)之后并不放回;超幾何分布族的成員被三個(gè)參數(shù)決定,這里相應(yīng)于產(chǎn)品總個(gè)數(shù)n,其中不合格產(chǎn)品數(shù)目m,不放回抽樣的數(shù)目t;而樣本中有x個(gè)不合格產(chǎn)品的概率為§4.3.4超幾何分布這是一種所謂的“不放回抽樣”,也就是127§4.4連續(xù)變量的分布取連續(xù)值的變量,如高度、長度、重量、時(shí)間、距離等等;它們被稱為連續(xù)變量(continuousvariable)。換言之,一個(gè)隨機(jī)變量如果能夠在一區(qū)間(無論這個(gè)區(qū)間多么?。﹥?nèi)取任何值,則該變量稱為在此區(qū)間內(nèi)是連續(xù)的,其分布稱為連續(xù)型概率分布。它們的概率分布很難準(zhǔn)確地用離散變量概率的條形圖表示?!?.4連續(xù)變量的分布取連續(xù)值的變量,如高度、長度、重量、128§4.4連續(xù)變量的分布想象連續(xù)變量觀測值的直方圖;如果其縱坐標(biāo)為相對頻數(shù),那么所有這些矩形條的高度和為1;完全可以重新設(shè)置量綱,使得這些矩形條的面積和為1。不斷增加觀測值及直方圖的矩形條的數(shù)目,直方圖就會(huì)越來越像一條光滑曲線,其下面的面積和為1。該曲線即所謂概率密度函數(shù)(probabilitydensityfunction,pdf),簡稱密度函數(shù)或密度。下圖為這樣形成的密度曲線。§4.4連續(xù)變量的分布想象連續(xù)變量觀測值的直方圖;如果其縱129逐漸增加矩形條數(shù)目的直方圖和一個(gè)形狀類似的密度曲線。

逐漸增加矩形條數(shù)目的直方圖和一個(gè)形狀類似的密度曲線。130§4.4連續(xù)變量的分布連續(xù)變量落入某個(gè)區(qū)間的概率就是概率密度函數(shù)的曲線在這個(gè)區(qū)間上所覆蓋的面積;因此,理論上,這個(gè)概率就是密度函數(shù)在這個(gè)區(qū)間上的積分。對于連續(xù)變量,取某個(gè)特定值的概率都是零,而只有變量取值于某個(gè)(或若干個(gè))區(qū)間的概率才可能大于0。連續(xù)變量密度函數(shù)曲線(這里用f表示)下面覆蓋的總面積為1,即§4.4連續(xù)變量的分布連續(xù)變量落入某個(gè)區(qū)間的概率就是概率密131§4.4.1正態(tài)分布在北京市場上的精制鹽很多是一公斤袋裝,上面標(biāo)有“凈含量1kg”的字樣。但當(dāng)你用稍微精確一些的天平稱那些袋裝鹽的重量時(shí),會(huì)發(fā)現(xiàn)有些可能會(huì)重些,有些可能會(huì)輕些;但都是在1kg左右。多數(shù)離1kg不遠(yuǎn),離1kg越近就越可能出現(xiàn),離1kg越遠(yuǎn)就越不可能。一般認(rèn)為這種重量分布近似地服從最常用的正態(tài)分布(normaldistribution,又叫高斯分布,Gaussiandistribution)?!?.4.1正態(tài)分布在北京市場上的精制鹽很多是一公斤袋裝,132§4.4.1正態(tài)分布近似地服從正態(tài)分布的變量很常見,象測量誤差、商品的重量或尺寸、某年齡人群的身高和體重等等。在一定條件下,許多不是正態(tài)分布的樣本均值在樣本量很大時(shí),也可用正態(tài)分布來近似?!?.4.1正態(tài)分布近似地服從正態(tài)分布的變量很常見,象測量133§4.4.1正態(tài)分布正態(tài)分布的密度曲線是一個(gè)對稱的鐘型曲線(最高點(diǎn)在均值處)。正態(tài)分布也是一族分布,各種正態(tài)分布根據(jù)它們的均值和標(biāo)準(zhǔn)差不同而有區(qū)別。一個(gè)正態(tài)分布用N(m,s)表示;其中m為均值,而s為標(biāo)準(zhǔn)差。也常用N(m,s2)來表示,這里s2為方差(標(biāo)準(zhǔn)差的平方)?!?.4.1正態(tài)分布正態(tài)分布的密度曲線是一個(gè)對稱的鐘型曲線134§4.4.1正態(tài)分布標(biāo)準(zhǔn)差為1的正態(tài)分布N(0,1)稱為標(biāo)準(zhǔn)正態(tài)分布(standardnormaldistribution)。標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù)用f(x)表示。任何具有正態(tài)分布N(m,s)的隨機(jī)變量X都可以用簡單的變換(減去其均值m,再除以標(biāo)準(zhǔn)差s):Z=(X-m)/s,而成為標(biāo)準(zhǔn)正態(tài)隨機(jī)變量。這種變換和標(biāo)準(zhǔn)得分的意義類似?!?.4.1正態(tài)分布標(biāo)準(zhǔn)差為1的正態(tài)分布N(0,1)稱為135兩條正態(tài)分布的密度曲線。左邊是N(-2,0.5)分布,右邊是N(0,1)分布

兩條正態(tài)分布的密度曲線。左邊是N(-2,0.5)分布,右邊是136§4.4.1正態(tài)分布當(dāng)然,和所有連續(xù)變量一樣,正態(tài)變量落在某個(gè)區(qū)間的概率就等于在這個(gè)區(qū)間上,密度曲線下面的面積。比如,標(biāo)準(zhǔn)正態(tài)分布變量落在區(qū)間(0.51,1.57)中的概率,就是在標(biāo)準(zhǔn)正態(tài)密度曲線下面在0.51和1.57之間的面積。很容易得到這個(gè)面積等于0.24682;也就是說,標(biāo)準(zhǔn)正態(tài)變量在區(qū)間(0.51,1.57)中的概率等于0.24682。如果密度函數(shù)為f(x),那么這個(gè)面積為積分§4.4.1正態(tài)分布當(dāng)然,和所有連續(xù)變量一樣,正態(tài)變量落在137標(biāo)準(zhǔn)正態(tài)變量在區(qū)間(0.51,1.57)中的概率標(biāo)準(zhǔn)正態(tài)變量在區(qū)間(0.51,1.57)中的概率138§4.4.1正態(tài)分布我們有必要引進(jìn)總體的下側(cè)分位數(shù)、上側(cè)分位數(shù)以及相應(yīng)的尾概率的概念。對于連續(xù)型隨機(jī)變量X,a下側(cè)分位數(shù)(又稱為a分位數(shù),a-quantile)定義為數(shù)xa,它滿足關(guān)系這里的a又稱為下(左)側(cè)尾概率(lower/lefttailprobability)§4.4.1正態(tài)分布我們有必要引進(jìn)總體的下側(cè)分位數(shù)、上側(cè)分139§4.4.1正態(tài)分布而a上側(cè)分位數(shù)(又稱a上分位數(shù),a-upperquantile)定義為數(shù)xa,它滿足關(guān)系這里的a也稱為上(右)側(cè)尾概率(upper/righttailprobability)?!?.4.1正態(tài)分布而a上側(cè)分位數(shù)(又稱a上分位數(shù),a-u140§4.4.1正態(tài)分布對于非連續(xù)型的分布,分位數(shù)的定義稍微復(fù)雜一些;顯然,對于連續(xù)分布,a上側(cè)分位數(shù)等于(1-a)下側(cè)分位數(shù),而(1-a)下側(cè)分位數(shù)等于a上側(cè)分位數(shù)?!?.4.1正態(tài)分布對于非連續(xù)型的分布,分位數(shù)的定義稍微復(fù)141§4.4.1正態(tài)分布通常用za表示標(biāo)準(zhǔn)正態(tài)分布的a上側(cè)分位數(shù),即對于標(biāo)準(zhǔn)正態(tài)分布變量Z,有P(Z>za)=a。圖4.6表示了0.05上側(cè)分位數(shù)za=z0.05及相應(yīng)的尾概率(a=0.05)。有些書用符號(hào)z1-a而不是za;因此在看參考文獻(xiàn)時(shí)要注意符號(hào)的定義?!?.4.1正態(tài)分布通常用za表示標(biāo)準(zhǔn)正態(tài)分布的a上側(cè)分位142N(0,1)分布右側(cè)尾概率P(z>za)=a的示意圖N(0,1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論