(5.1.5)-1.3數(shù)據(jù)統(tǒng)計(jì)描述與分布_第1頁(yè)
(5.1.5)-1.3數(shù)據(jù)統(tǒng)計(jì)描述與分布_第2頁(yè)
(5.1.5)-1.3數(shù)據(jù)統(tǒng)計(jì)描述與分布_第3頁(yè)
(5.1.5)-1.3數(shù)據(jù)統(tǒng)計(jì)描述與分布_第4頁(yè)
(5.1.5)-1.3數(shù)據(jù)統(tǒng)計(jì)描述與分布_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

腳本——數(shù)據(jù)統(tǒng)計(jì)描述與分布(ppt1,2)同學(xué),你好,這節(jié)課我們來(lái)學(xué)習(xí)數(shù)據(jù)統(tǒng)計(jì)描述與分布。(ppt3)我們先來(lái)了解一下數(shù)據(jù)統(tǒng)計(jì)分布的重要性以及他的分類情況。(ppt4)在我們的日常生活中,數(shù)據(jù)統(tǒng)計(jì)結(jié)果隨處可見(jiàn)。(動(dòng)畫1)例如吸煙對(duì)健康是有害的,吸香煙的男性平均壽命減少壽命2250天;不結(jié)婚的男性會(huì)平均壽命減少壽命3500天;身體超重30%會(huì)使平均壽命壽命減少1300天;每天攝取500毫升維生素C平均壽命可延長(zhǎng)6年;身材高的父親,其子女的身材一般也較高;笫二個(gè)出生的子女一般沒(méi)有笫一個(gè)聰明等。(動(dòng)畫2)那么我們?nèi)绾卫媒y(tǒng)計(jì)的方法來(lái)描述這些數(shù)據(jù)的統(tǒng)計(jì)分布規(guī)律呢?(ppt5)下面我們將數(shù)據(jù)分類。(動(dòng)畫1)按照數(shù)據(jù)來(lái)源分類,(動(dòng)畫2)可以分為表格數(shù)據(jù),圖和網(wǎng)絡(luò)以及多媒體數(shù)據(jù)。比如關(guān)系記錄,數(shù)據(jù)矩陣,向量,事物數(shù)據(jù)這些都屬于表格數(shù)據(jù);萬(wàn)維網(wǎng),社交網(wǎng)絡(luò),分子結(jié)構(gòu)等屬于圖和網(wǎng)絡(luò)。文本、圖像,視頻,音頻等屬于多媒體數(shù)據(jù)。(動(dòng)畫3)如果按照數(shù)值變量分類,可以分為連續(xù)型和離散型。連續(xù)性是指其特征可以在實(shí)數(shù)空間任意取值,如溫度、身高、長(zhǎng)度、價(jià)格等,通常由浮點(diǎn)型表示。離散型其值域?yàn)橛邢藜蚩闪屑粢粋€(gè)集合與自然數(shù)集合之間存在一一對(duì)應(yīng)關(guān)系,則這個(gè)集合稱為可列集。如汽車品牌、NBA球隊(duì)等布爾型、等級(jí)型、名義型。(ppt6)接下來(lái)我們來(lái)講解第二部分,數(shù)據(jù)的概括性度量。(ppt7)(動(dòng)畫1)第一種就是數(shù)據(jù)的均值。(動(dòng)畫2)均值也稱為平均數(shù),是一組數(shù)據(jù)相加后除以數(shù)據(jù)個(gè)數(shù)得到的結(jié)果。(動(dòng)畫3)常見(jiàn)的有簡(jiǎn)單平均數(shù)和加權(quán)平均數(shù)。簡(jiǎn)單平均數(shù)是值根據(jù)未經(jīng)分組數(shù)據(jù)計(jì)算的平均數(shù)。設(shè)一組樣本數(shù)據(jù)為??_1,??_2,…,??_??,樣本量(樣本數(shù)據(jù)的個(gè)數(shù))為??。則簡(jiǎn)單樣本平均數(shù)用??

bar表示,計(jì)算公式為:xbar=1/n*sigemai從1到n(x_i)。(ppt8)(動(dòng)畫1)加權(quán)平均數(shù)是指根據(jù)分組數(shù)據(jù)計(jì)算的平均數(shù)。設(shè)原始數(shù)據(jù)被分為k組,各組的組中值分別用??_1,??_2,…,??_??表示,各組變量值出現(xiàn)的頻數(shù)分布用??_1,??_2,…,??_??表示,則樣本加權(quán)平均數(shù)的計(jì)算公式為:??

bar=sigemai從1到k(M_i*f_i)除以??,其中n=sigemai從1到k(f_i)。(動(dòng)畫2)平均數(shù)是統(tǒng)計(jì)中最常用的數(shù)據(jù)代表值,比較可靠和穩(wěn)定,因?yàn)樗c每一個(gè)數(shù)據(jù)都有關(guān),反映出來(lái)的信息最充分。平均數(shù)既可以描述一組數(shù)據(jù)本身的整體平均情況,也可以用來(lái)作為不同組數(shù)據(jù)比較的一個(gè)標(biāo)準(zhǔn)。(ppt9)(動(dòng)畫1)第二種是中位數(shù)。(動(dòng)畫2)當(dāng)特征值的項(xiàng)數(shù)??為奇數(shù)時(shí),處于中間位置的特征值即為中位數(shù);當(dāng)??為偶數(shù)時(shí),中位數(shù)則為處于中間位置的2個(gè)特征值的平均數(shù)。(動(dòng)畫3)中位數(shù)作為一組數(shù)據(jù)的代表,可靠性較差,因?yàn)樗焕昧瞬糠謹(jǐn)?shù)據(jù)。但當(dāng)一組數(shù)據(jù)的個(gè)別數(shù)據(jù)偏大或偏小時(shí),用中位數(shù)來(lái)描述該組數(shù)據(jù)的集中趨勢(shì)就比較合適。(ppt10)(動(dòng)畫1)第三種數(shù)據(jù)的概括性度量是眾數(shù)。(動(dòng)畫2)眾數(shù)是數(shù)據(jù)中出現(xiàn)頻率最高的數(shù)據(jù)。一般情況下,只有在數(shù)據(jù)量較大的情況下,眾數(shù)才有意義。(動(dòng)畫3)眾數(shù)作為一組數(shù)據(jù)的代表,可靠性也較差,因?yàn)樗焕昧瞬糠謹(jǐn)?shù)據(jù)。在一組數(shù)據(jù)中,若個(gè)別數(shù)據(jù)變動(dòng)很大,且某個(gè)數(shù)據(jù)出現(xiàn)的次數(shù)最多,此時(shí)用該數(shù)據(jù)表示這組數(shù)據(jù)的“集中趨勢(shì)”就比較適合。(ppt11)(動(dòng)畫1)第四種是方差。(動(dòng)畫2)方差是各個(gè)數(shù)據(jù)與平均數(shù)之差的平方的和的平均數(shù),計(jì)算公式如下:??方=1/(???1)*sigemai從1到n[(??_?????

bar)]的平方。其中,??

bar表示樣本的平均數(shù),??表示樣本的數(shù)量。(動(dòng)畫3)方差是測(cè)算離散趨勢(shì)最重要、最常用的指標(biāo)之一。當(dāng)數(shù)據(jù)分布比較分散(即數(shù)據(jù)在平均數(shù)附近波動(dòng)較大)時(shí),各個(gè)數(shù)據(jù)與平均數(shù)的差的平方和較大,方差就較大;當(dāng)數(shù)據(jù)分布比較集中時(shí),各個(gè)數(shù)據(jù)與平均數(shù)的差的平方和較小。因此方差越大,數(shù)據(jù)的波動(dòng)越大;方差越小,數(shù)據(jù)的波動(dòng)就越小。(ppt12)(動(dòng)畫1)數(shù)據(jù)距離也是數(shù)據(jù)的一種概括性度量。(見(jiàn)背板)(動(dòng)畫2)先來(lái)看第一個(gè)數(shù)據(jù)距離,閔可夫斯基距離。定義為d(i,j)=(x_i1-x_j1)的絕對(duì)值的h次方+(x_i2-x_j2)的絕對(duì)值的h次方+……+(x_id-x_jd)的絕對(duì)值的h次方,再開(kāi)h次根號(hào)。其中,i=(x_i1,x_i2,…,x_id),j=(x_j1,x_j2,…,x_jd),h為序,上述距離也被稱為??_?范式。(動(dòng)畫3)曼哈頓距離。當(dāng)h=1,??_1范式??(??,??)=|??_??1???_??1|+|??_??2???_??2|+…+|??_???????_????|,定義為曼哈頓距離,其中,??=(??_??1,??_??2,…,??_????),??=(??_??1,??_??2,…,??_????)。(ppt13)(動(dòng)畫1)(見(jiàn)背板)歐氏距離定義。?=2,??_2范式??(??,??)=根號(hào)下(x_i1-x_j1)的絕對(duì)值的平方+(x_i2-x_j2)的絕對(duì)值的平方+……+(x_id-x_jd)的絕對(duì)值的平方,其中,??=(??_??1,??_??2,…,??_????),??=(??_??1,??_??2,…,??_????)。(動(dòng)畫2)第四種距離是余弦相似度。假定??=(??_1,??_2,…,??_??),??=(??_1,??_2,…,??_??)是??,則??與??夾角的余弦??為cos(??)=sigemak從1到n(??_??*y_??)除以(根號(hào)下sigemal從1到n(??_??)的平方與根號(hào)下sigemal從1到n(y_??)的平方的乘積)。(ppt14)下面我們來(lái)講解分布函數(shù)。(ppt15)(動(dòng)畫1)先來(lái)看離散型的概率分布。第一種伯努利分布。(動(dòng)畫2)伯努利試驗(yàn),即只有兩種可能結(jié)果的單次隨機(jī)試驗(yàn)。進(jìn)行一次伯努利試驗(yàn),成功(X=1)的概率為p,失敗(X=0)的概率為1?p,則稱隨機(jī)變量X服從伯努利分布。其概率分布列為P(x)=p的x次方乘以(1-p)的(1-x)次方,即當(dāng)x=1時(shí),概率為p;當(dāng)x=0時(shí),概率為q。伯努利分布的期望和方差為μ=E(X)=p,σ^2=p(1?p)。(動(dòng)畫3)例如拋一次均勻硬幣的結(jié)果只有正面和反面;特定機(jī)器生產(chǎn)的零件的是有缺陷的還是無(wú)缺陷的等,均屬于伯努利分布。(ppt16)在python中用binomial=binom.pmf(k,n,p)計(jì)算概率分布律。(ppt17)(動(dòng)畫1)下面我們來(lái)看二項(xiàng)分布,也是一種離散型的概率分布。(動(dòng)畫2)二項(xiàng)分布是??重獨(dú)立伯努利試驗(yàn)成功次數(shù)的離散概率分布。如果試驗(yàn)??是一個(gè)??重伯努利試驗(yàn),每次伯努利試驗(yàn)的成功概率為??,??代表成功的次數(shù),則??的概率分布是二項(xiàng)分布,記為??服從??(??,??)。(見(jiàn)背板)其概率分布列為:??(??)=??,n,x乘以??的??次方乘以(1???)的(1???)次方。二項(xiàng)分布的期望和方差為??=??(??)=????,??方=????(1???)。(動(dòng)畫3)例如保險(xiǎn)公司可以利用二項(xiàng)分布算出公司獲利、虧本的各種情形,以保證公司業(yè)務(wù)量與利潤(rùn)達(dá)到一定要求;在生產(chǎn)活動(dòng)中利用二項(xiàng)分布算出至少需配備多少工人,才能保證設(shè)備發(fā)生故障但不能及時(shí)維修的概率小于0.01等。(ppt18)用python擬合二項(xiàng)分布。n=10表示獨(dú)立實(shí)驗(yàn)次數(shù),p=0.3表示每次事件成功的概率。我們用binomial=binom.pmf(k,n,p)來(lái)計(jì)算概率分布律。(ppt19)(動(dòng)畫1)第三種離散型概率分布,泊松分布。(動(dòng)畫2)泊松分布的參數(shù)??是單位時(shí)間(或單位面積)內(nèi)隨機(jī)事件的平均發(fā)生次數(shù)。用于描述“一定時(shí)間段或一定空間區(qū)域或其他特定單位內(nèi)某一事件出現(xiàn)的次數(shù)”。對(duì)于這類只取非負(fù)整數(shù)的隨機(jī)變量X服從的概率分布稱為泊松分布。(動(dòng)畫3)當(dāng)二項(xiàng)分布的??很大而??很小時(shí),泊松分布可作為二項(xiàng)分布的近似,其中??為????。通常當(dāng)??≧20,??≦0.05時(shí),就可以用以下泊松公式近似計(jì)算。(見(jiàn)背板)??(??=??)=??的??次方除以??的階乘再乘以??的(???)次方,其中??=0,1,…。(動(dòng)畫4)例如一定時(shí)間段內(nèi),某航空公司接到的訂票電話數(shù);一定時(shí)間內(nèi),到車站等候公共汽車的人數(shù);一定路段內(nèi),路面出現(xiàn)損壞的次數(shù);一匹布上發(fā)現(xiàn)的疵點(diǎn)個(gè)數(shù);一定頁(yè)數(shù)的書刊上出現(xiàn)的錯(cuò)別字個(gè)數(shù)等等,都屬于泊松分布。(ppt20)用python擬合泊松分布,rate=5表示每分鐘事件發(fā)生的次數(shù)為5(即??=5);n=np.arange(0,11)表示進(jìn)行10次模擬;我們用y=stats.poisson.pmf(n,rate)來(lái)計(jì)算概率分布律。(ppt21)(動(dòng)畫1)來(lái)看下面一種離散型概率分布——超幾何分布。(動(dòng)畫2)若采用不重復(fù)抽樣(即從總體中抽出一個(gè)個(gè)體觀測(cè)完后不放回總體,然后再繼續(xù)抽下一個(gè)個(gè)體),各次試驗(yàn)并不獨(dú)立,成功的概率也互不相等,而且總體元素的數(shù)目N很小或樣本量n相對(duì)千N來(lái)說(shuō)較大時(shí),二項(xiàng)分布就不再適用。這時(shí),樣本中“成功”的次數(shù)則服從超幾何概率分布,(見(jiàn)背板)記作??~??(??,??,??)。對(duì)于??=??時(shí)有??(??=??)=??_??^??分之??_??^??乘以??_(?????)^(?????),其中??=0,1,?,??,式中,??=??????(??,??),??為試驗(yàn)次數(shù),??為總體中元素個(gè)數(shù),??為總體中代表成功的元素的個(gè)數(shù)。(動(dòng)畫3)例如在產(chǎn)品質(zhì)量檢驗(yàn)的不放回抽檢中,若N件產(chǎn)品中有M件次品,抽檢n件時(shí)所得次品數(shù)用超幾何分布解決;在購(gòu)買股票時(shí)有N只股票,其中有M只是獲利的,若購(gòu)買n只股票,其獲利股的數(shù)量可用超幾何分布解決。(ppt22)用python擬合超幾何分布。N=10表示總體中元素個(gè)數(shù)為10;M=3表示總體中代表成功元素的個(gè)數(shù)為3;n=4表示試驗(yàn)4次;K=3表示試驗(yàn)成功了3次。我們用命令y=stats.hypergeom.pmf(K,M,n,N)來(lái)計(jì)算概率密度函數(shù)(ppt23)(動(dòng)畫1)接下來(lái)我們來(lái)學(xué)習(xí)幾種連續(xù)型分布函數(shù)。第一種時(shí)正態(tài)分布。(動(dòng)畫2)若隨機(jī)變量??服從一個(gè)位置參數(shù)為??、尺度參數(shù)為??的概率分布,且其概率密度函數(shù)為(見(jiàn)背板)f(x)=根號(hào)2派??分之1乘以e的[負(fù)(2??方)分之(?????)的平方]次方。則這個(gè)隨機(jī)變量就稱服從正態(tài)分布,記作??服從??(??,??方)。當(dāng)??=0,??=1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。(動(dòng)畫3)正態(tài)分布可以應(yīng)用在某些醫(yī)學(xué)現(xiàn)象,如同質(zhì)群體的身高、紅細(xì)胞數(shù)、血紅蛋白量、膽固醇等,以及實(shí)驗(yàn)中的隨機(jī)誤差,呈現(xiàn)為正態(tài)或近似正態(tài)分布。(ppt24)用python擬合正態(tài)分布,隨機(jī)生成均值為0,標(biāo)準(zhǔn)差為1的1000個(gè)服從正態(tài)分布的數(shù)mu,sigma=0,1。我們用a=np.random.normal(mu,sigma,size=1000)來(lái)計(jì)算概率密度函數(shù)。(ppt25)(動(dòng)畫1)第二種連續(xù)型分布函數(shù)——均勻分布。(動(dòng)畫2)均勻分布是最簡(jiǎn)單的連續(xù)隨機(jī)變量,它表示在區(qū)間[??,??]內(nèi)任意等長(zhǎng)度區(qū)間內(nèi)事件出現(xiàn)的概率相同這樣一種分布。(動(dòng)畫3)??的概率密度函數(shù)如下:??(??)=1/(?????),當(dāng)??屬于[??,??]時(shí);f(x)=0,當(dāng)??不屬于[??,??]時(shí)。(動(dòng)畫4)例如向區(qū)間(A,B)隨機(jī)投點(diǎn),落點(diǎn)坐標(biāo)X服從均勻分布;時(shí)鐘任意時(shí)針的角度值都是均勻分布。(ppt26)在python中用p=stats.uniform.pdf(x,0,1)來(lái)表示在0到1范圍內(nèi)生成其概率密度函數(shù)。圖中紫色的線即表示其理論概率密度,在0到1的范圍內(nèi),一直為1。(ppt27)(動(dòng)畫1)第三種連續(xù)型分布函數(shù),指數(shù)分布。(動(dòng)畫2)設(shè)隨機(jī)變量??的概率密度函數(shù)如下式,(見(jiàn)背板)??(??,??)=??*??的(?????)次方,??≥0;??(??,??)=0,??<0。其中??是大于0的常數(shù),則稱??為服從參數(shù)??的指數(shù)分布。(動(dòng)畫3)指數(shù)分布與泊松過(guò)程有緊密的聯(lián)系,它具有無(wú)記憶性,在泊松過(guò)程中兩次相繼發(fā)生的事件之間的間隔服從指數(shù)分布,如第??個(gè)顧客與第??+1個(gè)顧客的到達(dá)時(shí)間間隔。(ppt28)在python中我們用p=stats.expon.pdf(x,loc=0,scale=1)計(jì)算指數(shù)分布E(1)的概率密度函數(shù)pdf;用c=stats.expon.cdf(x,loc=0,scale=1)計(jì)算指數(shù)分布E(1)的累計(jì)分布函數(shù)cdf。如圖所示,藍(lán)色線表示概率密度函數(shù),黃色線表示累積分布函數(shù)。(ppt29)接下來(lái)我們來(lái)介紹幾種常見(jiàn)的重要分布。(動(dòng)畫1)第一種是t分布。(動(dòng)畫2)用??樣本表示樣本樣本均值經(jīng)標(biāo)準(zhǔn)化后的新隨機(jī)變量,因此稱為??分布。(動(dòng)畫3)當(dāng)正態(tài)總體標(biāo)準(zhǔn)差未知時(shí),在小樣本條件下對(duì)總體均值的估計(jì)和檢驗(yàn)要用到??分布。??分布的概率即為曲線下面積。(ppt30)用python擬合t分布。x=np.linspace(-3,3,100),其中x表示生成數(shù)據(jù)集,-3為序列起始點(diǎn),3為序列結(jié)束點(diǎn),100為生成的樣本數(shù);df1=stats.t.pdf(x,1)表示自由度為1的t分布;df2=stats.t.pdf(x,20)表示自由度為20的t分布。圖中藍(lán)色線表示自由度為1的t分布,黃色線表示自由度為20的t分布。(ppt31)(動(dòng)畫1)下面我們來(lái)學(xué)習(xí)卡方分布。(動(dòng)畫2)若??個(gè)相互獨(dú)立的隨機(jī)變量???,???,...,??_??,均服從標(biāo)準(zhǔn)正態(tài)分布(也稱獨(dú)立同分布于標(biāo)準(zhǔn)正態(tài)分布),則這??個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量的平方和Q構(gòu)成一新的隨機(jī)變量,其分布規(guī)律稱為卡方分布,記為??服從自由度為n的卡方分布。(動(dòng)畫3)卡方分布具有許多重要的性質(zhì)。1.卡方分布的變量值始終為正;2.卡方分布的形狀取決其自由度n的大小,通常為不對(duì)稱的右偏分布,但隨著n的增大逐漸趨于對(duì)稱;3.卡方分布的期望值為??,方差為2??;4.卡方分布具有可加性。(動(dòng)畫4)總體方差的估計(jì)和非參數(shù)檢驗(yàn)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論