建筑數(shù)學(xué)-概率4-參數(shù)估計(jì)與回歸分析166607806課件_第1頁
建筑數(shù)學(xué)-概率4-參數(shù)估計(jì)與回歸分析166607806課件_第2頁
建筑數(shù)學(xué)-概率4-參數(shù)估計(jì)與回歸分析166607806課件_第3頁
建筑數(shù)學(xué)-概率4-參數(shù)估計(jì)與回歸分析166607806課件_第4頁
建筑數(shù)學(xué)-概率4-參數(shù)估計(jì)與回歸分析166607806課件_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

清華大學(xué)建筑學(xué)院

參數(shù)估計(jì)與回歸分析參數(shù)估計(jì)對(duì)于許多要研究的對(duì)象(總體)不可能“窮盡”地一一調(diào)查測(cè)量,只能隨機(jī)地抽取一部分“樣本”,根據(jù)樣本的數(shù)據(jù)來估計(jì)總體的“真值”。有的情況是知道(分析出)隨機(jī)變量的分布形態(tài):泊松分布,正態(tài)分布等,如何根據(jù)樣本數(shù)據(jù),“估計(jì)”出該分布的參數(shù),如泊松分布的λ,正態(tài)分布的μ和σ例:設(shè)某炸藥廠一天中發(fā)生著火現(xiàn)象的次數(shù)X服從

對(duì)于泊松分布,只有一個(gè)參數(shù)λ要估計(jì)。λ的估計(jì)值就是樣本平均數(shù):驗(yàn)證一下:k=0樣本計(jì)算p=75/250=0.3;公式計(jì)算:0.295k=1樣本計(jì)算p=90/250=0.36;公式計(jì)算:0.360k=2樣本計(jì)算p=54/250=0.216;公式計(jì)算:0.220k=3樣本計(jì)算p=22/250=0.088;公式計(jì)算:0.089e-λ=e-1.22

=0.29523

對(duì)于正態(tài)分布,有兩個(gè)參數(shù)μ和σ要估計(jì)。μ的估計(jì)值就是樣本平均數(shù),σ的估計(jì)值就是樣本方差的平方根:

這在講概率分布時(shí)已經(jīng)提到。對(duì)于二項(xiàng)分布有一個(gè)參數(shù)p要估計(jì):p的估計(jì)值就是樣本平均數(shù):

“十年一遇”,就是根據(jù)歷史記錄,發(fā)生該現(xiàn)象的統(tǒng)計(jì)平均是p=0.1

區(qū)間估計(jì)上面討論的參數(shù)估計(jì),是用樣本的數(shù)值來估計(jì)總體的參數(shù)。但是,每一次樣本試驗(yàn)得到的參數(shù)估計(jì)值是不同的。例如我們可以認(rèn)定某個(gè)年齡段(10歲)兒童(男童或女童)的身高(作為總體)滿足正態(tài)分布,參數(shù)均值μ的估計(jì)值可以通過100名兒童身高的測(cè)量值的平均數(shù)得到。但再測(cè)量100名兒童,可能得到不同的值。多次做100名兒童身高的測(cè)量得到的值盡管各不相同,但都處于某個(gè)區(qū)間范圍之內(nèi),把這些值加以平均的到的值(例如6次測(cè)量,共600名兒童平均)是否更“可信”一些?比做3次測(cè)量是否更可信一些,即“置信度”更高?還有一個(gè)問題:對(duì)不同的總體(或不同的組分,如男童和女童分開),抽樣得到樣本值離散性可能不同,即計(jì)算出的方差σ不同,有的組分(男童)樣本值之間差異?。é倚。?,有的組分(女童)樣本值之間差異大(σ大)。那么試驗(yàn)次數(shù)相同下,得到均值μ的估計(jì)值的“可信度”一樣嗎?方差σ大(離散性大)的組分試驗(yàn)的次數(shù)(樣本的數(shù)量)是否應(yīng)當(dāng)多一些呢?這就要引入統(tǒng)計(jì)數(shù)據(jù)處理的“區(qū)間估計(jì)”。

通常,采用95%的置信度,有時(shí)也取99%或90%均值的區(qū)間估計(jì)已知方差,估計(jì)均值1、在總體服從正態(tài)分布的情況下,從某校學(xué)生中隨機(jī)抽選100人,調(diào)查到平均每天鍛煉時(shí)間為30分鐘,樣本方差為36。

試以95%的置信度來估計(jì)該校學(xué)生平均每天鍛煉的時(shí)間。解得:[28.81,

31.19]練習(xí):2.某醫(yī)院欲估計(jì)一名醫(yī)生花在每個(gè)病人身上的平均時(shí)間。設(shè)要求置信度為95%,允許的誤差范圍在±2分鐘。依以前的經(jīng)驗(yàn)看病時(shí)間的標(biāo)準(zhǔn)差為6分鐘。

試問需要多大的樣本量(n=35)?解:上一屆同學(xué)在《建筑數(shù)學(xué)》課堂上,每人當(dāng)場(chǎng)測(cè)量自己心律的統(tǒng)計(jì)(次/分鐘),共192人。那么,總體分布的平均數(shù)標(biāo)準(zhǔn)差在正態(tài)分布表中,置信度90%,即α=0.10,λ=1.65置信度95%,即α=0.05,λ=1.96置信度99%,即α=0.01,λ=2.58回歸分析

英國著名人類學(xué)家FranicsGalton

高爾頓(1822-1911)于1885年發(fā)表論文《身高遺傳向平均數(shù)方向的回歸》,分析兒童身高與父母身高之間的關(guān)系,發(fā)現(xiàn)父母的身高可以預(yù)測(cè)子女的身高,當(dāng)父母越高或越矮時(shí),子女的身高會(huì)比一般兒童高或矮,他將兒子與父母身高的這種現(xiàn)象擬合出一種線形關(guān)系。但他還發(fā)現(xiàn),當(dāng)父母非常高(或非常矮),其子女的身高不會(huì)象父母那樣非常高(或非常矮),而是比其父母更接近平均身高。高爾頓選用“回歸”(regression)一詞。高爾頓和他的學(xué)生K.Pearson觀察了1078對(duì)夫婦,分析出兒子的身高y與父親的身高x大致可歸結(jié)為以下關(guān)系:

y

=

0.516

x

+

33.73

(單位為英寸)

回歸分析(regressionanalysis)是確定兩種或兩種以上變數(shù)間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。在調(diào)查觀察中,會(huì)得到各種變量的樣本值,會(huì)發(fā)現(xiàn)某種變量與另一種變量之間有“相關(guān)”性。例如,住宅面積與經(jīng)濟(jì)指數(shù),經(jīng)濟(jì)狀況好(指數(shù)高),住宅建設(shè)面積就大。能否用定量化的函數(shù)來表示兩者間的依賴關(guān)系?

首先觀察到樣本散點(diǎn)圖近似于一條直線,可以用一個(gè)線性函數(shù)來擬合:y=a+bx稱為線性回歸。需要確定a和b兩個(gè)參數(shù)。如果按圖中紅線來擬合,所有樣本點(diǎn)xi的擬合值都大于樣本值yi,如果按圖中藍(lán)線來擬合,所有樣本點(diǎn)xi的擬合值都小于樣本值yi,兩者都不合適。顯然,擬合的直線應(yīng)“貫穿”于散點(diǎn)之中,如圖中黑線所示,以做到各樣本點(diǎn)的樣本值yi與擬合值

的差值:的平方和最小。即構(gòu)建一個(gè)以回歸系數(shù)a和b為變量的誤差函數(shù):按函數(shù)的微分極值原理,求其在取極小值時(shí)的a和b的取值,就可得到線性回歸方程y=a+bx。此為最小二乘法。

相關(guān)系數(shù)0.95,表示住宅建設(shè)面積與經(jīng)濟(jì)指數(shù)確實(shí)相關(guān)。具體計(jì)算方法見下表:計(jì)算x的平均數(shù)、y的平均數(shù),∑x2、∑y2和∑xy,即可計(jì)算回歸系數(shù)a和b。

相關(guān)系數(shù)r:0<|r|<1,r為正值即正相關(guān),x增,y也增;r為負(fù)值即負(fù)相關(guān),x增,y減。|r|接近1,表示y與x有很強(qiáng)的相關(guān)性,樣本值散點(diǎn)分布接近直線;|r|接近0,表示y與x相關(guān)性弱,樣本值散點(diǎn)分布很分散。高斯最小二乘法計(jì)算谷神星軌道

1801年,高斯用數(shù)學(xué)方預(yù)測(cè)出一顆小行星的軌道。天文學(xué)家在高斯指出的位置發(fā)現(xiàn)了小行星,后來被命名為谷神星(Ceres)。高斯8年后系統(tǒng)地完善了相關(guān)的數(shù)學(xué)理論,才將他的方法公布于眾,即“最小二乘法”。一元非線性回歸當(dāng)因變量Y與自變量x之間沒有線性關(guān)系時(shí),一般用回歸曲線y=

f

(x)來描述它們之間的關(guān)系。但是通??梢圆捎煤唵蔚淖兞孔儞Q,把非線性回歸的問題轉(zhuǎn)化為線性回歸來處理。

幾種常見的曲線方程,化為線性問題的變換公式:(1)列表,數(shù)據(jù)計(jì)算。多元回歸分析1.二元線性回歸方程

實(shí)際中,會(huì)需研究一個(gè)變量與多個(gè)變量之間的定量關(guān)系,就是多元分析問題。

上式稱為回歸平面,β0是常數(shù),β1

,β2為回歸系數(shù)。

設(shè)隨機(jī)變量Y,自變量x1和x2,有:

有n

組觀測(cè)值:由多元函數(shù)極值原理,有:即整理得到:由第3式,得:代入第1,2式,消去β0得:其中:解得:例1:某公司的商品在15地區(qū)銷量y和人口數(shù)x1、戶均總收入x2資料見表。試求銷量對(duì)人口數(shù)、戶均總收入的回歸方程。按計(jì)算公式所求回歸方程:西安機(jī)場(chǎng)航空客運(yùn)量與國民生產(chǎn)的總值和旅游游客量二元回歸。根據(jù)1980-1994年陜西省的GNP(X1)和旅游游客量(X2)的數(shù)據(jù),與西安機(jī)場(chǎng)年旅客吞吐量(y),作二元回歸,得到回歸方程。再了解了陜西省人大制定的十年經(jīng)濟(jì)發(fā)展計(jì)劃和旅游事業(yè)規(guī)劃的數(shù)據(jù),預(yù)測(cè)未來10年的航空客運(yùn)量。

年旅客吞吐量y與GNP指數(shù)x1和旅游游客量指數(shù)x2的二元回歸方程:根據(jù)1980~1993年的實(shí)際數(shù)據(jù)(樣本數(shù)據(jù)),求算回歸系數(shù):β0β1β2

上述二元相關(guān)分析的航空客運(yùn)量的實(shí)際值

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論