版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、,回歸分析和曲線擬合 生產(chǎn)過程和科學實驗中,常用的變量大體可分兩類。一類為確定性變量,另一類為隨機變量。確定性變量是指兩個或多個變量之間有確定的關系.即其中某個變量的每個值,都與一變量的一個或幾個完全確定的值相對應,即它們之間存在著,函數(shù)關系: 例如,理想氣體的壓力P與摩爾體積V間,存在著確定的函數(shù)關系:,但在實際問題中,由于變量之間的關系比較復雜,或由于生產(chǎn)或?qū)嶒炦^程中不可避免地存在著誤差,使變量之間的關系具有不確定性,也就是說,某個變量對應的,不是一個或幾個確定的值,而是整個集合的值,這時,變量x和y間的關系,就稱為相關關系。例如,流體在圓形直管中做湍流時的情形,通過量綱分析可知,努塞爾特
2、數(shù)Nu、普蘭特,數(shù)Pr和雷諾數(shù)Re之間存在著如下相關關系: 這種關系的不確定性,表現(xiàn)為式中a和b的數(shù)值,在每次測量中不盡相同。不確定的原因,首先是影響該過程的因素甚多,有些因素至今尚未弄清;其次是受到實驗過程中的偶然因素影響。這,種不確定性關系并不說明上述三個量綱為1的數(shù)群之間無規(guī)律可循。相反,通過大量試驗,人們發(fā)現(xiàn),a和b的數(shù)值總是圍繞著某一定值波動,而且隨著試驗次數(shù)的增多,a、b的數(shù)值趨于穩(wěn)定。a、b的穩(wěn)定值,可作為a和b的最佳估計值。在一定條件下,a=0.023,b=0.8。由此可見,通過大量試驗,是可以找到隱藏在隨機性后面的統(tǒng)計規(guī)律性的。,回歸分析和曲線擬合是一種處理變量相關關系的數(shù)理
3、統(tǒng)計方法。用它可以尋找隱藏在隨機性后面的統(tǒng)計規(guī)律性。 函數(shù)與相關是兩種不同類型的變量關系,它們之間并無嚴格界限。一方面,相關的變量之間,并無確定的關系,但在一定的條件下,從一定的統(tǒng)計意,義上看,它們之間又可能存在著某種確定的函數(shù)關系。另一方面,由于實際測定的數(shù)據(jù)中,總存在著誤差,即使是確定性變量,也會出現(xiàn)某些非確定性結果。 6.1一元線性回歸,一元線性回歸處理的是兩個變量之間的線性關系。所用的數(shù)學模型為一元線性代數(shù)模型,其模型方程式是 對這種模型參數(shù)的估計,就是根據(jù)原始數(shù)據(jù)點(x1, y1)、(x2, y2)、(xi, yi)、(xn, yn),確定式(6-,1)中a、b的估計值。 在實際體系
4、中,自變量x與因變量y之間服從線性關系的情況雖然不多,但在不少情況下,x、y之間存在著某種函數(shù)組合關系。例如f1 (x, y),f2 (x, y),設兩個函數(shù)之間服從線性關系,f1與f2是不含待定系數(shù)的已知函數(shù)。若把f1 (x,y)與f2 (x,y)分別視為自變量與因變量,則仍可以借用線性模型去估計其參數(shù)值。這種方法稱為化直法。它在化學化工的實際問題中是常見的。例如單分子基元反應AB的動力學方程式為,對上式積分得 式中,cA-t是不呈線性關系的函數(shù)。若對方程兩邊取對數(shù),上式可化為lncA-t的線性函數(shù):,又例如,按照阿侖尼烏斯定律,反應速率常數(shù)k與溫度T之間不呈線性關系: 但lnk與1/T則呈
5、線性關系:,這些都是屬于可化為線性關系的例子。 一元線性代數(shù)模型中的待定參數(shù)a和b,稱為“估計值”。之所以稱為“估計”值,是因為a,b的值是從實驗值中通過數(shù)理統(tǒng)計方法確定的。,圖6-1一元線性回歸,6.1.1方法概述 設有一組實驗數(shù)據(jù)(x1,y1)、(x2,y2)、(xn,yn),自變量x與因變量y存在著式(6-1)的關系。當x取值為xi時,y的測定值為yi,計算值為yi*,并有 由于參數(shù)a,b為未知值,故yi*也是未知值。若將全部實驗,數(shù)據(jù)標繪在x-y圖中(見圖6-1),由于各種因素的影響,它們不會全部落在一條直線上,即n個yi不會與n個yi*完全重合,它們將隨機地分布在與xi呈線性關系的y
6、i*的周圍。以i表示它們之間的差值,則有 這里i就是誤差。它反映了xi使yi偏離直線的各種影響因素的總和。,現(xiàn)在,要尋找一條最靠近各個數(shù)據(jù)點的直線,這條直線稱為回歸直線。由于回歸直線是一切直線中最接近各數(shù)據(jù)點(xi,yi)的,用它代表x與y之間的線性關系,比任何其他直線更為可靠。究竟如何確定回歸曲線中的參數(shù)a和b呢?目前最常用的方法就是最小二乘法,即殘差平方和最小法。 式(6-3)中的誤差i又稱為殘差,表示第i個數(shù)據(jù)與回歸直線的偏離程度,則殘差平方和,Q表示全部數(shù)據(jù)與回歸直線的總偏離程度。顯然Q是a和b的函數(shù): 不用殘差和i的原因是i有正有負,相加時可能彼此抵 消,從而不能反映總的偏離程度,而
7、用殘差的平方和不會發(fā)生,這種現(xiàn)象。 由多元函數(shù)的極值理論可知,要使Q值最小,a、b必須滿足下列條件:,即得 式(6-6)稱為一元線性回歸的正規(guī)方程組,通過求解該方程組,可得:,式(6-7)中等號右側的量全部取自原始數(shù)據(jù)。因此,就可以確定回歸系數(shù)a和b,完成參數(shù)估計。,為了簡化a和b的表達式,定義: 式中,、分別為xi和yi的平均值。 xi與之差(xi-),稱為xi的離差;全部xi的離差平方和,稱為x的,離差平方和,記為Lxx:,yi與之差(yi-),稱為yi的離差;全部yi的離差平方和,稱為y的 離差平方和,記為Lyy,同理 再令Lxy為全部xi的離差與yi的離差乘積的總和:,將以上關系式代入
8、式(6-7),得,由式(6-12)第二式可以看出,回歸直線是通過點(,)的。從 力學觀點看,(,)相當于n個實驗點(xi,yi)的重心,回歸直線是 通過重心的。 應當指出: 殘差i只用yi-y*i表示時,表明yi有測量誤差,而xi無測量誤差;,或表示與yi相比,xi的誤差很小。因此,測量誤差使實驗點偏離回歸直線,都表現(xiàn)為yi偏離y*i。如果xi的誤差與yi的誤差相比,不可忽略,則兩者都必須考慮。這種情況比較復雜,此處不予介紹。 求回歸方程的計算過程中,不需要事先假定兩個變量之間必須有相關關系。即使是一組雜亂無章的數(shù)據(jù),也可以用最小二乘法繪制一條直線,以表示x與y的關系。顯然,這種情況下,繪制的
9、直線并無實際意義。,為了判斷兩個變量間線性關系的優(yōu)劣程度,引入一個新的指標R,稱為簡單相關系數(shù),它的定義為 R值不同時,數(shù)據(jù)點的分布情況如下。 (1) R = 0,圖6-2R = 0的數(shù)據(jù)點分布,此時Lxy = 0,b = 0。即回歸直線平行于x軸,y的變化與x無關,表示數(shù)據(jù)點的分布是無規(guī)則的,如圖6-2所示。 但亦有當R = 0時,x與y確實存在明顯相關性的情況。這種情形,不能應用線性回歸方法,只能用化直線法或曲線擬合法處理。 (2) 0 |R| 1,絕大多數(shù)屬于這種情況,它表示x與y之間存在著一定的線性關系,如圖6-3所示。 R 0時,b 0。數(shù)據(jù)點的y值隨著x增加而增加,這種情況稱為x與
10、y正相關。 R 0時,b 0。數(shù)據(jù)點的y值隨著x增加而減小,這種情況稱為x與y負相關。,R的絕對值越小,數(shù)據(jù)點沿回歸直線越分散。,圖6-301的數(shù)據(jù)點分布,1的數(shù)據(jù)點分布 (3) |R| = 1 x與y完全相關。全部數(shù)據(jù)點均落在回歸直線上。 若x與y為非線性相關,但經(jīng)變量變換后,用回歸直線的方法處理,所求得的回歸系數(shù)僅對變換后的變量是最佳的,而對原變量來說則并非最佳,但通常還能令人滿意,此時應注意原變量,的殘差平方和并非最小。 由以上討論可知,相關系數(shù)R的絕對值在0與1之間,而且越接近于1,其線性關系越密切,那么|R|與1接近到什么程度,才能說明x與y之間存在線性相關關系呢?要回答這個問題,就
11、要對相關系數(shù)進行顯著性檢驗。由于篇幅所限,有關相關系數(shù)的顯著性檢驗和回歸方程的方差分析等問題將不在此討論。如有需要,可參考有關數(shù)理統(tǒng)計方面的書籍。,6.1.2程序框圖 圖6-4是一元線性回歸的通用計算程序框圖。 程序框圖中的主要變量: N數(shù)據(jù)點數(shù) X、Y 一維數(shù)組,用于存放原始數(shù)據(jù)中的x和y值,XXLx離差平方和Lxx YYLy離差平方和Lyy XYLx離差與y離差乘積總和Lxy A回歸直線截距a B回歸直線斜率b,R簡單相關系數(shù) 6.1.3計算實例,6.2多元線性回歸 一元線性代數(shù)模型中,只有一個自變量。若有多個因素影響體系的性質(zhì)時,必須考慮因變量y與多個自變量xl,x2,xn之間的關系。例
12、如,化學反應速率要受到溫度、壓力和濃度的影響。在,氣相反應動力學中,反應動力學方程可表示為 式中,r為反應速率,pA、pB、pC分別為反應物A、B、C組分的分壓;a、b、c是方程式中的待定指數(shù);k為反應速率常數(shù)。,若將上式取對數(shù)得到 再令y = lnr,d = lnk,x1 = lnpA,x2 = lnpB,x3 = lnpC,則得,可見該式具有多元線性方程式的特征,a、b、c、d為系數(shù),x1、x2、x3為自變量。 多元線性方程的普遍式為 它是一個含有m + 1個系數(shù)的m元線性方程式,下,面介紹多元線性回歸的最小二乘法。 6.2.1方法概述 設x取值為xi1,xi2,xim時,實驗測定的y值為
13、yi(i = 1,2,n),由于測定值yi存在著誤差,所以會偏離線性關系?,F(xiàn)在要尋找一組aj的估計值以構成回歸方程。確定aj的原則,仍然是使yi的實驗值與回歸方程計算值的殘差平方和最小,即使,最小。式中i表示實驗點序號(i = 1,2,n);j表示自變量標號(j = 1,2,m);自變量xij為第j個自變量的第i次測定值。此外注意僅n m + 1才能求出上式中的m + 1個回歸系數(shù)。 同樣由多元函數(shù)的極值理論可知,要使Q值最小,a0和aj必須滿,足下列條件: 式(6-15)經(jīng)整理可得:,式(6-16)稱為多元線性回歸模型的正規(guī)方程組。它是一個m+1元的線性代數(shù)方程組。由于xij和yi已知,故可
14、求得m+1個待定,系數(shù)a0,a1,am。 實際計算時,一般作如下處理:先將式(6-16)的第一式寫成 然后將式(6-17)代入方程組(6-16)的第2至第m+1式,重新組成一個m元線性方程組,其中有a1,a2,am等m個待定系數(shù)。通過求解此m元線性方程組,獲得系數(shù)a1,a2,am,再代回式(6-17),求得a0。 為簡化計算,用表示第j個x的平均值,表示y的平均值,則 用Ljk表示第j個x離差與第k個x離差乘積之和,則,用Lyy表示y離差的平方和,則,用Ljy表示第j個x離差與y離差乘積之和,則 將式(6-17)分別代入式(6-16)的第2至m+1式,經(jīng)簡化整理可得如下m元線性方程組:,可用主
15、元素消去法求解此式,然后將求得的a1,a2,am代入式(6-17),求出a0,從而完成對多元線性回歸模型的參數(shù)估計。 多元線性回歸的計算中,常用復相關系數(shù)衡量數(shù)據(jù)點之間的線性優(yōu)劣。復相關系數(shù)定義如下:,式中,U稱為回歸平方和:,應當指出,并非所有曲線都可以按這種方法處理。例如拋物線 就不能通過變量變換把它化為直線。但是如果令x1 = x,x2 = x2,則上式就化成一個包含兩個自變量的線性方程,從而將拋物線按二元線性回歸計算。對于含多變量的任意多項式 也可以通過類似的變換,把它們轉化成多元線性回歸計算。 6.2.2程序框圖 圖6-6是多元線性回歸的通用計算程序框圖。,圖6-6(a) 多元線性回
16、歸的通用計算程序框圖(1),圖6-6(b) 多元線性回歸的通用計算程序框圖(2),程序框圖中的主要變量: N 數(shù)據(jù)點數(shù) M多元線性模型元數(shù) X二維數(shù)組,用于存放原始數(shù)據(jù)的x值 Y一維數(shù)組,用于存放原始數(shù)據(jù)的y值,YP值 YYLLyy值 XP一維數(shù)組,用于存放值 A二維數(shù)組,用于存放m元線性方程組的系數(shù)Ljk B一維數(shù)組,用于存放m元線性方程組的常數(shù)項Ljy,C一維數(shù)組,用于存放多元線性模型的系數(shù)aj(j = 0,1,M) R復相關系數(shù)R0 U回歸平方和 Q殘差平方和 子程序XYF為列主元消去法求解線性方程組的程序,可參見,圖5-2和圖5-3。 6.2.3計算實例,6.3剔除可疑數(shù)據(jù)及其計算程序
17、 6.3.1剔除可疑數(shù)據(jù)的方法 在線性回歸計算中,假定每個測定數(shù)據(jù)與回歸結果之間的誤差均在隨機誤差允許的范圍之內(nèi)。然而,由于測量誤差或過失誤差等多種原因,在一組實驗值中,誤差往往會超出隨機誤,差的允許范圍。這些數(shù)據(jù),稱為可疑數(shù)據(jù)。為保證回歸結果的可靠性,必須剔除這些可疑的數(shù)據(jù)。 剔除可疑數(shù)據(jù),應當有一個科學的標準。這個標準就是統(tǒng)計判據(jù),屬于統(tǒng)計判據(jù)的剔除準則有多種。以一元線性回歸為例,其代數(shù)模型為y = a + bx。若自變量x無測量誤差,則y的標準偏差為,式中,n為原始數(shù)據(jù)點數(shù);m為回歸模型中自變量的個數(shù),對一元線性回歸m = 1;i為殘差,即 i=yi- a、b是按最小二乘法求出的最佳估計
18、值。根據(jù)數(shù)理統(tǒng)計分析,合理的數(shù)據(jù),其殘差不應超出 的k倍。若取k = 3,便是常,用的3 準則。據(jù)此,可以把殘差絕對值超過3 的個別數(shù)據(jù)(xi,yi),判為可疑數(shù)據(jù)而加以剔除。必須指出,3 準則是以數(shù)據(jù)點數(shù)n為前提的,當n為有限值時,3 判據(jù)并不十分可靠。下面介紹一種廣泛采用的判據(jù),即所謂肖維奈特準則。 按肖維奈特準則,若n次等精度測量中,有某個測量值yi,其殘差的絕對值超出k ,就可以認為是可疑數(shù)據(jù)而予以剔除。表6-1列出了肖維奈特準則中與n相對應的k值。,表6-1肖維奈特準則的n和k值,使用這個準則時,可根據(jù)回歸結果,對全部實驗值進行逐級檢查,把屬于可疑數(shù)據(jù)的實驗值選出。若發(fā)現(xiàn)不止一個可疑
19、數(shù)據(jù),則應把其中殘差絕對值最大者剔除,然后重新計算 值。根據(jù)新的 值,再次用肖維奈特準則進行檢查。每次只剔除一個可疑數(shù)據(jù),其余數(shù)據(jù)重新進行回歸,直至回歸所用的數(shù)據(jù)中不再含有可疑數(shù)據(jù)為止。 6.3.2剔除可疑數(shù)據(jù)的計算程序框圖,圖6-7是具有剔除可疑數(shù)據(jù)功能的一元線性回歸通用計算程序框圖,整個計算過程分為輸入原始數(shù)據(jù)、一元線性回歸計算、確定肖維奈特準則的k值、確定殘差絕對值最大的數(shù)據(jù)點、剔除最可疑數(shù)據(jù)點(即殘差絕對值最大的數(shù)據(jù)點)。,圖6-7具有剔除可疑數(shù)據(jù)功能的一元線性回歸通用計算程序框圖,程序框圖中的主要變量: N原始數(shù)據(jù)點數(shù)或剔除可疑數(shù)據(jù)后的合格數(shù)據(jù)點數(shù) N1可疑數(shù)據(jù)點數(shù) X一維數(shù)組,用于
20、存放原始數(shù)據(jù)及合格數(shù)據(jù)中的x值 Y一維數(shù)組,用于存放原始數(shù)據(jù)或合格數(shù)據(jù)中的y值,X1一維數(shù)組,用于存放可疑數(shù)據(jù)點的x值 Y1一維數(shù)組,用于存放可疑數(shù)據(jù)點的y值 A回歸直線截距 B回歸直線斜率 R簡單相關系數(shù),SD標準偏差 ER平均相對誤差 DALTA絕對值最大的殘差 ID殘差絕對值最大的數(shù)據(jù)點序號 U肖維奈特準則的k值,子程序LINEAR1A為一元線性回歸計算子程序,比例6-1中的子程序LINEAR1增加了標準偏差和平均相對誤差的計算;子程序RULES為肖維奈特準則中k值的計算程序。 采用類似的方法,可以編寫能剔除可疑數(shù)據(jù)的多元線性回歸計算程序框圖。 6.3.3計算實例,6.4多項式擬合 在化
21、學化工的實驗或科研中,經(jīng)常需要從一組測定數(shù)據(jù),例如從n對(xi,yi)數(shù)據(jù),去求自變量x和因變量y的近似函數(shù)關系式y(tǒng) = p(x)。從圖形上看,這是由給定的n個點(xi,yi)(i = 1,2,n)作曲線,擬合。 在曲線擬合中,多項式擬合問題占特殊的地位。任何函數(shù)在一個比較小的范圍內(nèi),可以用多項式任意逼近。因此,在比較復雜的實際問題中,可以不問y與各因素的確切關系,而用多項式擬合進行分析和計算。,下面以多項式擬合為例,說明曲線擬合的方法和計算程序。 6.4.1方法概述 設用下列m次多項式 :,擬合一組數(shù)據(jù)(xi,yi)(i = 1,2,n),即曲線y = f (x)上已給定n個點,用多項式求作該曲線的近似圖形。這一問題與前述的插值問題有類似之處。但插值問題要求近似曲線y = p (x)嚴格地通過所給的n個點,這一要求將會使近似曲線y = p (x)保留數(shù)據(jù)的全部測試點的測量誤差。如果個別數(shù)據(jù)的誤差很大,那么插值的效果顯然是不夠理想的。鑒于這種情況,考慮放棄嚴格通過所有結點(xi,yi)這一要求,而采用別的方法去構造近似曲線,以盡可能反映所給數(shù)據(jù)的總趨勢。曲線擬合的常,用方法仍然是最小二乘法,即殘差平方和最小法。 若以i代表結點處的殘差
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 第30課《系統(tǒng)安全需升級》測試題2025-2026學年人教版八年級信息科技全一冊
- 《GB-T 24438.3-2012自然災害災情統(tǒng)計 第3部分:分層隨機抽樣統(tǒng)計方法》專題研究報告
- 《GBT 21595-2008 危險品便攜式罐體撞擊試驗方法》專題研究報告
- 《GBT 14993-2008轉動部件用高溫合金熱軋棒材》專題研究報告
- 《GB 4706.85-2008家用和類似用途電器的安全 紫外線和紅外線輻射皮膚器具的特殊要求》專題研究報告
- 道路危險運輸安全培訓課件
- 道路交通安全培訓素材課件
- 道路交通培訓課件
- 2025-2026年蘇教版八年級語文上冊期末題庫試題附答案
- 迪奧項鏈介紹
- 《中國臨床腫瘤學會(csco)小細胞肺癌診療指南(2025版)》
- 2025至2030中國半導體AMC過濾器行業(yè)競爭優(yōu)勢及前景趨勢預判報告
- 鄉(xiāng)鎮(zhèn)高層滅火救援疏散應急演練方案及流程
- 五恒系統(tǒng)節(jié)能環(huán)保施工技術規(guī)范與優(yōu)化研究
- 大學期末考試思政題庫及答案
- 師徒結對活動記錄表-師傅
- have與has的用法微課課件
- 如何做員工考勤管理制度
- 大學形勢政策課件
- 城市供水管道施工重難點分析及改進措施
- 2025年南京市事業(yè)單位教師招聘體育學科專業(yè)知識歷年真題解析試卷
評論
0/150
提交評論