BoxCox 變換方法及其實現(xiàn)運用_第1頁
BoxCox 變換方法及其實現(xiàn)運用_第2頁
BoxCox 變換方法及其實現(xiàn)運用_第3頁
BoxCox 變換方法及其實現(xiàn)運用_第4頁
BoxCox 變換方法及其實現(xiàn)運用_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、Box-Cox變換方法及其應(yīng)用,主要內(nèi)容,Box-Cox變換,Box和Cox在1964年提出的變換,可以使線性回歸模型在不損失信息的情況下滿足線性、獨立性、方差齊性和正態(tài)性。這種轉(zhuǎn)換稱為BoxCox轉(zhuǎn)換。此后,對其進(jìn)行了推廣和改造,擴(kuò)大了其應(yīng)用范圍。在線性回歸過程中,一般的線性模型假設(shè):線性、獨立性、方差齊性和正態(tài)性,E(Y)是x中各變量的線性函數(shù),相互獨立,服從正態(tài)分布,應(yīng)用前提是,在處理實際的經(jīng)濟(jì)和社會問題時,由于建立回歸模型時的海量數(shù)據(jù)和單個變量的系數(shù)比較混亂,例如,由于生物醫(yī)學(xué)數(shù)據(jù)的特殊性, 不可觀測誤差可能與預(yù)測變量有關(guān),不服從正態(tài)分布,這給線性回歸最小二乘估計系數(shù)的結(jié)果帶來誤差。

2、為了滿足上述四個條件而不丟失信息,有時需要改變數(shù)據(jù)形式,于是Box-Cox變換得到了廣泛的推廣。非正態(tài)數(shù)據(jù)的不同處理方法和比較,常用的數(shù)據(jù)轉(zhuǎn)換方法本方法堅持正態(tài)假設(shè),通過各種數(shù)據(jù)轉(zhuǎn)換函數(shù)將非正態(tài)數(shù)據(jù)轉(zhuǎn)換為正態(tài)數(shù)據(jù),如原始測量值為,轉(zhuǎn)換后的對應(yīng)值為。常用的幾種數(shù)據(jù)轉(zhuǎn)換方法有:對數(shù)轉(zhuǎn)換:平方根轉(zhuǎn)換:倒數(shù)轉(zhuǎn)換:平方根后倒數(shù):平方根后反正弦:乘方轉(zhuǎn)換:其中,表中的參數(shù)、數(shù)據(jù)來自郝,通過大量反復(fù)實驗,得出以下規(guī)律:P值0.003視為平方轉(zhuǎn)換的邊界點。如果正態(tài)檢驗得到的P值大于0.003,可以通過平方變換實現(xiàn)歸一化,否則很難通過平方變換實現(xiàn)歸一化,其他轉(zhuǎn)換方法往往達(dá)不到歸一化的目的。在上述問題下,當(dāng)p值小

3、于0.003時,普通的數(shù)據(jù)轉(zhuǎn)換方法很難對其進(jìn)行歸一化,因此利用Box-Cox變換方法對原始數(shù)據(jù)進(jìn)行歸一化是很有價值的。當(dāng)p值大于0.003時,兩種變換方法都可以使用,但普通的平方變換優(yōu)先。Box-Cox變換和逆變換公式,Box-Cox變換是對反應(yīng)變量Y進(jìn)行變換,而變換公式是:逆變換公式是:顯然,Y的Box-Cox變換是一個變換族,具體的變換形式是由變量參數(shù)決定的,并且當(dāng)變換是對數(shù)時。廣義Box-Cox轉(zhuǎn)換公式在前面的轉(zhuǎn)換中使用了log(y),因此必須輸入y0。然而,對于一般數(shù)據(jù),任意值Y的Box-Cox變換可以使用以下公式:其中,參數(shù)c是使g的默認(rèn)值為1,或者它可以作為Y的幾何平均值.顯然,參

4、數(shù)c的值已經(jīng)確定,公式中需要估計的參數(shù)是。對于簡單的處理,我們通常假設(shè)反應(yīng)變量y0。比較兩個公式,通過對比Box-Cox特殊變換公式和數(shù)據(jù)變換公式,可以發(fā)現(xiàn)Box-Cox特殊變換公式是數(shù)據(jù)變換,但在形式上有所改進(jìn)。當(dāng),當(dāng),當(dāng),當(dāng),比較兩種轉(zhuǎn)換方法的優(yōu)缺點,并保持原始數(shù)據(jù)集中數(shù)據(jù)的大小順序。也就是說,變換函數(shù)應(yīng)該是嚴(yán)格遞增的函數(shù),以確保在數(shù)據(jù)變換后,在原始尺度下相對較大的數(shù)據(jù)在新尺度下仍然相對較大,但是數(shù)據(jù)之間的相對距離被改變?yōu)檫B續(xù)函數(shù),這確保原始數(shù)據(jù)在變換后仍然相對接近彼此相對接近的數(shù)據(jù),至少接近在新尺度下可導(dǎo)出的函數(shù)。變換函數(shù)族中沒有尖銳的“拐角”,函數(shù)族中的所有函數(shù)都隨著參數(shù)的變化而平滑過

5、渡,并且它們都經(jīng)過一個公共點,以增強不同函數(shù)之間的可比性。通過比較兩種變換方法的優(yōu)缺點,公共點兩側(cè)的函數(shù)族中各函數(shù)的變化趨勢具有一定的對稱性。除了具有公共點(1,0)之外,函數(shù)族的所有曲線都以相同的方向通過公共點,即在(1,0)點相同。公共點附近的函數(shù)圖像幾乎與函數(shù)族的曲線一致,函數(shù)族的曲線根據(jù)P值排序,對應(yīng)于較大P值的函數(shù)曲線位于較小P值之上。Box-Cox變換,將上述Box-Cox變換公式應(yīng)用于因變量的n個觀測值,得到變換向量,即確定變換參數(shù)的值,使新向量滿足要求,也就是說,通過對因變量的變換,變換向量與回歸自變量具有線性依賴關(guān)系,誤差服從正態(tài)分布,而每個誤差都是等方差且相互獨立的。參數(shù)確

6、定法、最大似然估計的貝葉斯法、Box-Cox變換軟件:SAS、STATA、Minitab、最大似然法估計參數(shù),因為,上述公式的似然函數(shù)分別微分,且導(dǎo)數(shù)函數(shù)為0,從而得到最大似然估計:將最大似然估計值帶入第一步的公式中,并得到似然函數(shù)的最大值:為便于計算, 尋求并獲得參數(shù)的最佳值,參數(shù)估計步驟,1對于給定值,計算,2使用最大似然估計公式找到一系列值,繪制一條隨變化的曲線,并獲得最佳值。案例分析,回歸分析,根據(jù)原始數(shù)據(jù),Box-Cox變換參數(shù)估計結(jié)果,Box-Cox變換回歸分析,經(jīng)過正態(tài)性檢驗,一組服從f分布的隨機(jī)數(shù)可以判斷為不服從正態(tài)分布,檢驗統(tǒng)計量為0.1234,臨界值為0.089,檢驗P值為0.001。一組服從f分布的隨機(jī)數(shù),經(jīng)過正態(tài)性檢驗,檢驗統(tǒng)計量為0.0520,臨界值為0.089,檢驗P值為0.50。結(jié)論:利用Box-Cox變換后的數(shù)據(jù)得到的回歸模型優(yōu)于變換前的模型,變換后的模型性能更好。采用Box-Cox變換后,殘差能夠更好地滿足正態(tài)性和獨立性的假設(shè),降低偽回歸的概率。一般來說,利用Box-Cox變換族可以保證數(shù)據(jù)的正常變換,但在二元變量或少量水平變量的情況下,不能成功地進(jìn)行變換。此時,我們可以考慮使用廣義線性模型,如LOGUSTICS模型、Johnson變換等。結(jié)論:數(shù)據(jù)轉(zhuǎn)換不一定能達(dá)到我們預(yù)定的目標(biāo)。沒有數(shù)學(xué)原理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論