版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、(分析階段),(ZTE-GB402-V1.5),相關(guān)和回歸分析,主要內(nèi)容,1. 相關(guān)分析 2. 回歸分析,學(xué)習(xí)目的,變量(X1)與變量(X2)間或X與Y間 -有多少相關(guān)性 相關(guān)分析 -變量間關(guān)系式的推測 回歸分析,它們之間有關(guān)系嗎? 有多強的關(guān)系? 有什么樣的關(guān)系式?,機動車的數(shù)量 vs 交通事故發(fā)生率 網(wǎng)板厚度 vs 焊膏厚度,1. 相關(guān)關(guān)系是?,相關(guān)關(guān)系可以用數(shù)據(jù)來看出兩個變量(Y與X,或兩個X)間緊密程度如何. 兩者之間關(guān)系的強度通過相關(guān)系數(shù)(r)可以計數(shù)化. (Minitab使用Pearson product moment 相關(guān)系數(shù)),-1.0,0,+1.0,負的相關(guān)系,正的相關(guān)關(guān)系,
2、“r”,弱相關(guān)關(guān)系,決定點,r值,r 接近 -1,r 接近 +1,(+) 正的相關(guān)關(guān)系 () 負的相關(guān)關(guān)系 接近0時幾乎沒有相關(guān)關(guān)系,相關(guān)系數(shù)的性質(zhì),為調(diào)查相關(guān)關(guān)系,需要數(shù)據(jù)構(gòu)造為成對的2個變量數(shù)據(jù),相關(guān)系數(shù)(Correlation Coefficient),一般表示為 (總體的相關(guān)關(guān)系),其范圍是 1 1.,一般情況下我們無法知道的正確的值,因此使用從樣本推斷的值r.r從 如下公式得出且范圍是 -1 r 1 . 一般樣本大小(30個以上)為基準(zhǔn) 如果 |r| 0.80 時具有強的相關(guān)關(guān)系 如果 0.3 |r| 0.80 時具有弱的相關(guān)關(guān)系. 如果 |r| 0.30 時認為沒有有效的關(guān)系.,相
3、關(guān)公式,強的正相關(guān),弱的正相關(guān),中間程度的正相關(guān),| r | = 0.936,| r | = 0.560,| r | = 0.3390,強的負相關(guān),弱的負相關(guān),中間程度的負相關(guān),相關(guān)的類型和大小,判斷相關(guān)類型,對結(jié)果 Y影響最大的因子,可從點的密集程度判斷 單純通過散點圖分析相關(guān)關(guān)系時不客觀,因此需要客觀的分 析,即可看出相關(guān)程度的指數(shù)(相關(guān)系數(shù)計算方法等) 相關(guān)系數(shù)計算方法是從直線的觀點進行分析. 曲線關(guān)系時,如果以相關(guān)系數(shù)方法計算時會出現(xiàn)錯誤的結(jié) 果.,相關(guān)并不是分析所有的因果關(guān)系!,即使證明Y與 X間具有相關(guān),也并不意味著Y的變動一定是X的變動引起的. 可能存在引起X與Y同時變動的第3個
4、隱藏變量. 兩個變量間有關(guān)系的結(jié)論并不意味著因果關(guān)系. 且樣本相關(guān)系數(shù)的值接近“0”表示 兩個變量間直線關(guān)系弱 ,并不意味著兩個變量間沒有關(guān)系.,相關(guān)的濫用與誤用,事例分析,單板生產(chǎn)過程中,刮刀壓力可能會影響到焊膏的厚度,為了了解刮刀壓 力和焊膏厚度的關(guān)系. 為此我們進行幾次實驗后得出如下資料.求此資料的散點圖及總體的 相關(guān)系數(shù).,打開 A_08.mtw.,Stat Basic Statistics Correlation,從上面點來看,可以猜測有強的相關(guān)關(guān)系,分析結(jié)果根據(jù) 刮刀壓力和焊膏厚度的相關(guān)系數(shù)為 r = 0.955,可看出具有強的負相關(guān). 從上述結(jié)果可以得出:為了保證焊膏厚度符合要求
5、.必須監(jiān)控刮刀的壓力.,統(tǒng)計分析,結(jié)果解釋,事例分析,下面給出13家上市公司的每股賬面價值和每股紅利,以 1.賬面價值作為橫軸,畫散點圖 2.計算相關(guān)系數(shù)并解釋,從散點圖我們可以看出什么?,相關(guān)系數(shù)可以看出什么?,通過它我們可以知道哪個輸入對輸出值 有多少影響? 為了得到想要的輸出值, 我們應(yīng)按什么水 平管理X的規(guī)格.,回歸尋找“Y”與“X”關(guān)系的方法 什么是回歸? 描述“ Y”與“X”關(guān)系的數(shù)學(xué)方法 創(chuàng)建過程的“模型”。,2. 回歸分析,相關(guān)是告訴關(guān)系的程度,回歸分析是找出Y=F(X)的函數(shù)關(guān)系式,回歸分析的種類,單純回歸模型:獨立變量為一個 多重回歸模型:獨立變量為兩個以上 例 Y = a
6、 + bx1 + cx2 + dx3,單純線性回歸模型:設(shè)定直線關(guān)系后分析 例 Y = a + bx 曲線回歸模型 : 設(shè)定曲線關(guān)系后分析 例 Y = a + bx + cx2 + dx3 Y = a bx,單純線性回歸,回歸分析的階段,Data 收集,用散點圖確認關(guān)系,用最小二乘法 推斷總體,進行方差分析,畫直線 (Line Fitting),分析殘差,此章的因子為一個,因子和輸出值(Y)的關(guān)系為直線關(guān)系的單純線性回歸(Simple Linear Regression),通過樣本推測的直線,未知的真實直線,Yi = + xi + i (i = 1,., n),i 是相互獨立的,遵守N(0,
7、2) 的概率變量,單純線性回歸模型,i,ei,(xi, yi),x,y,在這里, i iid N(0,2),Model,定義 一個獨立變量(x)與 一個從屬變量(Y)間的關(guān)系 方程式化后顯示的方法,將誤差平方和最小化的推斷方法,找出將殘差平方最小化的直線.,最小平方和的單純回歸,單純回歸直線,與回歸直線的 差異(誤差),直線是以“最小平方和推斷法 (least square estimation)”的 原則畫出的.從資料的點到直線 的距離的平方和最小化.,e,b,Scatter Plot Y vs.X with Fitted Line Y = a + bX,直線的方程式是 Y = a +bX
8、a是 常數(shù), b是斜率. “擬合線”是包括實際點和直線的平 方差的和最小化后形成的直線. 實際資料的點和直線的差異稱為 殘差(residuals(e).,擬合線,回歸方程式構(gòu)造,殘差(e)是對誤差的最佳推斷值,是實際結(jié)果值和回歸方程式推測的最佳值間的差異.,殘差 : 實際觀測值(yi )和推測值 的差,殘差越小推斷的回歸式更能說明實際結(jié)果,殘差是誤差的最好的推斷值. 殘差按大小排列或按資料的順序排列時,它們以“0”為軸相對稱,并且不能存在 特別的傾向.,大家用MINITAB對上述數(shù)據(jù)進行回歸分析.,打開 : A13.mtw.,下面是對硅膠強度有重要影響的SiO2使用量 的關(guān)系的分析數(shù)據(jù).,事例
9、分析,Graph Plot,從散點圖看似乎有一定相關(guān)性! 那么要進一步分析有多少相關(guān)性.,Stat Regression Regression,回歸方程式,方差分析,s:殘差(誤差)的標(biāo)準(zhǔn)差。殘差為觀測值預(yù)測值。換句話說,指觀 測點至回歸方程式中描述的擬合線的距離。(對于優(yōu)秀的模型, 此值應(yīng)較小) s = MS(error)1/2 R-Sq:由擬合線能夠“ 解釋”的總變差的百分數(shù)。由“ X”解釋的變差。 (對于優(yōu)秀的模型,此值應(yīng)較大) R-Sq(adj):對過于擬合情況(方程式中的變量過多)的調(diào)整,它將包括 模型中的項數(shù)與觀測值的個數(shù)進行對比 其中 n = 觀測值數(shù)量 p =模型中項數(shù),包括常
10、數(shù),判斷的方法,New,“ X” 變量的p值 - 速度 Ho: 斜率= 0 H1: 斜率 = 0 或者,另一種表達方式: Ho: “ X” 不顯著 H1: “ X” 顯著,常數(shù)的p-值 H0:直線通過原點(0,0) (0硬度=0使用量) H1:直線不通過原點(0,0),結(jié)果判斷,R2越大,模型對工序模擬得越好,New,SSregression:由模型中的“ X” 解釋變量“ Y”的變動 每一X值對應(yīng)的模型預(yù)測值和Y的總平均值之 差的平方和。 SSerror:未被解釋的“Y”的變差。每個數(shù)據(jù)點的Y觀測 值和該數(shù)據(jù)點Y的預(yù)測值之差的平方和。值 越小越好。 SStotal:Y值相對其平均值的總變差。
11、,結(jié)果判斷,回歸項(的SS 和 MS) 應(yīng)比誤差項的 (SS 和 MS)大,通過查看R-Sq, R-Sq(adj),s和p值來評估模型,p-值應(yīng) 0.05,以表示統(tǒng)計顯著性 (良好擬合的方程式),New,Stat Regression Fitted Line Plot(擬合線),R-sq值稱為決定系數(shù),用R2 表示,范圍是 0 R2 1 ,R2 越接近 1時可以說明越接 近回歸線.,Stat Regression Fitted Line Plot,殘差分析,Storage Oprion中選擇 Residual和 Fits時,可得出如下數(shù)據(jù).,Stat Regression Residual P
12、lots(殘差圖表),殘差具有多少正態(tài)性,條狀圖是鐘型的曲線嗎? 要無視(30)以下的資料.,個別殘差能看出多少傾 向?或異常點?,是否沒有傾向,對“0” 是隨機的?,回歸分析結(jié)果解釋,SiO2的使用量(X)與強度(Y)間的推斷回歸式是 強度(Y) = 3.07+6.9 SiO2使用量(X) . 且兩個變量回歸系數(shù)為72%,可以說具有強的關(guān)系. (使用Adj. R-sq) 即,用上述回歸直線可以說明的變動量為72%. 觀察方差分析表,回歸相關(guān)警告 - 圖表 !,R-Sq. 66.2%,R-Sq. 66.2%,R-Sq. 66.2%,R-Sq. 66.2%,對4個不同的資料群從基本統(tǒng)計結(jié)果來看似
13、乎一樣,但期間很明顯有差異. 總是要用一種以上的方法來看 !,不要忘記憶原始資料(raw data)! 畫散點圖!,相關(guān)與回歸的概要,相關(guān)分析可以作為非常有用的工具活用于實際生活中. 相關(guān)關(guān)系是看出兩個連續(xù)型變量間相關(guān)性的尺度 假定因果關(guān)系時需要更加注意. 回歸模型將變量間的關(guān)系顯示為線型或非線型函數(shù). 回歸分析可以從回歸式預(yù)測期望值.,您相信我們的家電所占據(jù)的展示廳面積的大小會影響銷售量。您已經(jīng)收集了過去12個月內(nèi),多個零售點銷售量與總的占地面積方面的數(shù)據(jù)。現(xiàn)在,您希望分析這些數(shù)據(jù),看占地面積是否確實與年銷售量存在某種關(guān)系。,應(yīng)用所學(xué)的單變量回歸方法。準(zhǔn)備解釋您的答案、以及支持您的結(jié)論的結(jié)果
14、。,($K) (平方英尺),New,分析階段總結(jié),如果我們的數(shù)據(jù)量比較大,采集數(shù)據(jù)非常容易時,我們可 以使用描述型的統(tǒng)計工具進行分析。 1.如果想知道變量的分布形狀、平均值的位置、離散程度、傾斜度、 峰態(tài)等具體的統(tǒng)計信息,可以用Display Descriptive Statistics 工具來分析. 2.如果我們想知道變量分布形狀、均值的大概位置、離散的程度的粗 略信息時,我們可以用Histogram、 Multiple Dotplot等工具分析. 3.如果我們要比較兩個變量或者想知道在不同“條件”下變量發(fā)生什么 樣的變化時,我們可以用Box plot、 Multiple Dotplot工具
15、來分析.,New,4.如果我們想知道變量之間的相互關(guān)系時,可以使用Scatter plot 、 Marginal plot (兩個變量之間的關(guān)系)和 Matrix plot(多個變量之 間的相互作用). 5.如果我們想知道隨著時間變化,變量怎樣變化時可以使用Time series plot進行分析. 6.如果我們要知道多個輸入變量(X)對輸出變量(Y)的影響程度,可以 使用Multi-Vari Chart、Main Effects Plot進行分析. 7.如果我們要知道不良品,缺陷數(shù),爭議點,事故的現(xiàn)象或原因等集中在哪 些方面的時候,可以使用Pareto chart、 Pie chart進行分
16、析.,New,如果我們的數(shù)據(jù)量比較小,采集數(shù)據(jù)非常難,我們可以使 用假設(shè)檢驗工具對均值進行分析。 一、我們涉及的數(shù)據(jù)是連續(xù)性的數(shù)據(jù)時 1. 如果我們想知道一個變量跟一個基準(zhǔn)值是否在統(tǒng)計意義上有顯著性差 異的時候(也就是判斷這個變量是否發(fā)生了異常原因的波動),可以 使用1 sample t工具分析. 2.如果我們想知道兩個變量或者兩種水平下是否在統(tǒng)計意義上有顯著性 差異的時候,可以使用2 sample t、 Paired t工具分析. 3.如果我們要比較多個變量或者一個變量在多個水平下是否有顯著性差 異時,可以用ANOVA工具來分析.,New,二、我們涉及的數(shù)據(jù)是離散型的數(shù)據(jù)時 1. 如果我們想知道一個變量跟一個基準(zhǔn)值是否在統(tǒng)計意義上有顯 著性差 異的時候(也就是判斷這個變量是否發(fā)生了異常原因的 波動),可以使用1 Proportion工具分析. 2.如果我們想知道兩個變量或者兩種水平下是否在統(tǒng)計意義上有 顯著性 差異的時候,可以使用2 Proportion工具分析. 3.如果我們要比較多個變量或者一個變量在多個水平下
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年湖南有色金屬職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測試參考題庫有答案解析
- 2026年河北機電職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)考試模擬試題帶答案解析
- 2026年福建商學(xué)院高職單招職業(yè)適應(yīng)性測試模擬試題帶答案解析
- 2026年合肥濱湖職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)筆試備考試題帶答案解析
- 2026年廣西交通職業(yè)技術(shù)學(xué)院單招職業(yè)技能筆試備考題庫帶答案解析
- 2026年合肥信息技術(shù)職業(yè)學(xué)院單招綜合素質(zhì)考試備考題庫帶答案解析
- 2026年保山中醫(yī)藥高等??茖W(xué)校單招綜合素質(zhì)考試備考題庫帶答案解析
- 2026年廣東江門中醫(yī)藥職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試備考題庫有答案解析
- 數(shù)字廣告投放合同協(xié)議2025年
- 2026年黑龍江職業(yè)學(xué)院單招職業(yè)技能考試參考題庫帶答案解析
- 2026貴州黔南州長順縣醫(yī)療集團中心醫(yī)院招聘備案編制人員21人筆試參考題庫及答案解析
- 中國兒童原發(fā)性免疫性血小板減少癥診斷與治療改編指南(2025版)
- 2026年遼寧生態(tài)工程職業(yè)學(xué)院單招綜合素質(zhì)考試題庫附答案詳解
- 基坑回填質(zhì)量控制措施
- 2025重慶城口縣國有企業(yè)公開招聘26人參考題庫附答案
- 應(yīng)力性骨折課件
- 醫(yī)?;鸨O(jiān)管培訓(xùn)課件
- 新型醫(yī)療器械應(yīng)用評估報告
- 2023心力衰竭器械治療進展
- 2025年大學(xué)《應(yīng)急裝備技術(shù)與工程-應(yīng)急裝備概論》考試備考試題及答案解析
- 2025年國家開放大學(xué)(電大)《護理倫理學(xué)》期末考試復(fù)習(xí)題庫及答案解析
評論
0/150
提交評論