數(shù)學(xué)建模方法 課件 第4章 數(shù)據(jù)的描述與處理方法_第1頁(yè)
數(shù)學(xué)建模方法 課件 第4章 數(shù)據(jù)的描述與處理方法_第2頁(yè)
數(shù)學(xué)建模方法 課件 第4章 數(shù)據(jù)的描述與處理方法_第3頁(yè)
數(shù)學(xué)建模方法 課件 第4章 數(shù)據(jù)的描述與處理方法_第4頁(yè)
數(shù)學(xué)建模方法 課件 第4章 數(shù)據(jù)的描述與處理方法_第5頁(yè)
已閱讀5頁(yè),還剩102頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第4章數(shù)據(jù)的描述與處理方法章節(jié)內(nèi)容§4.1數(shù)據(jù)分布特征分析方法4.1.1集中趨勢(shì)的度量4.1.2變異程度的度量4.1.3偏度和峰度特征4.1.4數(shù)據(jù)圖形化方法§4.2數(shù)據(jù)相關(guān)分析方法4.2.1相關(guān)分析指標(biāo)4.2.2典型相關(guān)分析CHAPTER4數(shù)據(jù)的描述與處理方法§4.3數(shù)據(jù)的回歸分析方法

4.3.1線性回歸

4.3.2自變量的選擇4.3.3逐步回歸

§4.4數(shù)據(jù)插值和擬合方法4.4.1數(shù)據(jù)插值4.4.2數(shù)據(jù)擬合§4.5應(yīng)用案例章節(jié)內(nèi)容CHAPTER4數(shù)據(jù)的描述與處理方法§4.1數(shù)據(jù)分布特征分析方法4.1.1集中趨勢(shì)的度量4.1.2變異程度的度量4.1.3偏度和峰度特征4.1.4數(shù)據(jù)圖形化方法§4.2數(shù)據(jù)相關(guān)分析方法4.2.1相關(guān)分析指標(biāo)4.2.2典型相關(guān)分析§4.3數(shù)據(jù)的回歸分析方法

4.3.1線性回歸

4.3.2自變量的選擇4.3.3逐步回歸

§4.4數(shù)據(jù)插值和擬合方法4.4.1數(shù)據(jù)插值4.4.2數(shù)據(jù)擬合§4.5應(yīng)用案例4.1數(shù)據(jù)分布特征分析方法1.平均數(shù)4.1.1集中趨勢(shì)的度量

4.1數(shù)據(jù)分布特征分析方法2.中位數(shù)4.1.1集中趨勢(shì)的度量

4.1數(shù)據(jù)分布特征分析方法3.眾數(shù)4.1.1集中趨勢(shì)的度量眾數(shù)是一組數(shù)據(jù)中重復(fù)出現(xiàn)次數(shù)最多的數(shù)值。眾數(shù)明確反應(yīng)了數(shù)據(jù)分布的集中趨勢(shì),也是一種位置平均數(shù),不受極端數(shù)據(jù)的影響。但并不是所有數(shù)據(jù)集合都有眾數(shù),比如連續(xù)的定量變量,當(dāng)數(shù)據(jù)沒有重復(fù)的時(shí)候,眾數(shù)就沒有意義了。對(duì)于不對(duì)稱的單峰頻數(shù)曲線,均值、眾數(shù)和中位數(shù)之間有經(jīng)驗(yàn)關(guān)系均值–眾數(shù)=3(均值–中位數(shù))圖4.1.1(a)和(b)分別表示了向左和向右傾斜的頻數(shù)曲線的均值、中位數(shù)和眾數(shù)的相對(duì)位置。對(duì)于對(duì)稱曲線,均值、中位數(shù)和眾數(shù)是完全一致的。ABC

ABC

A:眾數(shù),B:中位數(shù),C:均值A(chǔ):均值,B:中位數(shù),C:眾數(shù)(a)(b)圖4.1.1不對(duì)稱分布中位數(shù)、眾數(shù)、均值的關(guān)系4.1數(shù)據(jù)分布特征分析方法總結(jié)4.1.1集中趨勢(shì)的度量算術(shù)平均數(shù)對(duì)于分析資料呈對(duì)稱分布,它對(duì)正態(tài)分布和近似正態(tài)分布是很有價(jià)值的,中位數(shù)則適用于各種類型的資料,尤其適合于大樣本偏態(tài)分布資料,有不確定數(shù)值資料以及資料分布不明等情形,此時(shí)利用中位數(shù)可以得到比較穩(wěn)健的結(jié)果。平均數(shù),中位數(shù),四分位數(shù)和眾數(shù)均度量了一組數(shù)據(jù)的集中趨勢(shì),均值是一系列數(shù)值的中間值,中位數(shù)是一系列個(gè)體的中間值,中位數(shù)關(guān)注的是有多少個(gè)個(gè)體,而不是多少個(gè)數(shù)值。如果僅有平均指標(biāo)而沒有描述數(shù)據(jù)分布伸展程度或離散程度的量來(lái)配合,對(duì)觀察數(shù)據(jù)的描述是不完整的,甚至還可能引起誤導(dǎo)。用來(lái)描述數(shù)據(jù)離散程度的數(shù)量指標(biāo)主要有極差,方差。

4.1數(shù)據(jù)分布特征分析方法1.極差4.1.2變異程度的度量極差是描述分布的離散程度的最簡(jiǎn)單的方法之一,找出觀測(cè)數(shù)據(jù)的最大值和最小值,這兩個(gè)數(shù)表示了數(shù)據(jù)的分布范圍,稱它們的差為極差(也稱全距)。顯然,一組數(shù)據(jù)的差異越大,其極差也越大。極差是最簡(jiǎn)單的變異指標(biāo),表明總體中標(biāo)志值變動(dòng)的范圍。極差廣泛應(yīng)用于產(chǎn)品質(zhì)量管理中,控制質(zhì)量的差異,一旦發(fā)現(xiàn)超過(guò)控制范圍,就采取措施加以糾正,以保證產(chǎn)品質(zhì)量的穩(wěn)定。但極差有很大的局限性,它僅考慮了兩個(gè)極端的數(shù)據(jù),沒有利用其余數(shù)據(jù)分布的信息,不能反映大部分?jǐn)?shù)據(jù)的分布范圍。而且最大值和最小值也有可能是遠(yuǎn)離其他觀測(cè)值的奇異值,因而是一種比較粗糙的變異指標(biāo)。4.1數(shù)據(jù)分布特征分析方法2.方差4.1.2變異程度的度量

4.1數(shù)據(jù)分布特征分析方法3.平均偏差4.1.2變異程度的度量

4.內(nèi)四分極差

4.1數(shù)據(jù)分布特征分析方法5.絕對(duì)和相對(duì)離差、變異系數(shù)4.1.2變異程度的度量

4.1數(shù)據(jù)分布特征分析方法1.偏度4.1.3偏度和峰度特征

4.1數(shù)據(jù)分布特征分析方法2.峰度4.1.3偏度和峰度特征總的說(shuō)來(lái)如果分布是對(duì)稱的,偏度為0;如果分布不對(duì)稱,長(zhǎng)尾巴指向大的值,則稱正偏,偏度為正值;反之長(zhǎng)尾巴指向小的值,則稱負(fù)偏,偏度為負(fù)值。如果偏度值大于1或小于-1,則被認(rèn)為高度偏態(tài);若偏度值在0.5~1或者-1~-0.5,則被認(rèn)為是中等偏態(tài);偏度越接近于0,偏斜程度越低。峰度描述觀測(cè)值聚集在中心的程度,是對(duì)數(shù)據(jù)分布峰態(tài)的度量值,是分布形狀的另一特征。峰度通常是與正態(tài)分布相比較的,如果一組數(shù)據(jù)服從標(biāo)準(zhǔn)正態(tài)分布,則峰度為0;如果數(shù)據(jù)分布比標(biāo)準(zhǔn)正態(tài)分布更尖,峰度大于0,稱尖峰分布,數(shù)據(jù)更集中;若果數(shù)據(jù)分布比標(biāo)準(zhǔn)正態(tài)分布還平,分布更分散,稱為平峰分布,此時(shí)峰度小于0。4.1數(shù)據(jù)分布特征分析方法1.直方圖

4.1.4數(shù)據(jù)圖形化方法獲得了數(shù)據(jù)的集中趨勢(shì)和離散程度,對(duì)數(shù)據(jù)的特征就有了粗淺的了解。例如某學(xué)校男生的身高數(shù)據(jù),通過(guò)求均值和方差可知該班男生的平均身高和身高的波動(dòng)程度,但男生的身高服從什么分布呢?就必須要進(jìn)一步深入分析數(shù)據(jù),從而獲得來(lái)自這組數(shù)據(jù)的總體的分布。一組數(shù)據(jù)(樣本)往往是雜亂無(wú)章的,畫出它的頻數(shù)表和直方圖,可以看作是對(duì)這組數(shù)據(jù)的一個(gè)初步整理和直觀描述,直方圖可以近似地求出概率密度函數(shù)。將數(shù)據(jù)的取值范圍劃分為若干個(gè)區(qū)間,然后統(tǒng)計(jì)這組數(shù)據(jù)在每個(gè)區(qū)間中出現(xiàn)的次數(shù),稱為頻數(shù),由此得到一個(gè)頻數(shù)表。以數(shù)據(jù)的取值為橫坐標(biāo),頻數(shù)為縱坐標(biāo),畫出一個(gè)階梯形的圖,稱為直方圖,或頻數(shù)分布圖。針對(duì)一組數(shù)據(jù),進(jìn)行數(shù)據(jù)簡(jiǎn)單特征提?。ㄓ?jì)算4.1節(jié)所提到的一些指標(biāo))的同時(shí),還需要探索各數(shù)量指標(biāo)之間的內(nèi)在規(guī)律,一個(gè)比較好的辦法是把數(shù)據(jù)通過(guò)圖形表示出來(lái)。圖形可以在最小的篇幅內(nèi)為使用者提供大量的數(shù)據(jù)信息;還可以使數(shù)據(jù)信息更為形象生動(dòng),常用的數(shù)據(jù)圖形有散點(diǎn)圖、折線圖、餅圖、直方圖、盒子圖、星型圖、雷達(dá)圖等等。這種圖形化方法常用于分布的擬合、統(tǒng)計(jì)分析以及數(shù)據(jù)分布規(guī)律的直觀觀察。這一小節(jié)只考慮靜態(tài)數(shù)據(jù),不考慮數(shù)據(jù)產(chǎn)生的時(shí)間先后順序,只介紹直方圖和盒子圖。4.1數(shù)據(jù)分布特征分析方法1.直方圖4.1.4數(shù)據(jù)圖形化方法繪制直方圖的一般步驟:1)編制頻率分布表(1)將樣本觀察值分組求頻數(shù):①找出觀察值的最大值和最小值,并求極差。②將區(qū)間等分成若干小區(qū)間,一般分為8~15個(gè)小區(qū)間。注意:小區(qū)間的長(zhǎng)度應(yīng)略大于極差除以小區(qū)間數(shù),各小區(qū)間端點(diǎn)值比觀察值多一位小數(shù)。③列表求頻數(shù)。(2)求概率密度的近似值---頻率密度。

4.1數(shù)據(jù)分布特征分析方法1.直方圖4.1.4數(shù)據(jù)圖形化方法

4.1數(shù)據(jù)分布特征分析方法1.直方圖4.1.4數(shù)據(jù)圖形化方法

2.盒狀圖

4.1數(shù)據(jù)分布特征分析方法2.盒狀圖4.1.4數(shù)據(jù)圖形化方法(4)內(nèi)部范圍:區(qū)分屬于特定分布和分布之外的數(shù)值。內(nèi)部范圍的上限處在高于第3四分位數(shù)1.5倍四分位距的位置;下限則處在低于第1四分位數(shù)1.5倍四分位距的位置,即內(nèi)部上限=第3四分位數(shù)+1.5×四分位距內(nèi)部下限=第1四分位數(shù)-l5×四分位距(5)外部范圍:處在該范圍的數(shù)據(jù)遠(yuǎn)遠(yuǎn)在分布之外,很值得特別注意。外部范圍的上限是處在高于內(nèi)部上限1.5倍四分位距的位置;下限則處在低于內(nèi)部下限1.5倍四分位距的位置,即外部上限=內(nèi)部上限+1.5×四分位距外部下限=內(nèi)部下限-1.5×四分位距(6)畫盒形圖。首先畫一條水平軸,根據(jù)數(shù)據(jù)的范圍選擇合適的尺度?!ひ运姆治粩?shù)值為邊界畫一個(gè)盒子;·在盒子上中位數(shù)的位置畫一條線;·在每個(gè)內(nèi)部范圍處畫一條線;·從盒子邊界到內(nèi)部范圍中的第一個(gè)數(shù)之間畫一條虛線;·在每個(gè)值處畫一條垂線;·畫一個(gè)小圈代表任何出現(xiàn)在內(nèi)部范圍之外但在外部范圍之內(nèi)的異常值;·畫兩個(gè)圈代表出現(xiàn)在外部范圍之外的數(shù)值點(diǎn)。分析這個(gè)圖,可以發(fā)現(xiàn)中位數(shù)的位置;數(shù)據(jù)的分布:四分位數(shù)和范圍距中位數(shù)多遠(yuǎn);分布的對(duì)稱性和異常點(diǎn)的存在。4.1數(shù)據(jù)分布特征分析方法3.Q-Q圖和正態(tài)概率圖4.1.4數(shù)據(jù)圖形化方法Q-Q圖是一種散點(diǎn)圖,對(duì)應(yīng)于正態(tài)分布的Q-Q圖,就是由標(biāo)準(zhǔn)正態(tài)分布的分位數(shù)為橫坐標(biāo),樣本值為縱坐標(biāo)的散點(diǎn)圖。要利用Q-Q圖鑒別樣本數(shù)據(jù)是否近似于正態(tài)分布,只需看Q-Q圖上的點(diǎn)是否近似地在一條直線附近,而且該直線的斜率為標(biāo)準(zhǔn)差,截距為均值。用Q-Q圖還可獲得樣本偏度和峰度的粗略信息。Q-Q圖可以用于檢驗(yàn)數(shù)據(jù)的分布,所不同的是,Q-Q圖是用變量數(shù)據(jù)分布的分位數(shù)與所指定分布的分位數(shù)之間的關(guān)系曲線來(lái)進(jìn)行檢驗(yàn)的。Q-Q還可以用于比較兩組數(shù)據(jù)是否服從相同的分布,如果兩組數(shù)據(jù)具有相同的分布,得到的點(diǎn)基本上會(huì)在一條直線上。需要注意的是,Q-Q圖只提供了粗略的信息,如果樣本量比較小,則結(jié)果不一定正確。與Q-Q有關(guān)的另一種圖像是正態(tài)概率圖,如果數(shù)據(jù)點(diǎn)畫出的正態(tài)概率圖近似為一條直線,則可以認(rèn)為該組數(shù)據(jù)服從正態(tài)分布。數(shù)據(jù)的特征分析往往是數(shù)學(xué)建模中數(shù)據(jù)處理的第一步,也是比較關(guān)鍵的一步。熟悉概念和相關(guān)原理以后,通過(guò)統(tǒng)計(jì)軟件很容易獲得相應(yīng)的數(shù)據(jù)特征。4.1數(shù)據(jù)分布特征分析方法4.1數(shù)據(jù)分布特征分析方法例解例4.1.1:(2012CUMCMA)確定葡萄酒質(zhì)量時(shí)一般是通過(guò)聘請(qǐng)一批有資質(zhì)的評(píng)酒員進(jìn)行品評(píng)。每個(gè)評(píng)酒員在對(duì)葡萄酒進(jìn)行品嘗后對(duì)其分類指標(biāo)打分,然后求和得到其總分,從而確定葡萄酒的質(zhì)量。釀酒葡萄的好壞與所釀葡萄酒的質(zhì)量有直接的關(guān)系,葡萄酒和釀酒葡萄檢測(cè)的理化指標(biāo)會(huì)在一定程度上反映葡萄酒和葡萄的質(zhì)量。(附件1是某一年份一些葡萄酒品嘗評(píng)分表)。分析附件1中兩組評(píng)酒員的評(píng)價(jià)結(jié)果有無(wú)顯著性差異,哪一組結(jié)果更可信?注:1.本例只用來(lái)說(shuō)明怎么初步處理數(shù)據(jù),至于詳細(xì)的解法可看文獻(xiàn)[44]。二維碼4-12012A題及附件。

4.1數(shù)據(jù)分布特征分析方法4.1數(shù)據(jù)分布特征分析方法

4.1數(shù)據(jù)分布特征分析方法4.1數(shù)據(jù)分布特征分析方法4.1.2(a)紅葡萄酒得分分布圖圖4.1.2(b)白葡萄酒得分分布圖

4.1數(shù)據(jù)分布特征分析方法4.1數(shù)據(jù)分布特征分析方法例例4.1.2(2017CUMCMB)“拍照賺錢”是移動(dòng)互聯(lián)網(wǎng)下的一種自助式服務(wù)模式。用戶下載APP,注冊(cè)成為APP的會(huì)員,從APP上領(lǐng)取需要拍照的任務(wù)(比如上超市去檢查某種商品的上架情況),賺取APP對(duì)任務(wù)所標(biāo)定的酬金。這種基于移動(dòng)互聯(lián)網(wǎng)的自助式眾包平臺(tái),相比傳統(tǒng)市場(chǎng)調(diào)查方式大大節(jié)省調(diào)查成本,而且有效保證了數(shù)據(jù)真實(shí)性,縮短了調(diào)查的周期。因此APP成為該平臺(tái)運(yùn)行的核心,而APP中的任務(wù)定價(jià)又是其核心要素。若定價(jià)不合理,有的任務(wù)就會(huì)無(wú)人問津,導(dǎo)致商品檢查的失敗。附件一是一個(gè)已結(jié)束項(xiàng)目的任務(wù)數(shù)據(jù),包含每個(gè)任務(wù)的位置、定價(jià)和完成情況;附件二是會(huì)員信息數(shù)據(jù),包含了會(huì)員的位置、信譽(yù)值、參考其信譽(yù)給出的任務(wù)開始預(yù)訂時(shí)間和預(yù)訂限額,原則上會(huì)員信譽(yù)越高,越優(yōu)先開始挑選任務(wù),其配額越大(任務(wù)分配時(shí)實(shí)際上是根據(jù)預(yù)訂限額所占比例進(jìn)行配發(fā))。研究附件一中項(xiàng)目的任務(wù)定價(jià)規(guī)律,分析任務(wù)未完成的原因。二維碼4-22017B題及附件。4.1數(shù)據(jù)分布特征分析方法4.1數(shù)據(jù)分布特征分析方法解問題分析:為了分析任務(wù)未完成的原因,我們首先要做的就是處理附件一的數(shù)據(jù),把附件一的數(shù)據(jù)以最直觀明了的方式呈現(xiàn)出來(lái)。以便對(duì)不同地點(diǎn)的任務(wù)、會(huì)員進(jìn)行分析,以便探究?jī)r(jià)格制定規(guī)律。由附件一所給數(shù)據(jù),制定任務(wù)完成情況的二維散點(diǎn)圖,詳見圖4.1.3,觀察任務(wù)完成情況。從圖4.1.3發(fā)現(xiàn)未完成任務(wù)的分布均在佛山市及東莞市南部地區(qū)附近。著重分析該集中區(qū)域的價(jià)格規(guī)律,便可找出任務(wù)未完成的原因。圖4.1.3任務(wù)分布圖定義本節(jié)回顧

掌握均值、中位數(shù)、眾數(shù)的計(jì)算與應(yīng)用場(chǎng)景,理解三者在非對(duì)稱分布中的位置關(guān)系學(xué)習(xí)任務(wù)課本習(xí)題

學(xué)習(xí)極差、方差、四分位距等變異指標(biāo)的計(jì)算及適用條件

掌握偏度(衡量分布對(duì)稱性)和峰度(衡量數(shù)據(jù)集中程度)的統(tǒng)計(jì)意義

熟悉直方圖、盒狀圖的繪制方法及其在分布特征分析中的應(yīng)用,了解Q-Q圖的分布檢驗(yàn)原理章節(jié)內(nèi)容§4.1數(shù)據(jù)分布特征分析方法4.1.1集中趨勢(shì)的度量4.1.2變異程度的度量4.1.3偏度和峰度特征4.1.4數(shù)據(jù)圖形化方法§4.2數(shù)據(jù)相關(guān)分析方法4.2.1相關(guān)分析指標(biāo)4.2.2典型相關(guān)分析§4.3數(shù)據(jù)的回歸分析方法

4.3.1線性回歸

4.3.2自變量的選擇4.3.3逐步回歸

§4.4數(shù)據(jù)插值和擬合方法4.4.1數(shù)據(jù)插值4.4.2數(shù)據(jù)擬合§4.5應(yīng)用案例CHAPTER4數(shù)據(jù)的描述與處理方法4.2數(shù)據(jù)相關(guān)分析方法4.2.1相關(guān)分析指標(biāo)兩個(gè)變量之間的相關(guān)稱為單相關(guān)??梢酝ㄟ^(guò)積矩相關(guān)系數(shù)和秩相關(guān)系數(shù)度量?jī)蓚€(gè)變量之間的相關(guān)程度。通過(guò)數(shù)據(jù)的特征分析我們對(duì)數(shù)據(jù)有了大致地了解,數(shù)據(jù)也可以看成是所研究變量的具體實(shí)現(xiàn),那么對(duì)于這些數(shù)據(jù)所代表的變量之間是否存在某種關(guān)聯(lián),變量之間是不是存在明確的數(shù)量關(guān)系,需要進(jìn)一步探索才能回答。數(shù)據(jù)的相關(guān)分析方法(簡(jiǎn)稱相關(guān)分析)是通過(guò)變量的數(shù)據(jù)研究變量之間關(guān)系的緊密程度,并用相關(guān)系數(shù)或指數(shù)來(lái)表示變量之間的關(guān)系及其程度的方法,其目的是揭示現(xiàn)象之間是否存在相關(guān)關(guān)系,確定相關(guān)關(guān)系的表現(xiàn)形式以及確定現(xiàn)象變量間相關(guān)關(guān)系的密切程度和方向。它是數(shù)學(xué)建模過(guò)程中確定變量之間是否存在線性關(guān)系的前提。許多人會(huì)認(rèn)為,相關(guān)分析研究的是兩個(gè)變量間的關(guān)系。實(shí)際上,廣義的相關(guān)分析研究的可以是一個(gè)變量和多個(gè)變量之間的關(guān)系,也可以是研究?jī)蓚€(gè)變量群,甚至于多個(gè)變量群之間的關(guān)系。4.2數(shù)據(jù)相關(guān)分析方法4.2數(shù)據(jù)相關(guān)分析方法1.數(shù)值變量相關(guān)性4.2.1相關(guān)分析指標(biāo)

4.2數(shù)據(jù)相關(guān)分析方法1.數(shù)值變量相關(guān)性4.2.1相關(guān)分析指標(biāo)

4.2數(shù)據(jù)相關(guān)分析方法2.屬性相關(guān)性4.2.1相關(guān)分析指標(biāo)

4.2數(shù)據(jù)相關(guān)分析方法例解例4.2.1:(例4.1.2續(xù))“拍照賺錢”是移動(dòng)互聯(lián)網(wǎng)下的一種自助式服務(wù)模式。用戶下載APP,注冊(cè)成為APP的會(huì)員,從APP上領(lǐng)取需要拍照的任務(wù)(比如上超市去檢查某種商品的上架情況),賺取APP對(duì)任務(wù)所標(biāo)定的酬金。這種基于移動(dòng)互聯(lián)網(wǎng)的自助式眾包平臺(tái),相比傳統(tǒng)市場(chǎng)調(diào)查方式大大節(jié)省調(diào)查成本,而且有效保證了數(shù)據(jù)真實(shí)性,縮短了調(diào)查的周期。因此APP成為該平臺(tái)運(yùn)行的核心,而APP中的任務(wù)定價(jià)又是其核心要素。若定價(jià)不合理,有的任務(wù)就會(huì)無(wú)人問津,導(dǎo)致商品檢查的失敗。附件一是一個(gè)已結(jié)束項(xiàng)目的任務(wù)數(shù)據(jù),包含每個(gè)任務(wù)的位置、定價(jià)和完成情況;附件二是會(huì)員信息數(shù)據(jù),包含了會(huì)員的位置、信譽(yù)值、參考其信譽(yù)給出的任務(wù)開始預(yù)訂時(shí)間和預(yù)訂限額,原則上會(huì)員信譽(yù)越高,越優(yōu)先開始挑選任務(wù),其配額越大(任務(wù)分配時(shí)實(shí)際上是根據(jù)預(yù)訂限額所占比例進(jìn)行配發(fā))。研究附件一中項(xiàng)目的任務(wù)定價(jià)規(guī)律,分析任務(wù)未完成的原因。問題分析:由圖4.1.3可知需要著重分析該集中區(qū)域的價(jià)格規(guī)律,為了進(jìn)一步挖掘數(shù)據(jù),首先建立任務(wù)之間的距離矩陣和會(huì)員與任務(wù)之間的距離矩陣,接著分析影響任務(wù)完成的因素,利用相關(guān)分析獲得影響因素對(duì)定價(jià)的影響程度。4.2.1相關(guān)分析指標(biāo)4.2數(shù)據(jù)相關(guān)分析方法

4.2.1相關(guān)分析指標(biāo)4.2數(shù)據(jù)相關(guān)分析方法

4.2.1相關(guān)分析指標(biāo)4.2數(shù)據(jù)相關(guān)分析方法

表4.2.1四座城市中心位置坐標(biāo)4.2.1相關(guān)分析指標(biāo)4.2數(shù)據(jù)相關(guān)分析方法

(4.2.2)可以計(jì)算任務(wù)附近用戶密度與價(jià)格的相關(guān)系數(shù),結(jié)果見表4.2.2。表4.2.2影響因素與價(jià)格之間的相關(guān)系數(shù)如表4.2.2所示,任務(wù)密度、任務(wù)與市中心的距離與價(jià)格之間的相關(guān)系數(shù)的絕對(duì)值較大,可以在0.01的顯著性水平下認(rèn)為這兩個(gè)因素與價(jià)格存在著較強(qiáng)的相關(guān)關(guān)系。任務(wù)密度與價(jià)格之間存在著負(fù)相關(guān)關(guān)系,任務(wù)與市中心的距離和價(jià)格之間為較強(qiáng)的正相關(guān)關(guān)系。而人員密度對(duì)價(jià)格的影響很小。說(shuō)明該平臺(tái)在人員密度相對(duì)較小的地方投入的任務(wù)可能本來(lái)就較少,或者這些地方的交通可能較為便利,完成任務(wù)較容易。4.2.1相關(guān)分析指標(biāo)4.2數(shù)據(jù)相關(guān)分析方法3.復(fù)相關(guān)和偏相關(guān)分析

4.2.1相關(guān)分析指標(biāo)4.2數(shù)據(jù)相關(guān)分析方法

4.2.2典型相關(guān)分析4.2數(shù)據(jù)相關(guān)分析方法

4.2.2典型相關(guān)分析

例解例4.2.1(2012CUMCMA)確定葡萄酒質(zhì)量時(shí)一般是通過(guò)聘請(qǐng)一批有資質(zhì)的評(píng)酒員進(jìn)行品評(píng)。每個(gè)評(píng)酒員在對(duì)葡萄酒進(jìn)行品嘗后對(duì)其分類指標(biāo)打分,然后求和得到其總分,從而確定葡萄酒的質(zhì)量。釀酒葡萄的好壞與所釀葡萄酒的質(zhì)量有直接的關(guān)系,葡萄酒和釀酒葡萄檢測(cè)的理化指標(biāo)會(huì)在一定程度上反映葡萄酒和葡萄的質(zhì)量。利用題目中所給的附件數(shù)據(jù),分析釀酒葡萄與葡萄酒的理化指標(biāo)之間的關(guān)系。問題分析:分析釀酒葡萄與葡萄酒的理化指標(biāo)之間的關(guān)系,即分析兩者之間的相關(guān)性。首先將題目中的葡萄酒的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和篩選,作為原變量;然后利用例子5.2.1中的主成分分析法得到的葡萄酒綜合指標(biāo),作為典型變量;最后利用典型相關(guān)分析將這兩個(gè)變量在MATLAB中進(jìn)行分析以獲得相應(yīng)的結(jié)果。模型建立:首先將題中的紅、白葡萄酒的理化指標(biāo)進(jìn)行統(tǒng)計(jì)和篩選,再結(jié)合例5.2.1中獲得的主成分在MATLAB中進(jìn)行典型相關(guān)分析;然后將運(yùn)行的結(jié)果進(jìn)行統(tǒng)計(jì)分析。4.2.2典型相關(guān)分析4.2數(shù)據(jù)相關(guān)分析方法由此可得到紅葡萄酒各典型變量的意義解釋,見表4.2.3。其中表4.2.3中的各數(shù)值的代表意義見表4.2.4和表4.2.5。由表4.2.3可知,從第①組典型變量來(lái)看,紅葡萄酒中的理化指標(biāo)花色苷、果皮顏色(L)與紅葡萄中的指標(biāo)總酚、花色苷、單寧、DPPH自由基、PH值、氨基酸總量相關(guān)性很大,其相關(guān)系數(shù)為0.9130;從第②組典型變量來(lái)看,紅葡萄酒中的理化指標(biāo)單寧、總酚、總黃酮、DPPH自由基與紅葡萄中的指標(biāo)總酚、花色苷、單寧、DPPH自由基、PH值、氨基酸重量的相關(guān)性也很大,其相關(guān)系數(shù)為0.9003;依次可以分析其他組的典型變量之間的相關(guān)性。4.2.2典型相關(guān)分析表4.2.3紅葡萄酒與紅葡萄的理化指標(biāo)之間的典型相關(guān)分析表4.2.4紅葡萄指標(biāo)數(shù)值的代表含義表4.2.5紅葡萄指標(biāo)數(shù)值的代表含義4.2數(shù)據(jù)相關(guān)分析方法定義本節(jié)回顧

掌握Pearson相關(guān)系數(shù)(線性相關(guān))和Spearman秩相關(guān)系數(shù)(單調(diào)相關(guān))的計(jì)算與解釋學(xué)習(xí)任務(wù)課本習(xí)題

學(xué)習(xí)卡方檢驗(yàn)等分類變量關(guān)聯(lián)性分析方法

理解復(fù)相關(guān)(多對(duì)一)和偏相關(guān)(控制變量影響)的分析方法

掌握兩組變量群之間整體相關(guān)性分析的原理與應(yīng)用章節(jié)內(nèi)容§4.1數(shù)據(jù)分布特征分析方法4.1.1集中趨勢(shì)的度量4.1.2變異程度的度量4.1.3偏度和峰度特征4.1.4數(shù)據(jù)圖形化方法§4.2數(shù)據(jù)相關(guān)分析方法4.2.1相關(guān)分析指標(biāo)4.2.2典型相關(guān)分析§4.3數(shù)據(jù)的回歸分析方法

4.3.1線性回歸

4.3.2自變量的選擇4.3.3逐步回歸

§4.4數(shù)據(jù)插值和擬合方法4.4.1數(shù)據(jù)插值4.4.2數(shù)據(jù)擬合§4.5應(yīng)用案例CHAPTER4數(shù)據(jù)的描述與處理方法4.3數(shù)據(jù)的回歸分析方法在相關(guān)分析基礎(chǔ)上,當(dāng)確定變量之間具有一定的相關(guān)關(guān)系之后,回歸分析方法(簡(jiǎn)稱回歸分析)就是在眾多相關(guān)的變量中,根據(jù)實(shí)際問題的要求,考察其中一個(gè)或幾個(gè)變量與其余變量的依賴關(guān)系。相關(guān)分析是回歸分析的基礎(chǔ),而回歸分析則是建立變量之間相關(guān)程度的具體函數(shù)表達(dá)式。回歸分析和相關(guān)分析一樣,是研究變量之間關(guān)系的統(tǒng)計(jì)方法,但回歸分析側(cè)重于考察變量之間的數(shù)量變化規(guī)律,并通過(guò)一定的數(shù)學(xué)表達(dá)式來(lái)描述變量之間的關(guān)系,進(jìn)而確定一個(gè)或者幾個(gè)變量的變化對(duì)另一個(gè)特定變量的影響程度。具體地說(shuō),回歸分析主要解決以下幾方面的問題。(1)通過(guò)分析大量的樣本數(shù)據(jù),確定變量之間的數(shù)學(xué)關(guān)系式。(2)對(duì)所確定的數(shù)學(xué)關(guān)系式的可信程度進(jìn)行各種4.3

數(shù)據(jù)的回歸分析方法

4.3數(shù)據(jù)的回歸分析方法

4.3

數(shù)據(jù)的回歸分析方法4.3.1線性回歸

4.3數(shù)據(jù)的回歸分析方法

4.3.1

線性回歸1.最小二乘估計(jì)

4.3數(shù)據(jù)的回歸分析方法4.3.1

線性回歸1.最小二乘估計(jì)

4.3數(shù)據(jù)的回歸分析方法4.3.1

線性回歸

4.3數(shù)據(jù)的回歸分析方法4.3.1

線性回歸3.回歸方程的顯著性檢驗(yàn)這個(gè)線性回歸方程是否有實(shí)用價(jià)值,首先要根據(jù)有關(guān)專業(yè)知識(shí)和實(shí)踐來(lái)判斷,其次還要根據(jù)實(shí)際觀察得到的數(shù)據(jù)運(yùn)用假設(shè)檢驗(yàn)的方法來(lái)判斷。

4.3數(shù)據(jù)的回歸分析方法4.3.1

線性回歸3.回歸方程的顯著性檢驗(yàn)

4.3數(shù)據(jù)的回歸分析方法4.3.1

線性回歸3.回歸方程的顯著性檢驗(yàn)

4.3數(shù)據(jù)的回歸分析方法4.3.1

線性回歸3.回歸方程的顯著性檢驗(yàn)

4.3數(shù)據(jù)的回歸分析方法4.3.1

線性回歸4.擬合優(yōu)度檢驗(yàn)

4.3數(shù)據(jù)的回歸分析方法4.3.1

線性回歸5.回歸系數(shù)的顯著性檢驗(yàn)

4.3數(shù)據(jù)的回歸分析方法4.3.1

線性回歸6.預(yù)測(cè)問題

4.3數(shù)據(jù)的回歸分析方法4.3.1

線性回歸7.殘差分析

4.3數(shù)據(jù)的回歸分析方法4.3.1

線性回歸8.可化為線性回歸的情形

4.3數(shù)據(jù)的回歸分析方法4.3.1

線性回歸8.可化為線性回歸的情形4.3數(shù)據(jù)的回歸分析方法4.3.2自變量的選擇1.自變量的選擇準(zhǔn)則在使用多元線性回歸模型時(shí),人們總是希望模型中包含盡可能多的自變量,盡可能減少信息的丟失;然而往往考慮的自變量越多,增加了收集數(shù)據(jù)的難度和增大了成本,甚至?xí)觿∽宰兞颗c其他自變量的重疊,從而可能導(dǎo)致增加計(jì)算量,或者對(duì)模型參數(shù)的估計(jì)和模型的預(yù)測(cè)帶來(lái)不利影響。因此人們希望建立起既合理又簡(jiǎn)單實(shí)用的回歸模型,自變量的選擇就是我們首先需要解決的問題。

4.3數(shù)據(jù)的回歸分析方法4.3.2自變量的選擇1.自變量的選擇準(zhǔn)則

4.3數(shù)據(jù)的回歸分析方法4.3.2自變量的選擇1.自變量的選擇準(zhǔn)則

4.3數(shù)據(jù)的回歸分析方法4.3.3逐步回歸1.前進(jìn)法和后退法

當(dāng)自變量的個(gè)數(shù)不多時(shí),利用某種準(zhǔn)則,從所有可能的回歸模型中尋找最優(yōu)回歸方程是可行的。但若自變量的數(shù)目較多時(shí),求出所有的回歸方程是很不容易的。為此,人們提出了一些較為簡(jiǎn)便實(shí)用的快速選擇最優(yōu)方程的方法,比如“前進(jìn)法”和“后退法”,數(shù)學(xué)建模中應(yīng)用比較多的“逐步回歸法”。4.3數(shù)據(jù)的回歸分析方法4.3.3逐步回歸2.逐步回歸法

圖4.3.1逐步回歸的基本步驟例例4.3.2(例4.1.2和例4.2.1續(xù))“拍照賺錢”是移動(dòng)互聯(lián)網(wǎng)下的一種自助式服務(wù)模式。用戶下載APP,注冊(cè)成為APP的會(huì)員,從APP上領(lǐng)取需要拍照的任務(wù)(比如上超市去檢查某種商品的上架情況),賺取APP對(duì)任務(wù)所標(biāo)定的酬金。這種基于移動(dòng)互聯(lián)網(wǎng)的自助式眾包平臺(tái),相比傳統(tǒng)市場(chǎng)調(diào)查方式大大節(jié)省調(diào)查成本,而且有效保證了數(shù)據(jù)真實(shí)性,縮短了調(diào)查的周期。因此APP成為該平臺(tái)運(yùn)行的核心,而APP中的任務(wù)定價(jià)又是其核心要素。若定價(jià)不合理,有的任務(wù)就會(huì)無(wú)人問津,導(dǎo)致商品檢查的失敗。附件一是一個(gè)已結(jié)束項(xiàng)目的任務(wù)數(shù)據(jù),包含每個(gè)任務(wù)的位置、定價(jià)和完成情況;附件二是會(huì)員信息數(shù)據(jù),包含了會(huì)員的位置、信譽(yù)值、參考其信譽(yù)給出的任務(wù)開始預(yù)訂時(shí)間和預(yù)訂限額,原則上會(huì)員信譽(yù)越高,越優(yōu)先開始挑選任務(wù),其配額越大(任務(wù)分配時(shí)實(shí)際上是根據(jù)預(yù)訂限額所占比例進(jìn)行配發(fā))。研究附件一中項(xiàng)目的任務(wù)定價(jià)規(guī)律,分析任務(wù)未完成的原因。4.3數(shù)據(jù)的回歸分析方法4.3.3逐步回歸解

4.3數(shù)據(jù)的回歸分析方法4.3.3逐步回歸

4.3數(shù)據(jù)的回歸分析方法4.3.3逐步回歸表4.3.6回歸方程的結(jié)果

定義本節(jié)回顧

熟悉最小二乘估計(jì)原理、回歸系數(shù)顯著性檢驗(yàn)(t檢驗(yàn))和模型整體檢驗(yàn)(F檢驗(yàn))學(xué)習(xí)任務(wù)課本習(xí)題

掌握殘差分析、擬合優(yōu)度(R2)評(píng)估等驗(yàn)證方法

學(xué)習(xí)可線性化的曲線回歸模型(如對(duì)數(shù)/指數(shù)回歸)

理解逐步回歸等自變量篩選策略,掌握AIC/BIC等模型選擇準(zhǔn)則章節(jié)內(nèi)容§4.1數(shù)據(jù)分布特征分析方法4.1.1集中趨勢(shì)的度量4.1.2變異程度的度量4.1.3偏度和峰度特征4.1.4數(shù)據(jù)圖形化方法§4.2數(shù)據(jù)相關(guān)分析方法4.2.1相關(guān)分析指標(biāo)4.2.2典型相關(guān)分析§4.3數(shù)據(jù)的回歸分析方法4.3.1線性回歸4.3.2自變量的選擇4.3.3逐步回歸§4.4數(shù)據(jù)插值和擬合方法4.4.1數(shù)據(jù)插值4.4.2數(shù)據(jù)擬合§4.5應(yīng)用案例CHAPTER4數(shù)據(jù)的描述與處理方法4.4數(shù)據(jù)插值和擬合方法什么是插值和擬合?4.4數(shù)據(jù)插值和擬合方法

4.4數(shù)據(jù)插值和擬合方法什么是插值和擬合?4.1數(shù)據(jù)插值和擬合方法

4.4數(shù)據(jù)插值和擬合方法什么是插值和擬合?4.1數(shù)據(jù)插值和擬合方法在實(shí)際應(yīng)用中,究竟選擇哪種方法比較恰當(dāng)?總的原則是根據(jù)實(shí)際問題的特點(diǎn)來(lái)決定采用哪一種方法。具體說(shuō)來(lái),可從以下兩方面來(lái)考慮:1.如果給定的數(shù)據(jù)是少量的且被認(rèn)為是嚴(yán)格精確的,那么宜選擇插值方法。采用插值方法可以保證插值函數(shù)與被插函數(shù)在插值節(jié)點(diǎn)處完全相等。2.如果給定的數(shù)據(jù)是大量的測(cè)試或統(tǒng)計(jì)的結(jié)果,一方面測(cè)試或統(tǒng)計(jì)數(shù)據(jù)本身往往帶有測(cè)量誤差,此時(shí)宜選用數(shù)據(jù)擬合的方法。另一方面,測(cè)試或統(tǒng)計(jì)數(shù)據(jù)通常很多,如果采用插值方法,不僅計(jì)算麻煩,而且逼近效果往往較差。插值和擬合的方法很多,這一節(jié)主要介紹一般的插值和擬合方法,以及它們?cè)跀?shù)學(xué)建模中的應(yīng)用4.4數(shù)據(jù)插值和擬合方法插值問題基本提法:4.4.1數(shù)據(jù)插值

1.Lagrange插值法

4.4數(shù)據(jù)插值和擬合方法4.4.1數(shù)據(jù)插值1.Lagrange插值法

4.4數(shù)據(jù)插值和擬合方法2.分段多項(xiàng)式插值法

4.4數(shù)據(jù)插值和擬合方法2.分段多項(xiàng)式插值法

4.4數(shù)據(jù)插值和擬合方法3.樣條插值方法

4.4數(shù)據(jù)插值和擬合方法3.樣條插值方法

4.4數(shù)據(jù)插值和擬合方法3.樣條插值方法

4.4數(shù)據(jù)插值和擬合方法3.樣條插值方法

4.4數(shù)據(jù)插值和擬合方法3.樣條插值方法

4.4數(shù)據(jù)插值和擬合方法4.4數(shù)據(jù)插值和擬合方法擬合問題基本提法:4.4.2數(shù)據(jù)擬合

4.4數(shù)據(jù)插值和擬合方法擬合問題基本提法:4.4.2數(shù)據(jù)擬合

1.線性最小二乘擬合法

4.4數(shù)據(jù)插值和擬合方法1.線性最小二乘擬合法

4.4數(shù)據(jù)插值和擬合方法2.非線性最小二乘擬合法

4.4數(shù)據(jù)插值和擬合方法2.非線性最小二乘擬合法

4.4數(shù)據(jù)插值和擬合方法4.4數(shù)據(jù)插值和擬合方法

4.4數(shù)據(jù)插值和擬合方法

4.4數(shù)據(jù)插值和擬合方法

4.4數(shù)據(jù)插值和擬合方法圖4.4.1客戶流失率與企業(yè)貸款年利率關(guān)系圖

4.4數(shù)據(jù)插值和擬合方法

4.4數(shù)據(jù)插值和擬合方法

定義本節(jié)回顧

第四章其它小節(jié)了解并熟練掌握常見的插值和擬合方法學(xué)習(xí)任務(wù)課本習(xí)題:章末習(xí)題4章節(jié)內(nèi)容CHAPTER4數(shù)據(jù)的描述與處理方法§4.1數(shù)據(jù)分布特征分析方法4.1.1集中趨勢(shì)的度量4.1.2變異程度的度量4.1.3偏度和峰度特征4.1.4數(shù)據(jù)圖形化方法§4.2數(shù)據(jù)相關(guān)分析方法4.2.1相關(guān)分析指標(biāo)4.2.2典型相關(guān)分析§4.3數(shù)據(jù)的回歸分析方法

4.3.1線性回歸

4.3.2自變量的選擇4.3.3逐步回歸

§4.4數(shù)據(jù)插值和擬合方法4.4.1數(shù)據(jù)插值4.4.2數(shù)據(jù)擬合§4.5應(yīng)用案例4.5案例應(yīng)用4.5應(yīng)用案例——葡萄酒質(zhì)量評(píng)價(jià)(2012CUMCMA)例

確定葡萄酒質(zhì)量時(shí)一般是通過(guò)聘請(qǐng)一批有資質(zhì)的評(píng)酒員進(jìn)行品評(píng)。每個(gè)評(píng)酒員在對(duì)葡萄酒進(jìn)行品嘗后對(duì)其分類指標(biāo)打分,然后求和得到其總分,從而確定葡萄酒的質(zhì)量。釀酒葡萄的好壞與所釀葡萄酒的質(zhì)量有直接的關(guān)系,葡萄酒和釀酒葡萄檢測(cè)的理化指標(biāo)會(huì)在一定程度上反映葡萄酒和葡萄的質(zhì)量。

請(qǐng)利用題中附件數(shù)據(jù),分析釀酒葡萄與葡萄酒的理化指標(biāo)之間的聯(lián)系。

問題分析:由于釀酒工藝復(fù)雜且對(duì)于給定的一個(gè)葡萄酒理化指標(biāo),在釀酒葡萄中可能會(huì)存在多種因素對(duì)其產(chǎn)生影響,所以只可利用統(tǒng)計(jì)中的相關(guān)性進(jìn)行分析,且兩指標(biāo)之間不是簡(jiǎn)單的一一映射關(guān)系。解4.5案例應(yīng)用

基于上述考慮,首先利用例5.2.1中主成分分析得出的主成分,選取紅葡萄的8個(gè)理化指標(biāo)作為自變量和紅葡萄酒的6個(gè)理化指標(biāo)作為因變量,使用多元線性回歸模型求得關(guān)系式。從而可以分析釀酒葡萄的理化指標(biāo)和葡萄酒理化指標(biāo)之間的定量關(guān)系。

指標(biāo)名稱花色苷DPPH自由基總酚單寧總糖白藜蘆醇pH值黃酮醇

以紅葡萄以及紅葡萄酒的理化指標(biāo)為例進(jìn)行計(jì)算。白葡萄以及白葡萄酒的理化指標(biāo)可以同理進(jìn)行計(jì)算。

由例5.2.1主成分分析得出的主成分為依據(jù),為簡(jiǎn)化計(jì)算及保證結(jié)果的準(zhǔn)確性,對(duì)于紅葡萄選取其8個(gè)理化指標(biāo)作為自變量如下表所示。

紅葡萄酒選取其6個(gè)理化指標(biāo)作為因變量如下表所示。

4.5案例應(yīng)用指標(biāo)名稱花色苷單寧總酚酒總黃酮白藜蘆

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論