隨機(jī)模擬與統(tǒng)計(jì)分析_第1頁(yè)
隨機(jī)模擬與統(tǒng)計(jì)分析_第2頁(yè)
隨機(jī)模擬與統(tǒng)計(jì)分析_第3頁(yè)
隨機(jī)模擬與統(tǒng)計(jì)分析_第4頁(yè)
隨機(jī)模擬與統(tǒng)計(jì)分析_第5頁(yè)
已閱讀5頁(yè),還剩78頁(yè)未讀 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨機(jī)模擬與統(tǒng)計(jì)分析胡良劍東華大學(xué)統(tǒng)計(jì)數(shù)據(jù)挖掘揭開(kāi)紛繁復(fù)雜數(shù)據(jù)背后的秘密擲硬幣隨機(jī)實(shí)驗(yàn) 0-反面 1-正面乙同學(xué)1011001001 1010110110 1001001011甲同學(xué)10001111001010010100 11011101111111100001老師認(rèn)為有一人數(shù)據(jù)是編造的。誰(shuí)?Matlab2013a: r=rand(5,10);r01=r0.5揭開(kāi)數(shù)據(jù)背后的秘密揭開(kāi)數(shù)據(jù)背后的秘密樣本量高血壓比例服藥800648.0%未服16001368.5%考慮一種新藥是否造成血壓升高?服藥和未服藥高血壓比例相似(未服比率略高)結(jié)論:新藥未造成血壓升高。組A服藥600366%未服400164%

2、組B服藥2002814%未服120012010%按照年齡分為35以上組A和34歲以下組B。結(jié)論變了!新藥明顯造成血壓升高! 說(shuō)明:數(shù)據(jù)分析不簡(jiǎn)單,選用恰當(dāng)?shù)姆椒ㄊ顷P(guān)鍵!講座內(nèi)容概率模型隨機(jī)模擬競(jìng)賽題: 零件參數(shù)設(shè)計(jì)統(tǒng)計(jì)模型主成分分析和因子分析判別分析和聚類分析回歸分析競(jìng)賽題: 葡萄酒評(píng)價(jià)Logistic回歸時(shí)間序列分析數(shù)據(jù)挖掘的非統(tǒng)計(jì)方法概率模型演繹推理:假設(shè)結(jié)論古典概率及概率分布數(shù)學(xué)期望與預(yù)測(cè)指數(shù)分布、Poission過(guò)程和排隊(duì)論Markov鏈隨機(jī)模擬(Monte Carlo) 一、隨機(jī)模擬隨機(jī)決策問(wèn)題(情形1,一道概率論習(xí)題):國(guó)際市場(chǎng)上每年對(duì)某種商品的需求量為一個(gè)隨機(jī)變量(單位:千噸),

3、根據(jù)預(yù)測(cè),它服從2,4上的均勻分布,并已知每售出1千噸此種商品,可以掙得外匯3千萬(wàn)美元,但若售不出去,而屯售于倉(cāng)庫(kù),每年需花費(fèi)保養(yǎng)費(fèi)每千噸為1千萬(wàn)美元,問(wèn)應(yīng)組織多少貨源可使平均收益達(dá)到最大?解答設(shè)S為組織貨源的數(shù)量(不是隨機(jī)變量), 則2S 4; 為收益,于是是S和(服從2,4上的均勻分布)的函數(shù)(從而也是隨機(jī)變量)平均收益為 故E()在S=3.5千噸時(shí)最大,即組織貨源為3500噸時(shí),可是國(guó)家的收益達(dá)到最大8.25千萬(wàn)元。情形2:需求量為正態(tài)分布(難多了!)題目變化:根據(jù)預(yù)測(cè),明年服從均值為3,均方差為1的正態(tài)分布,應(yīng)如何組織貨源量?設(shè)的密度函數(shù)p(x), 那么平均收益求S使E()最大。對(duì)S求

4、導(dǎo)=0得(仔細(xì)驗(yàn)算一下) F(S)=3/4. 其中F(x)是的分布函數(shù)。這樣(S-3)/1=0.6745。得到S=3.6745。這時(shí)S代入積分,數(shù)值計(jì)算得到最大E()=7.7289情形3:給出需求量的歷史數(shù)據(jù)(更現(xiàn)實(shí))過(guò)去20年數(shù)據(jù)(按時(shí)間順序)如下:2.37 3.54 3.55 2.80 0.95 3.13 4.59 4.02 1.42 2.92 2.32 1.98 1.77 3.29 2.57 3.06 2.63 2.54 3.37 3.73 直方圖序列圖情形3:給出需求量的歷史數(shù)據(jù)序列圖:無(wú)明顯趨勢(shì)(檢驗(yàn)?)直方圖:正態(tài)分布(檢驗(yàn)?)計(jì)算均值2.8275,標(biāo)準(zhǔn)差0.8895猜想:明年需求

5、量服從N(2.8275, 0.88952 )然后用類似于情形2的方法求解,計(jì)算更復(fù)雜一些。設(shè)是一個(gè)分布已知的隨機(jī)變量,為了求取 = f()的概率分布或數(shù)字特征,生成N個(gè)(N足夠大)服從的分布的隨機(jī)數(shù)x1, x2, , xN,令yi = f(xi), i=1,2,N, 那么常用于積分、最優(yōu)化計(jì)算、期權(quán)定價(jià)。隨機(jī)模擬(Monte Carlo)原理通用方法:隨機(jī)模擬(Monte Carlo)生成的10000個(gè)隨機(jī)數(shù),計(jì)算的均值,求S使的均值達(dá)到最大。先寫Matlab函數(shù)function meta=ex1fun(S,ksi)eta=3*S*(ksi=S)+(4*ksi-S).*(ksi ksi=uni

6、frnd(2,4,1,10000);%均勻分布隨機(jī)數(shù) S=fminsearch(S)ex1fun(S,ksi),3) meta=-feval(ex1fun,S,ksi)計(jì)算得S = 3.5118, E()=8.2842.通用方法:隨機(jī)模擬(Monte Carlo)情形2: ksi=normrnd(3,1,1,10000); S=fminsearch(S)ex1fun(S,ksi),3) meta=-feval(ex1fun,S,ksi)計(jì)算得S = 3.6688, E()=7.7437.情形3: ksi= x(unidrnd(20,1,10000);%歷史數(shù)據(jù)重復(fù)抽樣 S=fminsearch

7、(S)ex1fun(S,ksi),3) meta=-feval(ex1fun,S,ksi)計(jì)算得S = 3.37, E()=7.3809.數(shù)學(xué)建模競(jìng)賽中的隨機(jī)模擬1997A零件的參數(shù)設(shè)計(jì)1999A自動(dòng)化車床2001B 公交車調(diào)度2002B 彩票中的數(shù)學(xué)2009B 眼科病床的合理安排2013A 城市道路通行能力 競(jìng)賽題: 1997A零件參數(shù)設(shè)計(jì)假設(shè)xi正態(tài)分布已知,i=1,2,7損失函數(shù)求平均損失。競(jìng)賽題: 1997A零件參數(shù)設(shè)計(jì)難點(diǎn):怎么確定y的概率分布?方法一:不計(jì)算y的分布,直接用xi的分布計(jì)算7重積分(很困難)。方法二:對(duì)y函數(shù)作一元近似,近似為正態(tài)分布(須做誤差分析)。方法三:利用xi

8、的分布產(chǎn)生隨機(jī)數(shù),用隨機(jī)模擬(Monte Carlo)方法直接求y, 乃至z。Matlab程序clear;mu=.1 .3 .1 .1 1.5 16 .75;sigma=.005/3,.005,.005/3,.005,.225/3,.8/3,.0375/3;for i=1:7 x(:,i)=normrnd(mu(i),sigma(i),1000,1);endt=(1-2.62*(1-0.36*(x(:,4)./x(:,2).(-0.56).1.5.*(x(:,4)./x(:,2).1.16)./x(:,6)./x(:,7);y=(x(:,1)./x(:,5).*(x(:,3)./(x(:,2)

9、-x(:,1).0.85;y=174.42*y.*t.0.5;d=abs(y-1.5);f=mean(9000*(d0.3) *(d0.1) 統(tǒng)計(jì)模型歸納推理:數(shù)據(jù)結(jié)論參數(shù)估計(jì): 利用樣本估計(jì)未知參數(shù)假設(shè)檢驗(yàn)和方差分析: 判別差異的顯著性非參數(shù)統(tǒng)計(jì):非正態(tài)數(shù)據(jù)的方差分析相關(guān)分析和列聯(lián)表分析: 變量間是否相關(guān)?主成分分析和因子分析: 降維判別分析和聚類分析: 分類回歸分析: 關(guān)系時(shí)間序列分析: 預(yù)測(cè)統(tǒng)計(jì)軟件:SPSS, R,SAS,Matlab二、主成份分析與因子分析主成分分析(Principal components analysis):對(duì)于原先提出的所有變量,建立盡可能少的新變量,并盡可能保

10、持原有的信息。因子分析(Factor Analysis): 把一些具有錯(cuò)綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個(gè)綜合因子。主成分分析主成分分析是將多個(gè)變量化為少數(shù)綜合變量的一種多元統(tǒng)計(jì)方法。利用全部p個(gè)變量的線性組合來(lái)重新構(gòu)造q個(gè)新的綜合變量(qp),并使得這些較少的變量既能盡可能多地反映原來(lái)個(gè)變量的統(tǒng)計(jì)特性,并且它們之間又是相互獨(dú)立的。 主成分分析 的應(yīng)用主成分分析是通過(guò)降維技術(shù)用少數(shù)幾個(gè)綜合變量來(lái)代替原始多個(gè)變量的一種統(tǒng)計(jì)分析方法 ;削減回歸分析的變量數(shù)目;削減判別分析或聚類分析的變量數(shù)目;綜合評(píng)分排序按第i主成分排序按總評(píng)分排序總分= 1*第1主成分+ 2*第2主成分+第i主成分=ai*xai為特

11、征向量,x為標(biāo)準(zhǔn)化向量例子 美國(guó)329城市9指數(shù)9指數(shù): climate, housing, health, crime, transportation, education, arts, recreation, and economics. (指數(shù)越高越好)考慮用少量指標(biāo)代替9指數(shù)Matlab程序load cities %Matlab中預(yù)置數(shù)據(jù)集stdr = std(ratings);sr = ratings./repmat(stdr,329,1);%方差標(biāo)準(zhǔn)化pcs,score,var = p(sr)var是特征值, 即各主成份代表的方差,保留前3個(gè)大于1的主成份。pcs-主成份特征列向量

12、a1, a2, an.。第一主成份系數(shù)全正, 是9指標(biāo)加權(quán)平均, 為城市綜合指數(shù); 第二主成份主要為教育(負(fù)值,差)和娛樂(lè)經(jīng)濟(jì)指數(shù);第三主成份主要反映氣候(差)和經(jīng)濟(jì)指數(shù)。score是每個(gè)城市在各主成份得分。Matlab程序plot(score(:,1),score(:,2),+)gname(names)從圖上鼠標(biāo)點(diǎn)擊,查出第一主成份大的依次為NY, LA等大城市第二主成份大的是Las Vegas等旅游城市因子分析(因素分析)用有限個(gè)不可觀察的潛在變量(稱為公共因子)來(lái)解釋原變量間的相關(guān)性或協(xié)方差關(guān)系。 每個(gè)樣品測(cè)得p個(gè)指標(biāo),但是這個(gè)指標(biāo)可能受到(mp)個(gè)共同因素的影響,再加上其他對(duì)這些指標(biāo)有

13、影響的因素e. 例子 股票板塊分類指數(shù)100周10個(gè)股票數(shù)據(jù)收益率數(shù)據(jù)(其中第14號(hào)為工業(yè)股,第57號(hào)商業(yè)股,第810號(hào)金融股)。建立反映各板塊的綜合指數(shù);描述各板塊綜合指數(shù)的變化情況。Matlab程序load stockreturnscorr(stocks) %相關(guān)系數(shù),不能明顯分辨板塊特征f,e,T,stats,F = factoran(stocks,3,rotate,orthomax) corr(F) plot(1:100,F(:,1), 1:100,F(:,2), 1:100,F(:,3); legend(工業(yè),商業(yè),金融)因子載荷矩陣f看出,因子1(前4個(gè)股票最大),因子2(中間3個(gè)

14、),因子3(后3個(gè))分別構(gòu)成為工業(yè),商業(yè),金融三個(gè)板塊;說(shuō)明因子分析可以識(shí)別板塊特征。e是特殊因子,T是旋轉(zhuǎn)矩陣從Stats.p可見(jiàn)模型解釋了方差的大部分81%。F是因子得分,它們基本上不相關(guān)(corr(F)=I)plot繪制三個(gè)板塊指數(shù)的走向SPSS因子分析輸入數(shù)據(jù)分析、降維、因子分析選定變量旋轉(zhuǎn)、最大方差法從旋轉(zhuǎn)成分矩陣中可識(shí)別:因子1(前4個(gè)股票最大),因子2(中間3個(gè)),因子3(后3個(gè))分別構(gòu)成為工業(yè),商業(yè),金融三個(gè)板塊三、判別分析與聚類分析判別分析: 將未知類的樣品按某種規(guī)則歸入已知的類.聚類分析: 將一些樣品按某種規(guī)則進(jìn)行分類。判別分析判別分析: 根據(jù)已掌握的一批分類明確的樣品,建

15、立一個(gè)判別函數(shù),使得用此判別函數(shù)進(jìn)行判別時(shí)錯(cuò)判事例最少,進(jìn)而能用此判別函數(shù)對(duì)給定的新樣品判別它來(lái)自哪個(gè)總體。距離判別分析方法貝葉斯條件概率判別方法(線性判別、二次判別)距離判別分析Mahalanobis距離(統(tǒng)計(jì)距離)條件概率意義上Mahalanobis距離更合理。Euclid Vs MahalanobisBayes判別(正態(tài)總體)線性判別: 如果協(xié)方差相同,且先驗(yàn)概率相等。二次判別:如果上述條件不成立。競(jìng)賽MCM1989兩種蠓蟲(chóng)Apf和Af已由生物學(xué)家W.L.Grogan和W.W.Wirth(1981)根據(jù)他們的觸角長(zhǎng)度和翅長(zhǎng)加以區(qū)分?,F(xiàn)測(cè)得6只Apf蠓蟲(chóng)和9只Af蠓蟲(chóng)的觸長(zhǎng)、翅長(zhǎng)的數(shù)據(jù)如下

16、:Apf: (1.14,1.78),(1.18,1.96),(1.20,1.86),(1.26,2.),(1.28,2.00),(1.30,1.96).Af: (1.24,1.72),(1.36,1.74),(1.38,1.64),(1.38,1.82),(1.38,1.90),(1.4,1.7),(1.48,1.82),(1.54,1.82),(1.56,2.08)請(qǐng)用恰當(dāng)?shù)姆椒▽?duì)觸長(zhǎng)、翅長(zhǎng)分別為A(1.24,1.80),B(1.28,1.84),C(1.40,2.04)的3個(gè)樣本進(jìn)行判別分類。clear;close;apf=1.14 1.78;1.18 1.96;1.20 1.86; 1.

17、26 2; 1.28 2; 1.3 1.96;af=1.24 1.72; 1.36 1.74; 1.38 1.64; 1.38 1.82; 1.38 1.9;1.4 1.7;1.48 1.82;1.54 1.82; 1.56 2.08;plot(apf(:,1),apf(:,2),+)hold on;plot(af(:,1),af(:,2),*r)text(1.24,1.8,A)text(1.28,1.84,B)text(1.4,2.04,C)s=1.24 1.8;1.28 1.84;1.4 2.04;d1 = mahal(s,apf)d2 = mahal(s,af)三種判別方法train=a

18、pf;af;group=ones(6,1);2*ones(9,1);cm=classify(s,train,group,mahalanobis)cl=classify(s,train,group,linear)cq=classify(s,train,group,quadratic)結(jié)果mahalanobis 2,2,2linear1,1,1quadratic1,2,2由于兩組方差不等, 所以線性判別不可信藍(lán)色分界線mahalobis, 紅色linear(線性判別), 黑色quadratic(二次判別); 由于兩組方差不等, 線性判別不可信. 聚類分析“物以類聚”判別分析中必須事先知道各種判別的

19、類型和數(shù)目,并且要有一批來(lái)自各判別類型的樣本,才能建立判別函數(shù)來(lái)對(duì)未知屬性的樣本進(jìn)行判別和歸類。聚類分析把分類對(duì)象按一定規(guī)則分成組或類,這些組或類不是事先給定的而是根據(jù)數(shù)據(jù)特征而定的。若對(duì)一批樣品劃分的類型和分類的數(shù)目事先并不知道,對(duì)數(shù)據(jù)的分類就需借助聚類分析方法來(lái)解決。 不同形式的類需要不同聚類方法 兩類聚類問(wèn)題對(duì)樣品的聚類: 統(tǒng)計(jì)指標(biāo)是類與類之間的距離,它是把每一個(gè)樣品看成高維空間中的一個(gè)點(diǎn),類與類之間用某種原則規(guī)定它們的距離,將距離近的點(diǎn)聚合成一類,距離遠(yuǎn)的點(diǎn)聚合成另一類。對(duì)變量的聚類: 統(tǒng)計(jì)指標(biāo)是變量間相似系數(shù),根據(jù)這個(gè)統(tǒng)計(jì)指標(biāo)將比較相似的變量歸為一類,而把不怎么相似的變量歸為另一類。

20、樣品的聚類: 類間的距離令Gp和Gq中分別有p和q個(gè)樣品,它們的重心分別記為 和 。最短距離:不對(duì)類的形狀加以限制,適合不規(guī)則類最長(zhǎng)距離:嚴(yán)重地傾向于產(chǎn)生直徑粗略相等的類 重心距離: 在處理異常值上比其他方法更穩(wěn)健類平均距離:趨向于合并具有較小偏差的類 變量的聚類: 相似系數(shù) 設(shè)有n組樣品,每組樣品有m個(gè)變量,第i樣品第k變量數(shù)據(jù)為xik,夾角余弦相關(guān)系數(shù) 表示第個(gè)指標(biāo)的平均值。系統(tǒng)聚類法 系統(tǒng)聚類法(Hierarchical clustering method)是目前使用最多的一種方法?;舅枷胧鞘紫葘個(gè)樣品看成n類,然后規(guī)定樣品之間的距離和類與類之間的距離。將距離最近的兩類合并為一個(gè)新類

21、,再計(jì)算新類和其他類之間的距離,從中找出最近的兩類合并,繼續(xù)下去,最后所有的樣品全在一類。將上述并類過(guò)程畫(huà)成聚類圖,便可以決定分多少類,每類各有什么樣品。例: 10個(gè)股票的聚類load stockreturnsX=stocks;Y = pdist(X, correlation);%兩兩相關(guān)性距離squareform(Y) Z = linkage(Y)%最鄰近距離聚類dendrogram(Z)%聚類圖Z = linkage(Y,average)%平均距離聚類dendrogram(Z)%聚類圖目的:分析哪些股票的表現(xiàn)是近似的。最鄰近距離聚類(不理想)事實(shí):第14號(hào)為工業(yè)股,第57號(hào)商業(yè)股,第810

22、號(hào)金融股。平均距離聚類(效果較好)事實(shí):第14號(hào)為工業(yè)股,第57號(hào)商業(yè)股,第810號(hào)金融股。數(shù)學(xué)建模競(jìng)賽中的分類(聚類)問(wèn)題2001A DNA序列分類2012A 葡萄酒評(píng)價(jià)2013D 公共自行車服務(wù)系統(tǒng) 四、回歸分析回歸分析( Regression Analysis ) 是一種統(tǒng)計(jì)學(xué)上對(duì)數(shù)據(jù)進(jìn)行分析的方法。目的是建立應(yīng)變量Y與多個(gè)自變量X1,Xp之間關(guān)系的模型 , 以便觀察特定變量來(lái)預(yù)測(cè)研究者感興趣的應(yīng)變量Y。 維基百科 多元線性回歸的概念模型: y = b0+b1x1+b2x2+bpxp+, N(0,2)參數(shù)估計(jì):模型顯著性檢驗(yàn):模型是否可以幫助從x1,x2,xp的值來(lái)估計(jì)y的值?參數(shù)顯著性

23、檢驗(yàn):參數(shù)bi=0? (變量xi從模型中略去?)模型診斷(殘差分析): 純隨機(jī)?正態(tài)?是否有規(guī)律可循?是否相關(guān)?是否有重要的變量遺漏?逐步回歸:軟件自動(dòng)篩選,刪除不顯著的自變量,僅將顯著的自變量留在模型中。回歸分析建模深入考慮變量的乘積項(xiàng)或二次項(xiàng);含有分組自變量x的回歸: 使用邏輯變量0-1;非線性回歸:最小二乘擬合;自相關(guān):結(jié)合時(shí)間序列分析;因變量y為邏輯變量0-1的回歸: Logistic回歸。參考文獻(xiàn)1:姜啟源等,數(shù)學(xué)模型(第四版), 高等教育出版社, 2011數(shù)學(xué)建模競(jìng)賽中的回歸分析2004B 電力市場(chǎng)的輸電阻塞管理2005A 長(zhǎng)江水質(zhì)評(píng)價(jià)與預(yù)測(cè)2011C 企業(yè)退休職工養(yǎng)老金制度改革2

24、012A 葡萄酒的評(píng)價(jià)2012C 腦卒中發(fā)病環(huán)境因素分析競(jìng)賽題: 2012A 葡萄酒評(píng)價(jià)每個(gè)評(píng)酒員在對(duì)葡萄酒進(jìn)行品嘗后對(duì)其分類指標(biāo)打分,然后求和得到其總分,從而確定葡萄酒的質(zhì)量。釀酒葡萄的好壞與所釀葡萄酒的質(zhì)量有直接的關(guān)系,葡萄酒和釀酒葡萄檢測(cè)的理化指標(biāo)會(huì)在一定程度上反映葡萄酒和葡萄的質(zhì)量。附件1給出了某一年份一些葡萄酒的評(píng)價(jià)結(jié)果,附件2和附件3分別給出了該年份這些葡萄酒的和釀酒葡萄的成分?jǐn)?shù)據(jù)。 競(jìng)賽題: 2012A 葡萄酒評(píng)價(jià)請(qǐng)嘗試建立數(shù)學(xué)模型討論下列問(wèn)題:1. 分析附件1中兩組評(píng)酒員的評(píng)價(jià)結(jié)果有無(wú)顯著性差異,哪一組結(jié)果更可信?2. 根據(jù)釀酒葡萄的理化指標(biāo)和葡萄酒的質(zhì)量對(duì)這些釀酒葡萄進(jìn)行分級(jí)

25、。3. 分析釀酒葡萄與葡萄酒的理化指標(biāo)之間的聯(lián)系。4分析釀酒葡萄和葡萄酒的理化指標(biāo)對(duì)葡萄酒質(zhì)量的影響,并論證能否用葡萄和葡萄酒的理化指標(biāo)來(lái)評(píng)價(jià)葡萄酒的質(zhì)量? 競(jìng)賽題: 2012A 葡萄酒評(píng)價(jià)1. 分析附件1中兩組評(píng)酒員的評(píng)價(jià)結(jié)果有無(wú)顯著性差異,哪一組結(jié)果更可信?數(shù)據(jù)預(yù)處理:檢查數(shù)據(jù),處理異常數(shù)據(jù)和缺失數(shù)據(jù)。將評(píng)酒員對(duì)紅、白葡萄酒評(píng)分分別相加共55對(duì)數(shù)據(jù),記為Ai, Bi, i=155. 方法一:成對(duì)樣本差異性檢驗(yàn)(注意不能用獨(dú)立樣本的t檢驗(yàn)),令di=Ai-Bi. 檢驗(yàn)di數(shù)據(jù)的正態(tài)性,發(fā)現(xiàn)非正態(tài)。故使用非參數(shù)秩和檢驗(yàn)。檢驗(yàn)結(jié)果有差異。哪一組結(jié)果更可信?可以用組內(nèi)方差?。ㄍM成員看法較一致)來(lái)

26、判斷,認(rèn)為第二組更可信。方法二:雙因素(組別,酒品)方差分析檢驗(yàn)組別的顯著性。這時(shí),使用可信性指標(biāo)=組內(nèi)方差/品種方差。即認(rèn)為同組品酒員之間差異盡可能小,且酒品之間差異盡可能大。注:分別對(duì)紅、白葡萄酒考慮兩個(gè)子問(wèn)題,也是可以的。競(jìng)賽題: 2012A 葡萄酒評(píng)價(jià)2. 根據(jù)釀酒葡萄的理化指標(biāo)和葡萄酒的質(zhì)量對(duì)這些釀酒葡萄進(jìn)行分級(jí)。方法一:聚類分析。按照葡萄的理化指標(biāo)xi聚類,相近的放在一類。然后計(jì)算各小類的酒質(zhì)量平均分,分出等級(jí)。方法二:判別分析。根據(jù)酒的質(zhì)量分級(jí),然后建立從葡萄的理化指標(biāo)xi來(lái)判斷級(jí)別的判別函數(shù),據(jù)此判別函數(shù)對(duì)葡萄分級(jí)。方法三:回歸分析。葡萄酒的質(zhì)量平均分z,葡萄的理化指標(biāo)xi,

27、建立多元回歸。用此回歸方程的估計(jì)值來(lái)對(duì)葡萄分級(jí)。但關(guān)鍵問(wèn)題是:葡萄的理化指標(biāo)太多,超出樣本數(shù),需要用主成分分析或因子分析先作降維處理。然后用前幾個(gè)主成分或者因子作為綜合性理化指標(biāo)代替原始指標(biāo)去建模?;蛘咧苯佑弥鸩交貧w分析。競(jìng)賽題: 2012A 葡萄酒評(píng)價(jià)3. 分析釀酒葡萄與葡萄酒的理化指標(biāo)之間的聯(lián)系。葡萄的理化指標(biāo)xi,酒的理化指標(biāo)yj.方法一:回歸分析。每個(gè)yj作為因變量,xi為自變量,建立若干個(gè)回歸方程。注意須用逐步回歸。方法二:典型相關(guān)分析。即建立yj的線性組合與xi線性組合之間的關(guān)系。競(jìng)賽題: 2012A 葡萄酒評(píng)價(jià)4分析釀酒葡萄和葡萄酒的理化指標(biāo)對(duì)葡萄酒質(zhì)量的影響,并論證能否用葡萄和

28、葡萄酒的理化指標(biāo)來(lái)評(píng)價(jià)葡萄酒的質(zhì)量?逐步回歸分析。將葡萄酒的質(zhì)量評(píng)分z作為因變量,葡萄的理化指標(biāo)xi和酒的理化指標(biāo)yj都作為自變量. 用此回歸方程來(lái)評(píng)價(jià)葡萄酒的質(zhì)量??捎靡徊糠?jǐn)?shù)據(jù)(比如40個(gè)酒品種)來(lái)建模,再用其余數(shù)據(jù)(15個(gè)酒品種)來(lái)檢驗(yàn),看看其評(píng)酒的級(jí)別是否同評(píng)酒師的評(píng)價(jià)(第2小題)相符。逐步回歸分析可以發(fā)現(xiàn),只有少數(shù)理化指標(biāo)對(duì)評(píng)價(jià)酒的質(zhì)量是顯著有價(jià)值的。五、Logistic回歸(回歸判別分析)例:在探討腎細(xì)胞癌轉(zhuǎn)移的有關(guān)臨床病理因素研究中,收集了一批行根治性腎切除術(shù)患者的腎癌標(biāo)本資料,現(xiàn)抽取26例資料作為示例進(jìn)行回歸分析。x1:確診時(shí)患者的年齡(歲) (數(shù)值變量)x2:腎細(xì)胞癌血管內(nèi)皮

29、生長(zhǎng)因子(VEGF),其陽(yáng)性表述由低到高共3個(gè)等級(jí)(分類變量)x3:腎細(xì)胞癌組織內(nèi)微血管數(shù)(MVC) (數(shù)值變量)x4:腎癌細(xì)胞核組織學(xué)分級(jí),由低到高共級(jí)(分類變量)x5:腎細(xì)胞癌分期,由低到高共期(分類變量)y: 腎細(xì)胞癌轉(zhuǎn)移情況(有轉(zhuǎn)移y=1; 無(wú)轉(zhuǎn)移y=0)。 (分類變量)序號(hào)x1x2x3x4x5y159243.4210236157.211036121902104583128431555380341661194.421073817611084212403209501741101058368.622011683132.84201225294.64311352156110序號(hào)x1x2x3x4

30、x5y1431147.82101536331.63111642166.221017143138.6331183211142301935140.221020703177.24312165251.64412245212424023683127.233124312124.82302558112843026603149.8431logistic回歸如果僅自變量為分類變量,仍可以用普通的回歸分析模型。如果因變量為分類變量,則不符合一般回歸分析模型的要求,可用logistic回歸來(lái)分析兩分類因變量的Logistic回歸多分類有序因變量的Logistic回歸多分類無(wú)序因變量的Logistic回歸原理Y=0

31、or 1, 用概率p=P(Y=1)做因變量模型必須保證0p1Logistic回歸模型即優(yōu)比(賠率)Odds Ratioi=exp(i)表示當(dāng)Xi增加一個(gè)單位, p/(1-p)的增量。兩分類的Logistic回歸Y=0 or 1, p=P(Y=1)Logistic回歸模型 g: (0,1)(-, )Logit函數(shù) g(p)=log(p/(1-p)Normit函數(shù) g(p)=-1(p)( 為標(biāo)準(zhǔn)正態(tài)分布函數(shù))互補(bǔ)雙對(duì)數(shù)函數(shù)g(p)=log(-log(1-p)多分類Logistic回歸: Y取值1,2,mSPSS求解Logistic回歸數(shù)據(jù)導(dǎo)入SPSS數(shù)據(jù)表分析回歸二元Logistic方法:向前wa

32、ld最后模型中顯著變量為x2, x4六、時(shí)間序列分析按照時(shí)間的順序把隨機(jī)事件變化發(fā)展的過(guò)程記錄下來(lái)就構(gòu)成了一個(gè)時(shí)間序列。y0, y1, y2,.對(duì)時(shí)間序列進(jìn)行觀察、研究,找尋它變化發(fā)展的規(guī)律,預(yù)測(cè)它將來(lái)的走勢(shì)就是時(shí)間序列分析。如自回歸模型y(t)=a0+a1y(t-1)+apy(t-p)+(t)時(shí)間序列分析模型經(jīng)典時(shí)間序列分析移動(dòng)平均法指數(shù)平滑法非平穩(wěn)指數(shù)平滑模型: Holt-Winters統(tǒng)計(jì)時(shí)間序列分析平穩(wěn)模型: AR, MA, ARMA非平穩(wěn),差分平穩(wěn)模型: ARIMA異方差模型(金融時(shí)間序列): ARCH, GARCH等實(shí)際問(wèn)題中時(shí)間序列大部分都是非平穩(wěn)的。指數(shù)平滑模型移動(dòng)平均法(無(wú)趨勢(shì)) :簡(jiǎn)單指數(shù)平滑(無(wú)趨勢(shì)):2參數(shù)Holt指數(shù)平滑(有趨勢(shì)) :, (=0)3參數(shù)Holt-Winters指數(shù)平滑(趨勢(shì)性, 季節(jié)性) , 軟件實(shí)現(xiàn): Excel, SPSS 自相關(guān)性自相關(guān)性是時(shí)間序列的根本特征.自相關(guān)圖偏自相關(guān)圖選

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論