版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、華北水利水電大學(xué)建模培訓(xùn),2014年5月31日,Matlab統(tǒng)計(jì)分析與應(yīng)用,目錄,1,數(shù)據(jù)導(dǎo)入、導(dǎo)出與預(yù)處理,方差分析,參數(shù)估計(jì)與假設(shè)檢驗(yàn),隨機(jī)數(shù)生成,5,數(shù)據(jù)擬合,主成分分析,判別分析,聚類分析,1數(shù)據(jù)處理,1.2 調(diào)用高級函數(shù)導(dǎo)入數(shù)據(jù) importdata(examp02-01.txt),把文件復(fù)制到目錄下,重命名選中文件名 Load函數(shù)適用于全是數(shù)據(jù)的文件,且等長; 常用的還有dlmread,textread(適合分隔符多樣的情況),1.1 用菜單導(dǎo)入數(shù)據(jù) 對txt文檔,直接使用fileimport data 例如example 02-01;02-05(長短不齊),1.3調(diào)用低級函數(shù)導(dǎo)入
2、數(shù)據(jù) 步驟:按指定格式打開文件(fopen),獲取文件標(biāo)識符(fid),讀取文件內(nèi)容(fseek,ftell,frewind,feof控制讀寫位置,fgets讀取文件的下一行,textscan讀取數(shù)據(jù)等) ,關(guān)閉文件(fclose) 。,1數(shù)據(jù)處理,1.5從excel文件中讀取數(shù)據(jù) num = xlsread(examp02_14.xls, A2:H4),1.4 數(shù)據(jù)寫入txt文件 fprintf(fid,%-f %-f %-f %-f %-f %-f %-f %-fn, x);,1.6 數(shù)據(jù)預(yù)處理 1.畫出散點(diǎn)圖估計(jì)趨勢 2.剔除奇異點(diǎn) 3.平滑處理(smooth,建議用excel)或?qū)?shù)變
3、換 4.標(biāo)準(zhǔn)化變換,適合于各變量的量綱和數(shù)量級不一致的時(shí)候。數(shù)據(jù)減去均值,除以標(biāo)準(zhǔn)差(zscore)xz,mu,sigma = zscore(x) 5.極差歸一化變換(rscore ,非matlab自帶),2隨機(jī)數(shù)生成,1隨機(jī)數(shù) 用于信息安全,網(wǎng)絡(luò)游戲,計(jì)算機(jī)仿真和模擬計(jì)算等。 Rand 0,1 Randn 標(biāo)準(zhǔn)正態(tài) Randstream 適合于7.7及其以后版本,調(diào)用類函數(shù) 統(tǒng)計(jì)工具箱中以rnd結(jié)尾的用來生成符合某種分布的隨機(jī)數(shù),如 Normrnd 正態(tài)分布 Binornd二項(xiàng)分布 Exprnd指數(shù)分布等,2 histrate函數(shù)(非自帶) 統(tǒng)計(jì)數(shù)值型數(shù)組,字符串?dāng)?shù)組等各元素出現(xiàn)的頻數(shù),頻率
4、等,請同學(xué)們檢查是否安裝的有matlab統(tǒng)計(jì)工具箱,2隨機(jī)數(shù)生成,例子:用蒙特卡洛方法求圓周率 圓心在原點(diǎn)的單位圓與外接正方形,相互獨(dú)立的,服從-1,1上的均勻分布,則(,)在正方形內(nèi)服從二元均勻分布,為落在圓內(nèi)的概率, 則(A)=? 還可以用來求面積,體積,積分值,概率等,3蒙特卡洛方法 這是計(jì)算機(jī)隨機(jī)模擬方法,是一種基于隨機(jī)數(shù)的計(jì)算方法,馮以摩納哥的賭城命名?;舅枷耄侯l率確定概率。,3參數(shù)估計(jì),2正態(tài)總體參數(shù)的檢驗(yàn)(例子05.02) U檢驗(yàn)(標(biāo)準(zhǔn)差已知) ztest 檢驗(yàn)(標(biāo)準(zhǔn)差未知) ttest 均值比較檢驗(yàn)ttest2 卡方檢驗(yàn)(單個方差)vartest 檢驗(yàn)(兩個方差) varte
5、st2,1參數(shù)估計(jì) 統(tǒng)計(jì)工具箱中以fit結(jié)尾的函數(shù),用來求常見分布的參數(shù)的最大似然估計(jì)和置信區(qū)間估計(jì)。 例子05.01,3擬合與檢驗(yàn),理論上概率統(tǒng)計(jì)都假定變量服從某分布,構(gòu)造統(tǒng)計(jì)量,做出統(tǒng)計(jì)推斷。 但總體到底服從何種分布,你的假定是真的嗎? 例子examp02_14.xls,描述性統(tǒng)計(jì)(examp05-03) 均值,標(biāo)準(zhǔn)差,最值,極差,中位數(shù),眾數(shù), 變異系數(shù),標(biāo)準(zhǔn)差與平均數(shù)的比值,自己計(jì)算 偏度,分布密度曲線的對稱性,越接近0,越對稱 峰度,密度曲線在峰值附近的陡峭性,正態(tài)為3,3擬合與檢驗(yàn),3統(tǒng)計(jì)圖(examp05-03) 箱線圖(判斷對稱性) 頻率直方圖(最常用) 經(jīng)驗(yàn)分布函數(shù)圖 正態(tài)概
6、率圖(+越集中在參考線附近,越近似正態(tài)分布),4分布檢驗(yàn) Chi2gof,jbtest,kstest,kstest2,lillietest等 Chi2gof卡方擬合優(yōu)度檢驗(yàn),檢驗(yàn)樣本是否符合指定分布。它把觀測數(shù)據(jù)分組,每組包含5個以上的觀測值,根據(jù)分組結(jié)果計(jì)算卡方統(tǒng)計(jì)量,當(dāng)樣本夠多時(shí),該統(tǒng)計(jì)量近似服從卡方分布。 jbtest,利用峰度和偏度檢驗(yàn)。,3擬合與檢驗(yàn),5核密度估計(jì)(example05_04.m) 需要用樣本估計(jì)總體的概率分布函數(shù),方法有參數(shù)法和非參數(shù)法。參數(shù)法假定總體服從某種已知的分布,估計(jì)參數(shù)。非參數(shù)法不需要做對總體分布的假設(shè),核密度估計(jì)就是一種非參數(shù)法。,4方差分析,預(yù)備知識有關(guān)
7、術(shù)語簡介 因素或因子:所要檢驗(yàn)的對象 水平:因子的不同表現(xiàn) 觀察值:在每個因素水平下得到的樣本值 方差分析能做: 1檢驗(yàn)多個總體均值是否相等(不同院系的高數(shù)成績) 2需要研究生產(chǎn)條件或?qū)嶒?yàn)條件的改變對產(chǎn)品的質(zhì)量或產(chǎn)量有無影響,比如種植業(yè)研究諸多因素對因變量的影響(品種、施肥量、密度對產(chǎn)量)。在諸多影響因素中哪些是主要的? 3確定最優(yōu)組合,4方差分析,1之所以叫方差分析,是我們雖然關(guān)心的是均值,但在判斷均值是否有差異時(shí)需要借助于方差。這個名字也表示,它是通過誤差來源的分析來判斷不同總體的均值是否相等。,2 方差分析的基本假定 正態(tài)性方差齊性獨(dú)立抽樣前兩個條件滿足認(rèn)為方差分析是穩(wěn)健的,3單因素一元
8、方差分析步驟 ( example07_01.m判斷不同院系成績均值是否相等) 數(shù)據(jù)預(yù)處理 正態(tài)性檢驗(yàn)lillietest (p0.05接受) 方差齊性檢驗(yàn)vartestn (p0.05接受) 方差分析anoval(0有顯著差別) 多重比較:兩兩比較,找出存在顯著差異的學(xué)院,multcompare,4方差分析,方差分析表把數(shù)據(jù)差異分為三部分(或四部分): 列均值之間的差異引起的變差 列均值之間的差異引起的變差 行列交互作用引起的變差 (隨機(jī)誤差) 后續(xù)可以進(jìn)行多重比較,multcompare,找出哪種組合是最優(yōu)的,4雙因素一元方差分析步驟(如判斷兩種肥料使用量不同對產(chǎn)量的影響) 數(shù)據(jù)預(yù)處理 正態(tài)
9、性檢驗(yàn)lillietest (p0.05接受) 方差齊性檢驗(yàn)vartestn (p0.05接受) 構(gòu)造觀測值矩陣,每一列對應(yīng)因素的一個水平,每一行對應(yīng)因素的一個水平 方差分析anova2得到方差分析表,4方差分析,5多因素一元方差分析anovan 根據(jù)樣本觀測值向量進(jìn)行均衡或非均衡實(shí)驗(yàn)的多因素一元方差分析,檢驗(yàn)多個因素的主效應(yīng)或交互效應(yīng)是否顯著,這里往往需要結(jié)合正交實(shí)驗(yàn)進(jìn)行。 6單因素多元方差分析manoval 7非參數(shù)方差分析:當(dāng)數(shù)據(jù)不滿足正態(tài)性和方差齊性假定時(shí),應(yīng)采用基于秩的非參數(shù)檢驗(yàn)(參看非參數(shù)統(tǒng)計(jì),王星,人大出版社) 兩種非參數(shù)檢驗(yàn):kruskal-wallis檢驗(yàn)friedman檢驗(yàn)
10、 函數(shù)名同上:kruskalwallis,friedman 如: example07_07,四個評委判斷四個人做得“水煮魚”是否品質(zhì)相同,5數(shù)據(jù)擬合,目的:用一個函數(shù)近似表示變量之間的不確定關(guān)系。 1一元線性回歸分析 做出散點(diǎn)圖,估計(jì)趨勢;計(jì)算相關(guān)系數(shù)矩陣; regress函數(shù),可以得到回歸系數(shù)和置信區(qū)間,做殘差分析,剔除異常點(diǎn),重新做回歸分析 Regstats 多重線性或廣義回歸分析,它帶有交互式圖形用戶界面,可以處理帶有常數(shù)項(xiàng)、線性項(xiàng)、交叉項(xiàng)、平方項(xiàng)等模型 robustfit函數(shù):穩(wěn)健回歸(加權(quán)最小二乘法),2一元非線性回歸分析 做出散點(diǎn)圖,估計(jì)趨勢;定義回歸方程所對應(yīng)的函數(shù)(冪函數(shù),對數(shù)
11、函數(shù)等),調(diào)用nlinfit函數(shù)做回歸方程;再用nlparci函數(shù)計(jì)算參數(shù)估計(jì)的置信區(qū)間;調(diào)用nlpredci函數(shù)求預(yù)測值,5數(shù)據(jù)擬合,3 曲線擬合工具箱cftool作一元非線性擬合 運(yùn)行cftool,主要功能:data(導(dǎo)入數(shù)據(jù)),fitting(擬合),exclude(篩選),plotting,analysis,4多重回歸分析 一個變量與諸因素之間的回歸模型。調(diào)用reglm函數(shù)(非自帶)。 Y=a+bx1+cx2+dx3 開始并不知道選擇幾個自變量,可以先設(shè)一個,再根據(jù)顯著性水平,剔除不顯著的項(xiàng)。,5逐步回歸分析 Stepwise函數(shù),matlab自帶函數(shù),輸入函數(shù)名后打開交互式圖形用戶界
12、面,,6聚類分析,1聚類分析簡介 目的:把分類對象按一定規(guī)則分成若干類。 距離:度量樣品間的相似性,明氏距離 蘭氏距離,馬氏距離,斜交空間距離 相似系數(shù):度量變量之間的相似性 夾角余弦xian,相關(guān)系數(shù),,2系統(tǒng)聚類法 定義距離(樣品之間的距離和類與類之間的距離),距離最近的兩類合并為一類,每次減少一類,最后形成聚類樹形圖或譜系圖。 類與類之間的距離的不同定義方式,產(chǎn)生了不同的聚類方法。 最短距離法:類與類之間的距離為兩類最近樣品間的距離。 最長距離法:類與類之間的距離為兩類最遠(yuǎn)樣品間的距離。 中間距離法:類與類之間的距離采用中間距離。 重心法:類與類之間的距離為兩類重心(類均值)的距離。,6
13、聚類分析,4模糊均值聚類法,3K均值聚類法 一、將所有樣品分為個初始類,這個類的重心作為初始凝聚點(diǎn)。 二、每個樣品歸入離它最近的凝聚點(diǎn)所在的類,更新均值 三、重復(fù)二,直到結(jié)束。 注意:初始凝聚點(diǎn)的選擇對結(jié)果可能有影響 所用函數(shù):kmeans,silhouette,類平均法:樣品對之間平方距離的平均值,該方法比較好。還有離差平方和法等 Pdist,squareform,linkage,dendrogram,cophenet,inconsistent,cluster,clusterdata, 距離,距離矩陣,創(chuàng)建系統(tǒng)聚類樹,作聚類樹形圖,計(jì)算相關(guān)系數(shù),計(jì)算不一致系數(shù), 輸出聚類結(jié)果,由數(shù)據(jù)得到聚類
14、,6聚類分析,4模糊均值聚類法 使用模糊數(shù)學(xué)中的隸屬度函數(shù)來確定分類 Matlab模糊邏輯工具箱fuzzy logic toolbox 提供了函數(shù):fcm 不同聚類分析方法的結(jié)果不一定一致。需要測試集,可參考其它論文 系統(tǒng)聚類法的評價(jià): 單調(diào)性:距離單增 空間的濃縮與擴(kuò)張 類平均法比較好,7判別分析,1判別分析簡介 對未知類別的樣品進(jìn)行歸類的一種方法。聚類分析是對還沒有分類的對象進(jìn)行分類。判別分析是對已經(jīng)有了分類,需要建立判別準(zhǔn)則,判別未知類別的樣品所屬的類型。如考古,醫(yī)學(xué)判斷,文字識別等。,2距離判別法 這里的思想和前面的聚類分析是類似的,根據(jù)樣品到各個類的距離(比如用馬氏距離)判斷其所屬的
15、類。,3貝葉斯判別法 距離判別沒有考慮人們對研究對象已有的認(rèn)識,而這種認(rèn)識可能對判別結(jié)果產(chǎn)生影響。貝葉斯判斷用一個先驗(yàn)概率來描述這種認(rèn)識,然后用樣本來修正先驗(yàn)概率,得到后驗(yàn)概率,最后基于后驗(yàn)概率進(jìn)行判別。 距離判別法和先驗(yàn)分布為正態(tài)分布的貝葉斯判別法都可以用統(tǒng)計(jì)工具箱中的classify函數(shù),對未知類別的樣品進(jìn)行判斷。,7判別分析,4 Fisher判別法 Fisher判別的基本思想是投影,將組維數(shù)據(jù)投影到某個方向,使得它們投影組與組之間盡可能地分開。 工具箱中沒有,有編好的函數(shù)fisher.m,程序有205行,如果你能看懂,對你的編程能力大有好處,8主成分分析,通過降維技術(shù)把多個變量化為少數(shù)幾
16、個主成分的多元統(tǒng)計(jì)方法。這些主成分能夠反映原始變量的大部分信息,通常表示為原始變量的線性組合,為使信息互不重疊,要求各主成分之間互不相關(guān)。易于抓住主要矛盾,簡化問題。,1主成分分析 幾何意義:通過坐標(biāo)系旋轉(zhuǎn),使得新坐標(biāo)系的各個坐標(biāo)軸方向是原始數(shù)據(jù)變差最大的方向,各主成分表達(dá)式就是新舊坐標(biāo)轉(zhuǎn)換關(guān)系式 (幾何直觀:一三象限的一個橢圓內(nèi)部密集分布的點(diǎn)) 樣本主成分分析步驟:構(gòu)造樣本觀測值矩陣,計(jì)算樣本協(xié)方差矩陣和樣本相關(guān)系數(shù)矩陣;從樣本協(xié)方差矩陣出發(fā)求解主成分;(也可以由樣本相關(guān)系數(shù)矩陣出發(fā)求解主成分);由主成分重建原始數(shù)據(jù) 注:由于特征值對應(yīng)的特征向量不唯一,故主成分的表達(dá)式也不唯一,不過這對后續(xù)分析沒有太大影響,8主成分分析,2相關(guān)的matlab函數(shù) Pcacov根據(jù)協(xié)方差矩陣或相關(guān)系數(shù)矩陣進(jìn)行主成分分析,需先計(jì)算協(xié)方差矩陣或相關(guān)系數(shù)矩陣 Princomp根據(jù)樣本觀測值進(jìn)行主成分分析 Pcares重建數(shù)據(jù),并求出殘差;pcares調(diào)用了princomp函數(shù),不會自動對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化變換,可用zscore函
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 機(jī)械通氣臨床故障處理總結(jié)2026
- 道路安全培訓(xùn)知識
- 2026年甘肅省武威市高職單招數(shù)學(xué)試題及答案
- 道路交通安全及事故課件
- 2026年度執(zhí)業(yè)藥師繼續(xù)教育公需科目考試題庫(含答案)
- 2026年甘肅省隴南市高職單招英語試題解析及答案
- 2025小動物視覺電生理數(shù)據(jù)采集操作規(guī)范指南(2025)課件
- 中考語文文言文對比閱讀(全國)15《記承天寺夜游》對比閱讀16組80題(原卷版)
- 邊坡坍塌安全教育培訓(xùn)課件
- 施工現(xiàn)場安全檢查計(jì)劃安排表
- 2026年廣東農(nóng)墾火星農(nóng)場有限公司公開招聘作業(yè)區(qū)管理人員備考題庫及參考答案詳解
- 腫瘤化療導(dǎo)致的中性粒細(xì)胞減少診治中國專家共識解讀
- 2025年查對制度考核考試題庫(答案+解析)
- 云南省2025年普通高中學(xué)業(yè)水平合格性考試歷史試題
- 養(yǎng)老護(hù)理服務(wù)的法律監(jiān)管與執(zhí)法
- 四川省2025年高職單招職業(yè)技能綜合測試(中職類)汽車類試卷(含答案解析)
- 隧道施工清包合同(3篇)
- 消化系統(tǒng)腫瘤多學(xué)科協(xié)作(MDT)診療方案
- 圍手術(shù)期疼痛的動物模型與轉(zhuǎn)化研究
- 安泰科技招聘筆試題庫2025
- 燃機(jī)三菱控制系統(tǒng)簡述課件
評論
0/150
提交評論