版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
醫(yī)用SAS統(tǒng)計分析第三講16.01.20261一、分類變量的統(tǒng)計推斷—卡方檢驗
在SAS系統(tǒng)中,對分類變量資料的基本統(tǒng)計分析方法主要通過FREQ過程實現(xiàn)的。FREQ過程的主要功能有:
1.產(chǎn)生一維或多維頻數(shù)表;
2.計算各種表中格子的理論頻數(shù)、構成比和各種率;
3.對分類變量資料作相應的假設檢驗。16.01.20262FREQ過程的語句及說明
主要格式:
PROCFREQ[選擇項];
TABLES表達式/[選擇項];
WEIGHT<變量名>;說明:
PROC過程[選擇項]data=數(shù)據(jù)集;規(guī)定PROCFREQ語句使用的數(shù)據(jù)集。
formchar(1,2,7)=‘|-+’;規(guī)定用來構造列聯(lián)表單元的輪廓線和分隔線的字符(只有三個字符)。1為垂線,2為水平線,7為水平與垂直的交叉線。16.01.20263TABLES語句
PROCFREQ過程中可有多條TABLES語句,TABLES語句后可接多個表格表達式,每個表達式可包含任何數(shù)量的變量,從而得到所需的表格。
如果TABLES語句缺省,則FREQ過程對數(shù)據(jù)集中的所有變量都給出相應的一維頻數(shù)表。不規(guī)定任何選項時,若需某變量的一維頻數(shù),F(xiàn)REQ給出該變量每一水平的頻數(shù)(freqency)、累積頻數(shù)(cumulativefreqency)、頻數(shù)的百分比(percent)和累積百分比(cumulativepercent);若需二維頻數(shù)表,F(xiàn)REQ產(chǎn)生交叉分組列表,即包括各格的頻數(shù)、總頻數(shù)的格百分數(shù)、行頻數(shù)的格百分數(shù)和列頻數(shù)的格百分數(shù)。
16.01.20264TABLES語句的表達式
表達式是要求FREQ過程分析處理的一維或多維表的清單。一維表有一個變量名表示,二維表由星號“*”聯(lián)接兩個變量名表示,如a*b表示變量a與b的二維表。三維表的形式為a*b*c。TABLES語句的[選擇項]1.普通選項out=數(shù)據(jù)集
建立一個包含變量值和頻數(shù)計數(shù)的輸出數(shù)據(jù)集。如果TABLES語句中不止一個表達式,數(shù)據(jù)集的內容相應于TABLES語句中最后一個表達式的表格。16.01.202652.統(tǒng)計分析主要選項chisq
對每層作χ2檢驗,包括Pearsonχ2
、似然比χ2
和Mantel-Haenszelχ2
。此外還給出與χ2
檢驗有關的關聯(lián)指標包括Phi系數(shù)、列聯(lián)系數(shù)和Cramer’sV。對于2×2表,給出Fisher精確概率。agree進行配對χ2
檢驗(McNemar’s檢驗);一致性檢驗的Kappa值。exact
對大于2×2的列聯(lián)表計算Fisher精確概率。同時也給出CHISQ選項的全部統(tǒng)計量。cmh
給出Cochran-Mantel-Haenszel統(tǒng)計量,主要用于行×列表的統(tǒng)計分析。對于分層2×2表,cmh過程給出總體相對危險度估計及其可信區(qū)間,還給出各層關聯(lián)度指標是否齊性的Breslow檢驗。16.01.20266measures對每層的二維表計算一系列關聯(lián)指標及相應的標準誤,包括Pearson和Spearman相關系數(shù),以及Gamma和Kendall系數(shù)等。對于2×2表,還給出常用的危險度指標及其可信區(qū)間。all給出chisq,measures,cmh所請求的全部統(tǒng)計量。Alpha=
給出α檢驗水準。缺省為0.05.expected
給出期望頻數(shù)。16.01.202673.禁止輸出選項nofreq
不給出列聯(lián)表中的格頻數(shù)
nopct
不給出列聯(lián)表中的格百分數(shù)
norow
不給出列聯(lián)表中各格的行百分數(shù)
nocol
不給出列聯(lián)表中各格的列百分數(shù)
nocum
不給出頻數(shù)表的累積頻數(shù)和累積百分數(shù)noprint
不給出表格,但給出CHISQ、CMH等語句所指定的統(tǒng)計量。WEIGHT語句指明該變量為頻數(shù)。只能使用一個WEIGHT語句,且該語句作用于所有的表。16.01.20268
四格表資料的卡方檢驗書中例10-1datachisq1;dor=1to2;doc=1to2;inputf@@;output;end;end;cards;63173168;procfreqFormchar(1,2,7)=‘|-+’;weightf;tablesr*c/chisq;run;16.01.20269
卡方檢驗結果
TABLEOFRBYCRCFrequency|二維表每個格子的頻數(shù)
Percent|每個格子的頻數(shù)在總頻數(shù)中的百分比。
RowPct|行百分數(shù),每格子頻數(shù)占該行合計頻數(shù)的百分比。
ColPct|*1|2|Total---------+--------+--------+1|63|17|80|35.20|9.50|44.69|78.75|21.25|*列百分數(shù),每格子頻數(shù)占
|67.02|20.00|該列合計頻數(shù)的百分比。
---------+--------+--------+2|31|68|99|17.32|37.99|55.31|31.31|68.69||32.98|80.00|---------+--------+--------+Total948517952.5147.49100.0016.01.20261016.01.202611
四格表χ2
值的校正
例王潔貞主編《醫(yī)學統(tǒng)計學》例6.4
表6-32種藥物治療白色葡萄球菌敗血癥結果處理
有效
無效
合計
甲藥乙藥合計33(31.02)6(7.98)2(3.98)3(1.02)359
39544本例有兩個格的1<T<5,且n=44>40,故對χ2值進行校正。16.01.202612程序datachi;dor=1to2;doc=1to2;inputf@@;output;end;end;cards;33263;procfreqformchar(1,2,7)='|-+';weightf;tablesr*c/chisqexpectednocolnorownopct;run;16.01.202613RCFrequency|Expected|1|2|Total---------+--------+--------+1|33|2|35|31.023|3.9773|---------+--------+--------+2|6|3|9|7.9773|1.0227|---------+--------+--------+Total39544
16.01.20261416.01.202615
配對四格表資料的卡方檢驗
配對四格表資料屬于2×2列聯(lián)表。根據(jù)分析的目的可分為關聯(lián)性檢驗和差別性檢驗。如《醫(yī)學統(tǒng)計學》王潔貞主編例6.8某研究者用甲、乙2種試劑檢驗132種血清,結果見表6-7,問2種試劑的檢驗結果有無關系以及有無差別?16.01.20261616.01.202617當b+c<40時tables語句選擇\agree;分析結果中給出χ2檢驗統(tǒng)計量,Kappa值(一致性檢驗系數(shù)),ASE值(Kappa值的標準誤)及Kappa值的95%可信限。
Kappa值作為評價判斷或診斷一致性程度的指標,
Kappa=(Pa-Pe)/(1-Pe),Pa為實際觀察到的一致率;Pe為期望觀察一致率,即兩次化驗結果由于偶然機會所造成的一致率。本例Pa=(80+11)/132=0.6894,Pe=(T11+T22)/132=(75.68+6.68)/132=0.6239。Kappa=(0.6894-0.6239)/(1-0.6239)=0.1745。16.01.202618Kappa值應在0到1之間,若Kappa值=1,說明兩次檢驗結果完全一致,若Kappa值=0,說明兩次檢驗結果完全沒有一致性。若Kappa值≥0.75,說明一致程度相當滿意,若小于0.4,說明一致程度不夠理想。如95%可信限不包含負數(shù),說明Kappa值有統(tǒng)計學意義,兩試劑結果(或兩次檢驗結果)有一致性。反之,無一致性。16.01.202619dataa;例
dor=1to2;doc=1to2;inputf@@;output;end;end;cards;80103111;procfreq;weightf;tablesr*c/chisqagreenoprint;/*禁止輸出列聯(lián)表*/run;16.01.20262016.01.202621
行×列表資料的卡方檢驗
行×列表資料可分為三種清況:①雙向無序行×列表,即行變量和列變量均為名義變量(如民族、職業(yè)、血型等),包括多個樣本率的比較。②單向有序行×列表,即行變量或列變量中有一個是名義變量,另一個為有序變量(如檢驗結果的-,+,++,+++;治療效果的痊愈,良好,有效,無效等);③雙向有序行×列表,即行變量和列變量均為有序變量。在SAS中,三種情況的統(tǒng)計量是通過TABLES語句中選擇CMH(Cochren-Mantel-Haenzsel)項實現(xiàn)的。CMH檢驗主要出現(xiàn)三個統(tǒng)計量:
1.NonzeroCorrelation(非零相關):針對雙向有序行×列表。
2.RowMeanScoresDiffer(行平均分不同):針對單向有序行×列表。16.01.202622
3.GeneralAssociation
(一般關聯(lián)):針對雙向無序行×列表。對雙向無序行×列表在TABLES語句中選擇EXACT,可計算行×列表的精確概率值。雙向無序行×列表
例10-3dataa;dor=1to2;doc=1to4;inputf@@;output;end;end;cards;584959184327338;procfreq;weightf;tablesr*c/exactcmhnoprint;run;16.01.20262316.01.202624列變量為有序變量的行×列表例10-4
datab;dor=1to2;doc=1to3;inputf@@;output;end;end;cards;738414206;procfreq;weightf;tablesr*c/cmhnoprint;run;16.01.20262516.01.202626雙向有序行×列表
例10-5datac;dor=1to3;doc=1to3;inputf@@;output;end;end;cards;581443210224128;procfreq;weightf;tablesr*c/cmhnoprint;run;16.01.20262716.01.202628
雙向有序且屬性相同的列聯(lián)表的一致性檢驗例兩名放射科醫(yī)師對200名棉屑沉著病可疑患者的診斷結果見下表,問兩醫(yī)生診斷結果否一致。
表200例棉屑沉著病可疑患者的診斷結果第一人檢查
第二人檢查
合計
正常Ⅰ型Ⅱ型
正常
Ⅰ型
Ⅱ型合計7860556100133283754284714520016.01.202629程序dataagree1;dor=1to3;doc=1to3;inputf@@;output;end;end;cards;78506561301032;procfreqformchar(1,2,7)='|-+';weightf;tablesr*c/agreenocolnorownopct;run;16.01.20263016.01.202631多層行×列表資料的卡方檢驗
CMH統(tǒng)計量也適用于多層行×列表資料的的卡方檢驗,即按一個或多個因素分層后,研究行變量和列變量間的聯(lián)系。其可通過控制分層變量的影響后,檢驗行變量和列變量的關系。
多層的2×2表表男女使用別嘌呤醇引發(fā)皮疹比較
性別
藥物
發(fā)病
未發(fā)病
男使用未使用使用未使用53610583364519518
女16.01.202632
程序datachisq1;dosex=1to2;/*1為男,2為女*/dodrug=1to2;/*1為使用,2為未使用*/docase=1to2;/*1為發(fā)病,2為未發(fā)病*/inputf@@;output;end;end;end;cards;53336645101958518;procfreqformchar(1,2,7)='|-+';weightf;tablessex*drug*case/cmhmeasuresnopctnorownocol;run;16.01.20263316.01.20263416.01.202635
(1)
SUMMARYSTATISTICSFORCASEBYDRUGCONTROLLINGFORSEXCochran-Mantel-HaenszelStatistics(BasedonTableScores)StatisticAlternativeHypothesisDFValueProb--------------------------------------------------------------1NonzeroCorrelation119.5130.0012RowMeanScoresDiffer119.5130.0013GeneralAssociation119.5130.001(1)由于行變量和列變量都只有2個,可以看作雙向無序資料。三種結果是一致的,結果為:χ2mch=19.513,所對應的p=0.001,說明使用別嘌呤醇與發(fā)生藥物性皮疹是有關系的。16.01.20263616.01.202637(2)本部分有3個指標:
第1個指標是病例對照研究(Case-Control)的比數(shù)比(OR)值及可信區(qū)間。一個是用Mantel-Haenszel方法計算的值,另一個是用Logit方法計算的值。本例說明使用別嘌呤醇發(fā)生藥物性皮疹的危險性是不用該藥危險性的3.756倍或3.777倍。第2個和第3個指標是隊列研究(Cohort)的相對危險度(RR)值及可信區(qū)間。第2個指標是使用藥物發(fā)病率是不使用藥物發(fā)病率的倍數(shù);第3個指標是使用藥物未發(fā)病率是不使用藥物未發(fā)病率的倍數(shù)。(3)Breslow-Day檢驗
是檢驗各層間危險度的方向是否一致,P>0.05說明總體方向是一致的,P≤0.05說明總體方向是不一致的。如方向一致可以用總的OR值表示,否則不能用總的OR值表示。16.01.202638
多層的行×列表程序10-6datachisq2;dohospital=1to2;dotrt=1to2;doeffect=1to3;inputf@@;output;end;end;end;cards;237220135186213132;procfreqformchar(1,2,7)='|-+';weightf;tableshospital*trt*effect/cmhnopctnocol;run;16.01.202639二、二項分布與Poisson分布
二項分布二項分布的統(tǒng)計說明二項分布的應用條件
1.兩分類對立結果資料;2。試驗結果是相互獨立,互不影響的。
二項分布的概率函數(shù)X=0,1,2,…,n
。
二項分布的分布函數(shù)至多有x例陽性的概率為,即下側累積概率:至少有x例陽性的概率為,即上側累積概率:16.01.202640SAS中二項分布函數(shù)SAS中二項分布函數(shù)表達式為:probbnml(π,n,x);式中π
為事件發(fā)生的概率,n為樣本含量,x為陽性事件個數(shù)。表達式計算的結果為發(fā)生陽性事件數(shù)≤x的概率。例12-1datajin;p=probbnml(0.5,4,2);q=1-p;procprint;run;16.01.202641結果OBSPQ10.68750.3125表明死亡≤2的概率(0+1+2的概率)為0.6875;死亡>2的概率(3+4的概率)為0.3124。用二項分布檢驗治療效果
例12-3根據(jù)以往的經(jīng)驗用一般療法治療某病,其病死率為40%,治愈率為60%。今用某種新藥治療該病人5名,這5名均治愈了。問該項新藥是否比一般療法為優(yōu)。
當實際率大于理論率時,計算上則累積概率。本例應計算:
p=probbnml(0.6,5,5)-probbnml(0.6,5,4)16.01.202642程序12-3databinom2;p=probbnml(0.6,5,5)-probbnml(0.6,5,4);procprint;run;OBSP10.07776假如10名病人,結果1名死亡,9名治愈,則應計算P(x≥9)的概率。程序12-4databinom3;p=probbnml(0.6,10,10)-probbnml(0.6,10,8);Procprint;Run;OBSP10.04635716.01.202643求二項分布的概率分布
例12-5
設π=0.5,n=4,求x=0,1,2,3,4的概率databinom4;dor=0to4;p=probbnml(0.5,4,r);q=1-p;ifr=0thend=p;elsed=probbnml(0.5,4,r)-probbnml(0.5,4,r-1);output;end;procprint;run;OBSRPQD100.06250.93750.0625210.31250.68750.2500320.68750.31250.3750430.93750.06250.2500541.00000.00000.062516.01.202644
Poisson分布
Poisson分布的統(tǒng)計說明Poisson分布的應用條件同二項分布,Poisson分布是二項分布的特例,當π很小,n很大時,Poisson分布非常接近二項分布。
Poisson分布概率函數(shù)(X=0,1,2,…)
λ=π×n
Poisson分布的分布函數(shù)
下側累積概率:上側累積概率:16.01.202645SAS中Poisson分布函數(shù)SAS中Poisson分布函數(shù)表達式為:poisson(λx);式中λ為均數(shù)(λ
=n×π),x為事件發(fā)生個數(shù)。表達式計算的結果為發(fā)生事件數(shù)≤x的概率。例12-6
有人觀察紅細胞計數(shù)池中400個小格,數(shù)出每小格中紅細胞數(shù),其均數(shù)為3.6175,試計算每格中恰有細胞數(shù)5個的概率及小格數(shù)。datapoisson1;p=poisson(3.6175,5)-poisson(3.6175,4)d=p*400;procprint;run;OBSPD10.1386155.444816.01.202646樣本計數(shù)與總體均數(shù)差別的統(tǒng)計意義檢驗
例12-8
已知在一培養(yǎng)液中,有細菌數(shù)為每毫升3個,今采集放在5℃冰箱的1ml培養(yǎng)液的細菌數(shù)5個,能否說明培養(yǎng)液中細菌數(shù)有增加?本例λ=3,x=5>3,計算x≥5的上則累積概率??捎嬎鉷=1-p(n≤4)的概率。Datapoisson3;P=1-poisson(3,4);Procprint;Run;OBSP10.18474因P>0.05,尚不能認為培養(yǎng)液中細菌數(shù)有增長。16.01.202647
例
某地區(qū)以往胃癌發(fā)病率為萬分之一。現(xiàn)調查10萬人,發(fā)現(xiàn)3例胃癌病人。試分析該地區(qū)現(xiàn)在的胃癌發(fā)病率是否低于以往的發(fā)病率。本例π=0.001,n=100000,x=3,λ=100000×0.0001=10,現(xiàn)X<λ,應計算≤x的下則累積概率。dataa;p=poisson(10,3);procprint;run;OBSP10.010336因P<0.05,可以認為該地區(qū)現(xiàn)在的胃癌發(fā)病率低于以往的發(fā)病率。16.01.202648三、非參數(shù)統(tǒng)計
在SAS中,非參數(shù)統(tǒng)計主要由univariate過程和npar1way過程來實現(xiàn),前者在前面的第一講中已經(jīng)介紹,它可以進行配對設計差值的符號秩和檢驗(Wilcoxon配對法);后者是一個單因素的非參數(shù)方差分析過程,可進行成組設計的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 財商義賣活動策劃方案(3篇)
- 繁華地段施工方案(3篇)
- 賞冰雕活動方案策劃(3篇)
- 填方地基施工方案(3篇)
- 五一飯團活動策劃方案(3篇)
- 標志相關活動策劃方案(3篇)
- 企業(yè)人力資源管理實務與技能提升手冊
- 2025年高職焊接技術與自動化(焊接工程創(chuàng)意)試題及答案
- 2025年大學美容醫(yī)學(皮膚美容)模擬試題
- 2025年大學植物保護(農(nóng)藥應用技術)試題及答案
- 青少年抑郁癥干預方案
- 雨課堂在線學堂《自然辯證法概論》作業(yè)單元考核答案
- 2025年光電技術人員備考題庫及答案解析
- 疾病編碼腫瘤培訓課件
- 聚合賬戶資產(chǎn)管理辦法
- 骨關節(jié)養(yǎng)生課件
- 2025年福建省能源石化集團有限責任公司春季社會招聘210人筆試參考題庫附帶答案詳解
- 建設項目環(huán)境影響評價分類管理名錄2026版
- 勞務派遣標準操作流程及服務手冊
- 2025年醫(yī)療器械質量安全風險會商管理制度
- 上呼吸道患者護理課件
評論
0/150
提交評論