SAS軟件應(yīng)用之行×列表分析.ppt_第1頁
SAS軟件應(yīng)用之行×列表分析.ppt_第2頁
SAS軟件應(yīng)用之行×列表分析.ppt_第3頁
SAS軟件應(yīng)用之行×列表分析.ppt_第4頁
SAS軟件應(yīng)用之行×列表分析.ppt_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第13章 行列表分析,學習目標,掌握四格表普通卡方檢驗和配對卡方檢驗方法以及相應(yīng)的SAS程序; 了解FREQ過程語句格式; 熟悉RC表資料的分類類型以及相應(yīng)的統(tǒng)計檢驗方法; 掌握行均分檢驗以及SAS程序; 掌握行列均為順序變量的相關(guān)檢驗以及SAS程序; 掌握分層行列表的分析以及SAS程序; 掌握趨勢卡方檢驗方法以及SAS程序; 了解卡方分割與卡方合并; 熟悉Fishers確切概率計算方法。,概述,前面已介紹了兩個率比較的檢驗,在觀察例數(shù)不夠大或擬對多個率進行比較時,檢驗就不適宜了,因為直接對多個樣本率作兩兩間的檢驗有可能增加第一類誤差。2檢驗可解決此類問題。 卡方檢驗是用途很廣的一種假設(shè)檢驗方

2、法,這里我們主要學習它在分類資料統(tǒng)計推斷中的應(yīng)用,包括:兩個率或兩個構(gòu)成比比較的卡方檢驗;多個率或多個構(gòu)成比比較的卡方檢驗以及分類資料的相關(guān)分析等。,四格表資料,定性指標分為有序的(如:療效分為“治愈、顯效、好轉(zhuǎn)、無效、死亡”)和名義的(如:血型分為“O、A、B、AB”型)類,對于每個受試者來說,有序指標的觀測結(jié)果只能是該有序指標若干等級中的級(如某人的療效為“顯效”);名義指標的觀測結(jié)果只能是該名義指標若干標志中的個(如某人的血型為型),顯然,無法像處理定量指標那樣去直接分析定性指標,故這類資料常被整理成列聯(lián)表的形式后再進行分析。 當表中只有個定性指標時,稱為維列聯(lián)表;有個或個以上定性指標時

3、,稱為多維列聯(lián)表。常用R、C表示維列聯(lián)表的行數(shù)和列數(shù),并稱為RC表;當R=C=時,稱為表(或四格表)。表看起來很簡單,但根據(jù)資料所具備的條件有許多不同的處理方法。,四格表卡方檢驗,為了解不同致癌劑的致癌作用,分別在兩組大白鼠皮膚涂以不同致癌劑,觀察不同致癌劑作用下的發(fā)癌率,結(jié)果如下表13-1,問兩組發(fā)癌率有無差別? 表13-1 不同致癌劑作用下大白鼠的發(fā)癌率,四格表卡方檢驗,這四個格子是表中最基本的數(shù)據(jù),其余數(shù)據(jù)都是由這四個數(shù)據(jù)推算出來的,因此上表資料又被稱之為四格表資料。 2檢驗的基本思想及計算步驟如下: 假設(shè)兩總體率相等 H0: ,即兩總體發(fā)癌率相等; H1: ,即兩總體發(fā)癌率不等; 。,

4、四格表卡方檢驗,不妨將H0看作 兩樣本合并的發(fā)癌率(Pc80.33),按合計率推算,本例第一行第一列理論上的致癌數(shù)為: 此結(jié)果稱為理論頻數(shù),簡稱理論數(shù),記為T。由上述過程可推導出理論數(shù)的計算公式為:,四格表卡方檢驗,式中Trc即第r行第c列的理論數(shù),nr為Trc所在行合計,nc為Trc所在列合計。相應(yīng)地,表中的4個基本數(shù)據(jù)為實際頻數(shù),簡稱為實際數(shù),記為A。4個基本格子的實際數(shù)都不等于理論數(shù)。 經(jīng)上述推導,兩樣本率的差別就演繹為實際數(shù)與理論數(shù)之間的差別。即:兩樣本率相差越大,則實際數(shù)與理論數(shù)的差別就愈大。,四格表卡方檢驗,卡方檢驗的統(tǒng)計量是2值,它是每個格子實際頻數(shù)A與理論頻數(shù)T差值平方與理論頻

5、數(shù)之比的累計和。每個格子中的理論頻數(shù)T是在假定兩組的發(fā)癌率相等(均等于兩組合計的發(fā)癌率)的情況下計算出來的,故2值越大,說明實際頻數(shù)與理論頻數(shù)的差別越明顯,兩組發(fā)癌率不同的可能性越大。,四格表卡方檢驗,實際數(shù)與理論數(shù)的差值服從2分布:在H0條件下,上述 差值屬于隨機誤差,可獲得統(tǒng)計量:,四格表卡方檢驗,差2分布表,確定P值并作出推論,以1查2界值表得: 本例26.4777,故0.05P0.01,按水平拒絕H0,接受H1,因而可以認為兩種致癌劑作用于大白鼠的發(fā)癌率有差別(統(tǒng)計學推論)。結(jié)果說明乙組致癌劑的發(fā)癌率高于甲組(結(jié)合樣本率作實際推論)。,連續(xù)性校正公式,2分布是正態(tài)變量的一種分布。設(shè) 是

6、k個獨立的標準正態(tài)變量,則 。2界值表就是根據(jù)這種連續(xù)性分布計算出來的。2統(tǒng)計量計算公式實質(zhì)上是正態(tài)近似法。分類資料是間斷性的,由此計算的2值不連續(xù),尤其自由度為1的四格表,求出的概率可能偏小,此時需要對2值進行連續(xù)性校正,公式為,2檢驗的應(yīng)用條件,連續(xù)性校正主要針對四格表資料,尤其理論數(shù)較小時,連續(xù)性校正不可忽略。 四格表2檢驗的應(yīng)用條件為: 當n40且所有T5時,用普通的2檢驗,若所得,改用確切概率法; 當n40但有1T5時,用校正的2檢驗; 當n40或有T1時,不能用2檢驗,改用確切概率法。,四格表卡方檢驗的SAS程序,在SAS/STAT模塊中FREQ、TABULATE和SUMMARY等

7、過程可用于分類資料的統(tǒng)計描述,其中FREQ過程兼具統(tǒng)計描述和統(tǒng)計推斷的功能,對分類變量計算頻數(shù)分布,產(chǎn)生從一維到n維的頻數(shù)表和列聯(lián)表;對于二維表,可進行2檢驗,對于三維表,可作Mentel-Hanszel分層分析。FREQ過程是SAS用于分析分類資料的一個常用過程。本節(jié)將先向大家介紹FREQ過程的語句及其格式。 FREQ過程的語句基本格式如下: Proc freq data= order= ; Table 分類變量*分類變量/ ; Weight 變量; Run;,四格表卡方檢驗的SAS程序,DATA數(shù)據(jù)集:規(guī)定PROC FREQ語句使用的數(shù)據(jù)集; ORDERFREQ,按頻數(shù)遞減順序排列;ORD

8、ERDATA,按數(shù)據(jù)集中出現(xiàn)的順序排列;ORDERINTERNAL,按內(nèi)部值排列(缺省);ORDERFORMATTED,按外部格式值排列; Table語句指定構(gòu)成表格的變量和表格結(jié)構(gòu)。表格的結(jié)構(gòu)由變量個數(shù)和變量排列順序決定,一個table語句允許列出多個表格結(jié)構(gòu)。PROC FREQ過程中可有多條TABLES語句,TABLES語句后可接多個表格請求式,每個請求式可包含任何數(shù)量的變量,從而得到所需的表格。,四格表卡方檢驗的SAS程序,如果TABLES語句缺省,則FREQ過程對數(shù)據(jù)集中的所有變量都給出相應(yīng)的一維頻數(shù)表。不規(guī)定任何選項時,若需某變量的一維頻數(shù),F(xiàn)REQ給出該變量每一水平的頻數(shù)、累積頻數(shù)

9、、頻數(shù)的百分比和累積百分比;若需二維頻數(shù)表,F(xiàn)REQ產(chǎn)生交叉分組列表,即包括各格的頻數(shù)、總頻數(shù)的格百分數(shù)、行頻數(shù)的格百分數(shù)和列頻數(shù)的格百分數(shù)。 請求式由一個或多個用“*”連接起來的變量名組成。幾個變量可放在括號中,如: TABLES A*(B C);等價于TABLES A*B A*C; TABLES (A-C)*D;等價于TABLES A*D B*D C*D;,四格表卡方檢驗的SAS程序,下列選項可用于TABLES語句中“/”的后面: OUT數(shù)據(jù)集:建立一個包含變量值和頻數(shù)計數(shù)的輸出數(shù)據(jù)集。如果TABLES語句中不止一個請求式,數(shù)據(jù)集的內(nèi)容相應(yīng)于TABLES語句中最后一個請求。 CHISQ對每

10、層作c2檢驗,包括Pearson c2、似然比c2和Mantel-Haenszel c2。此外還給出與c2檢驗有關(guān)的關(guān)聯(lián)指標包括Phi系數(shù)、列聯(lián)系數(shù)和Cramers V。對于22表,給出Fisher精確概率。 AGREE 進行配對c 2檢驗。 EXACT 對大于22的列聯(lián)表計算Fisher精確概率。同時也給出CHISQ選項的全部統(tǒng)計量。,四格表卡方檢驗的SAS程序,MEASURES對每層的二維表計算一系列關(guān)聯(lián)指標及相應(yīng)的標準誤,包括Pearson和Spearman相關(guān)系數(shù),以及Gamma和Kendall系數(shù)等。對于22表,還給出常用的危險度指標及其標準誤。 CMH 給出Cochran-Mant

11、el-Haenszel統(tǒng)計量,可檢驗在調(diào)整了TABLES語句中其它變量后,行變量與列變量之間的關(guān)聯(lián)程度。對于22表,F(xiàn)REQ過程給出相對危險度估計及其可信區(qū)間,還給出各層關(guān)聯(lián)度指標是否齊性的Breslow檢驗。 ALL 給出CHISQ、MEASURES、CMH所請求的全部統(tǒng)計量。 ALPHAp給出檢驗水準。缺省為0.05。,四格表卡方檢驗的SAS程序,EXPECTED給出期望頻數(shù)。 DEVIATION給出每格的實際頻數(shù)與期望頻數(shù)的差值。 CELLCHISQ給出每格對總c2的貢獻,即計算每格的(實際頻數(shù)-期望頻數(shù))2/期望頻數(shù)。 CUMCOL給出累積列百分數(shù)。 NOFREQ不給出列聯(lián)表中的格頻數(shù)

12、。 NOPERCENT不給出列聯(lián)表中的格百分數(shù)。,四格表卡方檢驗的SAS程序,NOROW不給出列聯(lián)表中各格的行百分數(shù)。 NOCOL不給出列聯(lián)表中各格的列百分數(shù)。 NOCUM不給出頻數(shù)表的累積頻數(shù)和累積百分數(shù)。 NOPRINT不給出表格,但給出CHISQ、MEASURES或CMH等語句所指定的統(tǒng)計量。 Trend指令系統(tǒng)對2C頻數(shù)表的C個百分率進行Cochran-Armitage趨勢檢驗; WEIGHT語句:通常每個觀察值提供數(shù)值1給頻數(shù)計數(shù),當WEIGHT語句出現(xiàn)時,每個觀察值提供的是該觀察值的加權(quán)變量值。該值必須非負,但可不必為整數(shù)。只能使用一個WEIGHT語句,且該語句作用于所有的表。,配

13、對計數(shù)資料的卡方檢驗,把每一份樣本平均分成兩份,分別用兩種方法進行化驗,比較此兩種化驗方法的結(jié)果(兩類計數(shù)資料)是否有本質(zhì)的不同;或者分別采用甲、乙兩種方法對同一批病人進行檢查,比較此兩種檢查方法的結(jié)果(兩類計數(shù)資料)是否有本質(zhì)的不同,此時要用配對卡方檢驗。,配對計數(shù)資料的卡方檢驗,現(xiàn)有198份痰標本,每份標本分別用A、B兩種培養(yǎng)基培養(yǎng)結(jié)核菌,結(jié)果如下表。A培養(yǎng)基的培養(yǎng)率為36.36%,B培養(yǎng)基的陽性培養(yǎng)率為34.34%,試問A、B兩種培養(yǎng)基的陽性培養(yǎng)率是否相等?,配對計數(shù)資料的卡方檢驗,本例為配對設(shè)計的計數(shù)資料。計數(shù)資料的配對設(shè)計常用于兩種檢驗方法、培養(yǎng)方法、診斷方法的比較。其特點是對樣本中

14、各觀察單位分別用兩種方法處理,然后觀察兩種處理方法的某兩分類變量的計數(shù)結(jié)果。觀察結(jié)果有四種情況,可整理成表13-4的形式:兩種培養(yǎng)基的培養(yǎng)結(jié)果皆為陽性(a);兩種培養(yǎng)基的培養(yǎng)結(jié)果皆為陰性數(shù)(d);A培養(yǎng)基的培養(yǎng)結(jié)果為陽性,B培養(yǎng)基的培養(yǎng)結(jié)果為陰性(b);A培養(yǎng)基的培養(yǎng)結(jié)果為陰性,B培養(yǎng)基的培養(yǎng)結(jié)果為陽性(d)。,配對計數(shù)資料的卡方檢驗,比較兩法結(jié)果有無差別,要著眼于兩法結(jié)果不一致的部分。表中觀察變量是對子中兩法的差值或差別,由b和c兩格數(shù)據(jù)來反映,總體中與b和c對應(yīng)的數(shù)據(jù)可用B和C表示(a格和d格表示兩法差值為0,不予考慮)。 當40時, 當40時,需作連續(xù)性校正:,行列表資料的2檢驗,前面介

15、紹了兩個樣本率比較的2檢驗方法,其基本數(shù)據(jù)有2行2列,稱為22表或四格表資料。本節(jié)介紹的行列表資料的2檢驗,用于多個樣本率的比較、兩個或多個構(gòu)成比的比較以及雙向有序或無序分類資料的檢驗等。 RC表可以分為雙向無序、單向有序、雙向有序?qū)傩韵嗤碗p向有序?qū)傩圆煌?類。,雙向無序RC表,RC表中兩個分類變量皆為無序分類變量,對于該類資料:若研究目的為多個樣本率(或構(gòu)成比)的比較,可用行列表資料的2檢驗;若研究目的為分析兩個分類變量之間有無關(guān)聯(lián)性以及關(guān)系的密切程度時,可以用行列表資料的2檢驗以及Pearson列聯(lián)系數(shù)進行分析。,單向有序RC表,有兩種形式。一種是RC表中的分組變量是有序的,而指標變量是

16、無序的。此種單向有序RC表資料可用行列表資料的2檢驗進行分析。另一種情況是RC表中的分組變量是無序的,而指標變量是有序的,此種單向有序RC表資料宜用秩和檢驗進行分析。,雙向有序RC表,雙向有序?qū)傩韵嗤腞C表 RC表中的兩分類變量皆為有序且屬性相同。實際上是22配對設(shè)計的擴展,此時宜用一致性檢驗(或稱Kappa檢驗)。 雙向有序?qū)傩圆煌腞C表 RC表中的兩分類變量皆為有序且屬性不相同。對于該類資料,需要分析兩有序分類變量間是否存在線性變化趨勢,宜用有序分組資料的線性趨勢檢驗。,行列均為順序變量的相關(guān)檢驗,變量雖然是有序的,但畢竟還不是定量的,需要給有序變量的各等級賦值方可進行相關(guān)分析。最簡單

17、的賦值法是按順序賦給秩次(即得分),即給行變量的等級賦值1,2,R和給列變量的等級賦值1,2,C。這樣(X,Y)的不同取值就有RC對,表中的RC個頻數(shù)就是這RC對取值所對應(yīng)的頻數(shù),然后計算Spearman秩相關(guān)系數(shù),并作顯著性檢驗,這是比較粗糙的分析方法。,行列均為順序變量的相關(guān)檢驗,Spearman秩相關(guān)分析比較粗糙,這是因為它給有序變量的等級賦值過于簡單,不能最大限度地獲得有序變量之間的相關(guān)信息。而典型相關(guān)分析是在使有序變量的相關(guān)達到極大的前提下給有序變量的各等級賦值,就是對于表的邊緣(指“行合計”與“列合計”)設(shè)法產(chǎn)生一雙變量正態(tài),從而進行相關(guān)分析。因產(chǎn)生各等級的得分值的計算過程中涉及矩

18、陣運算,故手工計算較麻煩,將用SAS程序?qū)崿F(xiàn)統(tǒng)計計算。一旦有了各等級的得分值后,就可運用求維頻數(shù)資料相關(guān)系數(shù)的公式計算了。典型相關(guān)分析可以得出幾個典型相關(guān)系數(shù)R, 與每一個典型相關(guān)系數(shù)對應(yīng)的檢驗為卡方檢驗,其數(shù)值為nR2,其中n為RC表中的總頻數(shù),與第k個卡方值對應(yīng)的自由度dfk=R+C-2k-1。,行列均為順序變量的相關(guān)檢驗,與定量資料的相關(guān)與回歸分析類似,也可對RC表資料中有序變量之間是否存在線性趨勢作顯著性檢驗,通常這兩種檢驗的結(jié)果是基本一致的,即相關(guān)分析結(jié)果顯著,線性趨勢檢驗結(jié)果也顯著??梢酝ㄟ^檢驗實現(xiàn)線性趨勢檢驗,即利用回歸分析思想產(chǎn)生的與線性回歸有關(guān)的卡分量和偏離線性回歸的卡分量。

19、,行列均為順序變量的相關(guān)檢驗,首先計算RC表的值,然后將總的值分解成線性回歸分量與偏離線性回歸分量。若兩分量均具有統(tǒng)計學意義,說明兩分類變量存在相關(guān)關(guān)系,但關(guān)系不是簡單的直線關(guān)系;若線性回歸分量有統(tǒng)計學意義,偏離線性回歸分量無統(tǒng)計學意義時,說明兩分類變量不僅存在相關(guān)關(guān)系,而且是線性關(guān)系。,行列均為順序變量的相關(guān)檢驗,計算 總的值 計算線性回歸分量 回歸 b為回歸系數(shù) 計算偏線性回歸分量 將總的 值分解成線性回歸分量和偏離線性回歸分量。若兩分量均有統(tǒng)計學意義,說明兩分類變量存在相關(guān)關(guān)系,但關(guān)系不是簡單的直線關(guān)系;若線性回歸分量有統(tǒng)計學意義,偏離線性回歸分量無統(tǒng)計學意義時,說明兩變量不僅存在相關(guān)關(guān)

20、系,而且是線性關(guān)系。,本章小節(jié),2檢驗是用途很廣的一種假設(shè)檢驗方法,這里我們主要學習它在分類資料統(tǒng)計推斷中的應(yīng)用,包括:兩個率或兩個構(gòu)成比比較的卡方檢驗;多個率或多個構(gòu)成比比較的卡方檢驗以及分類資料的相關(guān)分析等。 本章第一節(jié)介紹了四格表的普通2檢驗方法,理論頻數(shù)與實際頻數(shù)的定義,2檢驗統(tǒng)計量的計算方法,2分布以及2界值表確定P值的方法。說明了四格表2檢驗的應(yīng)用條件,以及連續(xù)性校正公式和四格表專用公式。通過SAS分析實例演示了四格表2檢驗過程以及結(jié)果解釋。我們需要重點理解2檢驗的含義以及應(yīng)用。掌握2檢驗的應(yīng)用條件以及連續(xù)性校正公式等。,本章小節(jié),RC表可以分為雙向無序、單向有序、雙向有序?qū)傩韵嗤?/p>

21、和雙向有序?qū)傩圆煌?類。雙向無序RC表,RC表中兩個分類變量皆為無序分類變量。若研究目的為多個樣本率(或構(gòu)成比)的比較,可用行列表資料的2檢驗;若研究目的為分析兩個分類變量之間有無關(guān)聯(lián)性以及關(guān)系的密切程度時,可以用行列表資料的2檢驗以及Pearson列聯(lián)系數(shù)進行分析。單向有序RC表有兩種形式:一種是RC表中的分組變量是有序的,而指標變量是無序的,此種單向有序RC表資料可用行列表資料的2檢驗進行分析;另一種情況是RC表中的分組變量是無序的,而指標變量是有序的,此種單向有序RC表資料宜用秩和檢驗進行分析。,本章小節(jié),雙向有序?qū)傩韵嗤腞C表,RC表中的兩分類變量皆為有序且屬性相同,實際上是22配對

22、設(shè)計的擴展,此時宜用一致性檢驗(或稱Kappa檢驗);雙向有序?qū)傩圆煌腞C表,RC表中的兩分類變量皆為有序且屬性不相同,對于該類資料,需要分析兩有序分類變量間是否存在線性變化趨勢,宜用有序分組資料的線性趨勢檢驗。 本章針對不同類型的RC表資料分別予以介紹,并通過實例進行數(shù)據(jù)分析,并通過SAS程序完成統(tǒng)計分析過程,大家在練習不同類型數(shù)據(jù)的分析方法時,掌握常用數(shù)據(jù)分析的SAS程序,并能夠靈活運用。,第14章 非參數(shù)統(tǒng)計,學習目標,了解非參檢驗的優(yōu)缺點及應(yīng)用范圍; 熟息非參數(shù)檢驗幾種基本類型和檢驗的基本方法; 掌握編秩基本步驟,平均秩的計算及相等秩的校正。 配對及單樣本秩和檢驗; 兩組樣本比較的秩

23、和檢驗; 多組樣本比較的秩和檢驗及兩兩比較; 等級分組資料的非參數(shù)檢驗; 隨機區(qū)組設(shè)計資料比較的秩和檢驗及兩兩比較。,概述,比較兩個總體間的差異,我們比較熟悉的是可依據(jù)總體方差是否已知,選擇使用正態(tài)Z檢驗或t檢驗法。但如果有明顯的證據(jù)表明,這些參數(shù)型檢驗法不能使用時又該如何呢?非參數(shù)檢驗法對此提供了解決方案。 作為參數(shù)檢驗的一種推廣,非參數(shù)檢驗有何特點?它的使用有什么樣的要求?本章首先對非參數(shù)檢驗進行概述,接著按照和參數(shù)檢驗對應(yīng)的原則分別介紹用于兩組比較的非參數(shù)檢驗法、用于多組比較的非參數(shù)檢驗法以及等級相關(guān)檢驗(秩相關(guān))。,概述,參數(shù)檢驗是在已知總體分布的條件下(一般要求總體服從正態(tài)分布)對一

24、些主要的參數(shù)(如均值、百分數(shù)、方差、相關(guān)系數(shù)等)進行的檢驗,有時還要求某些總體參數(shù)滿足一定條件。如獨立樣本的檢驗和方差分析不僅要求總體符合正態(tài)分布,還要求各總體方差齊性。 非參數(shù)檢驗則不考慮總體分布是否已知,常常也不是針對總體參數(shù),而是針對總體的某些一般性假設(shè)(如總體分布的位置是否相同,總體分布是否正態(tài))進行檢驗。,概述,非參數(shù)檢驗方法簡便,不依賴于總體分布的具體形式因而適用性強,但靈敏度和精確度不如參數(shù)檢驗。一般而言,非參數(shù)檢驗適用于以下三種情況:順序類型的數(shù)據(jù)資料,這類數(shù)據(jù)的分布形態(tài)一般是未知的;雖然是連續(xù)數(shù)據(jù),但總體分布形態(tài)未知或者非正態(tài),這和卡方檢驗一樣,稱自由分布檢驗;總體分布雖然正

25、態(tài),數(shù)據(jù)也是連續(xù)類型,但樣本容量極小,如10以下(雖然檢驗被稱為小樣本統(tǒng)計方法,但樣本容量太小時,代表性畢竟很差,最好不要用要求較嚴格的參數(shù)檢驗法)。因為這些特點,加上非參數(shù)檢驗法一般原理和計算比較簡單,因此常用于一些為正式研究進行探路的預(yù)備性研究的數(shù)據(jù)統(tǒng)計中。當然,由于非參數(shù)檢驗許多牽涉不到參數(shù)計算,對數(shù)據(jù)中的信息利用不夠,因而其統(tǒng)計檢驗力相對參數(shù)檢驗也差得多。,單組資料的符號及符號秩和檢驗,單樣本資料與已知總體符號秩和檢驗的檢驗步驟如下: 求差值:求樣本資料中單個個體數(shù)據(jù)與總體中位數(shù)的差值。 檢驗假設(shè) H0:差值的總體中位數(shù)等于零,即 H1:差值的總體中位數(shù)不等于零,即 編秩按差值的絕對值

26、由小到大編秩,并按差值的正負給秩次加上正負號。編秩時,若差值為0,舍去不計;若差值的絕對值相等,這時取平均秩次。 求秩和,并確定統(tǒng)計量T將所排的秩次冠以原差數(shù)的符號,分別求出正、負差值秩次之和,分別以T+和 T-表示。,單組資料的符號及符號秩和檢驗,編秩按差值的絕對值由小到大編秩,并按差值的正負給秩次加上正負號。編秩時,若差值為0,舍去不計;若差值的絕對值相等,這時取平均秩次。 求秩和,并確定統(tǒng)計量T將所排的秩次冠以原差數(shù)的符號,分別求出正、負差值秩次之和,分別以T+和 T-表示。,單組資料的符號及符號秩和檢驗,在H0成立時,如果當觀察例數(shù)比較多,正差值的秩和與負差值的秩和理論上應(yīng)相等,即使有

27、些差別,也只能是一些隨機因素造成的。換句話說,如果H0成立,一份隨機樣本中“不太可能”出現(xiàn)正差值的秩和與負差值的秩和相差懸殊的情形;如果樣本的正差值的秩和與負差值的秩和差別太大,我們有理由拒絕H0,接受H1,即認為兩種處理效應(yīng)不同;反之,沒有理由拒絕H0,還不能認為兩種處理效應(yīng)不同。,單組資料的符號及符號秩和檢驗,雙側(cè)檢驗時,以絕對值較小者為統(tǒng)計量T值,即T=min(T+,T-);單側(cè)檢驗時,任取正差值的秩和或負差值的秩和為統(tǒng)計量T。記正、負差值的總個數(shù)為n (即n為差值不等于0的對子數(shù)),則T+與T-之和為n(n+1)/2。 確定P值和作出推斷結(jié)論 查表法(時)查T界值表,若檢驗統(tǒng)計量T值在

28、上、下界值范圍內(nèi),其P值大于相應(yīng)的概率水平;若T值在上、下界值上或范圍外,則P值小于相應(yīng)的概率水平。,單組資料的符號及符號秩和檢驗,正態(tài)近似法(n50時)這時可利用秩和分布的正態(tài)近似法作出判斷。已知H0成立時,近似地有 其中, 統(tǒng)計量的計算公式為:,配對設(shè)計資料的非參數(shù)檢驗,配對設(shè)計有兩種情況:一種是同對的兩個受試對象分別給予兩種處理,目的是推斷兩種處理的效果有無差別。如取同窩別、體重相近的2只動物配對。臨床試驗療效比較時,常將病種、病型、病情及其它影響療效的主要因素一致的病人配成對子,以構(gòu)成配對的研究樣本。另一種是同一受試對象處理前后的比較,目的是推斷該處理有無作用。例如觀察某指標的變化,用

29、同一組病人治療前后作比較;用同一批動物處理前后作比較;或用同一批受試對象的不同部位、不同器官作比較等,也屬于配比試驗。,配對設(shè)計資料的非參數(shù)檢驗,配對設(shè)計資料一般采用配對t檢驗方法進行分析,但若配對數(shù)據(jù)差數(shù)的分布非正態(tài)分布,但其總體分布基本對稱,則可采用符號秩檢驗作為配對t檢驗的替代方法。符號秩檢驗功效很高,在數(shù)據(jù)滿足配對t檢驗的要求時,符號秩檢驗的功效可達配對t檢驗功效的95%。,配對設(shè)計資料的非參數(shù)檢驗,配對設(shè)計資料的檢驗步驟為: 求差值求各對數(shù)據(jù) 的差值 ; 檢驗假設(shè) H0:差值的總體中位數(shù)等于零,即 H1:差值的總體中位數(shù)不等于零,即 編秩按差值的絕對值由小到大編秩,并按差值的正負給秩

30、次加上正負號。編秩時,若差值為0,舍去不計;若差值的絕對值相等,取平均秩次。 求秩和并確定統(tǒng)計量T將所排的秩次冠以原差數(shù)的符號,分別求出正、負差值秩次之和,分別以T+和 T-表示。,配對設(shè)計資料的非參數(shù)檢驗,在H0成立時,如果當觀察例數(shù)比較多,正差值的秩和與負差值的秩和理論上應(yīng)相等,即使有些差別,也只能是一些隨機因素造成的。換句話說,如果H0成立,一份隨機樣本中“不太可能“出現(xiàn)正差值的秩和與負差值的秩和相差懸殊的情形;如果樣本的正差值的秩和與負差值的秩和差別太大,我們有理由拒絕H0,接受H1,即認為兩種處理效應(yīng)不同;反之,沒有理由拒絕H0,還不能認為兩種處理效應(yīng)不同。,配對設(shè)計資料的非參數(shù)檢驗

31、,統(tǒng)計量 雙側(cè)檢驗時,以絕對值較小者為統(tǒng)計量T值,即T=min(T+,T-);單側(cè)檢驗時,任取正差值的秩和或負差值的秩和為統(tǒng)計量T。記正、負差值的總個數(shù)為n (即n為差值不等于0的對子數(shù)),則T+與T-之和為n(n+1)/2。 確定P值和作出推斷結(jié)論。,兩組定量資料的非參數(shù)檢驗,Wilcoxon秩和檢驗,用于推斷計量資料或等級資料的兩個樣本所來自的兩個總體分布是否有差別。在理論上假設(shè)H0應(yīng)為兩個總體分布相同,即兩個樣本來自同一總體。由于秩和檢驗對于兩個總體分布的形狀差別不敏感,對于位置相同、形狀不同但類似的兩個總體分布,推斷不出兩個總體分布有差別,故對立的備擇假設(shè)H1不能認為兩個總體分布不同,

32、而只能為兩個總體分布位置不同。 不管兩個總體分布的形狀有無差別,秩和檢驗的目的是推斷兩個總體分布的位置是否有差別,這正是實踐中所需要的,如要推斷兩個不同人群的某項指標值的大小是否有差別或哪個人群的大,可用其指標值分布的位置差別反映,而不關(guān)心其指標值分布的形狀有無差別。,兩組定量資料的非參數(shù)檢驗,求檢驗統(tǒng)計量T值:把兩樣本數(shù)據(jù)混合從小到大編秩,遇數(shù)據(jù)相等者取平均秩;以樣本例數(shù)小者為n1,其秩和(T1)為T,若樣本例數(shù)相等,可取任一樣本的秩和(T1或T2)為T。 確定P值,作出推斷結(jié)論:當n110和n2- n110時,查T界值表。若T值在界值范圍內(nèi),其P值大于相應(yīng)概率水平;若T值剛好等于界值,其P

33、值等于相應(yīng)概率水平;若T值在界值范圍外,其P值小于相應(yīng)概率水平。 若n110或者n2- n110,超出界值表的范圍,可用正態(tài)近似法作檢驗,令n1n2=N,按下式計算值。,兩組定量資料非參數(shù)檢驗的SAS程序,SAS中對于非參數(shù)分析方法功能的實現(xiàn)主要由npar1way過程來完成,npar1way過程屬于SAS的STAT模塊,對于統(tǒng)計學上所涉及的非參數(shù)統(tǒng)計方法幾乎都可以通過此過程完成。Npar1way過程的基本語句格式如下: PROC NPAR1WAY ; BY 變量名; CLASS變量名; EXACT 統(tǒng)計量選項 ; FREQ變量名; OUTPUT ; VAR 變量名; RUN;,兩組定量資料非參

34、數(shù)檢驗的SAS程序,DATA=數(shù)據(jù)集名:指定要進行分析的數(shù)據(jù)集; MEDIAN:運用中位數(shù)評分進行分析,即進行中位數(shù)檢驗 NOPRINT:禁止所有的輸出,用在僅需要創(chuàng)建輸出數(shù)據(jù)集時; ST:運用Siegel-Tukey評分進行分析; ANOVA:對原始數(shù)據(jù)進行方差分析; EDF:要求計算基于經(jīng)驗分布的統(tǒng)計量; MISSING:指定分組變量的缺失值為一有效的分組水平; SAVAGE:運用Savage評分進行分析; VW:運用Van der Waerden評分進行分析計算;,兩組定量資料非參數(shù)檢驗的SAS程序,CORRECT=NO:在兩樣本時,禁止Wilcoxon和Siegel-Tukey檢驗的連

35、續(xù)性校正過程; KLOTZ:運用Klotz評分進行分析; MOOD:運用Mood評分進行分析; SCORES=DATA:以原始數(shù)據(jù)為評分值進行分析; WILCOXON:對兩樣本進行Wilcoxon秩和檢驗,對多樣本進行Kruskal-Wallis檢驗; exact語句:要求SAS對指定的統(tǒng)計量(選項)進行精確概率的計算。其后的統(tǒng)計量選項可為以下項目,分別對應(yīng)相應(yīng)的統(tǒng)計計算方式。,兩組定量資料非參數(shù)檢驗的SAS程序,AB,KLOTZ,KS,MEDIAN,MOOD,SAVAGE,SCORES=DATA,ST,WILCOXON,VW等。 運算選項為精確概率的計算過程指定一些控制項目,如選項“mc”要求以Monte Carlo方法計算精確概率。 output語句:與其它過程中相應(yīng)的語句大同小異,不同之處在于語句最后的選項。此處的選項絕大多數(shù)包括在表6.1中,指定在輸出數(shù)據(jù)集中包含所指定項目所對應(yīng)的統(tǒng)計量。 var語句:與其它過程的也基本相同,用以指定要進行分析的變量,變量必須為數(shù)值型。若省略此語句,SAS將對除by語句、class語句以及freq語句中指定的變量之外的所有數(shù)值型變量進行分析。,多組定量資料的非參數(shù)檢驗,這一部分的內(nèi)容相當于參數(shù)檢驗中的方差分析,依據(jù)的方法是Kruskal-Wallis秩和檢驗,此方法的基本思

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論