第七章 屬性數(shù)據(jù)分析與FREQ過程_第1頁
第七章 屬性數(shù)據(jù)分析與FREQ過程_第2頁
第七章 屬性數(shù)據(jù)分析與FREQ過程_第3頁
第七章 屬性數(shù)據(jù)分析與FREQ過程_第4頁
第七章 屬性數(shù)據(jù)分析與FREQ過程_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第七章屬性數(shù)據(jù)分析與FREQ過程屬性數(shù)據(jù)簡介在一個有三個主要大型商場的商貿(mào)中心,調(diào)查476個不同年齡階段的人首先去三個商場中的哪一個。

我們看到市場調(diào)查表中,所得到的信息一般是被調(diào)查對象的分類信息,而不是定量變量的具體值。

從例子中我們看到對觀測對象通過商場和調(diào)查對象的年齡段進行了分類,得到一個二維表格。

那么從這個數(shù)據(jù)我們是否能看出顧客的年齡段與他所去的商場有聯(lián)系嗎?為了了解廣告是否對消費者產(chǎn)生影響,某廣告公司在某地區(qū)連續(xù)廣告一個月,和在沒有進行廣告宣傳的地區(qū)分別隨機抽取了100名消費者(實際的或潛在的)進行問卷調(diào)查,得到下表:已購買打算購買不打算購買看過廣告60337沒看過廣告154035變量的類型

按類型可以分為:字符型和數(shù)值型,按測量水平可以分為:區(qū)間型和名義型。

數(shù)值變量就是能用數(shù)字來計量的變量;而不能用數(shù)字來計量的變量則稱為字符型變量,也稱為屬性變量。

區(qū)間型變量是指變量的取值可以為一個連續(xù)的數(shù)值區(qū)間,又可分為比率變量和間隔變量。名義型變量是指變量本身本質(zhì)上不能用數(shù)值表示,用數(shù)字沒有真正意義,又可分為分類變量和有序變量。

按類型可以分為:字符型和數(shù)值型,按測量水平可以分為:區(qū)間型和名義型。分類變量和有序變量統(tǒng)稱為屬性變量,也稱字符型變量或定性變量。間隔變量和比率變量則稱為數(shù)值型變量,也稱為定量變量或連續(xù)型變量

分類變量和有序變量統(tǒng)稱為屬性變量,有時也稱為字符型變量或定性變量;一般在屬性數(shù)據(jù)分析中需要解決:

而間隔變量和比率變量則稱為數(shù)值型變量,有時也稱為定量變量或連續(xù)變量。

對屬性變量進行的數(shù)據(jù)分析稱為屬性數(shù)據(jù)分析。(1)產(chǎn)生匯總分類數(shù)據(jù)——頻數(shù)表;(2)屬性變量之間的獨立性檢驗;(3)在屬性變量之間存在關(guān)聯(lián)的情況下,計算他們之間的關(guān)聯(lián)系數(shù)。屬性數(shù)據(jù)分析中一些常見概念與檢驗統(tǒng)計量

雙向表(二維表)由兩個屬性變量交叉分組所得到的表。

多向表(多向交叉表或多維表)由兩個以上屬性變量構(gòu)成的表。

單向表(一維表)由一個屬性變量進行分組構(gòu)成的表。

雙向表無關(guān)聯(lián)性檢驗的統(tǒng)計量

雙向表中行變量與列變量相關(guān)性的檢驗行列變量都是有序變量時主要功能FREQ過程是SAS系統(tǒng)中用于屬性數(shù)據(jù)分析的主要過程之一,可以生成單向到N向的頻率表和交叉表。對于雙向表(二維表),該過程計算檢驗統(tǒng)計量和關(guān)聯(lián)度。對于N向表,該過程進行分層分析,計算每一層和交叉層的統(tǒng)計量。FREQ過程FREQ過程的一般格式PROCFREQ

<option-list>;BYvariable-list;TABLESrequest-list</option-list>;WEIGHTvariable;OUTPUT<OUT=sas-data-set><output-statistic-list>;FREQ過程語句說明:(1)TABLES語句:一般格式:TABLESrequest-list</option-list>;若沒有任何選項,則對tables語句中規(guī)定的變量的每個水平計算頻數(shù),累計頻數(shù),占總頻數(shù)的百分比及累計百分數(shù)。

FREQ過程中可包含任意多個TABLES語句

若沒有TABLES語句,則生成輸入數(shù)據(jù)集中每個變量的單向頻數(shù)表tables(abc)*d;等價于tablesa*db*dc*d;多項表由多個變量用星號連接產(chǎn)生如tablesx1*x2*x3;簡潔表示形式:tablesa—d;等價于tablesabcd;tables(ab)*(cd);等價于tablesa*ca*db*cb*d;tablesa*(bc);等價于tablesa*ba*c;request-list:制表要求單向表由單個變量產(chǎn)生如tablesabc;雙向交叉表用一個“*”

連接兩個變量產(chǎn)生

如tablesa*b;</option-list>常見類型:(1)ALL:求所有由CHISQ,MEASURES和CMH選項給出的檢驗和度量;(2)CHISQ:要求對每層的齊性或獨立性進行(3)CMH:計算Cochran-Mantel-Haenszel統(tǒng)計量,用于2維以上表檢驗行、列變量的相關(guān)。(4)EXACT:對于大于2×2維表進行Fisher精確檢驗。(5)MEASURES:計算相關(guān)度量和它們的漸進標準差。(6)ALPHA=P值:OUT=sas-data-set:規(guī)定輸出數(shù)據(jù)集的名字output-statistic-list:輸出統(tǒng)計量列表可用的統(tǒng)計量是有PROCFREQ產(chǎn)生的關(guān)于雙向交叉表的統(tǒng)計量及概括性統(tǒng)計量。(2)WEIGHTvariable:每個觀測對頻數(shù)為對應(yīng)權(quán)數(shù)變量的值。(3)OUTPUT語句:一般格式:OUTPUT<OUT=sas-data-set><output-statistic-list>;創(chuàng)建一個包含有PROCFREQ計算的統(tǒng)計量的SAS數(shù)據(jù)集。nocolnorow要求不輸出行、列百分比應(yīng)用舉例例7.1廣告是否會顯著影響消費者的購買意向dataads;inputad$plan$number;cards;看過已買60看過打算買33看過沒打算買7沒看過已買25沒看過打算買40沒看過沒打算買35;procfreq;tablesad*plan/chisqnocolnorow;weightnumber;run;輸出1按是否看過廣告和購買意向分組的消費者分布情況由卡方統(tǒng)計量,似然比卡方,以及M-H卡方統(tǒng)計量值對應(yīng)概率都小于0.05,從而在0.05的顯著性水平下有行列不獨立,即廣告對消費者的購買意向有顯著影響。輸出2廣告是否會顯著影響消費者購買意向檢驗結(jié)果

且由Phi系數(shù)、Cramer的V系數(shù)為0.4108,列聯(lián)系數(shù)為0.38可知這種影響是正向的,即看過廣告的消費者更可能購買。例7.2顧客年齡段對首先去的商場的影響

dataclient;doi=1to3;doj=1to3;inputf@@;output;end;end;cards;807045918615413810;run;procfreq;weightf;tablesi*j/expectedchisqnocolnorownopercentexact;run;其中用i=1,2,3分別表示顧客的年齡段為≤30,31~50,>51;用j=1,2,3分別表示顧客首先去的商場為商場1,商場2,商場3。

)例7.2顧客年齡段對首先去的商場的影響

dataclient;doi=1to3;doj=1to3;inputf@@;output;end;end;cards;807045918615413810;run;procfreq;weightf;tablesi*j/expectedchisqnocolnorownopercentexact;run;Expected要求給出期望頻數(shù)Chisq

進行卡方檢驗Exact

進行Fisher精確檢驗Norow,nocol,nopercent

不要求輸出行、列及累計百分比輸出7.2(A)顧客年齡和首選商場分布情況由卡方統(tǒng)計量,似然比卡方,以及M-H卡方統(tǒng)計量值對應(yīng)概率都小于0.05,從而在0.05的顯著性水平下有行列不獨立,即不同年齡段顧客對商場是有選擇的。Fisher精確檢驗也說明了這一點(雙側(cè)檢驗的P值8.333E-04遠小于0.05)。輸出7.2(B)顧客年齡段是否會顯著影響首選商場檢驗結(jié)果由于顧客年齡段和商場編號都是有序變量,故可利用Gamma(-0.1481)、Tau-b(-0.0930)、Tau-c(-0.0870)和Spearman(-0.1024)等級相關(guān)系數(shù)計算兩者之間的關(guān)系,以上數(shù)值都是負的,表明兩變量之間的關(guān)系是負相關(guān)的,即隨著年齡的增大,會更傾向選擇序號低的商場。輸出7.2(C)顧客年齡段與商場編號之間的相關(guān)系數(shù)下表記錄了某公司過去3個月中的顧客信息,包括顧客的性別、月收入、消費水平。試根據(jù)此表完成以下工作:(1)檢驗顧客月收入的高低是否顯著影響顧客的消費水平,給出兩者之間的關(guān)聯(lián)系數(shù);(2)以性別作為分層變量生成消費水平與顧客月收入之間的雙向交叉表,并分析比較男女顧客收入高低人群的購買行為。表見P253例7.3顧客年齡段是否會顯著影響首選商場檢驗結(jié)果datacustomer;inputincomepurchasesex$number@@;cards;00m3500f5501m801f3410m5810f4011m1511f3120m3720f4421m3821f36;procfreq;tablespurchase*income/chisqmeasurenorownocolnopercent;tablessex*income*purchase/chisqexpectednorownocol;weightnumber;run;Income收入,0,1,2分別代表低收入、中等收入和高收入Purchase消費水平,0,1分別代表消費額低于300元和消費額高于300元及以上tablespurchase*income/chisqmeasurenorownocolnope

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論