營銷研究8第八章相關性分析_第1頁
營銷研究8第八章相關性分析_第2頁
營銷研究8第八章相關性分析_第3頁
營銷研究8第八章相關性分析_第4頁
營銷研究8第八章相關性分析_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

營銷研究8第八章相關性分析第八章相關性分析第一節(jié)相關系數第二節(jié)獨立性檢驗第三節(jié)樣本分布與總體分布的一致性檢驗4/24/20232相關性分析營銷研究中經常討論兩個變量之間的相關性問題。根據它們的相關性結論,可以制定相應的對策。如:研究某地區(qū)市民對戒煙令的態(tài)度。抽樣調查434名市民,詢問他們的抽煙狀況和對戒煙令的看法。結果如下 對戒煙令的態(tài)度 總計 抽煙狀況 認可 不認可 無所謂 從未吸過 237 3 10 250 以前吸過 106 4 7 117 現(xiàn)在還吸 24 32 11 67 總計 367 39 28 434 對吸煙的人,可能還需要其他措施。4/24/20233第一節(jié)相關系數相關系數是反映兩個變量之間的相關性及相關程度的一個系數。有代表性的相關系數主要有:兩個類別變量的相關系數兩個量值變量的相關系數兩個順序變量的相關系數類別變量和量值變量的相關系數4/24/20234兩個量值變量的相關系數在一次抽樣調查中會得到兩組量值數據,如調查消費者的年收入和每年用于旅游的支出。并在分析中要分析這兩組量值數據的相關性,如旅游支出是否與年收入有關。我們把這兩組數據的相關性也叫兩個量值變量的相關性。設一個變量為x,另一個變量為y,如年收入為x,年旅游支出為y,對n個樣本(消費者)的調查,得到一組兩變量的數據(x1,y1)、(x2,y2)、……(xn,yn)。通過這一組數據,我們可以計算變量x,變量y的相關系數。公式如下:r=(xi–x)(yi–y)(xi–x)2(yi–y)2CORREL函數4/24/20235舉例隨機抽樣調查了15名消費者,得到他們的年收入和年旅游花費的數據如下:年收入x年旅游花費y編號123456789101112131415單位:萬元5.42.31.60.80.92.80.73.41.82.710.34.23.50.91.80.10.050.8000.0200.40.050.10.40.20.0800x=2.87y=0.15(xi–x)(yi–y)=2.63(xi–x)2=85.07

(yi–y)2=0.71r=(xi–x)(yi–y)(xi–x)2(yi–y)2=2.6385.070.71=0.344/24/20236相關系數的幾何解釋xi-x反映了在x軸上xi至x的距離,yi-y則反映了在y軸上yi至y的距離,(xi-x,yi-y)則反映的是在兩維平面上,(xi,yi)至(x,y)的相對位置。不妨設xi=xi-x,yi=yi-y,則(xi,yi)是到原點的相對位置。xiyi的符號“+”、“-”,反映了(xi,yi)在平面坐標中的哪個象限。比如,xiyi的符號為正表示(xi,yi)在第一或第三象限。如果xiyi為正,則表示(xi,yi)的大部分在第一或第三象限,反映了x和y的一致變化。因此,xiyi可作為x和y傾向于一致變化的一個度量。如果(xi,yi)散亂地分布在坐標的四個象限內,則不具有沿第一和第三象限或第二和第四象限一致變化,即不具有相關性,而且由于xiyi中的xiyi相互抵消而趨于零。4/24/20237相關系數的一些結論|r|1如果對變量做線性變換,則變換后的變量之間的相關系數的絕對值不變相關系數只度量了兩個變量之間的線性相關程度,r=0表示線性不相關,|r|越大表示線性相關程度也越大。r=0表示兩個變量線性不相關,但不表示它們一定不相關。兩個變量之間相關并不能說明它們有因果關系4/24/20238結論的證明1、證明|r|1:記ai=xi–x,bi=yi–y|aibi|2=ai2

bi2+2aibiajbjai2

bi2+(ai2

bj2+aj2

bi2)

=(ai2)(bi2)ijij|aibi|2(ai2)(bi2)1|aibi|(ai2)(bi2)1|r|14/24/20239結論的證明2、證明|ruv|=|rxy|,設ui=axi+bvi=cyi+d則ui-u=axi+b-(ax+b)=a(xi-x)vi-v=cyi+d-(cy+d)=c(yi-y)|ruv|=(ui-u)(vi-v)(ui-u)2(vi-v)2=ab(xi-x)(yi-y)

a2b2(xi-x)2(yi-y)2=|rxy|4/24/202310結論的證明3、設有一組數據是(1,1)、(1,-1)、(-1,1)、(-1,-1),則它們的相關系數是零,即它們不是線性相關的。但它們是某種相關,滿足,x2+y2=24、設有一組數據是調查小學生考試的成績和他們的身高獲得的數據,結果得到的相關系數是接近于1,但成績和身高顯然不具有因果關系。4/24/202311兩個類別變量的相關系數對于兩個類別變量的交叉統(tǒng)計可得到一張關于這兩個變量的交叉頻數列表,通過交叉列表可以計算這兩個變量之間的相關系數。例,對1990年《亞運會》的調查資料統(tǒng)計,得到如下關于北京市被調查者的教育和性別之間的交叉列表:性別變量x和教育程度變量y的交叉列表性別頻數教育男女總計總計未回答358大專及以上197150347初中185178363高中或中專208211419小學及以下41428363458612204/24/202312—相關系數相關系數又稱Guttman預測系數,能夠測量兩個類別變量間的相關系數。如果變量x與y是對稱的,即無所謂誰是自變量,誰是因變量,則它們的相關系數如下:=mx+

my-(Mx+

My)

2n-(Mx+

My)如果變量x與y是不對稱的,假設x是自變量,y是因變量,則有:=my-Myn-My4/24/202313參數說明Mx=x變量中的最大頻數My=y變量中的最大頻數my=x變量取固定類別值時,y變量中的最大頻數mx=y變量取固定類別值時,x變量中的最大頻數n=樣本量4/24/202314舉例亞運會北京市民的調查,計算教育與性別的相關系數,數據如前面的表。性別頻數教育男女總計總計未回答358大專及以上197150347初中185178363高中或中專208211419小學及以下4142836345861220My=419Mx=634my(男)

=208my(女)

=211mx(未回答)=5mx(大專及以上)=197mx(高中或中專)=211

mx(初中)=185mx(小學及以下)=424/24/202315舉例解:解:My=419Mx=634my(男)

=208my(女)

=211mx(未回答)=5mx(大專及以上)=197mx(高中或中專)=211

mx(初中)=185mx(小學及以下)=42,如果把x與y看成是對稱的,則有=mx+

my-(Mx+

My)

2n-(Mx+

My)=640+419-(419+634)21220-(419+634)0.004如果把與y看成是不對稱的,x是自變量則有=my-Myn-My=419-4191220-419=04/24/202316—相關系數這一相關系數主要測量不對稱的兩個類別變量x與y的相關程度。如果x是自變量,y是因變量,則它們的相關系數是y=f(x)2fx–

nfy2nnfy2–

其中,f(x)=交叉匯總表中固定x變量的y變量頻數(共有s行t列)fx=交叉匯總表中x變量的頻數(共有t個)fy=交叉匯總表中y變量的頻數(共有s個)4/24/202317舉例同上例,求y系數解:y=f(x)2fx–nfy2nnfy2–

=fx=32+1972+2082+1852+412634+52+1502+2112+1782+422586=357.59=nfy2f(x)282+3472+4192+3632+8321220=356.30357.59–356.301220–356.300.0015注:—相關系數應用了所有交叉匯總的頻數,測量效果比—相關系數好4/24/202318兩個順序變量的相關系數Spearman等級(秩)相關系數:它適合于測量兩個對稱的順序變量的相關系數。在計算相關系數之前需要先將對x、y的測量值換算成順序排列值秩1、2、3…、s。當然,如果x、y已經用秩表示時,則可直接計算。計算公式如下:10、如果不存在等值項時,相關系數為:R=1–6D2n(n2–1)20、如果較多的存在等值項時,相關系數為:R=n(n2–1)–6D2–—(cx+cy)12n(n2–1)–cxn(n2–1)–cy4/24/202319參數說明其中:D=x的秩與對應y的秩之差(滿足D=0)

cx=(di3

–di),它是對x的所有等值組求和,即求和i從1到所有等值組數t,di表示第i個等值組的重復數cy=(ej3

–ej),它是對y的所有等值組求和,ej表示第j個等值組的重復數n=樣本量比如:x的秩是1、2.5、2.5、4、5、6.25、6.25、6.25、6.25、10,則cx=(di3

–di)=(23–2)+(43–4)4/24/202320舉例某地舉行選美大賽,有10位佳麗參賽,評委對她們的容貌和才智進行打分。數據如下:參賽者12345678910總計n=10容貌x99957960935040863554

才智y20109080308870409558

x秩10965832714y秩21973864105

D88-3-25-5-43-9-1D=0

D26464942525169811D2=298

問參賽者的容貌打分與才智打分是否相關?先將打分值換算成兩個變量的秩,由于x和y的秩中不存在等值項,故用公式10

R=1–6D2n(n2–1)=1–629810(100–1)=–0.806分析結論:x和y反向相關,容貌較差的傾向于有較高的才智4/24/202321舉例隨機調查電視觀眾對15個電視劇進行評價,評價它們的“娛樂性”x和“藝術性”y,下面是樣本總體對“娛樂性”x和“藝術性”y排序后的秩參賽者123456789101112131415總計n=10

x秩321785461415129101113y秩1234.54.56789.59.51112131415

D20-22.53.5-1-3-24.55.51-3-3-3-2D=0

D24046.2512.2519420.2530.2519994D2=123求娛樂性”x和“藝術性”y的相關系數由于y變量存在兩個等值組4.5、4.5,9.5、9.5,故采用公式20解:n=15D2=123cx=0cy=(23-2)+(23-2)=12R=n(n2–1)–6D2–—(cx+cy)12n(n2–1)–cxn(n2–1)–cy0.784/24/202322類別變量與數值變量的相關系數相關比例E2也稱為eta平方系數,主要針對自變量為類別變量,因變量為數值變量的相關性測定。計算公式為:E2=(Y-Y)2-(Y-Yi)2(Y-Y)2其中,Y=自變量x=xi時,因變量Y的平均值Y=全樣本的Y的平均值,一般在實際計算時,還可以將以上公式變成更簡潔的形式:E2=niYi2-nY2Y2-nY2或E=E2其中,ni是自變量的樣本數,n是總的樣本數。4/24/202323舉例隨機調查三種不同的家庭背景的20名學生的英語成績,試求家庭背景與英語成績的關系。數據如下:知識分子家庭工人家庭農民家庭7885819084867058516362597178848174758081n1=6n2=7n3=7Y1=84Y2=62Y3=794/24/202324舉例的解niYi2=6×842+7×622+7×792=112931Y=6×84+7×62+7×796+7+7=74.5nY2=20(74.5)2=111154.05Y2=782+852+…+802+812=113385E2=112931-111154.05113385-111154.05≈0.796E=√E2=0.8924/24/202325第二節(jié)獨立性檢驗類別變量的獨立性檢驗不同總體分布相同性的檢驗4/24/202326類別變量的獨立性檢驗對于樣本中的兩個類別變量交叉分析后,發(fā)現(xiàn)有些規(guī)律性,據此能否推斷總體的這兩個類別變量是相關的呢?設n個樣本的兩個類別變量x、y的交叉匯總的結果如下:yx頻數類別1類別j類別t總計類別1類別i類別s總計nc11………c1j………c1tci1………cij………citcs1………csj………cstc1*ci*cs*c*1………c*j………c*t其中,cij表示x中類i,y中類j的交叉匯總的頻數(觀察值),ci*表示x中類i的頻數,c*j表示y中類j的頻數。4/24/202327類別變量的獨立性檢驗方法首先確定變量x和變量y的概率分布和,如果變量x和y相互獨立的話,那么由概率論知,兩變量(x、y)的(i、j)期望頻數Eij

=n=ci*c*j。因為,如果事件x的類別i和事件y的類別j獨立的話,則有事件x的類別i和事件y的類別j同時發(fā)生的概率ci*nnc*jci*nc*j

n1

ncijn=ci*nc*j

n即,P(事件x的類別i和事件y的類別j同時發(fā)生)=P(事件x的類別i)P(事件y的類別j),所以cij=n=ci*c*j。因此,由期望頻數Eij

和cij相差很小,則推斷事件x的類別i和事件y的類別j幾乎獨立。ci*nc*j

n1

n4/24/202328類別變量的獨立性檢驗方法(續(xù))由此可見,如果所有cij和Eij差異之和都很小,即這種差異只是樣本引起的,那么,變量x和變量y的獨立性是可以接受的。由統(tǒng)計學理論知:2=(cij-Eij)2Eij滿足自由度為(s-1)(t-1)的2—分布,即2值大于一個比較大的值的概率是很小的。我們可以用2—分布來檢驗變量x和變量y的獨立性4/24/202329類別變量的獨立性檢驗步驟

原假設H0:變量x和y獨立研究假設H1:變量x和y不獨立檢驗統(tǒng)計量:2=(cij-Eij)2Eij查顯著性水平,自由度df=(s-1)(t-1)的2—分布值2,比較2和2,若2>2,原假設H0不能接受,反之,接受原假設H0。4/24/202330舉例例、研究某地區(qū)市民對戒煙令的態(tài)度。抽樣調查434名市民,詢問他們的抽煙狀況和對戒煙令的看法。結果如下原假設H0:抽煙狀況與對戒煙令的態(tài)度獨立研究假設H1:抽煙狀況與對戒煙令的態(tài)度相關顯著性水平=0.05,2值等于166.8,查自由度df=(t-1)(s-1)=4,=0.05的20.05等于9.488。2>20.05,故拒絕原假設H0。 對戒煙令的態(tài)度 總計 抽煙狀況 認可 不認可 無所謂 從未吸過 237 3 10 250 以前吸過 106 4 7 117 現(xiàn)在還吸 24 32 11 67 總計 367 39 28 434 4/24/202331不同總體分布相同性的檢驗假設有從若干個總體中各自隨機抽取的樣本組{x1…xi…xm},{y1…yj…yn},{z1…zk…zr},它們對于某類別變量及類別分類有各自的頻數分布。我們要討論的是這些總體對于這個類別變量的頻數分布是否相同。討論的方法也是2檢驗。設它們的分布結果如下表:總體變量頻數X

YZ總計類別1類別i類別s總計m+n+rc1xc1yc1zcixciycizcsxcsycszc1*ci*cs*c*xc*yc*z4/24/202332不同總體分布相同性檢驗方法如果這些不同總體分布相同的話,則以上表中的分布接近如下的期望分布:總體變量頻數X

YZ總計類別1類別i類別s總計m+n+rE1xE1yE1zEixEiyEizEsxEsyEszc1*ci*cs*c*xc*yc*z其中:Eix=

m+n+rc*xci*Eiy=

m+n+rc*yci*Eiz=

m+n+rc*zci*4/24/202333不同總體分布相同性檢驗步驟由統(tǒng)計學理論知,不同總體分布相同的話,2=(cix-Eix)2Eix+(ciy-Eiy)2Eiy+(ciz-Eiz)2Eiz滿足自由度df=(s-1)(3-1)的2—分布。這里的“3”是總體個數。檢驗方法如下:檢驗統(tǒng)計量:查顯著性水平,自由度df=(s-1)(3-1)的2—分布值2,比較2和2,若2>2,原假設H0不能接受,反之,接受原假設H0。原假設H0:總體X、Y、Z分布相同研究假設H1:總體X、Y、Z分布不相同2=(cix-Eix)2Eix+(ciy-Eiy)2Eiy+(ciz-Eiz)2Eiz4/24/202334舉例比較英、加、美、三國20~24歲婦女體重等級的分布狀況。體重等級分類為瘦小、正常、超重、過度肥胖,體重標準是體重(公斤)除以身高(米)的平方。小于20公斤/米2為瘦小,20公斤~25公斤/米2為正常,25公斤~30公斤/米2為超重,30公斤以上/米2為肥胖。假設分別隨機抽取英國、加拿大、美國20~25歲的婦女人數為547、873、和624,并得以下數據:體重分類英國加拿大美國總計總計5478736242044瘦小126297156579正常3064983491153超重886175224肥胖271744884/24/202335舉例解原假設H0:英、加、美三國20~24婦女體重分布相同研究假設H1:英、加、美三國20~24婦女體重分布不相同查顯著性水平=0.05,期望分布如下表:體重分類英國加拿大美國總計總計5478736242044瘦小154.9247.3176.8579正常308.6492.5351.91153超重59.995.768.4224肥胖23.637.526.9882=67.1,自由度為(4-1)(3-1)=6,20.05=12.5916,故英、加、美三國20~24婦女體重分布不相同4/24/202336第三節(jié)樣本分布與總體分布一致的檢驗對于類別變量,如果已知總體的分布G,從總體中抽取的樣本分布g,在研究中需要推斷這兩個分布是否一致。假設一個類別變量y有k個類別,已知總體針對這一類別變量的分布G:P{i=j},j=1、2……k,P{i=j}是指總體中具有第j類別特征的個體所占的百分比。樣本針對這一類別變量的分布g:p{i=j},j=1、2……k,p{i=j}是指樣本中具有第j類別特征的樣本個體所占的百分比。現(xiàn)在需要分析G=g是否成立?由于確切的比較它們的相等比較困難,為此,我們通過假設檢驗進行分析,即對于假設G=g是否可接受。這種分析還可以確定樣本是否從總體隨機抽取,即樣本是否有代表性。4/24/2023372

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論