《出版社多元統(tǒng)計(jì)分析》課件-第06章-相關(guān)性度量_第1頁
《出版社多元統(tǒng)計(jì)分析》課件-第06章-相關(guān)性度量_第2頁
《出版社多元統(tǒng)計(jì)分析》課件-第06章-相關(guān)性度量_第3頁
《出版社多元統(tǒng)計(jì)分析》課件-第06章-相關(guān)性度量_第4頁
《出版社多元統(tǒng)計(jì)分析》課件-第06章-相關(guān)性度量_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

多元統(tǒng)計(jì)分析相關(guān)性度量MultivariateStatisticalAnalysis變量的關(guān)系高數(shù)與概率啤酒與尿布身高與體重序號X身高(cm)Y體重(kg)116246216756317560……...991655110018462繪制散點(diǎn)圖直觀上關(guān)系?主要方法分布數(shù)字特征數(shù)字特征第6章相關(guān)性度量6.1相關(guān)性研究的角度6.2相關(guān)性度量的常見方法6.3距離與相似系數(shù)6.4小貼士6.1相關(guān)性研究的角度

一元統(tǒng)計(jì)中,兩個(gè)變量之間的皮爾遜積矩相關(guān)系數(shù),定義為這兩個(gè)變量的協(xié)方差與二者標(biāo)準(zhǔn)差積的商,即那么相關(guān)系數(shù)為什么是如此定義的?以下給出三個(gè)方面的解釋。KarlPearson

(1857-1936)6.1.1不變性

什么是不變性?顧名思義,變化后保持不變的性質(zhì)。由于線性變化最常用,所以我們討論一下線性不變性。1.線性不變性

下面我們考察多元隨機(jī)變量情況。

情況1皮爾遜相關(guān)系數(shù)情況2情況36.1.2阿達(dá)馬不等式(Hadamardinequality)1.阿達(dá)馬不等式這個(gè)不等式在多元統(tǒng)計(jì)學(xué)中有什么作用呢?R2是皮爾遜相關(guān)系數(shù)的平方注:6.1.3判別信息量和熵1.判別信息量注:ClaudeEdwoodShannon(1916-2001)課程網(wǎng)絡(luò)序號高數(shù)X1概率統(tǒng)計(jì)X2線性代數(shù)X3…1989390…2879185…3928987………………999574734…1000736060…Gajewski?,Cho?oniewskiJ,Ho?ystJ.(2016)華沙理工大學(xué)物理學(xué)院:專業(yè)課程間的相關(guān)關(guān)系,課程間相關(guān)系數(shù)矩陣顏色圖挖掘出專業(yè)核心課程等。復(fù)雜網(wǎng)絡(luò)項(xiàng)目研究:2013年北京理科綜合卷的試題網(wǎng)絡(luò)題目數(shù)目生物化學(xué)物理合計(jì)客觀選擇題57820主觀大題34411合計(jì)8111231

案例2:大型超市為了合理放置商品,需要研究賣場中商品之間的關(guān)聯(lián)性。啤酒&尿布相關(guān)性最強(qiáng)!顧客序號牛奶銷售量面包銷售量啤酒銷售量…1***…2***…3***………………相關(guān)系數(shù)商品&商品1*2*3*……某調(diào)查公司數(shù)據(jù)分析之后,關(guān)聯(lián)規(guī)則購物籃竟然發(fā)現(xiàn):

案例3:據(jù)統(tǒng)計(jì),在犯罪現(xiàn)場,足跡是遺留率最高的痕跡物證之一,特別是在室內(nèi)犯罪現(xiàn)場。48小時(shí)的黃金破案時(shí)間,如何根據(jù)足跡快速判斷身高、體型、年齡、性別等重要特征?統(tǒng)計(jì)原理首先,對人體的特征變量進(jìn)行相關(guān)分析,找出與足跡相關(guān)程度強(qiáng)的特征變量。然后,針對找出的特征變量對,進(jìn)行模型分析。例如,標(biāo)準(zhǔn)化身高=標(biāo)準(zhǔn)化足長×

6.875?;貧w:案例3在統(tǒng)計(jì)方法上的擴(kuò)展分位回歸Koenker和Bassett(1978)回歸:男:女:1887年,奧古斯都·沃勒記錄第一份心電圖。“心電學(xué)之父”威廉·艾因特霍芬。案例4:心臟病威脅人類的健康與生活質(zhì)量。心電圖是一種簡便、無創(chuàng)的檢查方法,能較早了解心臟損害情況。正常心電圖時(shí)間tRR1**2**………24**心電散點(diǎn)圖:時(shí)間-RR間期散點(diǎn)圖(t-RR散點(diǎn)圖)Lorenz-RR散點(diǎn)圖(Lorenz散點(diǎn)圖)Lorenz散點(diǎn)圖t-RR散點(diǎn)圖前RR后RR竇性心律tRR12…24后RR前RR室上性早搏:B線斜率在0.18~0.8Lorenz散點(diǎn)圖6.2相關(guān)性度量的常見方法簡單相關(guān)分析偏相關(guān)分析距離相關(guān)分析6.2.1簡單相關(guān)分析1.皮爾遜相關(guān)系數(shù)(Pearsoncoefficient)兩個(gè)隨機(jī)變量的皮爾遜相關(guān)系數(shù)為注1

或者通過標(biāo)準(zhǔn)化以后變量積的均值來定

義,則樣本Pearson相關(guān)系數(shù)為:注2Kendall(1907-1983)6.2.2偏相關(guān)分析1.偏相關(guān)系數(shù)

現(xiàn)實(shí)中,變量之間的相關(guān)關(guān)系是很復(fù)雜的。兩個(gè)變量的簡單相關(guān)分析結(jié)果,在一些情況下無法真實(shí)準(zhǔn)確地反映兩個(gè)變量之間的相關(guān)關(guān)系。比如,研究兒童身高和言語能力的相關(guān)性。由于年齡越高,能力一般越強(qiáng)。年齡越高,身高一般越高。如果不考慮年齡的因素,則會得到兒童身高越高言語能力越強(qiáng)的不準(zhǔn)確結(jié)論。定義6.2.4(偏相關(guān)系數(shù))剔除了一個(gè)變量Z的影響后,兩個(gè)變量X、Y之間的偏相關(guān)系數(shù)為注1在偏相關(guān)分析中,根據(jù)固定變量數(shù)目的多少,可分為零階偏相關(guān)、一階偏相關(guān)、二階偏相關(guān)系數(shù)、…、(p-1)階偏相關(guān)。零階偏相關(guān)就是簡單相關(guān)。

注2偏相關(guān)系數(shù)與簡單相關(guān)系數(shù)區(qū)別:在計(jì)算簡單相關(guān)系數(shù)時(shí):只需要掌握兩個(gè)變量的觀測數(shù)據(jù),并不考慮其他變量對這兩個(gè)變量可能產(chǎn)生的影響。

在計(jì)算偏相關(guān)系數(shù)時(shí):需要掌握多個(gè)變量的數(shù)據(jù),一方面考慮多個(gè)變量相互之間可能產(chǎn)生的影響,一方面又采用一定的方法控制其他變量,考察兩個(gè)變量的凈相關(guān)。6.3距離與相似系數(shù)6.3.1常見距離1.歐式距離(Euclid距離)歐式距離

歐式距離平方(squaredEucliddistance)例6.7

已知三個(gè)城市的三項(xiàng)指標(biāo)(表6.3.1),計(jì)算它們的歐式距離。2.明氏距離(閔氏距離,

Minkowski距離)

優(yōu)點(diǎn):使用較多,易于理解。缺點(diǎn):受變量量綱的影響,沒有考慮各個(gè)分量之間的相關(guān)性。

改變變量單位后,結(jié)果不同。說明歐式距離受到變量的單位影響。

歐式距離是兩點(diǎn)間的直線距離,是生活中默認(rèn)使用的距離。

優(yōu)點(diǎn):幾何意義明確、簡單、易掌握。

缺點(diǎn):各個(gè)分量的貢獻(xiàn)相同。距離受到變量單位(量綱)影響。

故有時(shí)需要對各個(gè)分量加權(quán),或者去掉單位影響,化為統(tǒng)計(jì)距離。續(xù)例6.7

計(jì)算甲(A)、乙(B)兩城市的馬氏距離。4.蘭氏距離(Canberra坎貝拉距離)5.自定義距離(customizeddistance)6.距離矩陣7.相似系數(shù)6.3.2距離分類與數(shù)據(jù)標(biāo)準(zhǔn)化1.距離分類常見的距離通常劃分為:相似性測度(Similarities)和不相似性測度(Dissimilarities)具體分析問題時(shí),要根據(jù)案例情況選擇合適的距離。(1)不相似性測度:通過計(jì)算樣品之間或變量之間的距離來表示,主要有如下三種情況:情況1定距型變量間距離:歐式距離、絕對距離等。

情況3二值變量(Binary-valuedvariables)的距離,主要有:歐氏距離(Euclideandistance)、平方歐氏距離(SquaredEuclideandistance)、LaneandWilliams不相似性測度(LaneandWilliams)等。(2)相似性測度:用來對兩變量之間的相似性進(jìn)行數(shù)量化描述,給出兩變量之間可以定義相似性測度統(tǒng)計(jì)量。定距型變量主要有:Peason相關(guān)系數(shù)、夾角余弦距離(Cosine相關(guān))等。二值變量主要有:簡單匹配系數(shù)(Simplematching)、Jaccard相似性系數(shù)(Jaccard)等20余種。2.數(shù)據(jù)變換方法

為了使不同量綱、不同數(shù)量級的數(shù)據(jù)能放在一起比較。常用的數(shù)據(jù)變換方法有以下幾種:1.相關(guān)性研究歷史2.北郵信息之路附錄:Introduction“若想預(yù)見數(shù)學(xué)的將來,正確的方法是研究它的歷史和現(xiàn)狀”

——龐加萊CharlesRobertDarwin(英國)1809—1882“組織的各個(gè)部分,在一定程度上是相互聯(lián)系或者相關(guān)的?!?1868年)1給出第一個(gè)相關(guān)系數(shù)計(jì)算公式.KarlPearson(英國)1857-1936統(tǒng)計(jì)學(xué)之父FrancisGalton(英國)1822-1911Introduction研究了父母平均身高和成年子女身高的關(guān)系.歷史第一張散點(diǎn)圖(1885年)

北郵校訓(xùn)莫爾斯編碼厚德博學(xué)敬業(yè)樂群莫爾斯電碼由法國人莫爾斯于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論