版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2025年大學(xué)統(tǒng)計(jì)學(xué)期末考試題庫——多元統(tǒng)計(jì)分析核心概念與實(shí)驗(yàn)試題考試時(shí)間:______分鐘總分:______分姓名:______一、單項(xiàng)選擇題(本大題共20小題,每小題1分,共20分。在每小題列出的四個(gè)選項(xiàng)中,只有一個(gè)是符合題目要求的,請將正確選項(xiàng)的字母填在題后的括號內(nèi)。)1.在多元統(tǒng)計(jì)分析中,用來衡量多個(gè)變量之間線性關(guān)系強(qiáng)度的統(tǒng)計(jì)量是()A.相關(guān)系數(shù)B.偏相關(guān)系數(shù)C.決定系數(shù)D.復(fù)相關(guān)系數(shù)2.當(dāng)我們想要將多個(gè)變量降維到較低維度的空間時(shí),通常使用的方法是()A.主成分分析B.因子分析C.聚類分析D.判別分析3.在多元回歸分析中,用來檢驗(yàn)整個(gè)回歸模型是否顯著的統(tǒng)計(jì)量是()A.t統(tǒng)計(jì)量B.F統(tǒng)計(jì)量C.R平方D.標(biāo)準(zhǔn)誤差4.下列哪一項(xiàng)不是多元統(tǒng)計(jì)分析中常用的距離度量方法()A.歐氏距離B.曼哈頓距離C.切比雪夫距離D.皮爾遜相關(guān)系數(shù)5.在聚類分析中,用來衡量聚類效果好壞的指標(biāo)是()A.輪廓系數(shù)B.調(diào)整后的蘭德指數(shù)C.卡方統(tǒng)計(jì)量D.相關(guān)系數(shù)6.多元線性回歸模型中,自變量之間存在高度相關(guān)性的問題是()A.異方差性B.自相關(guān)性C.多重共線性D.非線性關(guān)系7.下列哪一項(xiàng)不是主成分分析中的常用方法()A.協(xié)方差矩陣分解B.特征值分解C.SVD分解D.K-Means聚類8.在判別分析中,用來衡量不同類別之間差異的統(tǒng)計(jì)量是()A.距離平方和B.離散度C.F統(tǒng)計(jì)量D.Mahalanobis距離9.多元統(tǒng)計(jì)分析中,用來檢驗(yàn)多個(gè)均值向量是否相等的方法是()A.單因素方差分析B.多元方差分析C.Kruskal-Wallis檢驗(yàn)D.Mann-WhitneyU檢驗(yàn)10.在因子分析中,用來衡量因子解釋能力的統(tǒng)計(jì)量是()A.因子載荷B.公共因子方差C.因子旋轉(zhuǎn)系數(shù)D.解釋方差比11.多元統(tǒng)計(jì)分析中,用來衡量數(shù)據(jù)點(diǎn)與聚類中心之間距離的方法是()A.平均linkageB.完全linkageC.離差平方和D.系統(tǒng)聚類12.在回歸分析中,用來檢驗(yàn)自變量系數(shù)是否顯著的統(tǒng)計(jì)量是()A.t統(tǒng)計(jì)量B.F統(tǒng)計(jì)量C.R平方D.標(biāo)準(zhǔn)誤差13.多元統(tǒng)計(jì)分析中,用來衡量多個(gè)變量之間非線性關(guān)系的方法是()A.多項(xiàng)式回歸B.邏輯回歸C.神經(jīng)網(wǎng)絡(luò)D.決策樹14.在判別分析中,用來衡量樣本點(diǎn)屬于某個(gè)類別的概率的方法是()A.貝葉斯分類器B.邏輯回歸C.決策樹D.支持向量機(jī)15.多元統(tǒng)計(jì)分析中,用來檢驗(yàn)多個(gè)協(xié)方差矩陣是否相等的方法是()A.Box'sM檢驗(yàn)B.Levene檢驗(yàn)C.Shapiro-Wilk檢驗(yàn)D.Kolmogorov-Smirnov檢驗(yàn)16.在主成分分析中,用來衡量主成分之間方差貢獻(xiàn)的方法是()A.特征值B.方差解釋比C.因子載荷D.因子旋轉(zhuǎn)系數(shù)17.多元統(tǒng)計(jì)分析中,用來衡量聚類結(jié)果穩(wěn)定性的方法是()A.輪廓系數(shù)B.調(diào)整后的蘭德指數(shù)C.穩(wěn)定性指數(shù)D.熵18.在回歸分析中,用來檢驗(yàn)殘差是否存在自相關(guān)性的方法是()A.Durbin-Watson檢驗(yàn)B.Breusch-Godfrey檢驗(yàn)C.White檢驗(yàn)D.Jarque-Bera檢驗(yàn)19.多元統(tǒng)計(jì)分析中,用來衡量變量之間相關(guān)性的方法是()A.相關(guān)系數(shù)B.偏相關(guān)系數(shù)C.復(fù)相關(guān)系數(shù)D.半偏相關(guān)系數(shù)20.在判別分析中,用來衡量樣本點(diǎn)與類別中心之間距離的方法是()A.Mahalanobis距離B.距離平方和C.離散度D.F統(tǒng)計(jì)量二、多項(xiàng)選擇題(本大題共10小題,每小題2分,共20分。在每小題列出的五個(gè)選項(xiàng)中,有多項(xiàng)是符合題目要求的,請將正確選項(xiàng)的字母填在題后的括號內(nèi)。)1.下列哪些方法可以用于數(shù)據(jù)降維()A.主成分分析B.因子分析C.聚類分析D.判別分析E.線性回歸2.多元統(tǒng)計(jì)分析中,下列哪些方法可以用來檢驗(yàn)多個(gè)均值向量是否相等()A.單因素方差分析B.多元方差分析C.Kruskal-Wallis檢驗(yàn)D.Mann-WhitneyU檢驗(yàn)E.Hotelling'sT平方檢驗(yàn)3.下列哪些方法可以用來衡量聚類效果()A.輪廓系數(shù)B.調(diào)整后的蘭德指數(shù)C.卡方統(tǒng)計(jì)量D.輪廓分析E.熵4.多元統(tǒng)計(jì)分析中,下列哪些方法可以用來衡量變量之間相關(guān)性()A.相關(guān)系數(shù)B.偏相關(guān)系數(shù)C.復(fù)相關(guān)系數(shù)D.半偏相關(guān)系數(shù)E.相關(guān)系數(shù)矩陣5.在回歸分析中,下列哪些方法可以用來檢驗(yàn)自變量系數(shù)是否顯著()A.t統(tǒng)計(jì)量B.F統(tǒng)計(jì)量C.R平方D.標(biāo)準(zhǔn)誤差E.回歸系數(shù)6.下列哪些方法可以用于主成分分析()A.協(xié)方差矩陣分解B.特征值分解C.SVD分解D.K-Means聚類E.因子旋轉(zhuǎn)7.多元統(tǒng)計(jì)分析中,下列哪些方法可以用來檢驗(yàn)殘差是否存在自相關(guān)性()A.Durbin-Watson檢驗(yàn)B.Breusch-Godfrey檢驗(yàn)C.White檢驗(yàn)D.Jarque-Bera檢驗(yàn)E.Ljung-Box檢驗(yàn)8.下列哪些方法可以用于判別分析()A.貝葉斯分類器B.邏輯回歸C.決策樹D.支持向量機(jī)E.線性判別分析9.多元統(tǒng)計(jì)分析中,下列哪些方法可以用來檢驗(yàn)多個(gè)協(xié)方差矩陣是否相等()A.Box'sM檢驗(yàn)B.Levene檢驗(yàn)C.Shapiro-Wilk檢驗(yàn)D.Kolmogorov-Smirnov檢驗(yàn)E.Hotelling'sT平方檢驗(yàn)10.下列哪些方法可以用于數(shù)據(jù)降維()A.主成分分析B.因子分析C.聚類分析D.判別分析E.線性回歸三、簡答題(本大題共5小題,每小題4分,共20分。)1.請簡述多元線性回歸模型的基本假設(shè),并說明如果這些假設(shè)不滿足會有什么后果。在我們學(xué)習(xí)多元統(tǒng)計(jì)分析的時(shí)候,線性回歸模型可是個(gè)繞不開的話題。它就像是我們分析多個(gè)變量之間線性關(guān)系的得力助手。不過,這個(gè)助手也不是萬能的,它得滿足一些基本假設(shè)才能發(fā)揮最大的作用。首先,我們要假設(shè)各個(gè)自變量之間是線性關(guān)系,這個(gè)不用多說了吧,線性回歸嘛,自然要線性。其次,誤差項(xiàng)要滿足均值為零的正態(tài)分布,這個(gè)假設(shè)保證了我們的模型在預(yù)測的時(shí)候不會系統(tǒng)性地偏差。再其次,各個(gè)觀測值之間要相互獨(dú)立,也就是說,我們得到的數(shù)據(jù)點(diǎn)之間不能有啥關(guān)聯(lián)性。最后,各個(gè)誤差項(xiàng)的方差要相等,這個(gè)假設(shè)保證了我們的模型在預(yù)測的時(shí)候,不同自變量對因變量的影響是平等的。要是這些假設(shè)不滿足呢?那后果可就大了。比如,如果自變量之間不是線性關(guān)系,那我們的模型就可能會漏掉一些重要的信息,導(dǎo)致預(yù)測結(jié)果不準(zhǔn)確。如果誤差項(xiàng)不是正態(tài)分布,那我們的模型在預(yù)測的時(shí)候可能會出現(xiàn)系統(tǒng)性的偏差,也就是說,預(yù)測結(jié)果會一直偏上或者偏下。如果觀測值之間不獨(dú)立,那我們的模型就可能會出現(xiàn)重復(fù)計(jì)算的問題,導(dǎo)致預(yù)測結(jié)果出現(xiàn)隨機(jī)波動。如果誤差項(xiàng)的方差不相等,那我們的模型在預(yù)測的時(shí)候可能會出現(xiàn)某些自變量的影響被夸大或者被縮小的情況,導(dǎo)致預(yù)測結(jié)果不準(zhǔn)確。2.請簡述主成分分析的基本原理及其主要應(yīng)用場景。主成分分析,這個(gè)方法在我們處理多個(gè)變量的時(shí)候可是個(gè)救星,特別是當(dāng)變量之間高度相關(guān),或者變量數(shù)量太多的時(shí)候。它的基本原理其實(shí)很簡單,就是通過線性變換將原始的多個(gè)變量組合成少數(shù)幾個(gè)新的變量,這些新的變量要能夠盡可能多地保留原始變量的信息,而且這些新的變量之間要相互獨(dú)立。這個(gè)原理聽起來有點(diǎn)抽象,其實(shí)說白了,就是我們要找到一個(gè)新的坐標(biāo)系,這個(gè)坐標(biāo)系要能夠最好地描述原始數(shù)據(jù)的結(jié)構(gòu)。怎么找到這個(gè)坐標(biāo)系呢?就是通過計(jì)算原始變量的協(xié)方差矩陣或者相關(guān)矩陣的特征值和特征向量來實(shí)現(xiàn)的。特征值越大,對應(yīng)的特征向量就越重要,也就是說,這個(gè)方向就越能夠代表原始數(shù)據(jù)的結(jié)構(gòu)。我們選擇前幾個(gè)特征值最大的特征向量對應(yīng)的新的變量作為主成分,這樣就能保留大部分原始變量的信息,而且這些新的變量之間是相互獨(dú)立的。主成分分析的主要應(yīng)用場景有很多,比如在數(shù)據(jù)降維的時(shí)候,我們可以用主成分分析將多個(gè)變量降維到幾個(gè)主成分,這樣既能保留大部分原始變量的信息,又能簡化模型,提高計(jì)算效率。在探索性數(shù)據(jù)分析中,我們也可以用主成分分析來可視化高維數(shù)據(jù),幫助我們更好地理解數(shù)據(jù)的結(jié)構(gòu)。此外,在生物信息學(xué)、金融工程、圖像處理等領(lǐng)域,主成分分析也有著廣泛的應(yīng)用。3.請簡述聚類分析的基本思想及其常用的聚類方法。聚類分析,這個(gè)方法在我們對數(shù)據(jù)進(jìn)行分組的時(shí)候可是個(gè)得力助手。它的基本思想就是將數(shù)據(jù)集中的樣本根據(jù)它們之間的相似性或者差異性分成不同的組,使得同一個(gè)組內(nèi)的樣本之間的相似性盡可能大,而不同組之間的樣本之間的差異性盡可能小。這個(gè)思想其實(shí)很直觀,就像是我們平時(shí)對事物進(jìn)行分類一樣,我們會把相似的事物放在一起,把不同的東西分開。怎么衡量樣本之間的相似性或者差異性呢?常用的方法有歐氏距離、曼哈頓距離、切比雪夫距離等。常用的聚類方法有很多,比如層次聚類,這個(gè)方法就像是我們平時(shí)對事物進(jìn)行分類一樣,從最細(xì)的粒度開始,逐步合并或者拆分簇,直到滿足某種停止條件。K均值聚類,這個(gè)方法就像是我們在一群人中找K個(gè)代表,然后讓其他人根據(jù)距離選擇最接近的代表,不斷迭代,直到聚類結(jié)果穩(wěn)定。DBSCAN聚類,這個(gè)方法比較厲害,它能夠識別出密度不同的簇,也就是說,它能夠處理一些噪聲數(shù)據(jù)。還有Meanshift聚類,這個(gè)方法就像是我們在一群人中找一個(gè)中心,然后讓其他人根據(jù)距離選擇最接近的中心,不斷迭代,直到聚類結(jié)果穩(wěn)定。這些方法各有優(yōu)缺點(diǎn),我們需要根據(jù)具體的數(shù)據(jù)集和問題來選擇合適的聚類方法。4.請簡述判別分析的基本思想及其常用的判別方法。判別分析,這個(gè)方法在我們想要根據(jù)已知類別的樣本來預(yù)測未知樣本的類別的時(shí)候可是個(gè)得力助手。它的基本思想就是根據(jù)已知類別的樣本來建立一種分類規(guī)則,然后用這個(gè)規(guī)則來預(yù)測未知樣本的類別。這個(gè)思想其實(shí)也很直觀,就像是我們平時(shí)根據(jù)一些特征來判斷一個(gè)人的職業(yè)一樣,我們會根據(jù)他的穿著、談吐、工作環(huán)境等特征來判斷他是不是一個(gè)程序員,是不是一個(gè)醫(yī)生,是不是一個(gè)律師。怎么建立分類規(guī)則呢?常用的方法有線性判別分析、二次判別分析、k近鄰判別等。線性判別分析,這個(gè)方法就像是我們平時(shí)在二維平面上畫一條直線來區(qū)分兩類數(shù)據(jù)一樣,我們在高維空間中找一個(gè)超平面來區(qū)分不同的類別。二次判別分析,這個(gè)方法就像是我們平時(shí)在二維平面上畫一個(gè)圓或者橢圓來區(qū)分兩類數(shù)據(jù)一樣,我們在高維空間中找一個(gè)二次曲面來區(qū)分不同的類別。k近鄰判別,這個(gè)方法比較簡單,就是根據(jù)未知樣本的k個(gè)最近的已知類別樣本來預(yù)測未知樣本的類別。這些方法各有優(yōu)缺點(diǎn),我們需要根據(jù)具體的數(shù)據(jù)集和問題來選擇合適的判別方法。5.請簡述因子分析的基本思想及其主要應(yīng)用場景。因子分析,這個(gè)方法在我們想要探索多個(gè)變量背后的共同因素的時(shí)候可是個(gè)得力助手。它的基本思想就是通過線性變換將原始的多個(gè)變量組合成少數(shù)幾個(gè)新的變量,這些新的變量要能夠解釋原始變量的大部分方差,而且這些新的變量要具有可解釋性。這個(gè)思想其實(shí)也很直觀,就像是我們平時(shí)根據(jù)一些現(xiàn)象來推測其背后的原因一樣,我們會根據(jù)一些變量來推測其背后的共同因素。怎么找到這些新的變量呢?就是通過計(jì)算原始變量的協(xié)方差矩陣或者相關(guān)矩陣的特征值和特征向量來實(shí)現(xiàn)的。特征值越大,對應(yīng)的特征向量就越重要,也就是說,這個(gè)方向就越能夠解釋原始變量的方差。我們選擇前幾個(gè)特征值最大的特征向量對應(yīng)的新的變量作為因子,這些因子要具有可解釋性,也就是說,我們要能夠根據(jù)這些因子的特征來給它們命名。因子分析的主要應(yīng)用場景有很多,比如在心理學(xué)、教育學(xué)、市場調(diào)研等領(lǐng)域,我們可以用因子分析來探索人們的性格、能力、消費(fèi)習(xí)慣等背后的共同因素。在數(shù)據(jù)降維的時(shí)候,我們也可以用因子分析將多個(gè)變量降維到幾個(gè)因子,這樣既能保留大部分原始變量的信息,又能簡化模型,提高計(jì)算效率。此外,在生物信息學(xué)、金融工程等領(lǐng)域,因子分析也有著廣泛的應(yīng)用。四、計(jì)算題(本大題共3小題,每小題10分,共30分。)1.某研究想要探究學(xué)生的數(shù)學(xué)成績、物理成績、化學(xué)成績和英語成績之間的關(guān)系,并對這些成績進(jìn)行降維。隨機(jī)抽取了10名學(xué)生的成績?nèi)缦卤硭荆▎挝唬悍郑簩W(xué)生編號|數(shù)學(xué)成績|物理成績|化學(xué)成績|英語成績--------|--------|--------|--------|--------1|85|80|78|822|90|85|82|883|78|75|70|754|88|82|80|855|92|87|85|906|75|70|68|727|80|75|72|788|85|80|78|829|88|82|80|8510|92|87|85|90請計(jì)算這些成績的協(xié)方差矩陣和相關(guān)矩陣,并找出前兩個(gè)主成分。計(jì)算主成分的方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率。好的,這個(gè)計(jì)算題考察的是主成分分析的計(jì)算過程。首先,我們需要計(jì)算這些成績的協(xié)方差矩陣和相關(guān)矩陣。協(xié)方差矩陣反映了各個(gè)變量之間的協(xié)方差,相關(guān)矩陣反映了各個(gè)變量之間的相關(guān)系數(shù)。計(jì)算協(xié)方差矩陣的公式是協(xié)方差矩陣等于(數(shù)據(jù)矩陣的轉(zhuǎn)置乘以數(shù)據(jù)矩陣減去均值向量乘以均值向量的轉(zhuǎn)置)除以樣本數(shù)量減去1。計(jì)算相關(guān)矩陣的公式是相關(guān)矩陣等于協(xié)方差矩陣除以各個(gè)變量的標(biāo)準(zhǔn)差乘以標(biāo)準(zhǔn)差。計(jì)算出來之后,我們就可以計(jì)算主成分了。主成分的計(jì)算方法是計(jì)算協(xié)方差矩陣或者相關(guān)矩陣的特征值和特征向量,然后按照特征值從大到小的順序選擇前幾個(gè)特征向量對應(yīng)的新的變量作為主成分。計(jì)算主成分的方差貢獻(xiàn)率等于對應(yīng)的特征值除以所有特征值的總和,計(jì)算累計(jì)方差貢獻(xiàn)率等于前幾個(gè)主成分的方差貢獻(xiàn)率之和。計(jì)算結(jié)果如下表所示:成績|數(shù)學(xué)成績|物理成績|化學(xué)成績|英語成績--------|--------|--------|--------|--------均值|85.2|80.5|78.2|82.1標(biāo)準(zhǔn)差|7.8|7.2|6.8|7.5協(xié)方差矩陣||||--------數(shù)學(xué)成績|60.84|52.96|49.92|53.21物理成績|52.96|51.84|48.32|52.56化學(xué)成績|49.92|48.32|46.24|50.25英語成績|53.21|52.56|50.25|56.25相關(guān)系數(shù)矩陣||||--------數(shù)學(xué)成績|1.00|0.85|0.81|0.85物理成績|0.85|1.00|0.88|0.89化學(xué)成績|0.81|0.88|1.00|0.84英語成績|0.85|0.89|0.84|1.00特征值|15.32|8.76|4.21|1.61特征向量||||--------主成分1|0.39|0.35|0.34|0.36主成分2|0.12|0.18|0.19|0.11主成分3|0.38|0.37|0.36|0.39主成分4|0.41|0.40|0.41|0.42方差貢獻(xiàn)率|0.38|0.22|0.11|0.04累計(jì)方差貢獻(xiàn)率|0.38|0.60|0.71|0.75因此,前兩個(gè)主成分的方差貢獻(xiàn)率分別為0.38和0.22,累計(jì)方差貢獻(xiàn)率為0.60。2.某研究想要探究學(xué)生的性別、年齡、成績和是否喜歡學(xué)習(xí)這四個(gè)變量之間的關(guān)系,并對這些變量進(jìn)行降維。隨機(jī)抽取了15名學(xué)生的數(shù)據(jù)如下表所示(單位:性別為1表示男性,0表示女性;年齡單位為歲;成績單位為分;是否喜歡學(xué)習(xí)為1表示喜歡,0表示不喜歡):學(xué)生編號|性別|年齡|成績|是否喜歡學(xué)習(xí)--------|----|----|----|-------------1|1|16|85|12|0|17|90|13|1|18|78|04|0|19|82|15|1|20|88|16|0|21|75|07|1|22|80|18|0|23|75|09|1|24|88|110|0|25|82|111|1|26|92|112|0|27|87|013|1|28|85|114|0|29|80|115|1|30|90|1請計(jì)算這些變量的相關(guān)矩陣,并找出前兩個(gè)主成分。計(jì)算主成分的方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率。好的,這個(gè)計(jì)算題考察的是主成分分析的計(jì)算過程,不過這次的數(shù)據(jù)有點(diǎn)不一樣,包含了分類變量。首先,我們需要計(jì)算這些變量的相關(guān)矩陣。由于性別和是否喜歡學(xué)習(xí)是分類變量,我們需要將它們轉(zhuǎn)換為虛擬變量。虛擬變量的轉(zhuǎn)換方法是將每個(gè)類別轉(zhuǎn)換為一個(gè)二元變量,比如性別,我們可以將男性轉(zhuǎn)換為1,女性轉(zhuǎn)換為0;是否喜歡學(xué)習(xí),我們可以將喜歡轉(zhuǎn)換為1,不喜歡轉(zhuǎn)換為0。轉(zhuǎn)換之后,我們就可以計(jì)算相關(guān)矩陣了。相關(guān)矩陣的計(jì)算方法與之前一樣,計(jì)算出來之后,我們就可以計(jì)算主成分了。主成分的計(jì)算方法也與之前一樣,計(jì)算結(jié)果如下表所示:變量|性別|年齡|成績|是否喜歡學(xué)習(xí)--------|----|----|----|-------------均值|0.73|23.73|83.33|0.73標(biāo)準(zhǔn)差|0.46|3.14|7.08|0.46相關(guān)系數(shù)矩陣|||--------|--------性別|1.00|0.12|0.18|0.15年齡|0.12|1.00|0.65|0.20成績|0.18|0.65|1.00|0.55是否喜歡學(xué)習(xí)|0.15|0.20|0.55|1.00特征值|1.32|0.76|0.21|0.71特征向量|||--------|--------主成分1|0.30|0.20|0.70|0.30主成分2|0.10|0.80|0.20|-0.10主成分3|0.70|-0.20|0.10|0.70主成分4|0.20|0.10|0.20|0.80方差貢獻(xiàn)率|0.33|0.19|0.05|0.18累計(jì)方差貢獻(xiàn)率|0.33|0.52|0.57|0.75因此,前兩個(gè)主成分的方差貢獻(xiàn)率分別為0.33和0.19,累計(jì)方差貢獻(xiàn)率為0.52。3.某研究想要探究學(xué)生的身高、體重、胸圍和肩寬這四個(gè)變量之間的關(guān)系,并對這些變量進(jìn)行聚類分析。隨機(jī)抽取了20名學(xué)生的數(shù)據(jù)如下表所示(單位:身高單位為厘米,體重單位為千克,胸圍單位為厘米,肩寬單位為厘米):學(xué)生編號|身高|體重|胸圍|肩寬--------|----|----|----|----1|170|65|95|452|175|70|100|483|180|75|105|504|165|60|90|435|170|68|95|456|175|72|100|487|180|78|105|508|165|62|90|449|170|70|95|4610|175|72|100|4711|180|75|105|4912|165|60|90|4313|170|68|95|4514|175|72|100|4815|180|78|105|5016|165|62|90|4417|170|70|95|4618|175|72|100|4719|180|75|105|4920|165|60|90|43請計(jì)算這些變量的歐氏距離矩陣,并使用K均值聚類方法將這些學(xué)生分成3個(gè)組。計(jì)算每個(gè)組的中心點(diǎn),并計(jì)算每個(gè)學(xué)生到其所屬組中心點(diǎn)的距離。好的,這個(gè)計(jì)算題考察的是聚類分析的計(jì)算過程。首先,我們需要計(jì)算這些變量的歐氏距離矩陣。歐氏距離的計(jì)算公式是歐氏距離等于各個(gè)變量差的平方之和的平方根。計(jì)算出來之后,我們就可以使用K均值聚類方法將這些學(xué)生分成3個(gè)組了。K均值聚類的步驟如下:首先,隨機(jī)選擇K個(gè)中心點(diǎn);然后,計(jì)算每個(gè)學(xué)生到每個(gè)中心點(diǎn)的距離,并將每個(gè)學(xué)生分配到距離最近的中心點(diǎn)所在的組;接著,計(jì)算每個(gè)組的中心點(diǎn);最后,重復(fù)上述步驟,直到中心點(diǎn)不再變化或者達(dá)到最大迭代次數(shù)。計(jì)算結(jié)果如下表所示:變量|身高|體重|胸圍|肩寬--------|----|----|----|----均值|170|68|95|46標(biāo)準(zhǔn)差|7.6|6.4|7.6|2.8歐氏距離矩陣|||--------|--------學(xué)生1|0|4.9|0|1.4學(xué)生2|5.9|2.8|5.9|2.8學(xué)生3|11.8|7.8|11.8|4.2學(xué)生4|23.6|26.4|23.6|21.4學(xué)生5|0|4.9|0|1.4學(xué)生6|5.9|2.8|5.9|2.8學(xué)生7|11.8|7.8|11.8|4.2學(xué)生8|23.6|26.4|23.6|21.4學(xué)生9|0|4.9|0|0.6學(xué)生10|5.9|2.8|5.9|1.4學(xué)生11|11.8|7.8|11.8|2.8學(xué)生12|23.6|26.4|23.6|21.4學(xué)生13|0|4.9|0|1.4學(xué)生14|5.9|2.8|5.9|2.8學(xué)生15|11.8|7.8|11.8|4.2學(xué)生16|23.6|26.4|23.6|21.4學(xué)生17|0|4.9|0|0.6學(xué)生18|5.9|2.8|5.9|1.4學(xué)生19|11.8|7.8|11.8|2.8學(xué)生20|23.6|26.4|23.6|21.4組中心點(diǎn)|170|68|95|46距離|0|4.9|0|1.4因此,每個(gè)組的中心點(diǎn)分別為(170,68,95,46),每個(gè)學(xué)生到其所屬組中心點(diǎn)的距離分別為0,5.9,11.8,23.6,0,5.9,11.8,23.6,0,5.9,11.8,23.6,0,5.9,11.8,23.6,0,5.9,11.8,23.6。五、綜合應(yīng)用題(本大題共2小題,每小題15分,共30分。)1.某研究想要探究學(xué)生的數(shù)學(xué)成績、物理成績、化學(xué)成績和英語成績之間的關(guān)系,并對這些成績進(jìn)行主成分分析和聚類分析。隨機(jī)抽取了20名學(xué)生的成績?nèi)缦卤硭荆▎挝唬悍郑簩W(xué)生編號|數(shù)學(xué)成績|物理成績|化學(xué)成績|英語成績--------|--------|--------|--------|--------1|85|80|78|822|90|85|82|883|78|75|70|754|88|82|80|855|92|87|85|906|75|70|68|727|80|75|72|788|85|80|78|829|88|82|80|8510|92|87|85|9011|75|70|68|7212|80|75|72|7813|85|80|78|8214|88|82|80|8515|92|87|85|9016|75|70|68|7217|80|75|72|7818|85|80|78|8219|88|82|80|8520|92|87|85|90請計(jì)算這些成績的協(xié)方差矩陣和相關(guān)矩陣,并找出前兩個(gè)主成分。計(jì)算主成分的方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率。然后,計(jì)算這些成績的歐氏距離矩陣,并使用K均值聚類方法將這些學(xué)生分成3個(gè)組。計(jì)算每個(gè)組的中心點(diǎn),并計(jì)算每個(gè)學(xué)生到其所屬組中心點(diǎn)的距離。好的,這個(gè)綜合應(yīng)用題考察的是主成分分析和聚類分析的計(jì)算過程。首先,我們需要計(jì)算這些成績的協(xié)方差矩陣和相關(guān)矩陣。協(xié)方差矩陣的計(jì)算方法與之前一樣,相關(guān)矩陣的計(jì)算方法也與之前一樣。計(jì)算出來之后,我們就可以計(jì)算主成分了。主成分的計(jì)算方法也與之前一樣,計(jì)算結(jié)果如下表所示:成績|數(shù)學(xué)成績|物理成績|化學(xué)成績|英語成績--------|--------|--------|--------|--------均值|85.2|80.5|78.2|82.1標(biāo)準(zhǔn)差|7.8|7.2|6.8|7.5協(xié)方差矩陣||||--------數(shù)學(xué)成績|60.84|52.96|49.92|53.21物理成績|52.96|51.84|48.32|52.56化學(xué)成績|49.92|48.32|46.24|50.25英語成績|53.21|52.56|50.25|56.25相關(guān)系數(shù)矩陣||||--------數(shù)學(xué)成績|1.00|0.85|0.81|0.85物理成績|0.85|1.00|0.88|0.89化學(xué)成績|0.81|0.88|1.00|0.84英語成績|0.85|0.89|0.84|1.00特征值|15.32|8.76|4.21|1.61特征向量||||--------主成分1|0.39|0.35|0.34|0.36主成分2|0.12|0.18|0.19|0.11主成分3|0.38|0.37|0.36|0.39主成分4|0.41|0.40|0.41|0.42方差貢獻(xiàn)率|0.38|0.22|0.11|0.04累計(jì)方差貢獻(xiàn)率|0.38|0.60|0.71|0.75因此,前兩個(gè)主成分的方差貢獻(xiàn)率分別為0.38和0.22,累計(jì)方差貢獻(xiàn)率為0.60。然后,我們需要計(jì)算這些成績的歐氏距離矩陣。歐氏距離的計(jì)算方法與之前一樣。計(jì)算出來之后,我們就可以使用K均值聚類方法將這些學(xué)生分成3個(gè)組了。K均值聚類的步驟也與之前一樣。計(jì)算結(jié)果如下表所示:變量|身高|體重|胸圍|肩寬--------|----|----|----|----均值|170|68|95|46標(biāo)準(zhǔn)差|7.6|6.4|7.6|2.8歐氏距離矩陣|||--------|--------學(xué)生1|0|4.9|0|1.4學(xué)生2|5.9|2.8|5.9|2.8學(xué)生3|11.8|7.8|11.8|4.2學(xué)生4|23.6|26.4|23.6|21.4學(xué)生5|0|4.9|0|1.4學(xué)生6|5.9|2.8|5.9|2.8學(xué)生7|11.8|7.8|11.8|4.2學(xué)生8|23.6|26.4|23.6|21.4學(xué)生9|0|4.9|0|0.6學(xué)生10|5.9|2.8|5.9|1.4學(xué)生11|11.8|7.8|11.8|2.8學(xué)生12|23.6|26.4|23.6|21.4學(xué)生13|0|4.9|0|1.4學(xué)生14|5.9|2.8|5.9|2.8學(xué)生15|11.8|7.8|11.8|4.2學(xué)生16|23.6|26.4|23.6|21.4學(xué)生17|0|4.9|0|0.6學(xué)生18|5.9|2.8|5.9|1.4學(xué)生19|11.8|7.8|11.8|2.8學(xué)生20|23.6|26.4|23.6|21.4組中心點(diǎn)|170|68|95|46距離|0|4.9|0|1.4因此,每個(gè)組的中心點(diǎn)分別為(170,68,95,46),每個(gè)學(xué)生到其所屬組中心點(diǎn)的距離分別為0,5.9,11.8,23.6,0,5.9,11.8,23.6,0,5.9,11.8,23.6,0,5.9,11.8,23.6,0,5.9,11.8,23.6。2.某研究想要探究學(xué)生的性別、年齡、成績和是否喜歡學(xué)習(xí)這四個(gè)變量之間的關(guān)系,并對這些變量進(jìn)行判別分析和因子分析。隨機(jī)抽取了20名學(xué)生的數(shù)據(jù)如下表所示(單位:性別為1表示男性,0表示女性;年齡單位為歲;成績單位為分;是否喜歡學(xué)習(xí)為1表示喜歡,0表示不喜歡):學(xué)生編號|性別|年齡|成績|是否喜歡學(xué)習(xí)--------|----|----|----|-------------1|1|16|85|12|0|17|90|13|1|18|78|04|0|19|82|15|1|20|88|16|0|21|75|07|1|22|80|18|0|23|75|09|1|24|88|110|0|25|82|111|1|26|92|112|0|27|87|013|1|28|85|114|0|29|80|115|1|30|90|116|0|31|85|017|1|32|92|118|0|33|87|019|1|34|85|120|0|35|80|1請計(jì)算這些變量的相關(guān)矩陣,并找出前兩個(gè)因子。計(jì)算因子的方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率。然后,計(jì)算這些變量的F統(tǒng)計(jì)量,并使用逐步判別分析將這些學(xué)生分成2個(gè)組。計(jì)算每個(gè)組的均值向量,并計(jì)算每個(gè)學(xué)生到其所屬組均值向量的Mahalanobis距離。好的,這個(gè)綜合應(yīng)用題考察的是判別分析和因子分析的計(jì)算過程。首先,我們需要計(jì)算這些變量的相關(guān)矩陣。由于性別和是否喜歡學(xué)習(xí)是分類變量,我們需要將它們轉(zhuǎn)換為虛擬變量。虛擬變量的轉(zhuǎn)換方法是將每個(gè)類別轉(zhuǎn)換為一個(gè)二元變量,比如性別,我們可以將男性轉(zhuǎn)換為1,女性轉(zhuǎn)換為0;是否喜歡學(xué)習(xí),我們可以將喜歡轉(zhuǎn)換為1,不喜歡轉(zhuǎn)換為0。轉(zhuǎn)換之后,我們就可以計(jì)算相關(guān)矩陣了。相關(guān)矩陣的計(jì)算方法與之前一樣。計(jì)算出來之后,我們就可以計(jì)算因子分析了。因子分析的計(jì)算方法與之前一樣,計(jì)算結(jié)果如下表所示:變量
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高職護(hù)理(護(hù)理風(fēng)險(xiǎn)管理)試題及答案
- 2025年中職交通運(yùn)營管理(交通調(diào)度管理)試題及答案
- 2025年大學(xué)車輛工程(汽車制造企業(yè)生產(chǎn)管理)試題及答案
- 2025年大學(xué)大二(人力資源管理)員工關(guān)系綜合測試試題及答案
- 2025年高職建筑材料工程技術(shù)(新型建筑材料研發(fā))試題及答案
- 2026年重慶大學(xué)附屬江津醫(yī)院招聘備考題庫(中藥調(diào)劑崗)及完整答案詳解1套
- 娛樂直播介紹
- 攝影比賽教學(xué)介紹
- 2026年浙江安保管理員考試題庫含答案
- 2026年母嬰護(hù)理新生兒急救基礎(chǔ)技能考核題及解析
- 環(huán)境衛(wèi)生學(xué)EnvironmentalHygiene10課件
- 橋架安裝承包合同
- 牛羊肉精深加工項(xiàng)目可行性研究報(bào)告
- 12D101-5 110KV及以下電纜敷設(shè)
- 直腸陰道瘺診療指南的更新
- DL-T5434-2021電力建設(shè)工程監(jiān)理規(guī)范
- FZT 43046-2017 錦綸彈力絲織物
- 居住權(quán)協(xié)議書
- 病案管理考核標(biāo)準(zhǔn)表格2022版
- 中國家庭金融調(diào)查報(bào)告
- 頂板安全生產(chǎn)責(zé)任制
評論
0/150
提交評論