下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
PCA分析和散點圖今天主要跟大家演示一下簡單的PCA分析,并且以散點圖的形式將結(jié)果展示出來。首先在進展PCA分析之前,先跟大家稍微討論下什么是PCA分析。PCA分析又叫主成分分析,其實從字面上來理解我們可以發(fā)現(xiàn)它其實是和樣品分組相關(guān)的。
舉個簡單的例子,我們觀察了*種植物的株高、葉片大小、果實大小等等多種性狀,并記錄每種性狀對應的數(shù)值。這時候我們想看看根據(jù)這些性狀信息看看我們觀察的樣本是否明顯的分組現(xiàn)象。每一種性狀相當于一個維度。利用PCA分析可以將結(jié)果投影到一個低維的向量空間〔具體計算就不詳述了〕。類似的比方我們多個樣本的表達譜數(shù)據(jù),每個基因在各個樣品的表達情況就可以算作一個維度。如果大家對PCA算法感興趣的話,可以自行百度,在這里就不進展太多的描述了。畢竟今天主要是教大家怎么利用R進展PCA分析和結(jié)果展示。還是第一步,我們先準備好我們用來分析的數(shù)據(jù)。setwd("C:/Users/gaom/Desktop")*翻開文件所在路徑,并將文件所在目錄作為工作目錄data<-read.table(file="test_data.t*t",header=T,sep="\t")*讀取數(shù)據(jù),并將首行作為列名dim(data)**[1]299913head(data)**ID_REFT01T02T03T04T05T06**11007_s_at10.19858611.80567610.86795311.76366012.07223212.108312**21053_at9.5940748.7131089.2470969.4332659.0923299.005518**3117_at8.5817638.6036808.8044258.6617008.6349798.606976**4121_at12.02231512.65532912.62733412.79139012.96176112.885307**51255_g_at7.2285697.2146007.2371317.2934177.2767997.268233**61294_at8.8284879.3802779.2979898.8589858.9957729.126825**T07T08T09T10T11T12**110.64686810.85274410.67589811.13766310.79673711.102408**29.0876819.0272088.9652838.9583099.2750108.940965**38.6258388.5772448.6467518.6258438.6251648.522129**413.40204413.24012613.08888313.23409913.38290313.472223**57.1974407.2626627.2897967.2322497.2023647.306229**69.0023859.0035619.0062789.0067219.0181839.164313上述數(shù)據(jù)為從GEO數(shù)據(jù)庫隨意找的基因表達。其中第一列為基因探針號,后續(xù)幾列則為T01到T12的12個樣品對應的表達量數(shù)據(jù),每三個樣品為一組。因為數(shù)據(jù)是拼湊的,所以這里不關(guān)注探針具體信息了。準備好數(shù)據(jù)之后我們就開場進展PCA計算了。其實代碼非常簡單。pca<-prp(t(data[,-1]),scale=T)head(pca$*)**PC1PC2PC3PC4PC5PC6**T01-43.457435-44.9500318.3055713.210563-7.428048114.818150**T0242.067255-19.142248-25.57404121.120294-5.793099014.702922**T03-2.123455-21.512488-11.19247417.58300615.2149034-34.730308**T048.166077-4.77481422.837578-11.3641288.4021038-6.921738**T0518.214073-5.83680718.522768-10.941626-0.6183613-5.548845**T0627.219529-5.51932826.649872-11.054961-4.14804135.097715**PC7PC8PC9PC10PC11PC12**T01-1.9663429.2181269-1.520882-1.0608353.0484982.731227e-13**T025.8321978.97930189.3861871.6687611.7054742.674666e-13**T03-5.168168-9.7483411-11.5703202.618203-4.2214562.738955e-13**T0427.7829867.58290079.726761-3.391763-21.9004852.730871e-13**T057.039535-8.9173716-2.239005-17.51443329.7009062.736544e-13**T06-30.026232-0.8253129-5.20703712.349414-8.9006762.681674e-13summary(pca)**Importanceofponents:**PC1PC2PC3PC4PC5PC6**Standarddeviation21.998021.799218.593216.6751816.134615.16897**ProportionofVariance0.16140.15850.11530.092720.08680.07672**CumulativeProportion0.16140.31980.43510.527800.61460.69133**PC7PC8PC9PC10PC11**Standarddeviation14.4869514.0197813.481413.0911212.8896**ProportionofVariance0.069980.065540.06060.057140.0554**CumulativeProportion0.761310.826850.88750.944601.0000**PC12**Standarddeviation2.859e-13**ProportionofVariance0.000e+00**CumulativeProportion1.000e+00上述數(shù)據(jù)中,pca$*就是后面我們畫pca圖要用的數(shù)據(jù)。而在summary(pca)中我們看到的ProportionofVariance就是各個主成分的方差占所有方差的比值,即對應的奉獻率。而CumulativeProportion則對應的百分比累積值。從上述結(jié)果看這組數(shù)據(jù)pca結(jié)果并不是很好,所以應該肯定會有一些分組的結(jié)果不太好。不過我們今天主要是展示結(jié)果,就不在意這些細節(jié)了。做完上述的計算,下面就進入我們的結(jié)果展示階段。首先用根本畫圖函數(shù)展示。plot(pca$*[,1:2])group<-factor(c(rep("A1",3),rep("A2",3),rep("B1",3),rep("B2",3)))*這里我們添加分組信息colour_group<-rainbow(length(unique(group)))*利用rainbow函數(shù)選擇顏色colour<-colour_group[as.numeric(factor(group))]*創(chuàng)立顏色向量colour**[1]"*FF0000FF""*FF0000FF""*FF0000FF""*80FF00FF""*80FF00FF"**[6]"*80FF00FF""*00FFFFFF""*00FFFFFF""*00FFFFFF""*8000FFFF"**[11]"*8000FFFF""*8000FFFF"plot(pca$*[,1:2],col=colour,pch=c(21,22,23,24)[group])*在plot函數(shù)中我們把分組信息和顏色方案添加進去legend("topleft",legend=levels(group),col=colour_group,pch=c(21,22,23,24))*添加legendtitle("test")這是我們用根本函數(shù)對pca分析結(jié)果的展示。除此外我們也可以利用ggplot2包進展一樣的圖片繪制。例如如下:library(ggplot2)group2<-data.frame(group)pca_reuslt<-(pca$*)pca_reuslt<-cbind(pca_reuslt,group2)p<-ggplot(pca_reuslt)+geom_point(aes(*=pca_reuslt[,1],y=pca_reuslt[,2],color=pca_reuslt$group,shape=pca_reuslt$group),size=5)p<-p+theme(legend.title=element_blank())+labs(*="PCA1",y="PCA2")p好了,上面那些根本的結(jié)果展示我們已經(jīng)完畢了。下面我們開場把這個圖的檔次再提高一點。比方,我們畫了二維的,現(xiàn)在我們畫個三維的PCA結(jié)果吧。library(scatterplot3d)par(mar=c(5.1,4.1,4.1,8.1),*pd=TRUE)scatterplot3d(pca_reuslt[,1:3],pch=20,color=colour,angle=45,main="test_3D",ce*.symbols=2,mar=c(5.1,4.1,4.1,8.1))legend("right",legend=group,col=colour,pch=20,bg="white",*pd=TRUE,inset=-0.5)*設(shè)置位置為right后,可以用inset來移到legend位置。除此之外,我們可以考慮把一樣的組進展一個圈定,方便我們更好的觀察結(jié)果。library
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 五保供養(yǎng)培訓課件
- 2026年劇本殺運營公司行業(yè)規(guī)范遵守管理制度
- 幼兒園開展戶外游戲活動促進兒童社交能力發(fā)展課題報告教學研究課題報告
- 2026年無人駕駛汽車安全報告
- 2025年社區(qū)養(yǎng)老服務(wù)培訓基地建設(shè)與養(yǎng)老行業(yè)人才培養(yǎng)機制可行性研究報告
- 2026年醫(yī)療物聯(lián)網(wǎng)技術(shù)應用報告
- 普通高中課程方案和課程標準變化的時代價值與教師應對
- 眼巢護理基礎(chǔ)理論培訓
- 2026及未來5年中國智能化工程行業(yè)市場動態(tài)分析及發(fā)展趨向研判報告
- 2025年韓國金融科技監(jiān)管政策變化分析報告
- 未來五年養(yǎng)殖淡水鳙魚(胖頭魚)企業(yè)縣域市場拓展與下沉戰(zhàn)略分析研究報告
- 2026年寧夏賀蘭工業(yè)園區(qū)管委會工作人員社會化公開招聘備考題庫參考答案詳解
- 癌痛患者心理支持策略
- 2025年12月份四川成都市第八人民醫(yī)院編外招聘9人筆試參考題庫及答案解析
- 25秋二上語文期末押題卷5套
- 微生物檢驗質(zhì)控措施分析
- 達人分銷合同范本
- 檢修車間定置管理制度(3篇)
- 乘用車內(nèi)部凸出物法規(guī)培訓
- 婦科腫瘤保留生育功能治療策略
- 建筑工程施工管理論文2025年
評論
0/150
提交評論