TCGA突變數(shù)據(jù)的下載、整理和可視化_第1頁
TCGA突變數(shù)據(jù)的下載、整理和可視化_第2頁
TCGA突變數(shù)據(jù)的下載、整理和可視化_第3頁
TCGA突變數(shù)據(jù)的下載、整理和可視化_第4頁
TCGA突變數(shù)據(jù)的下載、整理和可視化_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

TCGA突變數(shù)據(jù)的下載、整理和可視化今天是生信星球陪你的第520天大神一句話,菜鳥跑半年。我不是大神,但我可以縮短你走彎路的半年~就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學(xué)點生信好不好~這里有豆豆和花花的學(xué)習(xí)歷程,從新手到進階,生信路上有你有我!花花寫于2020-01-17小年快樂呀大家!今天上班最后一天,接下來開啟長達半個月的年假(距離下一場講課還有20天,期待)。我今年第一年在廣東過年,不回家了,我父母會從山東老家過來和我一起過年,后天就到咯。。。你呢思維導(dǎo)圖走起啦1.數(shù)據(jù)下載1.1突變數(shù)據(jù)TCGA的突變數(shù)據(jù)有4個軟件得到的不同版本:這個可以在gdc的官網(wǎng)上找到,case選擇KIRC,文件類型選擇maf即可獲得。選擇mutect,就一個文件,直接點進去,download就行,下載下來只有一個tar.gz文件,解壓放在工作目錄下。tar-xzvffile.tar.gz解壓,即可得到一個maf.gz文件。同樣的篩選條件,參考/p/559d9604fcdf下載臨床信息數(shù)據(jù)并整理。1mkdir

kirc-clinical2

./gdc-client.exe

download

-m

gdc_manifest.2020-01-17\

\(1\).txt

-d

kirc-clinical2.數(shù)據(jù)讀取2.1突變數(shù)據(jù)使用maftools讀取。1rm(list=ls())2options(stringsAsFactors

=

F)

3require(maftools)

4require(dplyr)5project='TCGA_KIRC'6laml

=

read.maf(maf

=

'TCGA.KIRC.mutect.somatic.maf.gz')7#>

-Reading8#>

-Validating9#>

-Silent

variants:

8383

10#>

-Summarizing11#>

--Mutiple

centers

found12#>

BCM;BI--Possible

FLAGS

among

top

ten

genes:13#>

TTN14#>

MUC1615#>

HMCN116#>

-Processing

clinical

data17#>

--Missing

clinical

data18#>

-Finished

in

3.750s

elapsed

(3.430s

cpu)19laml

20#>

An

object

of

class

MAF

21#>

ID

summary

Mean

Median22#>

1:

NCBI_Build

GRCh38

NA

NA23#>

2:

Center

BCM;BI

NA

NA24#>

3:

Samples

336

NA

NA25#>

4:

nGenes

9444

NA

NA26#>

5:

Frame_Shift_Del

1732

5.155

427#>

6:

Frame_Shift_Ins

1201

3.574

128#>

7:

In_Frame_Del

238

0.708

029#>

8:

In_Frame_Ins

350

1.042

030#>

9:

Missense_Mutation

12997

38.682

3631#>

10:

Nonsense_Mutation

1259

3.747

232#>

11:

Nonstop_Mutation

18

0.054

033#>

12:

Splice_Site

490

1.458

134#>

13:

Translation_Start_Site

25

0.074

035#>

14:

total

18310

54.494

4736maf_df

=

laml@data37save(laml,maf_df,file

=

'maf.Rdata')38length(unique(maf_df$Tumor_Sample_Barcode))39#>

[1]

33640length(unique(maf_df$Hugo_Symbol))41#>

[1]

9444因此,有336個病人,9444個突變基因信息。了解maf還可以用下面的幾個函數(shù):1getSampleSummary(laml)

2getGeneSummary(laml)

3getFields(laml)

2.2.臨床信息將下載好的臨床信息xml文件整理成一個數(shù)據(jù)框。1xmls

=

dir('kirc-clinical/',pattern

=

'*.xml$',recursive

=

T)2library(XML)3td

=

function(x){4

result

<-

xmlParse(file.path('kirc-clinical/',x))5

rootnode

<-

xmlRoot(result)6

xmldataframe

<-

xmlToDataFrame(rootnode[2])7

return(t(xmldataframe))8}910cl

=

lapply(xmls,td)11cl_df

<-

as.data.frame(t(do.call(cbind,cl)))12cl_df[1:3,1:3]13#>

additional_studies

tumor_tissue_site

histological_type14#>

1

Kidney

Kidney

Clear

Cell

Renal

Carcinoma15#>

2

Kidney

Kidney

Clear

Cell

Renal

Carcinoma16#>

3

Kidney

Kidney

Clear

Cell

Renal

Carcinoma17save(cl_df,file

=

'clinical.Rdata')3.突變數(shù)據(jù)的可視化3.1plotmafSummarymaftools自帶可視化函數(shù)plotmafSummary,可以比較直觀的統(tǒng)計maf文件的數(shù)據(jù)。1dev.off()2#>

null

device

3#>

14plotmafSummary(maf

=

laml,

rmOutlier

=

TRUE,showBarcodes

=

FALSE,5

addStat

=

'median',

dashboard

=

TRUE,

titvRaw

=

FALSE)就是將maf_df數(shù)據(jù)框做了統(tǒng)計,用barplot和boxplot做了可視化。3.2突變頻譜圖代碼其實就一句!1oncoplot(maf

=

laml,

top

=

30,

fontSize

=

1)下面展開一下這個圖的解讀主體熱圖一行是一個基因,總共是9444個基因,從中截取了top30;一列是一個樣本,總共是336個樣本。不同顏色代表不同類型的突變。右側(cè)條形圖右側(cè)的條形圖是每個基因的突變樣本數(shù)、突變類型和比例驗證一下突變樣本數(shù)1count(maf_df,Hugo_Symbol,sort

=

T)2#>

#

A

tibble:

9,444

x

23#>

Hugo_Symbol

n4#>

<chr>

<int>5#>

1

VHL

1696#>

2

PBRM1

1487#>

3

TTN

778#>

4

SETD2

469#>

5

BAP1

3710#>

6

MUC16

2811#>

7

MTOR

2312#>

8

KDM5C

2113#>

9

HMCN1

2014#>

10

ATM

1915#>

#

with

9,434

more

rows結(jié)果顯示VHL在169樣本中突變,樣本總數(shù)336,所以是49%,以此類推條形圖的顏色是突變類型,以VHL基因為例,他的突變類型分別是:1maf_df

%>%

filter(Hugo_Symbol=='VHL')

%>%2

count(Variant_Classification,sort

=

T)3#>

#

A

tibble:

7

x

24#>

Variant_Classification

n5#>

<fct>

<int>6#>

1

Missense_Mutation

607#>

2

Frame_Shift_Del

418#>

3

Nonsense_Mutation

279#>

4

Frame_Shift_Ins

2210#>

5

Splice_Site

1611#>

6

In_Frame_Del

212#>

7

Nonstop_Mutation

1頂部條形圖顯示每個樣本里突變的基因個數(shù),可以看到最高的是那個一枝獨秀的1600多。1laml@variants.per.sample

%>%

head()2#>

Tumor_Sample_Barcode

Variants3#>

1:

TCGA-B8-4143-01A-01D-1806-10

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論