付費下載
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
報告說 信息分析流 組組 組注 信息分析結(jié) 組組 K-mer分析估計組大 組組 組裝后組分 GC含量分 組注 注 非編碼RNA注 全組分析 數(shù)據(jù)................................................................................................................................ 解壓文 結(jié) 組 注 進 1.1標 描 RepBase為庫,利用軟件RepeatMasker對組進行重復(fù)序列注釋。 描述一個。如:Repbase() 指向某個參考文獻。如:以RepBase[1]為庫,利用RepeatMasker[2]對組進行重復(fù)序列注釋粗 repeat)和散在重復(fù)序列(Interpersedrepeat)兩大類。Denovo組裝分析流程。是否BACEST圖2.1組Denovo組裝分析流GLEANseqGeneDeDeGeneStatisticsStatistics組注釋GLEANseqGeneDeDeGeneStatisticsStatisticsStatisticsStatistics圖2.2組注釋分析首先,重復(fù)序列注釋是結(jié)合了基于RepBase庫()的同源預(yù)測方法(軟件:RepeatMaskerRepeatProteinMask)和基于自身序列比對(RepeatModeler、Piler、RepeatScount)及重復(fù)序列特征(軟件:TrfLTR-FINDER)denovo從頭預(yù)測方法。編碼的結(jié)構(gòu)預(yù)測,通常會結(jié)合多種預(yù)測方法,如homolog同源預(yù)測(至少選兩到三個近源物種)、denovo從頭預(yù)測(軟件:Augustus、Genscan等)、cDNA/ESTGLEAN軟件的幫助下,將各種方法預(yù)測得到的集整合成一個非冗余的、更加完整的集。另外,RNA-seq數(shù)據(jù)通過Tophat比對和Cufflinks組裝得到的轉(zhuǎn)錄本,還被用來對GLEAN的集進行補充和完善,得到最終的集。然后借助于外源蛋白數(shù)據(jù)庫(SwissProt、TrEMBL、KEGG、InterPro和GO)對集中的蛋白進行功能注非編碼RNA的注釋過程中,根據(jù)tRNA的結(jié)構(gòu)特征,利用tRNAscan-SE軟件來尋找組中的tRNA序列;由于rRNA具有高度的保守性,因此可以選擇近緣物種的rRNABLASTN比對來尋找組中的rRNA;另外,利用Rfam的協(xié)方差模型,采用Rfam自帶的INFERNAL軟件可預(yù)測組上的miRNA和snRNA序列信息。 Allgeneset AllgenesetformultipleFiltergeneClustergeneClustergeneBlastpGetsingle-copyCalculate4DTVMultiplesequenceMultiplesequenceGetsupergene4-degeneratesitesandphase1WhetherprovidefossiltimeReconstructthephylogeneticCalculatedivergence2.3策略及原始數(shù)據(jù)量統(tǒng)利用樣品DNA來構(gòu)建不同插入長度的文庫。根據(jù)我們制定的策略,構(gòu)建文庫的插入長度分別是:170bp、500bp、800bp、2Kb、5Kb、10Kb、20Kb。在得到不同插入長度的文庫之后,我們用Hiseq2000對 。最后我們得到了7個文庫、14個lane的數(shù)據(jù),總數(shù)據(jù)量為Solexa
Insert
3.1AverageTotal
注:此表中,組大小以1.1Gb計算數(shù)據(jù)過濾處為了減少錯誤對組裝造成的影響,我們對Illumina-Pipeline測得的原始數(shù)據(jù)做了一系列校正和過Pair-end Insert
3.2數(shù)據(jù)量的統(tǒng)計AverageTotal
Depth
Depth(X)Solexa
注:此統(tǒng)計表為通過數(shù)據(jù)過濾流程處理之后的數(shù)據(jù)量的統(tǒng)計表,組大小以1.1Gb計[1]RuiqiangLI,etal.Thesequenceanddenovoassemblyofthegiantpandagenome.Nature463,311-K-mer分析估計組大在組組裝前,為了用所得的read信息估計組特征,我們采用基于K-mer的分析方法來估計組大小和雜合率等,即從一段連續(xù)序列中迭代地選取長度為K個堿基的序列,若read長度為merK,那么可以得到L-K+1個K-mer,這里,我們?nèi)176543210 3.117-mer深度頻數(shù)分布圖,圖中橫坐標為深度(depth),縱坐標為各深度下的K-mer種類占所有K-mer種類的比3.317-mer Genome Used Used 使用高質(zhì)量數(shù)據(jù)32.92Gb,逐堿基取17-mer獲得深度頻數(shù)分布圖,其深度峰值根據(jù)公式GenomeSize=K-mer_num/Peak_depth,可以估算出該物種的組大小約為1.1Gb。[1]RuiqiangLI,etal.Thesequenceanddenovoassemblyofthegiantpandagenome.Nature463,311-小片段數(shù)據(jù)糾
錯誤會導(dǎo)致新的K-mer出現(xiàn),一般來說這些新的K-mer頻數(shù)都是比較低的。當(dāng)量足夠大的情況下,認為頻數(shù)低的K-mer是由錯誤導(dǎo)致的。對這些低頻的K-mer所在的reads進行校正,稱為數(shù)據(jù)
[1]Li,R,etal.Denovoassemblyofhumangenomeswithmassivelyparallelshortreadsequencing.GenomeRes.20:265-272我們主要是使用SOAPdenovo軟件來完成組組裝,處理的對象就是前面完成過濾糾錯后的reads TotalSize TotalNumber(>=100bp) Total 注:此表中,包括拼接的scaffold和最后的contig的N50~N90的長度信息,總長度和最長的長度信息,統(tǒng)計信息不包括長度短于100bp的片段。上表中統(tǒng)計的contig和scaffold的序列長度信息是基于最后補洞之后的序列進行的。由“表
參考文獻RuiqiangLI,etal.Thesequenceanddenovoassemblyofthegiantpandagenome.Nature463,311-317Li,R,etal.Denovoassemblyofhumangenomeswithmassivelyparallelshortreadsequencing.GenomeRes.20:265-272MartenBoetzer,etal.Scaffoldingpre-assembledcontigsusingSSPACE.BioinformaticsAdvanceAccess組裝后組分GC含量分根據(jù)GC_depth分布圖可以看出是否有明顯的GC偏向,也可以判斷是否存在細菌污染等情況。圖3.2GC含量與深度關(guān)系分布圖,橫坐標是GC含量,縱坐標是平均深度。以10kb為窗口無overlap計算其GC含量和根據(jù)此圖可以看出組整體的深度較高,組GC分布相對集中,整個GC分布范圍內(nèi)覆蓋40X以上。圖3.3相關(guān)物種的組GC含量分布,橫坐標為GC含量,縱坐標為該GC下窗口(bin)數(shù)目所占比例。即將組裝的組序列以500bp為窗口,窗口之間有250bp的overlap,計算每個窗口的GC含量深度分采用SOAPaligner將過濾之后的reads比對回拼接的組序列上,然后根據(jù)比對結(jié)果統(tǒng)計每個堿基被覆蓋的次數(shù),從而可以得到各種深度的堿基占全組的百分比,覆蓋深度小于10所占的比率低3%。組組裝結(jié)果(1)常區(qū)域覆蓋度評–3.5利用已發(fā)布的BAC序列或Fosmid
(2)區(qū)覆蓋度評把已公布的EST或轉(zhuǎn)錄組序列作為query序列map到拼接完成的組序列上,檢查拼接序列對已知表表3.6利用已公布的EST序列
Coveredby
With>90%Sequencein
With>50%Sequencein
98% 利用已公布的EST序列對 98%3.2組注重復(fù)序列注重復(fù)序列是組的重要組成部分,主要包括兩大類:分別為串聯(lián)重復(fù)序列(Tandemrepeat)和散在重復(fù)序列(Interpersedrepeat)。其中串聯(lián)重復(fù)序列包括有微序列,小序列等等;散在重復(fù)序列又稱轉(zhuǎn)座子元件,包括以DNA-DNADNA轉(zhuǎn)座子和反轉(zhuǎn)錄轉(zhuǎn)座子(retrotransposon)。注釋結(jié)果如下3.7 Repeat %ofDenovo注:TRF是通過TRF軟件找到的組序列中的串聯(lián)重復(fù)序列;RepeatMasker和RepeatProteinMask是基于RepBase庫,分別通過RepeatMasker和RepeatProteinMask軟件注釋組序列得到的轉(zhuǎn)座子元件;Denovo是利用軟件RepeatModeler(組小于600M時,一般用LTR-FINDER、Piler和RepeatScout進行預(yù)測;大于600M時則用RepeatModeler進行預(yù)測,LTR-FINDER可選可不選)得到的最終的序列文件作為庫,通過RepeatMasker軟件注釋組序列得到的結(jié)果;Total是以上各種方法得到的結(jié)果,去掉它們之間 RepBase TE De Combined
%in Length %in
%in
%in注:RepBaseTEs和TEproteins都是基于RepBase庫分別通過RepeatMasker和RepeatProteinMask軟件注釋組得到的轉(zhuǎn)座子元件;Denovo是通過denovo預(yù)測方法RepeatModeler(組小于600M時,一般用LTR-FINDER、Piler和RepeatScout進行預(yù)測;大于600M時則用RepeatModeler進行預(yù)測,LTR-FINDER可選可不選)得到的重復(fù)序列為庫,利用軟件RepeatMasker得到的組中重復(fù)序列的結(jié)果;CombinedTEs是整合以上三種方法并去冗余后的結(jié)果。中注釋到的TE序列與RepBase中相應(yīng)序列的度;縱坐標是該度下的TE序列在組中所占的百分比;不同的TE圖3.1四種TE序列度分布圖2。Denovo方法預(yù)測得到的TE的度分布圖,橫坐標是注釋得到的TE序列與denovo庫中對應(yīng)的重復(fù)序列之間的度;縱坐標是該度下的TE序列占整個組的百分比;不同的TE以不同的參考文獻Jurka,J.,Kapitonov,V.V.,Pavlicek,A.,Klonowski,P.,Kohany,O.,Walichiewicz,J.(2005)RepbaseUpdate,adatabaseofeukaryoticrepetitiveelements.CytogenticandGenomeResearch110:462-467G.Benson.Tandemrepeatsfinder:aprogram yzeDNAsequences.NucleicAcidsResearch.27,573-580.PriceA.L.,JonesN.C.andPevznerP.A.Denovoidentificationofrepeatfamiliesinlargegenomes.Bioinformatics.21,i351-i358(2005).A.F.A.Smit,R.Hubley&P.GreenRepeatMaskeratEdgar,R.C.&Myers,E.W.Piler:identificationandclassificationofgenomicrepeats.Bioinformatics21,i152-158Xu,Z.&Wang,H.Ltr_finder:anefficienttoolforthepredictionoffull-lengthltrretrotransposons.Nucl.AcidsRes.35,W265-268(2007).3.2.2注注釋包括結(jié)構(gòu)注釋和功能注釋兩部分,我們首先通過各種方法預(yù)測的位置及結(jié)構(gòu),然后再對GenetranscriptlengthAverageCDSlength(bp)exonAverageexonlength(bp)intronlengthDe Final注:該表中的轉(zhuǎn)錄本不含UTR區(qū)域表表3.10 集
>=20%overlap >=50%overlap >=80%overlap 注:P:表示有denovo預(yù)測的結(jié)果支持;C:表示有cDNA/EST預(yù)測數(shù)據(jù)支持;H:表示有同源預(yù)測數(shù)據(jù)支持;single表示只有一次數(shù)據(jù)支持;more表示有多次數(shù)據(jù)支持;overlap:表示最終的集分別與各種預(yù)測結(jié)果的CDS 圖3.7整合RNA-Seq數(shù)據(jù)的集信息統(tǒng)計。Identical:集中來源于GLEAN有RNA-Seq數(shù)據(jù)支持(與RNA-Seq中蛋白序列長度一致、相似度100%)的數(shù);Part:來源于GLEAN,有RNA-Seq數(shù)據(jù)支持(與RNA-Seq中蛋白序列相似度>=95%,覆蓋度>=90%)的數(shù);All:來源于GLEAN且同時具有Identical和Part兩類支持的數(shù);No:來源于GLEAN,無RNA-Seq數(shù)據(jù)支持或者低序列相似度的數(shù);CUFF:來源于RNA-Seq的數(shù)。圖3.8結(jié)構(gòu)預(yù)測結(jié)果集統(tǒng)計圖(與近緣物種的元件比較),window指橫坐標上每個點所代表的長度 Percent 參考文獻Kent,W.J.BLAT-theBLAST-likealignmenttool.GenomeRes.12,Birney,E.,Clamp,M.&Durbin,R.GeneWiseandGenomewise.GenomeRes.14,988–995MarioSe,OliverKeller,IrfanGunduz,AlecHayes,StephanWaack,BurkhardMorgenstern(2006)"AUGUSTUS:abinitiopredictionofalternativetranscripts"NucleicAcidsResearch,34:W435-W439.TrapnellC,WilliamsBA,PerteaG,MortazaviA,KwanG,vanBarenMJ,SalzbergSL,WoldBJ,PachterL.TranscriptassemblyandficationbyRNA-Seqrevealsunannotatedtranscriptsandisoformswitchingduringcelldifferentiation.Nat.Biotechnol.28:511-515(2010).Majoros,W.H.,Pertea,M.&Salzberg,S.L.TigrScanandGlimmerHMM:twoopensourceabinitioeukaryoticgene-Bioinformatics20,2878-9Bairoch,A.&Ap,R.TheSWISS-PROTproteinsequencedatabaseanditssupplementTrEMBLin2000.Nucl.AcidsRes.28,45-48(2000).Zdobnov,E.M.&Ap,R.InterProScan-anintegrationplatformforthesignature-recognitionmethodsinInterPro.Bioinformatics17,847-848(2001).Ashburner,M.etal.GeneOntology:toolfortheunificationofbiology.NatGenet25,25-29Kanehisa,M.&Goto,S.KEGG:kyotoencyclopediaofgenesandgenomes.NucleicAcidsRes28,27-30非編碼RNA注有重要的生物學(xué)功能。miRNA可降解其靶或抑制靶翻譯成蛋白質(zhì),具有沉默的功能。tRNA3.12非編碼RNA Averagelength Totallength %of
參考文獻Griffiths-Jones,S.etal.Rfam:annotatingnon-codingRNAsincompletegenomes.NucleicAcidsRes33,D121-4ToddM.LoweandSeanR.Eddy.tRNAscan-SE:aprogramforimproveddetectionoftransferRNAgenesingenomicsequence.NucleicAcidsRes(1997).3.3.1鑒 GenesAverageper注:注:Unclusteredgenes指的是該物種特有的gene的個數(shù);Uniquefamilies圖3.9XXX,XXX,XXX,XXX,XXX,XXX和XXX組之間的同源數(shù)目比圖3.10XXX,XXX,XXX和XXX組中同源數(shù)目Venn系統(tǒng)發(fā)育分我們用單拷貝構(gòu)建物種發(fā)育樹。不同物種的變異速率和該物種的大小或者世代周期有關(guān),分化時間估3.12多個物種的分化時間估算.樹枝上的藍色數(shù)字表示估算出的分化年代(millionyearsago,Mya),XXX-XXX分化時(X~Xmillionyearsago)作為校正時間,來自已的文獻組共線性分共線性片段指同一個物種內(nèi)部或者兩個物種之間,由于(組、或者大片段復(fù)制)或者物種分化而產(chǎn)生的大片段的同源性現(xiàn)象。在該同源片段內(nèi)部,在功能上以及排列順序上都是圖的形式可視化的表現(xiàn)出來,對兩組數(shù)據(jù)通過比對分析,發(fā)現(xiàn)他們之間存在的共線性關(guān)系。
#of
3.14XXXXXX共線性結(jié)果統(tǒng)#ofAverageCollinearGenesinPer
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年遜克縣招教考試備考題庫帶答案解析(必刷)
- 2025年邵陽工業(yè)職業(yè)技術(shù)學(xué)院馬克思主義基本原理概論期末考試模擬題及答案解析(奪冠)
- 2025年重慶建筑科技職業(yè)學(xué)院單招職業(yè)傾向性測試題庫附答案解析
- 2025年長沙南方職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫帶答案解析
- 2025年陜西鐵路工程職業(yè)技術(shù)學(xué)院馬克思主義基本原理概論期末考試模擬題帶答案解析
- 2026年三峽電力職業(yè)學(xué)院單招職業(yè)傾向性考試題庫附答案解析
- 2026年上海電機學(xué)院單招職業(yè)適應(yīng)性考試題庫附答案解析
- 2026年亳州職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫附答案解析
- 2026年時事政治測試題庫【含答案】
- GFC酒店管理培訓(xùn)制度
- DB3210T1036-2019 補充耕地快速培肥技術(shù)規(guī)程
- 混動能量管理與電池?zé)峁芾淼膮f(xié)同優(yōu)化-洞察闡釋
- T-CPI 11029-2024 核桃殼濾料標準規(guī)范
- 統(tǒng)編版語文三年級下冊整本書閱讀《中國古代寓言》推進課公開課一等獎創(chuàng)新教學(xué)設(shè)計
- 《顧客感知價值對綠色酒店消費意愿的影響實證研究-以三亞S酒店為例(附問卷)15000字(論文)》
- 勞動仲裁申請書電子版模板
- 趙然尊:胸痛中心時鐘統(tǒng)一、時間節(jié)點定義與時間管理
- 家用燃氣灶結(jié)構(gòu)、工作原理、配件介紹、常見故障處理
- ZD(J)9-型電動轉(zhuǎn)轍機
- DB21T 3414-2021 遼寧省防汛物資儲備定額編制規(guī)程
- 2024年度中國LCOS行業(yè)研究報告:廣泛應(yīng)用于投影、AR/VR、車載HUD的微顯示技術(shù)
評論
0/150
提交評論