生工生物宏基因組全基因組測序項(xiàng)目報(bào)告_第1頁
生工生物宏基因組全基因組測序項(xiàng)目報(bào)告_第2頁
生工生物宏基因組全基因組測序項(xiàng)目報(bào)告_第3頁
生工生物宏基因組全基因組測序項(xiàng)目報(bào)告_第4頁
生工生物宏基因組全基因組測序項(xiàng)目報(bào)告_第5頁
已閱讀5頁,還剩113頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1/65生工生物宏基因組全基因組測序項(xiàng)目報(bào)告合同編號合同編號客戶單位東北師范大學(xué)報(bào)告時(shí)間2025-05-112/65?一.術(shù)語解釋?二.本項(xiàng)目使用軟件與數(shù)據(jù)庫?2.1軟件?2.2數(shù)據(jù)庫?三.項(xiàng)目分析流程?3.1分析流程圖?3.2詳細(xì)分析內(nèi)容列表?3.3分析步驟及方法簡介?四.分析結(jié)果展示?4.1數(shù)據(jù)評估及質(zhì)控?4.2拼接組裝?4.3基因預(yù)測?4.4非冗余基因集構(gòu)建?4.5基因豐度表?4.6基因多樣性分析?4.7物種分類學(xué)注釋?4.8KEGG功能注釋?4.9COG功能注釋?4.10抗生素抗性基因注釋?4.11碳水化合物活性酶注釋?4.12GO功能注釋?4.13SEED功能注釋?4.14BacMet功能注釋?4.15VFDB功能注釋?4.16TCDB功能注釋?4.17PHI功能注釋?4.18ARGS功能注釋?4.19豐度柱狀圖?4.20共線性關(guān)系圖?4.21樣本聚類樹與柱狀圖組合分析?4.22豐度Heatmap熱圖?4.23Network網(wǎng)絡(luò)分析?4.24多級物種組成圖?4.25分類學(xué)系統(tǒng)組成樹?4.26層級注釋GraPhlAn可視化分析?4.27多樣本比較Venn圖?4.28Hcluster層次聚類樹?4.29樣本間距離Heatmap熱圖?4.30PCA主成分分析?4.31PCoA主坐標(biāo)分析?4.32NMDS非度量多維尺度分析?六.參考文獻(xiàn)3/65一.術(shù)語解釋Bp:base-pair,堿基對,讀長的單位,每一個(gè)bp指一對互補(bǔ)的堿基。Read:讀長,測序數(shù)據(jù)中每一條序列就是一個(gè)read。Raw_reads:原始數(shù)據(jù)。Clean_reads:QC之后的數(shù)據(jù)。Fastq:序列數(shù)據(jù)存儲(chǔ)的標(biāo)準(zhǔn)格式之一,每4行為一條read的信息。包含測序read名,序列,正反鏈標(biāo)示,序列質(zhì)量值。Pair-end測序:雙端測序,兩端均測序。質(zhì)量評分:指的是一個(gè)堿基的錯(cuò)誤概率的對數(shù)值,即質(zhì)量評分越高,錯(cuò)誤概率越小。QC:Qualitycontrol,即質(zhì)量控制。宏基因組(Metagenomics):是一種以環(huán)境樣品中的微生物群體基因組為研究對象,以功能基因篩選和測序分析為研究手段,以微生物多樣性、種群結(jié)構(gòu)、進(jìn)化關(guān)系、功能活性、相互協(xié)作關(guān)系及與環(huán)境之間的關(guān)系為研究目的的新的微生物研究方法。Contig序列:由來源于同一基因組,具有overlapping關(guān)系的reads拼接而成的片段。N50/N90:將組裝所得片段(Scaffold/Contig)按照從長到短排序并累加求和,累加值達(dá)到基因組總長度一半時(shí)的片段長度即是該組裝結(jié)果的N50值,通常用來衡量組裝情況;N90與之類似,即累加長度為基因組總長90%時(shí),該片段的長度?;斐仄唇?假設(shè)有5個(gè)樣品被測序,經(jīng)過質(zhì)量控制后,各樣品分別單獨(dú)進(jìn)行拼接,如每個(gè)樣品中均存在一種低豐度的物種A,其測序深度只有2X,那么屬于該物種的序列很難被組裝,將所有樣品中未被組裝的序列合并在一起,此時(shí)物種A的測序深度將達(dá)到10X,就有可能拼接得到該物種的序列,此種方法極大的提高了發(fā)現(xiàn)低豐度物種的可能性。AbInitioApproach:基因識別的一種方法,大概的含義是從頭開始識別一個(gè)基因所具有的完整結(jié)構(gòu)特征。在原核生物中,基因往往具有特定且容易識別的啟動(dòng)子序列,并且其不含內(nèi)含子,基因的編碼區(qū)是一個(gè)連續(xù)的開放閱讀框。除此之外,原核生物的蛋白質(zhì)編碼區(qū)還具有其它一些容易判別的統(tǒng)計(jì)學(xué)特征,這些特性使得原核生物的基因識別特別適合采用AbInitio方法,該方法的平均準(zhǔn)確度能達(dá)到90%以上。非冗余基因集基因集:這一概念類似于細(xì)菌群落組成譜研究中的OTU,由于宏基因組測序所得到的數(shù)據(jù)量通常很大,為了降低后續(xù)分析成本,在序列拼接和基因識別之后,將所得到的基因按照相似性進(jìn)行聚類,每個(gè)聚類的基因挑選一個(gè)代表序列構(gòu)成非冗余基因集,以降低后續(xù)功能注釋所需的計(jì)算成本。Binning:將reads或者contigs根據(jù)它們的性質(zhì)分配到不同的OTU中,進(jìn)而拼接得到單一菌種的基因組序列,宏基因組中獲得一個(gè)完整合適的單微生物序列,大概需要測序結(jié)果中有該微生物全基因組6-8倍的覆蓋率。共豐度基因(Co-abundancegenes,CAG)聚類分析:通過基因豐度變化趨勢對不同的基因進(jìn)行聚類的一種方法,來自同一物種的基因,在不同樣品中其豐度變化會(huì)保持一致的趨勢,可以根據(jù)這個(gè)變化趨勢判定基因的物種來源。宏基因組尺度關(guān)聯(lián)分析(MWAS):MWAS類似于GWAS,是通過宏基因組尺度的分析,識別與性狀相關(guān)的宏基因組marker單元,主要的應(yīng)用方向?yàn)橥ㄟ^腸道菌群的挖掘,發(fā)現(xiàn)與疾病或者其它宿主表型性狀相關(guān)的微生物或基因marker,用于診斷宿主的疾病,進(jìn)一步分析其分子機(jī)制,為疾病治療提供可行性方案。寡核苷酸多態(tài)性:在不同微生物的DNA中,短的寡核苷酸并不是均一的分布的,其具有物種特異性。相近物種的DNA序列一般都會(huì)擁有相似寡核苷酸概率,而不相似的物種則不一樣,根據(jù)拼接得到序列的寡核苷酸分布模式,即可評估其物種來源。4/65Binning過程中的coverage:測序得到的屬于同一個(gè)細(xì)菌基因組的Reads的數(shù)量,相當(dāng)于宏基因組中的測序深度。PCA分析:在多元統(tǒng)計(jì)分析中,主成分分析PCA(PrincipalComponentAnalysis)是一種簡化數(shù)據(jù)集的技術(shù)。主成分分析經(jīng)常用于減少數(shù)據(jù)集的維數(shù),同時(shí)保持?jǐn)?shù)據(jù)集中對方差貢獻(xiàn)最大的特征,從而有效地找出數(shù)據(jù)中最“主要”的元素和結(jié)構(gòu),去除噪音和冗余,將原有的復(fù)雜數(shù)據(jù)降維,揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡單結(jié)構(gòu)。PCoA分析:PCoA分析(PrincipalCo-ordinatesAnalysis)是一種研究數(shù)據(jù)相似性和差異性的可視化方法。進(jìn)過一系列的計(jì)算之后,選擇主要的,排在前幾位的特征值,對樣本之間的關(guān)系進(jìn)行描述。NMDS分析:非度量多維尺度分析,是一種將多維空間的研究對象簡化到低維空間進(jìn)行定位,分析和歸類,同時(shí)又保留對象間原始關(guān)系的數(shù)據(jù)分析方法。其特點(diǎn)是根據(jù)樣品中包含的物種信息,以點(diǎn)的形式反映在多維空間上,而對不同樣品間的差異程度,則是通過點(diǎn)與點(diǎn)的距離體現(xiàn)的,最終獲得樣品的空間定位點(diǎn)圖。Node:網(wǎng)絡(luò)圖概念,每一個(gè)點(diǎn)就是一個(gè)node,在本項(xiàng)目network中,node有三種形式:樣本、功能分類和物種分類。Edge:節(jié)點(diǎn)之間具有某種相互作用,可以沒有方向,也可以應(yīng)用箭頭表示相互作用的施加者和承受者,沒有箭頭的網(wǎng)絡(luò)稱為undirected,有箭頭的網(wǎng)絡(luò)成為directed,在微生物群落研究中,通常邊是沒有方向的,因?yàn)橥ǔ碚f我們無法分辨微生物之間相互作用的因果關(guān)系,可以使用邊的寬度表示相互作用的強(qiáng)弱,通常為不同微生物或功能基因間的相關(guān)系數(shù)。相關(guān)點(diǎn)(Neighbors):通過邊與一個(gè)節(jié)點(diǎn)相連的其它節(jié)點(diǎn),稱為這個(gè)節(jié)點(diǎn)的neighbors。度/連通性(Degree/Connectivity):一個(gè)節(jié)點(diǎn)與其它節(jié)點(diǎn)相連接的邊的數(shù)目,在directed網(wǎng)絡(luò)中degree分為in-degree和out-degree。hub:在網(wǎng)絡(luò)中degree最高的節(jié)點(diǎn)稱為hub,其可以代表與其相連的其它節(jié)點(diǎn)。Density:網(wǎng)絡(luò)中真實(shí)存在的邊與理論上可能存在邊(所有節(jié)點(diǎn)兩兩相連)的比例。Centralization:評估網(wǎng)絡(luò)中只有一個(gè)hub的趨勢。Heterogeneity:評估網(wǎng)絡(luò)中含有多個(gè)hub的趨勢。DegreeDistribution:網(wǎng)絡(luò)圖中所有節(jié)點(diǎn)degree的頻數(shù)分布,網(wǎng)絡(luò)圖中所有節(jié)點(diǎn)的相互作用是隨機(jī)連接節(jié)點(diǎn)產(chǎn)生時(shí),degreedistribution符合柏松分布,如果一個(gè)網(wǎng)絡(luò)的Degreedistribution與柏松分布有明顯的差異,則此網(wǎng)絡(luò)不是隨機(jī)產(chǎn)生的。Scale-free:如果一個(gè)網(wǎng)絡(luò)的degreedistribution接近一個(gè)power-lawk-α分布,稱這個(gè)網(wǎng)絡(luò)為scale-free,α為degree常數(shù)。當(dāng)α>3時(shí),不同的hub之間不具有相關(guān)性;當(dāng)2<α<3時(shí),hub之間具有等級層次;當(dāng)α=2時(shí),最大的hub與幾乎所有的節(jié)點(diǎn)相連。Neighborhoodconnectivities:一個(gè)節(jié)點(diǎn)的所有neighbors的connectivity的平均數(shù)。Modularity:用于表示網(wǎng)絡(luò)是否可以分為若干個(gè)模塊的參數(shù),參數(shù)在0-1之間,Averageclusteringcoefficientdistribution是對從具有2-n個(gè)neighbor的節(jié)點(diǎn)的平均clusteringcoefficient的分布排列,用于鑒定網(wǎng)絡(luò)中的modularity。Topologicalcoefficients:與一個(gè)節(jié)點(diǎn)至少具有一個(gè)共有neighbor的其它節(jié)點(diǎn)與該節(jié)點(diǎn)共有neighbor的平均數(shù),與該節(jié)點(diǎn)neighbor數(shù)目的比值,用于評估該節(jié)點(diǎn)在網(wǎng)絡(luò)中具有共有neighbor的趨勢。Closeness:評估信息從該節(jié)點(diǎn)傳播到網(wǎng)絡(luò)中其它節(jié)點(diǎn)的速度。Betweenness:反應(yīng)一個(gè)節(jié)點(diǎn)對網(wǎng)絡(luò)中其它節(jié)點(diǎn)的控制力的大小。Robustness:外界環(huán)境條件的改變或干擾對網(wǎng)絡(luò)結(jié)構(gòu)的影響,如一些節(jié)點(diǎn)degree的改變或完全丟失,對整體的網(wǎng)絡(luò)結(jié)構(gòu)影響的大小。5/65Smallworld:局部小世界,表示網(wǎng)絡(luò)中節(jié)點(diǎn)之間的平均距離很短,意味著網(wǎng)絡(luò)中的節(jié)點(diǎn)總是與其它節(jié)點(diǎn)緊密相關(guān)。6/65二.本項(xiàng)目使用軟件與數(shù)據(jù)庫SoftWareNameVersionRPackageVersionfastp[1]0.36vegan2.0-10Bowtie2[2]2.1.0VennDiagram1.6.16DIAMOND[3]0.8.20ggtern2.1.1IDBA-UD[4]1.1.2igraph1.0.1megahit[5]1.2.9circlize0.4.8SPAdes[6]3.13ggraph2.0.0Prodigal[7]2.60ape5.3CD-HIT[8]2.60ade41.7-13NCBIBlast+[9]2.28randomForest4.6-14HMMER3[10]3.1b1corrplot0.84SAMtools[11]0.1.18Krona[12]2.6.1GraPhlAn[13]1.1.3ETE3[14]3.0.0b35canopy[15]1.1.3STAMP[16]2.1.3LEfSe[17]1.1.0kraken2[18]2.0.8metaWRAP[19]1.3.2salmon[20]1.5.0checkm[21]1.1.3R3.6.3KEGG[22]數(shù)據(jù)庫:http://www.kegg.jp7/65NCBINR數(shù)據(jù)庫:/eggNOG[23]數(shù)據(jù)庫:http://eggnogdb.embl.de/Uniprot[24]數(shù)據(jù)庫:/ARDB[25]數(shù)據(jù)庫:/CAZy[26]數(shù)據(jù)庫:/SEED[27]數(shù)據(jù)庫:/wiki/Main_PageTCDB[28]數(shù)據(jù)庫:PHI-base[29]數(shù)據(jù)庫:/index.jspCARD[30]數(shù)據(jù)庫:https://card.mcmaster.ca/SARG[31]數(shù)據(jù)庫:https://smile.hku.hk/SARGsBactMet[32]數(shù)據(jù)庫:https://smile.hku.hk/SARGsVFDB[33]數(shù)據(jù)庫:https://smile.hku.hk/SARGsGO[34]數(shù)據(jù)庫:/8/65三.項(xiàng)目分析流程3.2詳細(xì)分析內(nèi)容列表詳細(xì)分析內(nèi)容詳細(xì)分析內(nèi)容1)原始數(shù)據(jù)質(zhì)量評估2)數(shù)據(jù)質(zhì)控1.數(shù)據(jù)評估及質(zhì)控分析項(xiàng)目說明9/65分析項(xiàng)目詳細(xì)分析內(nèi)容說明2.拼接組裝1)基因功能注釋3.基因預(yù)測1)基因預(yù)測4.基因集分析1)非冗余基因集構(gòu)建MGS分析樣本數(shù)目需大于5;多樣性差異分析要求分組大于2,且重復(fù)不少于32)構(gòu)建基因豐度表3)基因多樣性以及差異分析4)MGS基于基因豐度進(jìn)行序列聚類分析5.Binning分箱1)binning分箱要求樣本數(shù)目大于202)MAGs物種鑒定3)MAGs完整度與污染度評估6.物種與功能注釋1)物種分類學(xué)注釋SARG抗性數(shù)據(jù)庫基于reads比對注釋,無法關(guān)聯(lián)基因2)KEGG功能注釋3)COG功能注釋4)CARD抗生素抗性基因注釋5)CAzy碳水化合物活性酶注釋6)GO功能注釋7)SEED功能注釋8)BacMet重金屬抗性功能注釋9)VFDB毒力因子功能注釋10)TCDB轉(zhuǎn)運(yùn)蛋白功能注釋11)PHI功能注釋12)SARG環(huán)境抗生素抗性注釋7.物種與功能組成分析1)豐度柱狀圖部分分析僅限于物種可做2)沖擊柱狀圖3)共線性關(guān)系圖4)豐度箱型圖5)樣本聚類樹與柱狀圖組合分析6)豐度Heatmap熱圖7)多級物種組成圖,僅限于物種8)分類學(xué)系統(tǒng)組成樹,僅限于物種10/65分析項(xiàng)目分析項(xiàng)目詳細(xì)分析內(nèi)容說明9)層級注釋GraPhlAn可視化分析,僅限于物種10)層級注釋iTOL可視化分析,僅限于物種8.物種與功能beta多樣性分析1)樣本間距離箱型圖要求樣本大于4,分析4,5要求分組大于2,組中樣本重復(fù)不小于32)PCA/PCoA/NMDS排序圖3)層級聚類分析4)ANOSIM樣本間相似度檢驗(yàn)5)PREMANOVA置換多元方差分析8.物種與功能差異分析1)Metastats差異分析要求分組分析大于2,組中樣本重復(fù)不小于32)Lefse判別分析3)Randomforest組間隨機(jī)森林分析9.物種與功能環(huán)境因子關(guān)聯(lián)分析1)VIF與變量篩選要求環(huán)境因子,且環(huán)境因子數(shù)目必須小于樣本數(shù)目2)RDA/CCA/dbRDA約束性排序分析3)環(huán)境因子相關(guān)性分析4)mantel檢驗(yàn)5)環(huán)境因子貢獻(xiàn)度分析10.物種與功能共線性分析1)Network共線性網(wǎng)絡(luò)分析要求樣本大于4,如有分組,單一分組中樣本重復(fù)不小于3 3.3分析步驟及方法簡介1.數(shù)據(jù)評估及質(zhì)控:對測序的原始數(shù)據(jù)通過Fastp進(jìn)行質(zhì)量評估,數(shù)據(jù)過濾,有效reads統(tǒng)計(jì)等,去除來源于人體和提供的宿主基因組的污染序列,得到相對準(zhǔn)確的有效數(shù)據(jù)。2.拼接組裝:首先使用megahit進(jìn)行多樣本混合拼接,得到初步拼接contig序列。隨后使用bowite2將cleanreadsmap回拼接結(jié)果,提取unmappedreads,并使用SPAdes再次拼接,得到低豐度contigs。結(jié)合初步拼接結(jié)果,最終得到較為完整的contigs組裝結(jié)果。3.Binning分箱:宏基因組Binning是將混合序列組裝得到的contigs或scaffold按物種分開并重新歸類的過程。這些重新歸類后的contigs序列稱之為宏基因組組裝基因組(MAGs)。根據(jù)四核苷酸頻率(TNF)和豐度變化模式(ABD)分別區(qū)分不同物種來源的序列和親緣關(guān)系較為接近的序列。使用軟件為Metawrap組合套件,依次完成Bin分選,Bin提純,Bin定量,BIn重組裝和Bin鑒定等過程。最終經(jīng)過濾后得到完整度較高且低污染度的單菌基因組草圖。11/654.基因預(yù)測:采用Prodigal對拼接結(jié)果進(jìn)行ORF預(yù)測,選擇長度大于等于100bp的基因,并將其翻譯成氨基酸序列。5.基因集構(gòu)建:對于各樣本的基因預(yù)測結(jié)果,采用CD-HIT軟件進(jìn)行去冗余,以獲得非冗余的基因集。6.基因集豐度:關(guān)于基因集的豐度計(jì)算有兩種策略可供選擇:1)基于非比對的方式,Salmon采用雙向并行推理(dual-phase)算法以及構(gòu)建偏差模型的方法準(zhǔn)確定量各個(gè)樣本中基因的豐度,結(jié)合基因長度,可以計(jì)算基因豐度信息。2)基于比對方式,采用Bowtie2將各樣本Cleanreads比對到非冗余基因集序列上,利用SAMtools獲得比對上的reads,再考慮到基因長度,計(jì)算基因在各樣本的豐度信息;我們采用基于bowtie2短序列比對的方法進(jìn)行分析,也可以指定非比對的方法[35]。7.基因集功能注釋:將基因集與NR、KEGG、eggNOG、ARDB、CAZy、SEED等數(shù)據(jù)庫進(jìn)行比對,獲得基因的物種注釋信息和功能注釋信息。并根據(jù)基因集豐度得到功能豐度和物種豐度。8.豐度分析:基于基因集豐度信息和注釋信息,得到物種豐度和功能豐度,進(jìn)行物種與功能組成分析、物種與功能差異分析、樣本比較分析等多方向的統(tǒng)計(jì)分析和探索,并對結(jié)果做可視化展示,挖掘數(shù)據(jù)中的有效信息,揭露隱含的規(guī)律,驗(yàn)證實(shí)驗(yàn)假設(shè)和發(fā)現(xiàn)新的問題。分析備注:(1)當(dāng)沒有提供環(huán)境因子或理化指標(biāo)等外源數(shù)據(jù),無法提供環(huán)境因子相關(guān)性以及模型預(yù)測分析等;(2)當(dāng)沒有提供分組信息,我們默認(rèn)按照單個(gè)樣本作為分組,此時(shí)不再提供差異統(tǒng)計(jì)分析;(3)當(dāng)樣品數(shù)目小于3個(gè)時(shí),無法進(jìn)行排序分析和聚類分析,例如PCA,NMDS,dbRDA,CCA/RDA,聚類分析,豐度聚類熱圖分析;(4)當(dāng)分組內(nèi)的生物學(xué)重復(fù)數(shù)目小于3個(gè)時(shí),諸如Adonis,Anosim,Metastat,LEfSe等統(tǒng)計(jì)分析皆沒有統(tǒng)計(jì)學(xué)意義,將不進(jìn)行此類分析;(5)如果組裝效果過差,則基于Contig的binning分析將無法進(jìn)行,建議樣本數(shù)目大于5個(gè);(6)當(dāng)樣本數(shù)目小于6個(gè)或組裝效果過差時(shí),則基于基因的binning分析將無法進(jìn)行;如果分組數(shù)目超過兩組時(shí),基于基因的binning分析將無意義;12/65四.分析結(jié)果展示二代測序得到的原始圖像數(shù)據(jù)文件經(jīng)堿基識別(BaseCalling)分析轉(zhuǎn)化為原始測序序列(SequencedReads) ,我們稱之為RawData或RawReads,結(jié)果以FASTQ(簡稱為fq)文件格式存儲(chǔ),其中包含測序序列(reads)的序列信息以及其對應(yīng)的測序質(zhì)量信息。FASTQ格式文件中每個(gè)read由四行描述,如下所示:@ST-E00159:113:000000000-AFJGE:1:1101:12409:12861:N:0:TCTACA+其中第一行以“@”開頭,隨后為測序標(biāo)識符(SequenceIdentifiers)和描述文字(選擇性部分);第二行是堿基序列;第三行以“+”開頭,隨后為測序標(biāo)識符(選擇性部分);第四行是對應(yīng)堿基的測序質(zhì)量,該行中每個(gè)字符對應(yīng)的ASCII值減去33,即為對應(yīng)第二行堿基的測序質(zhì)量值。Reads的堿基測序質(zhì)量值(Phredqualityscore,Qphred)是測序錯(cuò)誤率(base-callingerrorprobabilities,P)的整數(shù)映射,映射關(guān)系為:Qphred=-10log10(P)。PhredqualityscoresarePhredqualityscoresarelogarithmicallylinkedtoerrorprobabilitiesPhredQualityScoreProbabilityofIncorrectBaseCallBaseCallAccuracy90%2099%3099.9%401in10,00099.99%13/65我們使用fastp對原始數(shù)據(jù)質(zhì)量值等信息進(jìn)行統(tǒng)計(jì)。并繪制堿基的質(zhì)量分布圖結(jié)果目錄:1_QC/1_raw_data_infor/All_raw_data_infor.xls:原始數(shù)據(jù)統(tǒng)計(jì)總表。表1.1各樣本原始數(shù)據(jù)信息統(tǒng)計(jì)60R1Sluge60R4TotalReadsCount(#)411790764037076661203534TotalBasesCount(bp)617686140060556149009180530100AverageReadLength(bp)150150150Q20BasesCount(bp)599420900559360695238936315225Q20BasesRatio(%)97.04%98.03%97.34%Q30BasesCount(bp)574660361257098079478551925292Q30BasesRatio(%)93.03%94.29%93.15%GCcontent(%)50.94%61.87%47.90%注:若樣本數(shù)目較多,此處只會(huì)截取部分樣本數(shù)據(jù),完整數(shù)據(jù)請見結(jié)果文件夾中的對應(yīng)文件TotalReadsCount:樣本所有reads數(shù)目,為reads1與reads2數(shù)目之和TotalBaseCount:所有堿基數(shù)目,即數(shù)據(jù)量AverageReadLength:平均序列長度Q20BaseCount:堿基質(zhì)量在Q20以上的數(shù)目Q20BaseRatio:堿基質(zhì)量在Q20以上的比例GCBaseRatio:GC含量1_Raw_data_infor/*.raw_data_infor.xls:單樣本測序原始序列數(shù)據(jù)統(tǒng)計(jì)。解釋同上1_Raw_data_infor/*.raw_data_mean_qual.pdf:單樣本測序堿基質(zhì)量分布圖。14/65圖1.2堿基質(zhì)量分布圖橫坐標(biāo)為reads的堿基位置,縱坐標(biāo)為所有reads該位置堿基的平均測序質(zhì)量,虛線左側(cè)0150bp為read-1測序質(zhì)量分布,右側(cè)150300bp為read-2測序質(zhì)量分布。堿基質(zhì)量分布檢查用于檢測在測序長度范圍內(nèi),有無某些堿基位置存在異常的高錯(cuò)誤率,例如如果中間位置的堿基測序錯(cuò)誤率顯著高于其他位置,則可能存在異常堿基。1_Raw_data_infor/*.raw_data_base_percent.pdf:單樣本測序堿基含量分布圖。15/65圖1.3單樣本測序堿基含量分布圖橫坐標(biāo)為reads的堿基位置,縱坐標(biāo)為所有reads該位置四堿基(ATGC)含量,虛線左側(cè)堿基質(zhì)量分布檢查用于檢測在測序長度范圍內(nèi),有無某些堿基位置存在異常的堿基分布,一般情況下四堿基含量均一。測序得到的原始數(shù)據(jù),里面含有帶接頭的、低質(zhì)量的序列。為了保證信息分析質(zhì)量,必須對原始數(shù)據(jù)過濾,得到CIean數(shù)據(jù)。使用Fastp主要包括以下幾個(gè)步驟:1)去除reads中的接頭序列;Fastp可以自動(dòng)化地查找接頭序列并進(jìn)行剪裁。尤其是PEreads,根據(jù)readsoverIap可以更準(zhǔn)確的查找接頭,對于接頭堿基不匹配的情況表現(xiàn)尤為突出。2)全局裁剪和劃窗質(zhì)量裁剪;Fastp對所有reads的頭部和尾部進(jìn)行統(tǒng)一裁剪,去除一些測序質(zhì)量不好的cycIe。從reads的39到59方向或59到39方向計(jì)算固定劃窗內(nèi)的堿基平均質(zhì)量,低于平均質(zhì)量值Q20的劃窗進(jìn)行裁剪,劃窗默認(rèn)為4;3)校正堿基;查找每一對reads的overIap,對區(qū)間內(nèi)不一致堿基進(jìn)行適當(dāng)矯正;4)質(zhì)量過濾;對低質(zhì)量序列進(jìn)行剔除,包括含大量模糊堿基序列(一條reads中有40%的堿基質(zhì)量低于Q15)以及長度低于35nt的雙端reads;經(jīng)過reads的質(zhì)控步驟,為了得到更為有效的微生物數(shù)據(jù),我們需要進(jìn)行去宿主污染。16/65去宿主污染:我們使用bowtie2將reads比對到人類或其他宿主基因組上(需提供參考基因組),去除比對相似性高的來源于宿主基因組或污染的reads。結(jié)果目錄:1_QC/2_QC_data_infor/All_clean_data_infor.xls:質(zhì)控后數(shù)據(jù)統(tǒng)計(jì)總表。表1.2質(zhì)控后數(shù)據(jù)統(tǒng)計(jì)表60R1Sluge60R4TotalReadsCount(#)400475044006779859852486TotalBasesCount(bp)599658060859606101678964513275AverageReadLength(bp)150149150Q20BasesCount(bp)586768695958476327628767800834Q20BasesRatio(%)97.85%98.10%97.81%Q30BasesCount(bp)564349314856271480198412518936Q30BasesRatio(%)94.11%94.41%93.84%GCcontent(%)50.99%61.96%47.86%注:若樣本數(shù)目較多,此處只會(huì)截取部分樣本數(shù)據(jù),完整數(shù)據(jù)請見結(jié)果文件夾中的對應(yīng)文件TotalReadsCount:樣本所有reads數(shù)目,為reads1與reads2數(shù)目之和TotalBaseCount:所有堿基數(shù)目,即數(shù)據(jù)量AverageReadLength:平均序列長度Q20BaseCount:堿基質(zhì)量在Q20以上的數(shù)目Q20BaseRatio:堿基質(zhì)量在Q20以上的比例GCBaseRatio:GC含量1_QC/2_QC_data_infor/All_QC_stat.xls:質(zhì)控后reads組成占比統(tǒng)計(jì)表。表1.3各樣本質(zhì)控?cái)?shù)據(jù)信息統(tǒng)計(jì)60R160R1Sluge60R4CleanReads97.8999.7798.47LowQuality2.080.231.480.025.0e-030.04Tooshort7.0e-033.0e-030.02注:若樣本數(shù)目較多,此處只會(huì)截取部分樣本數(shù)據(jù),完整數(shù)據(jù)請見結(jié)果文件夾中的對應(yīng)文件CleanReads(%):質(zhì)控后的cleanreads組成占比LowQuality(%):低質(zhì)量reads組成占比(Q20以下)TooMayN(%):模糊堿基以及含N堿基組成占比17/65Tooshort(%):質(zhì)控后短reads組成占比(15bp以下)4.2拼接組裝使用基于DeBruijngraph原理的拼接軟件megahit對cleanreads進(jìn)行多樣本混合拼接;之后將各樣本的cleanreads使用bowtie2比對至組裝后的contigs上,獲取unmappedPEreads;繼續(xù)使用SPAdes對未比對reads進(jìn)行混合拼接;對于兩次拼接組裝生成的contig,過濾小于500bp的序列,進(jìn)行統(tǒng)計(jì)和后續(xù)基因預(yù)測等下游分析。結(jié)果目錄:2_assemblyassembly_filter.fasta:各樣本混合組裝得到的contig序列。all_assembly_evalute.xls:所有樣本混合組裝結(jié)果統(tǒng)計(jì)表。表2.1組裝結(jié)果統(tǒng)計(jì)ValuesValues1716698N502371N701093N90623TraitsNo.:拼裝得到的contig數(shù)目N50:N50長度,將所有reads按照大小排列,位于contig數(shù)目的50%處的contig對應(yīng)的長度,N70等與之概念一致。N70:N70長度N90:N90長度MaxLen:長度最長的contig長度TotalLen:所有contig總長度AverageLen:contig平均長度GCcontent:contig的GC含量Ncontent:contig的未知堿基含量Contig_Number(>nbp):長度超過(n)bp的contigs數(shù)目all_assembly_length_density.pdf:混合組裝結(jié)果密度曲線分布圖。18/65圖2.2混合組裝結(jié)果密度曲線分布圖橫軸為長度區(qū)間,縱軸為密度,表示長度的密度曲線分布。all_assembly_length_distrubtion.xls:混合組裝結(jié)果長度分布統(tǒng)計(jì)表。使用Prodigal對拼接的contigs進(jìn)行ORF預(yù)測,選擇長度大于等于100bp的基因,作為候選基因集。結(jié)果目錄:4_Gene_Catalog/Gene_Predictassembly_prodigal.ffn:基因預(yù)測得到的核酸序列。all_gene_predict_evalute.xls:基因預(yù)測結(jié)果統(tǒng)計(jì)表。表3.1基因預(yù)測結(jié)果統(tǒng)計(jì)19/65ValuesValues2967790N50786N70573N90354TraitsNo.:預(yù)測得到的基因數(shù)目N50:N50長度N90:N90長度MaxLen:長度最長的基因長度TotalLen:所有基因總長度AverageLen:基因平均長度GCcontent:基因的GC含量all_gene_predict_length_density.pdf:預(yù)測基因長度密度曲線分布圖。圖3.2預(yù)測基因長度密度曲線分布圖橫軸為長度區(qū)間,縱軸為密度,表示預(yù)測基因長度的密度曲線分布all_gene_predict_length_distrubtion.xls:預(yù)測基因長度分布統(tǒng)計(jì)表。20/65all_gene_predict_length_distrubtion_barplot.pdf:預(yù)測基因長度分布圖。來自相同環(huán)境的樣品之間有很多微生物(或基因)是共有的,不同基因的豐度在樣本之間的變化可以反映樣本之間的共性和不同。因此可以通過構(gòu)建一個(gè)非冗余基因集(non-redundantgenecatalog來描述該類環(huán)境所有基因的整體信息。將所有樣品預(yù)測出來的基因序列,用CD-HIT軟件進(jìn)行聚類(參數(shù)為:95%identity、90%coverage每個(gè)類取最長的基因作為代表序列,構(gòu)建非冗余基因集。結(jié)果目錄:4_Gene_Catalog/Gene_Clustergene_catalog.ffn:基因集核酸序列。gene_catalog.faa:基因集蛋白序列。all_gene_catalog_evalute.xls:基因集結(jié)果統(tǒng)計(jì)表。表4.1基因集結(jié)果統(tǒng)計(jì)ValuesValues1438314N50840N70603N90387Traits文件描述同基因預(yù)測部分all_gene_catalog_length_density.pdf:Unique基因長度密度曲線分布圖。21/65圖3.2Unique基因長度密度曲線分布圖橫軸為長度區(qū)間,縱軸為密度,表示聚類基因長度的密度曲線分布all_gene_catalog_length_distrubtion.xls:基因集長度分布統(tǒng)計(jì)表。4.5基因豐度表使用Bowtie2將各樣本CleanReads與非冗余基因集進(jìn)行比對,利用Samtools統(tǒng)計(jì)每個(gè)基因被比對上的reads條數(shù),考慮到基因的長度,計(jì)算得到每個(gè)基因在樣品中的豐度,并匯總成所有樣本的基因豐度表。計(jì)算公式如下:其中,r表示比對上基因的reads數(shù)目,L為基因的長度。結(jié)果目錄:5_gene_profile/Gene_Abundance/22/65gene_profile_abundance.txt:基因集豐度統(tǒng)計(jì)表。gene_profile_reads.xls:基因集reads數(shù)統(tǒng)計(jì)表。表5.1基因reads數(shù)統(tǒng)計(jì)NameNameSluge20R460R1MGE132126MGE2019MGE3300MGE403第一列表示基因名字,后面每列均為各樣本在該基因的reads數(shù)?;蛟诓煌瑯颖鹃g會(huì)出現(xiàn)基因個(gè)數(shù)及豐富度有差異的現(xiàn)象,香農(nóng)維納(Shannon–Wiener)指數(shù)與辛普森(Simposon)等指數(shù)被用來表征微生物基因多樣性。通過單樣品的多樣性分析(Alpha多樣性)可以反映微生物群落的豐度和多樣性,包括一系列統(tǒng)計(jì)學(xué)分析指數(shù)估計(jì)環(huán)境群落的物種豐度和多樣性。同時(shí)可以根據(jù)分組信息,運(yùn)用統(tǒng)計(jì)學(xué)T檢驗(yàn)的方法,檢測每兩組之間的指數(shù)值是否具有顯著性差異。計(jì)算群落分布豐度(Communityrichness)的指數(shù)有:Sobs-theobservedrichness(/wiki/Sobs)Chao-theChao1estimator(/wiki/Chao)ACE-theACEestimator(/wiki/Ace)計(jì)算群落分布多樣性(Communitydiversity)的指數(shù)有::Shannon-theShannonindex(/wiki/Shannon)Simpson-theSimpsonindex(/wiki/Simpson)Coverage-theGood'scoverage(/wiki/Coverage)計(jì)算群落分布均勻度(Communityevenness)的指數(shù)有::Shannoneven-theShannonindex-basedmeasureofevenness(Pielou'sevennessindex,J)各指數(shù)算法如下:23/65Chao:用chao1算法估計(jì)群落中含OTU數(shù)目的指數(shù),chao1在生態(tài)學(xué)中常用來估計(jì)物種總數(shù),由Chao(1984)最早提出。計(jì)算公式如下:其中,Schao1=估計(jì)的OTU數(shù)Sobs=實(shí)際觀測到的OTU數(shù)n1=只含有一條序列的OTU數(shù)目(如"singletons")n2=只含有兩條序列的OTU數(shù)目(如"doubletons")Ace:用來估計(jì)群落中OTU數(shù)目的指數(shù),由Chao提出,是生態(tài)學(xué)中估計(jì)物種總數(shù)的常用指數(shù)之一,與Chao1的算法不同。計(jì)算公式如下:其中,abundrfr人ACE<0.80frACE≥0.80ni=含有i條序列的OTU數(shù)目Srare=含有"abund"條序列或者少于"abund"的OTU數(shù)目Sabund=多于"abund"條序列的OTU數(shù)目abund=“優(yōu)勢”O(jiān)TU的閾值,默認(rèn)為10Shannon:用來估算樣品中微生物多樣性指數(shù)之一。它與Simpson多樣性指數(shù)常用于反映alpha多樣性指數(shù)。Shannon值越大,說明群落多樣性越高。計(jì)算公式如下:其中,24/65Sobs=實(shí)際觀測到的OTU數(shù)ni=第i個(gè)OTU包含的序列數(shù)N=所有個(gè)體數(shù)目,此處為序列總數(shù)Simpson:用來估算樣品中微生物多樣性指數(shù)之一,由EdwardHughSimpson(1949)提出,在生態(tài)學(xué)中常用來定量描述一個(gè)區(qū)域的生物多樣性。Simpson指數(shù)值越大,說明群落多樣性越低。計(jì)算公式如下:其中,Sobs=實(shí)際觀測到的OTU數(shù)ni=第i個(gè)OTU包含的序列數(shù)N=所有個(gè)體數(shù)目,此處為序列總數(shù)Coverage:各樣品文庫的覆蓋率,其數(shù)值越高,則樣本中序列沒有被測出的概率越低。該指數(shù)實(shí)際反映了本次測序結(jié)果是否代表樣本的真實(shí)情況。計(jì)算公式如下:其中,n1=只含有一條序列的OTU數(shù)目(如"singletons")N=所有個(gè)體數(shù)目,此處為序列總數(shù)Shannoneven:是一個(gè)用于反映物種個(gè)體數(shù)目在群落中分配的均勻程度的指數(shù)。均勻度(evenness),是指一個(gè)群落或生境中全部物種個(gè)體數(shù)目的分配狀況。計(jì)算公式如下:其中,H,=實(shí)際觀察的Shannon多樣性指數(shù)H,max=ln(S),為最大的物種多樣性指數(shù),其中S為群落中的總物種數(shù)軟件:R-vegan。結(jié)果目錄:5_gene_profile/Alpha_Diversity/gene_alpha_div.xls:基因多樣性統(tǒng)計(jì)結(jié)果表。25/65表6.1基因多樣性統(tǒng)計(jì)SampleIDObservedChao1ACESluge428932438129.81443932.3920R4281383291102.15300811.6660R1243179252417.39260935.6160R2281612293630.01299000.3560R3237098250872.40258012.7560R4272767285552.10296027.08100thR1691899705320.08706395.44100thR2682682694902.58696647.60100thR3373658382061.46387406.17100thR4306023311846.28319345.63SampleID:樣本名稱Observed:觀測到的gene數(shù)目Chao1:基因豐富度Chao1指數(shù)ACE:基因豐富度ACE指數(shù)Shannon:Shannon多樣性指數(shù)Simpson:Simpson多樣性指數(shù),Simpson’sIndex本身用D表示,此處為了更符合直觀,使用1-D表示Simpson多樣性指數(shù)InvSimpson:經(jīng)典Simpson多樣性指數(shù)的倒數(shù)Coverage:基因覆蓋度指數(shù)4.7物種分類學(xué)注釋Nr(NCBInon-redundantproteinsequences)是NCBI官方收集的非冗余蛋白序列數(shù)據(jù)庫,它包括了所有非冗余GenBankCDS的翻譯序列,PDB(ProteinDataBank)蛋白數(shù)據(jù)庫、SwissProt蛋白數(shù)據(jù)庫及來自PIR(ProteinInformationResource)和PDF(ProteinResearchFoundation)等數(shù)據(jù)庫的蛋白序列。使用DIAMOND將基因集蛋白序列與Nr數(shù)據(jù)庫進(jìn)行blastp同源性比對,得到功能注釋和同源物種信息,篩選條件:E-value<1e-5,Score>60。同時(shí)根據(jù)NCBI的微生物分類學(xué)信息數(shù)據(jù)庫,獲得基因的物種分類注釋信息,并在Kingdom(界)、Phylum(門)、Class(綱)、Order(目)、Family(科)、Genus(屬)、Species(種)各個(gè)分類學(xué)水平上統(tǒng)計(jì)物種的相對豐度。26/65結(jié)果目錄:6_taxonomy/abundance/*_abundance.xls:物種層級豐度表。annotation/taxonmy_lineage_format.xls:物種分類學(xué)注釋結(jié)果表。表7.1物種分類學(xué)注釋結(jié)果表GeneIDTaxonIDKindomPhylumMGE12026780kBacteriapPlanctomycetotaMGE21948890kBacteriapPseudomonadotaMGE32073117kBacteriapChloroflexotaMGE42099675kBacteriapBacteroidotaGeneID:GeneIDTaxonID:基因?qū)?yīng)的NCBItax編號Kindom:基因注釋到的分類界水平Phylum:基因注釋到的分類門水平Class:基因注釋到的分類綱水平Order:基因注釋到的分類目水平Family:基因注釋到的分類科水平Genus:基因注釋到的分類屬水平Species:基因注釋到的分類種水平annotation/gene_catalog_species_stats.xls:注釋到門屬水平的基因數(shù)目。annotation/NR_Species_count.pdf:注釋到門屬水平的基因數(shù)目柱形圖。圖圖7.2門對應(yīng)種水平的基因數(shù)目分布圖27/65根據(jù)注釋到物種的基因表格,我們對門水平內(nèi)基因數(shù)進(jìn)行統(tǒng)計(jì)并按照基因數(shù)目排序,挑選前8個(gè)門進(jìn)行展示,每個(gè)門至多展示前5個(gè)物種。不同的顏色代表種水平對應(yīng)的門水平分類??v坐標(biāo)代表種分類學(xué)水平對應(yīng)的基因數(shù)目。4.8KEGG功能注釋KEGG(KyotoEncyclopediaofGenesandGenomes)是一個(gè)有關(guān)生物系統(tǒng)較完善的數(shù)據(jù)庫,整合了基因組、化學(xué)物質(zhì)和系統(tǒng)功能信息。其中:KEGGGENES搜集了所有已知的完整的基因組的基因蛋白序列,包含每個(gè)基因的最低限度信息。KEGGPathway存儲(chǔ)了各種生物學(xué)通路信息,包括代謝通路、合成通路、膜轉(zhuǎn)運(yùn)、信號傳遞、細(xì)胞周期以及疾病相關(guān)通路等。使用DIAMOND將基因集蛋白序列與KEGG數(shù)據(jù)庫進(jìn)行比對,得到序列對應(yīng)的KO號,根據(jù)KO與Pathway和Module的聯(lián)系得到序列的Pathway、Module注釋信息。并統(tǒng)計(jì)KEGG各功能層級在各個(gè)樣本中的豐度。結(jié)果目錄:7_KEGG/abundance/*_abundance.xls:KEGG功能層級豐度表。annotation/gene_catalog_KO_pathway.xls:KEGGPathway功能注釋結(jié)果。表8.1KEGGPathway功能注釋結(jié)果GeneIDGeneIDKOFunctionPathwayLevel3MGE8K09882cobS;cobaltochelataseCobS[EC:]ko00860:PorphyrinandchlorophyllmetabolismMGE8K09882cobS;cobaltochelataseCobS[EC:]ko01100:MetabolicpathwaysMGE8K09882cobS;cobaltochelataseCobS[EC:]ko01240:BiosynthesisofcofactorssucC;succinyl-CoAsynthetasebetasubunit[EC:]ko01110:BiosynthesisofsecondarymetabolitesMGE10K01903GeneID:GeneIDKO:基因?qū)?yīng)的KO編號Function:KO對應(yīng)的基因名稱,功能,酶。Pathway_Level3:KO對應(yīng)的pathwaylevels3代謝注釋Pathway_Level2:KO對應(yīng)的pathwaylevels2代謝注釋Pathway_Level1:KO對應(yīng)的pathwaylevels1代謝注釋28/65annotation/gene_catalog_KO_module.xls:KEGGModule功能注釋結(jié)果。表8.2KEGGModule功能注釋結(jié)果GeneIDKOFunctionModuleLevel4MGE10K01903sucC;succinyl-CoAsynthetasebetasubunit[EC:]M00009:Citratecycle(TCAcycle,Krebscycle)MGE10K01903sucC;succinyl-CoAsynthetasebetasubunit[EC:]M00374:Dicarboxylate-hydroxybutyratecycleMGE10K01903sucC;succinyl-CoAsynthetasebetasubunit[EC:]M00620:Incompletereductivecitratecycle,acetyl-CoA=>oxoglutarateMGE10K01903sucC;succinyl-CoAsynthetasebetasubunit[EC:]M00011:Citratecycle,secondcarbonoxidation,2-oxoglutarate=>oxaloacetateGeneID:GeneIDKO:基因?qū)?yīng)的KO編號Function:KO對應(yīng)的基因名稱,功能,酶。Module_Level4:KO對應(yīng)的Modulelevels4代謝注釋Module_Level3:KO對應(yīng)的Modulelevels3代謝注釋Module_Level2:KO對應(yīng)的Modulelevels2代謝注釋Module_Level1:KO對應(yīng)的Modulelevels1代謝注釋annotation/pathway_category.xls:Pathway分類統(tǒng)計(jì)表。annotation/gene_catalog_pathway_categorie.pdf:Pathway分類統(tǒng)計(jì)柱狀圖。29/65圖8.3KEGGPathway分類統(tǒng)計(jì)柱狀圖橫軸是參與的代謝通路名稱,縱軸是注釋到該通路下的基因數(shù)目。4.9COG功能注釋COG(ClustersofOrthologousGroupsofproteins,直系同源序列聚類)是在對已完成的基因組的蛋白質(zhì)序列的相互比較的基礎(chǔ)上構(gòu)建的,COG數(shù)據(jù)庫選擇的物種包括各主要系統(tǒng)進(jìn)化譜系。每個(gè)COG家族至少有來自3個(gè)系統(tǒng)進(jìn)化譜系的物種的蛋白所組成。所以一個(gè)COG對應(yīng)于一個(gè)古老的保守型結(jié)構(gòu)域,構(gòu)成每個(gè)COG的蛋白被假定來自于同一個(gè)祖先蛋白。進(jìn)行COG數(shù)據(jù)庫比對可以對預(yù)測蛋白進(jìn)行功能注釋,歸類以及蛋白精華分析。eggNOG(evolutionarygenealogyofgenes:Non-supervisedOrthologousGroups)數(shù)據(jù)庫是利用Smith-Waterman比對算法對構(gòu)建的基因直系同源簇進(jìn)行功能注釋。使用DIAMOND將基因集蛋白序列與eggNOG數(shù)據(jù)庫進(jìn)行比對,獲得基因?qū)?yīng)的COG,篩選條件:E-value<1e-5,Score>60。在此基礎(chǔ)上對基因集進(jìn)行功能注釋、歸類,并統(tǒng)計(jì)COG各功能層級在各個(gè)樣本中的豐度。結(jié)果目錄:8_eggNOG/abundance/*_abundance.xls:COG功能層級豐度表。annotation/gene_catalog_eggnog_annotation.xls:COG功能注釋結(jié)果。30/65表9.1COG功能注釋結(jié)果GeneIDeggNOGOGFunctionMGE11644107.SL11570639COG05672-oxoglutaratedehydrogenase,E1MGE30335283.Neut1896COG0860n-acetylmuramoyl-l-alanineamidaseMGE50335283.Neut2388COG0277FADlinkedoxidasedomainproteinMGE66335283.Neut2459COG0178TheUvrABCrepairsystemcatalyzestherecognitionandprocessingofDNAlesions.UvrAisanATPaseandaDNA-bindingprotein.Adamagerecognitioncomplexcomposedof2UvrAand2UvrBsubunitsscansDNAforabnormalities.WhenthepresenceofalesionhasbeenverifiedbyUvrB,theUvrAmoleculesdissociate(Bysimilarity)GeneID:基因ID編號eggNOG:COG編號OG:直系同源基因本體論編號Function:COG對應(yīng)功能Category:COG對應(yīng)分類目錄annotation/eggnog_category.xls:COG功能分類統(tǒng)計(jì)表。annotation/gene_catalog_eggnog_categorie.pdf:COG功能分類統(tǒng)計(jì)柱狀圖。圖9.2COG功能分類統(tǒng)計(jì)柱狀圖31/65橫軸為橫軸為COG的25個(gè)功能大類簡寫,右側(cè)名稱為這些功能分類的全稱,縱軸為相應(yīng)功能大類包含的基因數(shù)目。4.10抗生素抗性基因注釋抗生素抗性基因數(shù)據(jù)庫CARD(AntibioticResistanceGenesDatabase)收集了來自不同環(huán)境來源的(如腸道、生活廢水、河流等)細(xì)菌抗藥性基因及其抗性譜、作用機(jī)制、本體論、COG和CDD注釋信息,為研究藥物作用、環(huán)境治理提供研究依據(jù)。使用DIAMOND將基因集蛋白序列與ARDB數(shù)據(jù)庫進(jìn)行比對,得到其對應(yīng)的抗生素抗性基因的種類和數(shù)目。篩選條件:E-value<1e-5,Score>60。并統(tǒng)計(jì)抗性基因、抗生素在各個(gè)樣本中的豐度。結(jié)果目錄:9_CARD/abundance/ARO_Name_abundance.xls:抗生素抗性豐度表。abundance/Drug_Class_abundance.xls:抗生素類豐度表。abundance/Gene_Family_abundance.xls:AMR抗生素抗性基因家族豐度表。abundance/Resistance_Mechanism_abundance.xls:抗生素抗性機(jī)制豐度表。annotation/gene_catalog_ardb_annotation.xls:抗生素抗性注釋結(jié)果。表10.1抗生素抗性注釋結(jié)果GeneIDCARDARONameGeneFamilyMGE9652ARO:3000804MexFresistance-nodulation-celldivision(RND)antibioticeffluxpumpMGE9652ARO:3000804MexFresistance-nodulation-celldivision(RND)antibioticeffluxpumpMGE9652ARO:3000804MexFresistance-nodulation-celldivision(RND)antibioticeffluxpumpMGE14949ARO:3004600LnuHlincosamidenucleotidyltransferase(LNU)GeneID:基因ID編號CARD:抗性基因數(shù)據(jù)庫ARO編號ARO_Name:ARO編號對應(yīng)的抗性基因32/65Gene_Family:抗性基因家族Drug_Class:抗生素種類Resistance_Mechanism:抗性機(jī)制annotation/gene_catalog_CARD_categorie.pdf:抗性基因注釋統(tǒng)計(jì)柱狀圖。圖10.2抗性基因注釋統(tǒng)計(jì)柱狀圖橫軸為不同類型的抗生素抗性基因名稱,縱軸為抗生素抗性的數(shù)目。4.11碳水化合物活性酶注釋CAZy(Carbohydrate-ActiveenZYmesDatabase)是碳水化合物活性酶相關(guān)的專業(yè)數(shù)據(jù)庫,內(nèi)容包括能催化碳水化合物降解、修飾、以及生物合成的相關(guān)酶系家族。其包含五個(gè)主要分類:糖苷水解酶(GlycosideHydrolases,GHs)、糖基轉(zhuǎn)移酶(GlycosylTransferases,GTs)、多糖裂解酶(PolysaccharideLyases,PLs)和糖類酯解酶(CarbohydrateEsterases,CEs)、氧化還原酶(AuxiliaryActivities,AAs)。此外,還包含與碳水化合物結(jié)合結(jié)構(gòu)域(Carbohydrate-BindingModules,CBMs)。使用HMMER3將基因集蛋白序列與CAZy數(shù)據(jù)庫進(jìn)行比對,得到其對應(yīng)的碳水化合物活性酶注釋信息。篩選條件為E-value<1e-5。并統(tǒng)計(jì)CAZy各功能層級的豐度。結(jié)果目錄:10_CAZy/33/65abundance/*_abundance.xls:CAZy功能層級豐度表。annotation/gene_catalog_cazy_annotation.xls:CAZy注釋結(jié)果。表11.1CAZy注釋結(jié)果GeneIDCAzyCAZyClassCAZyActivitiesMGE8536GT41GTUDP-GlcNAc:peptidebeta-N-acetylglucosaminyltransferase(EC55)MGE8536GT41GTUDP-Glc:peptideN-beta-glucosyltransferase(EC2.4.1.-)MGE12728GT2GTcellulosesynthase(EC2)MGE12728GT2GTchitinsynthase(EC6)GeneID:基因ID編號CAzy:注釋到的碳水化合物活性酶數(shù)據(jù)庫編號CAZy_Class:碳水化合物活性酶所屬分類CAZy_Activities:碳水化合物活性酶對應(yīng)活性注釋annotation/cazy_categoris.xls:CAZy功能分類統(tǒng)計(jì)表。annotation/gene_catalog_CAZy_categorie.pdf:CAZy功能分類統(tǒng)計(jì)柱狀圖。圖11.2CAZy功能分類統(tǒng)計(jì)柱狀圖橫軸為CAZy的6大功能分類簡寫,右側(cè)為這些功能分類的全稱,縱軸為相應(yīng)功能大類包含的基因數(shù)目。34/654.12GO功能注釋GO(GeneOntology)是一個(gè)國際標(biāo)準(zhǔn)化的基因功能分類體系,提供了一套動(dòng)態(tài)更新的標(biāo)準(zhǔn)詞匯表(controlledvocabulary)來全面描述生物體中基因和基因產(chǎn)物的屬性。GO總共有三個(gè)ontology,分別描述基因的分子功能(molecularfunction)、所處的細(xì)胞位置(cellularcomponent)、參與的生物過程(biologicalprocess)。GO的基本單位是term,每個(gè)term有一個(gè)唯一的標(biāo)示符(由"GO"加上7個(gè)數(shù)字組成,例如GO:0072669);每類ontology的term通過它們之間的聯(lián)系(is_a,part_of,regulate)構(gòu)成一個(gè)有向無環(huán)的拓?fù)浣Y(jié)構(gòu)。更詳細(xì)信息見。使用DIAMOND將基因集蛋白序列與Uniprot數(shù)據(jù)庫進(jìn)行比對,根據(jù)比對得到的UniprotID得到基因集對應(yīng)的GOterm。篩選條件:E-value<1e-5,Score>60。并統(tǒng)計(jì)GO各功能層級在各個(gè)樣本中的豐度。結(jié)果目錄:11_GO/abundance/*_abundance.xls:GO功能層級豐度表。annotation/gene_catalog_go_annotation.xls:GO功能注釋結(jié)果。表12.1GO功能注釋結(jié)果GeneIDGOTermGOLevel2MGE8GO:0016887ATPaseactivitycatalyticactivityMGE8GO:0051116cobaltochelataseactivitycatalyticactivityMGE8GO:0005524ATPbindingbindingMGE11GO:0030976thiaminepyrophosphatebindingbindingGeneID:基因ID編號GO:GO編號Term:GO3級分類GO_Level2:GO2級分類Ontology:GO1級分類annotation/go_category.xls:GO功能分類統(tǒng)計(jì)表。annotation/gene_catalog_go_categorie.pdf:GO功能分類統(tǒng)計(jì)柱狀圖。35/65圖12.2GO功能分類統(tǒng)計(jì)柱狀圖橫軸為GOterm,縱軸為該term內(nèi)基因個(gè)數(shù)及其占被注釋上基因總數(shù)的百分比。4.13SEED功能注釋SEEDSubsystem是國際上知名的功能分類數(shù)據(jù)庫,為RAST(RapidAnnotationusingSubsystemTechnology)的默認(rèn)數(shù)據(jù)庫。使用DIAMOND將基因集蛋白序列與SEED數(shù)據(jù)庫進(jìn)行blastp同源性比對,得到功能注釋和同源物種信息,篩選條件:E-value<1e-5,Score>60。同時(shí)根據(jù)SEEDSubsystem的功能分類層級,獲得基因的SEED分類注釋信息,并統(tǒng)計(jì)SEED各功能層級在各個(gè)樣本中的豐度。結(jié)果目錄:12_SEED/abundance/*_abundance.xls:SEED層級豐度表。annotation/gene_catalog_seed_annotation.xls:SEED注釋結(jié)果表。表13.1SEED注釋結(jié)果表36/65GeneIDseedFunctionLevel3MGE8fig|316055.14.peg.135AerobiccobaltochelataseCobSsubunit(EC)CoenzymeB12biosynthesisMGE11fig|644107.3.peg.3852-oxoglutaratedehydrogenaseE1component(EC)TCACycleMGE11fig|644107.3.peg.3852-oxoglutaratedehydrogenaseE1component(EC)DehydrogenasecomplexesMGE30fig|335283.5.peg.N-acetylmuramoyl-L-alanineRecyclingofPeptidoglycan2227amidase(EC8)AminoAcidsGeneID:基因ID編號seed:seed編號Function:seedID對應(yīng)功能Level3:seedID3級水平分類Level2:seedID2級水平分類Level1:seedID1級水平分類annotation/seed_category.xls:SEED功能分類統(tǒng)計(jì)表。annotation/gene_catalog_SEED_categorie.pdf:SEED功能分類統(tǒng)計(jì)柱狀圖。圖13.2SEED功能分類統(tǒng)計(jì)柱狀圖橫軸為SEED功能大類,縱軸為相應(yīng)功能大類包含的基因數(shù)目。37/654.14BacMet重金屬抗性功能注釋BacMet是一種關(guān)于殺菌劑和重金屬抗性數(shù)據(jù)庫,其手動(dòng)整理了抗菌生物殺蟲劑和金屬抗性基因數(shù)據(jù)庫。BacMet數(shù)據(jù)庫包含470個(gè)實(shí)驗(yàn)驗(yàn)證的抗性基因。此外,該數(shù)據(jù)庫還包含從公共序列庫中收集的25477個(gè)潛在抗性基因。BacMet數(shù)據(jù)庫中的所有抗性基因均根據(jù)其分子功能和誘導(dǎo)的抗性表型進(jìn)行了整理。主要包含兩個(gè)子庫:1)具有實(shí)驗(yàn)確定的抗藥性功能的基因的手動(dòng)管理數(shù)據(jù)庫;2)基于與具有實(shí)驗(yàn)確認(rèn)功能的基因的序列相似性來預(yù)測抗性基因的數(shù)據(jù)庫;使用DIAMOND將基因集蛋白序列與BacMet的兩個(gè)子庫數(shù)據(jù)庫進(jìn)行blastp同源性比對,得到功能注釋和同源物種信息,篩選條件:E-value<1e-5,Score>60。獲得基因的BacMet分類注釋信息,并統(tǒng)計(jì)BacMet各功能層級在各個(gè)樣本中的豐度。結(jié)果目錄:13_BacMet/abundance/*_abundance.xls:BacMet各個(gè)層級豐度表。annotation/gene_catalog_BactMet_exp_annotation.xls:BacMet已實(shí)驗(yàn)驗(yàn)證的注釋結(jié)果表。表14.1BacMet已實(shí)驗(yàn)驗(yàn)證的注釋結(jié)果表GeneIDBacMetIDGenenameAccessionMGE9652BAC0239mexFQ4KBN7MGE9652BAC0239mexFQ4KBN7MGE9652BAC0239mexFQ4KBN7MGE35881BAC0006acrBP31224GeneID:基因ID編號BacMet_ID:重金屬抗性IDGene_name:抗性ID對應(yīng)基因Accession:抗性基因登錄號Organism:抗性基因來源物種Location:抗性基因在基因組上的定位Compound:抗性名稱annotation/gene_catalog_BactMet_pre_annotation.xls:BacMet預(yù)測得到的注釋結(jié)果表。annotation/BactMet_exp_Gene_category.xls:BacMet功能分類統(tǒng)計(jì)表。annotation/gene_catalog_BactMetExp_categorie.pdf:BacMet抗性基因分類統(tǒng)計(jì)柱狀圖。38/65圖14.2BacMet抗性基因分類統(tǒng)計(jì)柱狀圖橫軸為重金屬抗性基因,縱軸為對應(yīng)的基因數(shù)目。4.15VFDB毒力因子功能注釋VFDB,毒力因子(Virulencefactor,VFs)指由細(xì)菌,病毒,真菌等代謝產(chǎn)生的帶有侵襲力和毒素等毒力性質(zhì)的分子,主要用于微生物感染宿主時(shí),通過抑制或逃避宿主的免疫反應(yīng)等出入宿主組織細(xì)胞,并從宿主獲得營養(yǎng)及自身增殖生長的目的。毒力因子可編碼在可移動(dòng)遺傳元件(比如質(zhì)粒、基因島、噬菌體等)上并進(jìn)行水平基因轉(zhuǎn)移(傳播使無害細(xì)菌變成危險(xiǎn)的病原菌,所以在鑒定毒力因子時(shí)一般會(huì)考慮基因島、分泌蛋白等。病原菌毒力因子數(shù)據(jù)庫VFDB由中國醫(yī)學(xué)科學(xué)院研發(fā),收集整理了24個(gè)屬100多種重要醫(yī)學(xué)病原菌已知毒力因子的組成、結(jié)構(gòu)、功能、致病機(jī)理、毒力島、序列和基因組信息等內(nèi)容,被廣泛應(yīng)用于毒力因子基因鑒定。其主要包括兩個(gè)子庫:1)帶有setA的庫為VFDB數(shù)據(jù)庫核心庫(setA),僅包含經(jīng)實(shí)驗(yàn)驗(yàn)證過的毒力基因,setB為全庫(setB),在setA的基礎(chǔ)上增加了預(yù)測的毒力基因使用DIAMOND將基因集蛋白序列與VFDB數(shù)據(jù)庫進(jìn)行blastp同源性比對,得到功能注釋和同源物種信息,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論