Gene Ontology(GO)使用指南(內(nèi)部資料)_第1頁(yè)
Gene Ontology(GO)使用指南(內(nèi)部資料)_第2頁(yè)
Gene Ontology(GO)使用指南(內(nèi)部資料)_第3頁(yè)
Gene Ontology(GO)使用指南(內(nèi)部資料)_第4頁(yè)
Gene Ontology(GO)使用指南(內(nèi)部資料)_第5頁(yè)
已閱讀5頁(yè),還剩32頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、GO 數(shù)據(jù)庫(kù)使用指南Version No.2010.09.03(內(nèi)部資料 僅供參考)目 錄目 錄第一部分GO 是什么? 21.1基因本體論(gene ontology)的建立21.2本體論(The ontologies)簡(jiǎn)介31.3本體論語(yǔ)義之間的關(guān)系及其組織結(jié)構(gòu) 41.3.1語(yǔ)義之間關(guān)系的基本理解 41.3.2關(guān)系之間的推導(dǎo) 51.3.3調(diào)節(jié)控制關(guān)系(the regulates relation)及其推導(dǎo) 61.3.4本體論的組織結(jié)構(gòu) 71.4GO 的注釋(Annotation)8第二部分GO 怎么用? 102.1下載本體論文件和注釋文件 102.2GO 語(yǔ)義及其相關(guān)注釋的瀏覽與搜索172.

2、2.1AmiGO 的基本使用說(shuō)明172.2.2語(yǔ)義關(guān)系的圖形化描述 202.2.3 根據(jù)語(yǔ)義檢索 222.2.4根據(jù)基因產(chǎn)物檢索 25第一部分 GO 是什么?- 1 -第一部分GO 是什么?GO(gene ontology)是基因本體聯(lián)合會(huì)(Gene Onotology Consortium)所建立的數(shù)據(jù)庫(kù),旨在建立一個(gè)適用于各種物種的,對(duì)基因和蛋白質(zhì)功能進(jìn)行限定和描述的,并能隨著研究不斷深入而更新的語(yǔ)義詞匯標(biāo)準(zhǔn)。GO 是多種生物本體語(yǔ)言中的一種,提供了三層結(jié)構(gòu)的系統(tǒng)定義方式,用于描述基因產(chǎn)物的功能1.1基因本體論(gene ontology)的建立現(xiàn)今的生物學(xué)家們浪費(fèi)了太多的時(shí)間和精力在搜尋

3、生物信息上。這種情況歸結(jié)為生物學(xué)上定義混亂的原因,不同的生物學(xué)數(shù)據(jù)庫(kù)可能會(huì)使用不同的術(shù)語(yǔ),好比是一些方言一樣。不光是精確的計(jì)算機(jī)難以搜尋到這些 隨時(shí)間和人為多重因素而隨機(jī)改變的定義,即使是完全由人手動(dòng)處理也無(wú)法完成。舉個(gè)例子來(lái)說(shuō),如果需要找到一個(gè)用于制抗生素的藥物靶點(diǎn),你可能想找到所有的和細(xì)菌蛋白質(zhì)合成相關(guān)的基因產(chǎn)物,特別是那些和人體中蛋白質(zhì)合成組分顯著不同的。但如果一個(gè)數(shù)據(jù)庫(kù)描述這些基因產(chǎn)物為“翻譯類”,而另一個(gè)數(shù)據(jù)庫(kù)描述其為“蛋白質(zhì)合成類”,那么這無(wú)疑對(duì)于計(jì)算機(jī)來(lái)說(shuō)是難以區(qū)分這兩個(gè)在字面上相差甚遠(yuǎn)卻在功能上相一致的定義。Gene Ontology 就是為了解決上述問(wèn)題,使各種數(shù)據(jù)庫(kù)中基因產(chǎn)

4、物功能描述相一致而發(fā)起的一個(gè)項(xiàng)目。這個(gè)項(xiàng)目最初是由1988 年對(duì)三個(gè)模式生物數(shù)據(jù)庫(kù)的整合開(kāi)始:the FlyBase (果蠅數(shù)據(jù)庫(kù) Drosophila),the Saccharomyces Genome Database (酵母基因組數(shù)據(jù)庫(kù) SGD) 和 theMouse Genome Informatics (小鼠基因組數(shù)據(jù)庫(kù) MGI)。從那開(kāi)始,GO 不斷發(fā)展擴(kuò)大,現(xiàn)在已是包含數(shù)十個(gè)動(dòng)物、植物、微生物的數(shù)據(jù)庫(kù)(詳見(jiàn) GO Consortium Page )。GO 開(kāi)發(fā)了具有三級(jí)結(jié)構(gòu)的語(yǔ)義詞匯標(biāo)準(zhǔn)(Ontologies),根據(jù)基因產(chǎn)物的相關(guān)生物學(xué)途徑、細(xì)胞學(xué)組件以及分子功能而分別給予定義,

5、與具體物種無(wú)關(guān)。GO 的工作大致可分為三個(gè)部分:第一,給予并維持語(yǔ)義(terms);第二,將位于數(shù)據(jù)庫(kù)當(dāng)中的基因、基因產(chǎn)物與 GO 本體論語(yǔ)言當(dāng)中的語(yǔ)義(terms)進(jìn)行關(guān)聯(lián),形成網(wǎng)絡(luò);第三,開(kāi)發(fā)相關(guān)工具,使本體論標(biāo)準(zhǔn)語(yǔ)言的產(chǎn)生和維持更為便捷。GO 的定義法則已經(jīng)在多個(gè)合作的數(shù)據(jù)庫(kù)中使用,這使在這些數(shù)據(jù)庫(kù)中的查詢具有極高第一部分 GO 是什么?- 2 -的一致性。這種定義語(yǔ)言具有多重結(jié)構(gòu),因此在各種程度上都能進(jìn)行查詢。舉例來(lái)說(shuō),GO可以被用來(lái)在小鼠基因組中查詢和信號(hào)轉(zhuǎn)導(dǎo)相關(guān)的基因產(chǎn)物,也可以進(jìn)一步找到各種生物的受體酪氨酸激酶。這種結(jié)構(gòu)允許在各種水平添加對(duì)此基因產(chǎn)物特性的認(rèn)識(shí)。1.2本體論(Th

6、e ontologies)簡(jiǎn)介GO 提供了一系列的語(yǔ)義(terms)用來(lái)描述基因、基因產(chǎn)物的特性。這些語(yǔ)義分為三種不同的種類:細(xì)胞學(xué)組件,用于描述亞細(xì)胞結(jié)構(gòu)、位置和大分子復(fù)合物,如核仁、端粒和識(shí)別起始的復(fù)合物等;分子功能,用于描述基因、基因產(chǎn)物個(gè)體的功能,如與碳水化合物結(jié)合或 ATP 水解酶活性等;生物學(xué)途徑,指分子功能的有序組合,達(dá)成更廣的生物功能,如有絲分裂或嘌呤代謝等?;虍a(chǎn)物可能分別具有分子生物學(xué)上的功能、生物學(xué)途徑和在細(xì)胞中的組件作用。當(dāng)然,它們也可能在某一個(gè)方面有多種性質(zhì)。如細(xì)胞色素 C,在分子功能上體現(xiàn)為電子傳遞活性,在生物學(xué)途徑中與氧化磷酸化和細(xì)胞凋亡有關(guān),在細(xì)胞中存在于線粒體

7、質(zhì)中和線粒體內(nèi)膜上。注:基因產(chǎn)物和其生物功能常常被我們混淆。例如,“乙醇脫氫酶”既可以指放在 Eppendorf 試管里的基因產(chǎn)物,也表明了它的功能。但是這之間其實(shí)是存在差別的:一個(gè)基因產(chǎn)物可以擁有多種分子功能,多種基因產(chǎn)物也可以行使同一種分子功能。比如還是“乙醇脫氫酶”,其實(shí)多種基因產(chǎn)物都具有這種功能,而并不是所有的這些酶都是由乙醇脫氫酶基因編碼的。一個(gè)基因產(chǎn)物可以同時(shí)具有“乙醇脫氫酶”和“乙醛歧化酶”兩種功能,甚至更多。所以,在 GO 中,很重要的一點(diǎn)在于,當(dāng)使用“乙醇脫氫酶活性”這種術(shù)語(yǔ)時(shí),所指的是功能,并不是基因產(chǎn)物。下面,將進(jìn)一步的分別說(shuō)明 GO 的具體定義情況。細(xì)胞組件即細(xì)胞中的位

8、置,指基因產(chǎn)物位于何種細(xì)胞器或基因產(chǎn)物組中(如糙面內(nèi)質(zhì)網(wǎng),核或核糖體,蛋白酶體等)。分子功能分子功能描述在分子生物學(xué)上的活性,如催化活性或結(jié)合活性。GO 分子功能用來(lái)定義功能而不是整體分子,而且不特異性地指出這些功能具體的時(shí)空信息。分子功能大部分指的第一部分 GO 是什么?- 3 -是單個(gè)基因產(chǎn)物的功能,還有一小部分是此基因產(chǎn)物形成的復(fù)合物的功能。定義功能的義項(xiàng)包括催化活性、轉(zhuǎn)運(yùn)活性、結(jié)合活性等,更為狹窄的定義包括腺苷酸環(huán)化酶活性或鐘形受體結(jié)合活性等。生物學(xué)途徑生物學(xué)途徑是由分子功能有序地組成的,具有多個(gè)步驟的一個(gè)過(guò)程。舉例來(lái)說(shuō),較為寬泛的是細(xì)胞生長(zhǎng)和維持、信號(hào)傳導(dǎo)。一些更為具體的例子包括嘧啶

9、代謝或配糖基的運(yùn)輸?shù)?。一個(gè)生物學(xué)途徑并不是完全和一條生物學(xué)通路相等。因此,GO 并不涉及到通路中復(fù)雜的機(jī)制和所依賴的因素。1.3本體論語(yǔ)義之間的關(guān)系及其組織結(jié)構(gòu)1.3.1語(yǔ)義之間關(guān)系的基本理解基因本體論組織類似于圖,語(yǔ)義作為圖的結(jié)點(diǎn),語(yǔ)義之間的關(guān)系為圖中的邊。因此,一旦產(chǎn)生新的語(yǔ)義,其與其它語(yǔ)義之間的關(guān)系也會(huì)同時(shí)被定義。語(yǔ)義之間的關(guān)系有四種:is a、part of 和 regulates。關(guān)系表示的幾點(diǎn)約定1. “語(yǔ)義”用圖論的術(shù)語(yǔ)“結(jié)點(diǎn)”表示2. 我們習(xí)慣于用父子結(jié)點(diǎn)來(lái)表示語(yǔ)義之間的關(guān)系,其中父結(jié)點(diǎn)離根結(jié)點(diǎn)較近,表示相對(duì)寬泛的語(yǔ)義,而子結(jié)點(diǎn)離葉子結(jié)點(diǎn)較近,相對(duì)父結(jié)點(diǎn)其語(yǔ)義所代表的內(nèi)容更為具

10、體。3. 圖中的實(shí)線表示結(jié)點(diǎn)之間的關(guān)系4. 虛線表示推理而并未證明的關(guān)系上述可以用下圖表示:A is a B;B is part of C第一部分 GO 是什么?- 4 -從而可以得出:A is part of C,其形式化表示為:is apart of part ofGO 圖具有樹(shù)的性質(zhì),但與其不同的是,GO 圖中結(jié)點(diǎn)不但可能具有多個(gè)孩子結(jié)點(diǎn),而且可能具有多個(gè)父親結(jié)點(diǎn),且與不同的父結(jié)點(diǎn)具有不同的關(guān)系,如下圖所示:線粒體(mitochondrion)便有兩個(gè)父親結(jié)點(diǎn),因?yàn)榫€粒體既是一種細(xì)胞器(organelle),又是細(xì)胞質(zhì)(cytoplasm)的一部分。同樣,細(xì)胞器(organelle)也有

11、兩個(gè)孩子結(jié)點(diǎn),因?yàn)榫€粒體是一種細(xì)胞器(organelle),細(xì)胞器膜(organelle membrane)是細(xì)胞器的一部分。1.3.2關(guān)系之間的推導(dǎo)is a is a is ais a 具有傳遞性,即如果 A is a B,B is a C,那么 A is a C。形式化表示為 is a is a is a。如下圖:線粒體(mitochondrion)是一種胞內(nèi)細(xì)胞器(intracellular organelle),而胞內(nèi)細(xì)胞器是一種細(xì)胞器官(organelle),從而可以推出:線粒體是一種細(xì)胞器官。part ofpart of part ofpart of 具有傳遞性,如果 A is p

12、art of B,B is part of C,那么 A is part of C。形式化表示為 part ofpart of part of。同樣如下圖所示:線粒體(mitochondrion)是細(xì)胞質(zhì)(cytoplasm)的一部分,細(xì)胞質(zhì)又是細(xì)胞(cell)的一部分,從而可得出:線粒體是細(xì)胞的一部分。第一部分 GO 是什么?- 5 -part ofis a part of 與 is apart of part of如果關(guān)系 is a 與 part of 組合,則其關(guān)系均為 part of。分別如下圖所示:線粒體膜線粒體胞內(nèi)細(xì)胞器線粒體胞內(nèi)細(xì)胞器細(xì)胞1.3.3調(diào)節(jié)控制關(guān)系(the regul

13、ates relation)及其推導(dǎo)基因本體論語(yǔ)義中,如果某一過(guò)程直接影響另一過(guò)程或參數(shù)值(quality)的表現(xiàn)形式,我們稱前者調(diào)節(jié)控制(regulates)后者。被調(diào)節(jié)的對(duì)象可以是一個(gè)過(guò)程,如生物通路、酶促反應(yīng)等,也可以是一個(gè)參數(shù)值,如細(xì)胞大小,pH 值等。與 part of 類似,調(diào)節(jié)控制關(guān)系也是充分非必要的,即:B 能且僅能調(diào)節(jié)控制 A,而 A 并非只受 B 的調(diào)節(jié)控制。如下圖所示:例如:一旦 cell cycle checkpoint(細(xì)胞周期檢查點(diǎn))出現(xiàn)時(shí),它總是調(diào)節(jié)控制 cell cycle(細(xì)胞周期),然而細(xì)胞周期并不單獨(dú)受細(xì)胞周期檢查點(diǎn)調(diào)節(jié)控制,還受其它過(guò)程的調(diào)節(jié)控制。第一部

14、分 GO 是什么?- 6 -regulatesis a regulates 、 is a regulates regulates 以及 regulates part of regulates 均為正確的推導(dǎo)關(guān)系,其示意圖分別如下:截至目前,尚不能確定 part ofregulates ?、regulatesregulates ? 為何種關(guān)系。1.3.4本體論的組織結(jié)構(gòu)GO 委員會(huì)除了要定義語(yǔ)義(term)以外,還要定義該語(yǔ)義與其它語(yǔ)義之間的關(guān)系,使語(yǔ)義總體構(gòu)成有一定結(jié)構(gòu)的語(yǔ)義詞匯表。本體論的圖形化表示本體論的結(jié)構(gòu)可以用圖表示,其中語(yǔ)義表示為結(jié)點(diǎn),其間的關(guān)系表示為結(jié)點(diǎn)之間的邊。當(dāng)然 GO 語(yǔ)義之

15、間的關(guān)系是單向的,例如:線粒體(mitochondrion)是一個(gè)細(xì)胞器(organelle),可以表示為 a mitochondrion is an organelle,但反過(guò)來(lái)不成立,細(xì)胞器不是一個(gè)線粒體!在這種意義上說(shuō),本體論的結(jié)構(gòu)更像是有向非循環(huán)樹(shù),其中離根結(jié)點(diǎn)越近的結(jié)點(diǎn)越概括,離葉第一部分 GO 是什么?- 7 -子結(jié)點(diǎn)越近的結(jié)點(diǎn)越具體,但與有向非循環(huán)樹(shù)不同的是,本體論結(jié)構(gòu)圖中的結(jié)點(diǎn)可以有兩個(gè)及其以上的父結(jié)點(diǎn)。例如:生物過(guò)程當(dāng)中的語(yǔ)義已糖合成(hexose biosynthetic process)就有兩個(gè)父結(jié)點(diǎn),已糖代謝(hexose metabolic process) 和單糖合

16、成(monosaccharide biosyntheticprocess)。其并不難理解,因?yàn)橐烟?hexose)是一種單糖(monosaccharide),生物合成過(guò)程(biosyntheitc process)也是一種生物代謝過(guò)程(metabolic process) 。本體論中部分語(yǔ)義結(jié)構(gòu)的圖形化表示:1.4GO 的注釋(Annotation)那么,GO 中的術(shù)語(yǔ)如何和相對(duì)應(yīng)的基因產(chǎn)物相聯(lián)系的呢?這是由參與合作的數(shù)據(jù)庫(kù)來(lái)完成的,它們使用 GO 的定義方法,對(duì)它們所包含的基因產(chǎn)物進(jìn)行注解,并且提供支持這種注解的參考和證據(jù)。每個(gè)基因或基因產(chǎn)物都會(huì)有一個(gè)列表,列出與之相關(guān)的 GO 術(shù)語(yǔ)。每個(gè)數(shù)

17、據(jù)庫(kù)都會(huì)給出所有這些基因產(chǎn)物和 GO 術(shù)語(yǔ)的聯(lián)系數(shù)據(jù)庫(kù),可以在 GO 的站點(diǎn)查詢到。GO 對(duì)基因和基因產(chǎn)物的注釋闡明了基因產(chǎn)物和用于定義他們的 GO 術(shù)語(yǔ)之間的關(guān)系?;虍a(chǎn)物指一個(gè)基因編碼的 RNA 或蛋白產(chǎn)物。因?yàn)橐粋€(gè)基因可能編碼多個(gè)具有很不相同性質(zhì)的產(chǎn)物,所以 GO 推薦的注釋是針對(duì)基因產(chǎn)物的而不是基因的。一個(gè)基因是和所有適用于它的術(shù)語(yǔ)聯(lián)系在一起的。一個(gè)基因產(chǎn)物可以被一種本體論定義的多種分支或多種水平注釋。注釋需要反映在正常情況下此基因產(chǎn)物的功能,生物途徑,定位等,而并不包括其在突變或病理狀態(tài)下的情況。第一部分 GO 是什么?- 8 -GO 聯(lián)合會(huì)的各個(gè)數(shù)據(jù)庫(kù)成員采用手動(dòng)或自動(dòng)的方式生成注

18、釋,這兩種方式共有的原理是:1. 所有的注釋都需要有來(lái)源,可以是文字、另一個(gè)數(shù)據(jù)庫(kù)或是計(jì)算機(jī)分析結(jié)果;2. 注釋必須提供支持這種基因產(chǎn)物和 GO 術(shù)語(yǔ)之間聯(lián)系的證據(jù)。第二部分 GO 怎么用?- 9 -第二部分GO 怎么用?如上所述,GO 是分別從三個(gè)不同的層面描述基因產(chǎn)物的語(yǔ)義集?;虍a(chǎn)物數(shù)據(jù)庫(kù)用GO 提供的語(yǔ)義去注釋基因產(chǎn)物,并向 GO 聯(lián)合會(huì)提供注釋文件,闡明了基因產(chǎn)物和用于定義他們的 GO 術(shù)語(yǔ)之間的關(guān)系。下面將詳細(xì)介紹如何下載本體論文件、注釋文件,以及如何瀏覽 GO 語(yǔ)義及其相關(guān)的注釋。2.1下載本體論文件和注釋文件如果在研究中用到 GO 數(shù)據(jù)庫(kù),你需要下載相關(guān)的本體論文件和注釋文件,

19、在使用 GO 之前,對(duì)于本體論文件和注釋文件組織結(jié)構(gòu)的了解尤為重要。首先,打開(kāi)瀏覽器,輸入 ,進(jìn)入 GO 數(shù)據(jù)的起始頁(yè)。點(diǎn)擊“Downloads”便進(jìn)入 GO 數(shù)據(jù)庫(kù)相關(guān)文件的下載界面,如下圖所示:第二部分 GO 怎么用?- 10 -其中包括:tools 工具欄中相關(guān)的工具軟件、本體論文件、注釋文件、數(shù)據(jù)庫(kù)文件以及其它相關(guān)的技術(shù)支持文件。本文主要介紹本體論文件、注釋文件和教學(xué)資源文件。點(diǎn)擊“Ontology file downloads”進(jìn)入如下界面:如圖所示的本體論語(yǔ)義的統(tǒng)計(jì)分析:截至 2010 年 8 月 27 日下午 4 時(shí) 41 分,共有 32

20、282 條語(yǔ)義,99.3%已被明確定義。其中描述生物學(xué)途徑的有 19303 條語(yǔ)義,描述細(xì)胞組件的有 2750 條,描述分子功能的有 8784 條。另有 1445 為已被廢棄的語(yǔ)義,因?yàn)殡S著語(yǔ)義集的不第二部分 GO 怎么用?- 11 -斷更新和發(fā)展,有些語(yǔ)義并不能被正確地定義,或者已不能用來(lái)描述生物學(xué)途徑、細(xì)胞組件、分子功能。如果想要詳細(xì)地了解本體論語(yǔ)義文件的格式信息,可以點(diǎn)擊“format guide”。這些本體論語(yǔ)義文件每天都會(huì)更新,GO 的管理者會(huì)加入當(dāng)天新增的語(yǔ)義及其關(guān)系,因此在下載使用這些文件時(shí)一定要注意其版本和更新時(shí)間。點(diǎn)擊 Download 列的“OBO v1.2”,可以在新打開(kāi)

21、的窗口中看到如下的文件內(nèi)容信息:*format-version: 1.2date: 27:08:2010 16:41saved-by: tanyaberardiniauto-generated-by: OBO-Edit 2.0subsetdef: goslim_candida Candida GO slimsubsetdef: goslim_generic Generic GO slimsubsetdef: goslim_goa GOA and proteome slimsubsetdef: goslim_pir PIR GO slimsubsetdef: goslim_plant Plant

22、 GO slimsubsetdef: goslim_pombe Fission yeast GO slimsubsetdef: goslim_yeast Yeast GO slimsubsetdef: gosubset_prok Prokaryotic GO subsetsubsetdef: unvetted unvettedsynonymtypedef: systematic_synonym Systematic synonym EXACTdefault-namespace: gene_ontologyremark: cvs version: $Revision: 1.1393 $Termi

23、d: GO:0000001name: mitochondrion inheritancenamespace: biological_processdef: The distribution of mitochondria, including the mitochondrial genome, into daughter cells after mitosis or meiosis, mediated by interactions between mitochondria and the cytoskeleton. GOC:mcc, PMID:10873824, PMID:11389764s

24、ynonym: mitochondrial inheritance EXACT is_a: GO:0048308 ! organelle inheritanceis_a: GO:0048311 ! mitochondrion distributionTermid: GO:0000002name: mitochondrial genome maintenancenamespace: biological_process第二部分 GO 怎么用?- 12 -def: The maintenance of the structure and integrity of the mitochondrial

25、 genome; includes replication and segregation of the mitochondrial chromosome. GOC:ai, GOC:vwis_a: GO:0007005 ! mitochondrion organizationTermid: GO:0000003name: reproductionnamespace: biological_processalt_id: GO:0019952alt_id: GO:0050876def: The production by an organism of new individuals that co

26、ntain some portion of their genetic material inherited from that organism. GOC:go_curators, GOC:isa_complete, ISBN:0198506732 Oxford Dictionary of Biochemistry and Molecular Biologysubset: goslim_genericsubset: goslim_pirsubset: goslim_plantsubset: gosubset_proksynonym: reproductive physiological pr

27、ocess EXACT xref: Wikipedia:Reproductionis_a: GO:0008150 ! biological_process*可以看到,在一段文件格式信息之后,便依次列舉了每一個(gè)語(yǔ)義(term):首先是語(yǔ)義的ID 號(hào),緊接著是語(yǔ)義的名字,以及所屬的范疇。接下來(lái)是該語(yǔ)義的定義,在定義最后的方括號(hào)里說(shuō)明了該定義的來(lái)源依據(jù)。最后列出了該語(yǔ)義與其它語(yǔ)義之間的關(guān)系。點(diǎn)擊 Downloads 下的“Annotations”,如下圖所示:第二部分 GO 怎么用?- 13 -便進(jìn)入到注釋文件的介紹與下載界面:點(diǎn)擊“Annotation Details and Downloads”

28、下面的“Filtered files”:第二部分 GO 怎么用?- 14 -可以看到,這里列舉了所有物種或數(shù)據(jù)庫(kù)用 GO 語(yǔ)義的注釋情況,統(tǒng)計(jì)時(shí)間為 2010 年8 月 28 日。其中第一列為物種或數(shù)據(jù)庫(kù)的名字,第二列為用 GO 語(yǔ)義注釋的基因產(chǎn)物數(shù)目,第三列為注釋的條目數(shù),第四列為提交的時(shí)間,第五列為該物種或數(shù)據(jù)庫(kù)注釋文件的下載鏈接。仔細(xì)觀察,不難得出:不同物種或數(shù)據(jù)庫(kù),其中用 GO 語(yǔ)義注釋的基因產(chǎn)物數(shù)目相差甚遠(yuǎn)!例如: Anaplasma phagocytophilum HZ JCVI 的數(shù)目為 1289 ,而 Agrobacterium tumefaciensstr.C58 PAMGO

29、 的數(shù)目為 83。 這些差別之所以存在,不光是因?yàn)椴煌锓N或數(shù)據(jù)庫(kù)本身所包含的基因產(chǎn)物數(shù)量不同,還與該數(shù)據(jù)庫(kù)的注釋水平有關(guān),像酵母基因組幾乎全部被 GO 語(yǔ)義注釋,而斑馬魚(yú)基因組的注釋工作還處于剛起始的階段。第二部分 GO 怎么用?- 15 -如圖,在 GO 的下載頁(yè)面點(diǎn)擊“Teaching resources”,進(jìn)入關(guān)于 GO 的教學(xué)文件的下載頁(yè)面:該頁(yè)面提供了關(guān)于 GO 如何使用的一些演示文件以及相關(guān)的說(shuō)明文檔,具體為 GO 聯(lián)合會(huì)的工作人員針對(duì)不同的情況,對(duì) GO 項(xiàng)目進(jìn)行的介紹與講解,其中有的講解時(shí)間過(guò)早,已與目前的 GO 項(xiàng)目有所出入,參考時(shí)請(qǐng)注意檢查時(shí)期,并以 GO 項(xiàng)目當(dāng)前網(wǎng)站信

30、息為準(zhǔn)。第二部分 GO 怎么用?- 16 -2.2GO 語(yǔ)義及其相關(guān)注釋的瀏覽與搜索本節(jié)介紹如何使用由 GO 聯(lián)合會(huì)開(kāi)發(fā)的 AmiGO 瀏覽器搜索本體論語(yǔ)義及與其相關(guān)的注釋。2.2.1AmiGO 的基本使用說(shuō)明打開(kāi)瀏覽器輸入 ,如下所示:點(diǎn)擊“Borwse”,進(jìn)入如下所示頁(yè)面:如上圖所示,本體論語(yǔ)義可以歸為三個(gè)獨(dú)立的部分: biological_process 、cellular_component、molecular_function。語(yǔ)義之間有類似樹(shù)的組織結(jié)構(gòu),點(diǎn)擊每行前面的+便展開(kāi)包含于該項(xiàng)的所有語(yǔ)義,同時(shí)+變?yōu)?,再次點(diǎn)擊-,展開(kāi)的項(xiàng)目收縮

31、回原狀。每一條語(yǔ)義單獨(dú)地占據(jù)一行,每行+/-后面的標(biāo)志表示該語(yǔ)義與其父結(jié)點(diǎn)之間的關(guān)系,其中表 示關(guān)系 is a,表示關(guān)系 part of ,表示關(guān)系 regulates。第二部分 GO 怎么用?- 17 -點(diǎn)擊任一語(yǔ)義的名字,能夠在新窗口中顯示該語(yǔ)義詳細(xì)的信息,包括其定義及用其注釋的基因產(chǎn)物的鏈接。例如:點(diǎn)擊 carbohydrate utilization,如圖所示,為語(yǔ)義 carbohydrate utilization 的詳細(xì)信息,如果想知道用其注釋的基因產(chǎn)物,點(diǎn)擊圖中的“4 gene product associations”便得到如下所有用該語(yǔ)義注釋過(guò)的基因產(chǎn)物:第二部分 GO 怎么

32、用?- 18 -除此之外,也可以直接點(diǎn)擊任一語(yǔ)義最后面方括號(hào)里面的內(nèi)容,其也說(shuō)明了用該語(yǔ)義注釋的基因產(chǎn)物總數(shù)目。如下圖所示:某些語(yǔ)義后有標(biāo)志,如上圖所示,點(diǎn)擊后便得到該語(yǔ)義所包含的所有子語(yǔ)義各自所占的比例(注釋的基因產(chǎn)物數(shù)目),如點(diǎn)擊 all:all 后面的 :第二部分 GO 怎么用?- 19 -2.2.2語(yǔ)義關(guān)系的圖形化描述依次展開(kāi) biological process - biological regulation - regulation of biological process點(diǎn)擊 regulation of anti-apoptosis,便得到該語(yǔ)義的詳細(xì)信息,其中 Term Li

33、neage 顯示了該語(yǔ)義與其它語(yǔ)義之間的關(guān)系,樹(shù)形顯示如下:第二部分 GO 怎么用?- 20 -點(diǎn)擊右邊欄中的 Graphical View,便得到該關(guān)系的圖形顯示:第二部分 GO 怎么用?- 21 -2.2.3 根據(jù)語(yǔ)義檢索在 AmiGO 的瀏覽界面,在搜索欄輸入想要搜索的語(yǔ)義,如 cytokine secretion,點(diǎn)擊提交按鈕。第二部分 GO 怎么用?- 22 -搜索到 8 個(gè)語(yǔ)義,語(yǔ)義右邊是用該語(yǔ)義注釋的基因產(chǎn)物,如點(diǎn)擊“167 gene products”,便依次列出所有用語(yǔ)義 cytokine secretion 注釋的基因產(chǎn)物。第二部分 GO 怎么用?- 23 -返回搜索結(jié)果頁(yè)

34、面,點(diǎn)擊“cytokine secretion”,打開(kāi)語(yǔ)義“cytokine secretion”的詳細(xì)信息頁(yè)面:點(diǎn)擊“167 gene product associations”,也能在新窗口中依次列出用該語(yǔ)義注釋的所有基因產(chǎn)物,如下所示:第二部分 GO 怎么用?- 24 -注意到紅色框里的過(guò)濾器,在這里可以通過(guò)基因產(chǎn)物的類型、來(lái)源、所在物種等條件對(duì)現(xiàn)存的基因產(chǎn)物進(jìn)行過(guò)濾,從而更精確地搜索基因產(chǎn)物,提高研究結(jié)果的精確性。同時(shí),在“View associations”當(dāng)中選擇“Direct associations”,則結(jié)果為直接用該語(yǔ)義注釋的所有基因產(chǎn)物。2.2.4根據(jù)基因產(chǎn)物檢索在 Ami

35、GO 的首頁(yè),可以通過(guò)選擇按鈕選擇所要搜索的是語(yǔ)義還是基因產(chǎn)物,如下所示,選擇“gene or proteins”,然后在搜索框中輸入“grim”,點(diǎn)擊提交按鈕。第二部分 GO 怎么用?- 25 -如圖依次列出了所有與“grim”有關(guān)聯(lián)的基因產(chǎn)物,以第一行為例,“grim”為該基因產(chǎn)物的名字,名字右邊“13 associations”為該基因注釋的語(yǔ)義條目數(shù),點(diǎn)擊“grim”,在新窗口中顯示“grim”的詳細(xì)信息,點(diǎn)擊“13 associations”則在新窗口中依次列出用來(lái)注釋該基因產(chǎn)物的所有語(yǔ)義條目,分別如下圖所示:第二部分 GO 怎么用?- 26 -如上圖所示,有的語(yǔ)義條目用 標(biāo)注,如“

36、nurse cell apoptosis”,其說(shuō)明根據(jù)實(shí)驗(yàn)數(shù)據(jù),該基因產(chǎn)物并不在“nurse cell apoptosis”過(guò)程中起明顯作用,因而該基因產(chǎn)物用該語(yǔ)義注釋只是研究者的一種推測(cè)與期望,此推測(cè)的根據(jù)是該基因產(chǎn)物與那些在 “nurse cell apoptosis”起明顯作用的基因產(chǎn)物有著非常相似的序列結(jié)構(gòu)。如果你想要搜索的基因產(chǎn)物不存在,你可以聯(lián)系 GO 聯(lián)合會(huì)申請(qǐng)對(duì)該基因產(chǎn)物的注釋。首先點(diǎn)擊“GO helpdesk”,如下圖所示:在下面的表格中填入相應(yīng)的內(nèi)容,其中 subject 選為 annotation,并確定在 Comment or query 欄中填入如下與基因產(chǎn)物相關(guān)的信

37、息:Gene ID from MOD, EntrezGene or UnitProtGene Symbol or Name第二部分 GO 怎么用?- 27 -Publication PubMed ID with experimental dataSuggestions GO:ID and/or GO term for GO annotationThank you.最后,點(diǎn)擊“Send message”按鈕。Gene Ontology(GO)簡(jiǎn)介與使用介紹1.GO 怎么就出現(xiàn)了?現(xiàn)今的生物學(xué)家們浪費(fèi)了太多的時(shí)間和精力在搜尋生物信息上。這種情況歸結(jié)為生物學(xué)上定義混亂的原因:不光是精確的計(jì)算機(jī)難以搜

38、尋到這些隨時(shí)間和人為多重因 素而隨機(jī)改變的定義,即使是完全由人手動(dòng)處理也無(wú)法完成。舉個(gè)例子來(lái)說(shuō),如果需要找到一個(gè)用于制抗生素的藥物靶點(diǎn),你可能想找到所有的和細(xì)菌蛋白質(zhì)合成相 關(guān)的基因產(chǎn)物,特別是那些和人中蛋白質(zhì)合成組分顯著不同的。但如果一個(gè)數(shù)據(jù)庫(kù)描述這些基因產(chǎn)物為“翻譯類”,而另一個(gè)描述其為“蛋白質(zhì)合成類”,那么這無(wú) 疑對(duì)于計(jì)算機(jī)來(lái)說(shuō)是難以區(qū)分這兩個(gè)在字面上相差甚遠(yuǎn)卻在功能上相一致的定義。Gene Ontology (GO)項(xiàng)目正是為了能夠使對(duì)各種數(shù)據(jù)庫(kù)中基因產(chǎn)物功能描述相一致的努力結(jié)果。這個(gè)項(xiàng)目最初是由 1988 年對(duì)三個(gè)模式生物數(shù)據(jù)庫(kù)的整合開(kāi)始:: FlyBase (果蠅數(shù)據(jù)庫(kù) Droso

39、phila),t Saccharomyces Genome Database (酵母基因組數(shù)據(jù)庫(kù) SGD) and the Mouse Genome Database (小鼠基因組數(shù)據(jù)庫(kù) MGD)。從那開(kāi)始,GO不斷發(fā)展擴(kuò)大,現(xiàn)在已包含數(shù)十個(gè)動(dòng)物、植物、微生物的數(shù)據(jù)庫(kù)。GO 的定義法則已經(jīng)在多個(gè)合作的數(shù)據(jù)庫(kù)中使用,這使在這些數(shù)據(jù)庫(kù)中的查詢具有極高的一致性。這種定義語(yǔ)言具有多重結(jié)構(gòu),因此在各種程度上都能進(jìn)行查詢。舉 例來(lái)說(shuō),GO 可以被用來(lái)在小鼠基因組中查詢和信號(hào)轉(zhuǎn)導(dǎo)相關(guān)的基因產(chǎn)物,也可以進(jìn)一步找到各種生物地受體酪氨酸激酶。這種結(jié)構(gòu)允許在各種水平添加對(duì)此基因產(chǎn) 物特性的認(rèn)識(shí)。2.GO 的發(fā)展和組

40、織形式GO 發(fā)展了具有三級(jí)結(jié)構(gòu)的標(biāo)準(zhǔn)語(yǔ)言(ontologies),根據(jù)基因產(chǎn)物的相關(guān)分子功能,生物學(xué)途徑,細(xì)胞學(xué)組件而給予定義,無(wú)物種相關(guān)性。三種本體論的內(nèi)容如下:1)分子功能本體論 基因產(chǎn)物個(gè)體的功能,如與碳水化合物結(jié)合或 ATP 水解酶活性等2)生物學(xué)途徑本體論 分子功能的有序組合,達(dá)成更廣的生物功能,如有絲分裂或嘌呤代謝等3)細(xì)胞組件本體論 亞細(xì)胞結(jié)構(gòu)、位置和大分子復(fù)合物,如核仁、端粒和識(shí)別起始的復(fù)合物等基本來(lái)說(shuō),GO 工作可分為三個(gè)不同的部分:第一,給予和維持定義;第二,將位于不同數(shù)據(jù)庫(kù)中的本體論語(yǔ)言、基因和基因產(chǎn)物進(jìn)行聯(lián)系,形成網(wǎng)絡(luò);第三,發(fā)展相關(guān)工具,使本體論的標(biāo)準(zhǔn)語(yǔ)言的產(chǎn)生和維持

41、更為便捷。3.GO 的形式GO 定義的術(shù)語(yǔ)有著直接非循環(huán)式(directed acyclic graphs (DAGs)的特點(diǎn),而并非是傳統(tǒng)的等級(jí)制定義方式(隨著代數(shù)增加,下一級(jí)比上一級(jí)更為具體)。舉個(gè)例子來(lái)說(shuō),生物學(xué)途徑中有一個(gè)定義是己糖合成,它的上 一級(jí)為己糖代謝和單糖合成。當(dāng)某個(gè)基因被注解為“己糖合成活性”后,它自動(dòng)地獲得了己糖代謝和單糖合成地注解。因?yàn)樵?GO 中,每個(gè)術(shù)語(yǔ)必須遵循“真途徑 “法則,即如果下一代的術(shù)語(yǔ)可以用于描述此基因產(chǎn)物,其上一代術(shù)語(yǔ)也可以適用。4.GO 的注釋(Annotation)那么,GO 中的術(shù)語(yǔ)如何和相對(duì)應(yīng)的基因產(chǎn)物相聯(lián)系的呢?這是由參與合作的數(shù)據(jù)庫(kù)來(lái)完成的

42、,它們使用 GO 的定義方法,對(duì)它們所包含的基因產(chǎn)物進(jìn)行注解,并且 提供支持這種注解的參考和證據(jù)。每個(gè)基因或基因產(chǎn)物都會(huì)有一個(gè)列表,列出與之相關(guān)的 GO 術(shù)語(yǔ)。每個(gè)數(shù)據(jù)庫(kù)都會(huì)給出這些基因產(chǎn)物和 GO 術(shù)語(yǔ)的聯(lián)系數(shù)據(jù)庫(kù),并 且也可以在 GO 的 ftp 站點(diǎn)上和 WEB 方式查詢到。而且,GO 聯(lián)合會(huì)提供了簡(jiǎn)化的本體論術(shù)語(yǔ)(GO slim),這樣,可以在更高級(jí)的層面上研究基因組的功能。比如,粗略地估計(jì)哪一部分的基因組與信號(hào)傳導(dǎo)、代謝合成或復(fù)制有關(guān)。GO 對(duì)基因和蛋白的注釋闡明了基因產(chǎn)物和用于定義他們的 GO 術(shù)語(yǔ)之間的關(guān)系?;虍a(chǎn)物指一個(gè)基因編碼的 RNA 或蛋白產(chǎn)物。因?yàn)橐粋€(gè)基因可能編碼多個(gè)具

43、有很不相同性質(zhì)的產(chǎn)物,所以 GO 推薦的注釋是針對(duì)基因產(chǎn)物的而不是基因的。一個(gè)基因是和所有適用于它的術(shù)語(yǔ)聯(lián)系在一起的。一個(gè)基因產(chǎn)物可以被一種本體論定義的多種分支或多種水平注釋。注釋需要反映在正常情況下此基因產(chǎn)物的功能,生物途徑,定位等,而并不包括其在突變或病理狀 態(tài)下的情況。GO 聯(lián)合會(huì)的各個(gè)數(shù)據(jù)庫(kù)成員采用手動(dòng)或自動(dòng)的方式生成注釋,這兩種方式共有的原理是:一.所有的注釋都需要有來(lái)源,可以是文字、另一個(gè)數(shù)據(jù)庫(kù) 或是計(jì)算機(jī)分析結(jié)果;二.注釋必須提供支持這種基因產(chǎn)物和 GO 術(shù)語(yǔ)之間聯(lián)系的證據(jù)。5.GO 文件格式GO 的所有數(shù)據(jù)都是免費(fèi)獲得的。GO 數(shù)據(jù)有三種格式:flat(每日更新)、XML(每月

44、更新)和 MySQL(每月更新)。 這些數(shù)據(jù)格式都可以在 GO ftp 的站點(diǎn)上下載。XML 和 MySQL 文件是被儲(chǔ)存于獨(dú)立的 GO 數(shù)據(jù)庫(kù)中。如果需要找到與某一個(gè) GO 術(shù)語(yǔ)相關(guān)的基因或基因產(chǎn)物,可以找到一個(gè)相應(yīng)表格,搜尋到這種注解的編號(hào),并且可以鏈接到與之對(duì)應(yīng)的位于不同數(shù)據(jù)庫(kù)的基因相關(guān)文件。6.GO 瀏覽器和修改器(browser and editor)GO 術(shù)語(yǔ)和注釋使用了多種不同的工具軟件,它們都可以在 web 方式的“GO 瀏覽器”下“GO softwarepage”中找到。大多數(shù) GO 瀏覽器都是 web 模式的,允許你直觀的看到術(shù)語(yǔ)和其相關(guān)信息,如定義、同義詞和數(shù)據(jù)庫(kù)參考等。

45、有些 GO 瀏覽器如 AmiGO 和 QuickGO,可以看到每個(gè)術(shù)語(yǔ)的注釋。而可下載的 DAG-Edit 編輯器,一樣可以離線地顯示注釋和所有本體論定義的信息。對(duì)于每一個(gè)瀏覽器來(lái)說(shuō),都可以選擇最適用于你要求的工具軟件。1)常見(jiàn)的三種瀏覽器AmiGO from BDGP 在 AmiGO 中,可以通過(guò)查詢一個(gè) GO 術(shù)語(yǔ)而得到所有具有這個(gè)注釋的基因產(chǎn)物,或查詢一個(gè)基因產(chǎn)物而得到它所有的注釋關(guān)系。還可以瀏覽本體論,得到術(shù)語(yǔ)之間的關(guān)系和術(shù)語(yǔ)對(duì)應(yīng)的基因產(chǎn)物數(shù)目。AmiGO直接連接 GO 下的 MySQL。MGI GO Browser MGI GO 的功能類似于 AmiGO,所不同的在于它所得到的基因?yàn)樾∈蠡?。MGI GO 瀏覽器直接連接 GO 下的 MGI 數(shù)據(jù)庫(kù)。Q

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論