版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、生物信息學生物信息學謝文海謝文海 講師講師 21995年,人類基因組計劃(年,人類基因組計劃(HGP)第一個五年總結報告中給出的定義:生物信)第一個五年總結報告中給出的定義:生物信息學是一門交叉科學,它包含了生物信息的息學是一門交叉科學,它包含了生物信息的獲取、加工、存儲、分配、分析、獲取、加工、存儲、分配、分析、解釋解釋等在內(nèi)的所有方面,它等在內(nèi)的所有方面,它運用運用數(shù)學、計算機科學和生物學的工種工具來數(shù)學、計算機科學和生物學的工種工具來闡明闡明和理解和理解大量數(shù)據(jù)所包含的生物學意義。大量數(shù)據(jù)所包含的生物學意義。是一門融合生命科學和數(shù)理科學的新興學科,是一門融合生命科學和數(shù)理科學的新興學科,
2、以核酸、蛋白質(zhì)等生物大分子數(shù)以核酸、蛋白質(zhì)等生物大分子數(shù)據(jù)庫為主要研究對象據(jù)庫為主要研究對象,以數(shù)學、信息學、計算機科學為主要研究手段以數(shù)學、信息學、計算機科學為主要研究手段,對原始,對原始數(shù)據(jù)數(shù)據(jù)進行存儲、管理、注釋、加工進行存儲、管理、注釋、加工,通過對生物信息的查詢、搜索、比較、分,通過對生物信息的查詢、搜索、比較、分析,從中析,從中獲取基因編碼、基因調(diào)控、核酸和蛋白質(zhì)結構功能及其相互關系等理獲取基因編碼、基因調(diào)控、核酸和蛋白質(zhì)結構功能及其相互關系等理性知識性知識,探索生命起源、生物進化以及細胞、器官和個體發(fā)生、發(fā)育、病變和,探索生命起源、生物進化以及細胞、器官和個體發(fā)生、發(fā)育、病變和衰
3、亡的分子機制。衰亡的分子機制。生物信息學的定義:生物信息學的定義:回顧回顧3回顧回顧4回顧回顧5回顧回顧6第二章第二章 數(shù)據(jù)庫與數(shù)據(jù)庫與生物序列的搜集和存儲生物序列的搜集和存儲生物信息計算機基礎知識簡介生物信息計算機基礎知識簡介分子生物信息數(shù)據(jù)庫分子生物信息數(shù)據(jù)庫生物信息數(shù)據(jù)存儲格式生物信息數(shù)據(jù)存儲格式生物信息的檢索和提交生物信息的檢索和提交7第二章第二章 生物序列的搜集和存儲生物序列的搜集和存儲生物信息計算機基礎知識簡介生物信息計算機基礎知識簡介分子生物信息數(shù)據(jù)庫分子生物信息數(shù)據(jù)庫生物信息數(shù)據(jù)存儲格式生物信息數(shù)據(jù)存儲格式生物信息的檢索和提交生物信息的檢索和提交8生物信息計算機基礎知識簡介生物
4、信息計算機基礎知識簡介計算機硬件知識計算機硬件知識操作系統(tǒng)操作系統(tǒng) Linux 程序語言程序語言 perl、 python 、R 等等數(shù)據(jù)庫數(shù)據(jù)庫 9Linux操作系統(tǒng)操作系統(tǒng) 天才大學生天才大學生Linus Torvalds開發(fā)開發(fā) Linux Kernel 4.3 RC5 用于用于 PC 的免費的免費Unix 開放源代碼,業(yè)余愛好者共同開發(fā)開放源代碼,業(yè)余愛好者共同開發(fā)免費、安全、高速免費、安全、高速 它的出現(xiàn),使得它的出現(xiàn),使得Unix成為一個低廉或免費的成為一個低廉或免費的OS 系統(tǒng)資源消耗系統(tǒng)資源消耗Windows or Mac 開發(fā)軟件的接觸平臺,有用于計算機生物學和一般開發(fā)軟件的
5、接觸平臺,有用于計算機生物學和一般性研究的豐富工具庫性研究的豐富工具庫10 基于命令行基于命令行 X窗口系統(tǒng):讓程序在屏幕上畫圖窗口系統(tǒng):讓程序在屏幕上畫圖 GNOME KDE: 桌面環(huán)境,類似于桌面環(huán)境,類似于Windows11建立建立Linux工作站工作站 一臺廢舊電腦一臺廢舊電腦 安裝打包的安裝打包的Linux(Red Hat、Debian、SuSE、ubuntu窗口界窗口界面強大)面強大) 1213Perl 代碼代碼14/lds/Boulder-1.30/Boulder/Blast.pm1516數(shù)據(jù)庫數(shù)據(jù)庫 理解數(shù)據(jù)庫、理解數(shù)據(jù)庫、DBMSDB
6、MS的作用和意義的作用和意義 了解數(shù)據(jù)庫管理系統(tǒng)了解數(shù)據(jù)庫管理系統(tǒng) 理解各種數(shù)據(jù)庫模型理解各種數(shù)據(jù)庫模型 理解數(shù)據(jù)庫相關的基本概念理解數(shù)據(jù)庫相關的基本概念17什么是數(shù)據(jù)庫什么是數(shù)據(jù)庫數(shù)據(jù)庫是數(shù)據(jù)表及相關操作對象的集合數(shù)據(jù)庫是數(shù)據(jù)表及相關操作對象的集合數(shù)據(jù)表由一個或多個相關的數(shù)據(jù)項組成數(shù)據(jù)表由一個或多個相關的數(shù)據(jù)項組成 記記 錄錄18為什么使用數(shù)據(jù)庫?為什么使用數(shù)據(jù)庫?條理分明條理分明檢索方便檢索方便維護容易維護容易減少錯誤減少錯誤信息挖掘信息挖掘名姓聘任時間KarlaJablonski2004-03-11 MartineRance2002-02-05 MargaretSmith2008-09-
7、29 GaryThomas1988-08-09 19在數(shù)據(jù)庫出現(xiàn)之前,人們書面文檔來存儲數(shù)據(jù)在數(shù)據(jù)庫出現(xiàn)之前,人們書面文檔來存儲數(shù)據(jù) 容易丟失數(shù)據(jù)容易丟失數(shù)據(jù) 數(shù)據(jù)重復、冗余數(shù)據(jù)重復、冗余 難于查閱和使用難于查閱和使用 維護成本高維護成本高20早期數(shù)據(jù)保存方式早期數(shù)據(jù)保存方式 計算機文件計算機文件 操作、修改、查找數(shù)據(jù)操作、修改、查找數(shù)據(jù)磁盤磁盤計算機系統(tǒng)進行數(shù)據(jù)處理計算機系統(tǒng)進行數(shù)據(jù)處理傳送信息傳送信息磁帶磁帶可以以不同的文件格式進行數(shù)據(jù)保存可以以不同的文件格式進行數(shù)據(jù)保存今天,人們依然采用文件方式保存一些數(shù)據(jù)今天,人們依然采用文件方式保存一些數(shù)據(jù)21什么是什么是 DBMS?BrianA00
8、4AllenA003RickyA008ShaneA007數(shù)據(jù)庫數(shù)據(jù)庫檢索數(shù)據(jù)檢索數(shù)據(jù) 插入數(shù)據(jù)插入數(shù)據(jù)更新數(shù)據(jù)更新數(shù)據(jù) 刪除數(shù)據(jù)刪除數(shù)據(jù)數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)庫管理系統(tǒng)(database management system, DBMS) 對數(shù)據(jù)庫進行管理的系統(tǒng)軟件,提供對數(shù)據(jù)庫進行管理的系統(tǒng)軟件,提供DB的建立、查詢、更新以及各種的建立、查詢、更新以及各種數(shù)據(jù)控制功能。數(shù)據(jù)控制功能。2222分布式數(shù)據(jù)庫系統(tǒng)分布式數(shù)據(jù)庫系統(tǒng)其他數(shù)據(jù)源其他數(shù)據(jù)源允許相互進行數(shù)據(jù)交換和數(shù)據(jù)訪問允許相互進行數(shù)據(jù)交換和數(shù)據(jù)訪問遠程數(shù)據(jù)庫連接主數(shù)據(jù)庫遠程數(shù)據(jù)庫連接主數(shù)據(jù)庫本地數(shù)據(jù)庫本地數(shù)據(jù)庫遠程數(shù)據(jù)庫遠程數(shù)據(jù)庫遠程數(shù)據(jù)庫遠程
9、數(shù)據(jù)庫23數(shù)據(jù)庫數(shù)據(jù)庫 數(shù)據(jù)模型(數(shù)據(jù)模型(data model, DM) 數(shù)據(jù)庫結構和語義的一種抽象描述。由數(shù)據(jù)庫結構和語義的一種抽象描述。由數(shù)據(jù)的結構數(shù)據(jù)的結構、數(shù)據(jù)操作數(shù)據(jù)操作和和數(shù)據(jù)庫數(shù)據(jù)的約束條件數(shù)據(jù)庫數(shù)據(jù)的約束條件 。 1)數(shù)據(jù)結構)數(shù)據(jù)結構:數(shù)據(jù)模型中的數(shù)據(jù)結構主要描述數(shù)據(jù)的類型、內(nèi)容、性數(shù)據(jù)模型中的數(shù)據(jù)結構主要描述數(shù)據(jù)的類型、內(nèi)容、性質(zhì)以及數(shù)據(jù)間的聯(lián)系等。數(shù)據(jù)結構是數(shù)據(jù)模型的基礎,質(zhì)以及數(shù)據(jù)間的聯(lián)系等。數(shù)據(jù)結構是數(shù)據(jù)模型的基礎,數(shù)據(jù)操作數(shù)據(jù)操作和約和約束都基本建立在數(shù)據(jù)結構上。不同的數(shù)據(jù)結構具有不同的操作和約束。束都基本建立在數(shù)據(jù)結構上。不同的數(shù)據(jù)結構具有不同的操作和約束。2)
10、數(shù)據(jù)操作)數(shù)據(jù)操作:數(shù)據(jù)模型中數(shù)據(jù)操作主要描述在相應的數(shù)據(jù)結構上的操數(shù)據(jù)模型中數(shù)據(jù)操作主要描述在相應的數(shù)據(jù)結構上的操作類型和操作方式。作類型和操作方式。3)數(shù)據(jù)約束:數(shù)據(jù)模型中的數(shù)據(jù)約束主要描述數(shù)據(jù)結構內(nèi)數(shù)據(jù)間的)數(shù)據(jù)約束:數(shù)據(jù)模型中的數(shù)據(jù)約束主要描述數(shù)據(jù)結構內(nèi)數(shù)據(jù)間的語法、詞義聯(lián)系、他們之間的制約和依存關系,以及數(shù)據(jù)動態(tài)變化的語法、詞義聯(lián)系、他們之間的制約和依存關系,以及數(shù)據(jù)動態(tài)變化的規(guī)則,以保證數(shù)據(jù)的正確、有效和相容。規(guī)則,以保證數(shù)據(jù)的正確、有效和相容。描述用來存儲數(shù)據(jù)的容器;描述用來存儲數(shù)據(jù)的容器;在該容器中存儲和檢索數(shù)據(jù)的過程;在該容器中存儲和檢索數(shù)據(jù)的過程;24數(shù)據(jù)庫模型-層次模型層
11、次數(shù)據(jù)模型模擬現(xiàn)實生層次數(shù)據(jù)模型模擬現(xiàn)實生活中的各種分層組織?;钪械母鞣N分層組織。層次數(shù)據(jù)庫是一組通過鏈接層次數(shù)據(jù)庫是一組通過鏈接而互相聯(lián)系在一起的記錄。而互相聯(lián)系在一起的記錄。特點是特點是記錄間的聯(lián)系是通過記錄間的聯(lián)系是通過指針實現(xiàn)指針實現(xiàn),表示的是對象的,表示的是對象的聯(lián)系。聯(lián)系。缺點是無法反映多對缺點是無法反映多對象的聯(lián)系象的聯(lián)系,且由于層次順序,且由于層次順序的嚴格和復雜,導致數(shù)據(jù)的的嚴格和復雜,導致數(shù)據(jù)的查詢和更新操作復雜。查詢和更新操作復雜。25數(shù)據(jù)庫模型-網(wǎng)狀模型銷售代表銷售代表顧客顧客產(chǎn)品產(chǎn)品發(fā)票發(fā)票付款記錄付款記錄發(fā)票物品項發(fā)票物品項不同的相關的信息組成一個不同的相關的信息組
12、成一個“網(wǎng)狀網(wǎng)狀”的模型,的模型,它使用它使用網(wǎng)格結構表示實體類型、實體間聯(lián)系網(wǎng)格結構表示實體類型、實體間聯(lián)系。特點是記錄間的聯(lián)系通過指針實現(xiàn),多對多關特點是記錄間的聯(lián)系通過指針實現(xiàn),多對多關系容易實現(xiàn)。缺點是編程復雜。系容易實現(xiàn)。缺點是編程復雜。26數(shù)據(jù)庫模型-關系模型記錄和記錄之間通過屬性之間的關系來進行連接記錄和記錄之間通過屬性之間的關系來進行連接 保證數(shù)據(jù)獨立性,并形成數(shù)據(jù)集之間的關系。保證數(shù)據(jù)獨立性,并形成數(shù)據(jù)集之間的關系。753862981成績成績學號學號劉三陽劉三陽3李東李東2張明張明1姓名姓名學號學號劉三陽劉三陽753姓名姓名成績成績學號學號27數(shù)據(jù)和信息數(shù)據(jù)和信息數(shù)據(jù) 8趙六
13、趙六 10王五王五 15李四李四 20 張三張三 聯(lián)賽獲勝場次聯(lián)賽獲勝場次 運動員運動員信息信息聯(lián)賽最佳運動員張三28數(shù)據(jù)庫元元 組組課程編號課程編號課程名稱課程名稱學時學時學期學期平均成績平均成績J001數(shù)據(jù)庫基礎36178J003C語言60181Z004操作系統(tǒng)44267X001編譯原理40266屬性屬性行(記錄)行(記錄)列列表、記錄、行列關系表、記錄、行列關系29數(shù)據(jù)庫 數(shù)據(jù)庫系統(tǒng)是一個基于計算機的記錄保存系統(tǒng),數(shù)據(jù)庫系統(tǒng)是一個基于計算機的記錄保存系統(tǒng),它最主要的用途是記錄和維護信息。它最主要的用途是記錄和維護信息。 數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)庫管理系統(tǒng) (DBMS) 包括一組相關的記錄以及包
14、括一組相關的記錄以及一組用來訪問和操作這些記錄的程序。一組用來訪問和操作這些記錄的程序。30 降低存儲數(shù)據(jù)的冗余度降低存儲數(shù)據(jù)的冗余度 更高的數(shù)據(jù)一致性更高的數(shù)據(jù)一致性 存儲的數(shù)據(jù)可以共享存儲的數(shù)據(jù)可以共享 可以建立和遵循某些標準可以建立和遵循某些標準 便于維護數(shù)據(jù)完整性便于維護數(shù)據(jù)完整性 能夠?qū)崿F(xiàn)數(shù)據(jù)的安全性能夠?qū)崿F(xiàn)數(shù)據(jù)的安全性計算機化數(shù)據(jù)庫的好處計算機化數(shù)據(jù)庫的好處生物信息學數(shù)據(jù)庫產(chǎn)生的動力 生物分子數(shù)據(jù)的高速增長生物分子數(shù)據(jù)的高速增長 有效的存儲有效的存儲 計算機技術迅速發(fā)展計算機技術迅速發(fā)展 數(shù)據(jù)存貯技術的成熟數(shù)據(jù)存貯技術的成熟 互聯(lián)網(wǎng)互聯(lián)網(wǎng) 共享共享 生物信息分析是現(xiàn)代生物學研究的基
15、礎生物信息分析是現(xiàn)代生物學研究的基礎 及時的獲取數(shù)據(jù)及時的獲取數(shù)據(jù) 高效的利用數(shù)據(jù)高效的利用數(shù)據(jù) 3233現(xiàn)代生物信息數(shù)據(jù)庫的特征現(xiàn)代生物信息數(shù)據(jù)庫的特征(1 1)數(shù)據(jù)更新速度快,數(shù)據(jù)量呈指數(shù)增長趨勢)數(shù)據(jù)更新速度快,數(shù)據(jù)量呈指數(shù)增長趨勢 (2 2)數(shù)據(jù)庫使用頻率快速增長,重要性日益被科研工作者所認識)數(shù)據(jù)庫使用頻率快速增長,重要性日益被科研工作者所認識 (3 3)數(shù)據(jù)庫的復雜程度不斷增加)數(shù)據(jù)庫的復雜程度不斷增加(4 4)數(shù)據(jù)庫網(wǎng)絡化)數(shù)據(jù)庫網(wǎng)絡化 互聯(lián)網(wǎng)上訪問;公共數(shù)據(jù)庫之間相互鏈接;集成數(shù)據(jù)庫系統(tǒng)?;ヂ?lián)網(wǎng)上訪問;公共數(shù)據(jù)庫之間相互鏈接;集成數(shù)據(jù)庫系統(tǒng)。(5 5)面向應用。如提供在線分析工
16、具。)面向應用。如提供在線分析工具。(7 7)先進的計算機硬件和軟件的配置)先進的計算機硬件和軟件的配置 一級數(shù)據(jù)庫一級數(shù)據(jù)庫概念:概念:數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理和注釋數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理和注釋 包含:包含: 基因組數(shù)據(jù)庫、基因組數(shù)據(jù)庫、 核酸序列數(shù)據(jù)庫、核酸序列數(shù)據(jù)庫、 蛋白一級結構序列數(shù)據(jù)庫、蛋白一級結構序列數(shù)據(jù)庫、 生物大分子三維空間結構數(shù)據(jù)庫(主要為蛋白質(zhì))生物大分子三維空間結構數(shù)據(jù)庫(主要為蛋白質(zhì))二級數(shù)據(jù)庫二級數(shù)據(jù)庫概念:概念:對原始生物分子數(shù)據(jù)進行整理、分類的結果,是在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和對原始生物分子數(shù)據(jù)進行整理
17、、分類的結果,是在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎上針對特定的應用目標而建立的。理論分析的基礎上針對特定的應用目標而建立的。包含:包含:種種類繁多:真核生物啟動子序列庫類繁多:真核生物啟動子序列庫 EPD ;功能模體;功能模體(motif)數(shù)據(jù)庫數(shù)據(jù)庫 PROSITE 數(shù)據(jù)數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù),直接來源于實驗獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理只經(jīng)過簡單的歸類整理和注釋。和注釋。 數(shù)據(jù)庫名稱數(shù)據(jù)庫名稱 數(shù)據(jù)來源數(shù)據(jù)來源 基因組數(shù)據(jù)庫基因組數(shù)據(jù)庫 基因組作圖基因組作圖 序列數(shù)據(jù)庫序列數(shù)據(jù)庫 (核酸和蛋白質(zhì))(核酸和蛋白質(zhì)) 序列測定序列測定 結構數(shù)據(jù)庫結構數(shù)據(jù)庫 X射線衍射和核磁
18、共振射線衍射和核磁共振 基因組數(shù)據(jù)庫的主體是模式生物基因組數(shù)據(jù)庫,此外還包括染色體,基因突變,遺傳疾病,分類學,比較基因組,基因表達和調(diào)控,放射雜交,基因圖譜等各種數(shù)據(jù)庫。 /genome3940Map view EMBL-EBI和和Sanger研究所共同開發(fā)的一個系統(tǒng)。研究所共同開發(fā)的一個系統(tǒng)。Ensembl產(chǎn)生并維護關于各種模式生物基因組的自動注釋。產(chǎn)生并維護關于各種模式生物基因組的自動注釋。人類基因組、小鼠基因組、大鼠基因組、黑猩猩基因組等。人類基因組、小鼠基因組、大鼠基因組、黑猩猩基因組等。Ensembl試圖試圖跟蹤這些基因組的序列片
19、段,并將序列片段組裝成單個長序列,跟蹤這些基因組的序列片段,并將序列片段組裝成單個長序列,進而分析這些經(jīng)過組裝的進而分析這些經(jīng)過組裝的DNA序列,搜索其中的基因,發(fā)現(xiàn)生物學家或醫(yī)學序列,搜索其中的基因,發(fā)現(xiàn)生物學家或醫(yī)學工作者感興趣的序列。工作者感興趣的序列。Ensembl所用的基因預測程序為所用的基因預測程序為GenScan。單核苷酸多態(tài)性(單核苷酸多態(tài)性(SNP)、重復序列與其它序列高度相似(或同源)的序列。)、重復序列與其它序列高度相似(或同源)的序列。Ensembl 數(shù)據(jù)庫還提供疾病、細胞等方面的信息,并且提供數(shù)據(jù)搜索、數(shù)據(jù)下數(shù)據(jù)庫還提供疾病、細胞等方面的信息,并且提供數(shù)據(jù)搜索、數(shù)據(jù)下
20、載、載、統(tǒng)計分析等服務。統(tǒng)計分析等服務。42/GENSCAN.htmlGeneScanEnsembl (/)44最新版本最新版本45酵母酵母大腸桿菌大腸桿菌果蠅果蠅線蟲線蟲老鼠老鼠是數(shù)據(jù)庫是數(shù)據(jù)庫也是靈活和通用數(shù)據(jù)庫管理系統(tǒng)也是靈活和通用數(shù)據(jù)庫管理系統(tǒng)Sanger中心已將其中心已將其用于線蟲和人類基因的瀏覽和檢索用于線蟲和人類基因的瀏覽和檢索庫內(nèi)資源包括:庫內(nèi)資源包括:限制性圖譜、基因結構信息、質(zhì)粒圖譜、參考文獻等。限制性圖譜、基因結構信息、質(zhì)粒圖譜、參考文獻等。秀麗線蟲秀麗線蟲Caenorhabditis ele
21、gans一種透明的、生活在海灘泥沙中的小蟲一種透明的、生活在海灘泥沙中的小蟲細胞數(shù)目一定:成蟲細胞數(shù)目只有細胞數(shù)目一定:成蟲細胞數(shù)目只有959個,個,其中包括其中包括302個神經(jīng)元;個神經(jīng)元; 48AceDB /The AceDB software is primarily developed to run under the Unix operating system49/UCSC Genome Browser由由University of California Santa Cruz (UCSC) 創(chuàng)立和維護的,
22、創(chuàng)立和維護的,該站點包含有該站點包含有人類、小鼠和大鼠等多個物種的基因組草圖人類、小鼠和大鼠等多個物種的基因組草圖,并提供一系列的網(wǎng)頁分析工具。,并提供一系列的網(wǎng)頁分析工具。站點用戶可以通過它可靠和迅速地站點用戶可以通過它可靠和迅速地瀏覽基因組的任何一部瀏覽基因組的任何一部 分分,并且同時可以,并且同時可以得到與該部分有關的基因組注釋信息,如已知基因,預測基因,表達序列標得到與該部分有關的基因組注釋信息,如已知基因,預測基因,表達序列標簽,信使簽,信使RNA,CpG島,克隆組裝間隙和重疊,染色體帶型,小鼠島,克隆組裝間隙和重疊,染色體帶型,小鼠 同源性等同源性等50http:/genome.u
23、/5152主要核酸序列數(shù)據(jù)庫主要核酸序列數(shù)據(jù)庫: 主要蛋白質(zhì)序列數(shù)據(jù)庫:主要蛋白質(zhì)序列數(shù)據(jù)庫:GeneBank是具有目錄和生物學注釋的核苷酸綜合數(shù)據(jù)庫是具有目錄和生物學注釋的核苷酸綜合數(shù)據(jù)庫由美國國家生物信息中心負責維護由美國國家生物信息中心負責維護 GenBank數(shù)據(jù)庫的數(shù)據(jù)來源有三種:數(shù)據(jù)庫的數(shù)據(jù)來源有三種:直接來源于測序工作者提交的序列直接來源于測序工作者提交的序列與其它數(shù)據(jù)機構協(xié)作交換的數(shù)據(jù)與其它數(shù)據(jù)機構協(xié)作交換的數(shù)據(jù)美國專利局提供的專利數(shù)據(jù)美國專利局提供的專利數(shù)據(jù)5556 GenBank statisticsFrom1982tothepresent,thenumbero
24、fbasesinGenBankhasdoubledapproximatelyevery18months.n 1980年開始建設,年開始建設,1982年正式運行年正式運行n 歐洲主要的核酸序列收集單位歐洲主要的核酸序列收集單位n歐洲生物信息中心(歐洲生物信息中心(EBI),德國海德堡站點負責維護德國海德堡站點負責維護 EMBL數(shù)據(jù)庫的數(shù)據(jù)來源有三種:數(shù)據(jù)庫的數(shù)據(jù)來源有三種:直接來源于測序工作者提交的序列(直接來源于測序工作者提交的序列(Sanger測序中心)測序中心)與其它數(shù)據(jù)機構協(xié)作交換的數(shù)據(jù)與其它數(shù)據(jù)機構協(xié)作交換的數(shù)據(jù)歐洲專利局提供的專利數(shù)據(jù)歐洲專利局提供的專利數(shù)據(jù)n日本日本1984年開始建
25、立,并于年開始建立,并于1987年正式服務。年正式服務。n 亞洲唯一的核酸序列數(shù)據(jù)庫亞洲唯一的核酸序列數(shù)據(jù)庫n生物信息學中心和日本國家遺傳研究所的生物信息學中心和日本國家遺傳研究所的DNA數(shù)據(jù)庫(數(shù)據(jù)庫(CIB-DDBJ),共同組建。共同組建。 DDBJ數(shù)據(jù)庫的數(shù)據(jù)來源有二種:數(shù)據(jù)庫的數(shù)據(jù)來源有二種:研究者提交的序列(研究者提交的序列(90%直接來源于日本)直接來源于日本)與其它數(shù)據(jù)機構協(xié)作交換的數(shù)據(jù)與其它數(shù)據(jù)機構協(xié)作交換的數(shù)據(jù)重要蛋白質(zhì)序列數(shù)據(jù)庫:重要蛋白質(zhì)序列數(shù)據(jù)庫:SWISSPROT(歐洲歐洲)PIR(美國美國)蛋白質(zhì)序列數(shù)據(jù)庫蛋白質(zhì)序列數(shù)據(jù)庫nSWISS-PROT和和PIR是國際上兩個
26、主要的蛋白質(zhì)序列數(shù)是國際上兩個主要的蛋白質(zhì)序列數(shù)據(jù)庫,目前這兩個個數(shù)據(jù)庫在據(jù)庫,目前這兩個個數(shù)據(jù)庫在EMBL和和GenBank數(shù)據(jù)數(shù)據(jù)庫上均建立了鏡像庫上均建立了鏡像 (mirror) 站點。站點。nSWISS-PROT數(shù)據(jù)庫包括了從數(shù)據(jù)庫包括了從EMBL翻譯而來的蛋白翻譯而來的蛋白質(zhì)序列,這些序列經(jīng)過檢驗和注釋。質(zhì)序列,這些序列經(jīng)過檢驗和注釋。nPIR數(shù)據(jù)庫的數(shù)據(jù)由美國家生物技術信息中心數(shù)據(jù)庫的數(shù)據(jù)由美國家生物技術信息中心(NCBI)翻譯自翻譯自GenBank的的DNA序列。序列。 名稱名稱維護維護單位單位 注釋注釋 冗余度冗余度 數(shù)據(jù)量數(shù)據(jù)量 更新更新SWISSSWISSPROTPROTE
27、BIEBI 部分完善部分完善 小小 中等中等 較慢較慢PIRPIRNCBINCBI 完善完善 較大較大 較大較大 較慢較慢 1986創(chuàng)建創(chuàng)建瑞士日內(nèi)瓦大學醫(yī)學生物化學系和歐洲生物信息學研究瑞士日內(nèi)瓦大學醫(yī)學生物化學系和歐洲生物信息學研究所所(EBI)合作維護合作維護 在在EMBL和和GenBank數(shù)據(jù)庫上均建立了鏡像站點數(shù)據(jù)庫上均建立了鏡像站點; 數(shù)據(jù)庫包括了從數(shù)據(jù)庫包括了從EMBL翻譯而來的蛋白質(zhì)序列,經(jīng)過翻譯而來的蛋白質(zhì)序列,經(jīng)過 檢驗和注檢驗和注釋;釋; 數(shù)據(jù)記錄包括兩部分:數(shù)據(jù)記錄包括兩部分: 序列序列 注釋注釋:結構域、功能位點、跨膜區(qū)域、二硫鍵位置、翻譯后的結構域、功能位點、跨膜區(qū)
28、域、二硫鍵位置、翻譯后的修飾修飾 數(shù)據(jù)存在滯后性數(shù)據(jù)存在滯后性66Swiss-prot儲存數(shù)據(jù)增速放緩/sprot 1. 由美國由美國NCBI翻譯自翻譯自GenBank的的DNA序列序列(1984年年); 2. 在在EMBL和和GenBank數(shù)據(jù)庫上均建立了鏡像站點;數(shù)據(jù)庫上均建立了鏡像站點; 3. 數(shù)據(jù)依據(jù)注釋的質(zhì)量分為數(shù)據(jù)依據(jù)注釋的質(zhì)量分為4類。類。 分類名稱分類名稱(Name)說明說明(Comment)記錄數(shù)記錄數(shù)(Number of entries)PIR1已分類、已注釋已分類、已注釋(Classified and annotated)13572P
29、IR2已注釋已注釋(Annotated)69368PIR3未核實未核實(Unverified)7508PIR4未翻譯未翻譯(Unencoded or untranslated)1966970/三個子數(shù)據(jù)庫三個子數(shù)據(jù)庫n蛋白質(zhì)結構數(shù)據(jù)庫蛋白質(zhì)結構數(shù)據(jù)庫 nPDB n蛋白質(zhì)分類數(shù)據(jù)庫蛋白質(zhì)分類數(shù)據(jù)庫 nSCOP和和CATH 1. 目前最主要的蛋白質(zhì)分子結構數(shù)據(jù)庫;目前最主要的蛋白質(zhì)分子結構數(shù)據(jù)庫; 2. 1970年代建立,美國年代建立,美國Brookhaven國家實驗室維護管理國家實驗室維護管理; 3. 1988年,由美國年,由美國RCSB(rese
30、arch collaboratory for structural biology)管理;管理; 4. 以文本格式存放數(shù)據(jù),包括原子坐標、物種來源、測定以文本格式存放數(shù)據(jù),包括原子坐標、物種來源、測定方法、提交者信息、一級結構、二級結構等;方法、提交者信息、一級結構、二級結構等; 5. PDBsum數(shù)據(jù)庫:數(shù)據(jù)庫:PDB注釋信息綜合數(shù)據(jù)庫,具有檢索、注釋信息綜合數(shù)據(jù)庫,具有檢索、分析、可視化的功能。分析、可視化的功能。/pdbhttp:/www.ebi.ac.uk/thornton-rv/databases/pdbsum/lSCOP (Structural
31、Classification of Proteins)lCATH( Class, Architecture, Topology, Homology)n描述了描述了結構和進化結構和進化關系。關系。nSCOP數(shù)據(jù)庫數(shù)據(jù)庫從不同層次從不同層次對蛋白質(zhì)結構進行分類,以反對蛋白質(zhì)結構進行分類,以反映它們結構和進化的相關性。映它們結構和進化的相關性。n第一個分類層次為家族,通常將第一個分類層次為家族,通常將序列相似性程度在序列相似性程度在30%以上以上的蛋白質(zhì)歸入同一家族,有比較明確的進化關系。的蛋白質(zhì)歸入同一家族,有比較明確的進化關系。n超家族:序列相似性較低,超家族:序列相似性較低,結構和功能特性結構
32、和功能特性表明它們有表明它們有共同的進化起源,將其視作超家族。共同的進化起源,將其視作超家族。n折疊類型:無論有無共同的進化起源,只要折疊類型:無論有無共同的進化起源,只要二級結構單二級結構單元具有相同的排列和拓撲結構元具有相同的排列和拓撲結構,即認為這些蛋白質(zhì)具有,即認為這些蛋白質(zhì)具有相同的折疊方式。在這些情況下,結構的相似性主要依相同的折疊方式。在這些情況下,結構的相似性主要依賴于二級結構單元的排列方式或拓撲結構。賴于二級結構單元的排列方式或拓撲結構。n類型類型Class、構架、構架Architecture 、拓撲結構、拓撲結構Topology和和同源性同源性Homology 。n分類基礎
33、是分類基礎是蛋白質(zhì)結構域蛋白質(zhì)結構域。與。與SCOP不同的是,不同的是,CATH把蛋白質(zhì)分為把蛋白質(zhì)分為4類,即類,即a a主類、主類、b b主類,主類,a-ba-b類(類(a/ba/b型型和和a+ba+b型)和低二級結構類型)和低二級結構類。低二級結構類是指二級。低二級結構類是指二級結構成分含量很低的蛋白質(zhì)分子。結構成分含量很低的蛋白質(zhì)分子。nCATH數(shù)據(jù)庫的數(shù)據(jù)庫的第二個分類第二個分類依據(jù)為由依據(jù)為由螺旋和螺旋和折疊形折疊形成的成的超二級結構排列方式超二級結構排列方式,而不考慮它們之間的連接,而不考慮它們之間的連接關系。關系。n第三個層次為第三個層次為拓撲結構拓撲結構,即二級結構的形狀和二級結構間,即二級結構的形狀和二級結構間的聯(lián)系。的聯(lián)系。n第四個層次為第四個層次為結構的同源性結構的同源性,它是先通過序列比較然后再,它是先通過序列比較然后再用結構比較來確定的。用結構比較來確定的。nCATH數(shù)據(jù)庫的最后一個層次為數(shù)據(jù)庫的最后一個層次為序列序列(Sequence)層次層次,在,在這一層次上,只要結構域中的序列同源性大于這一層次上,只要結構域中的序列同源性大于35%,就被,就被認為具有高度的結構和功能的相似性。對
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年人力資源管理師專業(yè)技能考核??荚囶}庫
- 防范精麻藥品濫用培訓
- 空間探索與未來科技發(fā)展趨勢題2026版
- 2026年高考英語閱讀理解與寫作技巧題
- 2026年旅游管理實務與政策考試題旅游市場分析與規(guī)劃
- 2026年健身教練專業(yè)素質(zhì)與技能評估試題
- 地理信息科學專業(yè)高級知識測試題目2026版
- 2026年心理學基礎知識模擬題集初級版
- 2026年醫(yī)院電梯維保服務合同
- 教育法規(guī)案例分析題高分技巧與答案解析試卷
- 江南大學介紹
- 近五年甘肅中考物理試題及答案2025
- 《生活垃圾填埋場環(huán)境風險評估技術指南》
- 2024數(shù)控機床主軸可靠性加速試驗技術規(guī)范
- 質(zhì)量信得過班組培訓課件
- 材料進場檢驗記錄表
- DL∕T 1768-2017 旋轉(zhuǎn)電機預防性試驗規(guī)程
- 復方蒲公英注射液在銀屑病中的應用研究
- 網(wǎng)絡直播創(chuàng)業(yè)計劃書
- 大學任課老師教學工作總結(3篇)
- 3D打印增材制造技術 課件 【ch01】增材制造中的三維模型及數(shù)據(jù)處理
評論
0/150
提交評論