版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
/第十四章提交DNA序列到數(shù)據(jù)庫(kù)序言:要在分子生物學(xué)領(lǐng)域進(jìn)行計(jì)算分析,從公共數(shù)據(jù)庫(kù)(DDBJ/EMBL/GenBank)中獲得DNA序列記錄是其必需條件。借助于和一個(gè)已了解其生物學(xué)功能而被分離出來(lái)并測(cè)序的基因比較相似性的方法,我們可以嘗試確定某疾病基因的功能,這種方法要求序列記錄有精確并且富于信息的生物學(xué)注解。對(duì)于將其作為BLAST或Entrez的檢索結(jié)果來(lái)研究的科學(xué)家來(lái)說(shuō),編碼的蛋白質(zhì)產(chǎn)物的名稱或功能、基因座位的名稱以及和該序列最初的公布之間的了解(它因何被測(cè)序?)構(gòu)成了序列記錄的直接的確切涵義。本章的內(nèi)容是提交DNA序列及其注解到公共數(shù)據(jù)庫(kù),重點(diǎn)介紹了與國(guó)際核苷酸序列協(xié)作數(shù)據(jù)庫(kù):DDBJ、EMBL和GenBank密切相關(guān)的核苷酸序列數(shù)據(jù)庫(kù)。我們描述了提交序列到這些數(shù)據(jù)庫(kù)的兩種不同的方法,一種方法基于互聯(lián)網(wǎng),(例如,使用Bankit),另一種方法使用Sequin,這是一個(gè)多平臺(tái)程序,若同時(shí)具有網(wǎng)絡(luò)連接有很大益處,不過(guò)這不是必需的。Sequin也是一種很好的利用了NCBI數(shù)據(jù)模型(參見(jiàn)第六章)的ASN.1編輯工具,而且在不久的將來(lái)會(huì)成為許多采用NCBI的序列分析工具的平臺(tái),因此,Sequin是可供選擇的升級(jí)工具。大多數(shù)期刊不再刊登完整的序列數(shù)據(jù),并且現(xiàn)在公開(kāi)發(fā)表文章時(shí)向公共數(shù)據(jù)庫(kù)提交序列數(shù)據(jù)已成為一條準(zhǔn)則?;蚪M測(cè)序時(shí)期(ESTs和基因組序列的數(shù)量以很快的速度增加的時(shí)期,在歷史上以1992年底EST計(jì)劃的開(kāi)始為標(biāo)志)已經(jīng)通過(guò)很多方式影響了科學(xué)界。例如,許多科學(xué)家公布他們發(fā)現(xiàn)的序列先于發(fā)表對(duì)其進(jìn)行的詳細(xì)分析,這個(gè)習(xí)慣已成為大型基因研究中心的規(guī)定,盡管一些個(gè)別的實(shí)驗(yàn)室仍然直到文章發(fā)表后才公開(kāi)他們的數(shù)據(jù),還有一些人認(rèn)為公開(kāi)他們的記錄與否取決于自己的愿望。像第二章概述的那樣,到目前為止,數(shù)據(jù)庫(kù)內(nèi)容的增長(zhǎng)是指數(shù)性的。大多數(shù)早期的序列記錄是由對(duì)于某個(gè)基因感興趣的單個(gè)的科學(xué)家提交的,適合這種情況的提交程序必須允許手工進(jìn)行生物學(xué)信息的任意注解。然而最近這些數(shù)據(jù)庫(kù)不得不接受新類型的數(shù)據(jù),而且提交速度要有實(shí)質(zhì)性的提高。在EST測(cè)序開(kāi)始不久,為了接受這些記錄必需一種單獨(dú)的提交協(xié)議,這種要求變得很明顯,通過(guò)該協(xié)議每天接受的記錄將達(dá)到上千個(gè),峰值時(shí)期更將達(dá)到每周100,000個(gè)提交量。幸運(yùn)的是,這些記錄相當(dāng)簡(jiǎn)單,而且在內(nèi)容上是一致的,因此適合于自動(dòng)處理。這種大批量提交協(xié)議將在下文討論。提交過(guò)程也是國(guó)際活動(dòng)的一部分,值得注意的是,向三個(gè)國(guó)際性協(xié)作數(shù)據(jù)庫(kù)中的任一個(gè)提交的記錄(參見(jiàn)第二章圖2.1)幾天后都將在另兩個(gè)數(shù)據(jù)庫(kù)中出現(xiàn),然后這些序列記錄將被許多研究組和研究中心傳送到世界范圍,其中有些研究者再格式化這些記錄以適合他們的數(shù)據(jù)庫(kù)和他們的程序使用(例如,GCG,參見(jiàn)第四章),因此僅僅提交序列數(shù)據(jù)到這三個(gè)數(shù)據(jù)庫(kù)之一,研究者們能夠避免給這三個(gè)地方的數(shù)據(jù)庫(kù)維護(hù)人員帶來(lái)任何可能的重復(fù)工作,而且也能避免發(fā)布多余的記錄。同樣的,大多數(shù)期刊都希望在一篇文章中提出的所有核苷酸序列,將被由國(guó)際性的協(xié)作數(shù)據(jù)庫(kù)之一提供的加入號(hào)碼所驗(yàn)證,而且這對(duì)該文章來(lái)說(shuō)具有核心的意義。(參見(jiàn)第2章和第6章)。提交到哪兒?過(guò)去研究者將數(shù)據(jù)提交到哪一個(gè)特定的數(shù)據(jù)庫(kù)依賴于他們想要發(fā)表文章的期刊,雖然現(xiàn)在一些期刊仍然不合適的指出一個(gè)偏愛(ài)的數(shù)據(jù)庫(kù),但這不再是正確的了,研究者應(yīng)該提交到最方便的數(shù)據(jù)庫(kù)。這可能是地理上最近的數(shù)據(jù)庫(kù)(例如,如果需要一次電話會(huì)談的話);也可能是經(jīng)常提交的數(shù)據(jù)庫(kù);或者可能僅是因?yàn)樵谀抢锾峤豢赡艿玫阶疃嗟淖⒁狻_@三個(gè)數(shù)據(jù)庫(kù)都有知識(shí)豐富的人員來(lái)幫助提交者完成整個(gè)提交過(guò)程。在通常的情況下,一個(gè)工作日內(nèi)將會(huì)反饋回來(lái)一個(gè)加入號(hào)碼,而記錄的完成將需要510天的時(shí)間,其實(shí)際長(zhǎng)短將依賴于那個(gè)工作周的繁忙程度和提交的序列的狀態(tài)。目前,假設(shè)所有的序列記錄提交都通過(guò)電子方式:例如通過(guò)互聯(lián)網(wǎng),通過(guò)電子郵件,或者(最起碼)通過(guò)常規(guī)方式郵寄一張計(jì)算機(jī)磁盤(pán)。供電子方式提交的URLs和E_mail位置列于本章末尾,這兩種提交方式取代了早期使用的授權(quán)軟件的方法,該方法現(xiàn)在已經(jīng)過(guò)時(shí)了。不過(guò)通過(guò)授權(quán)軟件來(lái)提交仍然可被接受(在本文出版時(shí)),但是使用授權(quán)軟件的提交者應(yīng)該注意其局限性和可以選擇更好的方法。提交什么內(nèi)容?這三個(gè)數(shù)據(jù)庫(kù)都需要同樣的最終結(jié)果:充分注解的、具生物學(xué)意義的、便于計(jì)算的良好記錄,該記錄允許其他科學(xué)家利用提交該記錄的生物學(xué)家已獲得的工作成果,并且提供了與蛋白質(zhì)、參考文獻(xiàn)和基因組數(shù)據(jù)庫(kù)(參見(jiàn)第5章)的了解。這些數(shù)據(jù)庫(kù)是所有通過(guò)實(shí)驗(yàn)獲得的序列的寶庫(kù),因此最新測(cè)序的mRNA或基因區(qū)域的序列可以提交到某個(gè)數(shù)據(jù)庫(kù),其工作人員將協(xié)助提交者提供足夠的信息以使該序列對(duì)其他研究者有使用價(jià)值。一套豐富的生物特征和其他注解是可得到的,但其中重要的部分無(wú)疑是那些可用于分析的內(nèi)容。這些部分包括核苷酸和蛋白質(zhì)序列:CDS(編碼序列,又稱編碼區(qū))、基因、mRNA特征(如:表現(xiàn)分子生物學(xué)中心法則的特征);序列得以確定的生物;以及關(guān)于參考文獻(xiàn)的引用,這些引用將此序列連接到有關(guān)的信息領(lǐng)域并將給出證明該序列存在的實(shí)驗(yàn)細(xì)節(jié)。DNA/RNA提交的過(guò)程相當(dāng)簡(jiǎn)單,但必須小心謹(jǐn)慎,才能提供準(zhǔn)確(無(wú)錯(cuò)誤和無(wú)載體污染)和生物學(xué)上盡量良好的信息,以保證其得到科學(xué)界的最充分利用。無(wú)論提交形式如何,在開(kāi)始提交以前,都要解決以下幾個(gè)問(wèn)題。序列的性質(zhì)該序列來(lái)源于基因組還是mRNA?數(shù)據(jù)庫(kù)的用戶想知道被測(cè)序的DNA分子的來(lái)源。例如:盡管cDNA是在DNA(不是RNA)上進(jìn)行測(cè)序的,在細(xì)胞中的分子表現(xiàn)型卻是mRNA。同樣對(duì)于rRNA基因的基因組測(cè)序而言,測(cè)序的分子幾乎全都是DNA分子。將rRNA復(fù)制成DNA,就象直接對(duì)rRNA測(cè)序一樣,盡管是可能的,但很少這樣做。記?。杭热槐惶峤坏幕虮仨氂歇?dú)特的分子類型,它就不會(huì)表現(xiàn)出(例如)一種基因組和mRNA分子的混合類型,否則實(shí)際上不會(huì)從一個(gè)活細(xì)胞中提取出來(lái)。序列是合成的,但不是人造的嗎?合成分子在核苷酸數(shù)據(jù)庫(kù)中有一個(gè)特殊的分類,在此環(huán)境中,序列被按照實(shí)驗(yàn)排列,而這在自然環(huán)境中是不會(huì)出現(xiàn)的(如:蛋白質(zhì)表達(dá)的載體序列)。DNA數(shù)據(jù)庫(kù)不接受計(jì)算機(jī)產(chǎn)生的序列(如:同源序列),在數(shù)據(jù)庫(kù)中的所有序列都是從有問(wèn)題的實(shí)際分子序列中通過(guò)實(shí)驗(yàn)獲得的,但是它們可以被匯聚成測(cè)序訓(xùn)練獵槍。序列有多精確?在數(shù)據(jù)庫(kù)文獻(xiàn)中很少提到這個(gè)問(wèn)題,但假設(shè)被提交的序列盡可能精確,這通常意味著整個(gè)提交序列至少包括兩相覆蓋域(相反方向)。證實(shí)最終提交的序列也同樣重要,它必須無(wú)載體的污染(這可以用在載體數(shù)據(jù)庫(kù)中BLASTN查尋證實(shí):參見(jiàn)其后的第7章),可以以已知的限制圖譜檢驗(yàn),消除序列重組的可能性,或確認(rèn)正確的序列集合。生物體給每條記錄分配正確的生物是至關(guān)重要的,盡管在大多數(shù)情況下這是很容易做到的。所有的DNA序列記錄必須有一個(gè)生物分配給它們,從數(shù)據(jù)庫(kù)中的記錄出現(xiàn)在系統(tǒng)發(fā)生樹(shù)上的位置可以得到許多推論。如果它們被錯(cuò)誤的安置了,可能會(huì)翻譯錯(cuò)誤的遺傳密碼,并產(chǎn)生被錯(cuò)誤截取的蛋白質(zhì)產(chǎn)物序列。已經(jīng)知道的基因和物種的種類足可以使數(shù)據(jù)庫(kù)成員識(shí)別生物和其譜系。NCBI提供了一個(gè)重要的分類服務(wù),分類學(xué)家維護(hù)能用于所有核苷酸數(shù)據(jù)庫(kù)和Swiss-Prot蛋白質(zhì)數(shù)據(jù)庫(kù)的分類法。引用注解即使再好,也永遠(yuǎn)比不上一篇充分闡述生物學(xué)的已發(fā)表文章,因此,有必要保證正確鏈接研究出版物和它將引用的原始數(shù)據(jù)。基于此理由,提交中準(zhǔn)備好引用是很重要的,即使其中只有整理的臨時(shí)列表和工作標(biāo)題。在出版時(shí)更新這些引用對(duì)于記錄的價(jià)值也很重要。(這由數(shù)據(jù)庫(kù)成員慣例的執(zhí)行,而且如果提交者在發(fā)表文章以前通知數(shù)據(jù)庫(kù)成員,將執(zhí)行得更快)。編碼序列核苷酸序列的提交也意味著包括其編碼的蛋白質(zhì)序列,這是因?yàn)椋?.蛋白質(zhì)數(shù)據(jù)庫(kù)(如:Swiss-Prot和PIR)幾乎完全由在DNA序列數(shù)據(jù)庫(kù)中記錄的蛋白質(zhì)序列所組成。2.在提交過(guò)程中包括蛋白質(zhì)序列如果不是必需的話,也是重要和有效一步。蛋白質(zhì)包括執(zhí)行我們研究的許多生物反應(yīng)的酶分子,其序列數(shù)據(jù)是提交中的固有部分,它們的重要性(在第6章中概述)也在提交過(guò)程中體現(xiàn)出來(lái),在各種數(shù)據(jù)庫(kù)中其信息作為代表性必須被捕獲。如果已知的話,蛋白質(zhì)產(chǎn)物和基因的名稱也很重要,有各種各樣的資源(許多在總結(jié)這些章節(jié)的列表中有描述)為給定的生物提供準(zhǔn)確的命名系統(tǒng)。(參見(jiàn)“基因命名指導(dǎo),基因趨勢(shì)”,1995,Elsevier。)編碼序列特征,或CDS,是DNA或RNA和蛋白質(zhì)序列的了解,隨同正確的翻譯表一起,在有效性中其正確定位占據(jù)了中心位置。核苷酸數(shù)據(jù)庫(kù)現(xiàn)在用了13種不同遺傳密碼(參見(jiàn)章末的列表),這些遺傳密碼由NCBI中的分類學(xué)和分子生物工作人員維護(hù)。由于蛋白質(zhì)序列是如此重要,它們是生物學(xué)家可以計(jì)算的主要分子生物信息資源之一,它們理所當(dāng)然地得到各種數(shù)據(jù)庫(kù)成員的重視。在mRNA中正確地找到開(kāi)放的讀框架通常是很簡(jiǎn)單的(參見(jiàn)第10章),并且有多種工具可供利用[如:NCBI的ORF查找器(見(jiàn)章末列表)],而且在Sequin中是作為一個(gè)函數(shù)(如下);從一個(gè)較高級(jí)的真核生物獲得正確的CDS間隔就不那么容易了:必須連接不同的外顯子序列,這涉及許多方法,在第10章中有介紹(如果給定蛋白質(zhì)序列和正確的遺傳密碼的話,Sequin中的推薦間隔函數(shù)可以計(jì)算CDS間隔)。在提交中包括什么內(nèi)容將由數(shù)據(jù)庫(kù)工作人員來(lái)決定,更恰當(dāng)?shù)卣f(shuō),這受到所使用的提交工具的限制,如通過(guò)互聯(lián)網(wǎng)或Sequin。有效性檢查包含CDS間隔中的起始和終止密碼子,該間隔具有合法的外顯子/內(nèi)含子一致邊界,用合適的遺傳密碼可將提供的氨基酸序列從指定的CDS中轉(zhuǎn)換出來(lái)。其他特征在提交序列記錄的特征部分還有許多其它特征,并且其中許多特征將擴(kuò)充記錄內(nèi)容。在特征表文件中描述了完整的特征集,該文件可以WWW方式取得或通過(guò)匿名FTP獲得PostScript文件。盡管有許多特征可供利用,但在數(shù)據(jù)庫(kù)中卻有許多不一致的用法,主要原因是缺乏一致的原則和生物學(xué)家們對(duì)它們究竟意味著什么看法很不相同。正確地獲得生物、書(shū)目、基因、CDS、mRNA通常就足以并且有助于證實(shí)序列,使生物學(xué)家通過(guò)幾行文字就能獲得生物學(xué)的內(nèi)容。只要應(yīng)用恰當(dāng),一個(gè)特征表文件是可以利用的,但要注意文件注解的意圖。種群、系統(tǒng)發(fā)生、變異的研究現(xiàn)在核苷酸數(shù)據(jù)庫(kù)可接受種群、系統(tǒng)發(fā)生、變異的研究作為提交的序列集,盡管在簡(jiǎn)單文件記錄中并沒(méi)有充分描述該信息,但它卻在各種各樣的數(shù)據(jù)庫(kù)中出現(xiàn)。新型的提交方式允許:若僅因?yàn)椴僮鞯脑颍黄鹛峤灰唤M相關(guān)序列,那么獲得共享信息入口只需要一次請(qǐng)求。Sequin也允許用戶包含有用自己中意的比對(duì)工具生成的序列比對(duì)結(jié)果,并隨著DNA序列提交該信息。盡管所有的數(shù)據(jù)庫(kù)都知道該信息對(duì)于目前獲得的大量記錄很重要,但是NCBI是唯一接受該信息的數(shù)據(jù)庫(kù)。顯示該信息的新方法(如:Entrez)應(yīng)盡快能使一般科學(xué)團(tuán)體更易獲得這種數(shù)據(jù)。僅提交蛋白質(zhì)序列在大多數(shù)情況下,蛋白質(zhì)序列和DNA序列并存,但也有些例外人們直接處理蛋白質(zhì)序列這些序列必須在沒(méi)有相應(yīng)的DNA序列的情況下提交。對(duì)于這些提交而言,目前SWISS-PROT是最好的地方,EBI處理這些提交,并將其傳送到SWISS-PROT。如何提交到互聯(lián)網(wǎng)Authorin利用率的下降使這三個(gè)數(shù)據(jù)庫(kù)決定在互聯(lián)網(wǎng)上采用基于表格的方式,這個(gè)新的媒介能很好的適應(yīng)提交過(guò)程。三個(gè)數(shù)據(jù)庫(kù)都設(shè)計(jì)了一種表格,以使DNA序列提交到自身的數(shù)據(jù)庫(kù)中:DDBJ的Sakura(櫻花開(kāi))、EBI的WebIn、和GenBank的BankIt。互聯(lián)網(wǎng)是簡(jiǎn)單提交序列的理想提交途徑(如圖14.1),也是那些不需要復(fù)雜注解和過(guò)多重復(fù)的提交序列的最佳選擇(如:在種群研究中,很典型的有30條類似的序列,用Sequin提交最好)?;ヂ?lián)網(wǎng)對(duì)于那些只做少量提交和要求較少、只需要簡(jiǎn)單的學(xué)習(xí)或不需要的研究小組最為理想。對(duì)于大多數(shù)提交來(lái)說(shuō),互聯(lián)網(wǎng)的表格方式將是合適和足夠的:60%80%的提交者通過(guò)互聯(lián)網(wǎng)向NCBI提交其DNA或RNA序列。這三個(gè)數(shù)據(jù)庫(kù)提交的入口位置(或URLs)在本章末有介紹。盡管本章的這部分強(qiáng)調(diào)NCBI的BankIt提交工具,實(shí)際上,提交到基本數(shù)據(jù)庫(kù)中的任何一個(gè)都將使序列獲得合理的處理,并存儲(chǔ)到另外兩個(gè)數(shù)據(jù)庫(kù)中。進(jìn)入BankIt提交后(圖14.2),用戶被詢問(wèn)要提交的核苷酸序列長(zhǎng)度。這是由于WWW瀏覽器的局限性,使得在一個(gè)給定的窗口不可能輸入29,000個(gè)核苷酸(字符)。如果必須提交40,000條堿基對(duì)(人們提交的粘性質(zhì)粒的通常大?。?,BankIt將打開(kāi)兩個(gè)窗口,故通過(guò)每個(gè)窗口復(fù)制和輸入20,000個(gè)字符,這樣就解決了這個(gè)矛盾。圖14.1:決定采用哪種協(xié)議提交DNA序列到某一DNA序列數(shù)據(jù)庫(kù)的流程圖。WWW是BankIt,WebIn,或Sakura。其URLs和電子郵件位置,請(qǐng)參見(jiàn)本章末的列表。圖14.2圖14.2:BankIt,GenBank互聯(lián)網(wǎng)的提交網(wǎng)頁(yè)。新提交序列的進(jìn)入點(diǎn)(輸入序列長(zhǎng)度,并按New按鈕)或更新GenBank數(shù)據(jù)庫(kù)中的一條記錄。BankIt的下一張表格也是明了的(圖14.3),它詢問(wèn)了解人(即回答數(shù)據(jù)庫(kù)工作人員詢問(wèn)的人),引用(誰(shuí)得到了科學(xué)榮譽(yù)),生物(前100個(gè)在列表中,其余的必須輸入),位置(細(xì)胞還是細(xì)胞器),一些圖譜信息和核苷酸序列本身。在列表末,有個(gè)BankIt按鈕,能激活下一張列表。按下這個(gè)按鈕后,首先驗(yàn)證一些項(xiàng)的有效性,如果一些基本的區(qū)域沒(méi)填,該表將再次出現(xiàn)。若全部合格,下一張表將查問(wèn)會(huì)加入多少特征并提示用戶指出其類型。如果沒(méi)填任何特征,(圖14.4),BankIt將發(fā)出警告,以證實(shí)提交序列中沒(méi)有加入一個(gè)CDS。用戶可以回答沒(méi)有(0個(gè)新CDS)或選擇加入一個(gè)或更多的CDS。此時(shí),結(jié)構(gòu)化RNA信息或其它合法的DDBJ/EMBL/GenBank特征也會(huì)被加入。圖14.3圖14.3:BankIt,GenBank的互聯(lián)網(wǎng)提交頁(yè)面:標(biāo)明提交了解人。圖14.4圖14.4:BankIt,GenBank的互聯(lián)網(wǎng)提交網(wǎng)頁(yè):BankIt要求獲得特征的數(shù)目,以產(chǎn)生一個(gè)具有合適數(shù)目的特征表。要保存記錄,再次按BankIt,出現(xiàn)的新頁(yè)面(圖14.5)必須在提交完成前得到確認(rèn),也就是說(shuō),在此之前,可做更多的改變或加入其他特征。再次單擊BankIt結(jié)束。接著出現(xiàn)最后的頁(yè)面:(圖14.6)切換Update/Finished按鈕,最后按BankIt按鈕,提交將進(jìn)入NCBI進(jìn)行處理。剛完成的提交序列復(fù)本必須立即通過(guò)電子郵件送達(dá),否則,有必要了解數(shù)據(jù)庫(kù)以證實(shí)提交已被接受,并做出任何必要的修改。圖14.5圖14.5:BankIt,GenBank的互聯(lián)網(wǎng)提交網(wǎng)頁(yè):倒數(shù)第二個(gè)屏幕:這是一個(gè)增加或改變一些特征的互鎖按鈕,顯示如所指示的完成入口。圖14.6圖14.6:BankIt,GenBank的互聯(lián)網(wǎng)提交網(wǎng)頁(yè):最后一個(gè)屏幕:顯示BankIt的提交表格已成功完成。如何用Sequin提交Sequin是設(shè)計(jì)用來(lái)協(xié)助科學(xué)家準(zhǔn)備新序列,更新序列數(shù)據(jù)的一個(gè)程序,利用它將序列數(shù)據(jù)提交到DDBJ,EMBL和GenBank數(shù)據(jù)庫(kù)。這是一個(gè)能在絕大多數(shù)計(jì)算機(jī)平臺(tái)上運(yùn)行的軟件,而且適用于各種序列長(zhǎng)度和復(fù)雜情況,包括傳統(tǒng)的(基因大?。┖塑账嵝蛄?,分段的記錄(如:剪接的基因組,不是所有的內(nèi)含子序列都已被確定),有許多注解特征的長(zhǎng)序列(基因組大?。透鞣N相關(guān)序列(如:對(duì)于一個(gè)特殊基因、域或?yàn)V過(guò)性病毒基因的種群、系統(tǒng)發(fā)生、變異的研究),許多這樣的提交能通過(guò)互聯(lián)網(wǎng)執(zhí)行,但Sequin在復(fù)雜的情況下更實(shí)用。而且特定類型的提交(如:分段類)不能通過(guò)Web來(lái)完成,除非給數(shù)據(jù)庫(kù)工作人員加以明確的指導(dǎo)。Sequin也接受以提交的核苷酸酸序列編碼的蛋白質(zhì)序列,允許在這些蛋白質(zhì)上進(jìn)行特征的注解(如:信號(hào)肽、跨膜區(qū)或二硫鍵)。這與大多數(shù)科學(xué)家在提交DNA序列時(shí)的普遍觀點(diǎn)形成鮮明的對(duì)比。這里的新概念是蛋白質(zhì)是直接注解的,而不是編碼生成之的DNA的副產(chǎn)物。對(duì)于各種相關(guān)或是相近的序列(如:種群或系統(tǒng)發(fā)生的研究),Sequin從提交者處獲得關(guān)于多個(gè)序列是如何比對(duì)的信息,最終它可以用來(lái)編輯和重新提交已存在于GenBank中的記錄,不論是延長(zhǎng)(或取代)已有的序列,還是注解附加的特征或比對(duì)(見(jiàn)下描述)。進(jìn)入一個(gè)新的提交過(guò)程Sequin有許多性質(zhì)大大簡(jiǎn)化了創(chuàng)建和注解一條記錄的過(guò)程。最神奇的一方面是在只給定核苷酸酸序列,蛋白質(zhì)產(chǎn)物序列和遺傳密碼(從生物的名稱中自動(dòng)獲得)的情況下,自動(dòng)計(jì)算CDS特征間隔。這所謂的“建議間隔”過(guò)程在計(jì)算中考慮了一致的剪接位點(diǎn)。傳統(tǒng)上這些間隔是手工輸入的,這是一個(gè)既耗時(shí)又易錯(cuò)的過(guò)程,尤其是對(duì)于一個(gè)在可變剪接或分段時(shí)有許多外顯子的基因序列。Sequin的另一種重要的貢獻(xiàn)在于能在序列數(shù)據(jù)庫(kù)文件的定義行上以一種簡(jiǎn)單的格式輸入相關(guān)注解。在讀序列時(shí),Sequin識(shí)別和提取這一信息,并將其放置在記錄中合適的位置。對(duì)于核苷酸序列,可以輸入生物體的科學(xué)名稱、品系或克隆名稱和幾個(gè)其它的修飾基因。對(duì)于蛋白質(zhì)序列,可以輸入基因和蛋白質(zhì)名稱。(如果在定義行上沒(méi)有這些信息,Sequin在執(zhí)行前就會(huì)提示用戶此信息。定義行的注解是非常方便的,因?yàn)樾畔⒑托蛄惺窃谝黄鸬囊虼艘院蟛蝗菀妆贿z忘或混淆。)除了組建合適的CDS特征以外,Sequin將自動(dòng)利用該信息生成基因和蛋白質(zhì)特征。由于大多數(shù)提交序列包含了一個(gè)單獨(dú)的核苷酸序列和一個(gè)或多個(gè)編碼區(qū)域特征(及相關(guān)的蛋白質(zhì)序列),前面概述的功能將頻繁地影響一條沒(méi)有進(jìn)一步注解時(shí)就被提交的記錄。由于正確地記錄了基因和蛋白質(zhì)名稱,從而使得該記錄為其他科學(xué)家提供有用信息,他們可能通過(guò)一個(gè)BLAST的相似性比對(duì)或從Entrez查找中獲得該信息。有效性為保證提交數(shù)據(jù)的質(zhì)量,Sequin使用一個(gè)內(nèi)建的有效器來(lái)查詢。例如:丟失的生物體信息,錯(cuò)誤的編碼區(qū)長(zhǎng)度(相對(duì)于被提交的蛋白質(zhì)序列),編碼區(qū)內(nèi)部的終止密碼子,不匹配的氨基酸或不一致的剪接位點(diǎn)。在錯(cuò)誤報(bào)告中雙擊其中一項(xiàng),在“沖突”特征項(xiàng)中就會(huì)出現(xiàn)一個(gè)編輯框。有效器也檢查“局部”指示器的使用是否一致,尤其是在編碼區(qū)、蛋白質(zhì)產(chǎn)物和產(chǎn)物的蛋白質(zhì)特征中的使用。(除非作了相反的設(shè)置,否則CDS就會(huì)自動(dòng)的同步這些分散的局部指示器,將使糾正這類不一致問(wèn)題變得很方便。)觀察序列記錄Sequin對(duì)同一條記錄提供了許多不同的視圖。傳統(tǒng)的簡(jiǎn)單文件可以出現(xiàn)在FASTA,GenBank或EMBL形式中。(它們可以在用戶計(jì)算機(jī)中以文件的方式輸出,然后輸入其它的序列分析包中。)圖像視圖顯示了序列的特征間隔,這對(duì)于觀察可變剪接的編碼區(qū)尤其有意義。(圖像視圖的風(fēng)格可以定制,這些視圖可以被復(fù)制到個(gè)人計(jì)算機(jī)的剪貼板中,粘貼到文字處理器或視圖程序中,用于準(zhǔn)備出版物的手稿。)有一個(gè)視圖可以更詳細(xì)地顯示實(shí)際序列的特征,對(duì)于包含比對(duì)的記錄(如:由一個(gè)用戶輸入的相關(guān)序列或通過(guò)PowerBLAST中查找的比對(duì)結(jié)果,參見(jiàn)第7章),用戶可以請(qǐng)求一個(gè)全圖像視圖以顯示添加、刪除和不匹配的情況,或細(xì)節(jié)視圖顯示序列字母比對(duì)。上述提及的觀察者是主動(dòng)的,單擊一個(gè)特征、序列或序列比對(duì)圖片,將會(huì)高亮度顯示該處。雙擊會(huì)出現(xiàn)一個(gè)合適的編輯框,以便多個(gè)觀察者使用同一條記錄,而能夠看到不同的形式。例如:可以很方便的使圖像視圖和GenBank(或EMBL)的簡(jiǎn)單文件視圖同時(shí)顯示,尤其是對(duì)于包含多個(gè)CDS的較大記錄。圖像視圖可比做科學(xué)家實(shí)驗(yàn)室的記事本圖片,為特征注解的準(zhǔn)確性提供一個(gè)快速實(shí)用的檢查手段。先進(jìn)的注解和編輯功能Sequin中的序列編輯器能在編輯序列時(shí)自動(dòng)調(diào)節(jié)特征間隔,這對(duì)于想在已提交的序列記錄中加入一段5’端的序列尤為重要。在Sequin出現(xiàn)之前,這需要手工添加,并糾正序列中所有生物特征間隔。這樣很有可能從草稿開(kāi)始重做全部提交過(guò)程。序列編輯器很象文本編輯器,可在光標(biāo)所在出處插入或輸入一個(gè)新的序列。在提交序列中的一個(gè)大類包含了多樣的相關(guān)序列(如:種群、系統(tǒng)發(fā)生和變異的研究),如果用戶提交了這些序列是如何自身比對(duì)的信息,這些記錄將會(huì)更有指導(dǎo)意義。這種比對(duì)可隨序列數(shù)據(jù)(如:以PHYLIP、NEXUS或FASTA+GAP形式)輸入或在輸入序列以后用Sequin計(jì)算。參見(jiàn)附錄II中的各種形式的實(shí)例。對(duì)于這些記錄,Sequin允許給一條序列添加注解,而且該注解可以被復(fù)制到其它的序列中。(若為CDS特征,特征間隔可通過(guò)讀蛋白質(zhì)產(chǎn)物序列自動(dòng)進(jìn)行計(jì)算,而不必全部輸入。)為了實(shí)現(xiàn)這一方法,選用特征傳播的方法(從比對(duì)編輯器中),被選中的特征將傳播到剩余序列中去,并用比對(duì)信息調(diào)整特征間隔。這和在每條序列上手工注解特征產(chǎn)生的效果相同。但用特征傳播的方法僅需幾分鐘就能完成全過(guò)程,而手工則需幾小時(shí)。特征傳播和序列編輯器組合起來(lái)為更新一個(gè)已經(jīng)存在的序列提供了簡(jiǎn)單而且自動(dòng)的方法。更新序列的功能允許用戶輸入重疊或替代的序列。Sequin設(shè)計(jì)了比對(duì),在有必要時(shí)合并序列,將特征傳播到新序列的新位置,以取代舊序列和舊特征。Sequin做為分析平臺(tái)Sequin也提供了許多種序列分析的功能,例如:有一個(gè)功能可以反補(bǔ)于序列和特征間隔,也很容易加入新的功能。這些功能在一個(gè)稱為NCBI桌面的窗口中出現(xiàn),直接顯示調(diào)入內(nèi)存的當(dāng)前記錄的內(nèi)部結(jié)構(gòu)。該窗口可以被理解為一個(gè)有描述器的Venn圖表(參見(jiàn)下述和第6章),此描述器能在一組系統(tǒng)中(如:種群研究)應(yīng)用于各種序列。在桌面上,用戶可以讀出PowerBLAST的分析結(jié)果,再拖動(dòng)之將其在一條序列記錄上釋放,從而向記錄中加入比對(duì)數(shù)據(jù),修改的結(jié)果將很快顯示在觀察者面前。注意:并非所有的注解都能被任何一個(gè)觀察者看見(jiàn),簡(jiǎn)單文件視圖有其局限性,例如:它不顯示比對(duì)。NCBI數(shù)據(jù)模型支持大量的序列集,Sequin允許為了顯示或注解的目的在這些序列集中進(jìn)行完全的漫游,例如:Nuc-Prot類包含一條核苷酸序列和它的蛋白質(zhì)產(chǎn)物,核苷酸序列可自身分解。在這種情況下,Seg類包含了片段序列和一個(gè)Parts類,Parts類順序包含每一個(gè)片段的原始數(shù)據(jù)。種群、系統(tǒng)發(fā)生和變異可包含多種相關(guān)序列或Nuc-Prot類。NCBI桌面是瀏覽記錄內(nèi)部結(jié)構(gòu)的最快的方法。數(shù)據(jù)模型的重要性Sequin是一種ASN.1編輯器。用ASN.1數(shù)據(jù)描述語(yǔ)言寫(xiě)成的NCBI數(shù)據(jù)模型,可用來(lái)使相關(guān)信息在描述器或特征項(xiàng)中保持在一起(參見(jiàn)第6章),特征項(xiàng)是典型的生物概念(如:基因,編碼區(qū),RNAs,蛋白質(zhì)),這些概念通常在一條序列中有一個(gè)位置(一個(gè)或多個(gè)間隔)。描述器可用于傳送應(yīng)用于多個(gè)序列的信息,這樣避免了重復(fù)輸入同一條信息的多個(gè)拷貝。例如:BioSource描述器包含了一個(gè)生物體的科學(xué)名稱,常用名稱,分類學(xué)上的鏈接,GenBank分類,和修飾器(如:品系、克隆、染色體、圖譜位置)。將此信息收集在一起記錄在數(shù)據(jù)詳細(xì)說(shuō)明書(shū)中,將便于用戶輸入和修改。將單個(gè)的BioSource描述器應(yīng)用于Nuc-prot集將滿足證實(shí)者的愿望:在每條序列,包括蛋白質(zhì)序列上都有生物來(lái)源信息,這同時(shí)也是數(shù)據(jù)庫(kù)的規(guī)定。在GenBank簡(jiǎn)單文件視圖上雙擊一段,或在圖形視圖中雙擊一個(gè)特征,將激活一個(gè)編輯器用于修改該項(xiàng)的永久性的信息。在某些情況下,特別是在BioSource或出版物中,這些項(xiàng)可能是描述器或者是特征,并且在簡(jiǎn)單文件中將其區(qū)分開(kāi)來(lái)是困難的。(在NCBI桌面上可以很容易地區(qū)分描述器和特征。并且只有特征和序列在總結(jié)、圖表、比對(duì)、和序列視圖中出現(xiàn)。對(duì)于偶然的使用者來(lái)說(shuō),數(shù)據(jù)模型導(dǎo)致習(xí)慣可能并不明顯(請(qǐng)看GenBank或EMBL的視圖文件),但確實(shí)能夠簡(jiǎn)化生物信息的輸入。例如:在GenBank簡(jiǎn)單文件的頭部出現(xiàn)的文獻(xiàn)能夠包含一個(gè)評(píng)價(jià)的子部分,在這里可以輸入解釋關(guān)于引用的生物學(xué)結(jié)論,和那些關(guān)于序列記錄的信息。在報(bào)告中文本通常和引用在一起,相反將解釋性的信息放置在大的注解段中,并用編號(hào)指向引用的文章(如“〖5〗”)是一種冒險(xiǎn)性的做法,因?yàn)檫@些編號(hào)可能會(huì)發(fā)生變化,(例如由于新的文獻(xiàn)的引用),將導(dǎo)致編號(hào)和文獻(xiàn)不相符。類似地,對(duì)于特征的引用(例如確定在編碼區(qū)中核糖體的滑動(dòng))內(nèi)在地引用了文獻(xiàn),而不是文獻(xiàn)編號(hào),即使在簡(jiǎn)單文件中顯示了一個(gè)數(shù)字。這是另一個(gè)慣例允許文獻(xiàn)編號(hào)改變而不“破壞”引用的完整性。并且這意味著只有一個(gè)完整的引用復(fù)本,這將使更新文獻(xiàn)中的任何信息變得更容易。然而,應(yīng)該保守地使用對(duì)于序列記錄的文字上的引用,一個(gè)序列記錄并不是一門(mén)學(xué)科的回顧,使用Entrez中的鏈接和近鄰是一種更加可靠的收集信息的方法和使用序列數(shù)據(jù)庫(kù)作出最初發(fā)現(xiàn)的方法。在最簡(jiǎn)單的情況下,單個(gè)的核苷酸序列有一個(gè)或多個(gè)蛋白質(zhì)產(chǎn)物。Sequin允許用戶不了解數(shù)據(jù)模型的結(jié)構(gòu)層次而使用它。CDS特征編輯器用來(lái)輸入蛋白質(zhì)序列(或?qū)⑵鋸囊演斎氲牡胤椒g出來(lái)),并且輸入或修改特征(提供了蛋白質(zhì)的名稱)。用戶可以獲得(單個(gè)的)蛋白質(zhì)特征而不必在整個(gè)蛋白質(zhì)序列中“漫游”。并且CDS編輯器也用基因名建立了分離的序列特征。如果預(yù)期有關(guān)于蛋白質(zhì)產(chǎn)物序列的大量的注解,那么漫游是必需的,至少作為對(duì)于數(shù)據(jù)模型的一種粗略的了解,許多蛋白質(zhì)有半胱氨酸的雙硫鍵。結(jié)合區(qū),活性區(qū),糖基化區(qū),信號(hào)肽,或跨膜區(qū)。關(guān)于這些部分的注解對(duì)將其作為BLAST或Entrez檢索結(jié)果的生物學(xué)家很有意義,對(duì)于給定序列設(shè)置目標(biāo)控制使觀察者轉(zhuǎn)向顯示該序列的圖形平面或文字報(bào)告。使用注解子菜單建立的任何特征或描述器將和當(dāng)前的目標(biāo)序列組織在一起。雖然Sequin確實(shí)提供了在一個(gè)結(jié)構(gòu)記錄中所有的序列間進(jìn)行完全的漫游的功能,但是最初的序列數(shù)據(jù)建立原始的結(jié)構(gòu)最好由Sequin的“創(chuàng)建新提交”功能來(lái)完成。Sequin在前面的步驟中提取信息,(例如生物體和資源編輯器,基因和蛋白質(zhì)名稱)并且知道怎樣正確的將每個(gè)信息填充在合適的位置。這也就是Sequin的主要設(shè)計(jì)目標(biāo)之一。手工注解需要對(duì)于數(shù)據(jù)模型更詳盡的了解,和對(duì)于具有使用Sequin復(fù)雜功能的專業(yè)技能。完成的提交可以存儲(chǔ)到磁盤(pán)(File->PrepareSubmission)和發(fā)送電子郵件到某一數(shù)據(jù)庫(kù),在Sequin期間經(jīng)常存盤(pán)是一個(gè)好習(xí)慣,可以避免無(wú)意中的數(shù)據(jù)丟失。提交單個(gè)的序列最簡(jiǎn)單的交包含一個(gè)單個(gè)的沒(méi)有中斷的核苷酸序列和一個(gè)或多個(gè)蛋白質(zhì)產(chǎn)物序列。這些序列典型地來(lái)自于傳統(tǒng)的基于基因的生物學(xué)研究,并且這樣的提交在大多數(shù)情況下可以通過(guò)互聯(lián)網(wǎng)(請(qǐng)看上例BankIt)或Sequin來(lái)完成,Sequin提供了許多已經(jīng)確認(rèn)的好處和對(duì)于各種網(wǎng)絡(luò)連接的獨(dú)立性。Sequin開(kāi)始時(shí)出現(xiàn)一個(gè)窗口,提示用戶開(kāi)始一個(gè)新的提交或者打開(kāi)一個(gè)包含記錄的文件(圖14.7)。在最初的提交建立以后,記錄可以保存下來(lái)存為文件和在最終傳送到數(shù)據(jù)庫(kù)之前進(jìn)行編輯,如果Sequin被配置為網(wǎng)絡(luò)敏感,該窗口將允許下載已存在的將要更新的數(shù)據(jù)記錄。圖14.7圖14.7Sequin的初始窗口,提供了開(kāi)始一個(gè)提交的幾個(gè)選擇,為了由原始序列文件和其它信息的最小集生成一個(gè)提交,選擇開(kāi)始新的提交(StartNewSubmission),一旦初始記錄建立起來(lái),就可以存成一個(gè)文件。若要讀已存的文件或任何其它存成文件的ASN.1記錄,選擇讀已存在的記錄(ReadExistingRecord),若Sequin配置為網(wǎng)絡(luò)連接,將會(huì)顯示按鈕DownloadfromEntrez,該按鈕用來(lái)下載記錄用于更新。通過(guò)完成幾個(gè)表格可以建立一個(gè)新的提交(圖14.8-14.15)。這些表格使用文件夾標(biāo)簽來(lái)將窗口劃分為幾頁(yè),這樣允許輸入所有必需數(shù)據(jù)而不必一個(gè)大的計(jì)算機(jī)屏幕,這些表格項(xiàng)有前一頁(yè)和后一頁(yè)的按鈕,當(dāng)用戶到達(dá)一個(gè)表格的最后一頁(yè)時(shí),下一頁(yè)按鈕變成了下一個(gè)表格按鈕。開(kāi)始一個(gè)新的提交過(guò)程,第一步是請(qǐng)求一個(gè)暫時(shí)性的標(biāo)題(圖14.8):然后詢問(wèn)了解人、序列整理和他們的學(xué)術(shù)了解的信息(圖14.9)。對(duì)于所有的提交來(lái)說(shuō),這個(gè)表格是一致的,了解人、序列整理、和他們的學(xué)術(shù)了解頁(yè)通過(guò)按輸出菜單按鈕可以存儲(chǔ)下來(lái),在開(kāi)始其它提交時(shí)可通過(guò)選擇輸入菜單按鈕讀入該文件。然而,因?yàn)榉N群、系統(tǒng)發(fā)生和變異研究是作為一個(gè)記錄一次引入的,存儲(chǔ)提交表格頁(yè)面就不太必要了。圖14.8圖14.8提交頁(yè)用來(lái)從手稿中為Sequin輸入一個(gè)暫時(shí)的標(biāo)題;即使該文章沒(méi)有寫(xiě),或者試圖發(fā)表,對(duì)于提交的描述也是必要的。該頁(yè)也允許提交者要求直到文章發(fā)表再公布序列或指測(cè)序列公布的日期。圖14.9圖14.9Sequin的了解人頁(yè)面記錄了回答數(shù)據(jù)庫(kù)工作人員查詢的負(fù)責(zé)人的姓名和了解信息(通常是執(zhí)行提交的人,但不必是真正測(cè)序的人)。Sfx域要求名字后綴(例如:Jr.,III),而不是敬語(yǔ)或?qū)W位(如Ph.D,M.D.)。當(dāng)記錄公布時(shí)該信息并不公開(kāi),而是保存在數(shù)據(jù)庫(kù)中。序列格式表格(圖14.12)詢問(wèn)提交的類型(單個(gè)的序列,如例子中所用;片段序列或種群、系統(tǒng)發(fā)生、變異研究)。對(duì)于最后三種類型的提交,包括相關(guān)序列的比對(duì)研究,輸入數(shù)據(jù)的形式也能被指示。缺省是FASTA格式(或原始序列),不過(guò)PHYLIP,NEXUS,PAUP和FASTA+GAP格式也是支持的。后幾種格式包含比對(duì)信息,這些存儲(chǔ)在序列記錄中。圖14.10圖14.10Sequin整理頁(yè)命名了描述測(cè)序的手稿整理。(例如從測(cè)序中獲得榮譽(yù)的人),本頁(yè)是一個(gè)電子表格,可以容納需要的整理名。按TAB按鈕可以水平地從一個(gè)域移動(dòng)到下一個(gè)域。要移動(dòng)到下一行的第一個(gè)名字列,從Sfx列內(nèi)按TAB按鈕。如果在最后一行中鍵入了任何東西,新的一行將附加到表格的后面。(在視覺(jué)上立刻感到滾動(dòng)條的變化),在一行中的任何位置按下回車按鈕將在當(dāng)前行下增加新的一行。Sequin將忽略任何姓一欄空著的行。圖14.11圖14.11Sequin的了解頁(yè),用于與手稿原始整理的制度上的了解,當(dāng)數(shù)據(jù)庫(kù)工作人員處理記錄時(shí),該信息將出現(xiàn)在引用其自身的參考書(shū)目中。在本頁(yè)中下一頁(yè)(NextPage)換名為下一表格(NextForm);當(dāng)按下該按鈕時(shí),Sequin自動(dòng)檢查表格內(nèi)容,如果用戶遺漏了任何基本信息的話,將給出提示。如果輸入的信息符合要求,Sequin將出現(xiàn)下一個(gè)表格。圖`14.12圖14.12Sequin的序列格式表格,允許用戶指定提交記錄的類型和原始序列數(shù)據(jù)的類型。大數(shù)提交是單個(gè)的序列(核苷酸)(也可能有一條或幾條蛋白質(zhì)產(chǎn)物序列)。另一類提交是片段序列。例如,在一些基因組序列中,外顯子已測(cè)序,但是內(nèi)含子并未完全測(cè)序。通過(guò)分割該記錄,我們可以注解編碼區(qū)和mRNA特征。系統(tǒng)發(fā)生、種群研究和變異研究涉及不止一條相關(guān)序列的提交,它們由Sequin包裝為合適的集合。批量提交是用于那些并不具有相似性的序列集的提交,這樣作只是基于方便的理由。單個(gè)的序列數(shù)據(jù)和分段的序列數(shù)據(jù)必須是FASTA格式。種群、系統(tǒng)發(fā)生和變異研究也可以使用包含比對(duì)的格式。這些比對(duì)是關(guān)于提交者對(duì)于序列之間關(guān)系的斷言。目前Sequin支持FASTA+GAP,PHYLIP,交叉存取NEXUS和近鄰的NEXUS多種格式。生物體和序列表(圖14.13-14.15)要求生物學(xué)數(shù)據(jù)。在生物體頁(yè)面上(圖14.13,隨著用戶鍵入生物體的科學(xué)名,經(jīng)常使用的生物體名列表自動(dòng)翻卷,Sequin保存了GenBank中存在的最多的800種生物體。)因此在鍵入幾個(gè)字母后,用戶可以通過(guò)在列表中單擊合適的項(xiàng)來(lái)補(bǔ)全生物體名稱的其余部分?,F(xiàn)在Sequin知道了科學(xué)名稱,一般名稱,GenBank分類,分類學(xué)了解和其中最重要的,使用的遺傳密碼,(對(duì)于線粒體基因,有一個(gè)控制指示應(yīng)該使用哪個(gè)遺傳密碼)對(duì)于列表中沒(méi)有的生物體,需要手工設(shè)置遺傳密碼控制。Sequin缺省使用標(biāo)準(zhǔn)密碼。圖14.13圖14.13序列的生物體頁(yè)面,詢問(wèn)測(cè)序的生物體的科學(xué)名。對(duì)于通常用到的800種生物體來(lái)說(shuō),還有普通名,完全的分類,GenBank分類和存儲(chǔ)的遺傳密碼。對(duì)于表中沒(méi)有的生物體,用戶必須輸入正確的遺傳密碼,序列彈出位置允許用戶指示線粒體編碼在這種情況下,在翻譯中使用了特定生物體的可選遺傳密碼。在系統(tǒng)發(fā)生研究中,包括了不同的生物體,生物體選擇列表被隱藏起來(lái),單個(gè)的生物體名希望在數(shù)據(jù)文件中編碼。并且在缺省情況下,在生物體列表中不出現(xiàn)遺傳密碼控制。在核苷酸頁(yè)(圖14.14),激活I(lǐng)mportNucleotideFASTA按鈕將讀取序列。給基因組DNA或mRNA[cDNA]設(shè)置合適的分子控制,對(duì)3’和5’端的檢查框同樣也應(yīng)予以適當(dāng)?shù)脑O(shè)置。序列可以有一條FASTA定義行。這條線作為序列的先導(dǎo),并以一個(gè)左尖括號(hào)開(kāi)始(>);一個(gè)“局部標(biāo)識(shí)符”可能被定義為尖括號(hào)后的第一個(gè)字符。如果你是這樣做的,在引入該序列前檢查“以序列ID開(kāi)頭的FASTA定義行”框。在加入數(shù)字由序列數(shù)據(jù)庫(kù)工作人員發(fā)放以前,局部ID代替了其位置。如果需要的話,樣本定義行如下:>TK[org=Musculus][strain=BALB/c]thymidinekinasegene在讀完核苷酸文件后,將有一個(gè)總結(jié)報(bào)告給出序列的長(zhǎng)度,局部ID,任何生物體名,品系,或其它修飾成分,這些是從定義行上解析(抽?。┏鰜?lái)的,以及剩余的標(biāo)題(圖14.14)。總結(jié)同樣給出了任何不在核苷酸字母表中的無(wú)效字母。例如,偶然引入了一個(gè)氨基酸序列,將有許多字母不在字母表中,結(jié)果報(bào)告將指出這個(gè)錯(cuò)誤。在這種情況下,從編輯菜單下選擇Clear(清除),然后引入正確的序列。片段的核苷酸序列可通過(guò)連接同一文件中的單個(gè)片段來(lái)輸入。在這種情況下,在每個(gè)序列上方的定義行上向Sequin指出有多個(gè)片段。每一個(gè)片段必須有唯一的一個(gè)局部ID號(hào)(如:通過(guò)對(duì)該片段編碼的外顯子號(hào)使其變得唯一)。圖14.14圖14.14序列的核苷酸頁(yè),該頁(yè)是核苷酸序列文件和分子類型(例如基因組DNA,基因組RNA,mRNA,tRNA)說(shuō)明書(shū)的入口,即使排列的分子實(shí)際上組成了cDNA也使用了mRNA。按下輸入核酸FASTA(ImportNucleotideFASTA)按鈕引出用戶計(jì)算機(jī)上的閱讀對(duì)話框。當(dāng)記錄在分立的文件中時(shí),這種情況出現(xiàn)在分段序列和多條序列的研究中,必須多次按該按鈕。然而,將所有序列放置在單個(gè)的文件中將更為合適。如果檢測(cè)出任何無(wú)效字母,將有一個(gè)警告信息,同時(shí)出現(xiàn)一份關(guān)于序列文件是如何被中斷的報(bào)告。蛋白質(zhì)頁(yè)面(圖14.15)允許輸入蛋白質(zhì)序列,比起手工加入CDS特征(和相關(guān)基因及蛋白質(zhì)特征)而輸入該序列,讓Sequin組建記錄要容易得多。這對(duì)于片段序列來(lái)說(shuō)尤其如此,若合適的話也須設(shè)置的局部標(biāo)記。蛋白質(zhì)頁(yè)面有個(gè)控鍵,可以提示局部的ID號(hào)是否在定義行上,它也允許基因和蛋白質(zhì)的名稱被編碼,如:>TKp[gene=TK][prot=thymidinekinase]thymidinekinaseprotein局部ID號(hào)TKp必須不同于所有其余的ID號(hào),在這個(gè)例子中是TK,它是核苷酸序列的局部ID號(hào)。蛋白質(zhì)頁(yè)面也有一個(gè)檢驗(yàn)框,以產(chǎn)生與將要生成的CDS具有相同間隔的mRNA特征,用戶隨后雙擊mRNA的結(jié)果,通過(guò)mRNA編輯器延長(zhǎng)該特征項(xiàng)5’和3’的間隔。(Sequin編輯器被設(shè)計(jì)來(lái)保證重復(fù)的基因特征也被延長(zhǎng),使用戶不必分別延長(zhǎng)其范圍。)多蛋白質(zhì)序列(如:可變剪接的產(chǎn)物)的進(jìn)入可鎖定在同一個(gè)文件中。由于有核苷酸序列,每條蛋白質(zhì)序列上的定義行提示Sequin有多條序列。讀入蛋白質(zhì)也會(huì)產(chǎn)生一個(gè)報(bào)告(圖14.15),它給出序列長(zhǎng)度,解析的局部ID號(hào),解析定義行的基因和蛋白質(zhì),剩余標(biāo)題。報(bào)告也指出蛋白質(zhì)列表中不存在的非法特征,同樣選擇編輯菜單中的清除按鈕修正該頁(yè)面。圖14.15圖14.15Sequin的蛋白質(zhì)頁(yè),允許蛋白質(zhì)產(chǎn)物序列的輸入。其輸入按鈕的表現(xiàn)和核酸頁(yè)的按鈕相同。作為表格中的最后一頁(yè),它有一個(gè)下一表格(NextForm)的按鈕。按下之后將提示用戶在表格中任何被忽視的基本信息。表格完成后,Sequin將開(kāi)始處理序列數(shù)據(jù)。如果再蛋白質(zhì)序列FASTA定義行上基因和蛋白質(zhì)名未被注解,Sequin將提出一個(gè)表格來(lái)輸入這些名字。然后Sequin將基于已提供的數(shù)據(jù)開(kāi)始建立一個(gè)初始的記錄。此時(shí),按下NextForm按鈕將會(huì)使Sequin把進(jìn)入的數(shù)據(jù)組建成一條提交記錄,對(duì)于每條蛋白質(zhì),建議間隔按照核苷酸序列來(lái)選?。ㄓ靡呀?jīng)輸入的遺傳密碼,它通常是從被選擇的生物體來(lái)推斷出)。編碼區(qū)特征是由間隔的結(jié)果產(chǎn)生的,這也是一個(gè)最初的mRNA特征?;蛱卣魇怯梢粋€(gè)橫跨所有間隔的間隔產(chǎn)生的,這樣生成了蛋白質(zhì)序列,并由蛋白質(zhì)特征給出它的名稱,生物體(BioSource描述器)被放在記錄中,同樣有文獻(xiàn)的描述器。(最后兩個(gè)被歸入Nuc-Prot類,這樣它們?cè)谀軕?yīng)用于該類中所有的核苷酸序列和蛋白質(zhì)序列),在所有的序列中加入合適的分子信息描述。這樣產(chǎn)生了一個(gè)閱讀器表格,它能顯示記錄的GenBank簡(jiǎn)單文件表格(圖14.16)。這個(gè)閱讀器有各種菜單項(xiàng),能將記錄保存到文件中,使記錄有效,以及加入新的特征和描述器。可能最后剩下的一步是雙擊mRNA,出現(xiàn)一個(gè)編輯框,點(diǎn)擊”Locationfoldertab”,用位置電子數(shù)據(jù)表擴(kuò)展5’和3’端,更新記錄中所有的閱讀器。圖象視圖(圖14.17)可以進(jìn)行CDS和mRNA間隔的圖象比較,確定在這些域中基因特征是一個(gè)單獨(dú)的間隔區(qū)。序列視圖(圖14.18)顯示了特征范圍和CDS特征在實(shí)際序列中的翻譯。選擇準(zhǔn)備提交按鈕,運(yùn)行有效器,保存文件,并顯示提交到GenBank,EMBL或DDBL的電子郵件位置(在打開(kāi)的窗口中選擇一個(gè)位置)。圖14.16圖14.16在GenBank格式中缺省的序列記錄觀察器。在這個(gè)例子中,已按下了序列的CDS特征,如該段旁邊的條所示。在段落上雙擊將開(kāi)啟特征、描述器或選測(cè)序列的編輯器。該觀察器可被復(fù)制。并且同一個(gè)記錄可以不同格式在多個(gè)觀察器中打開(kāi)。圖14.17圖14.17Sequin的圖表格式顯示了片段序列結(jié)果和特征間隔。這可以和實(shí)驗(yàn)室記錄本相比較,大概看一下,特征是否注解在正確的位置上??梢允褂貌煌娘L(fēng)格,和建立了新的風(fēng)格來(lái)定制圖形窗口的外觀表現(xiàn)。圖片可以拷貝到個(gè)人計(jì)算機(jī)的剪貼板,以備引入字處理軟件和畫(huà)圖程序中去。圖14.18圖14.18序列視圖顯示了Sequin的序列編輯器。它顯示了在序列上的特征間隔。提交一個(gè)比對(duì)的序列集一個(gè)逐漸增長(zhǎng)的提交項(xiàng)包括相關(guān)的序列類:種群、系統(tǒng)發(fā)生或變異。許多的HIV序列是用來(lái)作為種群研究的,通常系統(tǒng)發(fā)生的研究包括RUBISCO(1,5二磷酸核酮糖羧化酶),它是光合作用的主要酶,也許是地球上最普遍的蛋白質(zhì)(重量方面)。提交這樣一套序列并不比提交單個(gè)序列復(fù)雜多少,輸入整理和了解人的信息具有相同的表格。在序列格式表格中,選擇所要提交的類型。種群研究一般來(lái)自于同種(交叉繁殖)物種的不同個(gè)體,系統(tǒng)發(fā)生是來(lái)自于不同的物種。對(duì)于前一種情況,最好下定義行加上品系、克隆、隔離或其余的一些種類識(shí)別的信息;對(duì)于后一種情況,要用生物體的科學(xué)名稱。復(fù)雜序列的研究可以用FASTA形式,在這種情況下,Sequin后來(lái)應(yīng)該用于計(jì)算一個(gè)比對(duì)。更好的方法是在PHYLIP,NEXUS或FASTA+GAP形式中對(duì)數(shù)據(jù)編碼以表示比對(duì)信息。在序列格式表格中也可選擇這些數(shù)據(jù)形式。生物體和序列表格在序列種類上有一點(diǎn)不同,生物體頁(yè)面上對(duì)于系統(tǒng)發(fā)生的研究設(shè)置默認(rèn)的遺傳密碼,僅用于生物體,不能用于Sequin中種群的局部列表。核酸頁(yè)只在引入按鈕的名稱上有所不同,這反映了選用的實(shí)際格式(例如“引入FASTA”或“引入PHYLIP”)?,F(xiàn)在代替蛋白質(zhì)頁(yè)的是一個(gè)注解頁(yè)(圖14.19)。許多提交是屬于rRNA序列或只是一條完整的CDS。(這意味著特征間隔跨越了每條序列的整個(gè)范圍。)注解頁(yè)允許建立和為以上這些命名。指定一個(gè)定義行(標(biāo)題),并且Sequin可將單個(gè)的生物體名置于標(biāo)題前綴。在更加復(fù)雜的情況下,序列在整個(gè)橫跨區(qū)中有不止一個(gè)單獨(dú)的區(qū)間特征,可以在序列建立且其中的一條已作了注解后,通過(guò)特征拷貝來(lái)完成注解,這將在下文詳述。按下一張表(NextForm)出現(xiàn)編輯器,允許在每條序列上編輯所有的生物體和修改器。直到確認(rèn)修改,Sequin將記錄組織成正確的結(jié)構(gòu)。當(dāng)查看器出現(xiàn)時(shí),目標(biāo)控制被設(shè)置為該集的第一個(gè)元素。設(shè)置目標(biāo)為所有序列(ALLSEQUENCES)將產(chǎn)生一個(gè)所有序列的簡(jiǎn)單文件視圖。然而圖形視圖在同一時(shí)間只能顯示一條序列上的特征。并且序列視圖將在單獨(dú)的堿基水平上比較序列。圖14.19圖14.19對(duì)于種群、系統(tǒng)發(fā)生或變異研究,注解頁(yè)替代了蛋白質(zhì)頁(yè),最一般的提交是一條CDS或多個(gè)來(lái)源的rRNA。當(dāng)所有的CDS或間隔擴(kuò)展到這個(gè)序列時(shí),Sequin可以自動(dòng)生成這些特征的注解。輸入對(duì)于CDS特征或RNA名或rRNA特征的蛋白質(zhì)產(chǎn)物的名稱,基因符號(hào),關(guān)于每個(gè)CDS或rRNA特征的注解,以及每條序列的標(biāo)題。在每條記錄標(biāo)題的前面可以加上生物體的名稱。這將為每條記錄整理正確的定義行。通過(guò)特征傳播進(jìn)行注解假定提交幾種乙醇脫氫酶基因組區(qū)域,同時(shí)傳送一個(gè)比對(duì),表明了提交者對(duì)于它們之間的關(guān)系的判斷。序列包括5’和3’未翻譯的區(qū)域以及乙醇脫氫酶外顯子和內(nèi)含子。假設(shè)由第一個(gè)核苷酸編碼的蛋白質(zhì)序列也是可獲得的,下面使用特征傳播來(lái)注解研究中的所有序列。首先,定位第一條序列。然后從編碼區(qū)和注解菜單的副本子菜單選擇CdRgn。進(jìn)入產(chǎn)物子頁(yè)(在編碼區(qū)頁(yè)中);并且輸入蛋白序列文件(在文件菜單中引入蛋白質(zhì)FASTA)。如果在定義行上蛋白質(zhì)和基因名沒(méi)有被注解,那么在蛋白質(zhì)子頁(yè)和屬性子頁(yè)的一般頁(yè)中分別輸入其注解。引入序列自動(dòng)運(yùn)行建議間隔,因此現(xiàn)在位置頁(yè)在第一個(gè)核苷酸上應(yīng)該有三個(gè)間隔,并且BioSource應(yīng)該已設(shè)置了那個(gè)核苷酸上的遺傳密碼。按下接受(Accept)完成特征的添加。定位所有的序列(ALLSEQUENCES),從編輯菜單選擇編輯比對(duì)打開(kāi)比對(duì)編輯器,并從特征菜單選擇傳播。在第一個(gè)框中選擇CDS特征。最后,按下傳播按鈕(要看記錄結(jié)構(gòu)的變化過(guò)程,在這幾步中將NCBI桌面打開(kāi)。)使用Sequin作為工作臺(tái)NCBI桌面(圖14.20)允許在一個(gè)記錄中拖放項(xiàng)目。在一個(gè)記錄中點(diǎn)擊向上的箭頭將擴(kuò)展顯示的細(xì)節(jié)的層次。如果你從一個(gè)記錄拖動(dòng)其某個(gè)特征到桌面,它將被從記錄中除掉。但它保留在桌面上。它也可拖回記錄中去,并可能到另一個(gè)不同的地方。(特征可以被拖到bioseqs,Bioseqs集,或存在的特征表,然而這并不改變特征位置。對(duì)于描述器來(lái)說(shuō)卻有所不同,改變打包的層次將改變描述器應(yīng)用的范圍。并且在桌面上的一個(gè)獨(dú)立的Seq-loc能被拖動(dòng)到特征上,在此情況下,它確實(shí)改變了特征的位置。)圖14.20圖14.20NCBI桌面用圖形的方式顯示了基于NCBI數(shù)據(jù)模型,記錄在內(nèi)存里的結(jié)構(gòu)。這對(duì)于生物學(xué)家來(lái)說(shuō)用處不大,但對(duì)于軟件開(kāi)發(fā)人員和數(shù)據(jù)庫(kù)序列注解者甚為有用。在本例中,提交包括了一個(gè)單獨(dú)的Nuc-prot集,該集順序包括了一個(gè)核苷酸鏈和兩條蛋白質(zhì)鏈。每條序列都有特征了解在一起。BioSource和關(guān)于Nuc-prot的出版描述對(duì)于所有的序列都提供了同樣的生物體(Drsophiamelanogaster)和同樣的文獻(xiàn)。其它ASN.1的數(shù)據(jù)可以從桌面的打開(kāi)菜單讀取。下面的子菜單包括ASN.1文本格式、ASN.1二進(jìn)制格式和FASTA格式的核苷酸和蛋白質(zhì)序列。這些在桌面上將以分離的實(shí)體的形式出現(xiàn)。但是它們應(yīng)用于拖放方式或使用桌面上的過(guò)濾功能進(jìn)行分析很合適。例如,從PowerBLAST進(jìn)行的Seq-align輸出可被讀進(jìn)來(lái)并拖放到一個(gè)序列記錄上去。(當(dāng)Sequin配置為網(wǎng)絡(luò)連接時(shí),PowerBlast可以在Sequin內(nèi)部運(yùn)行。參見(jiàn)如下)。就象觀察者想到的一樣,其將成為記錄的一部分。因此任何可以輸出ASN.1格式的程序例如從一個(gè)基因查找程序得到的基因特征能夠用Sequin讀取其結(jié)果并由用戶將其添加到序列中去,并且分析程序不需要理解數(shù)據(jù)模型或如何包裝其結(jié)果。一個(gè)復(fù)雜記錄的爆炸視圖,描述了在桌面上將會(huì)看到的內(nèi)容,如圖14.21所示。在這個(gè)例子中,系統(tǒng)發(fā)生的研究包括五個(gè)部分,每部分是一個(gè)Nuc-prot集。在Phy集中有兩個(gè)描述器(建立日期和文獻(xiàn))它們應(yīng)用于所有的部分,第一個(gè)Nuc-pot集是“放大”顯示更多的細(xì)節(jié):它包含了核苷酸和蛋白質(zhì)biosoqs,還有一個(gè)BioSource描述器在這二者上都有應(yīng)用。(系統(tǒng)發(fā)生的其它部分將有不同生物體的BioSources)兩種bioseqs都是“原始”類型,意味者實(shí)際的序列數(shù)據(jù)在bioseq中編碼(“片段的”bioseqs包含了指向?qū)嶋H原始片段的序列指示符。這就是Entrez基因組部分建立的方法;參見(jiàn)第6章),核苷酸bioseq有一個(gè)Molleo描述器,說(shuō)明測(cè)序的分子是基因組分子[和mRNA(cDNA,)或tRNA,rRNA相反]。蛋白質(zhì)bioseq的Mollnfo是一個(gè)肽段,并且是整理提供的概念性的翻譯[與通過(guò)Edman降解法或其它方法直接測(cè)序不同]。在桌面視圖上的特征顯示了一個(gè)文本標(biāo)簽和關(guān)于特征位置和可選產(chǎn)物的信息。例如,CDS特征位置指向核苷酸bioseq上的間隔。其產(chǎn)物指向了整個(gè)蛋白質(zhì)。bioseq.文本標(biāo)簽(“乙醇脫氫酶”)實(shí)際上來(lái)自于蛋白質(zhì)bioseq上的蛋白質(zhì)特征。(GenBank上的簡(jiǎn)單文件視圖作同一類型的映射,CDS將蛋白質(zhì)特征的名字作為它的產(chǎn)物的限定詞,以及蛋白質(zhì)bioseq的序列數(shù)據(jù)為其翻譯限定詞。)想要熟悉NCBI數(shù)據(jù)模型的人將會(huì)發(fā)現(xiàn)用NCBI桌面觀察不同類型的記錄是了解bioseqs的好方法,也是發(fā)現(xiàn)包裝多種多樣的描述器的層次的好途徑,還能知道其層次的工作方式。但是對(duì)于高級(jí)用戶來(lái)說(shuō),很快可以發(fā)現(xiàn)數(shù)據(jù)中沒(méi)有什么神秘的東西。圖14.21圖14.21系統(tǒng)發(fā)生的桌面視圖。在這個(gè)復(fù)合的圖表里,一個(gè)系統(tǒng)發(fā)生發(fā)生包括幾個(gè)Nuc-prot集并且給所有的部件應(yīng)用了同樣的文獻(xiàn),Nuc-prot中的一個(gè)更詳細(xì)地?cái)U(kuò)展開(kāi)來(lái)。其中包括了一個(gè)果蠅黑素的BioSource,這是一個(gè)包括了基因、mRNA/和CDS特征的核苷酸序列和一個(gè)蛋白質(zhì)序列,帶有一個(gè)蛋白質(zhì)特征說(shuō)明了該蛋白質(zhì)產(chǎn)物的名稱。具有網(wǎng)絡(luò)連接的Sequin當(dāng)配置為網(wǎng)絡(luò)連接時(shí),Sequin包括PowerBLAST,網(wǎng)絡(luò)Entrez,可實(shí)現(xiàn)MEDL/PubMed查找的能力,以及分類學(xué)查找的功能。從查找菜單選擇PowerBLAST,將出現(xiàn)一個(gè)對(duì)話框,提供選擇運(yùn)行BLASTN或具有核苷酸比對(duì)的BLASTX;另外,還可以選擇搜索nr數(shù)據(jù)庫(kù)或幾個(gè)子數(shù)據(jù)庫(kù),包括est和載體,其結(jié)果自動(dòng)添加到序列記錄中,并將在摘要、圖表、比對(duì)和序列視圖中出現(xiàn)。在這些視圖之一的比對(duì)上雙擊將從Entrez網(wǎng)絡(luò)服務(wù)中獲取相關(guān)的序列記錄,在結(jié)果觀察窗的底部是近鄰和鏈接控制。因此若一個(gè)用戶對(duì)某疾病基因進(jìn)行了測(cè)序,并在Sequin內(nèi)運(yùn)行PowerBLAST,他將立即看到數(shù)據(jù)庫(kù)“選中”,而且只需一步就可以得到討論該生物學(xué)問(wèn)題的MEDLINE文獻(xiàn),同時(shí)還有該記錄的鄰近記錄,然后將其發(fā)送到Entrez查詢窗口(通過(guò)Refine按鈕),在那里,例如可通過(guò)選擇或排除某分類目錄來(lái)縮小查詢范圍。為了配置網(wǎng)絡(luò)應(yīng)用,從Misu菜單選擇網(wǎng)絡(luò)配置(NetConfigure)。如果使用了防火墻的話選中“只有往外去的鏈接”檢查框。通常來(lái)說(shuō),除非網(wǎng)絡(luò)有暫時(shí)性的問(wèn)題,“在配置過(guò)程中測(cè)試鏈接”檢查框應(yīng)被選中。在本書(shū)編寫(xiě)的過(guò)程中,在Sequin中加入了無(wú)數(shù)的擴(kuò)充。緊跟最新發(fā)展的最好方法是(例如:新版本的Sequin;排除了bug)訪問(wèn)Sequin的主頁(yè)和注冊(cè)為Sequin的用戶。Sequin的主頁(yè)同樣包括了最新更新的信息和完全的文檔以及常見(jiàn)問(wèn)題列表。EST/STS/GSS表達(dá)的序列標(biāo)簽(ESTs)是一些短的RNA序列,它們是克隆mRNA序列鑒定計(jì)劃的結(jié)果(更廣泛的定義參見(jiàn)詞匯表)。雖然這些序列代表了大量的現(xiàn)存的核苷酸數(shù)據(jù)庫(kù)的內(nèi)容,但從數(shù)據(jù)庫(kù)的觀點(diǎn)來(lái)看,ESTs只包含了提交過(guò)程的一小部分投資。只有這個(gè)過(guò)程的自動(dòng)化使處理ESTs成為可能。因?yàn)镋ST文件的提交格式簡(jiǎn)單,使其很便于快速處理,而且可以達(dá)到每天數(shù)千個(gè)提交進(jìn)入數(shù)據(jù)庫(kù)的量級(jí)。ESTs通常大量生成,并且代表了在GenBank版本102中的超過(guò)三分之二的記錄。僅僅因?yàn)槠鋽?shù)目巨大,許多核苷酸數(shù)據(jù)庫(kù)被迫為其提交和該形式記錄的處理設(shè)計(jì)了新的系統(tǒng)。幸運(yùn)的是這些記錄的結(jié)構(gòu)相當(dāng)簡(jiǎn)單,而且除了序列本身以外,在提交過(guò)程中只有幾種重要的數(shù)據(jù)類型需要合并進(jìn)來(lái),包括關(guān)于圖書(shū)館的信息(包括BioSource),以及引用信息。另外,為了提交可能知道的關(guān)于某個(gè)特定的EST的圖譜信息,數(shù)據(jù)庫(kù)為圖譜組發(fā)展了一種簡(jiǎn)單的方法。該信息的簡(jiǎn)單結(jié)構(gòu)使其非常符合關(guān)系型數(shù)據(jù)庫(kù)模型,由其可以調(diào)出簡(jiǎn)單的數(shù)據(jù)項(xiàng)進(jìn)而由其生成各種報(bào)告,在最簡(jiǎn)單的情況下提交者只需提交一個(gè)文獻(xiàn)信息文件,一個(gè)了解信息文件和一個(gè)庫(kù)信息文件。它們可以和數(shù)以百計(jì)(或數(shù)以千計(jì))的EST文件一起發(fā)送(參見(jiàn)圖14.22),其中包括將每個(gè)序列鏈接到其它類型合適文件的標(biāo)簽。這些文件通常由定制的程序創(chuàng)建,確保在不同的記錄間該信息是不變的。然后這些文件通過(guò)e-mail的方式提交(如果其數(shù)目在百的量級(jí)上),或借助于FTP(如果其數(shù)目在千的量級(jí)上),提交記錄所需的數(shù)據(jù)庫(kù)當(dāng)前的位置和了解信息參見(jiàn)本章末的列表。這個(gè)提交模型是如此成功以致于為序列標(biāo)簽位置(STS),和基因鑒定序列(GSS)數(shù)據(jù)庫(kù)提交過(guò)程所借用,在這里同樣使用了具有幾個(gè)變量的簡(jiǎn)單文件格式。關(guān)于如果提交這些記錄的更詳盡的信息參見(jiàn)它們各自的網(wǎng)頁(yè)。圖14.22圖14.22EST提交。提交ESTs(或STS和GSS記錄)需要生成一些簡(jiǎn)單文件,GenBank和dbEST數(shù)據(jù)庫(kù)工作人員用它們來(lái)創(chuàng)建記錄。單獨(dú)的了解信息、發(fā)表信息、一個(gè)或多個(gè)數(shù)據(jù)庫(kù)信息文件將和大量序列文件連接起來(lái)生成許多完全的EST記錄。所有這些文件開(kāi)始的一行是TYPE,最后用||作為一行結(jié)束。基因組中心專門(mén)研究大段DNA(每年幾十萬(wàn)到幾百萬(wàn)的堿基對(duì))的中心有其自己的信息處理系統(tǒng),他們不僅設(shè)計(jì)了自己的數(shù)據(jù)庫(kù)系統(tǒng),并且他們的程序員維護(hù)軟件和數(shù)據(jù)庫(kù)以明了各種各樣的測(cè)序計(jì)劃,而且他們將組織此信息以允許跟蹤其集合,性能跟隨,和早期發(fā)現(xiàn)問(wèn)題?;蛑行膶⑺麄兊慕Y(jié)果格式化為多種形式,通常包括WWW網(wǎng)頁(yè),將他們生產(chǎn)的信息直接對(duì)社區(qū)全部開(kāi)放或只面向他們的顧客。如果這些基因中心希望他們的序列可被公共數(shù)據(jù)庫(kù)得到,那么他們與這些數(shù)據(jù)庫(kù)之一了解以確保正確的數(shù)據(jù)交換。這三個(gè)數(shù)據(jù)庫(kù)(DDBJ,EBI,和NCBI)具有與這些不同的基因中心打交道的經(jīng)驗(yàn)以確保及時(shí)有效率的信息交換(盡可能的快)。這包括自動(dòng)數(shù)據(jù)交換的設(shè)置,特殊FTP帳戶的建立以便于以一種準(zhǔn)確、方便的方式進(jìn)行數(shù)據(jù)交換,以及生成工具確保以最有用的方式進(jìn)行數(shù)據(jù)交換。在NCBI,為所有向該組織提交數(shù)據(jù)的基因測(cè)序中心建立了FTP帳戶。還有設(shè)計(jì)了各種各樣的工具用來(lái)加速提交高吞吐量的基因序列(HTGS)。在GenBank的兩個(gè)分部可以找到這些HTGS記錄,查詢結(jié)果依賴于它們的完成情況(參見(jiàn)第二章)。未完成的記錄(第1段或第2段)在GenBank的HTG分部,而完成的記錄(第3段)在它們所屬的分類學(xué)分部里。在它們整個(gè)的存在過(guò)程中,HTGS記錄擁有一致的DDBJ/EMBL/GenBank確認(rèn)號(hào)碼。NCBI設(shè)計(jì)的一種用來(lái)建立這些記錄的工具是fa2htgs,這是一個(gè)命令行程序,可以很容易地編寫(xiě)腳本,并允許用戶從FASTA文件和一個(gè)Sequin模板生成HTGS提交。就象其它所有的NCBI產(chǎn)品,該程序?qū)τ诖蠖鄶?shù)計(jì)算機(jī)平臺(tái)都是可使用的。高吞吐量的基因組測(cè)序也意味者序列使用方式的改變。這就是由這些中心生成的序列由HTG關(guān)按鈕字標(biāo)識(shí)的原因,目的是使用戶在他們的分析中有選擇的使用這些數(shù)據(jù),或者簡(jiǎn)單地注意到其來(lái)源。如此標(biāo)記的數(shù)據(jù)不應(yīng)和未完成的記錄相混淆,后者不僅有HTG關(guān)按鈕字,而且在GenBank的HTG分部中。這在第2章中由Ouellette和Boguski(1997)更詳盡地予以檢驗(yàn)?;蚪M中心愿意與之合作的數(shù)據(jù)庫(kù)應(yīng)該通過(guò)最新的指南和工具確保對(duì)于HTG數(shù)據(jù)的合適的處理。更新更新DDBJ/EMBL/GenBank記錄可能是強(qiáng)加給每個(gè)科學(xué)家的最沒(méi)有報(bào)酬的任務(wù)之一,這項(xiàng)工作沒(méi)有什么刺激性,也沒(méi)有什么科學(xué)榮譽(yù),而且它很少受到注意。然而,這項(xiàng)工作是完成提交過(guò)程后最重要的步驟之一,它確保了在記錄中的信息仍然是正確的。更新記錄的最重要的方面是通知數(shù)據(jù)庫(kù)與該記錄了解的引用的文獻(xiàn)的發(fā)表。這將允許數(shù)據(jù)庫(kù)工作人員更新數(shù)據(jù)庫(kù)中的引用,進(jìn)而允許將其鏈接到合適的參考數(shù)目上去,(參見(jiàn)第5章),然后記錄可以鏈接到大量的相關(guān)引用上,以及使用Entrez可得到的知識(shí)范圍。信息的另一個(gè)重要方面是在記錄中提到的每種蛋白質(zhì)和基因的正確名稱;同樣,此處的一個(gè)更新允許在信息和數(shù)據(jù)庫(kù)中可比較的材料之間建立合適的鏈接。數(shù)據(jù)庫(kù)給出了更新記錄的e-mail位置和WWW位置,而且Sequin也可用來(lái)執(zhí)行此項(xiàng)任務(wù),Sequin設(shè)計(jì)用來(lái)更新已存在于數(shù)據(jù)庫(kù)中的序列記錄,要下載已存在的記錄,必需將Sequin配置為具有網(wǎng)絡(luò)連接(網(wǎng)絡(luò)連接菜單項(xiàng)包括了設(shè)置此連接的對(duì)話框)。然后待Sequin重新啟動(dòng)后,“從Entrez下載”(DownloadfromEntrez)的按鈕(圖14.7)將在開(kāi)始窗口中出現(xiàn),這允許輸入一個(gè)加入號(hào)碼并直接從ID數(shù)據(jù)庫(kù)中獲?。▍⒁?jiàn)第6章)。通過(guò)更新引用(可通過(guò)MEDLINE、PubMed查找器獲得)或增加特征來(lái)編輯記錄,或利用序列編輯器加入新的序列,在后一種情況下,采用更新功能可能比直接將其貼到序列編輯器中更加方便。加入了新的更新特征,并且建議Sequin用戶訪問(wèn)Sequin的WWW站點(diǎn)以確保他們獲得了最新的版本。這三個(gè)數(shù)據(jù)庫(kù)的工作人員都?xì)g迎使更新過(guò)程盡可能地有效和無(wú)痛苦。也強(qiáng)烈建議那些注意到記錄已發(fā)表卻還沒(méi)有公開(kāi)的人們通知數(shù)據(jù)庫(kù)。如果有人檢查到錯(cuò)誤,同樣應(yīng)該傳送到更新位置,據(jù)此數(shù)據(jù)庫(kù)工作人員通知記錄的所有者,并且通常導(dǎo)致結(jié)果的改正。這條事件鏈可以同第三方注解分別開(kāi)來(lái),該方式目前并不被數(shù)據(jù)庫(kù)所接受。記錄屬于提交者,數(shù)據(jù)庫(kù)工作人員提供了一些幫助,格式化指南建議,但是實(shí)質(zhì)性的改變只能是來(lái)自于列表中的提交者。結(jié)論性的評(píng)價(jià)將序列提交到數(shù)據(jù)庫(kù)和看著它們公開(kāi)發(fā)布對(duì)于部分提交者來(lái)說(shuō)通常是一種自豪的經(jīng)歷,這是他們所在的實(shí)驗(yàn)室的一段科學(xué)活動(dòng),提交者通過(guò)參與實(shí)驗(yàn)室的工作而出現(xiàn)在科學(xué)團(tuán)體里,這也是在出版過(guò)程中由出版者施加的影響的一步。在此過(guò)程中,提交者通常希望以最完全和有用的方式提供信息,允許他們的數(shù)據(jù)獲得科學(xué)團(tuán)體的最大程度的利用。極少的使用者注意到數(shù)據(jù)庫(kù)中表現(xiàn)出來(lái)的錯(cuò)綜復(fù)雜的完全排列,但是他們確實(shí)知道他們所提供的生物學(xué)內(nèi)容。提供便利這一過(guò)程的工具已成為數(shù)據(jù)庫(kù)的任務(wù)。數(shù)據(jù)庫(kù)工作人員也提供關(guān)于其索引的專家(某些數(shù)據(jù)庫(kù)也將其稱為監(jiān)護(hù)人或注解者),他們?cè)谏飳W(xué)方面有廣泛的訓(xùn)練并且非常熟悉數(shù)據(jù)庫(kù),確保在提交過(guò)程中不遺漏任何東西。提交過(guò)程本身并不是一直都這樣簡(jiǎn)單的,甚至在測(cè)序初期并不被鼓勵(lì),這只是由于數(shù)據(jù)庫(kù)不知道如何處理這種信息。然而,現(xiàn)在數(shù)據(jù)庫(kù)強(qiáng)烈地建議序列數(shù)據(jù)的提交和所有合理的更新。出現(xiàn)了許多工具便利完成這個(gè)任務(wù),同時(shí)除它們各自的WWW提交工具以外,數(shù)據(jù)庫(kù)也支持Sequin為新的提交工具,現(xiàn)在提交數(shù)據(jù)到數(shù)據(jù)庫(kù)變成了一種令人愉快的享受,并且科學(xué)家不再有忽視它的好借口了。致謝:Sequin建立的基礎(chǔ)是NCBI的軟件工具箱,相當(dāng)多的人對(duì)此作出了貢獻(xiàn);應(yīng)特別提及NCBI的幾位工整理,因?yàn)樗麄兊墓ぷ鲗?duì)于Sequin的成功具有決定性的作用。除了我們中的一員(JAK),還包括ColombeChappey,JinghuiZhang。TatianaTatusov,JimOstell,和GregSchuler。建議間隔程序由Pennsylvania州大學(xué)的WebbMiller編寫(xiě),WarrenGish(現(xiàn)在在華盛頓大學(xué))、KarlSirotkin(NCBI)和YuriSadykov(現(xiàn)在在Netscape)修改。BankIt提交表格由DavidLipman設(shè)計(jì),并由BrandonBrylawski,,SergeiShavirin,和TatianaTatusov實(shí)現(xiàn)。在第14章提及的通訊資源:互聯(lián)網(wǎng)和通信位置;電話和傳真號(hào)碼DDBJ/EMBL和GenBank的一般了解信息以及提交DNA序列到這些數(shù)據(jù)庫(kù)的入口。DDBJ(信息生物學(xué)中心,NIG)位置:DDBJ,1111Yata,Mishima,Shiznoka411,Japan傳真:81-559-81-6849E-mail提交:ddbjsub@ddbj.nig.ac.jp更新:ddbjupd@ddbj.nig.ac.jp信息:ddbj@ddbj.nig.ac.jp互聯(lián)網(wǎng)主頁(yè):bbb://aaaddbj.nig.ac.jp/提交:bbb://sakura.ddbj.nig.ac.jp/EMBL(歐洲生物信息協(xié)會(huì),EMBL分部)位置:EMBLOutstation,EBI,WellcomeTrustGenomeCampus,HinxtonCambridge,CB101SD,UnitedKingdom電話:01.22.349.44.44傳真:01.22.349.44.68E-mail提交:datasubs@ebi.ac.uk更新:update@ebi.ac.uk信息:datalib@ebi.ac.uk互聯(lián)網(wǎng)主頁(yè):HYPERLINK"bbb://0/aaaddbj.nig.ac.jp
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 玉米收獲機(jī)操作工創(chuàng)新意識(shí)知識(shí)考核試卷含答案
- 淡水珍珠養(yǎng)殖工崗前安全規(guī)程考核試卷含答案
- 海洋浮標(biāo)工崗前實(shí)操水平考核試卷含答案
- 真空電子器件裝配工崗前技能考核試卷含答案
- 蔬菜栽培工創(chuàng)新思維水平考核試卷含答案
- 活性炭生產(chǎn)工崗前安全文明考核試卷含答案
- 飼草產(chǎn)品加工工風(fēng)險(xiǎn)評(píng)估與管理知識(shí)考核試卷含答案
- 銀行內(nèi)部審計(jì)工作制度
- 酒店員工晉升制度
- 超市員工離職及退休制度
- 2026屆新疆維吾爾自治區(qū)烏魯木齊市一模英語(yǔ)試題(有解析)
- 2025年食品安全管理員考試題庫(kù)(含標(biāo)準(zhǔn)答案)
- 2025年司法鑒定人資格考試歷年真題試題及答案
- 江蘇省連云港市2024-2025學(xué)年第一學(xué)期期末調(diào)研考試高二歷史試題
- 生成式人工智能與初中歷史校本教研模式的融合與創(chuàng)新教學(xué)研究課題報(bào)告
- 2025年湖北煙草專賣局筆試試題及答案
- 2026年開(kāi)工第一課復(fù)工復(fù)產(chǎn)安全專題培訓(xùn)
- 中西醫(yī)結(jié)合治療腫瘤的進(jìn)展
- 特殊人群(老人、兒童)安全護(hù)理要點(diǎn)
- 2026年檢察院書(shū)記員面試題及答案
- 2025年初中語(yǔ)文名著閱讀《林海雪原》知識(shí)點(diǎn)總結(jié)及練習(xí)
評(píng)論
0/150
提交評(píng)論