系統(tǒng)發(fā)生足跡技術(shù)在巴西固氮螺菌基因組特征搜尋上的應(yīng)用_第1頁
系統(tǒng)發(fā)生足跡技術(shù)在巴西固氮螺菌基因組特征搜尋上的應(yīng)用_第2頁
系統(tǒng)發(fā)生足跡技術(shù)在巴西固氮螺菌基因組特征搜尋上的應(yīng)用_第3頁
系統(tǒng)發(fā)生足跡技術(shù)在巴西固氮螺菌基因組特征搜尋上的應(yīng)用_第4頁
系統(tǒng)發(fā)生足跡技術(shù)在巴西固氮螺菌基因組特征搜尋上的應(yīng)用_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、系統(tǒng)發(fā)生足跡技術(shù)在巴西固氮螺菌基因組特征搜尋上的應(yīng)用摘要巴西固氮螺菌是重要的植物促生內(nèi)生菌之一。為了研究其未知基因,在巴西固氮螺菌和與其同源的五個菌種之間進展系統(tǒng)發(fā)生足跡研究。由于單機任務(wù)執(zhí)行的串行性,效率較低。研究發(fā)現(xiàn),整個過程包含了大量重復的、沒有數(shù)據(jù)依賴的操作,如文本信息的提取,DNA序列的比擬等。因此,提出了局域網(wǎng)環(huán)境下基于客戶機/效勞器形式的多機并行實現(xiàn)的思路。在充分利用資源的同時,顯著進步了效率。關(guān)鍵詞巴西固氮螺菌;同源;系統(tǒng)發(fā)生足跡;客戶/效勞器形式;并行1.1巴西固氮螺菌巴西固氮螺菌(Azspirillubrasilene)是重要的植物促生內(nèi)生菌之一,其質(zhì)體上的不同基因分別控制

2、著其各種不同的特性。對巴西固氮螺菌的深化研究對我國農(nóng)業(yè)的開展有著深遠的影響。在巴西固氮螺菌的sp7菌株里,發(fā)現(xiàn)了兩個質(zhì)體,分子量分別為115Da(p115)和90Da(p90)。實驗說明:p115質(zhì)體會自發(fā)地從細菌細胞中消失,并且與原生型sp7比擬,由p115的衍生物來代替p115沒有造成任何表現(xiàn)型如細菌的運動性、化學向性等的差異,而對p90的替代卻使得細菌不能正常生存。由此得出結(jié)論:細胞存活必須的基因信息在p90質(zhì)體上。11.2系統(tǒng)發(fā)生足跡技術(shù)P90的基因序列已經(jīng)被微生物與植物遺傳中心(KULeuven,Belgiu)破譯,并且局部基因的位置和功能已經(jīng)確認,如exB和ex控制著外聚多糖的合成

3、。然而還有一些基因如ndP和ndQ,它們的功能還有待確定。本文應(yīng)用系統(tǒng)發(fā)生足跡技術(shù)對p90進展研究。系統(tǒng)發(fā)生足跡是用來識別DNA序列中的調(diào)控因子(tif)的方法,它通過在多個同源基因的調(diào)控序列基因間序列中尋找保守區(qū)域來確定調(diào)控因子。系統(tǒng)發(fā)生足跡技術(shù)認為:由于環(huán)境選擇的壓力,基因上的功能因子比那些非功能序列進化的速率慢。因此,對于同源物種而言,那些保守區(qū)域?qū)⒊蔀楣δ?調(diào)控因子的主要侯選者。21.3局域網(wǎng)多機并行實現(xiàn)隨著網(wǎng)絡(luò)技術(shù)的開展,多機并行技術(shù)應(yīng)用日益廣泛。并行是指多臺計算機同時運行,與單機串行運行相比,并行可以顯著的進步執(zhí)行速度。本系統(tǒng)構(gòu)建客戶/效勞器形式的局域網(wǎng),即一臺效勞器,多臺客戶機。

4、效勞器安裝應(yīng)用程序和存儲必要的數(shù)據(jù)供客戶機使用,同時協(xié)調(diào)客戶機之間的同步運行。客戶機從效勞器上下載文件并在效勞器的支配下并行執(zhí)行任務(wù)。2.1系統(tǒng)任務(wù)提出及方案論證由于系統(tǒng)發(fā)生足跡是在同源基因的基因間序列中尋找調(diào)控因子,因此,首要的任務(wù)是尋找與p90同源的基因間序列。本系統(tǒng)中使用新月柄桿菌,根瘤菌,深紅紅螺菌,球形紅桿菌和淡水菌五種細菌作為與巴西固氮螺菌p90基因比擬的對象。由于都屬于a-蛋白菌,可以在它們的基因中尋找同源基因,進而找到這些同源基因的基因間序列。針對上述任務(wù),本系統(tǒng)發(fā)生足跡研究共分為4大模塊:2.1.1基因信息入庫由于存儲在NBI的基因信息是以文本文件的形式存放,為了便于計算機處

5、理,需要將文本中的各項信息提取出來存入數(shù)據(jù)庫表中。并行性分析:基因信息入庫是文本信息提取操作,信息量大,需要大量單一、重復的操作,必須借助計算機程序來高速、準確的完成。由于每次提取操作只針對一個文本文件,因此文本文件的信息提取操作之間沒有任何數(shù)據(jù)依賴關(guān)系,可以將這些文件按照數(shù)量均分給多臺計算機并行執(zhí)行以進步信息的提取速率。2.1.2蛋白質(zhì)比擬一般來說,假如兩個蛋白質(zhì)的序列相似,那么其功能也相近?;蜷g序列對基因編碼起著重要的調(diào)節(jié)作用。假如兩個基因間序列調(diào)控的基因編碼的蛋白質(zhì)序列相似,即蛋白質(zhì)的功能相近,那么說明這兩個編碼基因序列有可能是同源關(guān)系,那么就可以將它們相應(yīng)的基因間序列提取出來進展系統(tǒng)

6、發(fā)生足跡研究。因此需要尋找基因編碼的蛋白質(zhì)序列,由于蛋白質(zhì)序列在NBI是以fasta文件形式存儲,需要將文件中的信息進展提取并存到數(shù)據(jù)庫表中。對所有的蛋白質(zhì)序列進展BLAST比擬,尋找序列的相似性,結(jié)果如圖1:圖1.BLAST比擬結(jié)果為了排除偶爾因素造成的序列間的相似性,用期望值E來衡量結(jié)果的顯著性。E值越小,結(jié)果越顯著。并行性分析:fasta文本信息的提取與基因信息提取相似,可以并行實現(xiàn);而序列間的BLAST比擬只需要參與比擬的蛋白質(zhì)序列信息,并不依賴與別的蛋白質(zhì)。因此,在保證所有的蛋白質(zhì)之間都能比擬的前提下,可以把序列分組,由客戶機并行執(zhí)行。2.1.3基因序列分組根據(jù)BLAST計算出的相似

7、度,用TribeL對蛋白質(zhì)進展分組,序列相似的蛋白質(zhì)將被歸為一組。為了利用序列相似的傳遞性,將各蛋白質(zhì)之間的相似關(guān)系用圖來表示,蛋白質(zhì)作為結(jié)點,而邊用來代表蛋白質(zhì)之間的相似度,并且用-lg(E)作為相似度的權(quán)值。將圖進一步轉(zhuǎn)換為馬爾可夫矩陣,矩陣中的元素代表蛋白質(zhì)序列間的轉(zhuǎn)換概率。通過矩陣自乘進一步尋找蛋白質(zhì)之間的親緣關(guān)系,防止將關(guān)系較遠的蛋白質(zhì)遺漏3。得到蛋白質(zhì)的分組后,將蛋白質(zhì)轉(zhuǎn)換成其相應(yīng)的編碼基因,進而得到基因分組,由于只需要與p90相關(guān)的基因組,再將包含p90基因的分組挑選出來存入數(shù)據(jù)庫中,結(jié)果如表1:表1:基因分組并行性分析:蛋白質(zhì)分組需要將所有的蛋白質(zhì)相似度信息進展比擬,因此本模塊

8、不能并行執(zhí)行,必須由一臺計算機獨立完成。2.1.4尋找tif系統(tǒng)發(fā)生足跡是在與p90相關(guān)的基因間序列中尋找tif,得到了基因分組后,根據(jù)基因名稱將調(diào)控其編碼的基因間序列提取出來。以同組的基因間序列作為輸入,使用tifSapler軟件來尋找侯選tif,該軟件采用Gibbs采樣算法,Gibbs通過隨機采樣不斷更新tif模型和在各條序列中的出現(xiàn)位置以優(yōu)化目的函數(shù),當滿足一定的迭代終止條件時就得到了最終的候選tif。4并行性分析:同BLAST相似,tif的尋找不存在數(shù)據(jù)依賴,可以并行執(zhí)行。2.2系統(tǒng)設(shè)計本系統(tǒng)的四大模塊之間必須是串行執(zhí)行,即只有前一模塊執(zhí)行完后,后一模塊才可以執(zhí)行。系統(tǒng)模塊之間的執(zhí)行順

9、序如圖2所示:圖2:系統(tǒng)模塊執(zhí)行順序圖由于除了基因序列分組,其余三個模塊都可以并行執(zhí)行,為了進步系統(tǒng)的數(shù)據(jù)處理效率,本文提出在局域網(wǎng)環(huán)境下多機并行處理生物信息的思路,采取客戶/效勞器形式。網(wǎng)絡(luò)連接如圖3:圖3:網(wǎng)絡(luò)連接圖2.2.1效勞器設(shè)計效勞器主要有四大功能:_x0001_務(wù)分配:為了讓網(wǎng)絡(luò)中的客戶機并行執(zhí)行模塊中的任務(wù),效勞器需要將任務(wù)按文件或序列的數(shù)量分解成大小均等的子塊,分配給各客戶機完成。_x0001_數(shù)據(jù)庫共享:在效勞器上設(shè)置一級數(shù)據(jù)庫,存儲所有的關(guān)于基因和蛋白質(zhì)的信息,供各客戶機下載所需數(shù)據(jù)并上傳處理結(jié)果。_x0001_同步控制:由于模塊間的串行性,在多機并行處理數(shù)據(jù)時,必須保證

10、各客戶機之間的同步。效勞器將任務(wù)分配給客戶機時,需發(fā)送一個啟動信號通知客戶機開場執(zhí)行任務(wù)。而當客戶機完成當前任務(wù)時,需發(fā)送一個完畢信號通知效勞器任務(wù)完成,準備接收下一任務(wù)。只有當效勞器接收到所有客戶機發(fā)來的完畢信號時,才開場下一任務(wù)的分配。_x0001_基因序列分組基因序列分組不能并行執(zhí)行,在本系統(tǒng)中由效勞器單獨完成。效勞器操作系統(tǒng)配置inds2000Server,數(shù)據(jù)庫系統(tǒng)為SQLServer2000.2.2.2客戶機設(shè)計各客戶機在效勞器的支配下并行完成基因信息入庫、蛋白質(zhì)比擬和尋找tif的任務(wù)??蛻魴C上配有二級數(shù)據(jù)庫,當接收到效勞器分配的任務(wù)時,從主數(shù)據(jù)庫中下載所需數(shù)據(jù)并存儲在本機數(shù)據(jù)庫中

11、,防止了屢次訪問一級數(shù)據(jù)庫造成的時間延遲。當完成當前任務(wù)時,需要將數(shù)據(jù)處理結(jié)果提交到效勞器,并發(fā)送完畢信號等待下一任務(wù)的分配??蛻魴C操作系統(tǒng)配置inds98,數(shù)據(jù)庫配置SQLServer2000。本系統(tǒng)將工作空間進展了劃分,每個子空間可以獨立計算,并且對各子空間的計算都是一樣的,即除了基因分組模塊以外,可以實現(xiàn)徹底的計算并行性。通過使用不同數(shù)目的客戶機,得到不同的處理時間和加速比方表2:表2:并行處理時間及加速比客戶機臺數(shù)所需時間t(小時)加速比126.51214.61.8147.483.5484.396.03通過數(shù)據(jù)比照可以看出,由于并行運行的數(shù)據(jù)傳輸及同步等待等的開銷,加速比與客戶機數(shù)目并

12、不成正比。影響加速比的因素分析:1效勞器與客戶機之間的通信發(fā)送啟動和完畢信號延遲時間d,由于在局域網(wǎng)內(nèi)部的數(shù)據(jù)傳輸間隔 短,速度快,d1inute,d/t1,所以對加速比的影響可以忽略不計。2各客戶機之間的同步等待時間,由于效勞器在分配任務(wù)時只是根據(jù)文件或序列的數(shù)量,并不考慮其實際大小,所以可能造成任務(wù)分配的不均勻,進而使得各客戶機之間的任務(wù)完成時間差異較大,而效勞器必須等待所有子任務(wù)都完成才能開場下一任務(wù)的分配,客戶機數(shù)量增加,也隨著增加。因此是影響加速比的重要因子。3客戶機從效勞器下載數(shù)據(jù)及向效勞器上傳運行結(jié)果的時間延遲u,由于各任務(wù)運行需要的數(shù)據(jù)量較大,所以u也是影響加速比的比擬重要的因

13、子。分析說明:各客戶機之間的同步等待及數(shù)據(jù)傳輸成為影響速度進步的主要因素,需要在效勞器任務(wù)分配算法中加上文件大小因子以平衡各客戶機之間的任務(wù)負載,進而降低同步開銷;通過在客戶機上存儲主數(shù)據(jù)庫中的所有數(shù)據(jù),降低數(shù)據(jù)傳輸開銷,進一步進步加速比。1Steenhudt,VanderleydenJ.Azspirillu,afree-livingnitrgen-fixingbateriulselyassiatedithgrasses:geneti,biheialandelgialaspets.JFESirbilRev.2000;24(4):487-506.2ZhangY,BurrisRH,LuddenP,RbertsGP,RegulatinfnitrgenfixatininAzspirillubrasilense.JFESirbilLett.1997Jul15;152(2):195-2043EnrightAJ,VanDngenS,uzunisA.Aneffiientalgrithfrlarge-saledetetinfprtEin

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論