版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基因表達(dá)數(shù)據(jù)主要來自于兩個(gè)方面,一是基因芯片,這是最主要的表達(dá)數(shù)據(jù)來源,利用基因芯NA的數(shù)據(jù)Scheaet基因表達(dá)數(shù)據(jù)主要來自于兩個(gè)方面,一是基因芯片,這是最主要的表達(dá)數(shù)據(jù)來源,利用基因芯NA的數(shù)據(jù)Scheaetal195AE(ondisbu,199)聚類分析是模式識(shí)別中一種非常有吸引力的方法,特別適用于模式分類數(shù)不知道的情況。從機(jī)器學(xué)習(xí)的角度來看,有兩種基本的聚類分析(Kaufmn90),即所謂有教師聚類和無教師聚類。在有師聚類中,對(duì)于每一類有一個(gè)參考模式,對(duì)于一個(gè)未分類的向量,通過計(jì)算選擇一個(gè)最接近的參考模式,并將該向量歸入該參考模式所對(duì)應(yīng)的類,這實(shí)際上是一個(gè)分類問題。而真正的聚類分析(或無監(jiān)督學(xué)習(xí)傅京孫,191986(1)(2)計(jì)算相似性(3)(4)顯示分析對(duì)數(shù)據(jù)進(jìn)行聚類分析之前,必須將包含在基因表達(dá)矩陣中的數(shù)據(jù)進(jìn)行相似程度分析,并且對(duì)分析結(jié)果進(jìn)行量化。通常情況下,相似往往被賦于一個(gè)較大的量化的值,而不相似則由一個(gè)較小的量化的值來表示。在實(shí)際計(jì)算中,往往以距離代替相似的概念,相似性度量被轉(zhuǎn)化為兩個(gè)基因表達(dá)模式之間的距離。距離越小,表達(dá)模式越相近,反之,則表達(dá)模式差異大。所有的距離值的集合可以(1)表達(dá)矩陣的任意兩行數(shù)據(jù)之間的距離可用以確(2)表達(dá)矩陣的任意兩列數(shù)據(jù)之間的距離可以確定基因表達(dá)實(shí)驗(yàn)條在基因表達(dá)數(shù)據(jù)聚類分析中,將具有相似表達(dá)模式的基因放在同一組。首先選擇一個(gè)計(jì)算基表達(dá)相似性的度量。常見的相似性度量有歐幾里德距離、點(diǎn)積、相關(guān)系數(shù)等。歐幾里德距離是通常采用的距離的定義,與測(cè)度的選擇無關(guān)。假設(shè)有兩個(gè)基因表達(dá)模式分別Y=(y,y,…,y),距離函 d(X,Y)必須滿足如下條件X=(x1,x2,…,xm)d(X,Y)≧0(9-(9-(9-(9-X=d(X,Y)=d(X,Y)≦d(X,Z)+兩個(gè)表達(dá)模式之間的歐氏1mmd(X,Y)(xy)(9- 相關(guān)系數(shù)mx yYS(X,Y)m( offset)(ioffset(9-)(G 相關(guān)系數(shù)mx yYS(X,Y)m( offset)(ioffset(9-)(G (9-GmGofst是G的各分量的均值,G或者變化趨勢(shì)相同的基因,如圖9.9()、(b)所示。歐氏距離、相關(guān)系數(shù)與分子生物學(xué)中兩個(gè)基因coexrssd)在有些情況下,兩個(gè)基因的調(diào)控輸入一樣,但是調(diào)控結(jié)果不一樣,甚至相反。如何找出具類關(guān)系的基因呢?互信息可能是一種有用的度量指標(biāo),其定義MI(X,Y)H(X)H(Y)H(X,Y(9-mH(X)p(xi)log2p(xi(9-MI(X,Y)是向X和Y互信息,H(X)是X的熵圖 (c)兩個(gè)基因的調(diào)控制輸入一樣,但是調(diào)控結(jié)果不一樣,甚至相假定有一組樣本{X1X2XN},要求將這些樣本分成M個(gè)類,由于存在多種可能的分類方案,最簡(jiǎn)單的準(zhǔn)則是誤差平方和準(zhǔn)則,其準(zhǔn)則函數(shù)定義如MJ||Xmi(9-i1XMfi表示第imiJ化的聚類就是最好的聚類。當(dāng)每類的樣本都很密集,而各類之間又有明顯的分離,使用這種準(zhǔn)則進(jìn)為聚類效果好。因此可以用類間距離與類內(nèi)距離的比值作為衡量聚類結(jié)果的標(biāo)準(zhǔn)?;虮磉_(dá)模式分類有效性分析的另一種方法是采用最小類間距離分類有效性分析的另一種方法是采用最小類間距離與類內(nèi)平均距離的相對(duì)差值作為判斷依算公式如下S(i)b(i) (9-其中b(i)為某類中的樣本i到其他類的平均距離的最小值,a(i)為某類中的樣本i與類內(nèi)其它樣本的平均距離。S(i)的值反映了樣本i的分類情況,一般通過某類中所有樣本的平均S(i)值作為判斷該類的對(duì)于基因表達(dá)模式的聚類問題,由于目前對(duì)基因表達(dá)的系統(tǒng)行為了解得不全面,沒有聚類的先驗(yàn)知識(shí),所以只能用無師聚類方法。在基因表達(dá)數(shù)據(jù)分析方面,層次式聚類是用得比較多的一種方法(Selmn,198ien981.簡(jiǎn)單聚nX1X2,…XN一個(gè)聚類的中心Z1,假設(shè)Z1=X1。然后計(jì)算X2到Z1的距離D21,如D21大于給定的閾值T,則說X2不屬于第一類,應(yīng)該分到另外的類。在這種情況下,建立一個(gè)新的聚類中心Z2=X2。如果D21小于閾值T,則將X2分到第一類中。接著處理其它基因,在處理第i個(gè)基因時(shí),首先計(jì)算該基因的表達(dá)數(shù)據(jù)向量與現(xiàn)有各類中心的距離,假設(shè)與第j類的距離Dij最小,并且Dij<T,則將基因i分配到第j類i簡(jiǎn)單聚類算法的結(jié)果與第一個(gè)聚類中心的選擇、基因的順序、閾T以及基因表達(dá)數(shù)據(jù)在其間的分布有關(guān)。該方法對(duì)于給定的一組表達(dá)數(shù)據(jù)模式進(jìn)行初步分類提供了一種快速的算2.層次式(Jabsn192;Gron181(向量。(樹的中間節(jié)點(diǎn),層次式聚類算法如下假設(shè)n個(gè)基因,計(jì)算這些基因表達(dá)模式之間的距離(或相似性存放在距離矩陣D矩陣Dnn列,矩陣元素Diji和基因j表達(dá)模式之間的距離;聚類初始化,使每個(gè)基因自成一類,開始時(shí)共有n個(gè)類,每個(gè)類的大小為1,分別用n搜尋矩陣D,尋找具有最小距 的一對(duì)i、建立一個(gè)新的類(ij)ijij中所有的基因,如圖圖9.10所示;在樹中為類(ij)生成一個(gè)新的節(jié)點(diǎn),并將原來類i和類j所在的節(jié)點(diǎn)作為該節(jié)點(diǎn)的子節(jié)點(diǎn);以類(ij)代替原來的類i和類j,重新計(jì)算距離矩陣D,除去D中所有與i、j有關(guān)的行和列,重復(fù)步驟3至步驟6(n-1)次,此時(shí)僅剩下一個(gè)單獨(dú)的(ij) ij圖 層次式聚類算法節(jié)點(diǎn)合并示在上述過程的第5不同于基因表達(dá)模式之間的兩兩距離計(jì)算,因?yàn)橐粋€(gè)類中可能含有多個(gè)基因。新生成的類到其它類的距離計(jì)算公式由聚類算法決定,如單一連鎖、完全連鎖或平均連鎖聚類算法等。對(duì)于單一連鎖聚((ij) ij圖 層次式聚類算法節(jié)點(diǎn)合并示在上述過程的第5不同于基因表達(dá)模式之間的兩兩距離計(jì)算,因?yàn)橐粋€(gè)類中可能含有多個(gè)基因。新生成的類到其它類的距離計(jì)算公式由聚類算法決定,如單一連鎖、完全連鎖或平均連鎖聚類算法等。對(duì)于單一連鎖聚(xi到xj到x(ij)到其它類x的距離等于i到x的距離與j到x的距離的最大值;而對(duì)于平均連鎖聚類,類到其它x的距離等于i到x的距離與j到x的距離的平均值3.K平均KK平均聚類算法的基本過程如下任意選取K個(gè)基因表達(dá)向量作為初始聚類中一般選擇前KZ1,Z2,…,Zk,在沒有先驗(yàn)知識(shí)的情況下反復(fù)迭代計(jì)算。在第l次迭代過程中,如果||X-Zj(l)||<||X-Zi(l)||(i=1,2,…,K,ij),則將X所代表的基因歸于第j類。按照上述辦法處理所有的基因;經(jīng)過上述處理,聚類可能發(fā)生變化,因此需要重新計(jì)算K個(gè)新聚類中心Z(l1)1(9-jNXfj(lj其中fj(l)為第l次迭代中第j個(gè)聚類的基因集合,Nj為該集合中基因的個(gè)數(shù)2聚類中心的K、初始聚類中心的選擇、基因排列的順序以及基因表達(dá)數(shù)據(jù)的分布影響的結(jié)果,當(dāng)基因表達(dá)模式類別之間分離較遠(yuǎn)時(shí),該算法可以取得令人滿意的聚類分析結(jié)4.自組織映射神經(jīng)網(wǎng)人工神經(jīng)網(wǎng)絡(luò)技術(shù)在模式識(shí)別方面有著獨(dú)特的優(yōu)勢(shì),在生物信息學(xué)中的應(yīng)用也非常廣泛,如基因識(shí)別、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)等。神經(jīng)網(wǎng)絡(luò)能夠進(jìn)行非線性數(shù)據(jù)處理,發(fā)現(xiàn)復(fù)雜的數(shù)據(jù)關(guān)系,其中,自組織映射神經(jīng)網(wǎng)絡(luò)SM(elf-OaizingMKohonn19;Tmaota.,999自組織映射是Kohonen在1990年提出的類似大腦思維的一種人工神經(jīng)網(wǎng)絡(luò)方法,它是一爭(zhēng)學(xué)習(xí)算法,可以被認(rèn)為是一種從N維模式空間各點(diǎn)到輸出空間少數(shù)點(diǎn)的映射。這一映射由系統(tǒng)本身信息存儲(chǔ)在網(wǎng)絡(luò)個(gè)節(jié)點(diǎn)連接權(quán)值向量中,具有與權(quán)值向量相似的輸入向量爭(zhēng)學(xué)習(xí)算法,可以被認(rèn)為是一種從N維模式空間各點(diǎn)到輸出空間少數(shù)點(diǎn)的映射。這一映射由系統(tǒng)本身信息存儲(chǔ)在網(wǎng)絡(luò)個(gè)節(jié)點(diǎn)連接權(quán)值向量中,具有與權(quán)值向量相似的輸入向量將分為一類。SOM包括一維和二維模型,二維SOM也稱為KFM(KohonenFeatureMapping)。它們的區(qū)別在于KFM近神經(jīng)元的相一維SOM結(jié)構(gòu)如圖9.11(a)所示n維的輸入矢量的輸入節(jié)點(diǎn)數(shù)為n,輸出節(jié)點(diǎn)數(shù)為p代表預(yù)先確定的樣本集預(yù)計(jì)分類的最大類數(shù)目下為輸出節(jié)點(diǎn)與輸入節(jié)點(diǎn)之間的權(quán)值矩陣,表ww1n1wtw21w2n2W ?? wpnwtwwppOut-WInput-圖 SOM的結(jié)構(gòu)圖。(a)一維(b)二維SOM一維SOM的具體學(xué)習(xí)過程如下(1)隨機(jī)確定權(quán)值矩陣的各元素值,并歸一化,?ii1,2,...,p(2)反復(fù)進(jìn)行以下運(yùn)算,直到達(dá)到預(yù)定學(xué)習(xí)次數(shù)或每次學(xué)習(xí)后權(quán)值改變量小于某一閾x?i (a)隨機(jī)選擇樣本x,計(jì)算與對(duì)應(yīng)各輸出單元的權(quán)值矢量間的距離x?m(b)求出獲勝單元,滿 (xw?m?mk k (c)調(diào)整獲勝單元的權(quán)值矢i?kk學(xué)習(xí)過程結(jié)束后輸出層各個(gè)節(jié)點(diǎn)分別代表不同的類,每個(gè)樣本被自動(dòng)地劃分各節(jié)點(diǎn)表的類中二維SOM9.11b)所示,與一維SOMKooen元對(duì)周圍神經(jīng)元之間存表的類中二維SOM9.11b)所示,與一維SOMKooen元對(duì)周圍神經(jīng)元之間存在有近到遠(yuǎn)的不同的影響作用,而不是簡(jiǎn)單的側(cè)抑制作用。對(duì)鄰近神元的交互作用函數(shù)有巴拿馬草帽型(公式9-31)或矩形型(公9-32RddFc(j)(9-ddc(j)F(9-0其中是輸出單元c與鄰近單j之間在神經(jīng)元平面上的距離是交互作用半徑二維SOM具體學(xué)習(xí)過程用隨機(jī)數(shù)設(shè)定權(quán)值初始值,并進(jìn)行權(quán)向量歸一化計(jì)算,在以后每次修正權(quán)向量之后wij22歸一化,使其滿i反復(fù)進(jìn)行以下運(yùn)算,直到達(dá)到預(yù)定學(xué)習(xí)次數(shù)或每次學(xué)習(xí)后權(quán)值改變量小于某一閾(a)輸入一個(gè)樣本矢量X,計(jì)算各輸出單元強(qiáng)度netjWTX ji(b)找出主興奮單元cnetcj確定各輸出單元在主興奮單元影響下的興奮 計(jì)算各權(quán)值修正量wijyj(e)根據(jù)學(xué)習(xí)次數(shù)更新學(xué)習(xí)步長(zhǎng)η和鄰域交互作用R學(xué)習(xí)過程可以采用從全局到局部的策略,在這種策略下,學(xué)習(xí)初期可設(shè)定較大的交互作用半徑RRSM的聚類結(jié)果與k長(zhǎng)。圖12是一個(gè)基因表達(dá)模式的SM聚類結(jié)果,表示共得到4個(gè)分類cte1、lte2、lter3和lte4基因、、5數(shù)據(jù)值分別為最大方差和平均方差,代表個(gè)各類中樣本聚集程度。SOM聚類結(jié)果示意5.1993)模擬人類的思維方法,通過隸屬度函數(shù)來反映某一對(duì)nmxij關(guān)系矩陣前,必須對(duì)樣本(1)建立模糊相似SOM聚類結(jié)果示意5.1993)模擬人類的思維方法,通過隸屬度函數(shù)來反映某一對(duì)nmxij關(guān)系矩陣前,必須對(duì)樣本(1)建立模糊相似進(jìn)行預(yù)處理,使樣本數(shù)據(jù)壓縮到[0,1]閉區(qū)間內(nèi)。方法簡(jiǎn)介如下為了建立模糊相似矩陣,引入相似系2nnnrrR~rrnrij表示兩xixj之間相似程度的度量,rij1時(shí),表明這兩個(gè)樣本相似性越通常為相關(guān)系數(shù)(也可以采用歐氏距離(2)生成模糊等價(jià)模糊相似矩陣反映了樣本間的相似關(guān)系,但它只具有自反性和對(duì)稱性,不具有傳遞性,因能直接用于分類??梢酝ㄟ^平方法得到R的傳遞t(R)t(R)可以看作是模糊等價(jià)矩陣~~~R R2k ~~~t(R)R2k(當(dāng)R2k(R2k)2時(shí) ~~計(jì)算傳遞閉包時(shí)采用最小最大方法(3)構(gòu)建動(dòng)態(tài)聚類()λ,λ值,就可實(shí)現(xiàn)對(duì)樣本的聚類。或者有規(guī)律的選擇不同的λ值,得到不同λ下的聚類結(jié)果,并構(gòu)建分類樹稱之為動(dòng)態(tài)聚類圖。根據(jù)動(dòng)態(tài)聚稱之為動(dòng)態(tài)聚類圖。根據(jù)動(dòng)態(tài)聚類圖可以直觀的得到在不同λ值下的分類情況,更有利于分析樣之間的關(guān)系6.主成分分析PCA(PrincipalComponent主成分分析是一種掌握事物主要矛盾的統(tǒng)計(jì)分析方法,它可以從多元事物中解析出主要影響因素,揭示事物的本質(zhì),簡(jiǎn)化復(fù)雜的問題。該方法在生物學(xué)方面有著重要的應(yīng)用,已廣泛應(yīng)用于生態(tài)(1999給定nmmn方面剛好體現(xiàn)在幾個(gè)主要變量上,我們只需要將這幾個(gè)變量分離出來,進(jìn)行詳細(xì)分析。但是在一般情況下,并不能直接找出這樣的關(guān)鍵變量。這時(shí)我們可以用原有變量的線性組合來表示事物的主要CACA(rnrn(M維3RM降到R。達(dá)數(shù)據(jù),如果用CACA令A(yù)atitnAnr確定新變量的個(gè)數(shù)r是一個(gè)兩難的問題。我們的目標(biāo)是減小r,如果r小,則數(shù)據(jù)的維數(shù)低,便于r呢?這需要進(jìn)一步分析每令i代表第i個(gè)特征值,定義第i個(gè)主元素的貢獻(xiàn)率為 (9-nnkk前r個(gè)主成分的累計(jì)貢r(shí)1r(9-k nnkkk貢獻(xiàn)率表示所定義的主成分在整個(gè)數(shù)據(jù)分析中承擔(dān)的主要意義占多大的比重,當(dāng)取前r個(gè)主成分來代r1r(9-k nnkkk貢獻(xiàn)率表示所定義的主成分在整個(gè)數(shù)據(jù)分析中承擔(dān)的主要意義占多大的比重,當(dāng)取前r個(gè)主成分來代之,則可靠性越小。一般要求累計(jì)貢獻(xiàn)率達(dá)70%以上。經(jīng)過CAQR9.160007個(gè)時(shí)間點(diǎn)表達(dá)PCA分析結(jié)果(Raychaudhurietal.,2000變化,而前三個(gè)主元素反應(yīng)95%以上的變化,因此取前兩個(gè)主元素9.137個(gè)特征值的圖示表 PCA對(duì)酵母基因表達(dá)數(shù)據(jù)的分析結(jié)果(Raychaudhuriet點(diǎn)外,其它所有系數(shù)都為正值(9.14(a)。如果某個(gè)基因?qū)?yīng)此主元素的值為較大的正數(shù),則基因表達(dá)上調(diào),如果此主元素的值為較大的負(fù)數(shù),則基因表達(dá)下調(diào)。第2個(gè)主元素表示在時(shí)間序貫中基因表達(dá)的變化1個(gè)時(shí)間點(diǎn)外,其它系數(shù)逐個(gè)增大(見圖9.14(b)。如果某個(gè)基因的表達(dá)量隨時(shí)間不c)實(shí)驗(yàn)條主元1234567特征%9.137、聚類9.137、聚類分析結(jié)果的樹圖表與基因表達(dá)數(shù)據(jù)聚類分析相關(guān)的另一種方法是可視化方法1998),其目標(biāo)是將基表達(dá)數(shù)據(jù)聚類結(jié)果以直觀的圖形方式顯示出來,以便于理解。雖然可用各種聚類方法對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行聚類,但是所得到的結(jié)果之中的每一類仍然包含許多基因,難以分辨,必須將聚類分析與圖首先應(yīng)用層次式的聚類方法進(jìn)行聚類計(jì)算,以一棵樹表示基因之間的關(guān)系,其中分支的長(zhǎng)度表9.10對(duì)于n個(gè)基因,從樹形結(jié)構(gòu)來看,有2n-l種可能的線形排序,其中存在一個(gè)最優(yōu)的線形排序圖 主元素系數(shù)變化圖5程,細(xì)線之間的連接反映了個(gè)基因表達(dá)模式逐層分類9.15基因表達(dá)模式聚類結(jié)果圖示將基因表達(dá)數(shù)據(jù)分析、分析結(jié)果可視化與基因組、轉(zhuǎn)錄調(diào)控因子、啟動(dòng)子等數(shù)據(jù)庫集成起可以幫助生物學(xué)研究人員深入地研究基因的表達(dá)調(diào)控,發(fā)現(xiàn)隱藏在基因組中的調(diào)控信息,揭調(diào)控的規(guī)律,了解基因的功能,認(rèn)識(shí)基因之間的相互作用分子生物學(xué)家最終的目標(biāo)是利用生物分子數(shù)據(jù)揭示基本的細(xì)胞過程,認(rèn)識(shí)細(xì)胞過程對(duì)生物體的影響。要達(dá)到這樣的目標(biāo),必須研究不同功能的基因、蛋白質(zhì)之間復(fù)雜的相互作用關(guān)系,不能僅僅研究單個(gè)基因或蛋白質(zhì)。大多數(shù)分子之間復(fù)雜的相互作用關(guān)系依賴于特定的因子,這些因子增強(qiáng)或(McAdmsadAkin99;Svaeu98一個(gè)基因網(wǎng)絡(luò)由一組生物分子(如基因、蛋白質(zhì))以及它們之間的相互作用構(gòu)成,這些生物分子共同完成一些特定的細(xì)胞功能任務(wù)。在實(shí)際分析過程中,往往以圖這種數(shù)據(jù)結(jié)構(gòu)表示基因網(wǎng)絡(luò),描述了特定細(xì)胞或組織中的功能路徑,如代謝、基因調(diào)控,信號(hào)傳圖9.16是一個(gè)基因網(wǎng)絡(luò)示例,描述基因表達(dá)在化學(xué)催化中的作用。基因proB首先表達(dá),產(chǎn)蛋白質(zhì)—谷氨酰激酶,該酶催化谷氨酸鹽和ATP的化學(xué)反應(yīng),生圖9.16是一個(gè)基因網(wǎng)絡(luò)示例,描述基因表達(dá)在化學(xué)催化中的作用。基因proB首先表達(dá),產(chǎn)蛋白質(zhì)—谷氨酰激酶,該酶催化谷氨酸鹽和ATP的化學(xué)反應(yīng),生成谷氨酰磷酸脂和ADP底底表催反產(chǎn)產(chǎn)基因表達(dá)在化學(xué)催化中的表催抑反產(chǎn)催表反產(chǎn)自然催表反產(chǎn)抑代謝路徑示例:脯氨酸的1-吡咯啉-5-羧基還原1-吡咯啉-羧谷氨酰谷氨酰磷酸脂還原谷氨酰磷酸谷氨酰谷氨谷氨酰磷酸谷氨酰谷氨酸該基因表達(dá)只是一個(gè)簡(jiǎn)單代謝路徑的一個(gè)部分。整個(gè)代謝路徑包括所生成的一系列蛋白質(zhì),如圖該基因表達(dá)只是一個(gè)簡(jiǎn)單代謝路徑的一個(gè)部分。整個(gè)代謝路徑包括所生成的一系列蛋白質(zhì),如圖.17產(chǎn)物還沒有形成,催化反應(yīng)沒有受到抑制作用,最終產(chǎn)物很快形成。隨著反應(yīng)的不斷進(jìn)行,最終產(chǎn)物越來越多,反饋抑制越強(qiáng)烈,降低形成最終產(chǎn)物的速率。通過反饋,整個(gè)系統(tǒng)的反應(yīng)將達(dá)到一個(gè)利用基因芯片所得到的表達(dá)數(shù)據(jù)不僅可用于分析基因表達(dá)的時(shí)空規(guī)律,研究基因的功能,而且還可用于分析基因之間的相互制約關(guān)系,研究基因表達(dá)調(diào)控網(wǎng)絡(luò)?;虮磉_(dá)實(shí)際上是細(xì)胞、組織、器官受遺傳和環(huán)境影響的結(jié)果。一個(gè)基因的轉(zhuǎn)錄和表達(dá)由細(xì)胞的生化狀態(tài)所決定,在一個(gè)基因的轉(zhuǎn)錄過程中,一組轉(zhuǎn)錄因子作用于該基因的啟動(dòng)子區(qū)域,控制該基因轉(zhuǎn)錄,而這些轉(zhuǎn)錄因子本身又是其它基因的產(chǎn)物。當(dāng)一個(gè)基因通過轉(zhuǎn)錄、翻譯形成功能基因產(chǎn)物后,它將改變細(xì)胞的生化狀態(tài),從而直接或間接地影響其它基因的表達(dá),甚至影響自身的表達(dá)。多個(gè)基因的表達(dá)不斷變化,使得細(xì)胞總的來說,一個(gè)基因的表達(dá)受其它基因的影響,而這個(gè)基因又會(huì)影響其它基因的表達(dá),這種相互影響、相互制約關(guān)系構(gòu)成了復(fù)雜的基因表達(dá)調(diào)控網(wǎng)絡(luò)。從系統(tǒng)的觀點(diǎn)來看,一個(gè)細(xì)胞就是一個(gè)復(fù)雜的動(dòng)力學(xué)系統(tǒng),其中每個(gè)基因相當(dāng)于系統(tǒng)的一個(gè)變量,各個(gè)變量之間相互影響?;蛘{(diào)控網(wǎng)絡(luò)分析的目的就是要根據(jù)實(shí)驗(yàn)數(shù)據(jù)建立調(diào)控網(wǎng)絡(luò)的數(shù)學(xué)模型,并通過數(shù)學(xué)模型來分析基因之間的相互作用關(guān)系。根據(jù)實(shí)驗(yàn)觀察結(jié)果構(gòu)建的基因調(diào)控網(wǎng)絡(luò)模型應(yīng)能夠描述每個(gè)基因的表達(dá)水平如何受其它基下面介紹幾種基因調(diào)控網(wǎng)1、布爾網(wǎng)絡(luò)模AandnotBA基因表達(dá),并且B基因不表達(dá),則C基因表達(dá)”。以G=(V,F(xiàn))表示絡(luò),其中V是圖的節(jié)點(diǎn)集合,每個(gè)節(jié)點(diǎn)代表一個(gè)基因,或者代表一個(gè)環(huán)境刺激。環(huán)境刺激可以是任F合,每條邊代表基因之間的相互作用關(guān)系。上例所對(duì)應(yīng)的網(wǎng)絡(luò)見9.18C9.2節(jié)點(diǎn)CAB9.18(Somogyiand.2、BCC9.2節(jié)點(diǎn)CAB9.18(Somogyiand.2、BC的狀態(tài)應(yīng)當(dāng)如何。1(),,0(,.1()(,)和狀態(tài)(,,間切換借助于機(jī)器學(xué)習(xí)或者其它智能訓(xùn)練的方法可以構(gòu)建一個(gè)具體的布爾網(wǎng)絡(luò),即根據(jù)基因表達(dá)的實(shí)驗(yàn)數(shù)據(jù)建立待研究的基因之間的相互作用關(guān)系,確定每個(gè)基因的連接輸入(或調(diào)控輸入其搜索空間非常大,需要利用先驗(yàn)知識(shí)或合理的假設(shè),以減小搜索空間,有效地構(gòu)造布爾網(wǎng)9.19布爾網(wǎng)絡(luò)模型狀態(tài)轉(zhuǎn)換圖(Somogyiand(a)單穩(wěn)態(tài)(b)多穩(wěn)11001000101101111010010100 C 0010假設(shè)v代表布爾網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn),其對(duì)應(yīng)的布爾規(guī)假設(shè)v代表布爾網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn),其對(duì)應(yīng)的布爾規(guī)則用布爾函數(shù)fv描述,如果v有k個(gè)連接輸入,則布爾函數(shù)fv有k個(gè)變量,其形式為f(u1,…,uk),ui{0,1}(i=1,…,k)。對(duì)于任何ui,f(u1,…,ui,…,uk)f(u1,…,ui,…,uk),這里ui是ui的互補(bǔ)值,即如果ui=1,則ui=0,如果ui=0,則ui=1。假v100果一個(gè)節(jié)點(diǎn)v的值由布爾表達(dá)式l(u)l()…l()所確定,則稱節(jié)點(diǎn)vv的值由布爾表達(dá)式l(u)l(u)…l()v是“或”節(jié)點(diǎn)。這里l(u)為uiu(ui代表取ui。對(duì)于基因v,可以被強(qiáng)制成為“非活化”狀態(tài),或者通過過量表達(dá)成為“活化”狀態(tài)。令x1,…,xp,y1,…,yq是一個(gè)布爾網(wǎng)絡(luò)G中的不同基因,在一次實(shí)驗(yàn)e中,使基因x1,…,xp過量表達(dá),而使基因y1,…,yq失活,記為e=<x1,…,xp,y1,…,yq>。一個(gè)基因的表達(dá)有三種情況,即正常表達(dá)、失活、過量表達(dá)。根據(jù)實(shí)驗(yàn)e,為布爾網(wǎng)絡(luò)中的每個(gè)vvv布爾網(wǎng)絡(luò)G的全局狀態(tài)是一個(gè)V{0,1}的映射。全局狀態(tài)不一定與基因調(diào)控規(guī)則一致,此時(shí)網(wǎng)且各個(gè)節(jié)點(diǎn)的布爾值與所有基因調(diào)控規(guī)則一致,即如果節(jié)點(diǎn)v有若干個(gè)輸入u1,…,uk,(v)=fv((u1(uk)),則全局狀態(tài)是穩(wěn)定的。否則全局狀態(tài)是是不穩(wěn)定的。一個(gè)全局狀態(tài)是“觀進(jìn)一步,如果沒有擾動(dòng),即e=<>,則“觀察到的全局狀態(tài)”為固有全局狀態(tài)。給定n些基因的表達(dá)數(shù)據(jù)。在不同的實(shí)驗(yàn)條件下,基因表達(dá)水平的變化體現(xiàn)了基因之間相互作用關(guān)系。往往有針對(duì)性地設(shè)計(jì)一組實(shí)驗(yàn),使得某些基因的表達(dá)被抑制,而另一些基因過量表達(dá),觀察這些擾動(dòng)陣E9.3表達(dá)矩陣1000110111001-表達(dá)矩陣E的每一行對(duì)應(yīng)于一種實(shí)驗(yàn)條件下各個(gè)基因的表達(dá)水平,每一列對(duì)應(yīng)于一個(gè)基因在不EjeejPi”()或低表達(dá)抑制9.3450要為n(即節(jié)點(diǎn)連接輸入的個(gè)數(shù)。而如果有限為必要條件,為構(gòu)造布爾調(diào)控網(wǎng)絡(luò),必須滿足下限要求;而上限為充分條件,如果滿足上限條件則必定能夠構(gòu)造出一個(gè)布爾調(diào)控網(wǎng)絡(luò)。詳細(xì)的分析結(jié)果見9.49.4在不同情況下,構(gòu)造一個(gè)布爾調(diào)控網(wǎng)絡(luò)需要實(shí)驗(yàn)次數(shù)的上下限(Akutsuet下面介紹Ideker(Ideertal999基因表達(dá)數(shù)據(jù)重建沒有回路的布爾調(diào)控網(wǎng)絡(luò)。該方法的主要策略是反復(fù)交互地應(yīng)用兩種分析工具:預(yù)測(cè)器和選擇器。利用預(yù)測(cè)器推導(dǎo)一個(gè)或者多個(gè)與基因表達(dá)數(shù)據(jù)一致的布爾網(wǎng)絡(luò),然后返回一個(gè)最949.4在不同情況下,構(gòu)造一個(gè)布爾調(diào)控網(wǎng)絡(luò)需要實(shí)驗(yàn)次數(shù)的上下限(Akutsuet下面介紹Ideker(Ideertal999基因表達(dá)數(shù)據(jù)重建沒有回路的布爾調(diào)控網(wǎng)絡(luò)。該方法的主要策略是反復(fù)交互地應(yīng)用兩種分析工具:預(yù)測(cè)器和選擇器。利用預(yù)測(cè)器推導(dǎo)一個(gè)或者多個(gè)與基因表達(dá)數(shù)據(jù)一致的布爾網(wǎng)絡(luò),然后返回一個(gè)最94需要設(shè)計(jì)不同的擾動(dòng)實(shí)驗(yàn)。利用選擇器進(jìn)行擾動(dòng)實(shí)驗(yàn)的設(shè)計(jì),有意識(shí)地設(shè)計(jì)出能夠辨別那些候選網(wǎng)絡(luò)的擾動(dòng)實(shí)驗(yàn)。交替使用這兩種工具,不斷細(xì)化布爾網(wǎng)絡(luò)。在每個(gè)循環(huán)過程中,首先使用選擇器設(shè)預(yù)測(cè)器根據(jù)表達(dá)矩陣E推導(dǎo)布爾網(wǎng)絡(luò),為網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)vk構(gòu)造合適的布爾函數(shù)fk。首選擇輸入變量,確定一個(gè)最小節(jié)點(diǎn)集合Sk,集合Sk中每個(gè)節(jié)點(diǎn)所對(duì)應(yīng)基因的表達(dá)水平影響vk對(duì)應(yīng)基因的表達(dá),即影響fk。然后建立如表9.2所示的真值表。構(gòu)造fk的過程如下:建立節(jié)點(diǎn)集合Sij。考慮表達(dá)矩陣E(表9.3)中所有vk表達(dá)水平不相同的兩行(除了vk被強(qiáng)制為高表達(dá)或低表達(dá)所在的行,令這兩行的行號(hào)分別為i、j,尋找其它節(jié)點(diǎn)Sij,使得屬于Sij的節(jié)點(diǎn)對(duì)應(yīng)基因的表達(dá)值i行和j行不一樣。可以肯定,集合Sij中至少有一可以作為函fk的變量尋找{Sij}的一個(gè)最小覆蓋集合Smin。尋找最小節(jié)點(diǎn)集合Smin,使可以解釋在所有(、j)觀察到的差別,即Smn中至少有一個(gè)節(jié)點(diǎn)出現(xiàn)在集合Sj數(shù)f。輸入變量的組合沒有出現(xiàn)在表達(dá)矩陣E中,則真值表將是不完整的,用特殊的符號(hào)在真值表選擇器分析預(yù)測(cè)器所返回的L個(gè)假設(shè)的等值網(wǎng)絡(luò),從一組可能的P中選擇一個(gè)新的擾動(dòng)使得p能夠最好地區(qū)別L個(gè)假設(shè)的等值網(wǎng)絡(luò)。下面是一種基于熵的選擇器算法PpLp個(gè)網(wǎng)絡(luò)中出現(xiàn)S個(gè)不同的狀態(tài)(1≤S≤L,按照下式計(jì)算熵值Sllog2(lsHps(9-LL約下上無約(2(n-O(n2n-O(所有節(jié)點(diǎn)是“與”節(jié)點(diǎn)“或”節(jié)點(diǎn)O((O入度≤2,沒有抑制所有節(jié)點(diǎn)是“與”節(jié)點(diǎn)“或”節(jié)點(diǎn)其中l(wèi)ss種狀態(tài)的網(wǎng)絡(luò)個(gè)數(shù),1≤s≤S。選擇熵值Hp最大的擾動(dòng)p作為下一次實(shí)驗(yàn)。Hp其中l(wèi)ss種狀態(tài)的網(wǎng)絡(luò)個(gè)數(shù),1≤s≤S。選擇熵值Hp最大的擾動(dòng)p作為下一次實(shí)驗(yàn)。Hp描述擾動(dòng)后期望的信息增益,各個(gè)網(wǎng)絡(luò)產(chǎn)生的不同狀態(tài)越多,得到的信息量越熵E之中。L=1,或Hp=0基因的影響2、線性組合模線性組合模型(ErbandMichaels1999)是一種連續(xù)網(wǎng)絡(luò)模型,在這種模型中,一個(gè)基因的值是若干個(gè)其它基因表達(dá)值的加權(quán)和。基本表示形式Xi(tt)wijXj(9-jXi(+i在+tXj(t)是基因j在twijji逼近基因調(diào)控的實(shí)際情況。例如,可以增加一個(gè)常數(shù)項(xiàng),反映一個(gè)基因在沒有其它調(diào)控輸入下的活將上述表達(dá)式轉(zhuǎn)換為線性差分方程,描述一個(gè)基因表達(dá)水平的變化趨勢(shì)。這樣,在給定一系列Xi(twij分析各個(gè)基因的表達(dá)行為。實(shí)驗(yàn)結(jié)果表明,該模型能夠較好地?cái)M合基因表達(dá)實(shí)驗(yàn)3、加權(quán)矩陣模加權(quán)矩陣模型(Weaer199nnu(u(ttWW表一wijjitj對(duì)基因的凈調(diào)控輸入為j(即ujt)j對(duì)i的調(diào)控影響程度Wiji的總調(diào)控輸入ri(t)為ri(t)Wijujj(9-這一形式與線性組合模型相似,Wij為正值,則基因激發(fā)i的表達(dá),而負(fù)值表示基因ji的表達(dá),0表示j對(duì)基i沒有作用。與線性組合模型不同的是,基因i最終表達(dá)響11e(iri(t)iu(t1)(9-i這種函數(shù)是神經(jīng)網(wǎng)絡(luò)中常用的 函數(shù),其中和是兩個(gè)常數(shù),規(guī)定非線性映射函數(shù)曲線的置和曲度。通過上式,計(jì)算出t+1時(shí)刻基因i置和曲度。通過上式,計(jì)算出t+1時(shí)刻基因i的表達(dá)水平。在最初階段,加權(quán)矩陣的值是未知的。但對(duì)于這樣的模型,可以利用成熟的線性代數(shù)方法和神經(jīng)網(wǎng)絡(luò)方法進(jìn)行分析。實(shí)驗(yàn)表明,該模4、互信息關(guān)聯(lián)網(wǎng)可以用距離或相關(guān)系數(shù)作為基因表達(dá)模式之間的相似性度量,還可以用另外一種度量形式X是nH(X)P(xi)log2(P(xi(9-這里P(xi)為基因表達(dá)值出現(xiàn)在區(qū)間xi的頻率,n為表達(dá)水平的區(qū)間數(shù)目。熵越大,則基因表達(dá)水平兩個(gè)基因表達(dá)模式的互信息按下式計(jì)MI(X,Y)H(X)H(Y)H(X,Y(9-互信息是在給定一個(gè)基因表達(dá)模式的情況下關(guān)于另一個(gè)基因表達(dá)附加信息的度量。MI(X,Y)=0,則表示兩個(gè)基因表達(dá)不相關(guān),反之,MI(X,Y)越大,則兩個(gè)基因越是非隨機(jī)相關(guān),它們之間的生物在構(gòu)建互信息關(guān)聯(lián)網(wǎng)絡(luò)時(shí),首先根據(jù)基因表達(dá)實(shí)驗(yàn)數(shù)據(jù)計(jì)算所有基因?qū)χg的互信息,取所有互信息值大于給定閾值(預(yù)先設(shè)定)的基因?qū)?,建立這些基因?qū)χg的連接關(guān)系,從而形成所需的(ButtendKhne20)?;蛘{(diào)控網(wǎng)絡(luò)除了上述模型之外,還有其它一些模型,如微分方程模型(WahdeandHertzChenetal19995、基因調(diào)控網(wǎng)絡(luò)實(shí)(1)GeneNet(KolpakovetalGeneNetGeneExpress(http://wwwmgs.bionet.nsc.ru/systems/GeneExpress/)的一部分。GeneNet體功能,良好的調(diào)控功能和對(duì)外界刺激的反應(yīng)。該基因網(wǎng)具有以下基本功能:(a)描述執(zhí)行特定生物功能時(shí)所涉及到的整體基因交互作用;(b)描述基因的蛋白質(zhì)編碼;(c)描述基因?qū)ν饨绱碳さ膫鞲型緩?(d)通過一組反饋?zhàn)詣?dòng)地穩(wěn)定網(wǎng)絡(luò)參數(shù)或者使網(wǎng)絡(luò)轉(zhuǎn)換到新的功能狀態(tài);(e)利用外部信號(hào)、激素和代謝產(chǎn)物作為生理學(xué)參數(shù)激發(fā)基因網(wǎng)糾正其作用(見圖9.20。該基因網(wǎng)描述了四類實(shí)體:(a)細(xì)胞(組織,器官);(b)蛋白質(zhì);(c)基因;(d)白質(zhì)調(diào)控物質(zhì)或代謝產(chǎn)物)。該基因網(wǎng)還描述了實(shí)體間兩種關(guān)系反應(yīng)即通過互作用產(chǎn)生新的實(shí)體或過程調(diào)控(regulatory)事件特定反應(yīng)對(duì)實(shí)體的作用9.20GeneNet9.20GeneNet(2)調(diào)控網(wǎng)絡(luò)的分析仿真知識(shí)Rzesky等人提出一種分析和模擬調(diào)控網(wǎng)絡(luò)的知識(shí)模型(Rzhetkyetl20;htpeeme.pm.olmi.eutoieonooy/Rzhesky該模型勾畫出一種定義整體局部關(guān)系的概念分類法,它既描述了主要概念的性質(zhì),又勾畫出一組主要公理。其兩個(gè)技術(shù)關(guān)鍵是:調(diào)控路徑的表示;從科技文章抽取信息的自然語言處理(NLP哥倫比亞基因組中心研制出一個(gè)有關(guān)真核生物調(diào)控網(wǎng)的模型(Ontology,Rzhetskyetal.,2000)(3)哥倫比亞大學(xué)真實(shí)分子網(wǎng)絡(luò)編輯器Cutent(TrueEditorfor9.21(a(Java3D、CyberVRML97forJava和等軟件包實(shí)現(xiàn)分子網(wǎng)絡(luò)編輯(htp://enm6cpccouba.d/tkie/uet/9.21.(49.21.(4)生物分子相互作用數(shù)據(jù)庫用以及蛋白質(zhì)與其它分子的相互作用(如蛋白質(zhì)-DNARA的實(shí)驗(yàn)數(shù)據(jù)迅速增長(zhǎng)。這些數(shù)據(jù)的規(guī)范化是用生物信息學(xué)方法研究生物分子相互作用的一個(gè)前提。那么究竟應(yīng)該如何規(guī)范有關(guān)生物分子相互作用、復(fù)合及作用路徑等生物信息的數(shù)據(jù)呢?下面簡(jiǎn)單介紹生物分子相BINDaeradoue20;tiif.srio.c/IN/BIND數(shù)據(jù)規(guī)范規(guī)定了3種有用的數(shù)據(jù)庫管理和數(shù)據(jù)交換對(duì)象:交互體,分子聯(lián)合體和(pahwy,數(shù)據(jù)模型采用統(tǒng)一的建模語言(UML)來說明。BIND數(shù)據(jù)庫中盡可能地存放指向其它數(shù)據(jù)庫的數(shù)據(jù)條目的指針,而不是存儲(chǔ)信息的副本。一個(gè)IND分子聯(lián)合體對(duì)象代表任何化學(xué)體:IND或原子間的相互作用。每個(gè)交互體包括一個(gè)I數(shù)據(jù)對(duì)象,一段編輯史更新序列,一個(gè)交互定義(IID)訪問號(hào),兩個(gè)關(guān)聯(lián)分子,一條關(guān)于交互的描述,一系列文獻(xiàn)及私有標(biāo)志。IND最高級(jí)生物細(xì)胞信號(hào)路徑(t://biif.shi.nca/p/IND/Sec/id.sn參考文獻(xiàn)1998(),21(6:658-1990..276-韓正忠,方寧生1993.模糊數(shù)學(xué)應(yīng)用.東南大學(xué)出版社何新貴.1998.數(shù)據(jù)采掘中的模糊技術(shù).計(jì)算機(jī)科學(xué) 1998,25(???:129-吉根林,孫志揮2001.數(shù)據(jù)挖掘技術(shù).中國(guó)圖象圖形學(xué)報(bào)6(8:715-1986.劉明吉,王秀峰,王治寶等2000.一種基于遺傳算法的知識(shí)挖掘算法.計(jì)算機(jī)工程26(8):13-陸汝鈐1996.人工智能.科學(xué)出版社,北京1999.20012001,18(5):AgrawalR,SrikantR.1994.Fastalgorithmsforminingassociationrules.In:Proceedingofthe20thinternationalConferenceonverylargedatabase,Santiago,Chile,Sept,487-499.AkutsuT,KuharaS,MaruyamaO,MiyanoS.1998.ASystemforIdentifyingGeneticNetworksfromGeneExpressionPatternsProducedbyGeneDisruptionsandOverexpressions.GenomeInformSerWorkshopGenomeInform,9:151-160.AkutsuT,KuharaS.MaruyamaO,MiyanoS.1998.Identificationofgeneregulatorynetworksbystrategicdisruptionsandgeneoverexpressions.InProceedingsoftheNinthAnnualACM-SIAMSymposiumonDiscreteAlgorithms,California,695-702.AkutsuT,MiyanoS,KuharaS.1999.IdentificationofgeneticnetworksfromasmallnumberofgeneexpressionpatternsundertheBooleannetworkmodel.PacSympBiocomput,AlexandrovN,MironovA.1990.ApplicationofanewmethodofpatternrecognitioninDNAsequenceanalysis:astudyofE.colipromoters.NucleicAcidsRes.,18:1847-1852.AndersonJSJ,ParkerR.2000.Computationalidentificationofcis-actingelementsaffectingpost-transcriptionalcontrolofgeneexpressioninSaccharomycescerevisiae,NucleicAcidsRes.,28:1604-1617.BaderGD,HogueCW.2000.BIND--adataspecificationforstoringanddescribingbiomolecularinteractions,molecularcomplexesandpathways.Bioinformatics,BaileyTL,ElkanC.1994.Fittingamixturemodelbyexpectationmaximizationtodiscovermotifsinbiopolymers.ProceedingofthesecondInternationalConferenceonIntelligentSystemforMolecularBiology.28-36.BerryMJA,LinoffG,1997.Dadaminingtechniquesformarketing,salesandcustomersupport,JohnWiley&SonsNewYork.BoguskiMS.1998.Datamanagementandanalysisforgeneexpressionarrays.Nat.Genet.,BrazmaA,JonassenI,ViloJ,UkkonenE.1998.Predictinggeneregulatoryelementsinsilicoonagenomicscale,GenomeRes.,8:1202-1215.BrazmaA,JonassenI,EidhammerI,GilbertD.1998.Approachestotheautomaticdiscoveryofpatternsinbiosequences.JComputBiol,5(2):279-305.BussemakerHJ,LiH,SiggiaED.2000.Buildingadictionaryforgenomes:identificationofpresumptiveregulatorysitesbystatisticalanalysis.ProcNatlAcadSciUSA,97(18):10096-10100.ButteAJ,KohaneIS.2000.MutualInformationRelevanceNetworks:FunctionalGenomicClusteringUsingPairwiseEntropyMeasurements,PacificSymposiumonBiocomputing,CarrDB,SomogyiR,MichaelsG.1997.Templatesforlookingatgeneexpressionclustering,StatisticalComputingandGraphicsNewsletter,8:20-29.ChenMS,HanHW,YuPS.1996.Datamining:anoverviewfromadatabaseperspective.IEEETransKnowledgeandDataEngineering,866-883.ChenT,HeHL,ChurchGM.1999.Modelinggeneexpressionwithdifferentialequations.PacificSymp.Biocomp.4:29–40.CrowleyEM,RoederK,BinaCrowleyEM,RoederK,BinaM.1997.AstatisticalmodelforlocatingregulatoryregionsingenomicDNA.J.Mol.Biol.,268(1):8-14.levelsduringCNSdevelopmentandinjury.PacificSymp.Biocomp.99,EisenMB,SpellmanPT,BrownPO,BotsteinD.1998.Clusteranalysisanddisplayofgenome-wideexpressionpatterns.ProcNatlAcadSciUSA,95(25):14863-14868.RS,MichaelsGS.1999.LinearModelingofmRNAExpressionLevelsDuringDevelopmentandInjury,PacificSymposiumonBiocomputing,4:53-35.FayyadUM,Piatetsky-shapiroG,SmythP.1996.AdvancesinknowledgediscoveryanddataCalifornia:AAAI/MITD.1998.ComposingMagicLenses.ACMSIGCHIFrechK,HerrmannG,WernerT.1993.Computer-assistedprediction,classification,anddelimitationofproteinbindingsitesinnucleicacids.NucleicAcidsRes.,21:GalasDJ,EggertM,WatermannMS.1985.Rigorouspattern-recognitionmethodsforsequences.J.Mol.Biol.,186:117-GordonAE.1981.Classification:methodsfortheexploratoryanalysisofmultivariatedata.Chapman&Hall,NewYork.HeldenJV,AndreB,Collado-VidesJ.1998.Extractingregulatorysitesfromtheregionofyeastgenesbycomputationalanalysisofoligonucleotidefrequencies,J.Mol.Biol.,281:827-842.HertzGZ,etal.1990.IdentificationofconsensuspatternsinunalignedDNAknowstobefunctionallyrelated.CABIOS,6(2):81-HortonPB,KanehisaM.1992.AnassessmentofneuralnetworkandstatisticalapproachesforpredictionofE.colipromotersites.NucleicAcidsRes,20(16):4331-8.IdekerTE,ThorssonV,KarpRM.1999.Discoveryofregulatoryinteractionsthroughperturbation:inferenceandexperimentaldesign.PacSympBiocomput,305-16.JabsonJ.1992.Appliedmultivariatedataanalysis:categoricalandmethods.Springer,NewJacobsAndersonJS,ParkerR.2000.Computationalidentificationofcis-actingelementsaffectingpost-transcriptionalcontrolofgeneexpressioninSaccharomycescerevisiae.NucleicAcidsRes2000Apr1;28(7):1604-17.JensenLJ.2000.AutomaticdiscoveryofregulatorypatternsinpromoterBioinformatics,16:326-JerdingDF,StaskoJ.1998.TheInformationMural:ATechniqueforDisplayingNavigatingLargeInformationSpacesIEEETransactionsonVisualizationandComputerGraphics,4(3):257-271.JosephPB.1996.DataMiningWithNeuralNetworks:SolvingBusinessProblemsFromDevelopmenttoDecisionSupport[M].McGrawHill,New49.L.1990.FindingGroupsindata:Anintroductiontoclusteranalysis,Wiley&Sons,NewKohonenT.1997.Self-organizingmap.Springer,KoikeT,RzhetskyA.2000.Agraphiceditorforanalyzingsignal-transductionpathways.Gene259:235-244.KolpakovFA,AnankoEA,KolesovGB,KolchanovNA.1998.GeneNet:adatabasefornetworksanditsautomatedvisualization.Bioinformatics,14(6:529-KozianDH,KirschbaumBJ.1999.Comparativegene-expressionanalysis.TrendsBiotech.,LawrenceCE,AltschulSF,BoguskiMS,LiuJS,NeuwaldAF,WoottonJC.1993.Detectingsubtlesequencesignals:aGibbssamplingstrategyformultiplealignment.Science,262(5131):208-214.LiangS,FuhrmanS,SomogyiR.1998.AGeneralReverseEngineeringAlgorithmforLiangS,FuhrmanS,SomogyiR.1998.AGeneralReverseEngineeringAlgorithmforInferenceofGeneticNetworkArchitectures,PacificSymposiumonBiocomputing,3:18-29.LiuniS,PrunellaN,PesoleG,D'OrazioT,StellaE,DistanteA.1993.SIMDparallelizationoftheWORDUPalgorithmfordetectingstatisticallysignificantpatternsinDNAsequences.ComputApplBiosci.,9(6):701-7.LuH,RudyS,LiuH.1996.Effectivedataminingusingneuralnetworks.IEEETransactionsKnowledgeandDateEngineering,8(6):957-MarcP,DevauxF,JacqC.2001.yMGV:adatabaseforvisualizationanddataminingofpublishedgenome-wideyeastexpressiondata.NucleicAcidsRes,29(13):E63-3.McAdamsHH,ArkinA.1997.Stochasticmechanismsingeneexpression.ProcNatl.Acad.Sci.USA,94:814–819.MengeritskyG,SmithTF.1987.RecognitionofcharacteristicpatternsinsetsfunctionallyequivalentDNAsequences.Comput.Applic.Biosci.,3:223-MichaelBE,PaulTS,PatrickOB,BotsietinD.1998.Clusteranalysisanddisplaygenomewideexpressionpatterns,Proc.Natl.Acad.Sci.USA,95:14863-MorozovP,SitnikovaT,ChurchillG,AyalaFJ,RzhetskyA.2000.ANewMethodforCharacterizingReplacementRateVariationinMolecularSequences:ApplicationoftheFourierandWaveletModelstoDrosophilaandMammalianProteinsGenetics,OhlerU,HarbeckS,NiemannH,NothE,ReeseMG.1999.Interpolatedmarkovchainseukaryoticpromoterrecognition.Bioinformatics,15(5):362-O'NeillMC.1991.Trainingback-propagationneuralnetworkstodefineanddetectDNA-bindingsites.NucleicAcidsRes,19(2):313-8.PatrickD,etal.1999.Geneexpressiondataanalysisandmodeling,PacificonPersidisA.2000.Datamininginbiotechnology.NATUREBIOTECHNOLOGY,18:237-PesoleG,PrunellaN,LiuniS,AttimonelliM,SacconeC.1992.WORDUP:anefficientalgorithmfordiscoveringstatisticallysignificantpatternsinDNAsequences.NucleicAcidsRes,20(11):2871-5.PickertL,ReuterI,KlawonnF,WingenderE.1998.Transcriptionregulatoryanalysisusingsignaldetectionandfuzzyclustering.Bioinformatics,14(3):244-microarrayexperiments:applicationtosporulationtimeseries.PacSympBiocomputRobinsonAJ,FloresTP.1997.Noveltechniquesforvisualisinginformation.ProcIntConfIntellSystMolBiol,5:241-RothFP,HughesJD,EstepPW,ChurchGM.1998.FindingDNAre
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 東莞市2024上半年廣東東莞市望牛墩鎮(zhèn)招聘鎮(zhèn)政府材料員(特色人才聘員)1人筆試歷年參考題庫典型考點(diǎn)附帶答案詳解(3卷合一)
- 網(wǎng)絡(luò)工程師認(rèn)證考試題庫及答案
- 網(wǎng)易游戲測(cè)試工程師面試題庫
- 稅務(wù)師職業(yè)資格考試要點(diǎn)與模擬題
- 機(jī)場(chǎng)地勤人員面試問題及答案參考
- 2025年家庭農(nóng)場(chǎng)智能管理系統(tǒng)項(xiàng)目可行性研究報(bào)告
- 2025年水資源再利用項(xiàng)目可行性研究報(bào)告
- 2025年建筑機(jī)器人研發(fā)項(xiàng)目可行性研究報(bào)告
- 2025年未來城市設(shè)計(jì)理念項(xiàng)目可行性研究報(bào)告
- 2025年兒童早期教育服務(wù)平臺(tái)研發(fā)可行性研究報(bào)告
- 2025至2030中國(guó)融媒體行業(yè)市場(chǎng)深度分析及前景趨勢(shì)與投資報(bào)告
- 2026年江蘇農(nóng)牧科技職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試模擬測(cè)試卷附答案
- 2026年南京交通職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫附答案
- 2025吐魯番市高昌區(qū)招聘第二批警務(wù)輔助人員(165人)筆試考試參考試題及答案解析
- 江蘇省徐州市2026屆九年級(jí)上學(xué)期期末模擬數(shù)學(xué)試卷
- 癲癇常見癥狀及護(hù)理培訓(xùn)課程
- 2025年南陽市公安機(jī)關(guān)招聘看護(hù)隊(duì)員200名筆試考試參考試題及答案解析
- 產(chǎn)后康復(fù)健康促進(jìn)干預(yù)方案
- 2024年人民法院聘用書記員考試試題及答案
- 2025年高三英語口語模擬(附答案)
- 大明湖課件教學(xué)課件
評(píng)論
0/150
提交評(píng)論