結(jié)構(gòu)生物信息學(xué)_第1頁(yè)
結(jié)構(gòu)生物信息學(xué)_第2頁(yè)
結(jié)構(gòu)生物信息學(xué)_第3頁(yè)
結(jié)構(gòu)生物信息學(xué)_第4頁(yè)
結(jié)構(gòu)生物信息學(xué)_第5頁(yè)
已閱讀5頁(yè),還剩71頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、生物信息學(xué)(Bioinformatics) 數(shù)據(jù)驅(qū)動(dòng) (data driven) 基礎(chǔ) 現(xiàn)代生物學(xué)基本原理 (中心法則、分子進(jìn)化) 高通量數(shù)據(jù)采集手段 統(tǒng)計(jì)學(xué) 信息科學(xué) (數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)、模式識(shí)別、知識(shí)發(fā)現(xiàn)、互聯(lián)網(wǎng)) 問(wèn)題:生物信息學(xué)分析中涉及到了哪些數(shù)據(jù)?生物信息學(xué)的基本策略1、從相似性推斷同源性相似性(similarity) Similar:having characteristics in common -Merriam-Webster Dictionary同源性(homology): A similarity often attributable to common origin -

2、Merriam-Webster Dictionary同源進(jìn)化上有共同的起源哪些共同特征? (1) 分子生物學(xué)的中心法則DNARNA蛋白質(zhì)轉(zhuǎn)錄翻譯遺傳信息:貯存在DNA的核苷酸序列中進(jìn)化中被復(fù)制以及發(fā)生變異的是 基因的核苷酸序列(以及相應(yīng)的蛋白質(zhì)序列)因此,按照分子生物學(xué)的基本原理,我們應(yīng)該根據(jù)核苷酸序列或者氨基酸序列上的共同特征來(lái)判斷序列的是否同源最簡(jiǎn)單: 序列一致性 (sequence identity) 同源蛋白應(yīng)該具有相對(duì)保守的功能 (催化同類化學(xué)反應(yīng)、結(jié)合同類型的其他分子等) 蛋白質(zhì)功能依賴于三維結(jié)構(gòu)按照上述原理,我們同樣應(yīng)該能夠根據(jù)三維結(jié)構(gòu)上的共同特征來(lái)判斷蛋白質(zhì)分子是否同源。最簡(jiǎn)單

3、: 主鏈原子位置的均方根偏差(RMSD)哪些共同特征? (2)生物信息學(xué)的基本策略(2)2、發(fā)現(xiàn)和利用不同特征間的關(guān)聯(lián)關(guān)系(Guilty by association)序列整體特征序列同源性結(jié)構(gòu)整體特征序列局部特征(如motif)結(jié)構(gòu)局部特征功能模式例如:關(guān)聯(lián)關(guān)系的發(fā)現(xiàn): 數(shù)據(jù)搜集、特征提取與數(shù)據(jù)建模、參數(shù)估計(jì)的過(guò)程。知識(shí)發(fā)現(xiàn)。關(guān)聯(lián)關(guān)系的利用:數(shù)據(jù)檢索、統(tǒng)計(jì)檢驗(yàn)、實(shí)驗(yàn)驗(yàn)證的過(guò)程。知識(shí)利用。例:根據(jù)序列預(yù)測(cè)蛋白質(zhì)在核內(nèi)的定位序列motif蛋白在細(xì)胞核內(nèi)定位(核定位信號(hào),NLS,nuclear localization signal)/pr

4、edictNLS/分子生物學(xué)的模型: 轉(zhuǎn)運(yùn)蛋白識(shí)別NLS序列,復(fù)合物通過(guò)核孔被主動(dòng)轉(zhuǎn)運(yùn)到核內(nèi)數(shù)據(jù)搜集 實(shí)驗(yàn)數(shù)據(jù)分析 實(shí)驗(yàn)觀察到的NLS有沒(méi)有共同點(diǎn)? 這些共同點(diǎn)是否足以區(qū)分核蛋白和非核蛋白? 能否根據(jù)序列間的進(jìn)化關(guān)系對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行擴(kuò)展? Collecting initial set of NLS from literature. e.g. /entrez/Search pubmed for “nuclear localization signal” Among the listed records “Nuclear localization

5、signal-receptor affinity correlates with in vivo localization in S. cerevis”“related articles” 實(shí)驗(yàn)觀察到的NLS有沒(méi)有共同點(diǎn)? 這些共同點(diǎn)是否足以區(qū)分核蛋白和非核蛋白Positively charged residues are abundant in NLSs. the monopartite motif is characterised by a cluster of basic residues preceded by a helix-breaking residue. Similarly,

6、the bipartite motif consists of two clusters of basic residues separated by 9-12 residues NLS cores are hexapeptides with at least four basic residue and neither acidic nor bulky residues . However, this motif matches only few nuclear and many non-nuclear proteins. Sets of nuclear and non-nuclear pr

7、oteins. SWISS-PROT release 38.0 with annotations of sub-cellular localisation (ignoring PUTATIVE, POTENTIAL, BY SIMILARITY). sorted all remaining proteins into two sets: (1) nuclear proteins (true positives, 3142 proteins) and (2) non-nuclear proteins (true negatives, 5910 proteins). ftp:/ftp.expasy

8、.org/databases/swiss-prot//sprot/userman.html手冊(cè):數(shù)據(jù)源:Line codeContentOccurrence in an entryIDIdentificationOnce; starts the entryACAccession number(s)Once or moreDTDateThree timesDEDescriptionOnce or moreGNGene name(s)OptionalOSOrganism speciesOnceOGOrganelleOptionalOCOrganism cla

9、ssificationOnce or moreOXTaxonomy cross-referenceOnceRNReference numberOnce or moreRPReference positionOnce or moreRCReference comment(s)OptionalRXReference cross-reference(s)OptionalRGReference groupOnce or more (Optional if RA line)RAReference authorsOnce or more (Optional if RG line)RTReference t

10、itleOptionalRLReference locationOnce or moreCCComments or notesOptionalDRDatabase cross-referencesOptionalKWKeywordsOptionalFTFeature table dataOptionalSQSequence headerOnce(blanks)Sequence dataOnce or more/Termination lineOnce; ends the entryCC -!- FUNCTION: This enzyme is necessary for target cell

11、 lysis in cell-CC mediated immune responses. It cleaves after Lys or Arg. May beCC involved in apoptosis.CC -!- CATALYTIC ACTIVITY: Hydrolysis of proteins, including fibronectin,CC type IV collagen and nucleolin. Preferential cleavage: -Arg-|-CC Xaa-, -Lys-|-Xaa- -Phe-|-Xaa- in small molecule substr

12、ates.CC -!- SUBUNIT: Homodimer; disulfide-linked.CC -!- INTERACTION:CC Self; NbExp=1; IntAct=EBI-519800, EBI-519800;CC -!- SUBCELLULAR LOCATION: Secreted; cytoplasmic granules.CC -!- SIMILARITY: Belongs to the peptidase S1 family. GranzymeCC subfamily.CC -!- SIMILARITY: Contains 1 peptidase S1 domai

13、n.All experimental NLSs covered only 10% of the known nuclear proteins.Prosite: 3% known nuclear proteins僅僅用實(shí)驗(yàn)確定的NLS模式:Inferring NLSs based on sequence very limited. about 30 protein pairs with more than 80% sequence identity and different annotations At 50-65% sequence identity, many pairs aligned

14、over a substantial length, and annotated in different localisations 序列整體同源性:不是好的標(biāo)準(zhǔn)Extending experimental NLSs through homology. For each experimental NLS-protein, found homologues in SWISS-PROT with PredictProtein. For pairs with more than 80% identical residues, extended the initial set of experime

15、ntal NLSs by adding the sequence corresponding to the experimental NLS in the homologues. Testing experimental NLSs. monitoring the matches of any motif in the sets of nuclear and non-nuclear proteins. The rationale was to find all NLS that matched exclusively in nuclear proteins.Coverage: 43% 根據(jù)進(jìn)化特

16、征對(duì)結(jié)構(gòu)功能進(jìn)行預(yù)測(cè) 保守性 絕對(duì)保守 相對(duì)保守(變異速率相對(duì)較慢,變異類型受到約束) 非保守 協(xié)變性或關(guān)聯(lián)性Conservation analysisPhylogenetic profilingEvolutionary tracing生物信息學(xué)的基本策略(3)可以在不同層次分析進(jìn)化過(guò)程中的保守性與協(xié)變性 給定位點(diǎn)上的氨基酸/核苷酸同源蛋白質(zhì)分子間的保守性 給定序列模式或結(jié)構(gòu)模式在蛋白質(zhì)家族內(nèi)或家族間的保守性 給定二級(jí)結(jié)構(gòu)單元(蛋白質(zhì)、RNA)在蛋白質(zhì)家族或超家族間的保守性 給定蛋白質(zhì)分子在物種間的保守性。例子 http:/consurf.tau.ac.il/例子ConSurf鉀離子通道小結(jié)

17、從相似性-同源性 序列相似,或者結(jié)構(gòu)相似 發(fā)現(xiàn)和利用不同特征間的關(guān)聯(lián) NLS模式與核定位 利用同源序列對(duì)序列模式進(jìn)行擴(kuò)展 Swissprot 數(shù)據(jù)庫(kù)(uniProt 知識(shí)庫(kù)) 覆蓋率、正確率是兩個(gè)重要指標(biāo) 利用進(jìn)化特征 保守性協(xié)變性 ConSurf 對(duì)蛋白質(zhì)序列各個(gè)位點(diǎn)的保守性進(jìn)行分析,并投影到三維結(jié)構(gòu)上,可能與功能相關(guān)聯(lián)從序列比對(duì)看生物信息學(xué)中的一些基本原理生物信息學(xué)工具的四個(gè)側(cè)面生物學(xué)背景 生物學(xué)問(wèn)題是什么?數(shù)據(jù)是什么?有哪些相關(guān)的生物學(xué)背景知識(shí)?統(tǒng)計(jì)模型定義與參數(shù)學(xué)習(xí) 模型中有哪些假設(shè)? 能否以及如何利用數(shù)據(jù)通過(guò)統(tǒng)計(jì)學(xué)方法、回歸方法確定模型中的參數(shù)算法 是否有有效的算法解決參數(shù)學(xué)習(xí)、模型

18、應(yīng)用等問(wèn)題?顯著性(置信度)檢驗(yàn) 如何用統(tǒng)計(jì)學(xué)標(biāo)準(zhǔn)對(duì)答案的顯著性(置信度)進(jìn)行判別?序列比對(duì)生物信息學(xué)的核心工具(sequence alignment) 生物學(xué)背景數(shù)據(jù):核苷酸或氨基酸序列問(wèn)題:(1)序列X和Y是否同源?(2)同源序列X和Y位點(diǎn)間的對(duì)應(yīng)關(guān)系如何?(3)數(shù)據(jù)庫(kù)D中有哪些與X同源的序列?(4)同源序列X1,X2,。,Xn位點(diǎn)間的對(duì)應(yīng)關(guān)系如何?序列比對(duì)生物信息學(xué)的核心工具(sequence alignment) 統(tǒng)計(jì)模型與參數(shù)學(xué)習(xí) 序列X,Y是否同源? 相似性-同源性最簡(jiǎn)單的標(biāo)準(zhǔn):序列一致性問(wèn)題:一致性高到何種程度才能認(rèn)為序列是同源的呢?是否會(huì)和序列長(zhǎng)度、序列的氨基酸組成等有關(guān)呢?“

19、相似”的氨基酸如何處理?如何處理序列中的插入、缺失等變異?(如何建立位點(diǎn)間的對(duì)應(yīng)關(guān)系(序列比對(duì))集合A:數(shù)據(jù)庫(kù)中的所有蛋白質(zhì)分子集合HX:數(shù)據(jù)庫(kù)中所有與X同源的蛋白質(zhì)分子集合C:數(shù)據(jù)庫(kù)中所有具有特征C的蛋白質(zhì)分子AHXCHXC顯然,如果集合H和C的重疊程度越大,我們選擇的特征越好。最理想的情況是 HX和C完全重合。從統(tǒng)計(jì)學(xué)角度來(lái)看在數(shù)據(jù)庫(kù)中尋找同源序列的問(wèn)題()xHxANP HN( )CANP CN(,)xHCxANP HCNP: 概率(probability)N:集合中序列的總數(shù)P(HX)P(HX,C)P(C)概率與條件概率(,)(|),( )(,)(|)()xxHCHCAxxCCAxxxN

20、NNP HCP HCNNNP CP HCP C HP H條件概率問(wèn)題:(|)1xP HC 如果 ,那么C應(yīng)該是Hx的充分條件還是必要條件?(|)1xP C H如果呢?P(A)=1比較哪些特征? 最理想的情況: P(Hx|C)和P(C|Hx)都等于1 二者越接近1越好 我們常常不能二者兼顧 P(Hx|C)=1,代表所有具有特征C的序列都是X的同源序列(正確率是100%),但可能有同源序列不具備該特征(覆蓋率未知)。 P( C|Hx)=1,代表數(shù)據(jù)庫(kù)中所有與X同源的序列都有特征C(覆蓋率是100%),但有特征C的序列不一定與X同源(正確率未知)。條件概率能真正反應(yīng)相關(guān)關(guān)系嗎?HXCAHXCA大海撈

21、針型C區(qū)別: P(Hx)的大小盡管兩種情況下,我們都可以有P(Hx|C)1, 但顯然特征C和Hx的相關(guān)程度是明顯不一樣的。 貝葉斯定理P(HX)P(HX,C)P(C)P(A)=1P(Hx):數(shù)據(jù)庫(kù)中任意序列與X同源 的概率,先驗(yàn)概率P(Hx|C): 數(shù)據(jù)庫(kù)中已知其具有特征C 的序列與X同源的概率,后 驗(yàn)概率(,)(,)()(|)(|)()( )()( )( )xxxxxxxP HCP HC P HP C HP HCP HP CP HP CP C貝葉斯定理:(|)(|)( )()xxxP C HP HCP CP H:代表了C對(duì)Hx支持的程度因?yàn)镻(Hx|C)表示C的充分性,所以有人又將 視為用C

22、作為Hx成立的“證據(jù)”的強(qiáng)度(|)ln( )xP C HP C“定量”的證據(jù)問(wèn)題(,)(,)()(|)(|)()( )()( )( )xxxxxxxP HCP HC P HP C HP HCP HP CP HP CP C(|)(|)( )()xxxP C HP HCP CP H的上限是多少?什么情況下達(dá)到?例子數(shù)據(jù)庫(kù)A給定蛋白質(zhì)分子X(jué),尋找A中與X同源的序列特征C:與X的序列一致性(sequence identity)超過(guò)某一百分比QP(C) A中與X序列一致性(sequence identity)超過(guò)Q的序列的比例P(C|Hx) A中且與X同源的序列中,與X序列一致性超過(guò)Q的序列的比例P(C

23、)Q11/ P(Hx) P(C|Hx)(|)( )xP C HP C0100%覆蓋率100%正確率100%概率隨Q的變化P(C|Hx)=1P(Hx|C)=1 我們選擇的標(biāo)準(zhǔn)與分子的同源性最“相關(guān)” 用數(shù)學(xué)語(yǔ)言表示(|)(|)( )()xxxP C HP HCP CP H盡可能大實(shí)際選擇?相似性的來(lái)源哪些因素對(duì)特征C 的概率P(C)有貢獻(xiàn)? 偶然相似 (coincidental) 趨同進(jìn)化 (convergent evolution) 同源性 (homology)( )(,)(,)(|) ()(|) ()xxxxxxP CP HCP HCP C HP HP C HP HP(HX)P(HX,C)P

24、(C)P(A)=1P(HX,C)顯然,如果 相對(duì)于越小,P(Hx|C)會(huì)越大注意我們不能改變 或(|) ()xxP C HP H(|) ()xxP C HP H因此,我們對(duì)相似性的定義,應(yīng)該使得由非同源性因素導(dǎo)致這種相似性發(fā)生的概率最小。這決定了我們應(yīng)如何定義序列的相似性和結(jié)構(gòu)的相似性。 ()xP H()xP H小結(jié) 根據(jù)貝葉斯理論進(jìn)行推斷(|) ()(|)()()(|)(|)ln()(|)P observation hypothesis P hypothesisP hypothesis observationP observationP hypothesisP observation hyp

25、othesisP observation hypothesisP observationP hypothesis observation先驗(yàn)概率似然性“證據(jù)”后驗(yàn)概率先驗(yàn)概率:常常是未知的(“信念”)似然性:往往作為參數(shù)估計(jì)的依據(jù)“證據(jù)”或后驗(yàn)概率:作為判據(jù)注意:如果我們沒(méi)有對(duì)先驗(yàn)概率的客觀估計(jì),我們并不能“證據(jù)”本身給出假設(shè)成立的置信度。 觀察數(shù)據(jù):序列X和Y 問(wèn)題:X和Y是否同源 假設(shè)H:X和Y同源。下面我們回到序列兩兩比較問(wèn)題(,|H is true) (H is true)(H is true|, )(, )(,|H is false) (H is false)(H is false|

26、X,Y)=(, )(H is true|X,Y)(,|H is true)(H is true)(H is false|, )(,|H is false)(H is false)P X YPPX YP X YP X YPPP X YPP X YPPX YP X YP無(wú)論H為真的先驗(yàn)概率是多少,其后驗(yàn)概率總是正比于(,|H is true)(,|H is false)P X YP X YLog Odds Ratio score(,|H is true)ln(,|H is false)P X YP X Y很自然,如果我們用 來(lái)定義X、Y的相似性,如果X、Y”足夠”相似,我們就可以認(rèn)為其同源。通常,

27、如果我們有一組觀察數(shù)據(jù)D,同時(shí)我們有關(guān)于D可能是如何生成的假設(shè)H,我們把 P(D|H)稱為假設(shè)H的似然性 (likelyhood)。如果我們有不同的候選假設(shè),并且知道如何根據(jù)假設(shè)計(jì)算似然性,我們可以在給定觀察數(shù)據(jù)的情況下用最大似然法(ML) 找出最可能的假設(shè)。這是一個(gè)從數(shù)據(jù)中提取信息的過(guò)程。我們現(xiàn)在要從X、Y的序列數(shù)據(jù)中提取其是否同源的信息。(,|H is true)ln(,|H is false)P X YP X Y計(jì)算似然性的模型同源序列假設(shè):非同源位點(diǎn)間獨(dú)立 同源位點(diǎn)不獨(dú)立 非同源位點(diǎn)間同分布X1X2XiXn| | | |Y1Y2YiYn1ii1(,| and Y are homolou

28、s)(,| and Y are homolous)=(amino acid type of X , amino acid type of Y)niiinhiP X Y XP X Y Xp10i0i1(,| and Y are not homolous)(,| and Y are not homolous)=(amino acid type of X )(amino acid type of Y)niiiniP X Y XP X Y Xpp非同源序列 位點(diǎn)間獨(dú)立、同分布序列“相似性”的計(jì)分ii0i0i(amino acid type of X, amino acid type of Y)( ,

29、| and Y are homolous)lnln( , | and Y are not homolous)(amino acid type of X ) (amino acid type of Y) ( ,)hiiiipP X Y XP X Y Xpps x y殘基相似性矩陣或者殘基替換矩陣:s(a,b)參數(shù)學(xué)習(xí):最大似然ph:選擇 同源位點(diǎn)的集合, 優(yōu)化參數(shù),使 最大。p0:選擇 非同源位點(diǎn)集合, 優(yōu)化參數(shù),使 最大。( ,)hiiipx y0( )iip x模型的先天缺陷: 所有同源位點(diǎn)同分布, ph只與氨基酸類型有關(guān),與同源位點(diǎn)屬于哪兩條序列、這兩條序列間進(jìn)化上的距離如何、位點(diǎn)所受到的

30、進(jìn)化壓力如何都沒(méi)有關(guān)系。兩類主要的氨基酸殘基替換矩陣 PAM矩陣(percent acceted mutation) 只用高同源性的序列來(lái)學(xué)習(xí)參數(shù),構(gòu)造PAM1矩陣 (序列的同源程度相當(dāng)于平均1%的位點(diǎn)發(fā)生了一次可接受的突變)。 用馬爾科夫模型描述進(jìn)化過(guò)程,得到更低同源程度時(shí)的殘基替換矩陣 PAM250 = (PAM1)250 平均每個(gè)位點(diǎn)發(fā)生了2.5次突變。 BLOSUM矩陣把同源序列按同源程度進(jìn)行分類,數(shù)據(jù)庫(kù)中同一類的所有序列在參數(shù)學(xué)習(xí)中的權(quán)重相當(dāng)于一條序列.BLOSUMxx: 代表分到同一類的標(biāo)準(zhǔn)是序列一致性大于xx%序列比對(duì)生物信息學(xué)的核心工具(sequence alignment)

31、算法 位點(diǎn)間的對(duì)應(yīng)關(guān)系是未知的. 進(jìn)化過(guò)程中存在插入缺失等變異相似性分值=比對(duì)的函數(shù)=同源位點(diǎn)殘基替換分值的和 + 空位罰分最優(yōu)比對(duì): 所有可能比對(duì)中相似性分值最高的比對(duì) ( )(,)( )( )(1)AAAAiililAs xyg length of gapg kkmaxmax( )AA給定 (a) 兩條序列 (b) 殘基替換矩陣 (c) 空位罰分函數(shù)可以用動(dòng)態(tài)規(guī)劃算法(dynamic programming) 獲得兩條序列的最優(yōu)比對(duì)。 全局比對(duì):比對(duì)范圍覆蓋兩條序列的全部。 X1X2.Xi -. Xj.Xm.- | | | |.| |.| |.| - -Y1Y2-.YkYk+1Yl.Yn

32、X1X2.Xi - . Xj.Xm | |. . | Y1Y2-.YkYk+1.Yl.Yn局部比對(duì):比對(duì)范圍覆蓋兩條序列的局部HSSP (high scoring sequence pair)一個(gè)也不能少一個(gè)也不能多/software/seqaln/seqaln-query.html例:序列動(dòng)態(tài)規(guī)劃比對(duì)的程序/web服務(wù)器The USC Sequence Alignment Server 最優(yōu)比對(duì)正確的比對(duì) 我們用于計(jì)算似然性的假設(shè)不完全成立 我們的殘基替換矩陣和空位罰分函數(shù)有相當(dāng)多的經(jīng)驗(yàn)特性 我們采用的是概率意義上正確的模型當(dāng)序列一致性較低(局部序列

33、一致性較低時(shí)),最優(yōu)比對(duì)的正確率較低次優(yōu)比對(duì) 所有滿足max( )A的比對(duì)方式Ahttp:/protein.cribi.unipd.it/align/Example:Align packageBALSA (The bayesian algorithm for local sequence alignment/balsa/balsa.html用貝葉斯方法選擇參數(shù)進(jìn)行比對(duì)多序列比對(duì)(multiple sequence alignment) Sum of pairs 計(jì)分規(guī)則 多序列比對(duì)的分值=序列兩兩比對(duì)分值之和在序列數(shù)目較少時(shí),可以采用嚴(yán)格

34、的動(dòng)態(tài)規(guī)劃算法,得到最優(yōu)比對(duì)。大多數(shù)程序采用近似算法:兩兩比對(duì)-引導(dǎo)樹(shù)-多序列比對(duì)程序 /apps/bioinfo/msa.htmlExample:T-CoffeeT-Coffee: A Novel Method for Fast and AccurateMultiple Sequence AlignmentJ. Mol. Biol. (2000) 302, 205217序列比對(duì)計(jì)分函數(shù)小結(jié) Log Odds Ratio 計(jì)分 總分=同源位點(diǎn)分值加和各位點(diǎn)獨(dú)立進(jìn)化 統(tǒng)一的殘基替換矩陣各位點(diǎn)氨基酸分布相同 通用替換矩陣:PAMxx, BLOSUMxx 空位罰

35、分函數(shù)序列比對(duì)算法 我們可以動(dòng)態(tài)規(guī)劃方法找到兩條序列的局部和全局最優(yōu)比對(duì) 最優(yōu)比對(duì)不一定是正確比對(duì) 次優(yōu)比對(duì)、Bayesian比對(duì)等 多序列比對(duì): SUM OF PAIRS 計(jì)分規(guī)則 動(dòng)態(tài)規(guī)劃或啟發(fā)式方法得到最優(yōu)或近似最優(yōu)的比對(duì)。統(tǒng)計(jì)檢驗(yàn)的P-value 假設(shè) H (X,Y 同源) 零(空白)假設(shè):X、Y之間沒(méi)有任何關(guān)系。 P-value: 在零假設(shè)(空白)的情況下(X,Y間沒(méi)有任何關(guān)系)觀察到序列比對(duì)具有同樣或更大分值的概率Each statistical test has an associated null hypothesis, the p-value is the probabili

36、ty that your sample could have been drawn from the population(s) being tested (or that a more improbable sample could be drawn) given the assumption that the null hypothesis is true. A p-value of .05, for example, indicates that you would have only a 5% chance of drawing the sample being tested if t

37、he null hypothesis was actually true. 顯著性(置信度)的判別XYXYXY12 value associated with score (), max( (, ) max( (,)AAPPA X YA R R序列兩兩比對(duì)的P-value兩條序列X、Y比對(duì)結(jié)果的P-value: 同樣長(zhǎng)度、同樣氨基酸組成的隨機(jī)序列間最優(yōu)比對(duì)分值超過(guò)X、Y最優(yōu)比對(duì)分值的概率。嚴(yán)格來(lái)說(shuō),P-value依賴于序列長(zhǎng)度、序列的氨基酸組成。問(wèn)題:1、P-value越小,代表X,Y同源的可能性越高還是越低?2、為什么不直接用分值來(lái)代表顯著性? 可以通過(guò)計(jì)算機(jī)數(shù)值實(shí)驗(yàn)來(lái)估計(jì)P-value 可

38、以采用近似解析公式來(lái)估計(jì)P-value 隨機(jī)序列比最優(yōu)比對(duì)分值的分布服從 Gumble極值分布。數(shù)據(jù)庫(kù)檢索的E-value假設(shè)數(shù)據(jù)庫(kù)中的N條序列是互相獨(dú)立的。查詢序列X與N條序列中每一條序列進(jìn)行比對(duì),相當(dāng)于進(jìn)行了N次獨(dú)立的比對(duì)實(shí)驗(yàn)。假設(shè)查詢序列x與N條序列實(shí)際上都沒(méi)有同源關(guān)系。得到的N個(gè)最優(yōu)比對(duì)分值超過(guò)某個(gè)值的概率就是該分值的顯著性。 maxmax()1() 1() =1 1() 1 1() ()xxixiixiNpairxpairxPPPPpNp P-valueE-value 假設(shè)用給定分值作為門限,每次查詢?cè)诶碚撋系钠骄e(cuò)誤匹配數(shù)。()p a irxEN p小結(jié) 統(tǒng)計(jì)檢驗(yàn): P-value

39、: 一般定義:空白假設(shè)下觀察到樣本的概率。 序列兩兩比對(duì):同樣長(zhǎng)度和氨基酸組成的隨機(jī)序列產(chǎn)生同樣或更大分值的概率。 可以數(shù)值或解析獲得 E-value 按照某個(gè)門限每次查詢得到的平均錯(cuò)誤匹配數(shù) 與P-value密切相關(guān)小結(jié) 生物信息學(xué)工具的四個(gè)基本方面 生物學(xué)數(shù)據(jù)與問(wèn)題 統(tǒng)計(jì)模型與參數(shù)學(xué)習(xí) 算法 統(tǒng)計(jì)檢驗(yàn)其中包含的概念在不同生物信息學(xué)工具中反復(fù)出現(xiàn)。蛋白質(zhì)三維結(jié)構(gòu)分類、比較蛋白質(zhì)三維結(jié)構(gòu)的專家分類 SCOPRootClassesFoldsSuperfamiliesFamiliesProtein domainsSpeciesscopAll alpha proteins Globin-like G

40、lobin-like GlobinsMyoglobin Sperm whale core: 6 helices; folded leaf, partly opened Heme-binding protein 當(dāng)前SCOP分類Classes:All alpha proteins 46456 (218) All beta proteins 48724 (144) Alpha and beta proteins (a/b) 51349 (136) Mainly parallel beta sheets (beta-alpha-beta units) Alpha and beta proteins

41、(a+b) 53931 (279) Mainly antiparallel beta sheets (segregated alpha and beta regions) Multi-domain proteins (alpha and beta) 56572 (46) Folds consisting of two or more domains belonging to different classes Membrane and cell surface proteins and peptides 56835 (47) Does not include proteins in the i

42、mmune system Small proteins 56992 (75) Usually dominated by metal ligand, heme, and/or disulfide bridges Coiled coil proteins 57942 (6) Not a true class Low resolution protein structures 58117 (24) Not a true class Peptides 58231 (116) Peptides and fragments. Not a true class Designed proteins 58788

43、 (42) Experimental structures of proteins with essentially non-natural sequences. Not a true class http:/scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.htmlGlobin like foldTwo superfamilies in the Spectrin repeat-like fold3 helices; bundle, closed, left-handed twist; up-and-down 蛋白質(zhì)結(jié)構(gòu)的自動(dòng)比較相似性的判據(jù):A、B:兩個(gè)不同的結(jié)

44、構(gòu)C原子位置的均方根偏差21|(,)CABNABiiABiprimaryCRMSDNrrrr與序列比對(duì)類似,我們假設(shè)已建立兩個(gè)結(jié)構(gòu)上殘基間的對(duì)應(yīng)關(guān)系。rA、rB:結(jié)構(gòu)A、B相應(yīng)的原子的空間坐標(biāo)。顯然,正確的對(duì)應(yīng)關(guān)系應(yīng)該使(a)NC盡可能大;(b) RMSD盡可能小。( ,),1,)ABCiiiN由于A、B的坐標(biāo)系是任意的,因此,在計(jì)算RMSD之前,我們還必須對(duì)其中一個(gè)進(jìn)行平移、旋轉(zhuǎn)變換,以將其疊合到一起:(,)min(,)ABABprimaryTBBRMSDRMSDTTrrrrrRrV結(jié)構(gòu)比對(duì) 同時(shí)解決坐標(biāo)變換、建立序列比對(duì)(用結(jié)構(gòu)作為標(biāo)準(zhǔn))的問(wèn)題早期:SAP (structure alignment of proteins)采用雙動(dòng)態(tài)規(guī)劃的算法。目前絕大多數(shù)方法:采用先找出A和B中相似的局部結(jié)構(gòu)集合,再逐漸擴(kuò)展的方法代表性的方法與程序:Dali, CE, Maxsub等Dali (distance matrix alignment) scoreS:相似性分值i、j:已比對(duì)的氨基酸殘基 i=(iA,iB),j=(jA,jB)dAij: iA、jA的距離dij*:dAij、dBij的均值=0.2、=20 :參數(shù) 2,(),( , )(,)(),(,),

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論