生物信息學(xué)復(fù)習(xí)題_第1頁
生物信息學(xué)復(fù)習(xí)題_第2頁
生物信息學(xué)復(fù)習(xí)題_第3頁
生物信息學(xué)復(fù)習(xí)題_第4頁
生物信息學(xué)復(fù)習(xí)題_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、名詞解釋1.生物信息學(xué) : 是研究生物信息的采集、處理、存儲(chǔ)、傳播,分析和解釋等各方面的學(xué)科,也是隨著生命科學(xué)和計(jì)算機(jī)科學(xué)的迅猛發(fā)展,生命科學(xué)和計(jì)算機(jī)科學(xué)相結(jié)合形成的一門新學(xué)科。 2.二級(jí)數(shù)據(jù)庫:在一級(jí)數(shù)據(jù)庫、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定目標(biāo)衍生而來,是對(duì)生物學(xué)知識(shí)和信息的進(jìn)一步的整理。3.FASTA序列格式:是將DNA或者蛋白質(zhì)序列表示為一個(gè)帶有一些標(biāo)記的核苷酸或者氨基酸字符串,大于號(hào)()表示一個(gè)新文件的開始,其他無特殊要求。4.genbank序列格式:是GenBank 數(shù)據(jù)庫的基本信息單位,是最為廣泛的生物信息學(xué)序列格式之一。該文件格式按域劃分為4個(gè)部分:第一部分包含整個(gè)記錄的信息(

2、描述符);第二部分包含注釋;第三部分是引文區(qū),提供了這個(gè)記錄的科學(xué)依據(jù);第四部分是核苷酸序列本身,以“/”結(jié)尾。5.Entrez檢索系統(tǒng):是NCBI開發(fā)的核心檢索系統(tǒng),集成了NCBI的各種數(shù)據(jù)庫,具有鏈接的數(shù)據(jù)庫多,使用方便,能夠進(jìn)行交叉索引等特點(diǎn)。6.BLAST:基本局部比對(duì)搜索工具,用于相似性搜索的工具,對(duì)需要進(jìn)行檢索的序列與數(shù)據(jù)庫中的每個(gè)序列做相似性比較。P94 7.查詢序列(query sequence):也稱被檢索序列,用來在數(shù)據(jù)庫中檢索并進(jìn)行相似性比較的序列。P98 8.打分矩陣(scoring matrix):在相似性檢索中對(duì)序列兩兩比對(duì)的質(zhì)量評(píng)估方法。包括基于理論(如考慮核酸和

3、氨基酸之間的類似性)和實(shí)際進(jìn)化距離(如PAM)兩類方法。P29 9.空位(gap):在序列比對(duì)時(shí),由于序列長(zhǎng)度不同,需要插入一個(gè)或幾個(gè)位點(diǎn)以取得最佳比對(duì)結(jié)果,這樣在其中一序列上產(chǎn)生中斷現(xiàn)象,這些中斷的位點(diǎn)稱為空位。P29 10.空位罰分:空位罰分是為了補(bǔ)償插入和缺失對(duì)序列相似性的影響,序列中的空位的引入不代表真正的進(jìn)化事件,所以要對(duì)其進(jìn)行罰分,空位罰分的多少直接影響對(duì)比的結(jié)果。P37 11.E值:衡量序列之間相似性是否顯著的期望值。 12.低復(fù)雜度區(qū)域:BLAST搜索的過濾選項(xiàng)。指序列中包含的重復(fù)度高的區(qū)域,如poly(A)。13.點(diǎn)矩陣(dot matrix):構(gòu)建一個(gè)二維矩陣,其X軸是一條

4、序列,Y軸是另一個(gè)序列,然后在2個(gè)序列相同堿基的對(duì)應(yīng)位置(x,y)加點(diǎn),如果兩條序列完全相同則會(huì)形成一條主對(duì)角線,如果兩條序列相似則會(huì)出現(xiàn)一條或者幾條直線;如果完全沒有相似性則不能連成直線。14.多序列比對(duì):通過序列的相似性檢索得到許多相似性序列,將這些序列做一個(gè)總體的比對(duì),以觀察它們?cè)诮Y(jié)構(gòu)上的異同,來回答大量的生物學(xué)問題。15.分子鐘:認(rèn)為分子進(jìn)化速率是恒定的或者幾乎恒定的假說,從而可以通過分子進(jìn)化推斷出物種起源的時(shí)間。16.系統(tǒng)發(fā)育分析:通過一組相關(guān)的基因或者蛋白質(zhì)的多序列比對(duì)或其他性狀,可以研究推斷不同物種或基因之間的進(jìn)化關(guān)系。17.進(jìn)化樹的二歧分叉結(jié)構(gòu):指在進(jìn)化樹上任何一個(gè)分支節(jié)點(diǎn),一

5、個(gè)父分支都只能被分成兩個(gè)子分支。系統(tǒng)發(fā)育圖:用枝長(zhǎng)表示進(jìn)化時(shí)間的系統(tǒng)樹稱為系統(tǒng)發(fā)育圖,是引入時(shí)間概念的支序圖。18.直系同源:指由于物種形成事件來自一個(gè)共同祖先的不同物種中的同源序列,具有相似或不同的功能。(書:在缺乏任何基因復(fù)制證據(jù)的情況下,具有共同祖先和相同功能的同源基因。)19.旁系(并系)同源:指同一個(gè)物種中具有共同祖先,通過基因重復(fù)產(chǎn)生的一組基因,這些基因在功能上可能發(fā)生了改變。(書:由于基因重復(fù)事件產(chǎn)生的相似序列。) 20.外類群:是進(jìn)化樹中處于一組被分析物種之外的,具有相近親緣關(guān)系的物種。21.有根樹:能夠確定所有分析物種的共同祖先的進(jìn)化樹。22.除權(quán)配對(duì)算法(UPGMA):最初

6、,每個(gè)序列歸為一類,然后找到距離最近的兩類將其歸為一類,定義為一個(gè)節(jié)點(diǎn),重復(fù)這個(gè)過程,直到所有的聚類被加入,最終產(chǎn)生樹根。23.鄰接法(neighbor-joining method):是一種不僅僅計(jì)算兩兩比對(duì)距離,還對(duì)整個(gè)樹的長(zhǎng)度進(jìn)行最小化,從而對(duì)樹的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制,能夠克服UPGMA算法要求進(jìn)化速率保持恒定的缺陷。24.最大簡(jiǎn)約法(MP):在一系列能夠解釋序列差異的的進(jìn)化樹中找到具有最少核酸或氨基酸替換的進(jìn)化樹。25.最大似然法(ML):它對(duì)每個(gè)可能的進(jìn)化位點(diǎn)分配一個(gè)概率,然后綜合所有位點(diǎn),找到概率最大的進(jìn)化樹。最大似然法允許采用不同的進(jìn)化模型對(duì)變異進(jìn)行分析評(píng)估,并在此基礎(chǔ)上構(gòu)建系統(tǒng)發(fā)育

7、樹。26.一致樹(consensus tree):在同一算法中產(chǎn)生多個(gè)最優(yōu)樹,合并這些最優(yōu)樹得到的樹即一致樹。27.自舉法檢驗(yàn)(Bootstrap):放回式抽樣統(tǒng)計(jì)法。通過對(duì)數(shù)據(jù)集多次重復(fù)取樣,構(gòu)建多個(gè)進(jìn)化樹,用來檢查給定樹的分枝可信度。28.開放閱讀框(ORF):開放閱讀框是基因序列的一部分,包含一段可以編碼蛋白的堿基序列。29.密碼子偏性(codon bias):氨基酸的同義密碼子的使用頻率與相應(yīng)的同功tRNA的水平相一致,大多數(shù)高效表達(dá)的基因僅使用那些含量高的同功tRNA所對(duì)應(yīng)的密碼子,這種效應(yīng)稱為密碼子偏性。30.基因預(yù)測(cè)的從頭分析:依據(jù)綜合利用基因的特征,如剪接位點(diǎn),內(nèi)含子與外顯子邊

8、界調(diào)控區(qū),預(yù)測(cè)基因組序列中包含的基因。31.結(jié)構(gòu)域(domain):保守的結(jié)構(gòu)單元,包含獨(dú)特的二級(jí)結(jié)構(gòu)組合和疏水內(nèi)核,可能單獨(dú)存在,也可能與其他結(jié)構(gòu)域組合。相同功能的同源結(jié)構(gòu)域具有序列的相似性。32.超家族:進(jìn)化上相關(guān),功能可能不同的一類蛋白質(zhì)。33.模體(motif):短的保守的多肽段,含有相同模體的蛋白質(zhì)不一定是同源的,一般10-20個(gè)殘基。34.序列表譜(profile):是一種特殊位點(diǎn)或模體序列,在多序列比較的基礎(chǔ)上,氨基酸的權(quán)值和空位罰分的表格。35.PAM矩陣:PAM指可接受突變百分率。一個(gè)氨基酸在進(jìn)化中變成另一種氨基酸的可能性,通過這種可能性可以鑒定蛋白質(zhì)之間的相似性,并產(chǎn)生蛋白

9、質(zhì)之間的比對(duì)。一個(gè)PAM單位是蛋白質(zhì)序列平均發(fā)生1%的替代量需要的進(jìn)化時(shí)間。36.BLOSUM矩陣:模塊替代矩陣。矩陣中的每個(gè)位點(diǎn)的分值來自蛋白比對(duì)的局部塊中的替代頻率的觀察。每個(gè)矩陣適合特定的進(jìn)化距離。例如,在BLOSUM62矩陣中,比對(duì)的分值來自不超過62%一致率的一組序列。37.PSI-BLAST:位點(diǎn)特異性迭代比對(duì)。是一種專門化的的比對(duì),通過調(diào)節(jié)序列打分矩陣(scoring matrix)探測(cè)遠(yuǎn)緣相關(guān)的蛋白。38.RefSeq:給出了對(duì)應(yīng)于基因和蛋白質(zhì)的索引號(hào)碼,對(duì)應(yīng)于最穩(wěn)定、最被人承認(rèn)的Genbank序列。39.PDB(Protein Data Bank):PDB中收錄了大量通過實(shí)驗(yàn)

10、(X射線晶體衍射,核磁共振NMR)測(cè)定的生物大分子的三維結(jié)構(gòu),記錄有原子坐標(biāo)、配基的化學(xué)結(jié)構(gòu)和晶體結(jié)構(gòu)的描述等。PDB數(shù)據(jù)庫的訪問號(hào)由一個(gè)數(shù)字和三個(gè)字母組成(如,4HHB),同時(shí)支持關(guān)鍵詞搜索,還可以FASTA程序進(jìn)行搜索。40.GenPept:是由GenBank中的DNA序列翻譯得到的蛋白質(zhì)序列。數(shù)據(jù)量很大,且隨核酸序列數(shù)據(jù)庫的更新而更新,但它們均是由核酸序列翻譯得到的序列,未經(jīng)試驗(yàn)證實(shí),也沒有詳細(xì)的注釋。41.折疊子(Fold):在兩個(gè)或更多的蛋白質(zhì)中具有相似二級(jí)結(jié)構(gòu)的大區(qū)域,這些大區(qū)域具有特定的空間取向。42.TrEMBL:是與SWISS-PROT相關(guān)的一個(gè)數(shù)據(jù)庫。包含從EMBL核酸數(shù)據(jù)

11、庫中根據(jù)編碼序列(CDS)翻譯而得到的蛋白質(zhì)序列,并且這些序列尚未集成到SWISS-PROT數(shù)據(jù)庫中。43.MMDB(Molecular Modeling Database):是(NCBI)所開發(fā)的生物信息數(shù)據(jù)庫集成系統(tǒng)Entrez的一個(gè)部分,數(shù)據(jù)庫的內(nèi)容包括來自于實(shí)驗(yàn)的生物大分子結(jié)構(gòu)數(shù)據(jù)。與PDB相比,對(duì)于數(shù)據(jù)庫中的每一個(gè)生物大分子結(jié)構(gòu),MMDB具有許多附加的信息,如分子的生物學(xué)功能、產(chǎn)生功能的機(jī)制、分子的進(jìn)化歷史等,還提供生物大分子三維結(jié)構(gòu)模型顯示、結(jié)構(gòu)分析和結(jié)構(gòu)比較工具。44.SCOP數(shù)據(jù)庫:提供關(guān)于已知結(jié)構(gòu)的蛋白質(zhì)之間結(jié)構(gòu)和進(jìn)化關(guān)系的詳細(xì)描述,包括蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB中的所有條目。S

12、COP數(shù)據(jù)庫除了提供蛋白質(zhì)結(jié)構(gòu)和進(jìn)化關(guān)系信息外,對(duì)于每一個(gè)蛋白質(zhì)還包括下述信息:到PDB的連接,序列,參考文獻(xiàn),結(jié)構(gòu)的圖像等??梢园唇Y(jié)構(gòu)和進(jìn)化關(guān)系對(duì)蛋白質(zhì)分類,分類結(jié)果是一個(gè)具有層次結(jié)構(gòu)的樹,其主要的層次依次是類(class)、折疊子(fold)、超家族(super family)、家族(family)、單個(gè)PDB蛋白結(jié)構(gòu)記錄。45.PROSITE:是蛋白質(zhì)家族和結(jié)構(gòu)域數(shù)據(jù)庫,包含具有生物學(xué)意義的位點(diǎn)、模式、可幫助識(shí)別蛋白質(zhì)家族的統(tǒng)計(jì)特征。PROSITE中涉及的序列模式包括酶的催化位點(diǎn)、配體結(jié)合位點(diǎn)、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等;PROSITE還包括

13、根據(jù)多序列比對(duì)而構(gòu)建的序列統(tǒng)計(jì)特征,能更敏感地發(fā)現(xiàn)一個(gè)序列是否具有相應(yīng)的特征。46.Gene Ontology 協(xié)會(huì):編輯一組動(dòng)態(tài)的、可控的基因產(chǎn)物不同方面性質(zhì)的字匯的協(xié)會(huì)。從3個(gè)方面描述基因產(chǎn)物的性質(zhì),即,分子功能,生物過程,細(xì)胞區(qū)室。47.表譜(PSSM):指一張基于多序列比對(duì)的打分表,表示一個(gè)蛋白質(zhì)家族,可以用來搜索序列數(shù)據(jù)庫。48. 蛋白質(zhì)組p179:是指一個(gè)基因組中各個(gè)基因編碼產(chǎn)生的蛋白質(zhì)的總體,即一個(gè)基因組的全部蛋白產(chǎn)物及其表達(dá)情況。49. 中心法則是指遺傳信息從DNA傳遞給RNA,再?gòu)腞NA傳遞給蛋白質(zhì),即完成遺傳信息的轉(zhuǎn)錄和翻譯的過程。也可以從DNA傳遞給DNA,即完成DNA的

14、復(fù)制過程。這是所有有細(xì)胞結(jié)構(gòu)的生物所遵循的法則。50.一級(jí)數(shù)據(jù)庫:數(shù)據(jù)庫中的數(shù)據(jù)直接來源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過簡(jiǎn)單的歸類整理和注釋51.基因芯片(gene chip),又稱DNA微陣列(microarray),是由大量cDNA或寡核苷酸探針密集排列所形成的探針陣列,其工作的基本原理是通過雜交檢測(cè)信息。52.序列比對(duì):為確定兩個(gè)或多個(gè)序列之間的相似性以至于同源性,而將它們按照一定的規(guī)律排列。53.數(shù)據(jù)庫查詢(database query):是指對(duì)序列、結(jié)構(gòu)以及各種二次數(shù)據(jù)中的注釋信息進(jìn)行關(guān)鍵詞匹配查找檢索。54.數(shù)據(jù)庫搜索(database search):在分子生物信息學(xué)中有特定含義,它

15、是指通過特定的序列相似性比對(duì)算法,找出核酸或蛋白質(zhì)序列數(shù)據(jù)庫中與檢測(cè)序列具有一定程度相似性的序列。55.相似性(similarity):數(shù)學(xué)上,相似性指兩個(gè)圖形的形狀完全相似。若存在兩個(gè)點(diǎn)的集,其中一個(gè)能透過放大縮小、平移或旋轉(zhuǎn)等方式變成另一個(gè),就說它們具有相似性。56.同源性:在進(jìn)化上或個(gè)體發(fā)育上的共同來源而呈現(xiàn)的本質(zhì)上的相似性,但其功能不一定相同。57.同一性:是指兩序列在同一位點(diǎn)核苷酸或氨基酸殘基完全相同的序列比例。58.一致序列:在兩個(gè)或多個(gè)同源序列的每一個(gè)位置上多數(shù)出現(xiàn)的核苷酸或氨基酸組成的序列。59. HMM( 隱馬爾可夫模型):是統(tǒng)計(jì)模型,它用來描述一個(gè)含有隱含未知參數(shù)的馬爾可夫

16、過程。其難點(diǎn)是從可觀察的參數(shù)中確定該過程的隱含參數(shù)。然后利用這些參數(shù)來作進(jìn)一步的分析,例如模式識(shí)別。60.簡(jiǎn)約性信息位點(diǎn):指基于DNA或蛋白質(zhì)序列、利用最大簡(jiǎn)約法構(gòu)建系統(tǒng)發(fā)育樹時(shí),在兩個(gè)及以上分類單元(的序列)中存在差異,且其中至少有兩種變異類型在該位點(diǎn)出現(xiàn)兩次及以上,此類位點(diǎn)稱為簡(jiǎn)約性信息位點(diǎn)。61.信息位點(diǎn):由位點(diǎn)產(chǎn)生的突變數(shù)目把其中的一課樹與其他樹區(qū)分開的位點(diǎn)。62.非信息位點(diǎn):對(duì)于最大簡(jiǎn)約法來說沒有意義的點(diǎn)。63.標(biāo)度樹:分支長(zhǎng)度與相鄰節(jié)點(diǎn)對(duì)的差異程度成正比的樹。64.非標(biāo)度樹:只表示親緣關(guān)系無差異程度信息。65.有根樹:?jiǎn)我坏墓?jié)點(diǎn)能指派為共同的祖先,從祖先節(jié)點(diǎn)只有唯一的路徑歷經(jīng)進(jìn)化到

17、達(dá)其他任何節(jié)點(diǎn)。66.無根樹:只表明節(jié)點(diǎn)間的關(guān)系,無進(jìn)化發(fā)生方向的信息,通過引入外群或外部參考種,可以在無根樹中指派根節(jié)點(diǎn)。67.注釋(annotation)對(duì)數(shù)據(jù)庫中原始的DNA堿基序列添加相關(guān)信息(比如編碼的基因,氨基酸序列等)或其他的注解。68.基因組注釋(Genome annotation) 是利用生物信息學(xué)方法和工具,對(duì)基因組所有基因的生物學(xué)功能進(jìn)行高通量注釋,是當(dāng)前功能基因組學(xué)研究的一個(gè)熱點(diǎn)。69.虛擬細(xì)胞:一種建模手段,把細(xì)胞定義為許多結(jié)構(gòu),分子,反應(yīng)和物質(zhì)流的集合體。70.質(zhì)譜(MS)是一種準(zhǔn)確測(cè)定真空中離子的分子質(zhì)量/電荷比(m/z)的方法,從而使分子質(zhì)量的準(zhǔn)確確定成為可能。

18、71.分子途徑是指一組連續(xù)起作用以達(dá)到共同目標(biāo)的蛋白質(zhì)。72.先導(dǎo)化合物:是指具有一定藥理活性的、可通過結(jié)構(gòu)改造來優(yōu)化其藥理特性而可能導(dǎo)致藥物發(fā)現(xiàn)的特殊化合物。73.權(quán)重矩陣(序列輪廓):它們表示完全結(jié)構(gòu)域序列,多序列聯(lián)配中每個(gè)位點(diǎn)的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法(課件定義)。74.系統(tǒng)發(fā)育學(xué)(phylogenetic):確定生物體間進(jìn)化關(guān)系的科學(xué)分支。75.系統(tǒng)生物學(xué)(systems biology):是研究一個(gè)生物系統(tǒng)中所有組分成分(基因、mRNA、蛋白質(zhì)等)的構(gòu)成以及在特定條件下這些組分間的相互關(guān)系,并分析生物系統(tǒng)在一定時(shí)間內(nèi)的動(dòng)力學(xué)過程。76.蛋白質(zhì)組

19、(proteome):是指一個(gè)基因組、一種生物或一個(gè)細(xì)胞/組織的基因組所表達(dá)的全套蛋白質(zhì)。77. ESI電噴霧離子化:一種適合大分子如蛋白質(zhì)離子化沒有明顯降解的質(zhì)譜技術(shù)。78. 微陣列芯片:是指采用光導(dǎo)原位合成或微量點(diǎn)樣等方法,將大量生物大分子比如核酸片段、多肽分子甚至組織切片、細(xì)胞等生物樣品有序地固化于支持物(如玻片、尼龍膜等載體)的表面,組成密集二維分子排列,然后與已標(biāo)記的待測(cè)生物樣品中靶分子反應(yīng),通過特定的儀器,比如激光共聚焦掃描儀或電荷偶聯(lián)攝影像機(jī)對(duì)反應(yīng)信號(hào)的強(qiáng)度進(jìn)行快速、并行、高效地檢測(cè)分析,從而判斷樣品中靶分子的數(shù)量。79.有監(jiān)督分析法:這種方法引入某些形式的分類系統(tǒng),從而將表達(dá)模

20、式分配到一個(gè)或多個(gè)預(yù)定義的類目中。80.聚類分析:指將物理或抽象對(duì)象的集合分組為由類似的對(duì)象組成的多個(gè)類的分析過程。81.虛擬消化:針對(duì)重要疾病特定靶標(biāo)生物大分子的三維結(jié)構(gòu)或定量構(gòu)效關(guān)系(Quantitative structure-activity relationships,QSAR)模型,從現(xiàn)有小分子數(shù)據(jù)庫中,搜尋與靶標(biāo)生物大分子結(jié)合或符合QSAR模型的化合物,進(jìn)行篩選實(shí)驗(yàn)研究。82.無監(jiān)督分析法:這種方法沒有內(nèi)建的分類標(biāo)準(zhǔn),組的數(shù)目和類型只決定于所使用的算法和數(shù)據(jù)本身的分析方法。83. GenBank:是美國(guó)國(guó)家生物技術(shù)信息中心(National Center for Biotechn

21、ology Information ,NCBI)建立的DNA序列數(shù)據(jù)庫,從公共資源中獲取序列數(shù)據(jù),主要是科研人員直接提供或來源于大規(guī)模基因組測(cè)序計(jì)劃( Benson等, 1998)。84. EMBL:(歐洲分子生物學(xué)實(shí)驗(yàn)室)(The European Molecular Biology Laboratory),于1974年由歐洲14個(gè)國(guó)家加上亞洲的以色列共同發(fā)起建立,包括一個(gè)位于德國(guó)Heidelberg的核心實(shí)驗(yàn)室,及三個(gè)位于德國(guó)Hamburg,法國(guó)Grenoble及英國(guó)Hinxton的研究分部。85. DDBJ:(DNA Data Bank of Japan),于1984年建立,是世界三大D

22、NA 數(shù)據(jù)庫之一,與NCBI的GenBank,EMBL的EBI數(shù)據(jù)庫共同組成國(guó)際DNA數(shù)據(jù)庫,每日都 交換更新數(shù)據(jù)和信息,并主持兩個(gè)國(guó)際年會(huì)國(guó)際DNA數(shù)據(jù)庫咨詢會(huì)議和國(guó)際DNA數(shù)據(jù) 庫協(xié)作會(huì)議,互相交換信息,因此三個(gè)庫的數(shù)據(jù)實(shí)際上是相同的。86. BLAST:是英語Bell Labs Layered Space-Time 的縮寫,是一項(xiàng)新的通信技術(shù),它采用多天線系統(tǒng)利用多徑傳播效應(yīng)以達(dá)到提高頻譜利用率的目的。87.BLASTn:是核酸序列到核酸庫中的一種查詢。庫中存在的每條已知序列都將同所查序列作一對(duì)一地核酸序列比對(duì)。88.BLASTp:是蛋白序列到蛋白庫中的一種查詢。庫中存在的每條已知序列將

23、逐一地同每條所查序列作一對(duì)一的序列比對(duì)。88.Clustsl X:是一種利用漸近法(progressive alignment)進(jìn)行多條序列比對(duì)的軟件。即從多條序列中最相似(距離最近)的兩條序列開始比對(duì),按照各個(gè)序列在進(jìn)化樹上的位置,由近及遠(yuǎn)的將其它序列依次加入到最終的比對(duì)結(jié)果。89. Entrez:是美國(guó)國(guó)家生物技術(shù)信息中心所提供的在線資源檢索器。該資源將GenBank序列與其原始文獻(xiàn)出處鏈接在一起。 Entrez 是由NCBI主持的一個(gè)數(shù)據(jù)庫檢索系統(tǒng)。 90.Medline文摘數(shù)據(jù)庫:是美國(guó)國(guó)立醫(yī)學(xué)圖書館(The National Library of Medicine, 簡(jiǎn)稱NLM)生產(chǎn)

24、的國(guó)際性綜合生物醫(yī)學(xué)信息書目數(shù)據(jù)庫,是當(dāng)前國(guó)際上最權(quán)威的生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫。91. SRS(sequence retrieval system): 是歐洲生物信息研究所開發(fā)的SRS(Sequence Retrieval System)是以WWW界面運(yùn)行的數(shù)據(jù)庫檢索系統(tǒng),其主要功能是將所有數(shù)據(jù)庫建立參照(cross-references)索引,用戶可通過輸入查詢代碼、編號(hào)、物種來源、說明、文獻(xiàn)、作者、日期、關(guān)鍵詞等信息對(duì)所有已建立索引的數(shù)據(jù)庫進(jìn)行檢索,從而得到用戶所需的序列或相關(guān)內(nèi)容。92. SWLSSMODEL:是一個(gè)自動(dòng)化的蛋白質(zhì)比較建模服務(wù)器。93.homology modeling:對(duì)于

25、一個(gè)未知結(jié)構(gòu)的蛋白質(zhì),找到一個(gè)已知結(jié)構(gòu)的同源蛋白質(zhì),以該蛋白質(zhì)的結(jié)構(gòu)為模板,為未知結(jié)構(gòu)的蛋白質(zhì)建立結(jié)構(gòu)模型。94.Ab initio prediction:僅根據(jù)序列本身來預(yù)測(cè)其結(jié)構(gòu)95. molecular phylogenetic tree:又名分子進(jìn)化樹,是生物信息學(xué)中描述不同生物之間的相關(guān)關(guān)系的方法。通過系統(tǒng)學(xué)分類分析可以幫助人們了解所有生物的進(jìn)化歷史過程。96. gene tree(基因樹):是指基于單個(gè)同源基因差異構(gòu)建的系統(tǒng)發(fā)生樹。 96. neighborjoining method:是一種不僅僅計(jì)算兩兩比對(duì)距離,還對(duì)整個(gè)樹的長(zhǎng)度進(jìn)行最小化,從而對(duì)樹的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制,能夠克服U

26、PGMA算法要求進(jìn)化速率保持恒定的缺陷。97. maximum parsimony method:在一系列能夠解釋序列差異的的進(jìn)化樹中找到具有最少核酸或氨基酸替換的進(jìn)化樹。98. MEGA(Molecular Evolutionary Genetics Analysis):is an integrated tool for automatic and manual sequence alignment, inferring phylogenetic trees, mining web-based databases, estimating rates of molecular evolutio

27、n, and testing evolutionary hypotheses.99. BioEdit:是一個(gè)序列編輯器與分析工具軟件。功能包括:序列編輯、外掛分析程序、RNA分析、尋找特征序列、支持超過20000個(gè)序列的多序列文件、基本序列處理功能、質(zhì)粒圖繪制等等。100. EST:(Expressed Sequence Tag)表達(dá)序列標(biāo)簽是從一個(gè)隨機(jī)選擇的cDNA 克隆,進(jìn)行5端和3端單一次測(cè)序挑選出來獲得的短的cDNA 部分序列。 101. GSS:基因組勘測(cè)序列,是基因組DNA克隆的一次性部分測(cè)序得到的序列。包括隨機(jī)的基因組勘測(cè)序列、cosmid/BAC/YAC末端序列、通過Exon

28、trapped獲得基因組序列、通過Alu PCR獲得的序列、以及轉(zhuǎn)座子標(biāo)記序列等。 102. ORF:是基因序列的一部分,包含一段可以編碼蛋白的堿基序列,不能被終止子打斷。(P86,指從5端開始翻譯起始密碼子到終止密碼子的蛋白質(zhì)編碼堿基序列。)103. promoter(啟動(dòng)子):是基因(gene)的一個(gè)組成部分,控制基因表達(dá)(轉(zhuǎn)錄)的起始時(shí)間和表達(dá)的程度。104. 3UTR: 3非翻譯區(qū)的縮寫,真核生物的轉(zhuǎn)錄終止信號(hào)是在 3非翻譯區(qū)的 : polyA。105. CpG island: CpG雙核苷酸在人類基因組中的分布很不均一,而在基因組的某些區(qū)段,CpG保持或高于正常概率。106. coi

29、led coil:卷曲螺旋,是蛋白質(zhì)中由27條螺旋鏈相互纏繞形成類似麻花狀結(jié)構(gòu)的總稱。卷曲螺旋是控制蛋白質(zhì)寡聚化的元件,在機(jī)體內(nèi)執(zhí)行著分子識(shí)別、代謝調(diào)控、細(xì)胞分化、肌肉收縮、膜通道等生物學(xué)功能。 107. heptad repeat:七肽重復(fù)區(qū)是典型的卷曲螺旋結(jié)構(gòu)類型之一,由多個(gè)七肽單元連接而成的重復(fù)序列。108. structure domain: 結(jié)構(gòu)域,是在蛋白質(zhì)三級(jí)結(jié)構(gòu)中介于二級(jí)和三級(jí)結(jié)構(gòu)之間的可以明顯區(qū)分但又相對(duì)獨(dú)立的折疊單元,每個(gè)結(jié)構(gòu)域自身形成緊實(shí)的三維結(jié)構(gòu),可以獨(dú)立存在或折疊,但結(jié)構(gòu)域與結(jié)構(gòu)域之間關(guān)系較為松散。109. motif: 蛋白質(zhì)序列中較短的保守區(qū)域,通常為按一定的模式

30、排列的氨基酸殘基也稱為指紋(figureprint)。110. linux operating system:linux 操作系統(tǒng),Linux 是一類 Unix 計(jì) 算機(jī)操作系統(tǒng)的統(tǒng)稱。Linux 操作系統(tǒng)也是自由軟件和開放源 代碼發(fā)展中最著名的例子。 111. BioPerl: an international association of users & developers of open source Perl tools for bioinformatics, genomics and life science 112. PubMed: 是一個(gè)免費(fèi)的生物醫(yī)學(xué)文摘數(shù)據(jù)庫,提供部分論文的

31、摘要及指向全文的鏈接。作為 Entrez 資訊檢索系統(tǒng)的一部分。113. HGP(human genome project):是一項(xiàng)規(guī)模宏大,跨國(guó)跨學(xué)科的科學(xué)探索工程。114. ncRNA:非編碼RNA(Non-coding RNA)是指不編碼蛋白質(zhì)的RNA。 115. miRNA:是一類由內(nèi)源基因編碼的長(zhǎng)度約為22 個(gè)核苷酸的非編碼單鏈RNA 分子,它們?cè)趧?dòng)植物中參與轉(zhuǎn)錄后基因表達(dá)調(diào)控。填空題1. 常用的三種序列格式:NBRF/PIR,FASTA和GDE2. 初級(jí)序列數(shù)據(jù)庫:GenBank,EMBL和DDBJ3. 蛋白質(zhì)序列數(shù)據(jù)庫:SWISS-PROT和TrEMBL4. 提供蛋白質(zhì)功能注釋信

32、息的數(shù)據(jù)庫:KEGG(京都基因和基因組百科全書)和PIR(蛋白質(zhì)信息資源)5. 目前由NCBI維護(hù)的大型文獻(xiàn)資源是PubMed6. 數(shù)據(jù)庫常用的數(shù)據(jù)檢索工具:Entrez,SRS,DBGET7. 常用的序列搜索方法:FASTA和BLAST8. 高分值局部聯(lián)配的BLAST參數(shù)是HSPs(高分值片段對(duì)),E(期望值)9. 多序列聯(lián)配的常用軟件:Clustal10. 蛋白質(zhì)結(jié)構(gòu)域家族的數(shù)據(jù)庫有:Pfam,SMART11. 系統(tǒng)發(fā)育學(xué)的研究方法有:表現(xiàn)型分類法,遺傳分類法和進(jìn)化分類法12. 系統(tǒng)發(fā)育樹的構(gòu)建方法: 距離矩陣法,最大簡(jiǎn)約法和最大似然法13. 常用系統(tǒng)發(fā)育分析軟件:PHYLIP14. 檢測(cè)

33、系統(tǒng)發(fā)育樹可靠性的技術(shù):bootstrapping和Jack-knifing15. 原核生物和真核生物基因組中的注釋所涉及的問題是不同的16. 檢測(cè)原核生物ORF的程序:NCBI ORF finder17. 測(cè)試基因預(yù)測(cè)程序正確預(yù)測(cè)基因的能力的項(xiàng)目是GASP(基因預(yù)測(cè)評(píng)估項(xiàng)目)18. 二級(jí)結(jié)構(gòu)的三種狀態(tài):螺旋,折疊和轉(zhuǎn)角19. 用于蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的基本神經(jīng)網(wǎng)絡(luò)模型為三層的前饋網(wǎng)絡(luò),包括輸入層,隱含層和輸出層20. 通過比較建模預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的軟件有SWISS-PDBVIEWER(SWISSMODEL網(wǎng)站)21. 蛋白質(zhì)質(zhì)譜數(shù)據(jù)搜索工具:SEQUEST22. 分子途徑最廣泛數(shù)據(jù)庫:KEGG2

34、3. 聚類分析方法,分為有監(jiān)督學(xué)習(xí)方法,無監(jiān)督學(xué)習(xí)方法24.識(shí)別基因主要有兩個(gè)途徑即基因組DNA外顯子識(shí)別和基于EST策略的基因鑒定。25.表達(dá)序列標(biāo)簽是從 mRNA 中生成的一些很短的序列(300-500bp),它們代表在特定組織或發(fā)育階段表達(dá)的基因。26.序列比對(duì)的基本思想,是找出 檢測(cè)基因 和 目標(biāo)序列 的相似性,就是通過在序列中插入 空位 的方法使所比較的序列長(zhǎng)度達(dá)到一致。比對(duì)的數(shù)學(xué)模型大體分為兩類,分別是整體比對(duì) 和 局部比對(duì) 。27.2-DE的基本原理是根據(jù)蛋白質(zhì) 等電點(diǎn) 和 分子量 不同,進(jìn)行兩次電泳將之分離。第一向是 等電聚焦分離 ,第二向是 SDS-PAGE分離 。 28.蛋

35、白質(zhì)組研究的三大關(guān)鍵核心技術(shù)是 雙向凝膠電泳技術(shù) 、 質(zhì)譜鑒定技術(shù) 、 計(jì)算機(jī)圖像數(shù)據(jù)處理與蛋白質(zhì)數(shù)據(jù)庫 。判斷題1、生物體的結(jié)構(gòu)和功能越復(fù)雜的種類就越多,所需要的基因也越多,C值越大,這是真核生物基因組的特點(diǎn)之一。(對(duì))2、CDS一定就是ORF。(對(duì))3、兩者之間有沒有共同的祖先,可以通過序列的同源性來確定,如果兩個(gè)基因或蛋白質(zhì)有著幾乎一樣的序列,那么它們高度同源,就具有共同的祖先。(錯(cuò))4、STS,是一段200-300bp的特定DNA序列,它的序列已知,并且在基因組中屬于單拷貝。(對(duì))5、非編碼DNA是“垃圾DNA”,不具有任何的分析價(jià)值,對(duì)于細(xì)胞沒有多大的作用。(錯(cuò))6、基因樹和物種樹同

36、屬于系統(tǒng)樹,它們之間可以等同。(錯(cuò))7、基因的編碼序列在DNA分子上是被不編碼的序列隔開而不連續(xù)排列的。(對(duì))8、對(duì)任意一個(gè)DNA序列,在不知道哪一個(gè)堿基代表CDS的起始時(shí),可用6框翻譯法,獲得6個(gè)潛在的蛋白質(zhì)序列。(對(duì))9、 一個(gè)機(jī)體只有一個(gè)確定的基因組,但基因組內(nèi)各個(gè)基因表達(dá)的條件和表達(dá)的程度隨時(shí)間、空間和環(huán)境條件而不同。(對(duì))10、外顯子和內(nèi)含子之間沒有絕對(duì)的區(qū)分,一個(gè)基因的內(nèi)含子可以是另一個(gè)基因的外顯子,同一個(gè)基因在不同的生理狀況或生長(zhǎng)發(fā)育的不同階段,外顯子組成也可以不同。(對(duì))11、比較是科學(xué)研究中最常見的方法,在生物信息學(xué)研究中,比對(duì)是最常用和最經(jīng)典的研究方法。(對(duì))12、ORF一

37、定就是CDS。(錯(cuò))13、用不同的方法可以構(gòu)建不同的系統(tǒng)發(fā)育樹,為保證分析結(jié)果的可靠性,需要對(duì)進(jìn)化樹進(jìn)行評(píng)估。(對(duì))14、相似性是一種很直接的數(shù)量關(guān)系,無需實(shí)驗(yàn)驗(yàn)證。(錯(cuò))15、基因樹和物種樹同屬于系統(tǒng)樹,它們之間可以等同。(錯(cuò))16、蛋白質(zhì)和DNA的同源性常常通過它們序列的相似性來判定,如果兩個(gè)基因或蛋白質(zhì)有著幾乎一樣的序列,具有高度的相似性,那么它們一定是同源。(錯(cuò))17、所謂局部比對(duì)是找出兩個(gè)被比較序列的最類似片段。(對(duì))不定項(xiàng)選擇題1、( ABC )是現(xiàn)在國(guó)際上最主要的三大核酸序列數(shù)據(jù)庫A. EMBL B. DDBJ C. GenBank D. NCBI E. EBI2、RFLP是DN

38、A多態(tài)性中最多見的一種,它產(chǎn)生的機(jī)制包括( ABE )A.DNA分子產(chǎn)生突變,使某些酶切位點(diǎn)數(shù)增加B. DNA分子產(chǎn)生突變,使某些酶切位點(diǎn)數(shù)減少C. 限制性酶切位點(diǎn)之間重復(fù)序列數(shù)目變異D. 限制性酶星活性E. 限制性酶切位點(diǎn)前后的DNA片斷發(fā)生插入或刪除3、下面序列哪些為反向重復(fù)序列 ( BD )A. GCACTTGGCACTTG B. GCACTTGCAAGTGC CGTGAACCGTGAAC CGTGAACGTTCACGC. GCACTTGCAAGTGC D. GCACTAGCTAGCGGCGTGAACGTTCACG CGTGATCGATCGCC4、分析EST序列時(shí)首要注意以下幾點(diǎn)( AC

39、DE )A.EST序列中除了AGTC外,可能出現(xiàn)未知堿基B.EST只是單次測(cè)序,得出的結(jié)果沒有可信度C.EST序列中可能出現(xiàn)錯(cuò)誤的插入和缺失,導(dǎo)致讀碼框移位D.某個(gè)EST序列是數(shù)據(jù)庫中另一序列的一個(gè)片段E.某個(gè)EST序列不在基因的編碼區(qū)內(nèi)5、人類基因組計(jì)劃要完成的幾張圖譜分別是(ABCE )A. 物理圖譜 B. 遺傳圖譜 C. 序列圖譜 D. 生物圖譜 E. 基因圖譜6、最常用的序列相似性查詢工具是( AB )A.FASTA B.BLAST C.SWISS-PROT D.PDB E.PIR7、下列哪些分子類型屬于非蛋白質(zhì)編碼區(qū)(ABCDE )A.內(nèi)含子 B.衛(wèi)星DNA C.偽基因 D.啟動(dòng)子

40、E.增強(qiáng)子8、衛(wèi)星DNA的多態(tài)性是由( D )所決定的。A. DNA點(diǎn)突變個(gè)數(shù)B. 限制性內(nèi)切酶識(shí)別序列個(gè)數(shù)不同C. DNA的二級(jí)結(jié)構(gòu)不同D. 重復(fù)單位不同E重復(fù)次數(shù)不同9、真核基因組特點(diǎn)包括( ABCDE )A. 基因組大,巨大的非編碼序列,重復(fù)序列占了絕大部分B. 基因結(jié)構(gòu)復(fù)雜,無顯著長(zhǎng)度的開放閱讀框C. 存在可變剪接 D. CpG島 E. 等值區(qū)10、20世紀(jì)三大著名計(jì)劃包括( ACE )A.阿波羅登月計(jì)劃 B.衛(wèi)星計(jì)劃 C.HGP D.腫瘤計(jì)劃 E.曼哈頓原子彈計(jì)劃簡(jiǎn)答題1.BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么?答:b

41、lastn是將給定的核酸序列與核酸數(shù)據(jù)庫中的序列進(jìn)行比較;Blastp是使用蛋白質(zhì)序列與蛋白質(zhì)數(shù)據(jù)庫中的序列進(jìn)行比較,可以尋找較遠(yuǎn)的關(guān)系;Blastx將給定的核酸序列按照六種閱讀框架將其翻譯成蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫中的序列進(jìn)行比對(duì),對(duì)分析新序列和EST很有用;Tblastn將給定的氨基酸序列與核酸數(shù)據(jù)庫中的序列(雙鏈)按不同的閱讀框進(jìn)行比對(duì),對(duì)于尋找數(shù)據(jù)庫中序列沒有標(biāo)注的新編碼區(qū)很有用;Tblastx只在特殊情況下使用,它將DNA被檢索的序列和核酸序列數(shù)據(jù)庫中的序列按不同的閱讀框全部翻譯成蛋白質(zhì)序列,然后進(jìn)行蛋白質(zhì)序列比對(duì)。P972. 序列的相似性與同源性有什么區(qū)別與聯(lián)系?答:相似性是指序列之間

42、相關(guān)的一種量度,兩序列的的相似性可以基于序列的一致性的百分比;而同源性是指序列所代表的物種具有共同的祖先,強(qiáng)調(diào)進(jìn)化上的親緣關(guān)系。P1473. 美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)的主要工作是什么?請(qǐng)列舉3個(gè)以上Entrez系統(tǒng)可以檢索的數(shù)據(jù)庫。(NCBI維護(hù)的數(shù)據(jù)庫)NCBI的主要工作是在分子水平上應(yīng)用數(shù)學(xué)和計(jì)算機(jī)科學(xué)的方法研究基礎(chǔ)生物,醫(yī)學(xué)問題。為科學(xué)界開發(fā),維護(hù)和分享一系列的生物信息數(shù)據(jù)庫;開發(fā)和促進(jìn)生物信息學(xué)數(shù)據(jù)庫,數(shù)據(jù)的儲(chǔ)存,交換以及生物學(xué)命名規(guī)則的標(biāo)準(zhǔn)化。維護(hù)的主要數(shù)據(jù)庫包括答:PubMed、核酸序列數(shù)據(jù)庫GenBank、PROW、三維蛋白質(zhì)結(jié)構(gòu)分子模型數(shù)據(jù)庫MMDB。4.簡(jiǎn)述BLA

43、ST搜索的算法思想。答:BLAST是一種局部最優(yōu)比對(duì)搜索算法,將所查詢的序列打斷成許多小序列片段,然后小序列逐步與數(shù)據(jù)庫中的序列進(jìn)行比對(duì),這些小片段被叫做字”word”;當(dāng)一定長(zhǎng)度的的字(W)與檢索序列的比對(duì)達(dá)到一個(gè)指定的最低分(T)后,初始比對(duì)就結(jié)束了;一個(gè)序列的匹配度由各部分匹配分?jǐn)?shù)的總和決定,獲得高分的序列叫做高分匹配片段(HSP),程序?qū)⒆詈玫腍SP雙向擴(kuò)展進(jìn)行比對(duì),直到序列結(jié)束或者不再具有生物學(xué)顯著性,最后所得到的 序列是那些在整體上具有最高分的序列,即,最高分匹配片段(MSP),這樣,BLAST既保持了整體的運(yùn)算速度,也維持了比對(duì)的精度。P955. 什么是物種的標(biāo)記序列?答:指物種

44、特有的一段核苷酸序列??梢酝ㄟ^相似性查詢,得到某一序列在數(shù)據(jù)庫中的某一物種中反復(fù)出現(xiàn),且在其他物種中沒有的明顯相似的序列。6. 什么是多序列比對(duì)的累進(jìn)算法?(三個(gè)步驟)答:第一,所有的序列之間逐一比對(duì)(雙重比對(duì));第二,生成一個(gè)系統(tǒng)樹圖,將序列按相似性大致分組;第三,使用系統(tǒng)樹圖作為引導(dǎo),產(chǎn)生出最終的多序列比對(duì)結(jié)果。P527. 簡(jiǎn)述構(gòu)建進(jìn)化樹的步驟,每一步列舉1-2種使用的軟件或統(tǒng)計(jì)學(xué)方法。答:(1)多序列比對(duì):Clustal W (2)校對(duì)比對(duì)結(jié)果:BIOEDIT(3)建樹:MEGA(4)評(píng)估系統(tǒng)發(fā)育信號(hào)和進(jìn)化樹的牢固度:自舉法(Bootstrap)8. 簡(jiǎn)述除權(quán)配對(duì)法(UPGMA)的算法思

45、想。答:通過兩兩比對(duì)聚類的方法進(jìn)行,在開始時(shí),每個(gè)序列分為一類,分別作為一個(gè)樹枝的生長(zhǎng)點(diǎn),然后將最近的兩序列合并,從而定義出一個(gè)節(jié)點(diǎn),將這個(gè)過程不斷的重復(fù),直到所有的序列都被加入,最后得到一棵進(jìn)化樹。9. 簡(jiǎn)述鄰接法(NJ)構(gòu)樹的算法思想。答:鄰接法的思想不僅僅計(jì)算最小兩兩比對(duì)距離,還對(duì)整個(gè)樹的長(zhǎng)度進(jìn)行最小化,從而對(duì)樹的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制。這種算法由一棵星狀樹開始,所有的物種都從一個(gè)中心節(jié)點(diǎn)出發(fā),然后通過計(jì)算最小分支長(zhǎng)度的和相繼尋找到近鄰的兩個(gè)序列,每一輪過程中考慮所有可能的序列對(duì),把能使樹的整個(gè)分支長(zhǎng)度最小的序列對(duì)一組,從而產(chǎn)生新的距離矩陣,直到尋找所有的近鄰序列。P11710. 簡(jiǎn)述最大簡(jiǎn)約

46、法(MP)的算法思想。P68答:是一種基于離散特征的進(jìn)化樹算法。生物演化應(yīng)該遵循簡(jiǎn)約性原則,所需變異次數(shù)最少(演化步數(shù)最少)的演化樹可能為最符合自然情況的系統(tǒng)樹。在具體的操作中,分為非加權(quán)最大簡(jiǎn)約分析(或稱為同等加權(quán))和加權(quán)最大簡(jiǎn)約分析,后者是根據(jù)性狀本身的演化規(guī)律(比如DNA不同位點(diǎn)進(jìn)化速率不同)而對(duì)其進(jìn)行不同的加權(quán)處理。P12011. 簡(jiǎn)述最大似然法(ML)的算法思想。P69答:是一種基于離散特征的進(jìn)化樹算法。該法首先選擇一個(gè)合適的進(jìn)化模型,然后對(duì)所有可能的進(jìn)化樹進(jìn)行評(píng)估,通過對(duì)每個(gè)進(jìn)化位點(diǎn)的替代分配一個(gè)概率,最后找出概率最大的進(jìn)化樹。P12212. UPGMA構(gòu)樹法不精確的原因是什么?P

47、69答:由個(gè)于UPGMA假設(shè)在進(jìn)化過程中所有核苷酸/氨基酸都有相同的變異率,也就是存在著一個(gè)分子鐘;這種算法當(dāng)所構(gòu)建的進(jìn)化樹的序列進(jìn)化速率明顯不一致時(shí),得到的進(jìn)化樹相對(duì)來說不準(zhǔn)確的。13. 在MEGA2軟件中,提供了哪些堿基替換距離模型,試列舉其中3種,解釋其含義。答:堿基替換模型包括,No.of differences 、p-distance、Jukes-Cantor distance、T ajima-Nei distance、Kimur 2-parameter distance、Tamura 3-parameter distance、Tamura-Nei distancep-distanc

48、e: 表示有差異的核苷酸位點(diǎn)在序列中所占比例,將有差異的核苷酸位點(diǎn)數(shù)除已經(jīng)比對(duì)的總位點(diǎn)數(shù)就可以得到Jukes-Cantor:模型假設(shè) A T C G 的替換速率是一致的,然后給出兩個(gè)序列核苷酸替換數(shù)的最大似然估計(jì)Kimura 2-parameter:模型考慮到了轉(zhuǎn)換很顛換隊(duì)多重?fù)糁械挠绊?,但假設(shè)整個(gè)序列中4鐘核苷酸的頻率是相同哈德在不同位點(diǎn)上的堿基替換頻率是相同的。14. 試述DNA序列分析的流程及代表性分析工具。(1)尋找重復(fù)元件:RepeatMasker(2)同源性檢索確定是否存在已知基因:BLASTn(3)從頭開始方法預(yù)測(cè)基因:Genscan(4)分析各種調(diào)控序列:TRES/DRAGON

49、 PROMOTOR FINDER(5) CpG島:CpGPlot 代表性工具:ORF Finder、BLASTn、tBLASTx、BLASTx、Gene Wise15. 如何用BLAST發(fā)現(xiàn)新基因?;答:從一個(gè)一直蛋白質(zhì)序列開始,通過tBLASTn工具搜索一個(gè)DNA數(shù)據(jù)庫,可以找到相應(yīng)的匹配,如與DNA編碼的已知蛋白質(zhì)的匹配或者與DNA編碼的相關(guān)蛋白質(zhì)的匹配。然后通過BLASTx或BLASTp在蛋白質(zhì)數(shù)據(jù)庫中搜索DNA或蛋白質(zhì)序列來“確定”一個(gè)新基因。16.試述SCOP蛋白質(zhì)分類方案;答:SCOP將PDB數(shù)據(jù)庫中的蛋白質(zhì)按傳統(tǒng)分類方法分成型、型、/型、+型,并將多結(jié)構(gòu)域蛋白、膜蛋白和細(xì)胞表面蛋

50、白、N蛋白單獨(dú)分類,一共分成7種類型,并在此基礎(chǔ)上,按折疊類型、超家族、家族三個(gè)層次逐級(jí)分類。對(duì)于具有不同種屬來源的同源蛋白家族,SCOP數(shù)據(jù)庫按照種屬名稱將它們分成若干子類,一直到蛋白質(zhì)分子的亞基。17. 試述SWISS-PROT中的數(shù)據(jù)來源。答:(1)從核酸數(shù)據(jù)庫經(jīng)過翻譯推導(dǎo)而來;(2)從蛋白質(zhì)數(shù)據(jù)庫PIR挑選出合適的數(shù)據(jù);(3)從科學(xué)文獻(xiàn)中摘錄;(4)研究人員直接提交的蛋白質(zhì)序列數(shù)據(jù)。18.TrEMBL哪兩個(gè)部分?答:(1)SP-TrEMBL(SWISS-PROT TrEMBL):包含最終將要集成到SWISS-PROT的數(shù)據(jù),所有的SP-TrEMBL序列都已被賦予SWISS-PROT的登

51、錄號(hào)。(2)REM-TrEMBL(REMaining TrEMBL):包括所有不準(zhǔn)備放入SWISS-PROT的數(shù)據(jù),因此這部分?jǐn)?shù)據(jù)都沒有登錄號(hào)。19. 試述PSI-BLAST 搜索的5個(gè)步驟。答:1 選擇待查序列(query)和蛋白質(zhì)數(shù)據(jù)庫;2 PSI-BLAST 構(gòu)建一個(gè)多序列比對(duì),然后創(chuàng)建一個(gè)序列表譜(profile)又稱特定位置打分矩陣(PSSM);3 PSSM被用作 query搜索數(shù)據(jù)庫4 PSI-BLAST 估計(jì)統(tǒng)計(jì)學(xué)意義 (E values)5 重復(fù) 3 和 4 , 直到?jīng)]有新的序列發(fā)現(xiàn)。20. 生物信息學(xué)數(shù)據(jù)庫的組成包括哪些部分?數(shù)據(jù)庫有哪些類型? 答案:生物信息學(xué)數(shù)據(jù)庫的組成包

52、括一級(jí)數(shù)據(jù)庫和二級(jí)數(shù)據(jù)庫。數(shù)據(jù)庫的類型包括核算和蛋白質(zhì)一級(jí)結(jié)構(gòu)序列數(shù)據(jù)庫、基因組數(shù)據(jù)庫、生物大分子三維空間結(jié)構(gòu)數(shù)據(jù)庫、以上述3類數(shù)據(jù)庫和文獻(xiàn)資料為基礎(chǔ)構(gòu)建的二次數(shù)據(jù)庫。21. 簡(jiǎn)要介紹 GenBank中的DNA序列格式。答案:GenBank中的DNA序列格式可以分成三個(gè)部分,第一部分為描述符,從第一行LOCUS行到ORIGIN行,包含了關(guān)于整個(gè)記錄的信息;第二部分為特性表,從FEATURES行開始,包含了注釋這一紀(jì)錄的特性,是條目的核心,中間使用一批關(guān)鍵字;第三部分是核苷酸序列的本身。22. 生物信息學(xué)的目標(biāo)和任務(wù)?答案:收集和管理生物分子數(shù)據(jù);數(shù)據(jù)分析和挖掘;開發(fā)分析工具和實(shí)用軟件:生物分子

53、序列比較工具、基因識(shí)別工具、生物分子結(jié)構(gòu)預(yù)測(cè)工具、基因表達(dá)數(shù)據(jù)分析工具。23.生物信息學(xué)主要研究?jī)?nèi)容。答案(1)生物分子數(shù)據(jù)的收集與管理;(2)數(shù)據(jù)庫搜索及序列比較 ;(3)基因組序列分析;(4)基因表達(dá)數(shù)據(jù)的分析與處理 ;(5)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。24. 為什么要構(gòu)建生物分子數(shù)據(jù)庫。答案:(1)生物分子數(shù)據(jù)高速增長(zhǎng) (2)分子生物學(xué)及相關(guān)領(lǐng)域研究人員迅速獲得最新實(shí)驗(yàn)數(shù)據(jù)。25. 預(yù)測(cè)基因的一般步驟是什么? 答案:獲取DNA目標(biāo)序列查找ORF并將目標(biāo)序列翻譯成蛋白質(zhì)序列,利用相應(yīng)工具查找ORF并將DNA序列翻譯成蛋白質(zhì)序列在數(shù)據(jù)庫中進(jìn)行序列搜索,利用BLAST進(jìn)行ORF核苷酸序列和ORF翻譯的蛋白

54、質(zhì)序列搜索進(jìn)行目標(biāo)序列與搜索得到的相似序列的全局對(duì)比查找基因家族進(jìn)行多序列比對(duì),獲得比對(duì)區(qū)段的基因家族信息查找目標(biāo)序列中的特定模序,分別在Prosite、BLOCK、Motif數(shù)據(jù)庫中進(jìn)行profile、模塊(block)、模序(motif)檢索預(yù)測(cè)目標(biāo)序列蛋白質(zhì)結(jié)構(gòu),利用PredictProtein(EMBL)、NNPREDICT等預(yù)測(cè)目標(biāo)序列的蛋白質(zhì)二級(jí)結(jié)構(gòu)。26. 生物信息學(xué)所用的方法和技術(shù)。答案(1)數(shù)學(xué)統(tǒng)計(jì)方法;(2)動(dòng)態(tài)規(guī)劃方法 ;(3)機(jī)器學(xué)習(xí)與模式識(shí)別技術(shù) ;(4)數(shù)據(jù)庫技術(shù)及數(shù)據(jù)挖掘 ;(5)人工神經(jīng)網(wǎng)絡(luò)技術(shù);(6)專家系統(tǒng) ;(7)分子模型化技術(shù);(8)量子力學(xué)和分子力學(xué)計(jì)

55、算 ;(9)生物分子的計(jì)算機(jī)模擬;(10)因特網(wǎng)(Internet)技術(shù)。27. 國(guó)際上權(quán)威的核酸序列數(shù)據(jù)庫有那些?答案(1)歐洲分子生物學(xué)實(shí)驗(yàn)室的EMBL 。(2)美國(guó)生物技術(shù)信息中心的GenBank。(3)日本遺傳研究所的DDBJ。28. 生物信息學(xué)在基因芯片中的應(yīng)用有哪些?答案:(1)確定芯片檢測(cè)目標(biāo)。(2)芯片設(shè)計(jì)。(3)實(shí)驗(yàn)數(shù)據(jù)管理與分析。29. 生物信息學(xué)分析的數(shù)據(jù)對(duì)象主要有哪幾種?這些數(shù)據(jù)之間存在著什么關(guān)系?答案:其研究重點(diǎn)主要落實(shí)在核酸和蛋白質(zhì)兩個(gè)方面,包括它們的序列、結(jié)構(gòu)和功能。生物信息學(xué)以基因組DNA序列信息分析作為出發(fā)點(diǎn),破譯遺傳語言,認(rèn)識(shí)遺傳信息的組織規(guī)律,辨別隱藏在D

56、NA序列中的基因,掌握基因調(diào)控信息,對(duì)蛋白質(zhì)空間結(jié)構(gòu)進(jìn)行模擬和預(yù)測(cè),依據(jù)蛋白質(zhì)結(jié)構(gòu)和功能的關(guān)系進(jìn)行藥物分子設(shè)計(jì)。30. 基因芯片對(duì)于生物分子信息檢測(cè)的作用和意義?答案:在生命科學(xué)領(lǐng)域中,基因芯片為分子生物學(xué)、生物醫(yī)學(xué)等研究提供了強(qiáng)有力的手段。利用基因芯片技術(shù),可研究生命體系中不同部位、不同生長(zhǎng)發(fā)育階段的基因表達(dá),比較不同個(gè)體或物種之間的基因表達(dá),比較正常和疾病狀態(tài)下基因及其表達(dá)的差異?;蛐酒夹g(shù)也有助于研究不同層次的多基因協(xié)同作用的生命過程,發(fā)現(xiàn)新的基因功能,研究生物體在進(jìn)化、發(fā)育、遺傳過程中的規(guī)律。31. 基因組序列分析方面,科學(xué)家關(guān)注哪些信息?答案:就人類基因組而言,編碼區(qū)域在人類基因組

57、所占的比例不超過3%。其余97%是非編碼序列。對(duì)于非編碼序列,人們了解得比較少,尚不清楚其含義或功能。然而,非編碼區(qū)域?qū)τ谏顒?dòng)具有重要的意義。這部分序列主要包括內(nèi)含子、簡(jiǎn)單重復(fù)序列、移動(dòng)元件(mobile element)及其遺留物、偽基因(pseudo gene)等。32. 為什么要進(jìn)行序列片段組裝?在進(jìn)行序列片段組裝時(shí)會(huì)遇到哪些問題?答案:大規(guī)?;蚪M測(cè)序得到待測(cè)序列的一系列序列片段,這些序列片段覆蓋待測(cè)序列,序列片段之間也存在著相互覆蓋或者重疊。遇到的問題:堿基標(biāo)識(shí)錯(cuò)誤;不知道片段的方向;存在重復(fù)區(qū)域;缺少覆蓋。33. 序列分析的任務(wù)和目的分別是什么?答案:任務(wù)(1)發(fā)現(xiàn)序列之間的相似性;(2)辨別序列之間的差異。目的:(1)相似序列:相似的結(jié)構(gòu),相似的功能 (2)判別序列之間的同源性(3)推測(cè)序列之間的進(jìn)化關(guān)系34.P CR引物設(shè)計(jì)有哪些原則?答案:產(chǎn)物不能形成二級(jí)結(jié)構(gòu);引物長(zhǎng)度一般在1530個(gè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論