生物信息學(xué)復(fù)習(xí)題

上傳人：b*** IP屬地：貴州上傳時(shí)間：2020-09-26 格式：DOC 頁數(shù)：28 大?。?59KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩23頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、名詞解釋1.生物信息學(xué) : 是研究生物信息的采集、處理、存儲(chǔ)、傳播，分析和解釋等各方面的學(xué)科，也是隨著生命科學(xué)和計(jì)算機(jī)科學(xué)的迅猛發(fā)展，生命科學(xué)和計(jì)算機(jī)科學(xué)相結(jié)合形成的一門新學(xué)科。 2.二級(jí)數(shù)據(jù)庫：在一級(jí)數(shù)據(jù)庫、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定目標(biāo)衍生而來，是對(duì)生物學(xué)知識(shí)和信息的進(jìn)一步的整理。3.FASTA序列格式：是將DNA或者蛋白質(zhì)序列表示為一個(gè)帶有一些標(biāo)記的核苷酸或者氨基酸字符串，大于號(hào)（）表示一個(gè)新文件的開始，其他無特殊要求。4.genbank序列格式：是GenBank 數(shù)據(jù)庫的基本信息單位，是最為廣泛的生物信息學(xué)序列格式之一。該文件格式按域劃分為4個(gè)部分：第一部分包含整個(gè)記錄的信息（

2、描述符）；第二部分包含注釋；第三部分是引文區(qū)，提供了這個(gè)記錄的科學(xué)依據(jù)；第四部分是核苷酸序列本身，以“/”結(jié)尾。5.Entrez檢索系統(tǒng)：是NCBI開發(fā)的核心檢索系統(tǒng)，集成了NCBI的各種數(shù)據(jù)庫，具有鏈接的數(shù)據(jù)庫多，使用方便，能夠進(jìn)行交叉索引等特點(diǎn)。6.BLAST：基本局部比對(duì)搜索工具，用于相似性搜索的工具，對(duì)需要進(jìn)行檢索的序列與數(shù)據(jù)庫中的每個(gè)序列做相似性比較。P94 7.查詢序列（query sequence）：也稱被檢索序列，用來在數(shù)據(jù)庫中檢索并進(jìn)行相似性比較的序列。P98 8.打分矩陣（scoring matrix）：在相似性檢索中對(duì)序列兩兩比對(duì)的質(zhì)量評(píng)估方法。包括基于理論（如考慮核酸和

3、氨基酸之間的類似性）和實(shí)際進(jìn)化距離（如PAM）兩類方法。P29 9.空位（gap）：在序列比對(duì)時(shí)，由于序列長(zhǎng)度不同，需要插入一個(gè)或幾個(gè)位點(diǎn)以取得最佳比對(duì)結(jié)果，這樣在其中一序列上產(chǎn)生中斷現(xiàn)象，這些中斷的位點(diǎn)稱為空位。P29 10.空位罰分：空位罰分是為了補(bǔ)償插入和缺失對(duì)序列相似性的影響，序列中的空位的引入不代表真正的進(jìn)化事件，所以要對(duì)其進(jìn)行罰分，空位罰分的多少直接影響對(duì)比的結(jié)果。P37 11.E值：衡量序列之間相似性是否顯著的期望值。 12.低復(fù)雜度區(qū)域：BLAST搜索的過濾選項(xiàng)。指序列中包含的重復(fù)度高的區(qū)域，如poly（A）。13.點(diǎn)矩陣（dot matrix）：構(gòu)建一個(gè)二維矩陣，其X軸是一條

4、序列，Y軸是另一個(gè)序列，然后在2個(gè)序列相同堿基的對(duì)應(yīng)位置（x，y）加點(diǎn)，如果兩條序列完全相同則會(huì)形成一條主對(duì)角線，如果兩條序列相似則會(huì)出現(xiàn)一條或者幾條直線；如果完全沒有相似性則不能連成直線。14.多序列比對(duì)：通過序列的相似性檢索得到許多相似性序列，將這些序列做一個(gè)總體的比對(duì)，以觀察它們?cè)诮Y(jié)構(gòu)上的異同，來回答大量的生物學(xué)問題。15.分子鐘：認(rèn)為分子進(jìn)化速率是恒定的或者幾乎恒定的假說，從而可以通過分子進(jìn)化推斷出物種起源的時(shí)間。16.系統(tǒng)發(fā)育分析：通過一組相關(guān)的基因或者蛋白質(zhì)的多序列比對(duì)或其他性狀，可以研究推斷不同物種或基因之間的進(jìn)化關(guān)系。17.進(jìn)化樹的二歧分叉結(jié)構(gòu)：指在進(jìn)化樹上任何一個(gè)分支節(jié)點(diǎn)，一

5、個(gè)父分支都只能被分成兩個(gè)子分支。系統(tǒng)發(fā)育圖：用枝長(zhǎng)表示進(jìn)化時(shí)間的系統(tǒng)樹稱為系統(tǒng)發(fā)育圖，是引入時(shí)間概念的支序圖。18.直系同源：指由于物種形成事件來自一個(gè)共同祖先的不同物種中的同源序列，具有相似或不同的功能。（書：在缺乏任何基因復(fù)制證據(jù)的情況下，具有共同祖先和相同功能的同源基因。）19.旁系（并系）同源：指同一個(gè)物種中具有共同祖先，通過基因重復(fù)產(chǎn)生的一組基因，這些基因在功能上可能發(fā)生了改變。(書：由于基因重復(fù)事件產(chǎn)生的相似序列。) 20.外類群：是進(jìn)化樹中處于一組被分析物種之外的，具有相近親緣關(guān)系的物種。21.有根樹：能夠確定所有分析物種的共同祖先的進(jìn)化樹。22.除權(quán)配對(duì)算法（UPGMA）：最初

6、，每個(gè)序列歸為一類，然后找到距離最近的兩類將其歸為一類，定義為一個(gè)節(jié)點(diǎn)，重復(fù)這個(gè)過程，直到所有的聚類被加入，最終產(chǎn)生樹根。23.鄰接法（neighbor-joining method）：是一種不僅僅計(jì)算兩兩比對(duì)距離，還對(duì)整個(gè)樹的長(zhǎng)度進(jìn)行最小化，從而對(duì)樹的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制，能夠克服UPGMA算法要求進(jìn)化速率保持恒定的缺陷。24.最大簡(jiǎn)約法（MP）：在一系列能夠解釋序列差異的的進(jìn)化樹中找到具有最少核酸或氨基酸替換的進(jìn)化樹。25.最大似然法（ML）：它對(duì)每個(gè)可能的進(jìn)化位點(diǎn)分配一個(gè)概率，然后綜合所有位點(diǎn)，找到概率最大的進(jìn)化樹。最大似然法允許采用不同的進(jìn)化模型對(duì)變異進(jìn)行分析評(píng)估，并在此基礎(chǔ)上構(gòu)建系統(tǒng)發(fā)育

7、樹。26.一致樹（consensus tree）：在同一算法中產(chǎn)生多個(gè)最優(yōu)樹，合并這些最優(yōu)樹得到的樹即一致樹。27.自舉法檢驗(yàn)（Bootstrap）：放回式抽樣統(tǒng)計(jì)法。通過對(duì)數(shù)據(jù)集多次重復(fù)取樣，構(gòu)建多個(gè)進(jìn)化樹，用來檢查給定樹的分枝可信度。28.開放閱讀框（ORF）：開放閱讀框是基因序列的一部分，包含一段可以編碼蛋白的堿基序列。29.密碼子偏性（codon bias）：氨基酸的同義密碼子的使用頻率與相應(yīng)的同功tRNA的水平相一致，大多數(shù)高效表達(dá)的基因僅使用那些含量高的同功tRNA所對(duì)應(yīng)的密碼子，這種效應(yīng)稱為密碼子偏性。30.基因預(yù)測(cè)的從頭分析：依據(jù)綜合利用基因的特征，如剪接位點(diǎn)，內(nèi)含子與外顯子邊

8、界調(diào)控區(qū)，預(yù)測(cè)基因組序列中包含的基因。31.結(jié)構(gòu)域（domain）：保守的結(jié)構(gòu)單元，包含獨(dú)特的二級(jí)結(jié)構(gòu)組合和疏水內(nèi)核，可能單獨(dú)存在，也可能與其他結(jié)構(gòu)域組合。相同功能的同源結(jié)構(gòu)域具有序列的相似性。32.超家族：進(jìn)化上相關(guān)，功能可能不同的一類蛋白質(zhì)。33.模體（motif）：短的保守的多肽段，含有相同模體的蛋白質(zhì)不一定是同源的，一般10-20個(gè)殘基。34.序列表譜（profile）：是一種特殊位點(diǎn)或模體序列，在多序列比較的基礎(chǔ)上，氨基酸的權(quán)值和空位罰分的表格。35.PAM矩陣：PAM指可接受突變百分率。一個(gè)氨基酸在進(jìn)化中變成另一種氨基酸的可能性，通過這種可能性可以鑒定蛋白質(zhì)之間的相似性，并產(chǎn)生蛋白

9、質(zhì)之間的比對(duì)。一個(gè)PAM單位是蛋白質(zhì)序列平均發(fā)生1%的替代量需要的進(jìn)化時(shí)間。36.BLOSUM矩陣：模塊替代矩陣。矩陣中的每個(gè)位點(diǎn)的分值來自蛋白比對(duì)的局部塊中的替代頻率的觀察。每個(gè)矩陣適合特定的進(jìn)化距離。例如，在BLOSUM62矩陣中，比對(duì)的分值來自不超過62%一致率的一組序列。37.PSI-BLAST：位點(diǎn)特異性迭代比對(duì)。是一種專門化的的比對(duì)，通過調(diào)節(jié)序列打分矩陣（scoring matrix）探測(cè)遠(yuǎn)緣相關(guān)的蛋白。38.RefSeq：給出了對(duì)應(yīng)于基因和蛋白質(zhì)的索引號(hào)碼，對(duì)應(yīng)于最穩(wěn)定、最被人承認(rèn)的Genbank序列。39.PDB（Protein Data Bank）：PDB中收錄了大量通過實(shí)驗(yàn)

10、（X射線晶體衍射，核磁共振NMR）測(cè)定的生物大分子的三維結(jié)構(gòu)，記錄有原子坐標(biāo)、配基的化學(xué)結(jié)構(gòu)和晶體結(jié)構(gòu)的描述等。PDB數(shù)據(jù)庫的訪問號(hào)由一個(gè)數(shù)字和三個(gè)字母組成（如，4HHB），同時(shí)支持關(guān)鍵詞搜索，還可以FASTA程序進(jìn)行搜索。40.GenPept:是由GenBank中的DNA序列翻譯得到的蛋白質(zhì)序列。數(shù)據(jù)量很大，且隨核酸序列數(shù)據(jù)庫的更新而更新，但它們均是由核酸序列翻譯得到的序列，未經(jīng)試驗(yàn)證實(shí)，也沒有詳細(xì)的注釋。41.折疊子（Fold）：在兩個(gè)或更多的蛋白質(zhì)中具有相似二級(jí)結(jié)構(gòu)的大區(qū)域，這些大區(qū)域具有特定的空間取向。42.TrEMBL：是與SWISS-PROT相關(guān)的一個(gè)數(shù)據(jù)庫。包含從EMBL核酸數(shù)據(jù)

11、庫中根據(jù)編碼序列(CDS)翻譯而得到的蛋白質(zhì)序列，并且這些序列尚未集成到SWISS-PROT數(shù)據(jù)庫中。43.MMDB(Molecular Modeling Database)：是（NCBI）所開發(fā)的生物信息數(shù)據(jù)庫集成系統(tǒng)Entrez的一個(gè)部分，數(shù)據(jù)庫的內(nèi)容包括來自于實(shí)驗(yàn)的生物大分子結(jié)構(gòu)數(shù)據(jù)。與PDB相比，對(duì)于數(shù)據(jù)庫中的每一個(gè)生物大分子結(jié)構(gòu)，MMDB具有許多附加的信息，如分子的生物學(xué)功能、產(chǎn)生功能的機(jī)制、分子的進(jìn)化歷史等，還提供生物大分子三維結(jié)構(gòu)模型顯示、結(jié)構(gòu)分析和結(jié)構(gòu)比較工具。44.SCOP數(shù)據(jù)庫：提供關(guān)于已知結(jié)構(gòu)的蛋白質(zhì)之間結(jié)構(gòu)和進(jìn)化關(guān)系的詳細(xì)描述，包括蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB中的所有條目。S

12、COP數(shù)據(jù)庫除了提供蛋白質(zhì)結(jié)構(gòu)和進(jìn)化關(guān)系信息外，對(duì)于每一個(gè)蛋白質(zhì)還包括下述信息：到PDB的連接，序列，參考文獻(xiàn)，結(jié)構(gòu)的圖像等?？梢园唇Y(jié)構(gòu)和進(jìn)化關(guān)系對(duì)蛋白質(zhì)分類，分類結(jié)果是一個(gè)具有層次結(jié)構(gòu)的樹，其主要的層次依次是類（class）、折疊子（fold）、超家族（super family）、家族（family）、單個(gè)PDB蛋白結(jié)構(gòu)記錄。45.PROSITE：是蛋白質(zhì)家族和結(jié)構(gòu)域數(shù)據(jù)庫，包含具有生物學(xué)意義的位點(diǎn)、模式、可幫助識(shí)別蛋白質(zhì)家族的統(tǒng)計(jì)特征。PROSITE中涉及的序列模式包括酶的催化位點(diǎn)、配體結(jié)合位點(diǎn)、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等；PROSITE還包括

13、根據(jù)多序列比對(duì)而構(gòu)建的序列統(tǒng)計(jì)特征，能更敏感地發(fā)現(xiàn)一個(gè)序列是否具有相應(yīng)的特征。46.Gene Ontology 協(xié)會(huì)：編輯一組動(dòng)態(tài)的、可控的基因產(chǎn)物不同方面性質(zhì)的字匯的協(xié)會(huì)。從3個(gè)方面描述基因產(chǎn)物的性質(zhì)，即，分子功能，生物過程，細(xì)胞區(qū)室。47.表譜（PSSM）：指一張基于多序列比對(duì)的打分表，表示一個(gè)蛋白質(zhì)家族，可以用來搜索序列數(shù)據(jù)庫。48. 蛋白質(zhì)組p179：是指一個(gè)基因組中各個(gè)基因編碼產(chǎn)生的蛋白質(zhì)的總體，即一個(gè)基因組的全部蛋白產(chǎn)物及其表達(dá)情況。49. 中心法則是指遺傳信息從DNA傳遞給RNA，再?gòu)腞NA傳遞給蛋白質(zhì)，即完成遺傳信息的轉(zhuǎn)錄和翻譯的過程。也可以從DNA傳遞給DNA，即完成DNA的

14、復(fù)制過程。這是所有有細(xì)胞結(jié)構(gòu)的生物所遵循的法則。50.一級(jí)數(shù)據(jù)庫：數(shù)據(jù)庫中的數(shù)據(jù)直接來源于實(shí)驗(yàn)獲得的原始數(shù)據(jù)，只經(jīng)過簡(jiǎn)單的歸類整理和注釋51.基因芯片（gene chip），又稱DNA微陣列（microarray），是由大量cDNA或寡核苷酸探針密集排列所形成的探針陣列，其工作的基本原理是通過雜交檢測(cè)信息。52.序列比對(duì)：為確定兩個(gè)或多個(gè)序列之間的相似性以至于同源性，而將它們按照一定的規(guī)律排列。53.數(shù)據(jù)庫查詢（database query）：是指對(duì)序列、結(jié)構(gòu)以及各種二次數(shù)據(jù)中的注釋信息進(jìn)行關(guān)鍵詞匹配查找檢索。54.數(shù)據(jù)庫搜索（database search）：在分子生物信息學(xué)中有特定含義，它

15、是指通過特定的序列相似性比對(duì)算法，找出核酸或蛋白質(zhì)序列數(shù)據(jù)庫中與檢測(cè)序列具有一定程度相似性的序列。55.相似性（similarity）：數(shù)學(xué)上，相似性指兩個(gè)圖形的形狀完全相似。若存在兩個(gè)點(diǎn)的集，其中一個(gè)能透過放大縮小、平移或旋轉(zhuǎn)等方式變成另一個(gè)，就說它們具有相似性。56.同源性：在進(jìn)化上或個(gè)體發(fā)育上的共同來源而呈現(xiàn)的本質(zhì)上的相似性，但其功能不一定相同。57.同一性：是指兩序列在同一位點(diǎn)核苷酸或氨基酸殘基完全相同的序列比例。58.一致序列：在兩個(gè)或多個(gè)同源序列的每一個(gè)位置上多數(shù)出現(xiàn)的核苷酸或氨基酸組成的序列。59. HMM（隱馬爾可夫模型）：是統(tǒng)計(jì)模型，它用來描述一個(gè)含有隱含未知參數(shù)的馬爾可夫

16、過程。其難點(diǎn)是從可觀察的參數(shù)中確定該過程的隱含參數(shù)。然后利用這些參數(shù)來作進(jìn)一步的分析，例如模式識(shí)別。60.簡(jiǎn)約性信息位點(diǎn)：指基于DNA或蛋白質(zhì)序列、利用最大簡(jiǎn)約法構(gòu)建系統(tǒng)發(fā)育樹時(shí)，在兩個(gè)及以上分類單元（的序列）中存在差異，且其中至少有兩種變異類型在該位點(diǎn)出現(xiàn)兩次及以上，此類位點(diǎn)稱為簡(jiǎn)約性信息位點(diǎn)。61.信息位點(diǎn)：由位點(diǎn)產(chǎn)生的突變數(shù)目把其中的一課樹與其他樹區(qū)分開的位點(diǎn)。62.非信息位點(diǎn)：對(duì)于最大簡(jiǎn)約法來說沒有意義的點(diǎn)。63.標(biāo)度樹：分支長(zhǎng)度與相鄰節(jié)點(diǎn)對(duì)的差異程度成正比的樹。64.非標(biāo)度樹：只表示親緣關(guān)系無差異程度信息。65.有根樹：?jiǎn)我坏墓?jié)點(diǎn)能指派為共同的祖先，從祖先節(jié)點(diǎn)只有唯一的路徑歷經(jīng)進(jìn)化到

17、達(dá)其他任何節(jié)點(diǎn)。66.無根樹：只表明節(jié)點(diǎn)間的關(guān)系，無進(jìn)化發(fā)生方向的信息，通過引入外群或外部參考種，可以在無根樹中指派根節(jié)點(diǎn)。67.注釋（annotation）對(duì)數(shù)據(jù)庫中原始的DNA堿基序列添加相關(guān)信息（比如編碼的基因，氨基酸序列等）或其他的注解。68.基因組注釋(Genome annotation) 是利用生物信息學(xué)方法和工具，對(duì)基因組所有基因的生物學(xué)功能進(jìn)行高通量注釋，是當(dāng)前功能基因組學(xué)研究的一個(gè)熱點(diǎn)。69.虛擬細(xì)胞：一種建模手段，把細(xì)胞定義為許多結(jié)構(gòu)，分子，反應(yīng)和物質(zhì)流的集合體。70.質(zhì)譜(MS)是一種準(zhǔn)確測(cè)定真空中離子的分子質(zhì)量/電荷比(m/z)的方法，從而使分子質(zhì)量的準(zhǔn)確確定成為可能。

18、71.分子途徑是指一組連續(xù)起作用以達(dá)到共同目標(biāo)的蛋白質(zhì)。72.先導(dǎo)化合物：是指具有一定藥理活性的、可通過結(jié)構(gòu)改造來優(yōu)化其藥理特性而可能導(dǎo)致藥物發(fā)現(xiàn)的特殊化合物。73.權(quán)重矩陣（序列輪廓）：它們表示完全結(jié)構(gòu)域序列，多序列聯(lián)配中每個(gè)位點(diǎn)的氨基酸都有分值，并且特定位置插入或缺失的可能性均有一定的衡量方法（課件定義）。74.系統(tǒng)發(fā)育學(xué)（phylogenetic）：確定生物體間進(jìn)化關(guān)系的科學(xué)分支。75.系統(tǒng)生物學(xué)（systems biology）：是研究一個(gè)生物系統(tǒng)中所有組分成分（基因、mRNA、蛋白質(zhì)等）的構(gòu)成以及在特定條件下這些組分間的相互關(guān)系，并分析生物系統(tǒng)在一定時(shí)間內(nèi)的動(dòng)力學(xué)過程。76.蛋白質(zhì)組

19、（proteome）：是指一個(gè)基因組、一種生物或一個(gè)細(xì)胞/組織的基因組所表達(dá)的全套蛋白質(zhì)。77. ESI電噴霧離子化：一種適合大分子如蛋白質(zhì)離子化沒有明顯降解的質(zhì)譜技術(shù)。78. 微陣列芯片：是指采用光導(dǎo)原位合成或微量點(diǎn)樣等方法，將大量生物大分子比如核酸片段、多肽分子甚至組織切片、細(xì)胞等生物樣品有序地固化于支持物（如玻片、尼龍膜等載體）的表面，組成密集二維分子排列，然后與已標(biāo)記的待測(cè)生物樣品中靶分子反應(yīng)，通過特定的儀器，比如激光共聚焦掃描儀或電荷偶聯(lián)攝影像機(jī)對(duì)反應(yīng)信號(hào)的強(qiáng)度進(jìn)行快速、并行、高效地檢測(cè)分析，從而判斷樣品中靶分子的數(shù)量。79.有監(jiān)督分析法：這種方法引入某些形式的分類系統(tǒng)，從而將表達(dá)模

20、式分配到一個(gè)或多個(gè)預(yù)定義的類目中。80.聚類分析：指將物理或抽象對(duì)象的集合分組為由類似的對(duì)象組成的多個(gè)類的分析過程。81.虛擬消化：針對(duì)重要疾病特定靶標(biāo)生物大分子的三維結(jié)構(gòu)或定量構(gòu)效關(guān)系（Quantitative structure-activity relationships，QSAR）模型，從現(xiàn)有小分子數(shù)據(jù)庫中，搜尋與靶標(biāo)生物大分子結(jié)合或符合QSAR模型的化合物，進(jìn)行篩選實(shí)驗(yàn)研究。82.無監(jiān)督分析法：這種方法沒有內(nèi)建的分類標(biāo)準(zhǔn)，組的數(shù)目和類型只決定于所使用的算法和數(shù)據(jù)本身的分析方法。83. GenBank：是美國(guó)國(guó)家生物技術(shù)信息中心(National Center for Biotechn

21、ology Information ，NCBI)建立的DNA序列數(shù)據(jù)庫，從公共資源中獲取序列數(shù)據(jù)，主要是科研人員直接提供或來源于大規(guī)模基因組測(cè)序計(jì)劃( Benson等， 1998)。84. EMBL：（歐洲分子生物學(xué)實(shí)驗(yàn)室）（The European Molecular Biology Laboratory），于1974年由歐洲14個(gè)國(guó)家加上亞洲的以色列共同發(fā)起建立，包括一個(gè)位于德國(guó)Heidelberg的核心實(shí)驗(yàn)室，及三個(gè)位于德國(guó)Hamburg，法國(guó)Grenoble及英國(guó)Hinxton的研究分部。85. DDBJ：(DNA Data Bank of Japan)，于1984年建立，是世界三大D

22、NA 數(shù)據(jù)庫之一，與NCBI的GenBank，EMBL的EBI數(shù)據(jù)庫共同組成國(guó)際DNA數(shù)據(jù)庫，每日都交換更新數(shù)據(jù)和信息，并主持兩個(gè)國(guó)際年會(huì)國(guó)際DNA數(shù)據(jù)庫咨詢會(huì)議和國(guó)際DNA數(shù)據(jù) 庫協(xié)作會(huì)議，互相交換信息，因此三個(gè)庫的數(shù)據(jù)實(shí)際上是相同的。86. BLAST：是英語Bell Labs Layered Space-Time 的縮寫，是一項(xiàng)新的通信技術(shù)，它采用多天線系統(tǒng)利用多徑傳播效應(yīng)以達(dá)到提高頻譜利用率的目的。87.BLASTn：是核酸序列到核酸庫中的一種查詢。庫中存在的每條已知序列都將同所查序列作一對(duì)一地核酸序列比對(duì)。88.BLASTp：是蛋白序列到蛋白庫中的一種查詢。庫中存在的每條已知序列將

23、逐一地同每條所查序列作一對(duì)一的序列比對(duì)。88.Clustsl X：是一種利用漸近法（progressive alignment）進(jìn)行多條序列比對(duì)的軟件。即從多條序列中最相似（距離最近）的兩條序列開始比對(duì)，按照各個(gè)序列在進(jìn)化樹上的位置，由近及遠(yuǎn)的將其它序列依次加入到最終的比對(duì)結(jié)果。89. Entrez：是美國(guó)國(guó)家生物技術(shù)信息中心所提供的在線資源檢索器。該資源將GenBank序列與其原始文獻(xiàn)出處鏈接在一起。 Entrez 是由NCBI主持的一個(gè)數(shù)據(jù)庫檢索系統(tǒng)。 90.Medline文摘數(shù)據(jù)庫：是美國(guó)國(guó)立醫(yī)學(xué)圖書館(The National Library of Medicine, 簡(jiǎn)稱NLM)生產(chǎn)

24、的國(guó)際性綜合生物醫(yī)學(xué)信息書目數(shù)據(jù)庫，是當(dāng)前國(guó)際上最權(quán)威的生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫。91. SRS(sequence retrieval system)：是歐洲生物信息研究所開發(fā)的SRS（Sequence Retrieval System）是以WWW界面運(yùn)行的數(shù)據(jù)庫檢索系統(tǒng)，其主要功能是將所有數(shù)據(jù)庫建立參照(cross-references)索引，用戶可通過輸入查詢代碼、編號(hào)、物種來源、說明、文獻(xiàn)、作者、日期、關(guān)鍵詞等信息對(duì)所有已建立索引的數(shù)據(jù)庫進(jìn)行檢索，從而得到用戶所需的序列或相關(guān)內(nèi)容。92. SWLSSMODEL：是一個(gè)自動(dòng)化的蛋白質(zhì)比較建模服務(wù)器。93.homology modeling：對(duì)于

25、一個(gè)未知結(jié)構(gòu)的蛋白質(zhì)，找到一個(gè)已知結(jié)構(gòu)的同源蛋白質(zhì)，以該蛋白質(zhì)的結(jié)構(gòu)為模板，為未知結(jié)構(gòu)的蛋白質(zhì)建立結(jié)構(gòu)模型。94.Ab initio prediction：僅根據(jù)序列本身來預(yù)測(cè)其結(jié)構(gòu)95. molecular phylogenetic tree：又名分子進(jìn)化樹，是生物信息學(xué)中描述不同生物之間的相關(guān)關(guān)系的方法。通過系統(tǒng)學(xué)分類分析可以幫助人們了解所有生物的進(jìn)化歷史過程。96. gene tree（基因樹）：是指基于單個(gè)同源基因差異構(gòu)建的系統(tǒng)發(fā)生樹。 96. neighborjoining method：是一種不僅僅計(jì)算兩兩比對(duì)距離，還對(duì)整個(gè)樹的長(zhǎng)度進(jìn)行最小化，從而對(duì)樹的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制，能夠克服U

26、PGMA算法要求進(jìn)化速率保持恒定的缺陷。97. maximum parsimony method：在一系列能夠解釋序列差異的的進(jìn)化樹中找到具有最少核酸或氨基酸替換的進(jìn)化樹。98. MEGA(Molecular Evolutionary Genetics Analysis)：is an integrated tool for automatic and manual sequence alignment, inferring phylogenetic trees, mining web-based databases, estimating rates of molecular evolutio

27、n, and testing evolutionary hypotheses.99. BioEdit：是一個(gè)序列編輯器與分析工具軟件。功能包括：序列編輯、外掛分析程序、RNA分析、尋找特征序列、支持超過20000個(gè)序列的多序列文件、基本序列處理功能、質(zhì)粒圖繪制等等。100. EST：(Expressed Sequence Tag)表達(dá)序列標(biāo)簽是從一個(gè)隨機(jī)選擇的cDNA 克隆，進(jìn)行5端和3端單一次測(cè)序挑選出來獲得的短的cDNA 部分序列。 101. GSS：基因組勘測(cè)序列，是基因組DNA克隆的一次性部分測(cè)序得到的序列。包括隨機(jī)的基因組勘測(cè)序列、cosmid/BAC/YAC末端序列、通過Exon

28、trapped獲得基因組序列、通過Alu PCR獲得的序列、以及轉(zhuǎn)座子標(biāo)記序列等。 102. ORF：是基因序列的一部分，包含一段可以編碼蛋白的堿基序列，不能被終止子打斷。（P86，指從5端開始翻譯起始密碼子到終止密碼子的蛋白質(zhì)編碼堿基序列。）103. promoter（啟動(dòng)子）：是基因（gene）的一個(gè)組成部分，控制基因表達(dá)（轉(zhuǎn)錄）的起始時(shí)間和表達(dá)的程度。104. 3UTR： 3非翻譯區(qū)的縮寫，真核生物的轉(zhuǎn)錄終止信號(hào)是在 3非翻譯區(qū)的： polyA。105. CpG island： CpG雙核苷酸在人類基因組中的分布很不均一，而在基因組的某些區(qū)段，CpG保持或高于正常概率。106. coi

29、led coil：卷曲螺旋，是蛋白質(zhì)中由27條螺旋鏈相互纏繞形成類似麻花狀結(jié)構(gòu)的總稱。卷曲螺旋是控制蛋白質(zhì)寡聚化的元件，在機(jī)體內(nèi)執(zhí)行著分子識(shí)別、代謝調(diào)控、細(xì)胞分化、肌肉收縮、膜通道等生物學(xué)功能。 107. heptad repeat：七肽重復(fù)區(qū)是典型的卷曲螺旋結(jié)構(gòu)類型之一，由多個(gè)七肽單元連接而成的重復(fù)序列。108. structure domain：結(jié)構(gòu)域，是在蛋白質(zhì)三級(jí)結(jié)構(gòu)中介于二級(jí)和三級(jí)結(jié)構(gòu)之間的可以明顯區(qū)分但又相對(duì)獨(dú)立的折疊單元，每個(gè)結(jié)構(gòu)域自身形成緊實(shí)的三維結(jié)構(gòu)，可以獨(dú)立存在或折疊，但結(jié)構(gòu)域與結(jié)構(gòu)域之間關(guān)系較為松散。109. motif：蛋白質(zhì)序列中較短的保守區(qū)域，通常為按一定的模式

30、排列的氨基酸殘基也稱為指紋（figureprint）。110. linux operating system：linux 操作系統(tǒng)，Linux 是一類 Unix 計(jì) 算機(jī)操作系統(tǒng)的統(tǒng)稱。Linux 操作系統(tǒng)也是自由軟件和開放源代碼發(fā)展中最著名的例子。 111. BioPerl： an international association of users & developers of open source Perl tools for bioinformatics, genomics and life science 112. PubMed：是一個(gè)免費(fèi)的生物醫(yī)學(xué)文摘數(shù)據(jù)庫，提供部分論文的

31、摘要及指向全文的鏈接。作為 Entrez 資訊檢索系統(tǒng)的一部分。113. HGP(human genome project)：是一項(xiàng)規(guī)模宏大，跨國(guó)跨學(xué)科的科學(xué)探索工程。114. ncRNA：非編碼RNA（Non-coding RNA）是指不編碼蛋白質(zhì)的RNA。 115. miRNA：是一類由內(nèi)源基因編碼的長(zhǎng)度約為22 個(gè)核苷酸的非編碼單鏈RNA 分子，它們?cè)趧?dòng)植物中參與轉(zhuǎn)錄后基因表達(dá)調(diào)控。填空題1. 常用的三種序列格式：NBRF/PIR,FASTA和GDE2. 初級(jí)序列數(shù)據(jù)庫：GenBank，EMBL和DDBJ3. 蛋白質(zhì)序列數(shù)據(jù)庫：SWISS-PROT和TrEMBL4. 提供蛋白質(zhì)功能注釋信

32、息的數(shù)據(jù)庫：KEGG（京都基因和基因組百科全書）和PIR（蛋白質(zhì)信息資源）5. 目前由NCBI維護(hù)的大型文獻(xiàn)資源是PubMed6. 數(shù)據(jù)庫常用的數(shù)據(jù)檢索工具：Entrez，SRS，DBGET7. 常用的序列搜索方法：FASTA和BLAST8. 高分值局部聯(lián)配的BLAST參數(shù)是HSPs（高分值片段對(duì)），E（期望值）9. 多序列聯(lián)配的常用軟件：Clustal10. 蛋白質(zhì)結(jié)構(gòu)域家族的數(shù)據(jù)庫有：Pfam，SMART11. 系統(tǒng)發(fā)育學(xué)的研究方法有：表現(xiàn)型分類法，遺傳分類法和進(jìn)化分類法12. 系統(tǒng)發(fā)育樹的構(gòu)建方法：距離矩陣法，最大簡(jiǎn)約法和最大似然法13. 常用系統(tǒng)發(fā)育分析軟件：PHYLIP14. 檢測(cè)

33、系統(tǒng)發(fā)育樹可靠性的技術(shù)：bootstrapping和Jack-knifing15. 原核生物和真核生物基因組中的注釋所涉及的問題是不同的16. 檢測(cè)原核生物ORF的程序：NCBI ORF finder17. 測(cè)試基因預(yù)測(cè)程序正確預(yù)測(cè)基因的能力的項(xiàng)目是GASP（基因預(yù)測(cè)評(píng)估項(xiàng)目）18. 二級(jí)結(jié)構(gòu)的三種狀態(tài)：螺旋，折疊和轉(zhuǎn)角19. 用于蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的基本神經(jīng)網(wǎng)絡(luò)模型為三層的前饋網(wǎng)絡(luò)，包括輸入層，隱含層和輸出層20. 通過比較建模預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的軟件有SWISS-PDBVIEWER（SWISSMODEL網(wǎng)站）21. 蛋白質(zhì)質(zhì)譜數(shù)據(jù)搜索工具：SEQUEST22. 分子途徑最廣泛數(shù)據(jù)庫：KEGG2

34、3. 聚類分析方法，分為有監(jiān)督學(xué)習(xí)方法，無監(jiān)督學(xué)習(xí)方法24.識(shí)別基因主要有兩個(gè)途徑即基因組DNA外顯子識(shí)別和基于EST策略的基因鑒定。25.表達(dá)序列標(biāo)簽是從 mRNA 中生成的一些很短的序列（300-500bp），它們代表在特定組織或發(fā)育階段表達(dá)的基因。26.序列比對(duì)的基本思想，是找出檢測(cè)基因和目標(biāo)序列的相似性，就是通過在序列中插入空位的方法使所比較的序列長(zhǎng)度達(dá)到一致。比對(duì)的數(shù)學(xué)模型大體分為兩類，分別是整體比對(duì) 和局部比對(duì) 。27.2-DE的基本原理是根據(jù)蛋白質(zhì) 等電點(diǎn) 和分子量不同，進(jìn)行兩次電泳將之分離。第一向是等電聚焦分離 ,第二向是 SDS-PAGE分離。 28.蛋

35、白質(zhì)組研究的三大關(guān)鍵核心技術(shù)是雙向凝膠電泳技術(shù) 、質(zhì)譜鑒定技術(shù) 、計(jì)算機(jī)圖像數(shù)據(jù)處理與蛋白質(zhì)數(shù)據(jù)庫。判斷題1、生物體的結(jié)構(gòu)和功能越復(fù)雜的種類就越多，所需要的基因也越多，C值越大，這是真核生物基因組的特點(diǎn)之一。（對(duì)）2、CDS一定就是ORF。（對(duì)）3、兩者之間有沒有共同的祖先，可以通過序列的同源性來確定，如果兩個(gè)基因或蛋白質(zhì)有著幾乎一樣的序列，那么它們高度同源,就具有共同的祖先。（錯(cuò)）4、STS，是一段200-300bp的特定DNA序列，它的序列已知，并且在基因組中屬于單拷貝。（對(duì)）5、非編碼DNA是“垃圾DNA”，不具有任何的分析價(jià)值，對(duì)于細(xì)胞沒有多大的作用。（錯(cuò)）6、基因樹和物種樹同

36、屬于系統(tǒng)樹，它們之間可以等同。（錯(cuò)）7、基因的編碼序列在DNA分子上是被不編碼的序列隔開而不連續(xù)排列的。(對(duì)）8、對(duì)任意一個(gè)DNA序列，在不知道哪一個(gè)堿基代表CDS的起始時(shí)，可用6框翻譯法，獲得6個(gè)潛在的蛋白質(zhì)序列。（對(duì)）9、一個(gè)機(jī)體只有一個(gè)確定的基因組，但基因組內(nèi)各個(gè)基因表達(dá)的條件和表達(dá)的程度隨時(shí)間、空間和環(huán)境條件而不同。（對(duì)）10、外顯子和內(nèi)含子之間沒有絕對(duì)的區(qū)分，一個(gè)基因的內(nèi)含子可以是另一個(gè)基因的外顯子，同一個(gè)基因在不同的生理狀況或生長(zhǎng)發(fā)育的不同階段，外顯子組成也可以不同。（對(duì)）11、比較是科學(xué)研究中最常見的方法，在生物信息學(xué)研究中，比對(duì)是最常用和最經(jīng)典的研究方法。（對(duì)）12、ORF一

37、定就是CDS。（錯(cuò)）13、用不同的方法可以構(gòu)建不同的系統(tǒng)發(fā)育樹,為保證分析結(jié)果的可靠性,需要對(duì)進(jìn)化樹進(jìn)行評(píng)估。（對(duì)）14、相似性是一種很直接的數(shù)量關(guān)系，無需實(shí)驗(yàn)驗(yàn)證。（錯(cuò)）15、基因樹和物種樹同屬于系統(tǒng)樹，它們之間可以等同。（錯(cuò)）16、蛋白質(zhì)和DNA的同源性常常通過它們序列的相似性來判定，如果兩個(gè)基因或蛋白質(zhì)有著幾乎一樣的序列，具有高度的相似性，那么它們一定是同源。（錯(cuò)）17、所謂局部比對(duì)是找出兩個(gè)被比較序列的最類似片段。（對(duì)）不定項(xiàng)選擇題1、（ ABC ）是現(xiàn)在國(guó)際上最主要的三大核酸序列數(shù)據(jù)庫A. EMBL B. DDBJ C. GenBank D. NCBI E. EBI2、RFLP是DN

38、A多態(tài)性中最多見的一種，它產(chǎn)生的機(jī)制包括（ ABE ）A.DNA分子產(chǎn)生突變，使某些酶切位點(diǎn)數(shù)增加B. DNA分子產(chǎn)生突變，使某些酶切位點(diǎn)數(shù)減少C. 限制性酶切位點(diǎn)之間重復(fù)序列數(shù)目變異D. 限制性酶星活性E. 限制性酶切位點(diǎn)前后的DNA片斷發(fā)生插入或刪除3、下面序列哪些為反向重復(fù)序列 ( BD )A. GCACTTGGCACTTG B. GCACTTGCAAGTGC CGTGAACCGTGAAC CGTGAACGTTCACGC. GCACTTGCAAGTGC D. GCACTAGCTAGCGGCGTGAACGTTCACG CGTGATCGATCGCC4、分析EST序列時(shí)首要注意以下幾點(diǎn)（ AC

39、DE ）A.EST序列中除了AGTC外，可能出現(xiàn)未知堿基B.EST只是單次測(cè)序，得出的結(jié)果沒有可信度C.EST序列中可能出現(xiàn)錯(cuò)誤的插入和缺失，導(dǎo)致讀碼框移位D.某個(gè)EST序列是數(shù)據(jù)庫中另一序列的一個(gè)片段E.某個(gè)EST序列不在基因的編碼區(qū)內(nèi)5、人類基因組計(jì)劃要完成的幾張圖譜分別是（ABCE ）A. 物理圖譜 B. 遺傳圖譜 C. 序列圖譜 D. 生物圖譜 E. 基因圖譜6、最常用的序列相似性查詢工具是（ AB ）A.FASTA B.BLAST C.SWISS-PROT D.PDB E.PIR7、下列哪些分子類型屬于非蛋白質(zhì)編碼區(qū)（ABCDE ）A.內(nèi)含子 B.衛(wèi)星DNA C.偽基因 D.啟動(dòng)子

40、E.增強(qiáng)子8、衛(wèi)星DNA的多態(tài)性是由（ D ）所決定的。A. DNA點(diǎn)突變個(gè)數(shù)B. 限制性內(nèi)切酶識(shí)別序列個(gè)數(shù)不同C. DNA的二級(jí)結(jié)構(gòu)不同D. 重復(fù)單位不同E重復(fù)次數(shù)不同9、真核基因組特點(diǎn)包括（ ABCDE ）A. 基因組大，巨大的非編碼序列，重復(fù)序列占了絕大部分B. 基因結(jié)構(gòu)復(fù)雜，無顯著長(zhǎng)度的開放閱讀框C. 存在可變剪接 D. CpG島 E. 等值區(qū)10、20世紀(jì)三大著名計(jì)劃包括（ ACE ）A.阿波羅登月計(jì)劃 B.衛(wèi)星計(jì)劃 C.HGP D.腫瘤計(jì)劃 E.曼哈頓原子彈計(jì)劃簡(jiǎn)答題1.BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么？答：b

41、lastn是將給定的核酸序列與核酸數(shù)據(jù)庫中的序列進(jìn)行比較；Blastp是使用蛋白質(zhì)序列與蛋白質(zhì)數(shù)據(jù)庫中的序列進(jìn)行比較，可以尋找較遠(yuǎn)的關(guān)系；Blastx將給定的核酸序列按照六種閱讀框架將其翻譯成蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫中的序列進(jìn)行比對(duì)，對(duì)分析新序列和EST很有用；Tblastn將給定的氨基酸序列與核酸數(shù)據(jù)庫中的序列（雙鏈）按不同的閱讀框進(jìn)行比對(duì)，對(duì)于尋找數(shù)據(jù)庫中序列沒有標(biāo)注的新編碼區(qū)很有用；Tblastx只在特殊情況下使用，它將DNA被檢索的序列和核酸序列數(shù)據(jù)庫中的序列按不同的閱讀框全部翻譯成蛋白質(zhì)序列，然后進(jìn)行蛋白質(zhì)序列比對(duì)。P972. 序列的相似性與同源性有什么區(qū)別與聯(lián)系？答：相似性是指序列之間

42、相關(guān)的一種量度，兩序列的的相似性可以基于序列的一致性的百分比；而同源性是指序列所代表的物種具有共同的祖先，強(qiáng)調(diào)進(jìn)化上的親緣關(guān)系。P1473. 美國(guó)國(guó)家生物技術(shù)信息中心（NCBI）的主要工作是什么？請(qǐng)列舉3個(gè)以上Entrez系統(tǒng)可以檢索的數(shù)據(jù)庫。（NCBI維護(hù)的數(shù)據(jù)庫）NCBI的主要工作是在分子水平上應(yīng)用數(shù)學(xué)和計(jì)算機(jī)科學(xué)的方法研究基礎(chǔ)生物，醫(yī)學(xué)問題。為科學(xué)界開發(fā)，維護(hù)和分享一系列的生物信息數(shù)據(jù)庫；開發(fā)和促進(jìn)生物信息學(xué)數(shù)據(jù)庫，數(shù)據(jù)的儲(chǔ)存，交換以及生物學(xué)命名規(guī)則的標(biāo)準(zhǔn)化。維護(hù)的主要數(shù)據(jù)庫包括答：PubMed、核酸序列數(shù)據(jù)庫GenBank、PROW、三維蛋白質(zhì)結(jié)構(gòu)分子模型數(shù)據(jù)庫MMDB。4.簡(jiǎn)述BLA

43、ST搜索的算法思想。答：BLAST是一種局部最優(yōu)比對(duì)搜索算法，將所查詢的序列打斷成許多小序列片段，然后小序列逐步與數(shù)據(jù)庫中的序列進(jìn)行比對(duì)，這些小片段被叫做字”word”；當(dāng)一定長(zhǎng)度的的字（W）與檢索序列的比對(duì)達(dá)到一個(gè)指定的最低分（T）后，初始比對(duì)就結(jié)束了；一個(gè)序列的匹配度由各部分匹配分?jǐn)?shù)的總和決定，獲得高分的序列叫做高分匹配片段（HSP），程序?qū)⒆詈玫腍SP雙向擴(kuò)展進(jìn)行比對(duì)，直到序列結(jié)束或者不再具有生物學(xué)顯著性，最后所得到的序列是那些在整體上具有最高分的序列，即，最高分匹配片段（MSP），這樣，BLAST既保持了整體的運(yùn)算速度，也維持了比對(duì)的精度。P955. 什么是物種的標(biāo)記序列？答：指物種

44、特有的一段核苷酸序列?？梢酝ㄟ^相似性查詢，得到某一序列在數(shù)據(jù)庫中的某一物種中反復(fù)出現(xiàn)，且在其他物種中沒有的明顯相似的序列。6. 什么是多序列比對(duì)的累進(jìn)算法？（三個(gè)步驟）答：第一，所有的序列之間逐一比對(duì)（雙重比對(duì)）；第二，生成一個(gè)系統(tǒng)樹圖，將序列按相似性大致分組；第三，使用系統(tǒng)樹圖作為引導(dǎo)，產(chǎn)生出最終的多序列比對(duì)結(jié)果。P527. 簡(jiǎn)述構(gòu)建進(jìn)化樹的步驟，每一步列舉1-2種使用的軟件或統(tǒng)計(jì)學(xué)方法。答：（1）多序列比對(duì)：Clustal W （2）校對(duì)比對(duì)結(jié)果：BIOEDIT（3）建樹：MEGA（4）評(píng)估系統(tǒng)發(fā)育信號(hào)和進(jìn)化樹的牢固度：自舉法（Bootstrap）8. 簡(jiǎn)述除權(quán)配對(duì)法（UPGMA）的算法思

45、想。答：通過兩兩比對(duì)聚類的方法進(jìn)行，在開始時(shí)，每個(gè)序列分為一類，分別作為一個(gè)樹枝的生長(zhǎng)點(diǎn)，然后將最近的兩序列合并，從而定義出一個(gè)節(jié)點(diǎn)，將這個(gè)過程不斷的重復(fù)，直到所有的序列都被加入，最后得到一棵進(jìn)化樹。9. 簡(jiǎn)述鄰接法（NJ）構(gòu)樹的算法思想。答：鄰接法的思想不僅僅計(jì)算最小兩兩比對(duì)距離，還對(duì)整個(gè)樹的長(zhǎng)度進(jìn)行最小化，從而對(duì)樹的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制。這種算法由一棵星狀樹開始，所有的物種都從一個(gè)中心節(jié)點(diǎn)出發(fā)，然后通過計(jì)算最小分支長(zhǎng)度的和相繼尋找到近鄰的兩個(gè)序列，每一輪過程中考慮所有可能的序列對(duì)，把能使樹的整個(gè)分支長(zhǎng)度最小的序列對(duì)一組，從而產(chǎn)生新的距離矩陣，直到尋找所有的近鄰序列。P11710. 簡(jiǎn)述最大簡(jiǎn)約

46、法（MP）的算法思想。P68答：是一種基于離散特征的進(jìn)化樹算法。生物演化應(yīng)該遵循簡(jiǎn)約性原則，所需變異次數(shù)最少（演化步數(shù)最少）的演化樹可能為最符合自然情況的系統(tǒng)樹。在具體的操作中，分為非加權(quán)最大簡(jiǎn)約分析（或稱為同等加權(quán)）和加權(quán)最大簡(jiǎn)約分析，后者是根據(jù)性狀本身的演化規(guī)律（比如DNA不同位點(diǎn)進(jìn)化速率不同）而對(duì)其進(jìn)行不同的加權(quán)處理。P12011. 簡(jiǎn)述最大似然法（ML）的算法思想。P69答：是一種基于離散特征的進(jìn)化樹算法。該法首先選擇一個(gè)合適的進(jìn)化模型，然后對(duì)所有可能的進(jìn)化樹進(jìn)行評(píng)估，通過對(duì)每個(gè)進(jìn)化位點(diǎn)的替代分配一個(gè)概率，最后找出概率最大的進(jìn)化樹。P12212. UPGMA構(gòu)樹法不精確的原因是什么？P

47、69答：由個(gè)于UPGMA假設(shè)在進(jìn)化過程中所有核苷酸/氨基酸都有相同的變異率，也就是存在著一個(gè)分子鐘；這種算法當(dāng)所構(gòu)建的進(jìn)化樹的序列進(jìn)化速率明顯不一致時(shí)，得到的進(jìn)化樹相對(duì)來說不準(zhǔn)確的。13. 在MEGA2軟件中，提供了哪些堿基替換距離模型，試列舉其中3種，解釋其含義。答：堿基替換模型包括，No.of differences 、p-distance、Jukes-Cantor distance、T ajima-Nei distance、Kimur 2-parameter distance、Tamura 3-parameter distance、Tamura-Nei distancep-distanc

48、e：表示有差異的核苷酸位點(diǎn)在序列中所占比例，將有差異的核苷酸位點(diǎn)數(shù)除已經(jīng)比對(duì)的總位點(diǎn)數(shù)就可以得到Jukes-Cantor：模型假設(shè) A T C G 的替換速率是一致的，然后給出兩個(gè)序列核苷酸替換數(shù)的最大似然估計(jì)Kimura 2-parameter：模型考慮到了轉(zhuǎn)換很顛換隊(duì)多重?fù)糁械挠绊?，但假設(shè)整個(gè)序列中4鐘核苷酸的頻率是相同哈德在不同位點(diǎn)上的堿基替換頻率是相同的。14. 試述DNA序列分析的流程及代表性分析工具。（1）尋找重復(fù)元件：RepeatMasker（2）同源性檢索確定是否存在已知基因：BLASTn（3）從頭開始方法預(yù)測(cè)基因：Genscan（4）分析各種調(diào)控序列：TRES/DRAGON

49、 PROMOTOR FINDER(5) CpG島：CpGPlot 代表性工具：ORF Finder、BLASTn、tBLASTx、BLASTx、Gene Wise15. 如何用BLAST發(fā)現(xiàn)新基因？；答：從一個(gè)一直蛋白質(zhì)序列開始，通過tBLASTn工具搜索一個(gè)DNA數(shù)據(jù)庫，可以找到相應(yīng)的匹配，如與DNA編碼的已知蛋白質(zhì)的匹配或者與DNA編碼的相關(guān)蛋白質(zhì)的匹配。然后通過BLASTx或BLASTp在蛋白質(zhì)數(shù)據(jù)庫中搜索DNA或蛋白質(zhì)序列來“確定”一個(gè)新基因。16.試述SCOP蛋白質(zhì)分類方案；答：SCOP將PDB數(shù)據(jù)庫中的蛋白質(zhì)按傳統(tǒng)分類方法分成型、型、/型、+型，并將多結(jié)構(gòu)域蛋白、膜蛋白和細(xì)胞表面蛋

50、白、N蛋白單獨(dú)分類，一共分成7種類型，并在此基礎(chǔ)上，按折疊類型、超家族、家族三個(gè)層次逐級(jí)分類。對(duì)于具有不同種屬來源的同源蛋白家族，SCOP數(shù)據(jù)庫按照種屬名稱將它們分成若干子類，一直到蛋白質(zhì)分子的亞基。17. 試述SWISS-PROT中的數(shù)據(jù)來源。答：（1）從核酸數(shù)據(jù)庫經(jīng)過翻譯推導(dǎo)而來；（2）從蛋白質(zhì)數(shù)據(jù)庫PIR挑選出合適的數(shù)據(jù)；（3）從科學(xué)文獻(xiàn)中摘錄；（4）研究人員直接提交的蛋白質(zhì)序列數(shù)據(jù)。18.TrEMBL哪兩個(gè)部分？答：（1）SP-TrEMBL(SWISS-PROT TrEMBL)：包含最終將要集成到SWISS-PROT的數(shù)據(jù)，所有的SP-TrEMBL序列都已被賦予SWISS-PROT的登

51、錄號(hào)。（2）REM-TrEMBL(REMaining TrEMBL)：包括所有不準(zhǔn)備放入SWISS-PROT的數(shù)據(jù)，因此這部分?jǐn)?shù)據(jù)都沒有登錄號(hào)。19. 試述PSI-BLAST 搜索的5個(gè)步驟。答：1 選擇待查序列（query）和蛋白質(zhì)數(shù)據(jù)庫；2 PSI-BLAST 構(gòu)建一個(gè)多序列比對(duì)，然后創(chuàng)建一個(gè)序列表譜（profile）又稱特定位置打分矩陣（PSSM）；3 PSSM被用作 query搜索數(shù)據(jù)庫4 PSI-BLAST 估計(jì)統(tǒng)計(jì)學(xué)意義 (E values)5 重復(fù) 3 和 4 , 直到?jīng)]有新的序列發(fā)現(xiàn)。20. 生物信息學(xué)數(shù)據(jù)庫的組成包括哪些部分？數(shù)據(jù)庫有哪些類型？答案：生物信息學(xué)數(shù)據(jù)庫的組成包

52、括一級(jí)數(shù)據(jù)庫和二級(jí)數(shù)據(jù)庫。數(shù)據(jù)庫的類型包括核算和蛋白質(zhì)一級(jí)結(jié)構(gòu)序列數(shù)據(jù)庫、基因組數(shù)據(jù)庫、生物大分子三維空間結(jié)構(gòu)數(shù)據(jù)庫、以上述3類數(shù)據(jù)庫和文獻(xiàn)資料為基礎(chǔ)構(gòu)建的二次數(shù)據(jù)庫。21. 簡(jiǎn)要介紹 GenBank中的DNA序列格式。答案：GenBank中的DNA序列格式可以分成三個(gè)部分，第一部分為描述符，從第一行LOCUS行到ORIGIN行，包含了關(guān)于整個(gè)記錄的信息；第二部分為特性表，從FEATURES行開始，包含了注釋這一紀(jì)錄的特性，是條目的核心，中間使用一批關(guān)鍵字；第三部分是核苷酸序列的本身。22. 生物信息學(xué)的目標(biāo)和任務(wù)？答案：收集和管理生物分子數(shù)據(jù)；數(shù)據(jù)分析和挖掘；開發(fā)分析工具和實(shí)用軟件：生物分子

53、序列比較工具、基因識(shí)別工具、生物分子結(jié)構(gòu)預(yù)測(cè)工具、基因表達(dá)數(shù)據(jù)分析工具。23.生物信息學(xué)主要研究?jī)?nèi)容。答案（1）生物分子數(shù)據(jù)的收集與管理；（2）數(shù)據(jù)庫搜索及序列比較；（3）基因組序列分析；（4）基因表達(dá)數(shù)據(jù)的分析與處理；（5）蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。24. 為什么要構(gòu)建生物分子數(shù)據(jù)庫。答案：（1）生物分子數(shù)據(jù)高速增長(zhǎng) （2）分子生物學(xué)及相關(guān)領(lǐng)域研究人員迅速獲得最新實(shí)驗(yàn)數(shù)據(jù)。25. 預(yù)測(cè)基因的一般步驟是什么？答案：獲取DNA目標(biāo)序列查找ORF并將目標(biāo)序列翻譯成蛋白質(zhì)序列，利用相應(yīng)工具查找ORF并將DNA序列翻譯成蛋白質(zhì)序列在數(shù)據(jù)庫中進(jìn)行序列搜索，利用BLAST進(jìn)行ORF核苷酸序列和ORF翻譯的蛋白

54、質(zhì)序列搜索進(jìn)行目標(biāo)序列與搜索得到的相似序列的全局對(duì)比查找基因家族進(jìn)行多序列比對(duì)，獲得比對(duì)區(qū)段的基因家族信息查找目標(biāo)序列中的特定模序，分別在Prosite、BLOCK、Motif數(shù)據(jù)庫中進(jìn)行profile、模塊（block）、模序（motif）檢索預(yù)測(cè)目標(biāo)序列蛋白質(zhì)結(jié)構(gòu)，利用PredictProtein（EMBL）、NNPREDICT等預(yù)測(cè)目標(biāo)序列的蛋白質(zhì)二級(jí)結(jié)構(gòu)。26. 生物信息學(xué)所用的方法和技術(shù)。答案（1）數(shù)學(xué)統(tǒng)計(jì)方法；（2）動(dòng)態(tài)規(guī)劃方法；（3）機(jī)器學(xué)習(xí)與模式識(shí)別技術(shù) ；（4）數(shù)據(jù)庫技術(shù)及數(shù)據(jù)挖掘；（5）人工神經(jīng)網(wǎng)絡(luò)技術(shù)；（6）專家系統(tǒng) ；（7）分子模型化技術(shù)；（8）量子力學(xué)和分子力學(xué)計(jì)

55、算；（9）生物分子的計(jì)算機(jī)模擬；（10）因特網(wǎng)（Internet）技術(shù)。27. 國(guó)際上權(quán)威的核酸序列數(shù)據(jù)庫有那些？答案（1）歐洲分子生物學(xué)實(shí)驗(yàn)室的EMBL 。（2）美國(guó)生物技術(shù)信息中心的GenBank。（3）日本遺傳研究所的DDBJ。28. 生物信息學(xué)在基因芯片中的應(yīng)用有哪些？答案：（1）確定芯片檢測(cè)目標(biāo)。（2）芯片設(shè)計(jì)。（3）實(shí)驗(yàn)數(shù)據(jù)管理與分析。29. 生物信息學(xué)分析的數(shù)據(jù)對(duì)象主要有哪幾種？這些數(shù)據(jù)之間存在著什么關(guān)系？答案：其研究重點(diǎn)主要落實(shí)在核酸和蛋白質(zhì)兩個(gè)方面，包括它們的序列、結(jié)構(gòu)和功能。生物信息學(xué)以基因組DNA序列信息分析作為出發(fā)點(diǎn)，破譯遺傳語言，認(rèn)識(shí)遺傳信息的組織規(guī)律，辨別隱藏在D

56、NA序列中的基因，掌握基因調(diào)控信息，對(duì)蛋白質(zhì)空間結(jié)構(gòu)進(jìn)行模擬和預(yù)測(cè)，依據(jù)蛋白質(zhì)結(jié)構(gòu)和功能的關(guān)系進(jìn)行藥物分子設(shè)計(jì)。30. 基因芯片對(duì)于生物分子信息檢測(cè)的作用和意義？答案：在生命科學(xué)領(lǐng)域中，基因芯片為分子生物學(xué)、生物醫(yī)學(xué)等研究提供了強(qiáng)有力的手段。利用基因芯片技術(shù)，可研究生命體系中不同部位、不同生長(zhǎng)發(fā)育階段的基因表達(dá)，比較不同個(gè)體或物種之間的基因表達(dá)，比較正常和疾病狀態(tài)下基因及其表達(dá)的差異?；蛐酒夹g(shù)也有助于研究不同層次的多基因協(xié)同作用的生命過程，發(fā)現(xiàn)新的基因功能，研究生物體在進(jìn)化、發(fā)育、遺傳過程中的規(guī)律。31. 基因組序列分析方面，科學(xué)家關(guān)注哪些信息？答案：就人類基因組而言，編碼區(qū)域在人類基因組

57、所占的比例不超過3%。其余97%是非編碼序列。對(duì)于非編碼序列，人們了解得比較少，尚不清楚其含義或功能。然而，非編碼區(qū)域?qū)τ谏顒?dòng)具有重要的意義。這部分序列主要包括內(nèi)含子、簡(jiǎn)單重復(fù)序列、移動(dòng)元件（mobile element）及其遺留物、偽基因（pseudo gene）等。32. 為什么要進(jìn)行序列片段組裝？在進(jìn)行序列片段組裝時(shí)會(huì)遇到哪些問題？答案：大規(guī)?；蚪M測(cè)序得到待測(cè)序列的一系列序列片段，這些序列片段覆蓋待測(cè)序列，序列片段之間也存在著相互覆蓋或者重疊。遇到的問題：堿基標(biāo)識(shí)錯(cuò)誤；不知道片段的方向；存在重復(fù)區(qū)域；缺少覆蓋。33. 序列分析的任務(wù)和目的分別是什么？答案：任務(wù)（1）發(fā)現(xiàn)序列之間的相似性；（2）辨別序列之間的差異。目的：（1）相似序列：相似的結(jié)構(gòu)，相似的功能（2）判別序列之間的同源性（3）推測(cè)序列之間的進(jìn)化關(guān)系34.P CR引物設(shè)計(jì)有哪些原則？答案：產(chǎn)物不能形成二級(jí)結(jié)構(gòu)；引物長(zhǎng)度一般在1530個(gè)

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

生物信息學(xué)復(fù)習(xí)題

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

生物信息學(xué)復(fù)習(xí)題

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔