版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2025年生物信息學(xué)專業(yè)國家考試試卷及答案一、單項選擇題(共20題,每題2分,共40分)1.下列關(guān)于二代測序(NGS)技術(shù)的描述中,錯誤的是:A.Illumina測序的核心是邊合成邊測序(SBS)B.IonTorrent通過檢測H?離子釋放進行堿基識別C.PacBioSMRT屬于二代測序技術(shù)D.雙端測序(Paired-End)可提高基因組組裝的連續(xù)性2.在人類基因組注釋中,RefSeq數(shù)據(jù)庫的主要特點是:A.整合所有公共數(shù)據(jù)庫的注釋信息B.提供經(jīng)過人工審核的非冗余序列及功能注釋C.專注于非編碼RNA的注釋D.僅包含模式生物的基因組數(shù)據(jù)3.進行全基因組關(guān)聯(lián)分析(GWAS)時,常用的群體分層校正方法是:A.主成分分析(PCA)B.曼哈頓圖繪制C.LD衰減分析D.單倍型推斷4.下列工具中,專門用于長讀長測序數(shù)據(jù)(如PacBio)糾錯的是:A.BWAB.CanuC.FastQCD.Trimmomatic5.在RNA-seq數(shù)據(jù)分析中,若實驗設(shè)計包含3個生物學(xué)重復(fù),每個重復(fù)的測序量為20Mreads,理論上可檢測到的基因表達量動態(tài)范圍主要取決于:A.測序錯誤率B.基因長度C.測序深度D.樣本RNA完整性(RIN值)6.蛋白質(zhì)結(jié)構(gòu)預(yù)測中,基于同源建模(HomologyModeling)的關(guān)鍵步驟是:A.構(gòu)建多序列比對(MSA)B.從頭預(yù)測(Abinitio)C.分子動力學(xué)模擬D.圓二色譜(CD)實驗驗證7.下列關(guān)于CRISPR-Cas9脫靶效應(yīng)預(yù)測的工具中,基于機器學(xué)習(xí)模型的是:A.CRISPRaterB.Cas-OFFinderC.CCTopD.sgRNAScorer8.微生物宏基因組學(xué)中,常用于物種組成分析的數(shù)據(jù)庫是:A.KEGGB.NCBInt/nrC.SILVAD.dbSNP9.在單細胞RNA-seq數(shù)據(jù)分析中,消除批次效應(yīng)(BatchEffect)的常用方法是:A.主成分分析(PCA)降維B.使用MNN(MutualNearestNeighbors)算法C.計算UMAP投影D.差異表達基因(DEG)篩選10.下列關(guān)于基因組組裝質(zhì)量評估的指標(biāo)中,不屬于連續(xù)性指標(biāo)的是:A.N50B.L50C.單堿基錯誤率(QV值)D.Contig數(shù)量11.在ChIP-seq數(shù)據(jù)分析中,峰(Peak)的識別主要依賴于:A.測序讀長的GC含量分布B.轉(zhuǎn)錄因子結(jié)合位點的保守性C.實驗組與輸入對照(Input)的信號富集差異D.染色質(zhì)開放區(qū)域的預(yù)測12.進行miRNA靶基因預(yù)測時,以下哪項不是常用的算法依據(jù)?A.miRNA與靶mRNA的3'UTR互補配對B.靶位點的進化保守性C.miRNA的表達量與靶基因的負相關(guān)性D.靶基因的外顯子數(shù)量13.蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)網(wǎng)絡(luò)分析中,用于衡量節(jié)點重要性的指標(biāo)是:A.聚類系數(shù)(ClusteringCoefficient)B.介度中心性(BetweennessCentrality)C.邊權(quán)重(EdgeWeight)D.模塊度(Modularity)14.下列關(guān)于三代測序(TGS)技術(shù)的描述中,正確的是:A.錯誤率主要為隨機錯誤,可通過多次測序校正B.讀長通常小于1kbC.主要用于小基因組(如細菌)的組裝D.無法檢測DNA甲基化修飾15.在系統(tǒng)發(fā)育樹構(gòu)建中,最大似然法(MaximumLikelihood)與鄰接法(Neighbor-Joining)的主要區(qū)別是:A.前者基于序列進化模型,后者基于距離矩陣B.前者計算速度更快C.后者對長分支吸引(LongBranchAttraction)更敏感D.前者僅適用于蛋白質(zhì)序列16.表觀遺傳學(xué)研究中,用于全基因組DNA甲基化分析的常用技術(shù)是:A.MeDIP-seq(甲基化DNA免疫共沉淀測序)B.ATAC-seq(轉(zhuǎn)座酶可接近染色質(zhì)測序)C.Hi-C(染色體構(gòu)象捕獲測序)D.RIP-seq(RNA免疫共沉淀測序)17.下列工具中,專門用于可變剪切(AlternativeSplicing)分析的是:A.DESeq2B.rMATSC.SalmonD.STAR18.在代謝組學(xué)數(shù)據(jù)分析中,常用的多元統(tǒng)計方法是:A.t檢驗B.主成分分析(PCA)和偏最小二乘判別分析(PLS-DA)C.卡方檢驗D.曼-惠特尼U檢驗19.基因編輯技術(shù)中,基于堿基編輯(BaseEditing)的工具可實現(xiàn)的突變類型是:A.大片段缺失B.插入外源基因C.C·G到T·A或A·T到G·C的單堿基轉(zhuǎn)換D.任意堿基的顛換(如C到A)20.下列關(guān)于生物信息學(xué)數(shù)據(jù)庫的描述中,錯誤的是:A.GenBank是綜合性核酸序列數(shù)據(jù)庫B.UniProt專注于蛋白質(zhì)序列與功能注釋C.dbSNP僅包含人類的單核苷酸多態(tài)性數(shù)據(jù)D.GEO(GeneExpressionOmnibus)存儲微陣列和測序的表達譜數(shù)據(jù)二、填空題(共10題,每空2分,共20分)1.常用的短讀長序列比對工具中,______適用于全基因組重測序數(shù)據(jù)的快速比對,而______則更適合RNA-seq數(shù)據(jù)的剪接位點識別。2.單核苷酸多態(tài)性(SNP)檢測的核心步驟包括:序列比對、______、______和注釋。3.蛋白質(zhì)三維結(jié)構(gòu)預(yù)測的三大方法是:同源建模、______和______。4.宏基因組學(xué)中,基于序列相似性的物種分類工具通常使用______(如16SrRNA)或______(如看家基因)作為標(biāo)記基因。5.在單細胞測序數(shù)據(jù)降維中,UMAP(UniformManifoldApproximationandProjection)比t-SNE更優(yōu)的特點是______。6.染色質(zhì)可及性分析的常用技術(shù)是______,其核心原理是利用轉(zhuǎn)座酶優(yōu)先切割______的染色質(zhì)區(qū)域。7.基因共表達網(wǎng)絡(luò)分析(WGCNA)的主要步驟包括:構(gòu)建共表達矩陣、______、______和模塊功能富集。8.三代測序數(shù)據(jù)的組裝流程通常包括:糾錯、______和______。9.miRNA前體(pre-miRNA)的典型結(jié)構(gòu)是______,其成熟過程需要______酶(如Dicer)的切割。10.蛋白質(zhì)功能預(yù)測中,基于結(jié)構(gòu)的方法常通過______(如PDB數(shù)據(jù)庫)搜索相似結(jié)構(gòu),進而推斷功能。三、簡答題(共5題,每題8分,共40分)1.簡述二代測序數(shù)據(jù)質(zhì)量控制(QC)的主要步驟及常用工具。2.比較BLAST(BasicLocalAlignmentSearchTool)與Bowtie/BWA在序列比對中的應(yīng)用場景及算法差異。3.請說明RNA-seq中“FPKM”“TPM”和“Counts”三種表達量量化指標(biāo)的區(qū)別及適用場景。4.什么是連鎖不平衡(LD)?在GWAS中,LD如何影響顯著性位點的解讀?5.簡述基于機器學(xué)習(xí)的癌癥分類模型構(gòu)建流程(需包含數(shù)據(jù)預(yù)處理、特征選擇、模型訓(xùn)練與驗證步驟)。四、分析題(共2題,每題15分,共30分)1.某實驗室獲得了一組肝癌組織與癌旁組織的全外顯子測序(WES)數(shù)據(jù)(每組3例,測序深度100×),請設(shè)計完整的分析流程,包括關(guān)鍵步驟、工具選擇及各步驟的目的。2.給定一份人源單細胞RNA-seq數(shù)據(jù)(10×Genomics平臺,10,000個細胞),需完成細胞類型注釋、差異表達分析及信號通路富集。請詳細描述分析策略(包括降維、聚類、標(biāo)記基因驗證及通路分析的具體方法)。五、綜合應(yīng)用題(共1題,20分)某研究團隊擬探索某罕見遺傳病的致病基因,已收集到3個家系(每個家系包含患者及父母)的全基因組測序數(shù)據(jù)(測序深度30×),且表型提示與神經(jīng)發(fā)育異常相關(guān)。請設(shè)計多組學(xué)整合分析方案,包括:(1)候選基因篩選策略;(2)功能驗證的生物信息學(xué)方法;(3)需結(jié)合的其他組學(xué)數(shù)據(jù)(如轉(zhuǎn)錄組、表觀組)及整合邏輯。答案一、單項選擇題1.C(PacBioSMRT屬于三代測序技術(shù))2.B(RefSeq提供人工審核的非冗余注釋)3.A(PCA用于校正群體分層)4.B(Canu用于長讀長糾錯與組裝)5.C(測序深度決定動態(tài)范圍)6.A(同源建模需構(gòu)建多序列比對)7.D(sgRNAScorer基于機器學(xué)習(xí))8.C(SILVA是16S/18SrRNA數(shù)據(jù)庫)9.B(MNN用于消除批次效應(yīng))10.C(QV值反映堿基準(zhǔn)確性,非連續(xù)性)11.C(ChIP-seq峰識別依賴實驗組與Input的富集差異)12.D(外顯子數(shù)量非miRNA靶基因預(yù)測依據(jù))13.B(介度中心性衡量節(jié)點重要性)14.A(三代測序錯誤為隨機錯誤,可通過多次測序校正)15.A(最大似然法基于進化模型,鄰接法基于距離矩陣)16.A(MeDIP-seq用于甲基化分析)17.B(rMATS分析可變剪切)18.B(PCA和PLS-DA用于代謝組學(xué)多元統(tǒng)計)19.C(堿基編輯實現(xiàn)單堿基轉(zhuǎn)換)20.C(dbSNP包含多物種SNP數(shù)據(jù))二、填空題1.Bowtie/BWA;STAR2.局部重比對(Realignment);變異Calling(如GATKHaplotypeCaller)3.從頭預(yù)測(Abinitio);折疊識別(Threading)4.16SrRNA基因;單拷貝看家基因(如rpoB)5.更好地保留全局結(jié)構(gòu)(或“計算效率更高”)6.ATAC-seq;開放(或“可及性高”)7.構(gòu)建拓撲重疊矩陣(TOM);模塊劃分(或“聚類”)8.組裝(如Flye);拋光(Polishing,如Racon/Medaka)9.莖環(huán)結(jié)構(gòu)(Hairpin);RNaseIII10.結(jié)構(gòu)同源搜索(或“PDB數(shù)據(jù)庫比對”)三、簡答題1.質(zhì)量控制步驟及工具:(1)原始數(shù)據(jù)檢查:使用FastQC評估讀長分布、GC含量、測序錯誤率、接頭污染等;(2)過濾低質(zhì)量數(shù)據(jù):Trimmomatic(切除接頭、過濾低質(zhì)量堿基)或Fastp(快速過濾并質(zhì)控);(3)比對后質(zhì)控:使用Picard計算比對率、覆蓋度、重復(fù)率(DuplicationRate);(4)多樣本相關(guān)性分析(如RNA-seq):使用DESeq2或edgeR計算樣本間Pearson/Spearman相關(guān)系數(shù),排除異常樣本。2.BLAST與Bowtie/BWA的比較:應(yīng)用場景:BLAST用于相似性搜索(如同源基因查找、未知序列功能注釋),適用于長序列或低相似度比對;Bowtie/BWA用于短讀長(50-300bp)與參考基因組的快速比對(如重測序、RNA-seq)。算法差異:BLAST基于啟發(fā)式算法(局部比對,使用種子擴展);Bowtie/BWA基于Burrows-Wheeler變換(BWT)構(gòu)建索引,實現(xiàn)快速精確比對(允許少量錯配)。3.FPKM、TPM與Counts的區(qū)別:-Counts:原始測序讀長映射到基因的數(shù)量,未標(biāo)準(zhǔn)化,受基因長度和測序深度影響;-FPKM(每百萬映射讀長的千堿基轉(zhuǎn)錄本片段數(shù)):校正基因長度(除以基因長度)和測序深度(除以總映射讀長×10?),適用于單樣本基因表達量比較;-TPM(轉(zhuǎn)錄本每百萬):先校正基因長度(計算RPK),再對所有基因的RPK求和并標(biāo)準(zhǔn)化(除以總和×10?),適用于多樣本間基因表達比例的比較(TPM總和在樣本間一致)。4.連鎖不平衡(LD)與GWAS解讀:LD指染色體上兩個位點的等位基因非隨機關(guān)聯(lián)的現(xiàn)象(通常由遺傳距離近、選擇或遺傳漂變導(dǎo)致)。在GWAS中,顯著關(guān)聯(lián)的SNP可能并非致病位點,而是與真正致病位點處于高LD狀態(tài)(即“搭車效應(yīng)”)。因此,需通過LD區(qū)塊分析(如使用Haploview繪制LD圖)或精細定位(如測序擴展區(qū)域)確定因果變異。5.機器學(xué)習(xí)癌癥分類模型構(gòu)建流程:(1)數(shù)據(jù)預(yù)處理:標(biāo)準(zhǔn)化(如Z-score)、缺失值填補(如KNN插補)、去除低方差特征;(2)特征選擇:使用方差分析(ANOVA)篩選差異表達基因,或LASSO回歸進行特征壓縮;(3)模型訓(xùn)練:劃分訓(xùn)練集(70%)、驗證集(20%)、測試集(10%),選擇算法(如隨機森林、支持向量機),通過交叉驗證(5折CV)優(yōu)化超參數(shù);(4)模型驗證:計算準(zhǔn)確率(Accuracy)、AUC-ROC、F1-score等指標(biāo),通過測試集評估泛化能力;(5)生物學(xué)解釋:分析關(guān)鍵特征(如Top10特征基因)的功能富集,驗證其與癌癥的已知關(guān)聯(lián)。四、分析題1.肝癌WES數(shù)據(jù)分析流程:(1)原始數(shù)據(jù)質(zhì)控:FastQC檢查質(zhì)量,F(xiàn)astp過濾接頭及低質(zhì)量讀長(Q≤20);(2)比對至參考基因組:BWA-MEM比對到GRCh38,生成SAM/BAM文件;(3)比對后處理:Picard標(biāo)記重復(fù)讀長(MarkDuplicates),GATKBaseRecalibrator進行堿基質(zhì)量重校準(zhǔn);(4)SNP/Indel檢測:GATKHaplotypeCaller進行變異檢測,生成gVCF文件;(5)變異注釋:ANNOVAR或VEP注釋功能(如外顯子區(qū)、錯義突變)、頻率(ExAC/gnomAD)、致病性(SIFT/PolyPhen-2、ClinVar);(6)候選變異篩選:過濾頻率<1%(排除人群多態(tài))、功能為錯義/無義/移碼突變,結(jié)合肝癌相關(guān)數(shù)據(jù)庫(如TCGA-LIHC)篩選差異基因;(7)家系共分離分析:驗證變異是否在患者中存在、父母為攜帶者(常染色體隱性)或患者父母之一攜帶(顯性);(8)功能預(yù)測:使用MutationTaster、PROVEAN預(yù)測突變對蛋白質(zhì)功能的影響;(9)富集分析:對候選基因進行KEGG/GO富集,聚焦癌癥相關(guān)通路(如p53、PI3K-AKT)。2.單細胞RNA-seq分析策略:(1)數(shù)據(jù)預(yù)處理:CellRanger進行解復(fù)用(Demultiplexing)、比對(STAR)、UMI計數(shù),過濾低質(zhì)量細胞(UMI數(shù)<500、線粒體基因比例>20%);(2)標(biāo)準(zhǔn)化與降維:使用SCTransform標(biāo)準(zhǔn)化,PCA提取主成分(取前20-30個PC),UMAP降維可視化;(3)細胞聚類:基于UMAP坐標(biāo),使用Louvain或Leiden算法進行聚類(分辨率參數(shù)0.5-1.2);(4)細胞類型注釋:-標(biāo)記基因驗證:查詢已知標(biāo)記基因(如CD3E[T細胞]、CD19[B細胞]、ALB[肝細胞]),使用Seurat的FindMarkers函數(shù)篩選各聚類的差異基因(logFC>0.5,p<0.05);-自動化注釋:通過SingleR比對參考數(shù)據(jù)集(如HumanPrimaryCellAtlas)確定細胞類型;(5)差異表達分析:針對特定細胞亞群(如腫瘤細胞vs.正常肝細胞),使用Wilcoxon秩和檢驗或MAST模型識別DEG;(6)信號通路富集:將DEG輸入Reactome或KEGG數(shù)據(jù)庫,使用clusterProfiler進行富集分析,繪制氣泡圖或熱圖展示顯著通路(FDR<0.05)。五、綜合應(yīng)用題罕見遺傳病致病基因分析方案:(1)候選基因篩選策略:-變異過濾:基于家系結(jié)構(gòu)(如隱性遺傳需患者為純合/復(fù)合雜合,顯性遺傳需患者為雜合且父母之一攜帶);-功能篩選:保留外顯子區(qū)/剪接位點的錯義、無義、移碼突變(排除同義突變
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 46385.2-2025光路板第2部分:基本試驗和測量程序光學(xué)特性測量條件導(dǎo)則
- GB/T 46384.1-2025電子氣體中酸度的測定第1部分:傅里葉變換紅外光譜法
- GB/T 714-2025橋梁用結(jié)構(gòu)鋼
- GB/T 46803.2-2025信息技術(shù)基于極化碼的低功耗無線通信網(wǎng)絡(luò)第2部分:數(shù)據(jù)鏈路層
- 2026年浙江育英職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性考試題庫參考答案詳解
- 2026年貴州水利水電職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)考試題庫及答案詳解1套
- 2026年西安城市建設(shè)職業(yè)學(xué)院單招職業(yè)傾向性測試題庫及參考答案詳解一套
- 2026年汕頭職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫及答案詳解1套
- 2026年甘肅畜牧工程職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試題庫及參考答案詳解一套
- 2026年廈門安防科技職業(yè)學(xué)院單招綜合素質(zhì)考試題庫及完整答案詳解1套
- 液壓與氣動技術(shù)PPT完整版全套教學(xué)課件
- 巴旦木脫青皮的設(shè)計說明書
- 中藥配位化學(xué)研究及應(yīng)用
- 2023屆廣東省深圳市高三第二次調(diào)研考試語文講評課件
- 全國碩士研究生入學(xué)統(tǒng)一考試《思想政治理論》試題答題卡模板
- 水肥一體化技術(shù)稿
- GB/T 31849-2015汽車貼膜玻璃
- FZ/T 73023-2006抗菌針織品
- 智慧檔案館大數(shù)據(jù)平臺建設(shè)和運營整體解決方案
- 酒店施工策劃演示文稿1
- 樓板鑿除重新澆筑方案
評論
0/150
提交評論