版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第七章 基因芯片數(shù)據(jù)分析Microarray Data Analysis生物信息學(xué)基因芯片數(shù)據(jù)分析第1頁第一節(jié) 引言 Introduction 基因芯片(DNA微陣列)是上世紀(jì)九十年代,伴隨計(jì)算機(jī)技術(shù)和基因組測序技術(shù)發(fā)展而發(fā)展起來一個新型生物技術(shù),它能夠平行、高通量地監(jiān)測成千上萬基因轉(zhuǎn)錄本表示水平,從而為系統(tǒng)地監(jiān)測細(xì)胞內(nèi)mRNA分子表示狀態(tài)進(jìn)而推測細(xì)胞功效狀態(tài)提供了可能。生物信息學(xué)基因芯片數(shù)據(jù)分析第2頁第二節(jié) 芯片平臺及數(shù)據(jù)庫 General Microarray Platform and Database 一、cDNA微陣列芯片生物信息學(xué)基因芯片數(shù)據(jù)分析第3頁 寡核苷酸芯片類似于cDNA芯片
2、,不過在探針設(shè)計(jì)上優(yōu)于cDNA芯片,它探針并不是起源于cDNA克隆,而是預(yù)先設(shè)計(jì)并合成代表每個基因特異片段約50mer左右長度序列,然后將其點(diǎn)樣到特定基質(zhì)上制備成芯片,從而克服了探針序列太長造成非特異性交叉雜交和因?yàn)樘结橂s交條件改變巨大造成數(shù)據(jù)結(jié)果不可靠。 二、寡核苷酸芯片 生物信息學(xué)基因芯片數(shù)據(jù)分析第4頁三、原位合成芯片 生物信息學(xué)基因芯片數(shù)據(jù)分析第5頁四、光纖微珠芯片(Bead Array)生物信息學(xué)基因芯片數(shù)據(jù)分析第6頁五、基因表示倉庫 Gene Expression Omnibus,GEO六、斯坦福微陣列數(shù)據(jù)庫 The Stanford Microarray Database,SMD
3、七、其它慣用基因表示數(shù)據(jù)庫 ArrayExpress、CGED生物信息學(xué)基因芯片數(shù)據(jù)分析第7頁第三節(jié) 基因芯片數(shù)據(jù)預(yù)處理General Microarray Data Type and Database 一、基因芯片數(shù)據(jù)提取(一) cDNA微陣列芯片生物信息學(xué)基因芯片數(shù)據(jù)分析第8頁(二) 原位合成芯片定性信息提取:P/A/M(Present/Absent/Marginal) 定量信息提?。夯谔结樇瘏R總后基因水平熒光信號強(qiáng)度值 生物信息學(xué)基因芯片數(shù)據(jù)分析第9頁二、對數(shù)轉(zhuǎn)換對芯片數(shù)據(jù)做對數(shù)化轉(zhuǎn)換后,數(shù)據(jù)可近似正態(tài)分布 生物信息學(xué)基因芯片數(shù)據(jù)分析第10頁三、數(shù)據(jù)過濾 數(shù)據(jù)過濾目標(biāo)是去除表示水平是負(fù)
4、值或很小數(shù)據(jù)或者顯著噪聲數(shù)據(jù)。過閃耀現(xiàn)象 物理原因造成信號污染 雜交效能低點(diǎn)樣問題其它生物信息學(xué)基因芯片數(shù)據(jù)分析第11頁四、補(bǔ)缺失值(一)數(shù)據(jù)缺失類型非隨機(jī)缺失 基因表示豐度過高或過低隨機(jī)缺失 與基因表示豐度無關(guān),數(shù)據(jù) 補(bǔ)缺主要針對隨機(jī)缺失情況生物信息學(xué)基因芯片數(shù)據(jù)分析第12頁(二)數(shù)據(jù)補(bǔ)缺方法1. 簡單補(bǔ)缺法missing values = 0 expressionmissing values = 1 expression (arbitrary signal)missing values = row (gene) averagemissing values = column (array)
5、average生物信息學(xué)基因芯片數(shù)據(jù)分析第13頁2. k近鄰法選擇與含有缺失值基因k個鄰居基因用鄰居基因加權(quán)平均預(yù)計(jì)缺失值參數(shù):鄰居個數(shù)距離函數(shù)生物信息學(xué)基因芯片數(shù)據(jù)分析第14頁3. 回歸法4. 其它方法生物信息學(xué)基因芯片數(shù)據(jù)分析第15頁五、數(shù)據(jù)標(biāo)準(zhǔn)化(一)為何要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化存在不一樣起源系統(tǒng)誤差染料物理特征差異(熱光敏感性,半衰期等)染料結(jié)合效率點(diǎn)樣針差異數(shù)據(jù)搜集過程中掃描設(shè)施不一樣芯片間差異試驗(yàn)條件差異生物信息學(xué)基因芯片數(shù)據(jù)分析第16頁(二)利用哪些基因進(jìn)行標(biāo)準(zhǔn)化處理芯片上大部分基因(假設(shè)芯片上大部分基因在不一樣條件下表示量相同) 不一樣條件間穩(wěn)定表示基因(如持家基因)控制序列(spik
6、ed control) 在不一樣條件下表示水平相同合成DNA序列或外源DNA序列。生物信息學(xué)基因芯片數(shù)據(jù)分析第17頁1. 片內(nèi)標(biāo)化(within-slide normalization) (1) 全局標(biāo)化(global normalization)(三) cDNA芯片數(shù)據(jù)標(biāo)準(zhǔn)化處理假設(shè): R=k*G方法:c=log2k:中值或均值生物信息學(xué)基因芯片數(shù)據(jù)分析第18頁 (2) 熒光強(qiáng)度依賴標(biāo)化(intensity dependent normalization)為何方法: scatter-plot smoother lowess擬合 c(A) 為M 對A 擬合函數(shù)標(biāo)化后數(shù)據(jù)生物信息學(xué)基因芯片數(shù)據(jù)分
7、析第19頁 (3) 點(diǎn)樣針依賴標(biāo)化(within-print-tip-group normalization) 為何 一張芯片不一樣區(qū)域利用不一樣點(diǎn)樣針點(diǎn)樣,從而引入點(diǎn)樣針帶來系統(tǒng)誤差。method生物信息學(xué)基因芯片數(shù)據(jù)分析第20頁(4) 尺度調(diào)整(scale adjustment)為何 調(diào)整不一樣?xùn)鸥?grids)間數(shù)據(jù)離散度 方法:計(jì)算不一樣?xùn)鸥癯叨纫蜃?生物信息學(xué)基因芯片數(shù)據(jù)分析第21頁2. 片間標(biāo)化(multiple-slide normalization)線性標(biāo)化法(linear scaling methods) 與芯片內(nèi)標(biāo)化尺度調(diào)整(scale adjustment) 方法類似非線
8、性標(biāo)化法(non-linear methods)分位數(shù)標(biāo)化法(quantile normalization) 兩張芯片表示數(shù)據(jù)分位數(shù)標(biāo)化至相同,即分布于對角線上生物信息學(xué)基因芯片數(shù)據(jù)分析第22頁3. 染色交換試驗(yàn)(dye-swap experiment ) 標(biāo)化 試驗(yàn)組 對照組 芯片1 cy5(R) cy3(G) 芯片2 cy3(G) cy5(R)前提假設(shè):cc方法:生物信息學(xué)基因芯片數(shù)據(jù)分析第23頁 1. 提取定性信號(1)對每個探針對計(jì)算R R = (PM MM ) / (PM + MM )(2)比較R與定義閾值Tau(小正值,默認(rèn)值為0.015 ).(3) 單側(cè)Wilcoxons Sig
9、ned Rank test產(chǎn)生p值,依據(jù)p值定義定量信號值 Present call Marginal call Absent call (四) 芯片數(shù)據(jù)標(biāo)準(zhǔn)化生物信息學(xué)基因芯片數(shù)據(jù)分析第24頁2. 提取定量信號(1)分析步驟獲取探針?biāo)綌?shù)據(jù)背景值效正標(biāo)準(zhǔn)化處理探針特異背景值效正探針集信號匯總生物信息學(xué)基因芯片數(shù)據(jù)分析第25頁(2)分析方法生物信息學(xué)基因芯片數(shù)據(jù)分析第26頁生物信息學(xué)基因芯片數(shù)據(jù)分析第27頁生物信息學(xué)基因芯片數(shù)據(jù)分析第28頁生物信息學(xué)基因芯片數(shù)據(jù)分析第29頁生物信息學(xué)基因芯片數(shù)據(jù)分析第30頁生物信息學(xué)基因芯片數(shù)據(jù)分析第31頁M = log2R - log2GA = (log2R
10、 + log2G)/2生物信息學(xué)基因芯片數(shù)據(jù)分析第32頁生物信息學(xué)基因芯片數(shù)據(jù)分析第33頁生物信息學(xué)基因芯片數(shù)據(jù)分析第34頁 前面提及標(biāo)準(zhǔn)化方法僅效正了數(shù)據(jù)分布中心,在不一樣?xùn)鸥耖glog-Ratios 方差也不一樣。生物信息學(xué)基因芯片數(shù)據(jù)分析第35頁生物信息學(xué)基因芯片數(shù)據(jù)分析第36頁第四節(jié) 差異表示分析Analysis of Differentially Expression Gene 一、倍數(shù)法試驗(yàn)條件下表示值對照條件下表示值通常以2倍差異為閾值,判斷基因是否差異表示生物信息學(xué)基因芯片數(shù)據(jù)分析第37頁二、t檢驗(yàn)法 利用t檢驗(yàn)法能夠判斷基因在兩不一樣條件下表示差異是否含有顯著性 生物信息學(xué)基因
11、芯片數(shù)據(jù)分析第38頁三、方差分析 方差分析可用于基因在兩種或各種條件間表示量比較,它將基因在樣本之間總變異分解為組間變異和組內(nèi)變異兩部分。經(jīng)過方差分析假設(shè)檢驗(yàn)判斷組間變異是否存在,假如存在則表明基因在不一樣條件下表示有差異。生物信息學(xué)基因芯片數(shù)據(jù)分析第39頁四、SAM (significance analysis of microarrays)(一) 多重假設(shè)檢驗(yàn)問題型錯誤(假陽性)即在假設(shè)檢驗(yàn)作推斷結(jié)論時(shí),拒絕了實(shí)際上正確檢驗(yàn)假設(shè),即將無差異表示基因判斷為差異表示。型錯誤(假陰性)即不拒絕實(shí)際上不正確,即將有差異表示基因判斷為無差異表示。在進(jìn)行差異基因挑選時(shí),整個差異基因篩選過程需要做成千上
12、萬次假設(shè)檢驗(yàn),造成假陽性率累積增大。對于這種多重假設(shè)檢驗(yàn)帶來放大假陽性率,需要進(jìn)行糾正。慣用糾正策略有Bonferroni效正,控制FDR(false discovery rate)值等。生物信息學(xué)基因芯片數(shù)據(jù)分析第40頁(二) 分析步驟計(jì)算統(tǒng)計(jì)量擾動試驗(yàn)條件,計(jì)算擾動后基因表示相對差異統(tǒng)計(jì)量計(jì)算擾動后平均相對差異統(tǒng)計(jì)量生物信息學(xué)基因芯片數(shù)據(jù)分析第41頁確定差異表示基因閾值:以最小 正值和最大負(fù)值作為統(tǒng)計(jì)閾 值,利用該閾值,統(tǒng)計(jì)在值中超 過該閾值假陽性基因個數(shù),估 計(jì)假陽性發(fā)覺率FDR值。經(jīng)過調(diào)整FDR值大小得到差異 表示基因。生物信息學(xué)基因芯片數(shù)據(jù)分析第42頁五、信息熵 利用信息熵進(jìn)行差異基
13、因挑選時(shí),不需要用到樣本類別信息,所以利用信息熵找到差異基因是指在全部條件下表示波動比較大基因。 生物信息學(xué)基因芯片數(shù)據(jù)分析第43頁第五節(jié) 基因芯片數(shù)據(jù)聚類分析Cluster Analysis of Microarray Data 一、聚類目基于物體相同性將物體分成不一樣組生物信息學(xué)基因芯片數(shù)據(jù)分析第44頁二、基因表示譜數(shù)據(jù)聚類對基因進(jìn)行聚類 識別功效相關(guān)基因 識別基因共表示模式對樣本進(jìn)行聚類 質(zhì)量控制 檢驗(yàn)樣本是否按已知 類別分組發(fā)覺亞型 樣本基因基因表示譜生物信息學(xué)基因芯片數(shù)據(jù)分析第45頁三、距離尺度函數(shù)幾何距離線性相關(guān)系數(shù)非線性相關(guān)系數(shù)互信息其它 生物信息學(xué)基因芯片數(shù)據(jù)分析第46頁四、聚
14、類算法(一)層次聚類層次聚類算法將研究對象按照它們相同性關(guān)系用樹形圖進(jìn)行展現(xiàn),進(jìn)行層次聚類時(shí)不需要預(yù)先設(shè)定類別個數(shù),樹狀聚類結(jié)構(gòu)能夠展示嵌套式類別關(guān)系。生物信息學(xué)基因芯片數(shù)據(jù)分析第47頁在對含非單獨(dú)對象類進(jìn)行合并或分裂時(shí),慣用類間度量方法生物信息學(xué)基因芯片數(shù)據(jù)分析第48頁Alizadeh等利用基因芯片數(shù)據(jù),基于層次聚類算法證實(shí)了DLBCL腫瘤病人在mRNA層面確實(shí)存在兩種亞型生物信息學(xué)基因芯片數(shù)據(jù)分析第49頁(二)k均值聚類基本思想生物信息學(xué)基因芯片數(shù)據(jù)分析第50頁(三)自組織映射聚類基本思想:在不停學(xué)習(xí)過程中,輸出層神經(jīng)元依據(jù)輸入樣本特點(diǎn)進(jìn)行權(quán)重調(diào)整,最終拓樸結(jié)構(gòu)發(fā)生了改變 生物信息學(xué)基因芯
15、片數(shù)據(jù)分析第51頁(四)雙向聚類雙向聚類就是識別基因表示譜矩陣中同質(zhì)子矩陣,利用特定基因子類識別樣本子類。 生物信息學(xué)基因芯片數(shù)據(jù)分析第52頁第六節(jié) 基因芯片數(shù)據(jù)分類分析Classification of Microarray Data 一、線性判別分類器生物信息學(xué)基因芯片數(shù)據(jù)分析第53頁二、k 近鄰分類法 基本思想生物信息學(xué)基因芯片數(shù)據(jù)分析第54頁三、PAM分類法Prediction Analysis for Microarray基因1基因2 基本思想 每類樣本質(zhì)心向全部樣本質(zhì)心進(jìn)行收縮,即收縮每個基因類均值,收縮數(shù)量由值決定。當(dāng)收縮過程發(fā)生時(shí),一些基因在不一樣類中將會有相同類均值,這些基因
16、就不含有類間區(qū)分效能。 生物信息學(xué)基因芯片數(shù)據(jù)分析第55頁計(jì)算統(tǒng)計(jì)量對公式經(jīng)過變換得到 收縮各類均值分析步驟生物信息學(xué)基因芯片數(shù)據(jù)分析第56頁判斷新樣本類別 當(dāng)生物信息學(xué)基因芯片數(shù)據(jù)分析第57頁四、決議樹(一)基本思想決議樹又稱為多級分類器,利用決議樹分類能夠把一個復(fù)雜多類別分類問題轉(zhuǎn)化為若干個簡單分類問題來處理決議樹結(jié)構(gòu):一個樹性結(jié)構(gòu),內(nèi)部節(jié)點(diǎn)上選取一個屬性進(jìn)行分割,每個分叉都是分割一個部分,葉子節(jié)點(diǎn)表示一個分布生物信息學(xué)基因芯片數(shù)據(jù)分析第58頁(二)分析步驟:提取分類規(guī)則,進(jìn)行分類預(yù)測在結(jié)構(gòu)決議樹過程中最主要一點(diǎn)是在每一個分割節(jié)點(diǎn)確定用哪個屬性來分類(或分裂) 這就包括到關(guān)于使用什么準(zhǔn)則來
17、衡量使用A屬性比使用B屬性更合理決議樹分類算法output訓(xùn)練集決議樹input生物信息學(xué)基因芯片數(shù)據(jù)分析第59頁(三)衡量準(zhǔn)則信息增益information gain基尼指數(shù)Gini index生物信息學(xué)基因芯片數(shù)據(jù)分析第60頁(四)決議樹修剪消除決議樹過適應(yīng)問題消除訓(xùn)練集中異常和噪聲所包括方法很多,比如先剪枝算法(print)與后剪枝(sprint 算法)等等生物信息學(xué)基因芯片數(shù)據(jù)分析第61頁五、分類效能評價(jià)(一)構(gòu)建訓(xùn)練集和檢驗(yàn)集n倍交叉驗(yàn)證(n-fold cross validation)Bagging(bootstrap aggregation)無放回隨機(jī)抽樣留一法交叉驗(yàn)證(leav
18、e-one-out cross validation,LOOCV)(二)分類效能靈敏度(sensitivity,recall)特異性(specificity)陽性預(yù)測率(positive predictive value,precision)陰性預(yù)測率(negative predictive value)均衡正確率(balanced accuracy)正確率(correct or accuracy)生物信息學(xué)基因芯片數(shù)據(jù)分析第62頁第七節(jié) 基因芯片數(shù)據(jù)其它分析Complementary Analysis of Microarray Data 一、降維處理(主成份分析)新指標(biāo)是原來基因線性組合 生物信息學(xué)基因芯片數(shù)據(jù)分析第63頁二、時(shí)間序列表示譜分析(一)擴(kuò)大基因表示譜矩陣(二
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 稀土磁性材料成型工安全知識能力考核試卷含答案
- 高處作業(yè)吊籃安裝拆卸工崗前工作技巧考核試卷含答案
- 中國墻面支架行業(yè)市場前景預(yù)測及投資價(jià)值評估分析報(bào)告
- 2026年連續(xù)變量量子密鑰分發(fā)項(xiàng)目可行性研究報(bào)告
- 2025年寧夏中考道法真題卷含答案解析
- 2025年西藏中考道法真題卷含答案解析
- 2025年康復(fù)考核試題庫及答案
- 2026初中數(shù)學(xué)教師個人工作總結(jié)
- 現(xiàn)場施工企業(yè)三級安全教育試題答卷及參考答案
- 2025年基本公共衛(wèi)生服務(wù)專項(xiàng)培訓(xùn)考試試題(附答案)
- 畢業(yè)設(shè)計(jì)(論文)-自動展開曬衣架設(shè)計(jì)
- T/CCMA 0164-2023工程機(jī)械電氣線路布局規(guī)范
- GB/T 43590.507-2025激光顯示器件第5-7部分:激光掃描顯示在散斑影響下的圖像質(zhì)量測試方法
- 2025四川眉山市國有資本投資運(yùn)營集團(tuán)有限公司招聘50人筆試參考題庫附帶答案詳解
- 2024年山東濟(jì)南中考滿分作文《為了這份繁華》
- 2025年鐵嶺衛(wèi)生職業(yè)學(xué)院單招職業(yè)傾向性測試題庫新版
- 《煤礦安全生產(chǎn)責(zé)任制》培訓(xùn)課件2025
- 項(xiàng)目進(jìn)度跟進(jìn)及完成情況匯報(bào)總結(jié)報(bào)告
- 2025年常州機(jī)電職業(yè)技術(shù)學(xué)院高職單招語文2018-2024歷年參考題庫頻考點(diǎn)含答案解析
- 民間融資居間合同
- 2024-2025學(xué)年冀教版九年級數(shù)學(xué)上冊期末綜合試卷(含答案)
評論
0/150
提交評論