版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、I 具有遺傳性疾病和性狀的遺傳位點分析具有遺傳性疾病和性狀的遺傳位點分析 摘要:摘要: 人體的每條染色體攜帶一個 DNA 分子,且人的遺傳密碼由人體中的 DNA 分子攜帶。 DNA 是由分別帶有 A, T, C, G 四種堿基的脫氧核苷酸鏈接組成的雙螺 旋長鏈分子。在這條雙螺旋的長鏈中,共有約 30 億個堿基對,而基因則是 DNA 長鏈中有遺傳效應的一些片段。在組成 DNA 的數(shù)量浩瀚的堿基對(或對應的脫 氧核苷酸) 中, 有一些特定位置的單個核苷酸經常發(fā)生變異引起 DNA 的多態(tài)性, 我們稱之為位點(Single Nucleotide Polymorphism,SNPs)。染色體、基因和位點
2、 的結構關系見圖 1。 圖 1. 染色體、基因和位點的結構關系。 大量研究表明, 人體的許多表型性狀差異以及對藥物和疾病的易感性等都可 能與某些位點相關聯(lián),或和包含有多個位點的基因相關聯(lián)。因此,定位與性狀或 疾病相關聯(lián)的位點在染色體或基因中的位置, 能幫助研究人員了解性狀和一些疾 病的遺傳機理,也能使人們對致病位點加以干預,防止一些遺傳病的發(fā)生。 近年來, 研究人員大都采用全基因組關聯(lián)性分析的方法來確定致病位點或致 病基因。全基因組關聯(lián)性分析(Genome-Wide Association Study, GWAS),簡單的 講, 就是從人類全基因組范圍內的序列變異(單核苷酸多態(tài),SNP)中,
3、篩選出那 些與疾病性狀關聯(lián)的 SNPs。此外,通過應用統(tǒng)計學原理,研究人員通過對樣本 的健康狀況和位點編碼的統(tǒng)計,對比分析來確定致病位點,從而發(fā)現(xiàn)遺傳病或性 狀的遺傳機理。 本題針對某遺傳病提供的 1000 個樣本信息數(shù)據(jù),每個樣本信息包含的 9445 個位點編碼信息以及包含這些位點的基因信息數(shù)據(jù)。通過應用統(tǒng)計學,矩陣降維 處理及數(shù)據(jù)挖掘的相關方法, 來對本題所包含的四個問題進行研究以及對所得出 的具體結果數(shù)據(jù)進行合理性分析。具體問題如下: 問題一:將 genotype.dat 中每個位點的堿基(A,T,C,G) 編碼方式轉化成數(shù)值 編碼方式,便于進行數(shù)據(jù)分析。 問題二:設計或采用一種方法,依
4、據(jù)相關的理論依據(jù),通過對附錄中提供的 1000 個樣本中的可能致病的染色體片段上的 9445 個位點的編碼信息進行篩選, 判斷,找出某種疾病最有可能的一個或幾個致病位點。 II 問題三:同題二中的遺傳疾病 A 的樣本信息(phenotype.txt 文件) ?,F(xiàn)有 300 個基因,每個基因所包含的位點名稱見文件夾 gene_info 中的 300 個 dat 文件, 每個 dat 文件列出了對應基因所包含的位點(位點信息見文件 genotype.dat)。由于 可以把基因理解為若干個位點組成的集合, 遺傳疾病與基因的關聯(lián)性可以由基因 中包含的位點的全集或其子集合表現(xiàn)出來請找出與疾病最有可能相關
5、的一個或 幾個基因,并說明理由。 問題四:依據(jù)題二中的樣本中的 9445 個位點的編碼信息(見 genotype.dat 文件) 。通過將相關的性狀或疾病看成一個整體,然后來探尋與它們相關的位點 或基因。依據(jù)此原理并根據(jù) multi_phenos.txt 文件給出的 1000 個樣本的 10 個相 關聯(lián)性狀的信息及其 9445 個位點的編碼信息(見 genotype.dat),找出與 multi_phenos.txt 中 10 個性狀有關聯(lián)的位點。 關鍵詞:關鍵詞:遺傳統(tǒng)計學, 全基因組關聯(lián)性分析 (GWAS), 位點 (SNPs) III 目錄目錄 目錄 . III 1. 問題重述 . 1
6、1.1 問題背景 . 1 1.2 待解決問題 . 1 2. 符號說明 . 2 3. 問題一 . 3 3.1 問題分析 . 3 3.2 問題解決 . 3 4. 問題二 . 5 4.1 問題分析 . 5 4.2 問題解決 . 5 5. 問題三 . 7 5.1 問題分析 . 7 5.2 問題解決 . 7 6. 問題四 . 9 6.1 問題分析 . 9 6.2 問題解決 . 9 7. 總結 . 12 參考文獻 . 13 附錄 . 14 附錄 1 . 14 附錄 4 . 22 1 1. 問題重述問題重述 1.1 問題背景問題背景 在 DNA 長鏈中,位點個數(shù)約為堿基對個數(shù)的 1/1000。由于位點在 D
7、NA 長 鏈中出現(xiàn)頻繁,多態(tài)性豐富,近年來成為人們研究 DNA 遺傳信息的重要載體, 被稱為人類研究遺傳學的第三類遺傳標記。大量研究表明,人體的許多表型性狀 差異以及對藥物和疾病的易感性等都可能與某些位點相關聯(lián), 或和包含有多個位 點的基因相關聯(lián)。因此,定位與性狀或疾病相關聯(lián)的位點在染色體或基因中的位 置,能幫助研究人員了解性狀和一些疾病的遺傳機理,也能使人們對致病位點加 以干預,防止一些遺傳病的發(fā)生。 近年來,研究人員大都采用全基因組的方法來確定致病位點或致病基因, 具體做法是:招募大量志愿者(樣本) ,包括具有某種遺傳病的人和健康的人, 通常用 1 表示病人,0 表示健康者。對每個樣本,采
8、用堿基(A,T,C,G)的編碼方式 來獲取每個位點的信息(因為染色體具有雙螺旋結構,所以用兩個堿基的組合表 示一個位點的信息) ;此外,研究人員可以通過對樣本的健康狀況和位點編碼的 對比分析來確定致病位點,從而發(fā)現(xiàn)遺傳病或性狀的遺傳機理。 另外,人體的許多遺傳疾病和性狀是有關聯(lián)的,如高血壓,心臟病、脂肪肝 和酒精依賴等??蒲腥藛T往往把相關的性狀或疾病放在一起研究,這樣能提高發(fā) 現(xiàn)致病位點或基因的能力。 1.2 待解決問題待解決問題 (1) 為了便于進行數(shù)據(jù)分析,利用適當?shù)姆椒?,?genotype.dat 中每個位點 的堿基(A,T,C,G)編碼方式轉化成數(shù)值編碼方式。 (2) 根據(jù)附錄中 1
9、000 個樣本在某條有可能致病的染色體片段上的 9445 個位 點的編碼信息(見 genotype.dat)和樣本患有遺傳疾病 A 的信息(見 phenotype.txt 文件) 。設計或采用一個方法,找出某種疾病最有可能的一個或幾個致病位點, 并給出相關的理論依據(jù)。 (3) 同問題二中的樣本患有遺傳疾病 A 的信息(phenotype.txt 文件) ?,F(xiàn)有 300 個基因(具體信息見 gene_info 中的 300 個 dat 文件) 。由于可以把基因理解 為若干個位點組成的集合, 遺傳疾病與基因的關聯(lián)性可以由基因中包含的位點的 全集或其子集合表現(xiàn)出來,請找出與疾病最有可能相關的一個或幾
10、個基因,并說 明理由。 (4) 在問題二中,已知 9445 個位點,其編碼信息見 genotype.dat 文件。在實 際的研究中,科研人員往往把相關的性狀或疾病看成一個整體,然后來探尋與它 們相關的位點或基因。試根據(jù) multi_phenos.txt 文件給出的 1000 個樣本的 10 個 相關聯(lián)性狀的信息及其 9445 個位點的編碼信息(見 genotype.dat),找出與 multi_phenos.txt 中 10 個性狀有關聯(lián)的位點。 2 2. 符號說明符號說明 符號 說明 S 表示 500 個患遺傳疾病 A 的樣本中對應于 155 個位點類型所構 造的二維矩陣。 P 155 個位
11、點組成的向量。 S S 中元素與P 中元素作與運算后,所構造出的二維矩陣。 N 表示問題三種給出的 300 個樣本基因。 Q 為采用 K-means 聚類算法后,產生的類。 N Num 為N 中每個樣本基因片段中所包含的所有位點的數(shù)量。 3 3. 問題一問題一 3.1 問題分析問題分析 由 1.2 (1)可知,問題 1 要求利用適當方法,將 genotype.dat 中每個位點的堿 基(A,T,C,G)編碼方式轉化成數(shù)值編碼方式,從而便于進行數(shù)據(jù)分析。 在 genotype.dat 文件中,共有 1000 個樣本信息的染色體片段,其中每個染 色體片段包含了 9445 個位點的編碼信息,且每一個
12、位點則是由 A,T,C,G 組成的 堿基對。通過排列組合,我們容易得出位點的所有類型為 16 ()類。同時, 利用文本文檔對 genotype.dat 進行位點類型統(tǒng)計,驗證了樣本文件中的位點類型 的數(shù)目恰好為 16 類。 通過結合計算機中的二進制編碼方式, 本題中采用兩位二進制數(shù)來表示一種 堿基 (比如:以二進制數(shù)00來編碼堿基A,具體編碼方式見表 1.1)。且采用這 樣的數(shù)值表示方式,可以完整的將 16 種類型的位點表示出來,且數(shù)值表示的范 圍與所有的位點類型恰好一一對應。 表 1.1 四種堿基及對應的二進制數(shù)值編碼方式 堿基 數(shù)值編碼 堿基 數(shù)值編碼 A 00 T 01 C 10 G 1
13、1 由表 1.1,我們可以對樣本染色體片段中 9445 個位點所包含的 16 中位點類 型進行數(shù)值編碼(表 1.2 列出其中 6 種,具體見附錄 1)。 表 1.2 樣本位點類型及對應的編碼方式 位點類型 編碼方式 位點類型 編碼方式 AA 0000 AT 0001 AC 0010 AG 0011 TA 0100 TT 0101 通過采用這種數(shù)值編碼方式, 可以有效的利用計算機中的二進制數(shù)值之間的 運算方法:與,或,非以及異或。而且,采用二進制的編碼方式的一大優(yōu) 點是,可以利用已經成熟的二進制檢測技術:奇偶校驗以及海明碼校驗的方法, 來對某一基因片段中的變異或致病位點進行檢測。 3.2 問題解
14、決問題解決 利用 Linux 中的腳本技術,將 genotype.dat 導入系統(tǒng),之后再將 A, T, C, G 分別以 00, 01, 10, 11 替換。具體替換過程如下: #!/bin/bash sed s/A/00/g genotype.dat genotype_tmp.dat 4 sed s/T/01/g genotype_tmp.dat genotype.dat sed s/C/10/g genotype.dat genotype_tmp.dat sed s/G/11/g genotype_tmp.dat genotype.dat 5 4. 問題二問題二 4.1 問題分析問題分析
15、 由 1.2 (2)可知,問題二要求采用一種方法,對樣本信息(genotype.dat)文件中 的某遺傳疾病 A 的染色體上的位點進行對比篩選,從而找出其中最有可能的一 個或幾個位點。 針對此問題,我們首先將樣本信息文件 genotype.dat 中的整體數(shù)據(jù)視作一個 1000 9445的二維矩陣。因為龐大的數(shù)據(jù)量,且其中很多的位點為所有樣本共有 的共性位點,所以,通過全基因組關聯(lián)性分析的方法以及統(tǒng)計學原理。我們對此 矩陣進行降維處理。再從經過處理之后的矩陣中,以按列統(tǒng)計的方式,將那些在 有遺傳疾病 A 的樣本中出現(xiàn)的,且占總體樣本比重大于84%的位點確定為致病 位點。 4.2 問題解決問題解
16、決 (1) 首先對此二維矩陣進行按列分割,即分割后的每一列,為樣本總體的染 色體中的基因片段上的同一位點的具體編碼信息。 具體分割操作代碼見附錄 2.4。 (2) 其次,對分割后的矩陣進行降維處理,降維標準為:對每一列中的 1000 個位點進行統(tǒng)計,假設整體樣本中的位點數(shù)量分別為 X, Y, Z(其中,有遺傳疾病 A 的樣本中包含著三類位點的數(shù)目設為,X Y Z )。若/84%XX 或者 /84%YY 或者/84%ZZ ,那么此位點則是高概率異常位點,相應的,其為 致病位點的可能性也就高了。相似的,若上面的概率在40%,70%之間,我們則 認為這類位點為中間概率異常位點,即此類位點是大部分樣本
17、都擁有的異常位 點,且認為此位點是非致病位點。若上面計算的概率在0,40%,即此類位點是 沒有遺傳疾病 A 的樣本中普遍共有的位點,顯然,對于這類位點,我們也將其 視為非致病位點。 具體的位點統(tǒng)計,篩選操作如下: 通過統(tǒng)計及篩選后,我們得出了附錄 2.1,附錄 2.2 和附錄 2.3 中的具體位點 信息。同時,依據(jù)附錄 2.1 和附錄 2.3 中的數(shù)據(jù)信息以及上面所提的位點比重計 算方法,我們得出了如圖 4.1 和圖 4.2 的位點所占比重的曲線。同時,我們也對 高概率,中間概率以及低概率異常位點在曲線中的位置進行標注。 6 圖 4.1 患遺傳病 A 的樣本位點占總樣本位點的比重 1 (附錄
18、2.1) 圖 4.1 患遺傳病 A 的樣本位點占總樣本位點的比重 2 (附錄 2.3) (3) 最后,依據(jù)(2)中統(tǒng)計及計算的結果,我們發(fā)現(xiàn)了其中的 8 個最有可能的 致病位點,具體見表 4.1。 表 4.1 患遺傳病 A 樣本中最有可能致病的位點 異常位點名 稱 在有遺傳病 A 樣本中的數(shù)目 所有樣本中 的總數(shù)目 所占比重 rs2999878 16 19 84.21% rs3118505 6 7 85.71% rs4846212 13 15 86.67% rs3795263 9 10 90% rs2480773 11 13 84.62% rs1256341 12 14 85.71% rs64
19、29696 7 8 87.50% rs2235927 9 10 90% 7 5. 問題三問題三 5.1 問題分析問題分析 由 1.3 (3)可知, 由于遺傳疾病可以由基因中包含的位點的全集或子集合表現(xiàn) 出來,因此問題三主要研究遺傳疾病與基因的關聯(lián)性,并給出了 300 個基因(見 樣本文件夾 gene_info 中的 300 個 dat 文件),并以此來找出以遺傳疾病最有可能 相關的一個或幾個基因。 由問題一中的思路,我們首先對在問題三中篩選,統(tǒng)計以及合并后的 155 種位點編碼與 genotype.dat 樣本文件中的 500 個患遺傳疾病 A 的樣本經過與運 算,構造一個500 155的二維
20、矩陣。然后,利用 K-means 聚類算法,將這 155 個位點進行聚類。 再利用公式算出 300 個樣本文件中的基因與聚類后的每一個位 點集合的相似度, 并取其中相似度的最大值作為此樣本基因是否為致病基因的判 斷標準。 5.2 問題解決問題解決 (1) 構造二維矩陣: 假設 500 個患遺傳疾病 A 的樣本中含有我們已經篩選統(tǒng) 計并合并好的 155 個位點所組成的矩陣為: 1,11,21,155 500,1500,2500,155 , , sss S sss = , 然后,對應的 155 個位點所組成的向量設為: 12155 (,)Pp pp=。之后, 對 S與P中的元素分別做與運算,例如:
21、若 1,1 s處的位點為 AA,且 1 p 也為 AA, 那么 1,1 s與 1 p 作與運算的結果為 1, 則將結果 1 存入矩陣 500 155 S 相應位置。 同理, 若 1,1 s處的位點為 AA, 1 p為其他位點,那么 1,1 s與 1 p 作與運算的結果為 0,則將 結果 0 存入矩陣 500 155 S 相應位置。 (2) K-means 聚類:以(1)中S矩陣中的位點類型為聚類對象,并分別聚成 3 類(設此三個類為集合 123 ,Q Q Q )和 4 類(設此三個類為集合 1234 ,Q Q Q Q )。 在數(shù)據(jù)挖掘中,聚類算法是給出大量的原始數(shù)據(jù),然后通過相應的算法將其 中
22、具有相似特征的數(shù)據(jù)聚為一類。其中,K-means 聚類算法,就是實現(xiàn)這樣的一 個功能。具體算法定義如下: 首先給出未被標記的原始數(shù)據(jù) 12 , n x xx。 然后, 初始化k個隨機數(shù)據(jù): 1 ,u 8 ,且這些和都是向量。 然后,由公式一和公式二,經過迭代,就能求出最終所有的,且這些就 是最終所有類的中心位置。 公式一: ; 公式二: 。 具體 matlab 代碼見附錄 3.1。 (3) 設題中給出的 300 個樣本基因為,依據(jù)計算基因片段 與(2)中所聚成的類中的位點的相似度的公式: , 其中,(聚成 3 類)或(聚成 4 類)。 具體結果如圖 5.1 所示: 圖 5.1 樣本基因(300
23、 組)與聚成 3 類和 4 類的相似度 由圖 5.1, 我們可以知道圖中所標注的四個樣本基因(即樣本文件加 gene_info 中的 gene_7, gene_129, gene_265 和 gene_293), 在采用 K-means 聚類算法, 將 155 個位點分別聚成 3 類和 4 類時, 其與這些類中的位點集合的相似度分別高達 20% 與 14%左右。因此,我們認為此 4 個基因為與遺傳疾病 A 相關的基因。 9 6. 問題四問題四 6.1 問題分析問題分析 由 1.3 (4)可知,問題四通過把相關性狀或疾病看作一個整體,來探尋與性狀 或疾病相關的位點或基因的實驗方法,要求根據(jù) mu
24、lti_phenos.txt 文件給出的 1000 個樣本的 10 個相關聯(lián)性狀的信息及其 9445 個位點的編碼信息(見 genotype.dat),找出與 multi_phenos.txt 中 10 個性狀有關聯(lián)的位點。 所以,我們首先假設每一個相關性狀是多個位點的組合引發(fā)的,是一種自然 現(xiàn)象。因此,在這種情況下,通過全概率公式,我們有: P(位點 i 為 j 時能引發(fā)相關性狀)= 1 Mij Num z= Pr(z 組合中位點 i 為 j 時能引 發(fā)相關性狀) Pr(z 組合發(fā)生)。 其中, j i M是一種組合,該組合 i 位點的編碼為 j; Pr(z 組合發(fā)生)=z 組合出現(xiàn)的個數(shù)/
25、所有組合出現(xiàn)個數(shù)。 通常情況下,Pr(z 組合中位點 i 為 j 時能引發(fā)相關性狀)是一個自然概率,在 有病的人和無病的人中值是相同的,但 Pr(z 組合發(fā)生)就不一樣了,它在有病的 人和無病人中的差距可能很大, 因為有病人位點的編碼組合與無病人位點的編碼 組合相差很大。 由此我們可得到在有病的人中或無病人中 Pr(位點 i 為 j 時能引發(fā) 相關性狀)的值是不相同的。 我們將有病人的數(shù)據(jù)被分為了 2 組,每組 250 個,同時也將沒病的病人分成 2 組,每組 250 個。根據(jù)大數(shù)定律,應該有: (1) Pr(位點 i 為 j 能引發(fā)相關性狀)有病組 1=Pr(位點 i 為 j 能引發(fā)相關性狀
26、) 有病組 2; (2)有 Pr(位點 i 為 j 能引發(fā)相關性狀)無病組 1=Pr(位點 i 為 j 能引發(fā)相關性狀) 無病組 2。 如果其中的一式不等,說明這個位點組合是不穩(wěn)定的,與我們的假設是不成 立, 因此只要這兩式同時成立, 我們便可認為這個位點是能夠引發(fā)某一些特性的。 其中 Pr(位點 i 為 j 引發(fā)相關性狀)=位點 i 為 j 的人員擁有相關性狀/位點 i 為 j 的 人員的總個數(shù)。 6.2 問題解決問題解決 (1) 確定各個位點中編碼的順序(即 X,Y,Z)的順序。 (2) 構建 3 個 0-1 矩陣,分別位 A,B,C,它們的維數(shù)均是 10009445,根 據(jù)給出人員位點的
27、編碼信息,A 取各個位點上編碼順序為 1 的位置上的值為 1, 其余值為 0;B 取各個位點上編碼順序為 2 的位置上的值為 1,其余值為 0;C 取各個位點上編碼順序為 3 的位置上的值為 1,其余值為 0; (3) 將給出的 1000 個用戶的 10 個相關性狀表現(xiàn)樣本看作是一個 0-1 矩陣為 D, 維數(shù)為 100010, 同時設 Ei-jS是 109445 維數(shù)的矩陣, E 的每一行是相同的, 且每一行上各個元素的值為對應的 S 矩陣 i 到 j 行的上每一列的元素之和,計算: (D1-250TA1-250./E1-250A)./(D251-500TA251-500./E251-500
28、A) 10 (D501-750TA501-750./E501-750A)./(D751-1000TA751-1000./E751-1000A) (D1-250TB1-250./E1-250B)./(D251-500TB251-500./E251-500B) (D501-750TB501-750./E501-750B)./(D751-1000TB751-1000./E751-1000B) (D1-250TC1-250./E1-250C)./(D251-500TC251-500./E251-500C) (D501-750TC501-750./E501-750C)./(D751-1000TC751-
29、1000./E751-1000C) (4) 步驟三求出的結果均是 109445 維的矩陣, 其中, , 代表有病的一 類,而, , 代表無病的一類。一類有 3 個矩陣數(shù)據(jù)是由于每個位點有 3 種可 能的編碼,每一個矩陣代表其中的一種編碼。由于我們要尋找 Pr有病組1 (位點 i 為 j 能引發(fā)相關性狀) =Pr有病組2 (位點 i 為 j 能引發(fā)相關性狀)且 Pr無病組1 (位點 i 為 j 能 引發(fā)相關性狀) =Pr無病組2(位點 i 為 j 能引發(fā)相關性狀)的位點,對于每一個相關性 狀,執(zhí)行如下步驟:找出式,和與該性狀對應的行中的值大 于 1-ops 的列序號,并求出這 6 組數(shù)據(jù)的交集,
30、交集即為我們要確定的位點的位 置編號。注:ops 是一個閥值,由于這里的數(shù)據(jù)量較小,計算概率的時候存在著 一些偏差。ops 對于每種相關性狀的值是不相同的,一般取值為 00.1,具體要 看取到的位點集合中元素的個數(shù)。下面顯示了 2 組實驗后的數(shù)據(jù),第一組實驗數(shù) 據(jù)中閥值偏小,每一個相關性狀獲得出的位點個數(shù)為 1,第二組實驗數(shù)據(jù)中閥值 稍大,每一個相關性狀獲得出的位點個數(shù)為 2-3。 (詳細 matlab 代碼見附錄 4) 表 6.1 低閥值下的可能的關聯(lián)位點 相關性狀編 號 閥值(ops) 可能位點位置 編號 位點名稱 1 0.0965 3922 rs10737914 2 0.0275 833
31、5 rs7535816 3 0.0475 158 rs4648611 4 0.0565 8318 rs17362501 5 0.0905 3717 rs17038468 6 0.0625 3608 rs28551666 7 0.0245 2794 rs9662275 8 0.0760 5539 rs6698315 9 0.0985 7387 rs4649197 10 0.0730 469 rs4310388 表 6.2 稍高閥值下的可能的關聯(lián)位點 相關性狀編 號 閥值(ops) 可能位點位置 編號 位點名稱 1 0.1040 3922 6790 rs10737914 rs2473253 2 0
32、.0330 8335 1913 rs7535816 rs11122083 3 0.0495 158 3154 rs4648611 rs541695 4 0.0640 8318 6175 rs17362501 rs1076623 11 5 0.0965 3717 1729 7554 rs17038468 rs7535806 rs3122034 6 0.0700 3608 2106 rs28551666 rs17030322 7 0.0325 2794 4079 rs9662275 rs10928056 8 0.0790 5539 8059 rs6698315 rs4436378 9 0.1010
33、 7387 966 rs4649197 rs10915423 10 0.0785 469 845 rs4310388 rs1181871 12 7. 總結總結 本文主要圍繞染色體中的基因片段以及位點與遺傳疾病之間的聯(lián)系展開的, 為了從大量的樣本數(shù)據(jù)中統(tǒng)計篩選出有用的位點信息, 我們應用了全基因組關聯(lián) 性分析技術,統(tǒng)計學原理,數(shù)值編碼技術,矩陣處理技術以及數(shù)據(jù)挖掘中的 K-means 聚類算法,主要工作如下: 1. 通過借鑒二進制的數(shù)值編碼方式,來對樣本信息中的位點中的堿基對進 行數(shù)值編碼,從而利用已經完善的與,或等二進制數(shù)據(jù)計算方法,從而實現(xiàn)簡 化樣本信息的統(tǒng)計篩選的工作量。 2. 通過應用矩
34、陣分割技術以及對矩陣進行降維處理的方法,來去除樣本信 息中的冗余數(shù)據(jù),從而實現(xiàn)高效,準確的找到并分析出樣本數(shù)據(jù)中的最有可能的 致病位點。 3. 通過應用數(shù)據(jù)挖掘中的 K-means 聚類算法思想,可以實現(xiàn)某些相似位點 的聚類,再通過算法提供的公式,來計算樣本基因片段包含的位點與這些聚類的 位點集合的相似度,從而來研究如問題三中要求的尋找可能的致病基因。 13 參考文獻參考文獻 1 嚴衛(wèi)麗:復雜疾病全基因組關聯(lián)研究進展遺傳統(tǒng)計分析。DOI: 10.3724/SP.1.1005.2008.00543, 2008 年 5 月,543-549 頁。 2 陳鋒,柏建嶺,趙楊,荀鵬程:全基因組關聯(lián)研究中的
35、統(tǒng)計分析方法。 中華流行病學雜志,第 32 卷第 4 期,2011 年 4 月。 3 全超,孫文靖,于旸,白靜:統(tǒng)計學在腫瘤細胞遺傳學中的應用。國際 遺傳學雜志, 第 35 卷第 6 期, DOI: 10.3760/cma.j.issn.1673-4386.2012.06.005, 2013 年 2 月。 14 附錄附錄 附錄附錄 1 16 種具體位點類型以及對應的編碼方式: 位點類型 編碼方式 位點類型 編碼方式 AA 0000 AT 0001 AC 0010 AG 0011 TA 0100 TT 0101 TC 0110 TG 0111 CA 1000 CT 1001 CC 1010 CG
36、 1011 GA 1100 GT 1101 GC 1110 GG 1111 附錄附錄 2.1 經過統(tǒng)計篩選后,得到的 155 個異常位點類型,及其在患有遺傳疾病以及在 所有樣本信息中的數(shù)量(部分): 異常位 點名稱 在有遺 傳病A樣本 中的數(shù)目 所有樣 本中的總數(shù) 目 異常位 點名稱 在有遺 傳病A樣本 中的數(shù)目 所有樣 本中的總數(shù) 目 rs1073 7914 12 17 rs1120 3280 12 17 rs6694 10 12 17 rs2075 993 12 17 rs2803 309 5 7 rs3493 94 15 21 rs1470 8 5 7 rs7526 401 10 14
37、rs4661 590 20 28 rs2977 290 15 21 rs1742 7202 5 7 rs8782 35 10 14 rs1158 9294 23 32 rs3765 695 31 43 rs2459 984 13 18 rs3516 09 13 18 rs1078 8679 13 18 rs1213 4924 21 29 rs4648 648 8 11 rs3820 253 8 11 15 rs2066 002 8 11 rs3924 436 16 22 rs4509 550 19 26 rs1459 765 22 30 rs2180 183 11 15 rs1459 760
38、17 23 rs3810 982 17 23 rs1112 1242 12 16 rs1180 0086 3 4 rs1204 5736 15 20 rs2024 724 12 16 rs7556 176 9 12 rs2377 060 24 32 rs1240 1792 12 16 rs1203 6216 10 13 rs1079 7437 10 13 rs8838 67 10 13 rs1120 3327 10 13 rs4912 048 20 26 rs4377 22 10 13 rs3501 87 7 9 rs2473 277 11 14 rs1091 5577 15 19 rs731
39、0 24 15 19 rs2250 358 38 48 rs4654 418 8 10 rs5331 23 8 10 rs4912 019 25 31 rs2999 878 16 19 rs3118 505 6 7 rs4846 212 13 15 rs3795 263 9 10 附錄附錄 2.2 經過統(tǒng)計篩選后,得到的 155 個異常位點類型,及其在患有遺傳疾病以及在 所有樣本信息中的數(shù)量(部分): 異常位 點名稱 在有遺 傳病A樣本 中的數(shù)目 所有樣 本中的總數(shù) 目 異常位 點名稱 在有遺 傳病A樣本 中的數(shù)目 所有樣 本中的總數(shù) 目 rs1211 9911 111 198 rs7468
40、81 111 198 rs4543 765 174 310 rs2803 309 109 194 16 rs1092 7093 109 194 rs9426 296 109 194 rs3104 434 109 194 rs7707 20 113 201 rs7707 20 113 201 rs2096 92 131 233 rs2816 050 158 281 rs7519 807 117 208 rs2744 677 117 208 rs1204 4299 180 320 rs4609 454 157 279 rs1883 567 179 318 rs5851 60 98 174 rs11
41、88 402 118 209 rs2797 682 192 340 rs2038 903 91 161 rs3806 425 13 23 rs1091 4189 130 230 rs1158 2551 108 191 rs7543 405 278 491 rs1682 4712 153 270 rs1157 3221 34 60 rs1188 347 160 282 rs2477 782 126 222 rs2480 772 175 308 rs2143 808 129 227 rs3766 306 153 269 rs2782 810 111 195 rs8691 79 127 223 rs
42、1158 6865 131 230 rs9098 23 129 226 rs2801 178 161 282 rs4661 526 116 203 rs1240 1776 109 190 rs1351 3 123 214 rs2254 669 134 233 rs6429 804 104 180 rs1209 0714 111 192 rs1112 1675 33 57 rs3131 419 132 228 rs1924 270 148 255 rs1120 3254 61 105 rs1049 2940 25 43 rs7512 834 103 177 17 rs7074 72 148 25
43、4 rs1206 2540 102 175 rs4908 443 123 211 rs4508 063 56 96 rs1124 7865 149 254 rs7550 997 125 213 rs1275 8257 110 187 rs6666 1776 118 199 rs3000 851 111 187 rs1203 6216 130 217 rs4275 52 8 12 rs1203 1599 20 28 附錄附錄 2.3 經過統(tǒng)計篩選后,得到的 155 個異常位點類型,及其在患有遺傳疾病以及在 所有樣本信息中的數(shù)量(部分): 異常位 點名稱 在有遺 傳病A樣本 中的數(shù)目 所有樣 本中
44、的總數(shù) 目 異常位 點名稱 在有遺 傳病A樣本 中的數(shù)目 所有樣 本中的總數(shù) 目 rs6426 96 12 17 rs1272 6255 5 7 rs6665 175 10 14 rs1193 227 10 14 rs1280 989 10 14 rs1241 0376 5 7 rs1048 9442 10 14 rs9277 27 5 7 rs3820 034 23 32 rs3767 150 21 29 rs1091 7404 21 29 rs3813 199 8 11 rs6429 804 8 11 rs2506 969 11 15 rs1158 8846 14 19 rs4781 03
45、 14 19 rs6694 109 20 27 rs1079 9257 9 12 rs7075 82 12 16 rs2072 996 6 8 rs6690 493 9 12 rs1080 3320 9 12 rs7547 731 6 8 rs7534 452 12 16 18 rs2483 679 16 21 rs3523 2720 13 17 rs1001 567 10 13 rs7525 571 10 13 rs2070 658 14 18 rs2053 11 14 rs7527 904 15 19 rs9098 13 19 24 rs1207 2310 8 10 rs1706 29 8
46、 10 rs3753 271 8 10 rs2745 260 16 20 rs2526 833 4 5 rs1274 6273 8 10 rs1214 1588 17 21 rs2027 508 9 11 rs1203 2209 14 17 rs3765 736 10 12 rs3765 964 10 12 rs2480 773 11 13 rs1256 341 12 14 rs6429 696 7 8 rs2235 927 9 10 附錄附錄 2.4 此附錄內容為問題二中,通過對 genotype.dat 樣本文件進行篩選,統(tǒng)計,得 到與某種遺傳疾病相關的位點的具體信息的操作代碼。 首先將
47、genotype.dat 的第一行提取出來。 其次,通過 Linux Shell 統(tǒng)計出患有遺傳病和全部樣本信息中每個位點中各 種編碼出現(xiàn)的次數(shù),并將這些數(shù)據(jù)寫入文件。具體代碼如下: #!bin/bash i=1 touch tmp1.txt tmep2.txt #創(chuàng)建臨時文件用來存儲結果 while $i -le 9445 do a=$(awk -v i=$i NR=1,NR=500 a $i + END for (j in a) print j,a j genotype.dat) b=$(awk -v i=$i NR=1,NR=1000 a $i + END for (j in a) pr
48、int j,a j genotype.dat) echo $a $b tmp1.txt i=$($i+1) i=1 19 while $i -le 9445 do read d1 d2 d3 d4 d5 d6 tmp2.txt done 為了進行進一步的數(shù)據(jù)處理,將 tmp2.txt 中的數(shù)據(jù)導入到 Matlab 中,并求 得各個位點上的各種堿基編碼在患有遺傳病的樣本和所有樣本數(shù)據(jù)信息之間的 比例,以下是相應的 script 代碼。 Data=importdata(tmp2.txt) %將得到的數(shù)據(jù)導入到 matlab 中。 注:導入數(shù)據(jù)后會有兩組數(shù)據(jù)出現(xiàn)錯誤,由于 shell 在統(tǒng)計每一位點
49、中編碼 出現(xiàn)次數(shù)的時候,會把為 0 的選項刪除,在 matlab 中將這兩組數(shù)據(jù)進行添加, 接下來,求得各種編碼在各個位點上出現(xiàn)的次數(shù)有病和所有人的比例。 Persent1=Data(:,1)./Data(:,4); Persent2=Data(:,2)./Data(:,5); Persent3=Data(:,3)./Data(:,6); 然后,獲取每組比例中較高比例的值所對應的位點編號 Position1=find(Data10.7) Position2=find(Data20.56) Position3=find(Data30.7) 從中,可以獲得到 155 個位置點,這些位點上的某一種編碼對應的比例值較 高,由這些位置,提取 155 組數(shù)據(jù)(由于每個位
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026上半年安徽事業(yè)單位聯(lián)考滁州市市直單位招聘65人考試備考題庫及答案解析
- 2026上海政法學院高層次學科(實務)帶頭人與骨干人才引進17人筆試模擬試題及答案解析
- 2026上半年浙江舟山市國際海運職業(yè)技術學院招聘教師3人考試參考題庫及答案解析
- 2026湖南長沙市寧鄉(xiāng)市人力資源和社會保障局招聘公益性崗位人員1人考試參考題庫及答案解析
- 2025年跨學科加試筆試及答案
- 2025年服裝設計專業(yè)職高筆試及答案
- 2026年傳熱學中流體力學的基礎
- 2025年惠州惠城區(qū)衛(wèi)生招聘筆試及答案
- 2025年維正筆試題目及答案
- 2025年湖北國企筆試及答案
- 2024版美團商家合作協(xié)議合同范本
- 一年級上冊數(shù)學應用題50道(重點)
- 嵌入式系統(tǒng)實現(xiàn)與創(chuàng)新應用智慧樹知到期末考試答案章節(jié)答案2024年山東大學
- 線纜及線束組件檢驗標準
- 人教部編版語文三年級下冊生字表筆順字帖可打印
- 口述史研究活動方案
- 別克英朗說明書
- 房屋租賃合同txt
- 珍稀植物移栽方案
- THBFIA 0004-2020 紅棗制品標準
- GB/T 34336-2017納米孔氣凝膠復合絕熱制品
評論
0/150
提交評論