免費(fèi)預(yù)覽已結(jié)束,剩余4頁(yè)可下載查看
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
目錄1. 引言31.1研究背景31.1.1 胚胎干細(xì)胞簡(jiǎn)介31.1.2 組蛋白修飾與ES細(xì)胞的多能性31.1.3 轉(zhuǎn)錄因子的調(diào)控41.1.4 胚胎干細(xì)胞分化的調(diào)控因子51.1.5 本論文的研究目的及其意義81.1.6 相關(guān)研究方法概述82. 實(shí)驗(yàn)過(guò)程92.1 實(shí)驗(yàn)數(shù)據(jù)的獲取9 2.1.1 組蛋白修飾數(shù)據(jù)的獲取9 2.1.2 轉(zhuǎn)錄因子位點(diǎn)數(shù)據(jù)的獲取11 2.1.3 已分化的胚胎干細(xì)胞基因數(shù)據(jù)集9 2.1.4 基因及其靶位點(diǎn)數(shù)據(jù)集112.2 實(shí)驗(yàn)方法14 2.2.1 SVM概述14 2.2.2 GO分析15 2.2.2 ASPL分析152.3 實(shí)驗(yàn)步驟16 2.3.1 利用Chisq檢驗(yàn)篩選有用特征17 2.3.2 通過(guò)SVM模型進(jìn)行數(shù)據(jù)分類(lèi)和篩選193. 結(jié)果與分析213.1 結(jié)果矩陣的特征分析21 3.2 Sox2、Oct4、Nanog靶基因在小鼠和人體內(nèi)的比較223.3 Sox2、Oct4、Nanog靶基因的功能注釋分析233.4 Sox2、Oct4、Nanog的KEGG信號(hào)通路的比較分析274. 參考文獻(xiàn) 295. 附錄33附錄一: Fisher檢驗(yàn)的R篩選43附錄二: SVM的Matlab程序48附錄三: GO分析程序43 附錄四: ASPL分析程序436. 致謝5017全基因組范圍內(nèi)三個(gè)核心干性因子靶基因的預(yù)測(cè)分析摘 要:【目的】研究應(yīng)用計(jì)算機(jī)技術(shù)對(duì)人類(lèi)胚胎干細(xì)胞相關(guān)基因進(jìn)行篩選、優(yōu)化?!痉椒ā客ㄟ^(guò)收集已分化的胚胎干細(xì)胞基因序列、基因組序列、轉(zhuǎn)錄因子結(jié)合位點(diǎn)序列、組蛋白修飾序列4種數(shù)據(jù)集合,利用陽(yáng)性數(shù)據(jù)集、通過(guò)SVM(支持向量機(jī))模型,把整個(gè)基因組中組蛋白修飾數(shù)據(jù)和轉(zhuǎn)錄因子結(jié)合位點(diǎn)(TFBS)作為特征(Feature),三者的結(jié)合信息作為目標(biāo)(Target)進(jìn)行機(jī)器學(xué)習(xí)實(shí)驗(yàn),并對(duì)靶基因做功能注釋分析【結(jié)果】通過(guò)機(jī)器學(xué)習(xí)的方式,我們分別為Sox2、Oct4、Nanog找到了100、1013、110個(gè)靶基因,并且Sox2、Nanog靶基因的功能和當(dāng)前研究所發(fā)現(xiàn)的功能基本吻合,只不過(guò)由于Oct4初始陽(yáng)性數(shù)據(jù)量過(guò)少,靶基因?qū)ふ倚Ч惶硐?,還需要以后更多的實(shí)驗(yàn)提供充足的ChipSeq數(shù)據(jù)【結(jié)論】本論文的研究有力的說(shuō)明了機(jī)器學(xué)習(xí)在生物信息領(lǐng)域不可替代的重要性,更為重要的是本論文肯定了當(dāng)前一些對(duì)三個(gè)核心干性因子作用的預(yù)測(cè)研究,對(duì)該領(lǐng)域的發(fā)展起到了很好的促進(jìn)作用。該方法具有較高的準(zhǔn)確性,在保證對(duì)訓(xùn)練集合90以上的識(shí)別率的情況下。對(duì)測(cè)試集合的識(shí)別率達(dá)到80以上。關(guān)鍵詞:轉(zhuǎn)錄因子;組蛋白修飾;SVM;靶基因1. 引言1.1研究背景1.1.1 胚胎干細(xì)胞簡(jiǎn)介 胚胎干細(xì)胞(Embryonic stem cells,ES細(xì)胞)是從附置前早期胚胎內(nèi)細(xì)胞團(tuán)(ICM)或附置后胚胎原始生殖細(xì)胞(Primordial germ cells,PGCs)隆出來(lái)的一種具無(wú)限增殖能力、保持正常的染色體核型和全向分化能力的干細(xì)胞1,2。ES細(xì)胞在體內(nèi)、外正常分化的過(guò)程中, 能產(chǎn)生除滋養(yǎng)以的外胚層和原始內(nèi)胚層外的內(nèi)、中、外3個(gè)胚層的所有細(xì)胞類(lèi)型。相比較其他多能成體干細(xì)胞而言, ES細(xì)胞是全能性細(xì)胞。胚泡注射后, ES細(xì)胞的衍生細(xì)胞分布到嵌合體動(dòng)物的所有組織系統(tǒng)中, 包括生殖系。ES細(xì)胞衍生的生殖細(xì)胞能進(jìn)行遺傳物質(zhì)的傳遞, 這一特性已被廣泛應(yīng)用于基因功能的研究。ES細(xì)胞進(jìn)行對(duì)稱性細(xì)胞分裂, 產(chǎn)生2個(gè)相同的多潛能性子代細(xì)胞, 這一特性稱為ES細(xì)胞的自我復(fù)制或自我更新(self-renewal). ES細(xì)胞自我復(fù)制的同時(shí)伴隨著細(xì)胞分化的抑制和多向發(fā)育潛能的維持, 這是ES細(xì)胞多潛能性的基礎(chǔ)3。在體外,可以對(duì)ES細(xì)胞進(jìn)行遺傳操作選擇,如導(dǎo)人異源基因、報(bào)告基因或標(biāo)志基因,誘導(dǎo)某個(gè)基因突變,基因打靶或?qū)祟~外的原有基因使之過(guò)度表達(dá)(增加功能)等4。 自1998年人類(lèi)胚胎干細(xì)胞(human embryonic stem cell,hESC)建系以來(lái)5-6,hESC迅速成為生命科學(xué)研究的熱點(diǎn),針對(duì)ESC分化相關(guān)的基因的研究成為核心問(wèn)題之一。Es細(xì)胞在生命科學(xué)的各個(gè)領(lǐng)域都有著重要而深遠(yuǎn)的影響,尤其在克隆動(dòng)物、生產(chǎn)轉(zhuǎn)基因動(dòng)物、細(xì)胞組織器官的修復(fù)和移植、細(xì)胞治療、組織工程、發(fā)育生物學(xué)、藥物的發(fā)現(xiàn)、篩選、動(dòng)物和人類(lèi)疾病模型上有著極其誘人的應(yīng)用前景。科學(xué)家們已經(jīng)開(kāi)始對(duì)胚胎干細(xì)胞進(jìn)行基因改造,將特殊改變的基因轉(zhuǎn)導(dǎo)至胚胎干細(xì)胞中,體外選擇后將胚胎干細(xì)胞導(dǎo)入機(jī)體,使胚胎干細(xì)胞中的遺傳信息傳達(dá)給子代7-9,這意味著將可以有針對(duì)性地改變?nèi)伺咛ジ杉?xì)胞的遺傳表型,可能有助于克服出生缺陷,糾正某些遺傳性疾病,而且還可將胚胎干細(xì)胞中某個(gè)基因敲除或?qū)⑼鈦?lái)的某個(gè)基因?qū)?,用于研究特定基因?qū)ε咛グl(fā)育、藥物代謝和腫瘤形成的影響等。如何應(yīng)用計(jì)算機(jī)的方法來(lái)預(yù)測(cè)潛在的ES細(xì)胞分化相關(guān)基因,發(fā)現(xiàn)其中包含的信息,這對(duì)于功能基因的識(shí)別、基因工程等方面都具有非常重要的價(jià)值。1.1.2 組蛋白修飾與ES細(xì)胞的多能性表現(xiàn)遺傳調(diào)控對(duì)于ES細(xì)胞的多能性維持以及無(wú)限增殖與自我更新具有重要意義,細(xì)胞通過(guò)染色質(zhì)的結(jié)構(gòu)修飾和改變對(duì)表觀遺傳進(jìn)行調(diào)控,而染色質(zhì)結(jié)構(gòu)調(diào)控可以通過(guò)組蛋白的修飾來(lái)實(shí)現(xiàn)10。組蛋白有多種,大多數(shù)是由一球狀區(qū)和突出于核小體外的組蛋白尾組成的堿性氨基酸組成。組蛋白H2A、H2B、H3和H4各兩個(gè)分子形成一個(gè)八聚體,真核生物中的DNA纏繞于此八聚體上形成核小體。組蛋白H1結(jié)合于核小體之間的連接DNA上,使核小體一個(gè)挨一個(gè),彼此靠攏。5種組蛋白(HI、H3、H2A、H2B和H4)中,除H1的N端富含疏水氨基酸,C端富含堿性氨基酸之外,其余4種都是N端富含堿性氨基酸(如精氨酸、賴氨酸),C端富含疏水氨基酸(如纈氨酸、異亮氨酸)。在組蛋白中帶有折疊基序(motif)的C端結(jié)構(gòu)域與組蛋白分子間發(fā)生相互作用,并與DNA的纏繞有關(guān)。而N端可同其他調(diào)節(jié)蛋白和DNA作用,且富含賴氨酸,具有高度精細(xì)的可變區(qū)。組蛋白N端尾部的1538個(gè)氨基酸殘基是翻譯后修飾的主要位點(diǎn),調(diào)節(jié)DNA的生物學(xué)功能11。 組蛋白的翻譯后修飾不僅與染色體的重塑和功能狀態(tài)緊密相關(guān),而且在決定細(xì)胞命運(yùn)、細(xì)胞生長(zhǎng)以及致癌作用的過(guò)程中發(fā)揮著重要的作用12。組蛋白翻譯后修飾包括甲基化與去甲基化、磷酸化與去磷酸化、乙酰化與去乙?;?、泛素化與去泛素化等13。 組蛋白甲基化表明染色質(zhì)的失活而乙?;瘎t表明染色質(zhì)的活化。ES細(xì)胞中的染色質(zhì)常表現(xiàn)為基因轉(zhuǎn)錄活化的常染色質(zhì)狀態(tài),乙?;礁?;而與之相反,分化細(xì)胞,譜系不同乙酰化水平具有差異,但都表現(xiàn)出形成無(wú)轉(zhuǎn)錄活性的異染色質(zhì)、乙?;浇档?、甲基化水平升高等特點(diǎn)14。說(shuō)明細(xì)胞的分化過(guò)程伴隨著染色質(zhì)狀態(tài)的變化,細(xì)胞分化潛能的限制性標(biāo)志是細(xì)胞基因組可塑性的降低,細(xì)胞特殊分化系譜的形成與新的可遺傳基因表達(dá)程序的建立和染色質(zhì)的重新定制有重要關(guān)系。 通過(guò)組蛋白修飾來(lái)改變?nèi)旧|(zhì)的活性影響和多能性相關(guān)的基因的表達(dá)從而影響ES細(xì)胞維持多能性是ES細(xì)胞保持多能性的關(guān)鍵機(jī)制之一。組蛋白H3是組蛋白的常見(jiàn)修飾位點(diǎn),利用ChIP技術(shù)對(duì)ES細(xì)胞和多種不同的分化細(xì)胞進(jìn)行分析,顯示幾乎所有具活性的基因其啟動(dòng)子都和多個(gè)組蛋白的修飾有關(guān),比如:H3K4 me和H3K4Ac,而H3K36me3或者H3K9me3與失活的基因和其啟動(dòng)子相聯(lián)系15。另外H3K27me作為一個(gè)染色質(zhì)抑制的標(biāo)記,經(jīng)常和多種基因的啟動(dòng)子相聯(lián)系并經(jīng)常和染色質(zhì)活性標(biāo)記H3K4me一起出現(xiàn),他們組成所謂的“雙價(jià)體結(jié)構(gòu)域 使基因保持處于“轉(zhuǎn)錄準(zhǔn)備”狀態(tài)?!半p價(jià)體”模型典型地存在于發(fā)育調(diào)控基因中,在ES細(xì)胞等未分化狀態(tài)的細(xì)胞中則處于沉默狀態(tài),分化過(guò)程中被激活16。 最近的實(shí)驗(yàn)證明不僅在ES細(xì)胞發(fā)育調(diào)控基因的啟動(dòng)子中存在“雙價(jià)體”標(biāo)記,也存在于分化的細(xì)胞中。啟動(dòng)子、增強(qiáng)子等處的組蛋白賴氨酸乙?;谷旧|(zhì)激活而甲基化卻會(huì)使染色質(zhì)失活。通常H3K9me3和H4K20me3標(biāo)記沉默的印跡基因、沉默的重復(fù)基因、非表達(dá)的假基因和著絲粒以及端粒等,H3K27me3標(biāo)記組織特異性和發(fā)育調(diào)控的沉默基因17。在分化過(guò)程中雙價(jià)體染色質(zhì)的修飾平衡將發(fā)生改變,H3K4me修飾和H3K27me3修飾則大量沉默基因,而激活基因則很少被H3K4me修飾,這說(shuō)明在分化過(guò)程中基因的失活和“雙價(jià)體”染色質(zhì)的修飾平衡有關(guān)18。Es細(xì)胞通過(guò)調(diào)控“雙價(jià)體”的平衡實(shí)現(xiàn)對(duì)基因表達(dá)的調(diào)控,進(jìn)而調(diào)控其多能性和自我更新。 此外,染色質(zhì)的修飾還和轉(zhuǎn)錄因子表達(dá)激活與失活以及轉(zhuǎn)錄因子的結(jié)合相關(guān)。分化過(guò)程中,雙價(jià)體允許重要的轉(zhuǎn)錄因子基因快速激活,表達(dá)分化調(diào)控相關(guān)的轉(zhuǎn)錄因子進(jìn)而調(diào)節(jié)分化過(guò)程。基因組中的雙價(jià)體結(jié)構(gòu)域經(jīng)常富含多能性相關(guān)轉(zhuǎn)錄因子的結(jié)合位點(diǎn),比如,Oct4、Sox2、Nanog等重要的多能性相關(guān)轉(zhuǎn)錄因子。1.1.3 轉(zhuǎn)錄因子的調(diào)控 從病毒到人類(lèi),所有活的生物體都依靠轉(zhuǎn)錄機(jī)制表達(dá)基因組的特定部分,來(lái)應(yīng)對(duì)環(huán)境或發(fā)育信號(hào)的改變,以此執(zhí)行生命周期中的關(guān)鍵生物功能。因此,轉(zhuǎn)錄構(gòu)成了一個(gè)調(diào)節(jié)生物過(guò)程的關(guān)鍵步驟,而且轉(zhuǎn)錄因子被認(rèn)為是決定細(xì)胞命運(yùn)的主開(kāi)關(guān)。近年來(lái),干細(xì)胞生物學(xué)的迅速發(fā)展,主要得益于若干轉(zhuǎn)錄因子功能的闡明,轉(zhuǎn)錄因子是干細(xì)胞多能性的主要調(diào)節(jié)者。轉(zhuǎn)錄因子Oct4、Sox2、Nanog、Klf4和Myc已被證明具有將成體細(xì)胞重編程為具有多能性的細(xì)胞的神奇的力量轉(zhuǎn)錄因子往往與輔助因子和修飾分子采取一致行動(dòng)來(lái)為響應(yīng)發(fā)育或環(huán)境信號(hào)來(lái)打開(kāi)或關(guān)閉下游基因的表達(dá)19。因此,大量的轉(zhuǎn)錄因子已被證明在發(fā)育過(guò)程中主要通過(guò)控制細(xì)胞類(lèi)型特異性基因的表達(dá),從而指定細(xì)胞的命運(yùn)。ES細(xì)胞是研究細(xì)胞分化和相關(guān)轉(zhuǎn)錄因子生化分析的良好模型系統(tǒng)。1981年,埃文斯和考夫曼,以及馬丁第一次從小鼠囊胚的內(nèi)細(xì)胞團(tuán)中分離出胚胎干細(xì)胞。他們?cè)O(shè)計(jì)出一些方法讓這種細(xì)胞能無(wú)限增殖,使這些細(xì)胞具有多能性,因?yàn)樗鼈兛梢栽谥匦乱胄∈竽遗邥r(shí)形成嵌合體,并有助于形成包括生殖腺在內(nèi)的所有組織。這項(xiàng)技術(shù)突破帶來(lái)了利用同源重組的ES細(xì)胞產(chǎn)生基因敲除動(dòng)物的基因打靶技術(shù)。1998年,homson等成功地分離出人類(lèi)胚胎干細(xì)胞,這是一個(gè)具有劃時(shí)代意義的突破,意味著干細(xì)胞技術(shù)可能最終造福于人類(lèi)疾病的治療。干細(xì)胞研究在過(guò)去十年內(nèi)已經(jīng)開(kāi)始滲透到生物學(xué)和醫(yī)學(xué)的許多學(xué)科中,這一趨勢(shì)可能會(huì)繼續(xù),并冠以干細(xì)胞研究生物醫(yī)學(xué)研究中心的稱號(hào)。首先,包括胚胎干細(xì)胞和成體干細(xì)胞在內(nèi)的干細(xì)胞,是再生醫(yī)學(xué)的主角。再生科學(xué)被視為繼藥物治療和外科手術(shù)后的第三代治療方法。骨髓移植,通過(guò)更換病變的或有缺陷的造血干細(xì)胞,已經(jīng)成功地治療了多種疾病。第二,干細(xì)胞,尤其是胚胎干細(xì)胞,是基礎(chǔ)研究領(lǐng)域如信號(hào)轉(zhuǎn)導(dǎo)、發(fā)育和表觀遺傳學(xué)的理想模型。最后,干細(xì)胞可以成為藥物篩選和安全評(píng)估的有用工具。盡管干細(xì)胞研究為我們帶來(lái)了很多驚喜,但我們?nèi)蕴幱谔剿鞲杉?xì)胞的早期階段,包括干細(xì)胞在發(fā)育、疾病和再生等方面的分子水平機(jī)制我們?nèi)匀贿€不清楚。最新的關(guān)于調(diào)控胚胎干細(xì)胞多能性的分子機(jī)制的進(jìn)展提供了一些關(guān)于轉(zhuǎn)錄因子如Oct-4和Nanog在維持胚胎干細(xì)胞的未分化狀態(tài)方面的知識(shí)。1.1.4 胚胎干細(xì)胞分化的調(diào)控因子胚胎干細(xì)胞分化的調(diào)控是一個(gè)極其復(fù)雜的過(guò)程,是由多個(gè)因素組成的一個(gè)龐大的維持胚胎干細(xì)胞自我更新能力的調(diào)控網(wǎng)絡(luò),其中特異分子和各種轉(zhuǎn)錄因子的最終表達(dá)量是決定胚胎干細(xì)胞是否分化的關(guān)鍵因素。當(dāng)各種因子分泌量達(dá)到相互平衡狀態(tài)時(shí),胚胎干細(xì)胞維持自我更新,但是如果其中一個(gè)或幾個(gè)因子的表達(dá)量發(fā)生改變時(shí),就會(huì)促使胚胎干細(xì)胞向某一特定方向分化20。目前研究主要集中在八聚體結(jié)合蛋白4、Nanog、SOX基因、白血病抑制因子等幾條既平行又相互交錯(cuò)的通路所決定胚胎干細(xì)胞的自我更新。然而,近年來(lái)對(duì)一些多能性因子如Oct4、Sox2和Nanog的下游靶基因的研究表明,其可能正調(diào)控維持細(xì)胞全能、多能性狀態(tài)所需基因的轉(zhuǎn)錄,或者可能負(fù)調(diào)控與體細(xì)胞分化有關(guān)基因的轉(zhuǎn)錄21。因此對(duì)多能性因子如Oct4調(diào)控下游靶基因的研究將有助于對(duì)其在分化發(fā)育中所起作用的進(jìn)一步了解。除此以外,我們將轉(zhuǎn)錄因子的范圍擴(kuò)大到人類(lèi)基因組的所有轉(zhuǎn)錄因子。1.1.5 本論文的研究目的及其意義 現(xiàn)階段關(guān)于早期胚胎發(fā)育的分子機(jī)制的研究日趨白熱化,調(diào)控早期胚胎干細(xì)胞分化的基因更是研究者重點(diǎn)關(guān)注的課題。而這些基因中的三個(gè)代表基因:OCT4、SOX2 和 NANOG在ESCs的多潛能性和自我更新能力方面發(fā)揮了重要作用。然而,已研究清楚的人類(lèi)核心多潛能性因子(TFs)數(shù)量仍然十分有限。雖然通過(guò)統(tǒng)計(jì)我們知道核心多潛能性因子的總數(shù)達(dá)到了5000個(gè),但這個(gè)數(shù)值仍小于人類(lèi)核心多潛能性因子的理論值。本實(shí)驗(yàn)的目的在于篩選、優(yōu)化出干細(xì)胞相關(guān)基因,發(fā)現(xiàn)其中包含的信息,其意義不僅在于此準(zhǔn)確預(yù)測(cè)模型可應(yīng)用到其他方面,還在于本實(shí)驗(yàn)為其他的相關(guān)生物領(lǐng)域研究提供了經(jīng)可靠性打分的轉(zhuǎn)錄因子的靶基因,便于后續(xù)研究的進(jìn)行。這對(duì)于功能基因的識(shí)別、基因工程等方面都具有非常重要的價(jià)值。1.1.6 相關(guān)研究方法概述本文研究了一種應(yīng)用計(jì)算機(jī)技術(shù)對(duì)人類(lèi)胚胎干細(xì)胞相關(guān)基因進(jìn)行預(yù)測(cè)的方法。根據(jù)目的,我們把以轉(zhuǎn)錄起始位點(diǎn)(TSS)為中心,上下游-1000,+1000區(qū)間的范圍作為轉(zhuǎn)錄因子靶基因的定義范圍,以此為一個(gè)特征,組蛋白修飾是另外一個(gè)重要的特征。在不能確定陰性集的情況下,我們采用支持向量機(jī)(SVM)進(jìn)行預(yù)測(cè),此預(yù)測(cè)方法的特點(diǎn)是在陰性集缺失的情況下仍能夠較準(zhǔn)確地進(jìn)行預(yù)測(cè)。其次分析了這些預(yù)測(cè)靶基因的功能相似性和接近度中心性。2. 實(shí)驗(yàn)過(guò)程2.1 實(shí)驗(yàn)數(shù)據(jù)的獲取基于計(jì)算機(jī)的胚胎干細(xì)胞相關(guān)基因識(shí)別方法使用了3種數(shù)據(jù)集:已分化的胚胎干細(xì)胞基因數(shù)據(jù)集、基因及其靶位點(diǎn)數(shù)據(jù)集、轉(zhuǎn)錄因子結(jié)合位點(diǎn)數(shù)據(jù)集、組蛋白修飾數(shù)據(jù)集。 2.1.1 組蛋白修飾數(shù)據(jù)的獲取數(shù)據(jù)集中的數(shù)據(jù)抽取自NCBI中GEO板塊H9的組蛋白數(shù)據(jù)樣本,網(wǎng)址為/geo/,得到Bed格式文件;也可以點(diǎn)擊Web Link鏈接直接進(jìn)入數(shù)據(jù)地圖,在此地圖中篩選H9的組蛋白修飾數(shù)據(jù),以Bed文件的格式下載。2.1.2 TFBS數(shù)據(jù)的獲取 打開(kāi)UCSC,點(diǎn)擊TableBrowser,按圖1設(shè)置,點(diǎn)擊下載(Group:regulation; track:TFBS Conserved) 圖1.轉(zhuǎn)錄因子結(jié)合位點(diǎn)數(shù)據(jù)集搜集過(guò)程2.1.3 已分化的胚胎干細(xì)胞基因數(shù)據(jù)集打開(kāi)/SyStemCell/other_browse.jsp網(wǎng)址,點(diǎn)擊標(biāo)題欄Browse,按圖2設(shè)置,設(shè)置好篩選條件后點(diǎn)擊mRNA and miRNA搜索目錄的Browse,將出現(xiàn)圖3頁(yè)面,將頁(yè)面內(nèi)容存儲(chǔ)到Excel中即可。 圖2.胚胎干細(xì)胞基因數(shù)據(jù)集收集過(guò)程 圖3.胚胎干細(xì)胞基因數(shù)據(jù)集2.1.4 基因及其靶位點(diǎn)數(shù)據(jù)集打開(kāi)UCSC,點(diǎn)擊TableBrowser,按圖4設(shè)置,點(diǎn)擊下載(Group:Genes and Gene Predictions;track:UCSC Genes) 圖4.基因及其靶位點(diǎn)數(shù)據(jù)集搜集過(guò)程2.2 實(shí)驗(yàn)方法2.2.1 SVM概述由于本試驗(yàn)的陰性集確實(shí),經(jīng)過(guò)大量文獻(xiàn)的查閱,基于SVM模型能夠很好的解決生物數(shù)據(jù)中缺少陰性集而難以分類(lèi)的問(wèn)題,所以本論文采用基于M-C的SVM機(jī)器學(xué)習(xí)方法作為分類(lèi)模型。利用組蛋白修飾數(shù)據(jù)和TFBS數(shù)據(jù)對(duì)目標(biāo)靶基因進(jìn)行分類(lèi)。由于該方法需要有初始的陽(yáng)性數(shù)據(jù)集和特征向量組成的特征矩陣,它的數(shù)據(jù)處理流程圖如下: 圖5 SVM模型的數(shù)據(jù)流程圖首先,靶基因集合被稱為POS。余下的所有基因除掉靶基因后構(gòu)成MIX集合。其次,NEG集合是從MIX集合中隨機(jī)抽取的,和POS集合元素?cái)?shù)目相當(dāng)?shù)募希陨蠟橛成潆A段。在收斂階段,標(biāo)簽法運(yùn)用了SVM核心,并且下載程序包LIBSVM(3.20, . w/cjlin/libsvm/)。在每一個(gè)循環(huán)開(kāi)始前,我們從POS集合和NEG集合各抽取10%作為檢驗(yàn)集合,從而檢驗(yàn)?zāi)P偷臏?zhǔn)確性。通過(guò)SVM模型可以直接對(duì)全部的MIX集合進(jìn)行分類(lèi)。然后被判斷為陽(yáng)性的元素標(biāo)簽加1,判斷為陰性則標(biāo)簽沒(méi)有變化。在一個(gè)實(shí)驗(yàn)中這個(gè)過(guò)程被循環(huán)10,000次。 2.3 實(shí)驗(yàn)步驟2.3.1 用Chisq檢驗(yàn)篩選有用特征 首先利用Perl軟件處理下載得到的轉(zhuǎn)錄因子位點(diǎn)數(shù)據(jù),該文件包括285個(gè)轉(zhuǎn)錄因子結(jié)合位點(diǎn)序列,對(duì)文件中的數(shù)據(jù)進(jìn)行如下相應(yīng)的處理:只保留與基因相距1kb、2kb的轉(zhuǎn)錄因子結(jié)合位點(diǎn)。而不采用與其對(duì)應(yīng)的轉(zhuǎn)錄因子名稱來(lái)標(biāo)識(shí)位點(diǎn):刪除具有相同定義的結(jié)合位點(diǎn)序列。處理后部分內(nèi)容見(jiàn)如圖6(行名是基因名稱,列名是轉(zhuǎn)錄因子,數(shù)字代表兩者在位點(diǎn)上的距離,將表中大于2的數(shù)字全部轉(zhuǎn)化成0,構(gòu)成一個(gè)新的只有0、1的矩陣)。再利用R語(yǔ)言中Chisq檢驗(yàn)篩選有用特征。Chisq檢驗(yàn)是一種利用在目標(biāo)(Targrt)陰性數(shù)據(jù)集(neg)和陽(yáng)性數(shù)據(jù)集(pos)中特征(Feature)分布情況(四聯(lián)表格),來(lái)衡量目標(biāo)和參數(shù)是否存在非隨機(jī)關(guān)系的一種算法。首先獲取四聯(lián)表,如圖7.然后利用R語(yǔ)言內(nèi)置的Chisq檢驗(yàn)算法以p-value0.05為標(biāo)準(zhǔn)來(lái)篩選有用特征(Chisq檢驗(yàn)篩選有用特征的程序R語(yǔ)言請(qǐng)參看程序一)。篩選出和ESC分化基因相關(guān)性顯著的轉(zhuǎn)錄因子,由原始的258個(gè)篩選出來(lái)了91個(gè)(P值在0.05以下的為顯著),和ESC分化基因相關(guān)性顯著的組蛋白修飾,由原始的26個(gè)篩選出來(lái)了17個(gè)。 圖6轉(zhuǎn)錄因子位點(diǎn)數(shù)據(jù)集 圖7.四聯(lián)表數(shù)據(jù) 圖8. Chisq檢驗(yàn)后的數(shù)據(jù)2.3.2 GO分析Gene Ontology可分為分子功能(Molecular Function),生物過(guò)程(biological process)和細(xì)胞組成(cellular component)三個(gè)部分。蛋白質(zhì)或者基因可以通過(guò)ID對(duì)應(yīng)或者序列注釋的方法找到與之對(duì)應(yīng)的GO號(hào),而GO號(hào)可對(duì)于到Term,即功能類(lèi)別或者細(xì)胞定位。 功能富集分析: 功能富集需要有一個(gè)參考數(shù)據(jù)集,通過(guò)該項(xiàng)分析可以找出在統(tǒng)計(jì)上顯著富集的GO Term。GO分析根據(jù)挑選出的差異基因,計(jì)算這些差異基因同GO 分類(lèi)中某(幾)個(gè)特定的分支的超幾何分布關(guān)系,GO 分析會(huì)對(duì)每個(gè)有差異基因存在的GO 返回一個(gè)p-value,小的p 值表示差異基因在該GO 中出現(xiàn)了富集。 GO 分析對(duì)實(shí)驗(yàn)結(jié)果有提示的作用,通過(guò)差異基因的GO 分析,可以找到富集差異基因的GO分類(lèi)條目,尋找不同樣品的差異基因可能和哪些基因功能的改變有關(guān)。 2.3.3 ASPL分析2.3.2 通過(guò)SVM模型進(jìn)行數(shù)據(jù)分類(lèi)和篩選將篩選后的有用特征與其對(duì)應(yīng)的特征數(shù)據(jù)集組成新的表格,導(dǎo)出數(shù)據(jù)為為T(mén)XT格式,供程序調(diào)用。運(yùn)行程序后,最終會(huì)到處四個(gè)Excel表格,如圖9.表一是依據(jù)靶基因4. 參考文獻(xiàn)1華進(jìn)聯(lián),竇忠英,李橙等胚胎干細(xì)胞研究進(jìn)展,中國(guó)科學(xué)基金,2000,(2):67-712 Donovan P J, Gearhart J. The end of the beginning for pluripotent stem cells. Nature, 2001, 414(6859): 92973Burdon T, Smith A, Savatier P. Signalling, cell cycle and pluripotency in embryonic stem cells. Trends Cell Biol, 2002, 12(9): 432 438 4華進(jìn)聯(lián),竇忠英,李橙等胚胎干細(xì)胞生物學(xué)特性及其應(yīng)用前景,科學(xué)技術(shù)通報(bào),2001,(1):6-105Thomson J A,Itskovitz-Eldor J,Shapiro S S,Waknitz M A,Swiergiel J J,Marshall V S,Jones J M.Embryonic stem cell lines derived frOm human blastocysts.Science,1998,282 (5391):114511476Shamblott M J,Axelman J,Wang S,Bugg E M,Littlefield J W ,Donovan P J,Blumenthal P D,Huggins G R,Gearhart J DDerivation of pluripotent stem cells from cuRured human primordial germ cellsProc NatAcad Sci,1998,95 (23)eubinofBE,PeraM F,F(xiàn)0ngC Y,eta1Embryonic stem eelllines from human blastocysts:somatic diferentiation in vitroNat Biotechnol,2000,18:3994048RamalhoSantos M,Yoon S,Matsuzaki Y,et a1“Sternness”:tran scriptional profiling of embryonic and adult stem cellsScience,2002,298:5976009Bodnar M S,Meneses J J,Rodriguez R T,et a1Propagation an d maintenance of undiferentiated human embryonic stem cellsStem Cells Dev2004 1 3:24325310雷雨斌,肖悅,周覓.組蛋白修飾與ES細(xì)胞的多能性,科技創(chuàng)新導(dǎo)報(bào),1674098X(2009) 08(b)-0220-011Peterson C L,Laniel M AHistones and histone modificationsCurrBiol,2004,14(14):R54655112Torres-Padilla M E,Parfitt D E,Kouzarides T,et o1Histone arginine methylation regulates pluripotency in the early mouse embryoNature,2007,445(7124):21421813Strahl B D, Allis C D The language of covalent histone modificationsNature,2000,403(6765):414514Hitoshi NiwaHow is plufipotency de-termined and maintained Development l34,635646(2007)1516Victoria VLunyak,Michael GRosenfeldEpigenetic regulation of stem cell fateHuman M olecular Genetics,2008.Vol.1717Marina BibikovaUnraveling Epigenetic Regulation in Embryonic Stem Cels Cell Stem Cell 200801oo518Jane MeHorA glimpse into the epigenetic landscape of gene regulationCurrent Opinion in Gen etics & Development 2008,18:l1612219Duanqing Pei (2009), Regulation of Pluripotency and Reprogramming by Transcription Factors,J Biol Chem. 284(6):3365-920朱向情,陳強(qiáng),丁亞楠,馬丹,潘興華胚胎干細(xì)胞分化的調(diào)控因子J中國(guó)組織工程研究與臨床康復(fù),2008,12(29):5743574721陳艷玫等:轉(zhuǎn)錄因子Oct-4調(diào)控下游靶基因及其與胚胎發(fā)育全能、多能性的關(guān)系,細(xì)胞生物學(xué)雜志,2004,26:445-4495. 附錄附錄一:Fisher檢驗(yàn)的R程序con - file(C:/Users/Administrator/Desktop/Nanog.txt, r)line=readLines(con,n=1)c-paste(,)while( length(line) != 0 ) strr = strsplit(line,;) c-paste(c,strr11) c-paste(c,;) numstr=strsplit(strr12,) p=fisher.test(alle-matrix(c(as.numeric(numstr11),as.numeric(numstr12),as.numeric(numstr13),as.numeric(numstr14), nrow=2) c-paste(c,p1) c-paste(c,n) line=readLines(con,n=1) write.table(c, file = C:/Users/Administrator/Desktop/NanogFisher.txt, s = F, quote = F)close(con)附錄二:SVM的Matlab程序%Leander%手動(dòng)導(dǎo)入negname文件tic%matlabpool local 3%開(kāi)啟并行運(yùn)算mix=xlsread(F:cslabelNegSox2.xls);%讀取未知文件mixpos=xlsread(F:cslabelPosSox2.xls);%讀取陽(yáng)性文件posa=zeros(size(mix,1),1);mix_fre=a,mix;%在mix_fre里加一個(gè)一一對(duì)應(yīng)的列向量,注意這時(shí)mix_fre為加了一行列向量的mixd=zeros(500,1);%用來(lái)補(bǔ)齊testx和testy的值的AUC=;X=;Y=;ACC=;i=0;%計(jì)數(shù)器歸零while i10 %100次循環(huán)i=i+1;%計(jì)數(shù)器a=zeros(size(mix,1),1);b=zeros(size(pos,1),1);c=b;x=randperm(size(mix,1),size(pos,1);%從1到mix的所有行,隨機(jī)pos個(gè)數(shù)字a(sub2ind(size(a),x,ones(size(x,1),1)=1;%a的x指定位置為1negl=mix(logical(a),:);%利用布爾型數(shù)據(jù)抽出negly=randperm(size(pos,1),ceil(size(pos,1)*0.1);%從1到pos的所有行,隨機(jī)0.1pos個(gè)數(shù)字b(sub2ind(size(b),y,ones(size(y,1),1)=1;%b的y指定位置為1pos_jianyan=pos(logical(b),:);pos_xunlian=pos(logical(b),:);%雖然取的是相同位置,但是仍是隨機(jī)的,事實(shí)證明影響很大!z=randperm(size(negl,1),ceil(size(negl,1)*0.1);%c(sub2ind(size(c),z,ones(size(z,1),1)=1;%c的z指定位置為1negl_jianyan=negl(logical(c),:);negl_xunlian=negl(logical(c),:);%檢驗(yàn)集和訓(xùn)練集分開(kāi)best
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 取消361考核制度
- 貸中審查考核制度
- 供水車(chē)間考核制度
- 重癥醫(yī)學(xué)科考核制度
- 項(xiàng)目農(nóng)民工考核制度
- 志愿者監(jiān)督考核制度
- 配電間值班考核制度
- 殺鴨廠物料考核制度
- 局綜治工作考核制度
- 辦公室學(xué)習(xí)考核制度
- 企業(yè)人力資源制度
- 2026年小紅書(shū)38好心情小會(huì)招商方案
- 初中英語(yǔ)(完整版)連詞and-or-but的用法練習(xí)題及答案
- 新房建房申請(qǐng)書(shū)
- 結(jié)直腸外科的發(fā)展歷程解析
- 輸液錯(cuò)誤不良事件課件
- 鍋爐的定期排污(定排)和連續(xù)排污(連排)區(qū)別
- 施工班組勞務(wù)分包合同
- 氣管套管脫管的應(yīng)急處理
- 1.1+中國(guó)的疆域- 八年級(jí)地理 (湘教版)
- 北京中醫(yī)藥大學(xué)東方學(xué)院教案
評(píng)論
0/150
提交評(píng)論