版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于全基因組網(wǎng)絡(luò)解析的胃癌預(yù)后基因組學(xué)評分體系構(gòu)建與評估一、引言1.1研究背景與意義胃癌作為全球范圍內(nèi)嚴(yán)重威脅人類健康的重大疾病,其發(fā)病率和死亡率一直居高不下。據(jù)國際癌癥研究機(jī)構(gòu)(IARC)發(fā)布的最新數(shù)據(jù)顯示,胃癌是全球第五大常見癌癥,也是癌癥相關(guān)死亡的第四大原因,每年新增病例超過100萬,死亡人數(shù)約78萬。在我國,胃癌同樣是高發(fā)惡性腫瘤之一,嚴(yán)重影響國民的生命健康和生活質(zhì)量。由于胃癌早期癥狀隱匿,多數(shù)患者確診時(shí)已處于中晚期,錯(cuò)失了最佳手術(shù)時(shí)機(jī),導(dǎo)致總體預(yù)后較差,5年生存率僅為30%左右。因此,準(zhǔn)確評估胃癌患者的預(yù)后,對于制定個(gè)性化治療方案、提高患者生存率和生活質(zhì)量具有至關(guān)重要的意義。傳統(tǒng)的胃癌預(yù)后評估主要依賴于臨床病理特征,如腫瘤大小、浸潤深度、淋巴結(jié)轉(zhuǎn)移情況、TNM分期等。這些指標(biāo)在一定程度上能夠反映患者的預(yù)后情況,但存在局限性。一方面,臨床病理特征只能描述腫瘤的宏觀表現(xiàn),無法深入揭示腫瘤發(fā)生發(fā)展的分子機(jī)制;另一方面,胃癌具有高度的異質(zhì)性,即使具有相同臨床病理特征的患者,其預(yù)后也可能存在顯著差異。因此,尋找更為精準(zhǔn)的預(yù)后評估指標(biāo)和方法,是當(dāng)前胃癌研究領(lǐng)域的重點(diǎn)和難點(diǎn)。隨著基因組學(xué)技術(shù)的飛速發(fā)展,全基因組網(wǎng)絡(luò)分析和基因組學(xué)評分在腫瘤研究中展現(xiàn)出巨大潛力。全基因組網(wǎng)絡(luò)分析能夠從整體層面研究基因之間的相互作用和調(diào)控關(guān)系,揭示腫瘤發(fā)生發(fā)展的復(fù)雜分子機(jī)制。通過構(gòu)建全基因組網(wǎng)絡(luò),可以發(fā)現(xiàn)一些與胃癌預(yù)后密切相關(guān)的關(guān)鍵基因和信號(hào)通路,為預(yù)后評估提供新的視角和靶點(diǎn)?;蚪M學(xué)評分則是基于多個(gè)基因的表達(dá)水平或遺傳變異信息,通過數(shù)學(xué)模型計(jì)算得出的一個(gè)量化指標(biāo),能夠綜合反映腫瘤的生物學(xué)行為和患者的預(yù)后風(fēng)險(xiǎn)。與傳統(tǒng)的單基因或少數(shù)基因標(biāo)志物相比,基因組學(xué)評分具有更高的準(zhǔn)確性和可靠性,能夠更全面地評估患者的預(yù)后情況。在胃癌研究中,全基因組網(wǎng)絡(luò)分析和基因組學(xué)評分已逐漸成為研究熱點(diǎn)。已有研究通過全基因組關(guān)聯(lián)分析(GWAS)發(fā)現(xiàn)了多個(gè)與胃癌預(yù)后相關(guān)的單核苷酸多態(tài)性(SNP)位點(diǎn),這些位點(diǎn)涉及細(xì)胞增殖、凋亡、免疫逃逸等多個(gè)生物學(xué)過程,為胃癌預(yù)后的分子機(jī)制研究提供了重要線索。同時(shí),一些基于基因表達(dá)譜的基因組學(xué)評分模型也被開發(fā)出來,如OncotypeDX、MammaPrint等,在乳腺癌預(yù)后評估中取得了良好的效果,并逐漸應(yīng)用于胃癌等其他腫瘤的研究。然而,目前針對胃癌的全基因組網(wǎng)絡(luò)分析和基因組學(xué)評分研究仍處于起步階段,存在諸多問題和挑戰(zhàn)。例如,不同研究中使用的數(shù)據(jù)集和分析方法差異較大,導(dǎo)致結(jié)果的可比性和重復(fù)性較差;已建立的基因組學(xué)評分模型的準(zhǔn)確性和穩(wěn)定性有待進(jìn)一步提高,臨床應(yīng)用價(jià)值有限等。因此,本研究旨在基于全基因組網(wǎng)絡(luò)分析,構(gòu)建一種新的胃癌基因組學(xué)評分模型,以期更準(zhǔn)確地預(yù)測胃癌患者的預(yù)后。通過整合大規(guī)模的胃癌基因組數(shù)據(jù)和臨床信息,利用先進(jìn)的生物信息學(xué)和統(tǒng)計(jì)學(xué)方法,系統(tǒng)分析基因之間的相互作用和調(diào)控關(guān)系,篩選出與胃癌預(yù)后密切相關(guān)的關(guān)鍵基因,并構(gòu)建基因組學(xué)評分模型。同時(shí),對模型的性能進(jìn)行全面評估和驗(yàn)證,探討其在臨床實(shí)踐中的應(yīng)用價(jià)值。本研究的成果將為胃癌的預(yù)后評估提供新的方法和工具,有助于臨床醫(yī)生制定更加精準(zhǔn)的治療策略,改善患者的預(yù)后,具有重要的理論意義和臨床應(yīng)用價(jià)值。1.2研究目的與創(chuàng)新點(diǎn)本研究旨在整合全基因組數(shù)據(jù)和臨床信息,構(gòu)建基于全基因組網(wǎng)絡(luò)的胃癌基因組學(xué)評分體系,精準(zhǔn)預(yù)測胃癌患者預(yù)后,并深入探索相關(guān)關(guān)鍵基因和信號(hào)通路,為胃癌的精準(zhǔn)治療提供理論依據(jù)和潛在靶點(diǎn)。具體研究目的如下:構(gòu)建胃癌基因組學(xué)評分體系:整合大規(guī)模胃癌患者的全基因組數(shù)據(jù),包括基因表達(dá)譜、DNA甲基化、拷貝數(shù)變異等多組學(xué)數(shù)據(jù),運(yùn)用先進(jìn)的生物信息學(xué)和機(jī)器學(xué)習(xí)算法,構(gòu)建能夠準(zhǔn)確預(yù)測胃癌患者預(yù)后的基因組學(xué)評分模型。驗(yàn)證評分體系的準(zhǔn)確性和可靠性:在多個(gè)獨(dú)立的胃癌數(shù)據(jù)集上對構(gòu)建的基因組學(xué)評分模型進(jìn)行驗(yàn)證,評估其在預(yù)測患者總生存期、無病生存期等預(yù)后指標(biāo)方面的準(zhǔn)確性和可靠性,并與傳統(tǒng)的臨床病理指標(biāo)進(jìn)行比較,明確其優(yōu)勢和應(yīng)用價(jià)值。挖掘與胃癌預(yù)后相關(guān)的關(guān)鍵基因和信號(hào)通路:通過對全基因組網(wǎng)絡(luò)的分析,結(jié)合功能富集分析、基因調(diào)控網(wǎng)絡(luò)分析等方法,挖掘與胃癌預(yù)后密切相關(guān)的關(guān)鍵基因和信號(hào)通路,揭示其在胃癌發(fā)生發(fā)展和預(yù)后中的作用機(jī)制,為胃癌的精準(zhǔn)治療提供新的靶點(diǎn)和理論依據(jù)。本研究的創(chuàng)新點(diǎn)主要體現(xiàn)在以下幾個(gè)方面:多組學(xué)數(shù)據(jù)整合:不同于以往單一組學(xué)數(shù)據(jù)的分析,本研究整合了基因表達(dá)譜、DNA甲基化、拷貝數(shù)變異等多組學(xué)數(shù)據(jù),從多個(gè)層面全面揭示胃癌的分子特征,為構(gòu)建更準(zhǔn)確的基因組學(xué)評分模型提供了豐富的數(shù)據(jù)基礎(chǔ)。全基因組網(wǎng)絡(luò)分析方法:運(yùn)用先進(jìn)的全基因組網(wǎng)絡(luò)分析技術(shù),系統(tǒng)研究基因之間的相互作用和調(diào)控關(guān)系,挖掘潛在的關(guān)鍵基因和信號(hào)通路,突破了傳統(tǒng)單基因或少數(shù)基因研究的局限性,從整體層面深入理解胃癌的發(fā)病機(jī)制和預(yù)后相關(guān)因素。臨床應(yīng)用導(dǎo)向:本研究構(gòu)建的基因組學(xué)評分模型緊密結(jié)合臨床實(shí)際需求,旨在為臨床醫(yī)生提供一種簡單、實(shí)用、準(zhǔn)確的胃癌預(yù)后評估工具,具有較強(qiáng)的臨床應(yīng)用價(jià)值,有望為胃癌患者的個(gè)性化治療決策提供重要參考依據(jù)。二、理論基礎(chǔ)與研究方法2.1全基因組網(wǎng)絡(luò)相關(guān)理論全基因組網(wǎng)絡(luò)是指在整個(gè)基因組范圍內(nèi),將基因作為節(jié)點(diǎn),基因之間的相互作用關(guān)系作為邊所構(gòu)建的復(fù)雜網(wǎng)絡(luò)系統(tǒng)。它全面涵蓋了基因之間的各種關(guān)聯(lián),包括基因共表達(dá)、蛋白質(zhì)-蛋白質(zhì)相互作用、轉(zhuǎn)錄調(diào)控、信號(hào)傳導(dǎo)等關(guān)系。在這個(gè)網(wǎng)絡(luò)中,每個(gè)基因都不是孤立存在的,而是與其他基因通過多種方式相互影響、協(xié)同工作,共同維持細(xì)胞的正常生理功能。當(dāng)基因網(wǎng)絡(luò)中的某些節(jié)點(diǎn)或邊發(fā)生異常變化時(shí),就可能導(dǎo)致細(xì)胞功能紊亂,進(jìn)而引發(fā)疾病。全基因組網(wǎng)絡(luò)主要由基因節(jié)點(diǎn)和連接這些節(jié)點(diǎn)的邊組成。基因節(jié)點(diǎn)代表了基因組中的各個(gè)基因,它們是遺傳信息的基本單位,承載著生物體生長、發(fā)育、代謝等生命活動(dòng)的遺傳指令。邊則表示基因之間的相互作用關(guān)系,這些相互作用可以是直接的,如轉(zhuǎn)錄因子與靶基因啟動(dòng)子區(qū)域的結(jié)合,直接調(diào)控基因的表達(dá);也可以是間接的,通過中間分子或信號(hào)通路來實(shí)現(xiàn)基因之間的信息傳遞和協(xié)同調(diào)控。根據(jù)邊所代表的相互作用類型,全基因組網(wǎng)絡(luò)又可以進(jìn)一步細(xì)分為多種子網(wǎng)絡(luò),如基因共表達(dá)網(wǎng)絡(luò)、蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)、轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)等。不同類型的子網(wǎng)絡(luò)從不同角度揭示了基因之間的關(guān)系,它們相互交織、相互影響,共同構(gòu)成了一個(gè)復(fù)雜而有序的全基因組網(wǎng)絡(luò)體系。在疾病研究領(lǐng)域,全基因組網(wǎng)絡(luò)發(fā)揮著至關(guān)重要的作用。通過構(gòu)建和分析疾病相關(guān)的全基因組網(wǎng)絡(luò),研究人員可以從系統(tǒng)層面深入了解疾病的發(fā)病機(jī)制。以癌癥為例,傳統(tǒng)的研究方法往往聚焦于單個(gè)或少數(shù)幾個(gè)基因的異常變化,但癌癥是一種復(fù)雜的多基因疾病,涉及多個(gè)基因的協(xié)同改變和多條信號(hào)通路的異常激活。全基因組網(wǎng)絡(luò)分析能夠?qū)⑦@些分散的基因信息整合起來,揭示基因之間的相互作用模式和協(xié)同調(diào)控機(jī)制,從而發(fā)現(xiàn)一些在癌癥發(fā)生發(fā)展過程中起關(guān)鍵作用的基因模塊和信號(hào)通路。例如,在乳腺癌的研究中,通過構(gòu)建基因共表達(dá)網(wǎng)絡(luò),發(fā)現(xiàn)了一些與腫瘤細(xì)胞增殖、侵襲和轉(zhuǎn)移密切相關(guān)的基因模塊,這些模塊中的基因相互協(xié)作,共同推動(dòng)了乳腺癌的進(jìn)展。此外,全基因組網(wǎng)絡(luò)還可以用于疾病的診斷、預(yù)后評估和藥物研發(fā)。一些關(guān)鍵基因或基因模塊可以作為疾病診斷的生物標(biāo)志物,用于早期疾病的檢測和診斷;通過分析全基因組網(wǎng)絡(luò)與疾病預(yù)后的關(guān)系,可以建立更準(zhǔn)確的預(yù)后評估模型,為臨床治療決策提供依據(jù);在藥物研發(fā)方面,全基因組網(wǎng)絡(luò)分析可以幫助研究人員識(shí)別潛在的藥物靶點(diǎn),提高藥物研發(fā)的效率和成功率。在胃癌預(yù)后分析中,全基因組網(wǎng)絡(luò)具有獨(dú)特的應(yīng)用原理和潛在優(yōu)勢。其應(yīng)用原理主要基于以下假設(shè):胃癌的發(fā)生發(fā)展是一個(gè)復(fù)雜的生物學(xué)過程,涉及多個(gè)基因的異常表達(dá)和相互作用,這些基因之間的關(guān)系可以通過構(gòu)建全基因組網(wǎng)絡(luò)來進(jìn)行系統(tǒng)研究。通過對胃癌患者的全基因組數(shù)據(jù)進(jìn)行分析,構(gòu)建基因共表達(dá)網(wǎng)絡(luò)、蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)等,可以找出與胃癌預(yù)后密切相關(guān)的基因和基因模塊。這些關(guān)鍵基因和模塊可能參與了胃癌細(xì)胞的增殖、凋亡、侵襲、轉(zhuǎn)移等生物學(xué)過程,通過影響這些過程來決定患者的預(yù)后情況。全基因組網(wǎng)絡(luò)在胃癌預(yù)后分析中的潛在優(yōu)勢主要體現(xiàn)在以下幾個(gè)方面:首先,它能夠從整體層面綜合考慮多個(gè)基因的相互作用,克服了傳統(tǒng)單基因研究的局限性。胃癌具有高度的異質(zhì)性,不同患者的腫瘤細(xì)胞可能存在不同的基因變異和表達(dá)模式,單基因研究難以全面反映胃癌的復(fù)雜性。而全基因組網(wǎng)絡(luò)分析可以同時(shí)分析成千上萬個(gè)基因之間的關(guān)系,發(fā)現(xiàn)一些隱藏在基因相互作用網(wǎng)絡(luò)中的關(guān)鍵信息,為胃癌預(yù)后評估提供更全面、更準(zhǔn)確的依據(jù)。其次,全基因組網(wǎng)絡(luò)分析可以挖掘出一些新的與胃癌預(yù)后相關(guān)的基因和信號(hào)通路。傳統(tǒng)的研究方法往往受到已知知識(shí)的限制,難以發(fā)現(xiàn)新的生物學(xué)機(jī)制。通過全基因組網(wǎng)絡(luò)分析,可以打破這種限制,從海量的基因數(shù)據(jù)中發(fā)現(xiàn)一些尚未被認(rèn)識(shí)的基因和通路,為深入理解胃癌的發(fā)病機(jī)制和預(yù)后相關(guān)因素提供新的線索。最后,全基因組網(wǎng)絡(luò)分析結(jié)果具有較好的可解釋性和臨床應(yīng)用價(jià)值。通過構(gòu)建基因網(wǎng)絡(luò),可以直觀地展示基因之間的相互關(guān)系,幫助研究人員更好地理解胃癌的生物學(xué)行為。同時(shí),這些分析結(jié)果可以為臨床醫(yī)生提供一些潛在的治療靶點(diǎn)和預(yù)后評估指標(biāo),有助于制定個(gè)性化的治療方案,提高胃癌患者的治療效果和生存率。2.2基因組學(xué)評分方法概述基因組學(xué)評分作為評估生物樣本基因組特征的量化指標(biāo),在胃癌預(yù)后分析等醫(yī)學(xué)研究領(lǐng)域發(fā)揮著關(guān)鍵作用。其計(jì)算方法豐富多樣,每種方法都有其獨(dú)特的原理、適用場景及優(yōu)缺點(diǎn)。加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(WGCNA)是一種常用的計(jì)算基因組學(xué)評分的方法。該方法主要基于基因表達(dá)數(shù)據(jù),通過計(jì)算基因之間的相關(guān)性來構(gòu)建基因共表達(dá)網(wǎng)絡(luò)。具體而言,它將基因視為網(wǎng)絡(luò)中的節(jié)點(diǎn),基因之間的共表達(dá)關(guān)系視為邊,通過對基因表達(dá)數(shù)據(jù)進(jìn)行分析,確定基因之間的關(guān)聯(lián)程度。在構(gòu)建網(wǎng)絡(luò)時(shí),WGCNA會(huì)為每條邊賦予一個(gè)權(quán)重,權(quán)重的大小反映了基因之間共表達(dá)關(guān)系的強(qiáng)弱。通過這種加權(quán)的方式,WGCNA能夠更準(zhǔn)確地描述基因之間的關(guān)系,克服了傳統(tǒng)方法中僅考慮基因是否共表達(dá)的局限性。WGCNA的適用場景較為廣泛,尤其適用于研究基因之間的協(xié)同作用以及基因模塊與生物表型之間的關(guān)系。在胃癌研究中,它可以幫助研究人員識(shí)別與胃癌發(fā)生發(fā)展相關(guān)的基因模塊,以及這些模塊中的關(guān)鍵基因。例如,通過WGCNA分析胃癌患者的基因表達(dá)數(shù)據(jù),發(fā)現(xiàn)某些基因模塊與腫瘤的侵襲和轉(zhuǎn)移密切相關(guān),這些模塊中的關(guān)鍵基因可能成為潛在的治療靶點(diǎn)。然而,WGCNA也存在一些缺點(diǎn)。一方面,該方法對樣本量要求較高,通常需要較大規(guī)模的數(shù)據(jù)集才能獲得可靠的結(jié)果。另一方面,WGCNA的計(jì)算過程較為復(fù)雜,涉及到大量的數(shù)學(xué)運(yùn)算和參數(shù)設(shè)置,對研究人員的生物信息學(xué)技能要求較高。此外,由于基因共表達(dá)關(guān)系并不等同于基因之間的直接調(diào)控關(guān)系,WGCNA分析結(jié)果可能存在一定的假陽性。單樣本基因集富集分析(ssGSEA)也是一種常用的基因組學(xué)評分計(jì)算方法。它主要基于基因集富集分析(GSEA)的原理,通過評估單個(gè)樣本中基因集的富集程度來計(jì)算基因組學(xué)評分。在ssGSEA中,首先需要定義一個(gè)基因集,該基因集可以是與特定生物學(xué)過程、信號(hào)通路或疾病相關(guān)的一組基因。然后,對于每個(gè)樣本,計(jì)算基因集中基因的表達(dá)水平與樣本中所有基因表達(dá)水平的差異,從而得到基因集在該樣本中的富集分?jǐn)?shù)。這個(gè)富集分?jǐn)?shù)就是該樣本的基因組學(xué)評分。ssGSEA的優(yōu)點(diǎn)在于它能夠快速有效地評估單個(gè)樣本中基因集的富集程度,無需進(jìn)行樣本間的比較。這使得它在處理小樣本數(shù)據(jù)集時(shí)具有很大的優(yōu)勢。在胃癌預(yù)后分析中,ssGSEA可以用于評估單個(gè)胃癌患者樣本中與預(yù)后相關(guān)的基因集的富集程度,從而預(yù)測患者的預(yù)后情況。例如,通過定義一個(gè)包含與胃癌預(yù)后相關(guān)基因的基因集,利用ssGSEA計(jì)算每個(gè)患者樣本中該基因集的富集分?jǐn)?shù),發(fā)現(xiàn)富集分?jǐn)?shù)高的患者往往預(yù)后較差。然而,ssGSEA也存在一些局限性。它對基因集的定義較為依賴,不同的基因集定義可能會(huì)導(dǎo)致不同的分析結(jié)果。此外,ssGSEA只能反映基因集在樣本中的富集程度,無法深入揭示基因之間的相互作用關(guān)系。除了WGCNA和ssGSEA之外,還有其他一些方法也可用于計(jì)算基因組學(xué)評分,如主成分分析(PCA)、最小絕對收縮和選擇算子(LASSO)回歸等。PCA是一種降維方法,它通過將多個(gè)基因的表達(dá)數(shù)據(jù)轉(zhuǎn)換為少數(shù)幾個(gè)主成分,來提取數(shù)據(jù)的主要特征。在計(jì)算基因組學(xué)評分時(shí),PCA可以將多個(gè)基因的表達(dá)信息整合到一個(gè)綜合指標(biāo)中,從而簡化數(shù)據(jù)分析過程。LASSO回歸則是一種用于變量選擇和模型構(gòu)建的方法,它可以在眾多基因中篩選出與預(yù)后相關(guān)的關(guān)鍵基因,并構(gòu)建基于這些關(guān)鍵基因的基因組學(xué)評分模型。這些方法各有優(yōu)缺點(diǎn),在實(shí)際應(yīng)用中需要根據(jù)具體研究目的和數(shù)據(jù)特點(diǎn)進(jìn)行選擇。2.3數(shù)據(jù)來源與處理本研究的數(shù)據(jù)主要來源于癌癥基因組圖譜(TheCancerGenomeAtlas,TCGA)數(shù)據(jù)庫。TCGA是由美國國立衛(wèi)生研究院(NIH)下屬的國家癌癥研究所(NCI)和國家人類基因組研究所(NHGRI)共同資助的一項(xiàng)大型癌癥基因組研究項(xiàng)目。該項(xiàng)目旨在全面解析多種癌癥的基因組特征,通過對大量癌癥患者樣本進(jìn)行多組學(xué)測序和分析,生成了豐富的基因組數(shù)據(jù)資源,包括基因表達(dá)譜、DNA甲基化、拷貝數(shù)變異等。在胃癌研究領(lǐng)域,TCGA數(shù)據(jù)庫提供了涵蓋大量患者的全面數(shù)據(jù),為深入探究胃癌的分子機(jī)制和預(yù)后相關(guān)因素提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。在數(shù)據(jù)篩選方面,從TCGA數(shù)據(jù)庫中檢索出所有標(biāo)記為胃癌的樣本數(shù)據(jù)。對這些樣本數(shù)據(jù)進(jìn)行嚴(yán)格篩選,確保樣本的臨床信息完整,包括患者的年齡、性別、腫瘤分期、病理類型、生存時(shí)間等關(guān)鍵信息。同時(shí),排除那些數(shù)據(jù)質(zhì)量存在問題的樣本,如測序深度不足、基因表達(dá)數(shù)據(jù)缺失率過高的樣本。經(jīng)過仔細(xì)篩選,最終確定了[X]例胃癌患者的樣本數(shù)據(jù)用于后續(xù)分析,這些樣本具有完整且高質(zhì)量的多組學(xué)數(shù)據(jù)和臨床信息,能夠?yàn)檠芯刻峁┛煽康囊罁?jù)。數(shù)據(jù)預(yù)處理是保證數(shù)據(jù)分析準(zhǔn)確性的重要環(huán)節(jié)。對于基因表達(dá)數(shù)據(jù),首先對原始的測序reads進(jìn)行質(zhì)量控制,使用FastQC等工具檢查測序數(shù)據(jù)的質(zhì)量,去除低質(zhì)量的reads和接頭序列。采用TopHat等軟件將高質(zhì)量的reads比對到人類參考基因組(如GRCh38)上,以確定每個(gè)基因的表達(dá)位置和表達(dá)量。使用HTSeq等工具對基因表達(dá)量進(jìn)行計(jì)數(shù),得到每個(gè)基因在不同樣本中的原始表達(dá)計(jì)數(shù)。由于不同樣本之間的測序深度存在差異,為了消除這種差異對基因表達(dá)分析的影響,對原始表達(dá)計(jì)數(shù)進(jìn)行標(biāo)準(zhǔn)化處理,采用的方法是將原始表達(dá)計(jì)數(shù)轉(zhuǎn)換為每百萬映射reads中來自某基因每千堿基長度的reads數(shù)(ReadsPerKilobaseMillion,RPKM)或每千堿基轉(zhuǎn)錄本長度每百萬映射reads上的reads數(shù)(FragmentsPerKilobaseofexonperMillionreadsmapped,F(xiàn)PKM)。對于DNA甲基化數(shù)據(jù),首先對原始的甲基化芯片數(shù)據(jù)進(jìn)行背景校正和歸一化處理。使用IlluminaGenomeStudio軟件對甲基化芯片數(shù)據(jù)進(jìn)行分析,去除那些檢測信號(hào)強(qiáng)度過低或變異系數(shù)過大的探針。采用BMIQ(Beta-MixtureQuantilenormalization)等方法對甲基化數(shù)據(jù)進(jìn)行歸一化,以消除不同芯片之間的技術(shù)差異。經(jīng)過歸一化處理后,得到每個(gè)CpG位點(diǎn)在不同樣本中的甲基化水平,甲基化水平用β值表示,β值的范圍為0-1,0表示該CpG位點(diǎn)完全未甲基化,1表示該CpG位點(diǎn)完全甲基化。對于拷貝數(shù)變異(CopyNumberVariation,CNV)數(shù)據(jù),利用CNVkit等工具對原始的測序數(shù)據(jù)進(jìn)行分析,識(shí)別出基因組中的拷貝數(shù)變異區(qū)域。根據(jù)參考基因組的注釋信息,確定每個(gè)CNV區(qū)域所包含的基因。對CNV數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,將每個(gè)基因的拷貝數(shù)變異狀態(tài)轉(zhuǎn)換為相對拷貝數(shù),即與正常參考樣本相比,該基因的拷貝數(shù)增加或減少的倍數(shù)。通過以上對數(shù)據(jù)來源的嚴(yán)格篩選和對基因表達(dá)數(shù)據(jù)、DNA甲基化數(shù)據(jù)、CNV數(shù)據(jù)的全面預(yù)處理,確保了數(shù)據(jù)的質(zhì)量和一致性,為后續(xù)基于全基因組網(wǎng)絡(luò)的分析和基因組學(xué)評分模型的構(gòu)建提供了可靠的數(shù)據(jù)基礎(chǔ)。2.4分析流程與技術(shù)路線本研究的技術(shù)路線如圖1所示,主要包括數(shù)據(jù)獲取、全基因組網(wǎng)絡(luò)構(gòu)建、基因篩選、基因組學(xué)評分計(jì)算和模型驗(yàn)證等步驟。圖1研究技術(shù)路線圖首先進(jìn)行數(shù)據(jù)獲取與預(yù)處理,從TCGA數(shù)據(jù)庫中嚴(yán)格篩選出[X]例胃癌患者的樣本數(shù)據(jù),這些數(shù)據(jù)涵蓋基因表達(dá)譜、DNA甲基化、拷貝數(shù)變異等多組學(xué)數(shù)據(jù)以及詳細(xì)的臨床信息。對獲取到的基因表達(dá)數(shù)據(jù),依次進(jìn)行質(zhì)量控制,去除低質(zhì)量reads和接頭序列;將高質(zhì)量reads比對到人類參考基因組上,確定基因表達(dá)位置和表達(dá)量;對基因表達(dá)量進(jìn)行計(jì)數(shù),得到原始表達(dá)計(jì)數(shù);最后將原始表達(dá)計(jì)數(shù)轉(zhuǎn)換為RPKM或FPKM進(jìn)行標(biāo)準(zhǔn)化處理。對于DNA甲基化數(shù)據(jù),先進(jìn)行背景校正和歸一化處理,去除低質(zhì)量探針,再采用BMIQ等方法進(jìn)行歸一化,得到每個(gè)CpG位點(diǎn)的甲基化水平(β值)。對于拷貝數(shù)變異數(shù)據(jù),利用CNVkit等工具識(shí)別拷貝數(shù)變異區(qū)域,確定區(qū)域內(nèi)包含的基因,并將拷貝數(shù)變異狀態(tài)轉(zhuǎn)換為相對拷貝數(shù)。接著進(jìn)行全基因組網(wǎng)絡(luò)構(gòu)建,以預(yù)處理后的多組學(xué)數(shù)據(jù)為基礎(chǔ),運(yùn)用WGCNA方法構(gòu)建基因共表達(dá)網(wǎng)絡(luò)。計(jì)算基因之間的相關(guān)性,為每條邊賦予權(quán)重以反映基因共表達(dá)關(guān)系的強(qiáng)弱,從而構(gòu)建加權(quán)基因共表達(dá)網(wǎng)絡(luò)。基于基因的加權(quán)相關(guān)系數(shù),對基因進(jìn)行層級聚類分析,根據(jù)設(shè)定標(biāo)準(zhǔn)切分聚類結(jié)果,獲得不同的基因模塊,用聚類樹的分枝和不同顏色表示各個(gè)模塊。然后開展基因篩選工作,通過分析全基因組網(wǎng)絡(luò),結(jié)合功能富集分析、基因調(diào)控網(wǎng)絡(luò)分析等方法,挖掘與胃癌預(yù)后密切相關(guān)的關(guān)鍵基因和信號(hào)通路。計(jì)算基因模塊與預(yù)后指標(biāo)(如總生存期、無病生存期)的相關(guān)性,篩選出與預(yù)后顯著相關(guān)的基因模塊。在這些關(guān)鍵模塊中,進(jìn)一步識(shí)別出連接度高、對模塊穩(wěn)定性和功能起關(guān)鍵作用的核心基因。對篩選出的關(guān)鍵基因進(jìn)行功能注釋和通路富集分析,明確它們參與的生物學(xué)過程和信號(hào)通路,深入了解其在胃癌發(fā)生發(fā)展和預(yù)后中的作用機(jī)制。之后進(jìn)行基因組學(xué)評分計(jì)算,利用篩選出的關(guān)鍵基因,采用ssGSEA等方法計(jì)算每個(gè)樣本的基因組學(xué)評分。根據(jù)關(guān)鍵基因在不同樣本中的表達(dá)水平,計(jì)算基因集在樣本中的富集分?jǐn)?shù),該富集分?jǐn)?shù)即為樣本的基因組學(xué)評分。通過這種方式,將多個(gè)關(guān)鍵基因的信息整合為一個(gè)綜合的基因組學(xué)評分,以量化評估每個(gè)胃癌患者的預(yù)后風(fēng)險(xiǎn)。最后是模型驗(yàn)證,將計(jì)算得到的基因組學(xué)評分應(yīng)用于多個(gè)獨(dú)立的胃癌數(shù)據(jù)集進(jìn)行驗(yàn)證。采用生存分析方法,如Kaplan-Meier曲線和對數(shù)秩檢驗(yàn),評估基因組學(xué)評分對患者總生存期和無病生存期的預(yù)測能力。通過計(jì)算受試者工作特征曲線(ROC)下的面積(AUC)等指標(biāo),定量評價(jià)模型的準(zhǔn)確性和可靠性。同時(shí),將基因組學(xué)評分與傳統(tǒng)的臨床病理指標(biāo)(如腫瘤分期、淋巴結(jié)轉(zhuǎn)移情況等)進(jìn)行比較,分析其在預(yù)后預(yù)測方面的優(yōu)勢和互補(bǔ)性,明確其在臨床實(shí)踐中的應(yīng)用價(jià)值。三、全基因組網(wǎng)絡(luò)構(gòu)建與分析3.1胃癌樣本的全基因組測序本研究采用先進(jìn)的二代測序(NGS)技術(shù)對胃癌樣本進(jìn)行全基因組測序。NGS技術(shù)作為新一代的測序技術(shù),具有通量高、成本低、速度快等顯著優(yōu)勢,能夠在短時(shí)間內(nèi)對整個(gè)基因組進(jìn)行全面、高效的測序。與傳統(tǒng)的Sanger測序技術(shù)相比,NGS技術(shù)一次測序可獲得數(shù)百萬條序列讀數(shù),大大提高了測序效率和數(shù)據(jù)量,為深入研究胃癌的基因組特征提供了有力支持。在測序?qū)嶒?yàn)過程中,嚴(yán)格遵循標(biāo)準(zhǔn)的實(shí)驗(yàn)操作規(guī)程,以確保測序數(shù)據(jù)的準(zhǔn)確性和可靠性。首先,對胃癌組織樣本和配對的癌旁正常組織樣本進(jìn)行采集和處理。在采集樣本時(shí),確保樣本的完整性和代表性,避免樣本受到污染或損傷。對采集到的樣本進(jìn)行DNA提取,采用高質(zhì)量的DNA提取試劑盒,按照試劑盒說明書的操作步驟進(jìn)行提取,以保證提取的DNA純度和濃度滿足測序要求。使用Qubit熒光定量儀對提取的DNA濃度進(jìn)行精確測定,確保DNA濃度在合適的范圍內(nèi)。采用瓊脂糖凝膠電泳對DNA的完整性進(jìn)行檢測,確保DNA無降解和斷裂。在文庫構(gòu)建環(huán)節(jié),將提取的高質(zhì)量DNA進(jìn)行片段化處理,使用超聲波破碎儀或酶切法將DNA片段打斷成合適長度的片段。對片段化后的DNA進(jìn)行末端修復(fù)、加A尾和接頭連接等一系列操作,使DNA片段能夠與測序接頭連接,形成可用于測序的文庫。采用PCR擴(kuò)增技術(shù)對文庫進(jìn)行擴(kuò)增,以增加文庫的濃度和產(chǎn)量。在擴(kuò)增過程中,嚴(yán)格控制PCR反應(yīng)條件,避免擴(kuò)增偏差和錯(cuò)誤的引入。擴(kuò)增后的文庫使用磁珠法或凝膠回收法進(jìn)行純化,去除雜質(zhì)和引物二聚體,確保文庫的質(zhì)量。對于測序深度和覆蓋度,本研究設(shè)定了嚴(yán)格的要求。測序深度是指測序得到的總堿基數(shù)與基因組大小的比值,它反映了基因組中每個(gè)堿基被測序的平均次數(shù)。足夠的測序深度對于準(zhǔn)確檢測基因變異、拷貝數(shù)變化等基因組特征至關(guān)重要。本研究要求胃癌樣本的全基因組測序深度達(dá)到[X]X以上,以確保能夠檢測到低頻的基因變異和罕見的拷貝數(shù)變異。覆蓋度則是指基因組中被測序覆蓋的區(qū)域占整個(gè)基因組的比例。為了全面研究胃癌的基因組特征,本研究要求測序覆蓋度達(dá)到[X]%以上,盡可能覆蓋基因組的各個(gè)區(qū)域,減少測序盲區(qū)。測序數(shù)據(jù)質(zhì)量控制和評估是保證測序結(jié)果可靠性的關(guān)鍵環(huán)節(jié)。在數(shù)據(jù)質(zhì)量控制方面,使用FastQC等工具對原始測序數(shù)據(jù)進(jìn)行質(zhì)量評估。FastQC能夠快速生成測序數(shù)據(jù)的質(zhì)量報(bào)告,包括堿基質(zhì)量分布、GC含量分布、序列重復(fù)度、接頭污染情況等多個(gè)指標(biāo)。通過對這些指標(biāo)的分析,及時(shí)發(fā)現(xiàn)數(shù)據(jù)中存在的質(zhì)量問題,如低質(zhì)量堿基過多、GC含量異常、序列重復(fù)度過高、接頭污染嚴(yán)重等。對于存在質(zhì)量問題的數(shù)據(jù),采用相應(yīng)的處理方法進(jìn)行糾正和優(yōu)化。使用Trimmomatic等軟件對低質(zhì)量堿基和接頭序列進(jìn)行修剪,去除低質(zhì)量的reads,提高數(shù)據(jù)的質(zhì)量。對于GC含量異常的數(shù)據(jù),進(jìn)行標(biāo)準(zhǔn)化處理,以消除GC含量對數(shù)據(jù)分析的影響。對于序列重復(fù)度過高的數(shù)據(jù),進(jìn)行去重處理,減少數(shù)據(jù)冗余。在數(shù)據(jù)質(zhì)量評估方面,主要關(guān)注以下幾個(gè)重要指標(biāo)。堿基質(zhì)量評分是評估測序數(shù)據(jù)質(zhì)量的重要指標(biāo)之一,它通過Phred分?jǐn)?shù)(Q分?jǐn)?shù))來表示測序讀取的準(zhǔn)確性。Q分?jǐn)?shù)越高,表示讀取的準(zhǔn)確性越高,錯(cuò)誤的可能性越小。本研究要求測序數(shù)據(jù)的平均堿基質(zhì)量評分達(dá)到[X]以上,以保證測序數(shù)據(jù)的準(zhǔn)確性。GC含量分布也是一個(gè)重要的評估指標(biāo),GC含量是指DNA分子中鳥嘌呤(G)和胞嘧啶(C)堿基對的百分比。正常情況下,GC含量在基因組中呈現(xiàn)一定的分布模式,如果GC含量分布異常,可能表明測序錯(cuò)誤或樣本污染。本研究通過分析GC含量分布,確保其符合正常范圍,以排除樣本污染和測序錯(cuò)誤的可能性。序列重復(fù)度是指測序數(shù)據(jù)中重復(fù)出現(xiàn)的序列比例。如果重復(fù)度過高,可能表明實(shí)驗(yàn)存在偏差或錯(cuò)誤,如PCR擴(kuò)增偏倚、文庫構(gòu)建過程中的錯(cuò)誤等。本研究對序列重復(fù)度進(jìn)行嚴(yán)格控制,要求其低于[X]%,以保證測序數(shù)據(jù)的可靠性。此外,還關(guān)注測序數(shù)據(jù)的讀取對齊率,即測序讀取與參考基因組的匹配程度。低對齊率可能表明樣本制備問題或基因組復(fù)雜度高,本研究要求讀取對齊率達(dá)到[X]%以上,以確保測序數(shù)據(jù)能夠準(zhǔn)確地映射到參考基因組上,為后續(xù)的數(shù)據(jù)分析提供可靠的基礎(chǔ)。3.2基因共表達(dá)網(wǎng)絡(luò)的構(gòu)建本研究采用加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(WGCNA)方法構(gòu)建胃癌的基因共表達(dá)網(wǎng)絡(luò)。WGCNA是一種系統(tǒng)生物學(xué)方法,能夠有效挖掘基因之間的協(xié)同表達(dá)關(guān)系,在生物信息學(xué)研究中被廣泛應(yīng)用。其基本原理是基于基因表達(dá)數(shù)據(jù),通過計(jì)算基因之間的相關(guān)性來構(gòu)建基因共表達(dá)網(wǎng)絡(luò)。在這個(gè)網(wǎng)絡(luò)中,基因被視為節(jié)點(diǎn),基因之間的共表達(dá)關(guān)系被視為邊,邊的權(quán)重則反映了基因之間共表達(dá)關(guān)系的強(qiáng)弱。通過這種方式,WGCNA能夠全面、準(zhǔn)確地描述基因之間的復(fù)雜關(guān)系,為深入研究基因功能和生物過程提供有力工具。在構(gòu)建基因共表達(dá)網(wǎng)絡(luò)時(shí),首先對預(yù)處理后的基因表達(dá)數(shù)據(jù)進(jìn)行相似性計(jì)算。具體而言,使用皮爾遜相關(guān)系數(shù)(Pearsoncorrelationcoefficient)來衡量基因之間的表達(dá)相似性。皮爾遜相關(guān)系數(shù)是一種常用的統(tǒng)計(jì)量,它能夠定量地描述兩個(gè)變量之間的線性相關(guān)程度,取值范圍為-1到1。當(dāng)皮爾遜相關(guān)系數(shù)為1時(shí),表示兩個(gè)基因的表達(dá)呈完全正相關(guān),即一個(gè)基因表達(dá)上調(diào)時(shí),另一個(gè)基因也隨之上調(diào);當(dāng)皮爾遜相關(guān)系數(shù)為-1時(shí),表示兩個(gè)基因的表達(dá)呈完全負(fù)相關(guān),即一個(gè)基因表達(dá)上調(diào)時(shí),另一個(gè)基因則下調(diào);當(dāng)皮爾遜相關(guān)系數(shù)為0時(shí),表示兩個(gè)基因的表達(dá)之間不存在線性相關(guān)關(guān)系。通過計(jì)算每對基因之間的皮爾遜相關(guān)系數(shù),得到一個(gè)基因表達(dá)相似性矩陣,該矩陣記錄了所有基因之間的表達(dá)相似性信息。為了更好地反映基因之間的共表達(dá)關(guān)系,對基因表達(dá)相似性矩陣進(jìn)行加權(quán)處理。WGCNA中采用的加權(quán)方法是將基因表達(dá)相似性矩陣中的每個(gè)元素進(jìn)行冪次運(yùn)算,即對皮爾遜相關(guān)系數(shù)取冪。冪次的選擇是構(gòu)建加權(quán)基因共表達(dá)網(wǎng)絡(luò)的關(guān)鍵參數(shù)之一,它直接影響到網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和分析結(jié)果。冪次過小,網(wǎng)絡(luò)中的邊權(quán)重差異較小,可能無法有效區(qū)分基因之間的強(qiáng)共表達(dá)和弱共表達(dá)關(guān)系;冪次過大,網(wǎng)絡(luò)中的邊權(quán)重差異過大,可能會(huì)導(dǎo)致網(wǎng)絡(luò)過于稀疏,丟失一些重要的信息。因此,需要通過合適的方法來確定最優(yōu)的冪次值。本研究采用了WGCNA軟件包中的pickSoftThreshold函數(shù)來自動(dòng)選擇合適的冪次。該函數(shù)通過計(jì)算不同冪次下網(wǎng)絡(luò)的拓?fù)湫再|(zhì),如無標(biāo)度擬合指數(shù)(scale-freefitindex)、平均連接度(averageconnectivity)等,來評估網(wǎng)絡(luò)的質(zhì)量,并選擇能夠使網(wǎng)絡(luò)滿足無標(biāo)度特性的最小冪次值。無標(biāo)度特性是指網(wǎng)絡(luò)中大部分節(jié)點(diǎn)的連接度較低,而少數(shù)節(jié)點(diǎn)具有較高的連接度,這些高連接度的節(jié)點(diǎn)被稱為樞紐基因(hubgenes)。具有無標(biāo)度特性的網(wǎng)絡(luò)在生物學(xué)上具有重要意義,它表明網(wǎng)絡(luò)中的基因存在著層級結(jié)構(gòu)和功能分工,樞紐基因在網(wǎng)絡(luò)中起著關(guān)鍵的調(diào)控作用。經(jīng)過加權(quán)處理后,得到加權(quán)基因共表達(dá)網(wǎng)絡(luò)的鄰接矩陣。鄰接矩陣是一個(gè)方陣,其行和列分別對應(yīng)網(wǎng)絡(luò)中的節(jié)點(diǎn)(基因),矩陣中的元素表示節(jié)點(diǎn)之間的連接關(guān)系和邊權(quán)重。在加權(quán)基因共表達(dá)網(wǎng)絡(luò)中,鄰接矩陣中的元素值越大,表示對應(yīng)的兩個(gè)基因之間的共表達(dá)關(guān)系越強(qiáng)?;卩徑泳仃?,進(jìn)一步計(jì)算基因之間的拓?fù)渲丿B矩陣(TopologicalOverlapMatrix,TOM)。TOM是一種用于衡量基因之間網(wǎng)絡(luò)連接相似性的矩陣,它不僅考慮了基因之間的直接連接關(guān)系(即鄰接矩陣中的元素),還考慮了基因之間通過其他基因間接連接的關(guān)系。通過計(jì)算TOM,可以更全面地反映基因在網(wǎng)絡(luò)中的相對位置和功能關(guān)系。TOM的計(jì)算方法如下:對于基因i和基因j,首先計(jì)算它們的鄰接矩陣元素aij,然后計(jì)算它們與其他所有基因的共同鄰居數(shù)量lij,最后根據(jù)公式TOMij=(aij+lij)/(1+max(ki,kj))計(jì)算得到TOMij,其中ki和kj分別是基因i和基因j的連接度。TOM矩陣中的元素值范圍為0到1,值越大表示基因i和基因j在網(wǎng)絡(luò)中的連接相似性越高,即它們可能具有相似的功能或參與相同的生物過程。在得到TOM矩陣后,對基因進(jìn)行層級聚類分析。層級聚類分析是一種常用的聚類方法,它通過計(jì)算樣本之間的距離或相似性,逐步將樣本合并成不同層次的聚類簇,最終形成一個(gè)樹形結(jié)構(gòu)的聚類圖,也稱為聚類樹(dendrogram)。在本研究中,基于TOM矩陣計(jì)算基因之間的相異系數(shù)(dissimilarity),將相異系數(shù)作為距離度量,采用平均鏈接法(averagelinkagemethod)進(jìn)行層級聚類分析。平均鏈接法是一種基于簇間距離的聚類方法,它將兩個(gè)簇之間的距離定義為兩個(gè)簇中所有樣本之間距離的平均值。通過層級聚類分析,將表達(dá)模式相似的基因聚在一起,形成不同的基因模塊?;蚰K是指在基因共表達(dá)網(wǎng)絡(luò)中,一組表達(dá)模式高度相關(guān)的基因集合,它們通常參與相同的生物學(xué)過程或信號(hào)通路。在聚類樹中,每個(gè)分枝代表一個(gè)基因模塊,不同的分枝用不同的顏色進(jìn)行標(biāo)記,以便于直觀區(qū)分。為了確定基因模塊的劃分,需要根據(jù)一定的標(biāo)準(zhǔn)對聚類樹進(jìn)行切分。本研究采用動(dòng)態(tài)樹切分算法(dynamictreecutalgorithm)來自動(dòng)識(shí)別基因模塊。動(dòng)態(tài)樹切分算法是一種基于聚類樹的模塊識(shí)別方法,它通過計(jì)算聚類樹中節(jié)點(diǎn)的高度和分支長度等特征,動(dòng)態(tài)地確定模塊的邊界。具體而言,該算法首先根據(jù)設(shè)定的最小模塊大?。╩inimummodulesize)和合并閾值(mergecutheight)對聚類樹進(jìn)行初步切分,得到一系列初步的基因模塊。然后,對這些初步模塊進(jìn)行合并操作,將相似性較高的模塊合并成一個(gè)更大的模塊。相似性的度量采用模塊特征基因(moduleeigengene)之間的相關(guān)性。模塊特征基因是指能夠代表一個(gè)基因模塊整體表達(dá)模式的基因,它通常是通過對模塊內(nèi)所有基因的表達(dá)數(shù)據(jù)進(jìn)行主成分分析(PCA)得到的第一主成分。通過計(jì)算模塊特征基因之間的相關(guān)性,將相關(guān)性大于合并閾值的模塊進(jìn)行合并,最終得到穩(wěn)定的基因模塊劃分。在本研究中,設(shè)定最小模塊大小為30,合并閾值為0.25,經(jīng)過動(dòng)態(tài)樹切分算法的處理,成功識(shí)別出了[X]個(gè)基因模塊。對識(shí)別出的基因模塊進(jìn)行特征分析和功能富集分析。在特征分析方面,計(jì)算每個(gè)模塊的模塊特征基因,并分析模塊特征基因與臨床表型(如胃癌患者的預(yù)后指標(biāo))之間的相關(guān)性。通過這種方式,可以篩選出與胃癌預(yù)后密切相關(guān)的基因模塊。例如,如果某個(gè)模塊的模塊特征基因與患者的總生存期呈顯著負(fù)相關(guān),即模塊特征基因表達(dá)水平越高,患者的總生存期越短,那么這個(gè)模塊可能包含了一些與胃癌預(yù)后不良相關(guān)的關(guān)鍵基因。在功能富集分析方面,利用基因本體(GeneOntology,GO)數(shù)據(jù)庫和京都基因與基因組百科全書(KyotoEncyclopediaofGenesandGenomes,KEGG)通路數(shù)據(jù)庫,對每個(gè)模塊內(nèi)的基因進(jìn)行功能注釋和通路富集分析。GO數(shù)據(jù)庫提供了一套標(biāo)準(zhǔn)化的術(shù)語,用于描述基因的分子功能、生物過程和細(xì)胞成分;KEGG通路數(shù)據(jù)庫則包含了大量的代謝通路、信號(hào)轉(zhuǎn)導(dǎo)通路和疾病相關(guān)通路信息。通過將模塊內(nèi)的基因映射到GO術(shù)語和KEGG通路中,利用超幾何檢驗(yàn)等統(tǒng)計(jì)方法,計(jì)算每個(gè)GO術(shù)語和KEGG通路在模塊內(nèi)基因中的富集程度。如果某個(gè)GO術(shù)語或KEGG通路在模塊內(nèi)基因中的富集程度顯著高于隨機(jī)水平,那么說明這個(gè)模塊內(nèi)的基因可能主要參與了該GO術(shù)語所描述的生物學(xué)過程或KEGG通路所代表的信號(hào)轉(zhuǎn)導(dǎo)途徑。例如,通過功能富集分析發(fā)現(xiàn),某個(gè)基因模塊內(nèi)的基因顯著富集在細(xì)胞增殖、細(xì)胞周期調(diào)控、腫瘤侵襲和轉(zhuǎn)移等生物學(xué)過程相關(guān)的GO術(shù)語,以及PI3K-Akt信號(hào)通路、MAPK信號(hào)通路等與腫瘤發(fā)生發(fā)展密切相關(guān)的KEGG通路,這表明該模塊內(nèi)的基因可能在胃癌的發(fā)生發(fā)展過程中發(fā)揮著重要作用。通過對基因模塊的特征分析和功能富集分析,深入了解了基因模塊的生物學(xué)功能和與胃癌預(yù)后的關(guān)系,為后續(xù)篩選與胃癌預(yù)后相關(guān)的關(guān)鍵基因奠定了基礎(chǔ)。3.3關(guān)鍵基因模塊的識(shí)別與功能注釋為了進(jìn)一步挖掘與胃癌預(yù)后密切相關(guān)的基因模塊,運(yùn)用網(wǎng)絡(luò)拓?fù)浞治龇椒▽?gòu)建的基因共表達(dá)網(wǎng)絡(luò)進(jìn)行深入分析。網(wǎng)絡(luò)拓?fù)浞治鍪且环N研究網(wǎng)絡(luò)結(jié)構(gòu)和特性的方法,通過計(jì)算網(wǎng)絡(luò)中節(jié)點(diǎn)的度、中介中心性、接近中心性等拓?fù)鋮?shù),能夠識(shí)別出在網(wǎng)絡(luò)中具有重要作用的關(guān)鍵節(jié)點(diǎn)和模塊。在基因共表達(dá)網(wǎng)絡(luò)中,度表示一個(gè)基因與其他基因之間的連接數(shù),度越大,說明該基因與越多的基因存在共表達(dá)關(guān)系,在網(wǎng)絡(luò)中的重要性可能越高;中介中心性衡量一個(gè)基因在網(wǎng)絡(luò)中作為信息傳遞橋梁的能力,中介中心性高的基因往往在基因之間的信息傳遞和調(diào)控中發(fā)揮關(guān)鍵作用;接近中心性則反映了一個(gè)基因到網(wǎng)絡(luò)中其他所有基因的平均最短路徑長度,接近中心性越高,說明該基因與其他基因的聯(lián)系越緊密,能夠更快速地傳遞信息?;谏鲜鼍W(wǎng)絡(luò)拓?fù)浞治龇椒?,對基因共表達(dá)網(wǎng)絡(luò)中的每個(gè)基因計(jì)算其度、中介中心性和接近中心性等拓?fù)鋮?shù)。根據(jù)這些參數(shù)的值,篩選出在網(wǎng)絡(luò)中具有較高拓?fù)渲匾缘幕?。設(shè)定度、中介中心性和接近中心性的閾值,將超過閾值的基因定義為樞紐基因。通過這種方式,識(shí)別出了[X]個(gè)樞紐基因,這些樞紐基因在基因共表達(dá)網(wǎng)絡(luò)中處于核心位置,可能對胃癌的發(fā)生發(fā)展和預(yù)后起著關(guān)鍵的調(diào)控作用。以樞紐基因?yàn)楹诵?,進(jìn)一步識(shí)別關(guān)鍵基因模塊。采用基于密度的空間聚類應(yīng)用(Density-BasedSpatialClusteringofApplicationswithNoise,DBSCAN)算法對樞紐基因進(jìn)行聚類分析。DBSCAN算法是一種基于密度的聚類算法,它能夠根據(jù)數(shù)據(jù)點(diǎn)的密度分布情況,將數(shù)據(jù)點(diǎn)劃分為不同的聚類簇,同時(shí)能夠識(shí)別出數(shù)據(jù)中的噪聲點(diǎn)。在本研究中,將樞紐基因視為數(shù)據(jù)點(diǎn),基因之間的共表達(dá)關(guān)系視為數(shù)據(jù)點(diǎn)之間的距離,利用DBSCAN算法對樞紐基因進(jìn)行聚類,得到了[X]個(gè)緊密連接的基因模塊,這些模塊被認(rèn)為是與胃癌預(yù)后密切相關(guān)的關(guān)鍵基因模塊。對識(shí)別出的關(guān)鍵基因模塊進(jìn)行功能注釋和富集分析,以深入了解其生物學(xué)功能和潛在的作用機(jī)制。利用基因本體(GO)數(shù)據(jù)庫和京都基因與基因組百科全書(KEGG)通路數(shù)據(jù)庫,對關(guān)鍵基因模塊內(nèi)的基因進(jìn)行全面的功能注釋。GO數(shù)據(jù)庫提供了一套標(biāo)準(zhǔn)化的術(shù)語,用于描述基因的分子功能、生物過程和細(xì)胞成分。通過將關(guān)鍵基因模塊內(nèi)的基因映射到GO術(shù)語中,利用DAVID(DatabaseforAnnotation,VisualizationandIntegratedDiscovery)在線工具進(jìn)行GO富集分析。DAVID是一個(gè)生物信息數(shù)據(jù)庫,其整合了生物學(xué)數(shù)據(jù)和分析工具,能夠?yàn)榇笠?guī)模的基因或蛋白列表提供系統(tǒng)綜合的生物功能注釋信息。在GO富集分析中,使用超幾何檢驗(yàn)等統(tǒng)計(jì)方法,計(jì)算每個(gè)GO術(shù)語在關(guān)鍵基因模塊內(nèi)基因中的富集程度。如果某個(gè)GO術(shù)語在關(guān)鍵基因模塊內(nèi)基因中的富集程度顯著高于隨機(jī)水平,那么說明這個(gè)關(guān)鍵基因模塊內(nèi)的基因可能主要參與了該GO術(shù)語所描述的生物學(xué)過程。通過GO富集分析,發(fā)現(xiàn)關(guān)鍵基因模塊在多個(gè)生物學(xué)過程中顯著富集。在分子功能方面,富集到了DNA結(jié)合、轉(zhuǎn)錄因子活性、蛋白激酶活性等功能;在生物過程方面,主要富集在細(xì)胞增殖、細(xì)胞周期調(diào)控、細(xì)胞凋亡、腫瘤侵襲和轉(zhuǎn)移、信號(hào)轉(zhuǎn)導(dǎo)等過程;在細(xì)胞成分方面,與細(xì)胞核、細(xì)胞膜、細(xì)胞骨架等成分相關(guān)。例如,某個(gè)關(guān)鍵基因模塊內(nèi)的基因在細(xì)胞增殖相關(guān)的GO術(shù)語中顯著富集,如“細(xì)胞周期進(jìn)程”“DNA復(fù)制”“有絲分裂”等,這表明該模塊內(nèi)的基因可能通過調(diào)控細(xì)胞增殖過程,影響胃癌的發(fā)生發(fā)展和預(yù)后。利用KEGG通路數(shù)據(jù)庫對關(guān)鍵基因模塊內(nèi)的基因進(jìn)行通路富集分析。KEGG通路數(shù)據(jù)庫包含了大量的代謝通路、信號(hào)轉(zhuǎn)導(dǎo)通路和疾病相關(guān)通路信息。將關(guān)鍵基因模塊內(nèi)的基因提交到KEGG分析工具中,如KOBAS(KEGGOrthologyBasedAnnotationSystem)等,來識(shí)別哪些通路被這些基因所富集。在通路富集分析中,同樣使用超幾何檢驗(yàn)等統(tǒng)計(jì)方法,計(jì)算每個(gè)KEGG通路在關(guān)鍵基因模塊內(nèi)基因中的富集程度。如果某個(gè)KEGG通路在關(guān)鍵基因模塊內(nèi)基因中的富集程度顯著高于隨機(jī)水平,那么說明這個(gè)關(guān)鍵基因模塊內(nèi)的基因可能主要參與了該KEGG通路所代表的信號(hào)轉(zhuǎn)導(dǎo)途徑。通過KEGG通路富集分析,發(fā)現(xiàn)關(guān)鍵基因模塊與多個(gè)與腫瘤發(fā)生發(fā)展密切相關(guān)的信號(hào)通路顯著相關(guān)。如PI3K-Akt信號(hào)通路、MAPK信號(hào)通路、Wnt信號(hào)通路、TGF-β信號(hào)通路等。PI3K-Akt信號(hào)通路在細(xì)胞增殖、存活、代謝和遷移等過程中發(fā)揮著重要作用,其異常激活與腫瘤的發(fā)生發(fā)展密切相關(guān)。在胃癌中,PI3K-Akt信號(hào)通路的激活可促進(jìn)胃癌細(xì)胞的增殖、抑制細(xì)胞凋亡,增強(qiáng)胃癌細(xì)胞的侵襲和轉(zhuǎn)移能力。某個(gè)關(guān)鍵基因模塊內(nèi)的基因顯著富集在PI3K-Akt信號(hào)通路中,這提示該模塊內(nèi)的基因可能通過調(diào)控PI3K-Akt信號(hào)通路,影響胃癌的預(yù)后。MAPK信號(hào)通路參與細(xì)胞的增殖、分化、凋亡等多種生物學(xué)過程,其異?;罨c腫瘤的發(fā)生、發(fā)展和轉(zhuǎn)移密切相關(guān)。在胃癌中,MAPK信號(hào)通路的激活可促進(jìn)胃癌細(xì)胞的增殖和遷移,抑制細(xì)胞凋亡。關(guān)鍵基因模塊與MAPK信號(hào)通路的關(guān)聯(lián),表明該模塊內(nèi)的基因可能通過調(diào)控MAPK信號(hào)通路,對胃癌的生物學(xué)行為產(chǎn)生影響。通過功能注釋和富集分析,深入了解了關(guān)鍵基因模塊的生物學(xué)功能和潛在的作用機(jī)制。這些關(guān)鍵基因模塊可能通過參與細(xì)胞增殖、凋亡、侵襲、轉(zhuǎn)移等生物學(xué)過程,以及PI3K-Akt、MAPK等信號(hào)通路,影響胃癌的發(fā)生發(fā)展和預(yù)后。這為進(jìn)一步研究胃癌的發(fā)病機(jī)制和預(yù)后相關(guān)因素提供了重要線索,也為篩選與胃癌預(yù)后相關(guān)的關(guān)鍵基因奠定了堅(jiān)實(shí)的基礎(chǔ)。四、胃癌預(yù)后相關(guān)基因的篩選4.1差異表達(dá)基因分析本研究使用DESeq2工具對胃癌組織與正常組織、不同預(yù)后組之間的基因表達(dá)數(shù)據(jù)進(jìn)行差異表達(dá)基因分析。DESeq2是一種基于負(fù)二項(xiàng)分布模型的R語言軟件包,專門用于分析RNA-seq數(shù)據(jù)中的差異表達(dá)基因。其核心原理是通過對基因表達(dá)計(jì)數(shù)數(shù)據(jù)進(jìn)行建模,考慮樣本間的生物學(xué)變異和技術(shù)變異,從而準(zhǔn)確地識(shí)別出在不同條件下表達(dá)水平存在顯著差異的基因。在進(jìn)行差異表達(dá)基因分析時(shí),首先將預(yù)處理后的基因表達(dá)數(shù)據(jù)導(dǎo)入DESeq2軟件中,創(chuàng)建DESeqDataSet對象。DESeqDataSet對象包含了基因表達(dá)計(jì)數(shù)矩陣、樣本信息以及實(shí)驗(yàn)設(shè)計(jì)等關(guān)鍵信息,是進(jìn)行后續(xù)分析的基礎(chǔ)。在創(chuàng)建DESeqDataSet對象時(shí),需要明確指定實(shí)驗(yàn)設(shè)計(jì),例如將胃癌組織和正常組織分別作為不同的處理組,或者將不同預(yù)后組(如生存時(shí)間長的患者組和生存時(shí)間短的患者組)作為不同的處理組。對DESeqDataSet對象進(jìn)行標(biāo)準(zhǔn)化處理,以消除樣本間測序深度差異和基因長度差異對基因表達(dá)分析的影響。DESeq2采用的標(biāo)準(zhǔn)化方法是基于幾何平均數(shù)的歸一化方法,它通過計(jì)算每個(gè)樣本中所有基因表達(dá)計(jì)數(shù)的幾何平均數(shù),將每個(gè)樣本的基因表達(dá)計(jì)數(shù)除以該樣本的幾何平均數(shù),從而使不同樣本之間的基因表達(dá)水平具有可比性。經(jīng)過標(biāo)準(zhǔn)化處理后,數(shù)據(jù)更加穩(wěn)定,有利于后續(xù)的差異表達(dá)分析。利用DESeq2中的DESeq函數(shù)對標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行差異表達(dá)分析。DESeq函數(shù)基于負(fù)二項(xiàng)分布模型,通過最大似然估計(jì)方法估計(jì)每個(gè)基因在不同條件下的表達(dá)量和差異倍數(shù)。同時(shí),該函數(shù)還會(huì)對基因表達(dá)的離散度進(jìn)行估計(jì),以考慮基因表達(dá)的生物學(xué)變異和技術(shù)變異。在分析過程中,DESeq函數(shù)會(huì)對每個(gè)基因進(jìn)行假設(shè)檢驗(yàn),原假設(shè)為該基因在不同條件下的表達(dá)水平無差異,備擇假設(shè)為該基因在不同條件下的表達(dá)水平存在差異。通過計(jì)算每個(gè)基因的統(tǒng)計(jì)檢驗(yàn)值(如Wald統(tǒng)計(jì)量)和p值,來判斷基因是否為差異表達(dá)基因。為了控制假陽性發(fā)現(xiàn)率,對p值進(jìn)行多重假設(shè)檢驗(yàn)校正,常用的校正方法是Benjamini-Hochberg方法。經(jīng)過校正后,得到每個(gè)基因的調(diào)整后p值(padj)。根據(jù)設(shè)定的篩選標(biāo)準(zhǔn),篩選出差異表達(dá)基因。通常設(shè)定的篩選標(biāo)準(zhǔn)為調(diào)整后p值(padj)小于0.05且|log2FoldChange|大于1。padj小于0.05表示基因在不同條件下的表達(dá)差異具有統(tǒng)計(jì)學(xué)意義,|log2FoldChange|大于1表示基因的表達(dá)變化倍數(shù)較大,具有生物學(xué)意義。通過這樣的篩選標(biāo)準(zhǔn),在胃癌組織與正常組織之間篩選出了[X]個(gè)差異表達(dá)基因,其中上調(diào)基因[X]個(gè),下調(diào)基因[X]個(gè);在不同預(yù)后組之間篩選出了[X]個(gè)差異表達(dá)基因,其中上調(diào)基因[X]個(gè),下調(diào)基因[X]個(gè)。對篩選出的差異表達(dá)基因進(jìn)行表達(dá)模式分析。使用聚類分析方法,如層次聚類分析,將差異表達(dá)基因按照表達(dá)模式的相似性進(jìn)行聚類。層次聚類分析是一種基于距離度量的聚類方法,它通過計(jì)算基因之間的表達(dá)距離(如歐氏距離或皮爾遜相關(guān)系數(shù)的絕對值),將表達(dá)模式相似的基因聚在一起,形成不同的聚類簇。通過聚類分析,可以直觀地展示差異表達(dá)基因在不同樣本中的表達(dá)模式,發(fā)現(xiàn)一些具有相似表達(dá)趨勢的基因集合。結(jié)果發(fā)現(xiàn),部分差異表達(dá)基因在胃癌組織中呈現(xiàn)出明顯的上調(diào)或下調(diào)趨勢,且在不同預(yù)后組中也表現(xiàn)出一致的表達(dá)模式。某些基因在胃癌組織中的表達(dá)水平顯著高于正常組織,并且在預(yù)后不良的患者組中表達(dá)水平更高,提示這些基因可能與胃癌的發(fā)生發(fā)展和預(yù)后密切相關(guān)。對差異表達(dá)基因進(jìn)行生物學(xué)功能分析。利用基因本體(GO)數(shù)據(jù)庫和京都基因與基因組百科全書(KEGG)通路數(shù)據(jù)庫,對差異表達(dá)基因進(jìn)行功能注釋和通路富集分析。GO數(shù)據(jù)庫提供了一套標(biāo)準(zhǔn)化的術(shù)語,用于描述基因的分子功能、生物過程和細(xì)胞成分。KEGG通路數(shù)據(jù)庫則包含了大量的代謝通路、信號(hào)轉(zhuǎn)導(dǎo)通路和疾病相關(guān)通路信息。通過將差異表達(dá)基因映射到GO術(shù)語和KEGG通路中,利用超幾何檢驗(yàn)等統(tǒng)計(jì)方法,計(jì)算每個(gè)GO術(shù)語和KEGG通路在差異表達(dá)基因中的富集程度。如果某個(gè)GO術(shù)語或KEGG通路在差異表達(dá)基因中的富集程度顯著高于隨機(jī)水平,那么說明這個(gè)GO術(shù)語或KEGG通路可能與胃癌的發(fā)生發(fā)展和預(yù)后密切相關(guān)。通過GO富集分析,發(fā)現(xiàn)差異表達(dá)基因在多個(gè)生物學(xué)過程中顯著富集。在分子功能方面,富集到了DNA結(jié)合、轉(zhuǎn)錄因子活性、蛋白激酶活性等功能;在生物過程方面,主要富集在細(xì)胞增殖、細(xì)胞周期調(diào)控、細(xì)胞凋亡、腫瘤侵襲和轉(zhuǎn)移、信號(hào)轉(zhuǎn)導(dǎo)等過程;在細(xì)胞成分方面,與細(xì)胞核、細(xì)胞膜、細(xì)胞骨架等成分相關(guān)。例如,一些差異表達(dá)基因在細(xì)胞增殖相關(guān)的GO術(shù)語中顯著富集,如“細(xì)胞周期進(jìn)程”“DNA復(fù)制”“有絲分裂”等,表明這些基因可能通過調(diào)控細(xì)胞增殖過程,參與胃癌的發(fā)生發(fā)展。在腫瘤侵襲和轉(zhuǎn)移相關(guān)的GO術(shù)語中,如“細(xì)胞遷移”“細(xì)胞黏附”“細(xì)胞外基質(zhì)組織”等也有顯著富集,提示這些基因可能在胃癌的侵襲和轉(zhuǎn)移過程中發(fā)揮重要作用。通過KEGG通路富集分析,發(fā)現(xiàn)差異表達(dá)基因與多個(gè)與腫瘤發(fā)生發(fā)展密切相關(guān)的信號(hào)通路顯著相關(guān)。如PI3K-Akt信號(hào)通路、MAPK信號(hào)通路、Wnt信號(hào)通路、TGF-β信號(hào)通路等。PI3K-Akt信號(hào)通路在細(xì)胞增殖、存活、代謝和遷移等過程中發(fā)揮著重要作用,其異常激活與腫瘤的發(fā)生發(fā)展密切相關(guān)。在胃癌中,PI3K-Akt信號(hào)通路的激活可促進(jìn)胃癌細(xì)胞的增殖、抑制細(xì)胞凋亡,增強(qiáng)胃癌細(xì)胞的侵襲和轉(zhuǎn)移能力。一些差異表達(dá)基因顯著富集在PI3K-Akt信號(hào)通路中,說明這些基因可能通過調(diào)控PI3K-Akt信號(hào)通路,影響胃癌的發(fā)生發(fā)展和預(yù)后。MAPK信號(hào)通路參與細(xì)胞的增殖、分化、凋亡等多種生物學(xué)過程,其異常活化與腫瘤的發(fā)生、發(fā)展和轉(zhuǎn)移密切相關(guān)。在胃癌中,MAPK信號(hào)通路的激活可促進(jìn)胃癌細(xì)胞的增殖和遷移,抑制細(xì)胞凋亡。差異表達(dá)基因與MAPK信號(hào)通路的關(guān)聯(lián),表明這些基因可能通過調(diào)控MAPK信號(hào)通路,對胃癌的生物學(xué)行為產(chǎn)生影響。通過對差異表達(dá)基因的表達(dá)模式和生物學(xué)功能分析,深入了解了胃癌發(fā)生發(fā)展和預(yù)后相關(guān)的分子機(jī)制,為后續(xù)篩選與胃癌預(yù)后相關(guān)的關(guān)鍵基因奠定了基礎(chǔ)。4.2生存分析篩選預(yù)后相關(guān)基因運(yùn)用Kaplan-Meier法和Cox比例風(fēng)險(xiǎn)回歸模型對胃癌患者的生存數(shù)據(jù)進(jìn)行深入分析,以確定與胃癌預(yù)后顯著相關(guān)的基因。Kaplan-Meier法,又稱為乘積極限法,是一種非參數(shù)估計(jì)方法,主要用于估計(jì)不同時(shí)間點(diǎn)的生存概率,并繪制生存曲線。該方法的基本原理是根據(jù)患者的生存時(shí)間和事件發(fā)生情況,將觀察時(shí)間劃分為多個(gè)區(qū)間,在每個(gè)區(qū)間內(nèi),計(jì)算該區(qū)間內(nèi)患者的生存概率,然后通過累乘的方式得到各個(gè)時(shí)間點(diǎn)的累積生存概率。生存曲線以生存時(shí)間為橫軸,生存概率為縱軸,直觀地展示了患者的生存情況隨時(shí)間的變化趨勢。通過比較不同組(如高表達(dá)組和低表達(dá)組)的生存曲線,可以初步判斷基因表達(dá)水平與生存預(yù)后之間的關(guān)系。如果兩組的生存曲線存在明顯差異,且經(jīng)對數(shù)秩檢驗(yàn)(log-ranktest)顯示具有統(tǒng)計(jì)學(xué)意義(p值小于設(shè)定的閾值,通常為0.05),則提示該基因的表達(dá)水平可能與胃癌患者的預(yù)后相關(guān)。例如,若某基因高表達(dá)組的生存曲線明顯低于低表達(dá)組,表明該基因高表達(dá)可能預(yù)示著患者預(yù)后不良;反之,若高表達(dá)組的生存曲線高于低表達(dá)組,則該基因高表達(dá)可能對患者預(yù)后具有保護(hù)作用。Cox比例風(fēng)險(xiǎn)回歸模型是一種半?yún)?shù)模型,由英國統(tǒng)計(jì)學(xué)家DavidCox于1972年提出。該模型可以同時(shí)考慮多個(gè)協(xié)變量(如基因表達(dá)水平、年齡、性別、腫瘤分期等)對生存時(shí)間的影響,并且不需要假設(shè)生存時(shí)間的分布形式,在生存分析中應(yīng)用廣泛。其基本形式為h(t|X)=h_0(t)e^{\sum_{i=1}^{p}\beta_{i}X_{i}},其中h(t|X)表示在時(shí)間t時(shí),具有協(xié)變量X=(X_1,X_2,\cdots,X_p)的個(gè)體的風(fēng)險(xiǎn)函數(shù),h_0(t)為基準(zhǔn)風(fēng)險(xiǎn)函數(shù),即當(dāng)所有協(xié)變量都為0時(shí)的風(fēng)險(xiǎn)函數(shù),\beta_{i}為第i個(gè)協(xié)變量的回歸系數(shù),反映了該協(xié)變量對風(fēng)險(xiǎn)函數(shù)的影響程度,X_{i}為第i個(gè)協(xié)變量的值。在本研究中,將差異表達(dá)基因分析和關(guān)鍵基因模塊分析中篩選出的基因作為協(xié)變量納入Cox比例風(fēng)險(xiǎn)回歸模型中。同時(shí),納入患者的年齡、性別、腫瘤分期、淋巴結(jié)轉(zhuǎn)移情況等臨床病理因素作為協(xié)變量。首先進(jìn)行單因素Cox回歸分析,初步篩選出與生存時(shí)間顯著相關(guān)(p值小于0.05)的基因和臨床病理因素。對這些初步篩選出的因素進(jìn)行多因素Cox回歸分析,進(jìn)一步調(diào)整各因素之間的相互作用,以確定獨(dú)立的預(yù)后相關(guān)因素。通過多因素Cox回歸分析,可以得到每個(gè)因素的風(fēng)險(xiǎn)比(HazardRatio,HR)及其95%置信區(qū)間。風(fēng)險(xiǎn)比表示在其他因素不變的情況下,該因素每增加一個(gè)單位,患者發(fā)生事件(如死亡)的風(fēng)險(xiǎn)是原來的多少倍。若某基因的HR大于1,且95%置信區(qū)間不包含1,說明該基因表達(dá)水平升高會(huì)增加患者的死亡風(fēng)險(xiǎn),是預(yù)后不良的因素;若HR小于1,且95%置信區(qū)間不包含1,則說明該基因表達(dá)水平升高會(huì)降低患者的死亡風(fēng)險(xiǎn),是預(yù)后良好的因素。通過Kaplan-Meier法和Cox比例風(fēng)險(xiǎn)回歸模型的分析,確定了[X]個(gè)與胃癌預(yù)后顯著相關(guān)的基因。對這些基因進(jìn)行進(jìn)一步的功能分析和驗(yàn)證,以深入了解它們在胃癌發(fā)生發(fā)展和預(yù)后中的作用機(jī)制。利用基因本體(GO)數(shù)據(jù)庫和京都基因與基因組百科全書(KEGG)通路數(shù)據(jù)庫,對這些預(yù)后相關(guān)基因進(jìn)行功能注釋和通路富集分析。結(jié)果發(fā)現(xiàn),這些基因在多個(gè)生物學(xué)過程和信號(hào)通路中顯著富集。在生物學(xué)過程方面,主要富集在細(xì)胞增殖、細(xì)胞凋亡、腫瘤侵襲和轉(zhuǎn)移、血管生成等過程。在信號(hào)通路方面,與PI3K-Akt信號(hào)通路、MAPK信號(hào)通路、Wnt信號(hào)通路、TGF-β信號(hào)通路等密切相關(guān)。這些生物學(xué)過程和信號(hào)通路在腫瘤的發(fā)生、發(fā)展和轉(zhuǎn)移中起著關(guān)鍵作用,進(jìn)一步證實(shí)了這些基因與胃癌預(yù)后的相關(guān)性。例如,PI3K-Akt信號(hào)通路在細(xì)胞增殖、存活、代謝和遷移等過程中發(fā)揮著重要作用,其異常激活與腫瘤的發(fā)生發(fā)展密切相關(guān)。在胃癌中,PI3K-Akt信號(hào)通路的激活可促進(jìn)胃癌細(xì)胞的增殖、抑制細(xì)胞凋亡,增強(qiáng)胃癌細(xì)胞的侵襲和轉(zhuǎn)移能力。某個(gè)預(yù)后相關(guān)基因顯著富集在PI3K-Akt信號(hào)通路中,提示該基因可能通過調(diào)控PI3K-Akt信號(hào)通路,影響胃癌的預(yù)后。通過生存分析篩選出的這些與胃癌預(yù)后顯著相關(guān)的基因,為進(jìn)一步構(gòu)建胃癌基因組學(xué)評分模型提供了關(guān)鍵的基因靶點(diǎn),也為深入理解胃癌的發(fā)病機(jī)制和預(yù)后相關(guān)因素奠定了基礎(chǔ)。后續(xù)將基于這些基因,運(yùn)用合適的方法計(jì)算基因組學(xué)評分,以實(shí)現(xiàn)對胃癌患者預(yù)后的精準(zhǔn)預(yù)測。4.3基因相互作用網(wǎng)絡(luò)的構(gòu)建與分析基于篩選出的預(yù)后相關(guān)基因,利用STRING數(shù)據(jù)庫和Cytoscape軟件構(gòu)建基因相互作用網(wǎng)絡(luò)。STRING數(shù)據(jù)庫是一個(gè)整合了蛋白質(zhì)-蛋白質(zhì)相互作用信息的在線數(shù)據(jù)庫,它包含了來自多個(gè)物種的大量蛋白質(zhì)相互作用數(shù)據(jù),這些數(shù)據(jù)來源于實(shí)驗(yàn)驗(yàn)證、文本挖掘、數(shù)據(jù)庫整合等多種途徑。通過STRING數(shù)據(jù)庫,可以獲取基因編碼蛋白質(zhì)之間的直接和間接相互作用關(guān)系,為構(gòu)建基因相互作用網(wǎng)絡(luò)提供了豐富的信息資源。將篩選出的預(yù)后相關(guān)基因輸入到STRING數(shù)據(jù)庫中,設(shè)置物種為人類,選擇高置信度(置信度得分大于0.7)的相互作用關(guān)系進(jìn)行下載。下載得到的相互作用數(shù)據(jù)以表格形式呈現(xiàn),包含基因名稱、相互作用的基因?qū)σ约跋嗷プ饔玫念愋秃椭眯哦鹊刃畔?。將下載的相互作用數(shù)據(jù)導(dǎo)入到Cytoscape軟件中,Cytoscape是一款功能強(qiáng)大的生物信息學(xué)可視化軟件,它能夠?qū)⒒蛳嗷プ饔脭?shù)據(jù)以直觀的網(wǎng)絡(luò)圖形展示出來,方便進(jìn)行網(wǎng)絡(luò)分析和可視化。在Cytoscape中,基因被表示為節(jié)點(diǎn),基因之間的相互作用關(guān)系被表示為邊,邊的粗細(xì)和顏色可以根據(jù)相互作用的強(qiáng)度和類型進(jìn)行設(shè)置,從而直觀地展示基因相互作用網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。對構(gòu)建的基因相互作用網(wǎng)絡(luò)進(jìn)行拓?fù)浣Y(jié)構(gòu)分析,計(jì)算網(wǎng)絡(luò)的各種拓?fù)鋮?shù),如節(jié)點(diǎn)度、中介中心性、接近中心性、聚類系數(shù)等。節(jié)點(diǎn)度是指與一個(gè)節(jié)點(diǎn)直接相連的邊的數(shù)量,它反映了節(jié)點(diǎn)在網(wǎng)絡(luò)中的連接程度。中介中心性衡量一個(gè)節(jié)點(diǎn)在網(wǎng)絡(luò)中作為信息傳遞橋梁的能力,中介中心性高的節(jié)點(diǎn)往往在基因之間的信息傳遞和調(diào)控中發(fā)揮關(guān)鍵作用。接近中心性則反映了一個(gè)節(jié)點(diǎn)到網(wǎng)絡(luò)中其他所有節(jié)點(diǎn)的平均最短路徑長度,接近中心性越高,說明該節(jié)點(diǎn)與其他節(jié)點(diǎn)的聯(lián)系越緊密,能夠更快速地傳遞信息。聚類系數(shù)用于衡量節(jié)點(diǎn)周圍鄰居節(jié)點(diǎn)之間的連接緊密程度,聚類系數(shù)高的節(jié)點(diǎn)往往處于緊密連接的模塊中,可能參與相同的生物學(xué)過程。通過拓?fù)浣Y(jié)構(gòu)分析,識(shí)別出基因相互作用網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)基因。關(guān)鍵節(jié)點(diǎn)基因通常具有較高的節(jié)點(diǎn)度、中介中心性和接近中心性,它們在網(wǎng)絡(luò)中處于核心位置,對網(wǎng)絡(luò)的結(jié)構(gòu)和功能起著重要的調(diào)控作用。在本研究中,根據(jù)拓?fù)鋮?shù)的計(jì)算結(jié)果,篩選出節(jié)點(diǎn)度排名前10%、中介中心性排名前10%且接近中心性排名前10%的基因作為關(guān)鍵節(jié)點(diǎn)基因。經(jīng)過篩選,確定了[X]個(gè)關(guān)鍵節(jié)點(diǎn)基因,這些基因在基因相互作用網(wǎng)絡(luò)中具有重要的地位,可能是影響胃癌預(yù)后的關(guān)鍵因素。以關(guān)鍵節(jié)點(diǎn)基因?yàn)楹诵?,進(jìn)一步分析基因相互作用網(wǎng)絡(luò)的模塊結(jié)構(gòu)。采用MCODE(MolecularComplexDetection)算法對基因相互作用網(wǎng)絡(luò)進(jìn)行模塊識(shí)別。MCODE算法是一種基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的模塊識(shí)別算法,它通過計(jì)算節(jié)點(diǎn)的局部密度和連接度等參數(shù),將緊密連接的節(jié)點(diǎn)聚類成模塊。在MCODE算法中,設(shè)置節(jié)點(diǎn)得分閾值為0.2,K-core值為2,最大深度為100,通過這些參數(shù)的設(shè)置,能夠有效地識(shí)別出基因相互作用網(wǎng)絡(luò)中的模塊。經(jīng)過MCODE算法的分析,識(shí)別出了[X]個(gè)緊密連接的基因模塊。對這些基因模塊進(jìn)行功能富集分析,利用基因本體(GO)數(shù)據(jù)庫和京都基因與基因組百科全書(KEGG)通路數(shù)據(jù)庫,對每個(gè)模塊內(nèi)的基因進(jìn)行功能注釋和通路富集分析。結(jié)果發(fā)現(xiàn),不同的基因模塊在多個(gè)生物學(xué)過程和信號(hào)通路中顯著富集。在生物學(xué)過程方面,主要富集在細(xì)胞增殖、細(xì)胞凋亡、腫瘤侵襲和轉(zhuǎn)移、血管生成等過程。在信號(hào)通路方面,與PI3K-Akt信號(hào)通路、MAPK信號(hào)通路、Wnt信號(hào)通路、TGF-β信號(hào)通路等密切相關(guān)。例如,某個(gè)基因模塊內(nèi)的基因在細(xì)胞增殖相關(guān)的GO術(shù)語中顯著富集,如“細(xì)胞周期進(jìn)程”“DNA復(fù)制”“有絲分裂”等,表明該模塊內(nèi)的基因可能通過調(diào)控細(xì)胞增殖過程,影響胃癌的發(fā)生發(fā)展和預(yù)后。PI3K-Akt信號(hào)通路在細(xì)胞增殖、存活、代謝和遷移等過程中發(fā)揮著重要作用,其異常激活與腫瘤的發(fā)生發(fā)展密切相關(guān)。某個(gè)基因模塊內(nèi)的基因顯著富集在PI3K-Akt信號(hào)通路中,提示該模塊內(nèi)的基因可能通過調(diào)控PI3K-Akt信號(hào)通路,影響胃癌的預(yù)后。為了深入研究關(guān)鍵節(jié)點(diǎn)基因和基因模塊內(nèi)基因之間的相互作用機(jī)制,采用分子對接等方法進(jìn)行研究。分子對接是一種基于計(jì)算機(jī)模擬的技術(shù),它通過模擬分子之間的相互作用,預(yù)測分子的結(jié)合模式和親和力。在本研究中,利用分子對接技術(shù),研究關(guān)鍵節(jié)點(diǎn)基因編碼的蛋白質(zhì)與其他基因編碼的蛋白質(zhì)之間的相互作用。首先,從蛋白質(zhì)數(shù)據(jù)庫(ProteinDataBank,PDB)中獲取關(guān)鍵節(jié)點(diǎn)基因和其他相關(guān)基因編碼蛋白質(zhì)的三維結(jié)構(gòu)。如果在PDB數(shù)據(jù)庫中沒有找到相應(yīng)的蛋白質(zhì)結(jié)構(gòu),則使用同源建模等方法預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)。利用分子對接軟件,如AutoDock、DOCK等,將關(guān)鍵節(jié)點(diǎn)基因編碼的蛋白質(zhì)與其他相關(guān)基因編碼的蛋白質(zhì)進(jìn)行對接。在對接過程中,通過不斷優(yōu)化蛋白質(zhì)的位置和取向,尋找最佳的結(jié)合模式,并計(jì)算蛋白質(zhì)之間的結(jié)合自由能。結(jié)合自由能越低,說明蛋白質(zhì)之間的結(jié)合越穩(wěn)定,相互作用越強(qiáng)。通過分子對接分析,揭示了關(guān)鍵節(jié)點(diǎn)基因和其他相關(guān)基因編碼蛋白質(zhì)之間的相互作用模式和結(jié)合位點(diǎn)。發(fā)現(xiàn)一些關(guān)鍵節(jié)點(diǎn)基因編碼的蛋白質(zhì)通過與其他基因編碼的蛋白質(zhì)形成氫鍵、疏水相互作用等方式相互結(jié)合,從而調(diào)控基因的表達(dá)和信號(hào)傳導(dǎo)。某個(gè)關(guān)鍵節(jié)點(diǎn)基因編碼的蛋白質(zhì)與另一個(gè)基因編碼的蛋白質(zhì)在特定的結(jié)構(gòu)域處形成了多個(gè)氫鍵,這種相互作用可能影響了蛋白質(zhì)的功能和活性,進(jìn)而影響胃癌的發(fā)生發(fā)展和預(yù)后。通過分子對接分析,為深入理解胃癌預(yù)后相關(guān)基因的作用機(jī)制提供了重要的結(jié)構(gòu)生物學(xué)信息,有助于進(jìn)一步揭示胃癌的發(fā)病機(jī)制和尋找新的治療靶點(diǎn)。五、基因組學(xué)評分的計(jì)算與驗(yàn)證5.1基因組學(xué)評分模型的建立在構(gòu)建基因組學(xué)評分模型時(shí),基于篩選出的與胃癌預(yù)后相關(guān)的關(guān)鍵基因,我們選用了lasso回歸方法。lasso回歸,即最小絕對收縮和選擇算子回歸,是一種在統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域廣泛應(yīng)用的方法。它的獨(dú)特之處在于,在進(jìn)行線性回歸的同時(shí),能夠?qū)崿F(xiàn)特征選擇。其核心原理是在損失函數(shù)中引入一個(gè)絕對值懲罰項(xiàng)(L1正則化項(xiàng))。通過這種方式,lasso回歸可以有效地將一些對模型貢獻(xiàn)較小的基因的系數(shù)壓縮為零,從而達(dá)到篩選關(guān)鍵基因并確定其權(quán)重的目的。在本研究中,以篩選出的[X]個(gè)與胃癌預(yù)后顯著相關(guān)的基因?yàn)樽宰兞?,以胃癌患者的生存時(shí)間和生存狀態(tài)為因變量,構(gòu)建lasso回歸模型。在R語言環(huán)境中,運(yùn)用glmnet包中的cv.glmnet函數(shù)進(jìn)行模型構(gòu)建。在構(gòu)建過程中,對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,確保所有基因表達(dá)數(shù)據(jù)處于相同的尺度,避免因數(shù)據(jù)量綱差異對模型結(jié)果產(chǎn)生影響。標(biāo)準(zhǔn)化處理的具體公式為:x_{ij}^{*}=\frac{x_{ij}-\overline{x_{j}}}{s_{j}},其中x_{ij}^{*}是標(biāo)準(zhǔn)化后第i個(gè)樣本中第j個(gè)基因的表達(dá)值,x_{ij}是原始表達(dá)值,\overline{x_{j}}是第j個(gè)基因在所有樣本中的均值,s_{j}是第j個(gè)基因在所有樣本中的標(biāo)準(zhǔn)差。在構(gòu)建lasso回歸模型時(shí),通過交叉驗(yàn)證的方式來確定最優(yōu)的懲罰參數(shù)lambda。交叉驗(yàn)證是一種常用的模型評估方法,它將數(shù)據(jù)集劃分為多個(gè)子集,輪流將其中一個(gè)子集作為測試集,其余子集作為訓(xùn)練集,進(jìn)行多次訓(xùn)練和測試,最后綜合多次測試結(jié)果來評估模型性能。在本研究中,采用10折交叉驗(yàn)證,即將數(shù)據(jù)集隨機(jī)劃分為10個(gè)大小相近的子集,每次選取其中1個(gè)子集作為測試集,其余9個(gè)子集作為訓(xùn)練集,構(gòu)建lasso回歸模型并進(jìn)行預(yù)測,重復(fù)10次,得到10個(gè)模型的預(yù)測結(jié)果。通過比較不同lambda值下模型的均方誤差(MeanSquaredError,MSE),選擇使MSE最小的lambda值作為最優(yōu)懲罰參數(shù)。均方誤差的計(jì)算公式為:MSE=\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^2,其中n是樣本數(shù)量,y_{i}是真實(shí)的生存時(shí)間或生存狀態(tài),\hat{y_{i}}是模型預(yù)測的生存時(shí)間或生存狀態(tài)。經(jīng)過lasso回歸分析,確定了[X]個(gè)關(guān)鍵基因在模型中的系數(shù),這些系數(shù)代表了每個(gè)關(guān)鍵基因?qū)蚪M學(xué)評分的貢獻(xiàn)權(quán)重。根據(jù)這些系數(shù),得到基因組學(xué)評分的計(jì)算公式為:GS=\sum_{i=1}^{n}\beta_{i}x_{i},其中GS表示基因組學(xué)評分,n是關(guān)鍵基因的數(shù)量,\beta_{i}是第i個(gè)關(guān)鍵基因的系數(shù),x_{i}是第i個(gè)關(guān)鍵基因的表達(dá)值。通過這個(gè)公式,能夠?yàn)槊總€(gè)胃癌患者計(jì)算出一個(gè)具體的基因組學(xué)評分,該評分綜合反映了多個(gè)關(guān)鍵基因的表達(dá)信息,可用于量化評估患者的預(yù)后風(fēng)險(xiǎn)。例如,對于某一胃癌患者,其關(guān)鍵基因A、B、C的表達(dá)值分別為x_{A}、x_{B}、x_{C},對應(yīng)的系數(shù)分別為\beta_{A}、\beta_{B}、\beta_{C},則該患者的基因組學(xué)評分為GS=\beta_{A}x_{A}+\beta_{B}x_{B}+\beta_{C}x_{C}。這個(gè)評分越高,表明患者的預(yù)后風(fēng)險(xiǎn)可能越高;反之,評分越低,預(yù)后風(fēng)險(xiǎn)可能越低。5.2內(nèi)部驗(yàn)證與模型優(yōu)化在完成基因組學(xué)評分模型的構(gòu)建后,為了評估模型的性能并進(jìn)一步優(yōu)化模型,在訓(xùn)練數(shù)據(jù)集內(nèi)進(jìn)行了內(nèi)部驗(yàn)證。采用10折交叉驗(yàn)證的方法,將訓(xùn)練數(shù)據(jù)集隨機(jī)劃分為10個(gè)大小相近的子集。每次選取其中1個(gè)子集作為測試集,其余9個(gè)子集作為訓(xùn)練集,利用訓(xùn)練集數(shù)據(jù)構(gòu)建基因組學(xué)評分模型,并在測試集上進(jìn)行預(yù)測,重復(fù)10次,得到10個(gè)模型的預(yù)測結(jié)果。通過10折交叉驗(yàn)證,計(jì)算了模型的多個(gè)性能指標(biāo),以全面評估模型的性能。準(zhǔn)確性是評估模型性能的重要指標(biāo)之一,它表示模型預(yù)測正確的樣本數(shù)占總樣本數(shù)的比例。在本研究中,準(zhǔn)確性的計(jì)算公式為:Accuracy=\frac{TP+TN}{TP+TN+FP+FN},其中TP(TruePositive)表示真陽性,即模型正確預(yù)測為陽性的樣本數(shù);TN(TrueNegative)表示真陰性,即模型正確預(yù)測為陰性的樣本數(shù);FP(FalsePositive)表示假陽性,即模型錯(cuò)誤預(yù)測為陽性的樣本數(shù);FN(FalseNegative)表示假陰性,即模型錯(cuò)誤預(yù)測為陰性的樣本數(shù)。經(jīng)過計(jì)算,模型在10折交叉驗(yàn)證中的平均準(zhǔn)確性為[X],表明模型在預(yù)測胃癌患者預(yù)后方面具有一定的準(zhǔn)確性。敏感性和特異性也是評估模型性能的關(guān)鍵指標(biāo)。敏感性,又稱真陽性率,它表示實(shí)際為陽性的樣本中被模型正確預(yù)測為陽性的比例,反映了模型檢測陽性樣本的能力。敏感性的計(jì)算公式為:Sensitivity=\frac{TP}{TP+FN}。特異性,又稱真陰性率,它表示實(shí)際為陰性的樣本中被模型正確預(yù)測為陰性的比例,反映了模型檢測陰性樣本的能力。特異性的計(jì)算公式為:Specificity=\frac{TN}{TN+FP}。在本研究中,模型在10折交叉驗(yàn)證中的平均敏感性為[X],平均特異性為[X],說明模型在檢測陽性樣本和陰性樣本方面都具有較好的能力。受試者工作特征曲線(ReceiverOperatingCharacteristiccurve,ROC曲線)下的面積(AreaUnderCurve,AUC)是評估模型性能的綜合指標(biāo)。ROC曲線以真陽性率(敏感性)為縱坐標(biāo),假陽性率(1-特異性)為橫坐標(biāo),通過繪制不同閾值下模型的真陽性率和假陽性率,展示模型在不同分類閾值下的性能表現(xiàn)。AUC值的范圍為0到1,AUC值越接近1,表明模型的性能越好;當(dāng)AUC值為0.5時(shí),說明模型的預(yù)測效果與隨機(jī)猜測無異。在本研究中,通過10折交叉驗(yàn)證計(jì)算得到模型的平均AUC值為[X],這表明模型具有較好的預(yù)測能力,能夠有效地將高風(fēng)險(xiǎn)和低風(fēng)險(xiǎn)的胃癌患者區(qū)分開來。根據(jù)10折交叉驗(yàn)證的結(jié)果,對模型進(jìn)行了優(yōu)化。分析了不同關(guān)鍵基因?qū)δP托阅艿挠绊?,發(fā)現(xiàn)部分關(guān)鍵基因在模型中的權(quán)重過高或過低,可能影響模型的穩(wěn)定性和泛化能力。通過調(diào)整這些關(guān)鍵基因的權(quán)重,重新構(gòu)建了基因組學(xué)評分模型。在調(diào)整權(quán)重時(shí),參考了基因的生物學(xué)功能、與胃癌預(yù)后的相關(guān)性以及在基因相互作用網(wǎng)絡(luò)中的重要性等因素。對于在基因相互作用網(wǎng)絡(luò)中處于核心位置且與胃癌預(yù)后相關(guān)性較強(qiáng)的基因,適當(dāng)提高其權(quán)重;而對于一些相關(guān)性較弱或?qū)δP拓暙I(xiàn)較小的基因,降低其權(quán)重。除了調(diào)整基因權(quán)重外,還對模型的其他參數(shù)進(jìn)行了優(yōu)化。在lasso回歸模型中,懲罰參數(shù)lambda對模型的性能有重要影響。通過進(jìn)一步的交叉驗(yàn)證,嘗試了不同的lambda值,發(fā)現(xiàn)當(dāng)lambda值調(diào)整為[X]時(shí),模型的性能得到了進(jìn)一步提升。在模型訓(xùn)練過程中,還優(yōu)化了數(shù)據(jù)的預(yù)處理方法和模型的訓(xùn)練算法,以提高模型的訓(xùn)練效率和穩(wěn)定性。對數(shù)據(jù)進(jìn)行了更加細(xì)致的標(biāo)準(zhǔn)化處理,采用了更加先進(jìn)的優(yōu)化算法,如隨機(jī)梯度下降法(SGD)的變體Adagrad、Adadelta等,以加快模型的收斂速度并提高模型的性能。經(jīng)過內(nèi)部驗(yàn)證和模型優(yōu)化,基因組學(xué)評分模型的性能得到了顯著提升。優(yōu)化后的模型在準(zhǔn)確性、敏感性、特異性和AUC值等性能指標(biāo)上均有明顯改善,為后續(xù)在獨(dú)立數(shù)據(jù)集上的外部驗(yàn)證和臨床應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。5.3外部驗(yàn)證與臨床應(yīng)用評估為了進(jìn)一步驗(yàn)證基因組學(xué)評分模型的可靠性和泛化能力,我們從GEO數(shù)據(jù)庫中選取了兩個(gè)獨(dú)立的胃癌數(shù)據(jù)集GSE15459和GSE54129作為外部驗(yàn)證集。這兩個(gè)數(shù)據(jù)集均包含了胃癌患者的基因表達(dá)數(shù)據(jù)和詳細(xì)的臨床隨訪信息,能夠?yàn)槟P偷尿?yàn)證提供充足的數(shù)據(jù)支持。在GSE15459數(shù)據(jù)集中,共包含[X1]例胃癌患者的樣本,其中訓(xùn)練集用于構(gòu)建模型,驗(yàn)證集用于評估模型性能。對于GSE54129數(shù)據(jù)集,同樣包含[X2]例胃癌患者樣本,也分為訓(xùn)練集和驗(yàn)證集。將構(gòu)建的基因組學(xué)評分模型應(yīng)用于這兩個(gè)外部驗(yàn)證集,計(jì)算每個(gè)患者的基因組學(xué)評分。根據(jù)評分結(jié)果,將患者分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組。采用Kaplan-Meier生存分析方法,繪制高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組患者的生存曲線。在GSE15459數(shù)據(jù)集中,高風(fēng)險(xiǎn)組患者的生存曲線明顯低于低風(fēng)險(xiǎn)組,兩組生存差異具有統(tǒng)計(jì)學(xué)意義(p<0.001);在GSE54129數(shù)據(jù)集中,同樣觀察到高風(fēng)險(xiǎn)組患者的生存情況顯著差于低風(fēng)險(xiǎn)組(p<0.001)。通過計(jì)算受試者工作特征曲線(ROC)下的面積(AUC)來量化評估模型的預(yù)測準(zhǔn)確性。在GSE15459數(shù)據(jù)集中,模型的AUC值達(dá)到了[X3],在GSE54129數(shù)據(jù)集中,AUC值為[X4]。這些結(jié)果表明,基因組學(xué)評分模型在獨(dú)立的外部數(shù)據(jù)集上具有良好的預(yù)測性能,能夠準(zhǔn)確地區(qū)分高風(fēng)險(xiǎn)和低風(fēng)險(xiǎn)的胃癌患者。將基因組學(xué)評分與傳統(tǒng)的臨床病理指標(biāo)(如TNM分期、腫瘤大小、淋巴結(jié)轉(zhuǎn)移情況等)進(jìn)行比較,評估它們在預(yù)測胃癌預(yù)后方面的性能差異。在GSE15459和GSE54129數(shù)據(jù)集中,分別計(jì)算傳統(tǒng)臨床病理指標(biāo)和基因組學(xué)評分的AUC值。結(jié)果顯示,基因組學(xué)評分的AUC值均高于傳統(tǒng)臨床病理指標(biāo)。在GSE15459數(shù)據(jù)集中,TNM分期的AUC值為[X5],而基因組學(xué)評分的AUC值為[X3];在GSE54129數(shù)據(jù)集中,腫瘤大小的AUC值為[X6],基因組學(xué)評分的AUC值為[X4]。這表明,相較于傳統(tǒng)臨床病理指標(biāo),基因組學(xué)評分在預(yù)測胃癌預(yù)后方面具有更高的準(zhǔn)確性和優(yōu)勢。進(jìn)一步分析基因組學(xué)評分與傳統(tǒng)臨床病理指標(biāo)的聯(lián)合應(yīng)用價(jià)值。將基因組學(xué)評分與TNM分期相結(jié)合,構(gòu)建聯(lián)合預(yù)測模型。采用多因素Cox回歸分析評估聯(lián)合模型的預(yù)后預(yù)測能力。在GSE15459數(shù)據(jù)集中,聯(lián)合模型的風(fēng)險(xiǎn)比(HR)為[X7],95%置信區(qū)間為[X8],p值小于0.001;在GSE54129數(shù)據(jù)集中,聯(lián)合模型的HR為[X9],95%置信區(qū)間為[X10],p值小于0.001。這表明,基因組學(xué)評分與傳統(tǒng)臨床病理指標(biāo)聯(lián)合應(yīng)用,能夠顯著提高對胃癌患者預(yù)后的預(yù)測能力,為臨床醫(yī)生制定治療方案提供更全面、準(zhǔn)確的信息。在臨床實(shí)踐中,基因組學(xué)評分模型具有潛在的應(yīng)用價(jià)值。醫(yī)生可以根據(jù)患者的基因組學(xué)評分,更準(zhǔn)確地評估患者的預(yù)后風(fēng)險(xiǎn),為患者制定個(gè)性化的治療方案。對于高風(fēng)險(xiǎn)評分的患者,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年天府新區(qū)信息職業(yè)學(xué)院單招綜合素質(zhì)筆試備考題庫含詳細(xì)答案解析
- 2026年安徽交通職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測試備考題庫及答案詳細(xì)解析
- 職業(yè)規(guī)劃專家體系
- 職業(yè)規(guī)劃建議書
- 售后經(jīng)理職業(yè)規(guī)劃手冊
- 2026秋招:西藏雪域天創(chuàng)發(fā)展投資公司筆試題及答案
- 聲母bpmf和單韻母的拼讀課件
- 倉儲(chǔ)作業(yè)安全責(zé)任合同協(xié)議(2026年醫(yī)藥專項(xiàng))
- 2026年春季學(xué)期教育教學(xué)工作暨師德師風(fēng)建設(shè)會(huì)議校長發(fā)言稿:提質(zhì)賦能守初心鑄魂育人啟新程
- 2025-2026學(xué)年秋季學(xué)期XX市第一中學(xué)期末質(zhì)量分析會(huì)校長講話稿:復(fù)盤反思提質(zhì)量
- DBJ50T-100-2022 建筑邊坡工程施工質(zhì)量驗(yàn)收標(biāo)準(zhǔn)
- 《透水混凝土路面應(yīng)用技術(shù)規(guī)程》DB33∕T 1153-2018
- DL∕T 1802-2018 水電廠自動(dòng)發(fā)電控制及自動(dòng)電壓控制技術(shù)規(guī)范
- 2024年個(gè)人信用報(bào)告(個(gè)人簡版)樣本(帶水印-可編輯)
- FZ∕T 73037-2019 針織運(yùn)動(dòng)襪行業(yè)標(biāo)準(zhǔn)
- 電外科設(shè)備安全使用
- (完整版)四年級上冊數(shù)學(xué)豎式計(jì)算題100題直接打印版
- 新生兒疫苗接種的注意事項(xiàng)與應(yīng)對措施
- 青島生建z28-75滾絲機(jī)說明書
- DEFORM在汽車零件冷鍛工藝中的應(yīng)用
- 廣州市自來水公司招聘試題
評論
0/150
提交評論