【畢業(yè)學(xué)位論文】(Word原稿)基于統(tǒng)計方法的結(jié)腸癌基因信息提取研究-統(tǒng)計教育學(xué)_第1頁
【畢業(yè)學(xué)位論文】(Word原稿)基于統(tǒng)計方法的結(jié)腸癌基因信息提取研究-統(tǒng)計教育學(xué)_第2頁
【畢業(yè)學(xué)位論文】(Word原稿)基于統(tǒng)計方法的結(jié)腸癌基因信息提取研究-統(tǒng)計教育學(xué)_第3頁
【畢業(yè)學(xué)位論文】(Word原稿)基于統(tǒng)計方法的結(jié)腸癌基因信息提取研究-統(tǒng)計教育學(xué)_第4頁
【畢業(yè)學(xué)位論文】(Word原稿)基于統(tǒng)計方法的結(jié)腸癌基因信息提取研究-統(tǒng)計教育學(xué)_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于統(tǒng)計方法的結(jié)腸癌基因信息提取研究 內(nèi)蒙古財經(jīng)學(xué)院 摘要 本文主要采用了修正的信噪比 、 基于密度的祛噪聲方法以及 統(tǒng)計 檢驗相結(jié)合的方法 提取基因圖譜信息。 通過對治療結(jié)腸癌新途徑中基因療法中的致病基因提取做研究分析,利用統(tǒng)計學(xué)的相關(guān)知識更加精確有效地提取致病基因。 旨在對于提取基因圖譜信息方法的改進(jìn),找到可以能夠?qū)颖痉诸愋畔⒘窟M(jìn)行更有效估計的方法 采用基于密度的祛噪聲方法進(jìn)行噪聲祛除 , 并使用噪聲云圖對 祛 噪前后的效果進(jìn)行了直觀描述,表明可以有效 祛 除噪聲。并利用聚類分析和判別分析 統(tǒng)計的方法, 最終確定了與結(jié)腸癌有關(guān) 的 8個信息基因。 關(guān)鍵詞:修正的信噪比 ;祛 噪聲 ; 統(tǒng)計 檢驗 。 2 目錄 一、 引言 . 3 ( 1)研究背景和選題意義 . 3 ( 2)國內(nèi)外研究現(xiàn)狀 . 3 ( 3)研究思路 . 5 二 、 基因圖譜信息提取的實證研究 . 5 題分析 . 5 據(jù)的正態(tài)性研究 . 6 因序列的初步提取 . 9 計檢驗 . 11 聲處理 . 12 瘤基因的確定 . 16 三、結(jié)論及分析 . 17 參考文獻(xiàn) . 19 3 一、 引言 ( 1) 研究背景和選題意義 結(jié)腸癌是胃腸道常見的惡性腫瘤,僅次于胃癌、食管癌。癌腫部位最常發(fā)生于直腸和乙狀結(jié)腸,約占 其次為盲腸及升結(jié)腸,再次為降結(jié)腸、肝曲及脾曲。結(jié)腸癌生長較慢,轉(zhuǎn)移較晚。手術(shù)切除仍然是目前結(jié)腸癌治療的主要治療方法,并可輔以化療,免疫治療、中藥以及其它支持治療。 結(jié)腸惡變 是常見 的惡性惡變之一,以 40 歲 50歲 年齡組 發(fā)病率最高。據(jù)世界流行病學(xué)調(diào)查 ,發(fā)現(xiàn)結(jié)腸惡變在 北美 、西歐、澳大利亞、 新西蘭 等地的發(fā)病率最高,居內(nèi)臟種瘤前二位,但在亞、非、拉美等地發(fā)病率則很低。我國的發(fā)病率與死亡率低于胃惡變, 食管 惡變、肺惡變等常見惡性惡變。 隨著人民生活水平的提高,飲食結(jié)構(gòu)的改變,其發(fā)病率呈逐年上各趨勢。中國和日本人的 大腸惡變 發(fā)病率明顯低于美國,但移民到美國的第一代即可見到大腸惡變發(fā)病率上升,第二代基本接近美國人的發(fā)病率。從流行病學(xué)的觀點(diǎn)看,結(jié)腸惡變的發(fā)病和環(huán)境、生活習(xí)慣、尤其是飲食方式有關(guān)。 慢性大腸炎癥,如潰瘍性結(jié)腸炎的腸惡變發(fā)生率高于一般人群,炎癥的增生性病變的發(fā)展過程中,??尚纬上⑷?,進(jìn)一步發(fā)展為腸惡變;克隆氏 (時,有結(jié)腸、直腸受累者可引起惡變變。血吸蟲流行區(qū)和非流行區(qū)的結(jié)腸惡變發(fā)病率 與死亡率有明顯區(qū)別,過去認(rèn)為 慢性血吸蟲病 患者,因腸壁血吸蟲卵沉積與毒素刺激,導(dǎo)致大腸粘膜慢性潰瘍,炎性息肉等,進(jìn)而引起惡變變。 這個觀點(diǎn)一直在爭論, 據(jù) 浙江省 嘉善縣血吸蟲病日漸控制,新發(fā)病例明顯減少,晚期病人趨于消失,而結(jié)腸惡變的發(fā)病率仍很高。 就目前形勢看,國內(nèi)外學(xué)者對有關(guān)致癌基因提取的研究 各抒己見,分別采用不 同的理論基礎(chǔ)以及技術(shù)手段對其進(jìn)行了研究分析,仁者見仁,智者見智,但是尚未形成統(tǒng)一的結(jié)論,而且在醫(yī)學(xué)領(lǐng)域中尚有許多有待改進(jìn)的地方,因此,需要對基因信息的提取進(jìn)行更進(jìn)一步的研究。 由于基因數(shù)量繁多,要在如此眾多的屬性中選出一組對分類而言最為有效的屬性,即樣本的分類因素,同時又兼顧計算復(fù)雜度是很困難的。 由于腫瘤分型在診斷和治療中的重要作用,研究人員一直在尋找獲得更加準(zhǔn)確、精細(xì)的腫瘤分型方法。為了更加方便研究、治療腫瘤等基因疾病,我們針對基因提 取這一課題展開了研究分析。 ( 2) 國內(nèi)外研究現(xiàn)狀 據(jù)世界流行病學(xué)調(diào)查發(fā)現(xiàn),結(jié)腸癌在北美、西歐、澳 大 利亞、新西蘭等地的發(fā)病率最高,居內(nèi)臟腫瘤前兩位,但在亞、非、拉美等地發(fā)病率則很低。近 幾 年各地資料顯示隨著人民生活水平的提高,飲食結(jié)構(gòu)的改變,其在我國的發(fā)病率呈逐年上升之勢。 以前結(jié)腸癌在國內(nèi)并不引人注意,但如今在某些經(jīng)濟(jì)發(fā)展快的城市中,結(jié)腸4 癌發(fā)病率的上升非常明顯。從正式公布的數(shù)據(jù)來看,已從原來的第六位上升到第三或第四位 (與肝癌不相上下 )。 腫瘤是一類復(fù)雜的基因疾病 。 由于癌細(xì)胞是克隆性的 ,基因的改變限于癌細(xì)胞 中 ,而在正常組織中不存在 。 因此 ,從研究腫瘤和對應(yīng)正常組織的基因表達(dá)譜出發(fā) ,借助分類特征選取技術(shù) ,就有可能從中發(fā)現(xiàn)腫瘤組織中普遍特異表達(dá)的基因 ,并對其在不同腫瘤組織中的表達(dá)行為進(jìn)行分析。 基于腫瘤基因表達(dá)譜 ,利用生物信息學(xué)的方法 ,從腫瘤與正常組織的樣本分類入手就腫瘤特異表達(dá)基因的發(fā)現(xiàn)及其表達(dá)模式問題進(jìn)行了分析和研究 ,進(jìn)而探討了腫瘤在基因表達(dá)上的特點(diǎn) 。 在分析腫瘤基因表達(dá)譜特點(diǎn)的基礎(chǔ)上 , 提出了基于 法的樣本分類特征基因選取策略 ; 以支持向量機(jī)為分類工具進(jìn)行樣本類型的識別 ,以分類錯誤率為標(biāo)準(zhǔn)選取樣本分 類特征基因 , 并對其中反映腫瘤與正常樣本組織構(gòu)成特點(diǎn)的組織特異表達(dá)基因進(jìn)行排除以突出腫瘤樣本真實的類別特征 ; 最后結(jié)合統(tǒng)計學(xué)方法 ,從信息學(xué)的角度論證了分類特征基因在腫瘤組織中特異表達(dá)的確實性和普遍性 ,并對這些基因在腫瘤組織中呈現(xiàn)出的特異的表達(dá)模式進(jìn)行了分析(阮曉鋼,李穎新,李建更,龔道雄 , 王金蓮, 2006) 1。在分析基因表達(dá)譜數(shù)據(jù)特性的基礎(chǔ)上,李澤 提出了一個將之用于腫瘤分子分型和選取相應(yīng)亞型特征基因的策略。采用一個無監(jiān)督的基因過濾算法以降低用于分型計算的數(shù)據(jù)的噪聲,提出了一個概率模型對樣本中的分類結(jié)構(gòu)進(jìn)行 建模,基于聚類的結(jié)果 采用相對熵的方法獲得對分類貢獻(xiàn)大的基因作為特征基因,應(yīng)用該策略對兩個公開發(fā)表的數(shù)據(jù)集進(jìn)行了再挖掘,具有明顯的優(yōu)越性(李澤,包雷,黃英武,孫之榮, 2002) 2。 目前,各學(xué)者對基因的研究具有不同的方法。 基于基因表達(dá)譜結(jié)構(gòu)提出一種基因表達(dá)譜的樣本分類方法。用基因的 離衡量其所含樣本類別的信息,過濾 離較小的噪聲基因;然后修改重復(fù)剪輯近鄰算法,剔除噪聲樣本;再基于 法構(gòu)建支持向量機(jī)組合分類器;最后以結(jié)腸癌基因表達(dá)譜樣本為例 ,進(jìn)行分類實驗(劉全金,李穎新, 2008) 3。 汪偉于 2010年提出了基于遺傳算法支持向量機(jī)的特征基因選擇,從結(jié)果可以看出通過遺傳算法降維可以提高支持向量機(jī)的分類準(zhǔn)確率,特別是剔除了數(shù)據(jù)中的大量無關(guān)基因和噪聲,使得經(jīng)過特征選擇后分類準(zhǔn)確率提高。 結(jié)果顯示遺傳算法與支持向量機(jī)結(jié)合方法對分類更加有效。此外,通 過 分析結(jié)果顯示特征基因的主要功能體現(xiàn)在信號傳導(dǎo)和氨基酸代謝上 (汪偉,劉紅, 2010)4。基于最小二乘模糊支持向量機(jī)的基因分類方法。該方法融合了最小二乘支持向量機(jī)與模糊技術(shù)兩者的優(yōu)點(diǎn) ,它既有支持向量機(jī) 的泛化能力強(qiáng)、全局最優(yōu)等優(yōu)點(diǎn) ,又有模糊技術(shù)的不依賴被控對象模型、 魯棒性強(qiáng)等優(yōu)點(diǎn)。在模糊隸屬度設(shè)計過程中 ,充分地考慮了樣本與類中心以及樣本與樣本之間的關(guān)系 ,很好地減小了噪聲或野值樣本對分類的影響(駱嘉偉 , 蘇涵沐 , 陳濤, 2010) 5。 基于支持向量機(jī)的靈敏度分析方法選取結(jié)腸癌特征基因。用支持向量機(jī)分析基因?qū)Ψ诸悰Q策函數(shù)的靈敏度。 遞歸去除靈敏度較 低的若干基因,得到一組候選特征基因子集;以支持向量機(jī)為分類工具。檢驗候選特征基因子集對樣本分類的貢獻(xiàn)。 選取具有最佳分類能力的候選特征基因子集作為結(jié)腸癌特 征基因子集通過實驗比較該特征基因子集的分類能力優(yōu)于文獻(xiàn)給出的其他特征基因子集,表明了該方法的可行性和有效性 ( 劉 全 金,李穎新,阮曉鋼 , 2007) 6。 相對 而言,從 癌癥的研究 狀況來看,對 致病基因提取 的研究 具有迫切性和現(xiàn)實意義的。 因此,本文 采用了修正的信噪比 離 基于密度的祛噪聲方法以及 統(tǒng)計檢驗相結(jié)合的方法 提取基因圖譜信息。 通過對治療結(jié)腸癌新途5 徑中基因療法中的致病基因提取研究分析,利用統(tǒng)計學(xué)的相關(guān)知識更加精確有效地提取致病基因。 ( 3) 研究思路 本 文通過對治療結(jié)腸癌新途徑中基因療 法中的致病基因提取做研究分析,利用統(tǒng)計學(xué)的相關(guān)知識更加精確有效地提取致病基因。 旨在對于提取基因圖譜信息方法的改進(jìn),找到可以能夠?qū)颖痉诸愋畔⒘窟M(jìn)行更有效估計的方法。通過信噪比的改進(jìn)、密度去噪聲方法、非參數(shù)檢驗和判別分析相結(jié)合的方法,找到 8組攜帶致病信息的基因。 通過對比、比較運(yùn)用更加有效的方式準(zhǔn)確提取結(jié)腸癌致病基因。 二 基因圖譜信息提取的實證研究 符號說明 符號 符號說明 d 信噪比 B 基因 離 附計數(shù)器 取一種子 N 總體數(shù)量 n 樣本容量 標(biāo)準(zhǔn)差 顯著性水平 題分析 本文的分析對象是結(jié)腸癌數(shù)據(jù)集 ,可從相關(guān)網(wǎng)站 7下載得到。該數(shù)據(jù)集包含了 62個樣本 ,其中 22個為正常樣本 (40個為腫瘤樣本 (每個樣本包含有 2 000個基因 ,這 2000個基因是 500個基因中挑選出來的具有代表性的基因。 由于原始樣本集中的每個樣本都是以 2000個基因測量值來表征的 , 要在如此眾多的屬性中選出一組對分類而言最為有效的屬性 , 即樣本的分類因素 , 同時又兼顧計算復(fù)雜度 , 可以采用對每個基因包含的樣本 分類信息量進(jìn)行有效估計的方法進(jìn)行 。 因此 , 如何衡量每個屬性包含的樣本分類信息量 , 準(zhǔn)確估計該屬性對樣本分類的貢獻(xiàn)程度就成為有效選擇分類特征的關(guān)鍵 。 選取樣本分類特征的一個基本思想是考察樣本類別在每個屬性上的可分性 , 而可分性的計算又可以通過考察該屬性在同類別樣本上的相似性 (類內(nèi)距離 )以及該屬性在不同類別樣本間的差異性 (類間距離 )來進(jìn)行計算 。 不同的樣本總體分布形態(tài)會帶來不同的樣本指標(biāo)間關(guān)系的差異性,因此為了更好的對數(shù)據(jù)進(jìn)行研究,從總體上把握數(shù)據(jù)的分布狀況,需要研究總體的分布情況。對數(shù)據(jù)進(jìn)行分布形態(tài)分析。 由于 給定 數(shù)據(jù) 樣本有兩千組, 若對全體的基因進(jìn)行分析,勢必會造成分析問6 題的復(fù)雜性和時間的延誤。為了兼顧研究的科學(xué)性、考慮時間的緊迫性, 本文 通過統(tǒng)計抽樣的辦法 ,從總體中抽出的可以代表總體信息的適當(dāng)數(shù)目的樣本 進(jìn)行研究, 以樣本信息反映總體情況。 本文采用的方法為等距抽樣,該抽樣方法應(yīng)先確定適宜的樣本個數(shù)。本文采用的是假定數(shù)據(jù)服從正態(tài)分布的前提下的樣本抽樣,采用的抽樣公式為: n= ( 1)其中, 的界值, s 為總 體標(biāo)準(zhǔn)差, 為容許的誤差。 本文選取 本總數(shù)為 2000;樣本標(biāo)準(zhǔn)差為 定允許的誤差范圍為 過公式( 1)計算結(jié)果如下: n=(=于樣本抽取必須為整數(shù), 理論上無法實現(xiàn),因此,選取的適宜的樣本數(shù)目為 198 個。確定樣本數(shù)目之后,采用公式( 2)計算樣本間隔。 抽樣間隔 2) 依據(jù)公式( 2),確定的抽樣 間隔為 =此,選取 10 為抽樣間隔。先 通過隨機(jī)選取,從 1 10中隨機(jī)選取隨機(jī)數(shù) 3,依此可以確定 本文抽出的數(shù)據(jù)為 3、 13、 23、 33、 43。 1993,共抽取樣本數(shù)目為 200。 據(jù)的 正態(tài)性 研究 急性白血病基因表達(dá)譜數(shù)據(jù)集共含有 72 個急性白血病樣本 ,每個樣本均含 7 129 個基因的表達(dá)數(shù)據(jù)。其中 47 個樣本被診斷為急性成淋巴細(xì)胞白血病 (25 個被診斷為急性骨髓性白血病 (本文在此基礎(chǔ)上分析結(jié)腸癌的基因表達(dá)水平,目的在于尋找出含有病變信息的基因序列。共有 2000 組數(shù)據(jù),分別按照 和 進(jìn)行分類, 22人、 8 人。 由于在正態(tài)分布中有左偏分布、對成分布和右偏分布的差異,且每個不同的分布都有各自的分布特征,因此,在研究之前應(yīng)該先研究總體的分布情況,即需要研究這 2000 個數(shù)據(jù)的正態(tài)性。將 2000 組數(shù)據(jù)分別按照 和 別計算其偏度,這里以第 13組為例進(jìn)行說明。 為了研究每個基因的正態(tài)分 布特征, 做出正態(tài)檢驗 7 . 0 1 0 . 5 1 1 . 0 1 1 . 5 1 2 . 0 1 2 . 5 1 3 . 0 1 3 . 5h e o r e t i c a l Q u a n t i l e - Q u a n t i l 的正態(tài)檢驗 從圖 1看出第 13組數(shù)據(jù) 22個 是還是有部分點(diǎn)偏離直線較遠(yuǎn),存在誤差的可能。再通過直方圖的分布進(jìn)一步驗證其正態(tài)性。 01234561 0 . 5 1 1 . 0 1 1 . 5 1 2 . 0 1 2 . 5 1 3 . 0S e r i e s : XS a m p l e 1 4 0O b s e r v a t i o n s 2 2M e a n 1 1 . 5 7 6 5 5M e d i a n 1 1 . 3 2 4 9 0M a x i m u m 1 3 . 1 1 6 0 7M i n i m u m 1 0 . 3 5 4 6 3S t d . D e v . 0 . 6 9 9 9 8 7S k e w n e s s 0 . 4 3 5 6 2 3K u r t o s i s 2 . 3 5 0 7 8 7J a r q u e - B e r a 1 . 0 8 2 1 7 0P r o b a b i li t y 0 . 5 8 2 1 1 6圖 2 圖 2表明,其圖形沒有明顯規(guī)則,顯著異于正態(tài)分布。其偏度值為 此,第 13組數(shù)據(jù) 22個 8 5 1 0 . 0 1 0 . 5 1 1 . 0 1 1 . 5 1 2 . 0 1 2 . 5 1 3 . 0h e o r e t i c a l Q u a n t i l e - Q u a n t i l 圖 3表明,第 13 組基因 中 40個 是在最左端和最右端部分值偏離較遠(yuǎn),且多數(shù)分布在直線的左端,存在左偏的的可能。再通過直方圖的分布進(jìn)一步驗證其正態(tài)性。 01234567891 0 . 5 1 1 . 0 1 1 . 5 1 2 . 0 1 2 . 5 1 3 . 0S e r i e s : YS a m p l e 1 4 0O b s e r v a t i o n s 4 0M e a n 1 1 . 9 5 6 9 2M e d i a n 1 2 . 0 6 2 0 4M a x i m u m 1 3 . 0 7 0 9 7M i n i m u m 1 0 . 3 1 0 2 1S t d . D e v . 0 . 6 9 3 7 3 0S k e w n e s s - 0 . 3 8 8 7 6 7K u r t o s i s 2 . 5 4 8 2 4 1J a r q u e - B e r a 1 . 3 4 7 7 4 3P r o b a b i li t y 0 . 5 0 9 7 3 1圖 4 從圖 4可以看到,其圖形也沒有明顯規(guī)則,但明顯側(cè)重于右半部分,顯著異于正態(tài)分布,有左偏的傾向。其偏度值為 此,第 13 組數(shù)據(jù) 40 個 以對第 13 組基因的處理為例,處理 200 個組中的其他組,判斷其正態(tài)性。本文依據(jù)抽取的 200個樣本的檢驗結(jié)果來 看, 0個樣本右偏分布,169 個樣本左偏分布。而在 中有 74 個樣本右偏分布, 116 個樣本左偏分布。 鑒于這種情況,本文對于選擇均值作為判斷指標(biāo)做出一定的改進(jìn)。以下為幾種偏態(tài)分布的均值、中位數(shù)、眾數(shù)的關(guān)系圖。 9 圖 5 均值、中位數(shù)、眾數(shù)的關(guān)系圖 圖 5說明,對于對稱正態(tài)分布,其均值、中位數(shù)、眾數(shù)是等同的,三者沒有大小的關(guān)系區(qū)分。但是在左偏分布中,均值小于中位數(shù);而在右偏分布中,均值大于中位數(shù)。鑒于這種情況,若仍舊選取均值作為衡量標(biāo)準(zhǔn),就會出現(xiàn)偏差。為此,首先想到的是對于均值 進(jìn)行偏度上的矯正,使其更好的代表真實情況。但是復(fù)雜之處在于從抽樣抽取出來的 200個樣本來看,多數(shù)樣本服從左偏分布,也有部分服從右偏分布;有極個別近似對稱分布。在這種情況下,選取中位數(shù)作為均值的替代,具有更強(qiáng)的代表性和說服力。 因序列的初步提取 由于基因數(shù)量很大,在判斷腫瘤基因標(biāo)簽過程中,存在“大量無關(guān)信息”,由于在基因表達(dá)譜中 一些基因的表達(dá)水平在所有樣本中都非常接近,這些基因沒有對樣本類型的判斷提供有效信息,反而增加了計算的復(fù)雜性,因此對這些“無關(guān)信息”必須予以剔除。 在衡量基因含有樣本分類信息多少的 度量問題上 , 本文仍采用“信噪比” 8的方法進(jìn)行研究 , 即 : 1212d ( 3) 其中 : 1、 2分別為該基因在 1、 2為其表達(dá)水平的標(biāo)準(zhǔn)差。依據(jù)式 (3) , 若某一基因在 則其信噪比 d =0 , 該基因?qū)⒈蛔鳛闊o關(guān)基因而被剔除。 為了找出用均值和用中位數(shù)計算信噪比之間的差異,本文同時用兩種方法計算信噪比 ,以便分析兩種方法的優(yōu)劣。計算結(jié)果如下: 表 1 均值、中位數(shù)“信噪比”比較關(guān)系表 均值計算的信噪比 中位數(shù)計算的信噪比 d0 623 1090 無影響,若 D0,為有影響。依據(jù)該判別公式( 9),對 23組基因分別進(jìn)行計算,計算結(jié)果見表 3: 表 3 23組基因判別結(jié)果表 基因序列 得分 基因序列 得分 基因序列 得分 82 487 65 567 27 45 668 60 53 672 65 039 797 7 99 067 892 53 328 920 52 381 依據(jù)判別公式的計算結(jié)果,可以斷定出含有致病信息的基因為 039、 328、 381、 487、 567、 668、 672、797、 892、 920,共 11組。 用聚類分析的結(jié)果和判別分析的結(jié)果對比分析, 這八組基因的描述,見表 4: 表 4 特征基因集合中信息最大的 8個特征基因的說明及描述表 C 24203 ( ( ( 三、結(jié)論 及分析 在癌癥的研究中,致病基因是通過基因測量值來表征的,由于基因數(shù)量繁多,要在如此眾多的屬性中選出一組對分類而言最為有效的屬性,即樣本的分類因素,同時又兼顧計算復(fù)雜度是很困難的。本文旨在對于提取基因圖譜信息方法的改進(jìn),找到可以能夠?qū)颖痉诸愋畔⒘窟M(jìn)行更有效估計的方法。本文通過信噪比的改進(jìn)、密度去噪聲方法、 非參數(shù)檢驗 和判別分析相結(jié)合的方法,找到 8組攜帶致病 信息的基因,在信息分類的過程中,我們可以得到如下結(jié)論: ( 1)從抽取的樣本來看, 0個樣本右偏分布, 169 個樣本左偏分布;而在 中有 74個樣本右偏分布, 116個樣本左偏分布。在偏態(tài)分布的情況下 ,中位數(shù)的代表性優(yōu)于均值,通過使用中位數(shù)計算的“信噪比”可以更加準(zhǔn)確地反映真實情況。 18 ( 2)利用中位數(shù)和均值分別計算 離并對原始基因數(shù)據(jù)進(jìn)行初步分類,找到的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論