版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Structure!o3中文使用手冊(cè)
JonathanK.Pritchard3
XiaoquanWena
DanielFalushb123
,芝加哥大學(xué)人類遺傳學(xué)系
b牛津大學(xué)記錄學(xué)系
軟件來(lái)自
http://pritchobsd.uchicagOoedu/structure.html
2月2日
?我們?cè)赟tructure項(xiàng)目中的其他的同事有PeterDonnellyMatthewStephons和Melissa
Hubisz.
2開(kāi)發(fā)這個(gè)程序的第一版時(shí)作者(JP、MS、PD)在牛津大學(xué)記錄系.
3有關(guān)Strueture的討論和問(wèn)題請(qǐng)發(fā)給在線的論壇上:structure一.在郵遞問(wèn)題之前請(qǐng)查對(duì)
這個(gè)文檔并搜索此前的討論.
1引言
程序Structure使用由不連鎖的標(biāo)識(shí)構(gòu)成的基因型數(shù)據(jù)實(shí)行基于模型的聚類措施來(lái)推斷
群體構(gòu)造。這種措施由普里查德(Pritchard)、斯蒂芬斯(Stephens)和唐納利(Donnelly)(a)
在一篇文章中引入,由Falush、斯蒂芬斯(Stephens)和普里?杳德(Pritchard)(a,)在續(xù)篇
中進(jìn)行了擴(kuò)展。我們的措施的應(yīng)用包括證明群體構(gòu)造的存在,鑒定不一樣的遺傳群體,把個(gè)
體歸到群體,以及鑒定移居者和摻和的個(gè)體.
簡(jiǎn)言之,我們假定有K個(gè)群體(這里K也許是未知的)的一種模型,每個(gè)群體在每個(gè)位
點(diǎn)上由一組等位基因頻率來(lái)刻畫(huà)。樣本內(nèi)的個(gè)體被(按照概率)分派到群體,或共同分派到
兩個(gè)或更多種群體,假如它們的基因型表明它們是混和的.假定在群體內(nèi),位點(diǎn)處在哈迪一
溫伯格平衡和連鎖平衡.不精確地講,個(gè)體被按到達(dá)這一點(diǎn)那樣的措施指定到群體。
我們的模型不假定一種尤其的突變過(guò)程,并且它可以應(yīng)用于大多數(shù)一般使用的遺傳標(biāo)
識(shí),包括微衛(wèi)星(microsatellites)SNP和RFLP。模型假定在亞群體內(nèi)標(biāo)識(shí)不處在連鎖不
平衡(LD),因此我們不能處理極其靠近的標(biāo)識(shí).從2.0版開(kāi)始,我們目前可以處理弱連鎖的
標(biāo)識(shí).
雖然這里實(shí)現(xiàn)的計(jì)算措施是相稱強(qiáng)有力的,不過(guò)為了保證明智的答案,在運(yùn)行程序的過(guò)
程中還是需要謹(jǐn)慎.例如,不也許從埋論上確定合適的運(yùn)行長(zhǎng)度(時(shí)間),這需要顧客自己做某
些試驗(yàn).這份資料描述軟件的使用和解釋,并補(bǔ)充刊登的文章,這些文章提供了對(duì)措施的改
正式的描述和評(píng)價(jià)。
1.1概述
軟件包Structure由幾種部分構(gòu)成.程序的計(jì)算部分用C語(yǔ)言編寫(xiě)。我們公布源碼和用于多
種平臺(tái)(目前有蘋(píng)果機(jī),Windows,Linux,Sun)的可執(zhí)行文獻(xiàn)。C可執(zhí)行文獻(xiàn)讀取顧客提供的
一種數(shù)據(jù)文獻(xiàn)。尚有一利3va前端為顧客提供多種有協(xié)助的工具,包括對(duì)輸出的簡(jiǎn)樸的處理。
你也可以從命令行調(diào)用Slruclure而不是使用前端.
這份資料包括有關(guān)怎樣格式化數(shù)據(jù)文獻(xiàn)、怎樣選擇合適的模型、以及怎樣解釋成果的信
息。它也有有關(guān)使用兩種界面(命令行和前端)的細(xì)節(jié)以及多種顧客定義的參數(shù)的匯總。
1o2在2。3版中有哪些更新?
2。3版(4月公布)引入了新的模型用于改善數(shù)據(jù)集構(gòu)造的推論,其中(I)數(shù)據(jù)對(duì)于一
般的構(gòu)造模型來(lái)說(shuō)信息不夠,局限性以提供精確的推論,不過(guò)(2)抽樣的地點(diǎn)與群體歸屬關(guān)
系(populationmembership)有關(guān)。在這種情形下,通過(guò)明確運(yùn)用抽樣地點(diǎn)信息,我們使構(gòu)造
得到改善,常常容許性能更高諸多(Hubiszetal.,).我們但愿在下幾種月釋放更深入的改
善。
表1:實(shí)例數(shù)據(jù)文獻(xiàn)。這里MARKERNAMES=I,LABEL=LPOPDATA=1,NUMINDS=7,
NUML0CI=5,MISSING=—9,POPFLAG=0,LOCDATA=0,PHENOTYPE=0,
EXTRACOLS=0。第2列顯示個(gè)體的地理取樣位置。我們也可以把數(shù)據(jù)存儲(chǔ)為每個(gè)個(gè)體一行
(ONEROWPERIND=l),在這種狀況下第一行為“George1-9—9145—96664009294”。
Loc_aLoc_bLoc_cLoc_dLoc_e
喬治1-914566092
喬治1—9—964094
保拉110614268192
保拉110614864094
馬修2110145-9092
馬修2110148661-9
鮑勃210814264194
鮑勃2-9142-9094
Anja1112142-91—9
Anja1)1414266194
彼得1—9145660-9
彼得1110145-91—9
卡斯坦2108145620-9
卡斯坦211014564I92
2數(shù)據(jù)文獻(xiàn)的格式
基因型數(shù)據(jù)的格式顯示在表2中(表1顯示一種例子基本上,整個(gè)數(shù)據(jù)集被作為一種
矩陣安排在單個(gè)文獻(xiàn)里,其中個(gè)體的數(shù)據(jù)在行里,位點(diǎn)在列里。顧客能對(duì)格式做出若干選擇,
大多數(shù)這些數(shù)據(jù)(除基因型外!)是可選擇的。
對(duì)于一種二倍體生物,每個(gè)個(gè)體的數(shù)據(jù)可以是作為持續(xù)的2行被儲(chǔ)存,其中每個(gè)位點(diǎn)在
一列,或者在一行中,其中每個(gè)位點(diǎn)在持續(xù)的兩列.除非你打算使用連鎖模型(見(jiàn)下面),否
則單個(gè)個(gè)體的等位基因的次序并不重要.預(yù)基因型(pre-genotype)數(shù)據(jù)列(見(jiàn)下面)對(duì)每個(gè)
體記錄兩次。(更一般地,對(duì)于n倍體生物來(lái)說(shuō),每個(gè)個(gè)體的數(shù)據(jù)被儲(chǔ)存在n個(gè)持續(xù)的行中,
除非ONEROWPER1ND選項(xiàng)被使用。)
2.1數(shù)據(jù)文獻(xiàn)的構(gòu)成部分:
輸入文獻(xiàn)的要素如下所列。假如給出,它們?定按如下次序,然而大多數(shù)是可選的并且
可以被完全刪除。顧客必須指明哪些數(shù)據(jù)被給出,或者在前端里(fromend),或者(當(dāng)從命
令行運(yùn)行Slruclure時(shí))在一種單獨(dú)的文獻(xiàn)mainparams里。同步,顧客也要指定個(gè)體和位點(diǎn)的
數(shù)目。
2.2行
I.標(biāo)識(shí)名稱(可選擇;字符串)文獻(xiàn)的第一行可以包括數(shù)據(jù)集里的每個(gè)標(biāo)識(shí)的標(biāo)識(shí)符
的一種列表.這一行包括整數(shù)或字母的L個(gè)字符串,其中心是位點(diǎn)的數(shù)目.
2.隱性等位基因(僅用于有顯性的標(biāo)識(shí)數(shù)據(jù);整數(shù);SNP或者微衛(wèi)星數(shù)據(jù)一般將不包括
這一行.不過(guò)假如選項(xiàng)RECESSIVEALLELES被設(shè)置為I,則程序規(guī)定有這一行來(lái)表
明每個(gè)標(biāo)識(shí)上哪個(gè)等位基因(假如有的話)是隱性的。有關(guān)更多的信息請(qǐng)參閱第4.1
節(jié)。該選項(xiàng)用于象AFLP那樣的數(shù)據(jù),以及用于多倍體的情形,其中基因型也許是
模糊的.
3.標(biāo)識(shí)之間的距離(可選擇;實(shí)數(shù))文獻(xiàn)里的下一行是一種標(biāo)識(shí)之間距離的集合.供有
連鎖的位點(diǎn)使用。這些應(yīng)當(dāng)是遺傳距離(例如,厘摩),或者是這種距離的某些音
代,基于(例如)物理距離.假如標(biāo)識(shí)距離(粗略地)與重組率成正比,則距離的實(shí)際
單位不是那么重要.前端從數(shù)據(jù)估計(jì)一種合適的尺度,不過(guò)命令行版本的顧客必須
在文獻(xiàn)extraparams里設(shè)置LOGIORMIN、LOG10RMAX和LOG10RSTART。標(biāo)識(shí)必
須按照連鎖群中的圖譜次序排列。當(dāng)持續(xù)的標(biāo)識(shí)來(lái)自不一樣的連鎖群(例如,不一
樣的染色體)時(shí),這應(yīng)當(dāng)用數(shù)值-1注明。笫一種標(biāo)識(shí)也被賦值為-1.所有其他的距離
都是非負(fù)的.這一行包括L個(gè)實(shí)數(shù)。
4.連鎖相信息(可選擇;僅用于二倍體數(shù)據(jù);在范圍[0,門內(nèi)的實(shí)數(shù)).這只供連鎖
模型使用。這是,個(gè)概率的一行,出FI前每個(gè)個(gè)體的基因型數(shù)據(jù)之后。假如連鎖相
是完全懂得的,或者沒(méi)有連鎖相信息可用,則這些行是不必要的。當(dāng)有來(lái)自家系數(shù)
據(jù)的部分連鎖相信息,或者當(dāng)來(lái)自雄性的單倍體X染色體數(shù)據(jù)和二倍體常染色體數(shù)
據(jù)被一起輸入時(shí),它們也許是有用的。對(duì)于連鎖相信息有兩種可選擇的表達(dá):(1)
個(gè)體的兩行數(shù)據(jù)被假設(shè)為分別與父本的和母本的相對(duì)應(yīng)。連鎖相行表明目前標(biāo)識(shí)上
的排序?qū)Φ牡母怕剩ㄔO(shè)置MARKOVPHASE=0);(2)連鎖相行表明與此前的等
位基因有關(guān)的一種等位基因的連鎖相是對(duì)的的概率(設(shè)置MARKOVPHASE=1)。
第?項(xiàng)應(yīng)當(dāng)填入0。5,以便把這行填寫(xiě)到L項(xiàng)。例如下列數(shù)據(jù)輸入表達(dá)來(lái)自?種男
性的信息,有5個(gè)連鎖相未知的常染色體微衛(wèi)星位點(diǎn),背面是3個(gè)X染色體位點(diǎn),使
用母本/父本相模型:
1
1003-9-9-9
0.5Oo50.50.5Oo5U01.()I。0
其中-9表達(dá)“缺失數(shù)據(jù)”,這里缺失是由第二X染色體缺乏導(dǎo)致的0.5表明常染色體
位點(diǎn)的連鎖相是未知的,1.0表明X染色體位點(diǎn)由母本遺傳的概率為100,因此其連鎖
相是已知的.相似的信息可以用markovphase模型來(lái)描述.這樣的話輸入文獻(xiàn)將讀為:
102156165101143105104101
100148163101143—9-9-9
0o50.50.50.50o50.51.0L0
這里,21°0s表明那個(gè)第1和第2,另一方面和第3個(gè)X染色體位點(diǎn)彼此完全同相。
注意站點(diǎn)以站點(diǎn)產(chǎn)量在這些2模式下將不一樣。在第一例子中,Structure將輸出母
親和父親染色體的任務(wù)也許發(fā)生的事件。在第2個(gè)狀況下,它將輸出在輸入文獻(xiàn)里
列舉的每等位基因的也許發(fā)生的事件.
5.個(gè)體/基因型數(shù)據(jù)(必需的)取樣的每?種個(gè)體的數(shù)據(jù)象在下面描述的那樣安排成?
行或多行。
2.3個(gè)體/基因型數(shù)據(jù)
個(gè)體數(shù)據(jù)的每一行包括下列要索這些形成數(shù)據(jù)文獻(xiàn)里的列.
1.Label(標(biāo)簽)(可選擇;字符串)一串整數(shù)或者字母,用來(lái)指明樣本中的每個(gè)個(gè)
體。
2.PopData(可選擇;整數(shù))一種整數(shù),指明一種顧客定義的群體,從其中獲得個(gè)體
(例如這些整數(shù)可以指明個(gè)體取樣的地理位置).在默認(rèn)的模型中,這個(gè)信息不被聚
類算法使用,不過(guò)能用來(lái)協(xié)助組織輸出(例如,未來(lái)自相似的預(yù)定義群體的個(gè)體彼
此緊挨著繪圖).
3.PopFlag(可選擇;0或者I)一種布爾標(biāo)簽,表明使用學(xué)習(xí)樣本時(shí)與否使用PopDaia(見(jiàn)
USEPOPINFO,在下面)。(注:布爾(Boolean)變量(標(biāo)簽)是取值為TRUE或FALSE
的變量,在這里分別用整數(shù)1(使用PopData)和0(不使用PopDa⑶表達(dá).)
4.LocData(可選擇;整數(shù))一種整數(shù),為每個(gè)個(gè)體指明一種顧客定義的取樣地點(diǎn)(或者
其他特性,例如一種分享的體現(xiàn)型)。當(dāng)LOCPRIOR模型被打開(kāi)時(shí),這個(gè)信息用來(lái)
協(xié),助聚類。假如你僅僅但愿使用LOCPRIOR模型的PopData,那么你可以省略LocData
歹|J,并設(shè)置LOCISPOP=I(這告訴程序使用PopData來(lái)設(shè)置地點(diǎn))。
5.Phenotype(可選擇;整數(shù))一種整數(shù),為每個(gè)個(gè)體指明一種所關(guān)懷的體現(xiàn)型的值
(表中的。卬)。(體現(xiàn)型信息實(shí)際上沒(méi)有用于Structure。這里用來(lái)容許與關(guān)聯(lián)作
圖程序STRAT有一種平滑的接口。)
6.ExtraCo加mns(可選擇;字符串)顧客把被程序忽視的附加數(shù)據(jù)包括在輸入文獻(xiàn)
里也許是以便的。這些數(shù)據(jù)就在這里輸入,可以是由整數(shù)或字符構(gòu)成的串。
7.GenotypeData(必需的;整數(shù))一種給定位點(diǎn)上的每個(gè)等位基因應(yīng)當(dāng)由一種獨(dú)特
的整數(shù)來(lái)編碼(例如微衛(wèi)星反復(fù)得分).
2.4缺失的基因型數(shù)據(jù)
缺失數(shù)據(jù)應(yīng)當(dāng)用沒(méi)在數(shù)據(jù)中的其他地方出現(xiàn)過(guò)的一種數(shù)字來(lái)標(biāo)明(按照通例常常使用
-9).這個(gè)數(shù)字也可以用于有單倍體和二倍體數(shù)據(jù)混合的地方(例如男性中的X和常染色體位
點(diǎn)).缺失數(shù)據(jù)值是與描述數(shù)據(jù)集特性的其他參數(shù)一起被設(shè)置的。
2.5格式化的錯(cuò)誤.
我們已經(jīng)進(jìn)行了相稱仔細(xì)的錯(cuò)誤檢查,以保證數(shù)據(jù)集的格式對(duì)的,并且程序?qū)⒃噲D提供
某些有關(guān)存在的任何問(wèn)題的性質(zhì)的提醒.前端規(guī)定在每行的結(jié)束回車,不容許在行內(nèi)回車;
Structure的命令行版本以與處理空格或制表符(Tab)同樣的方式處理回車.
也許出現(xiàn)的一種問(wèn)題是,在將數(shù)據(jù)導(dǎo)入Structure之前用來(lái)組裝數(shù)據(jù)的編輯程序也許引入
隱藏的格式化字符,常常在行的末尾,或者在文獻(xiàn)的末尾,前端能自動(dòng)除去大多數(shù)這些錯(cuò)誤,
不過(guò)當(dāng)數(shù)據(jù)文獻(xiàn)仿佛處在對(duì)的的格式時(shí),此類問(wèn)題也許對(duì)錯(cuò)誤負(fù)責(zé)。假如你正在把數(shù)據(jù)導(dǎo)入
到一種Unix系統(tǒng),dos2unix功能也許對(duì)徹底清理這些錯(cuò)誤有協(xié)助,
3顧客的建模決策
3.1祖先模型
個(gè)體的祖先有4個(gè)重要模型:(I)非混合模型(個(gè)體離散地來(lái)自一種群體或者另一種群
體);(2)混合模型(每個(gè)個(gè)體從K個(gè)群體中的每一種抽取他/她的基因組的一部分);(3)
連鎖模型(象混合模型同樣,不過(guò)連鎖的位點(diǎn)更也許來(lái)自相似的群體);(4)有先驗(yàn)信息的
模型(容許Struclure使用有關(guān)取樣地點(diǎn)的信息:或者協(xié)助用弱的數(shù)據(jù)進(jìn)行的聚類,發(fā)現(xiàn)遷移者,
或者預(yù)定義某些群體)。有關(guān)模型1、2、4的詳情見(jiàn)Pritchard等(a)和Hubisz等(),有關(guān)
模型3的詳情見(jiàn)Falush等(a)。
1.非混合模型。每個(gè)體完全來(lái)自K個(gè)群體之一.輸巴匯報(bào)個(gè)體i來(lái)自群體左的后驗(yàn)概率。
每個(gè)群體的先驗(yàn)概率是1/K。這個(gè)模型適合于研究完全離散的群體,并且常常比混
合模型在檢測(cè)微妙的構(gòu)造方面更強(qiáng)有力。
2.混合模型。個(gè)體也許具有混合的祖先。這可以表述為個(gè)體i從群體A中的祖先那里繼
承了他的/她的基因組的一部分。輸出記錄這些比例的后驗(yàn)平均估計(jì)值。以祖先向量
為條件,每個(gè)等位基因的來(lái)源是獨(dú)M的。
我們推薦這個(gè)模型作為大多數(shù)分析的起始點(diǎn).這是處理真實(shí)群體的大多數(shù)復(fù)雜性的一種
相稱靈活的模型?;旌鲜钦鎸?shí)數(shù)據(jù)的?種?般特性,假如你使用非混合模型,你或許不會(huì)發(fā)
現(xiàn)它.混合模型也能以一種自然的方式處理混合的區(qū)域(hybridzones)。
表2:數(shù)據(jù)文獻(xiàn)的格式,為兩行的格式.大多數(shù)這些構(gòu)成部分是可選的(欲理解詳細(xì)信
息,參見(jiàn)正文)。防是標(biāo)識(shí)/的標(biāo)識(shí)符。力表明哪個(gè)等位基因,假如有的話,在每個(gè)
標(biāo)識(shí)上是隱性的(僅針對(duì)顯性的基因型數(shù)據(jù))。&升|是標(biāo)識(shí),和i+1之間的距離"/>一
是個(gè)體,?的標(biāo)簽,月⑺是個(gè)體泊勺一種預(yù)先定義的群體索引(PopData);/"是一種被
用來(lái)合并學(xué)習(xí)樣品的標(biāo)簽(PopFlag)是個(gè)體/?的取樣地點(diǎn)(LocData):”可以儲(chǔ)
存?zhèn)€體,?的體現(xiàn)型;yJT.。。,用于儲(chǔ)存額外的數(shù)據(jù)(這些數(shù)據(jù)會(huì)被程序忽
視);(X/-1,Xi2)儲(chǔ)存?zhèn)€體,?在位點(diǎn)/上的基因型?!ㄋ莻€(gè)體,?中的標(biāo)識(shí)/的連鎖相
的信息.
LabelPopFlagLocationPhenErtraColsLoe1Loc2Loc3....LoeL
z1\/1
/Dt!
\/g\
/D/11/1
X/gI
/2\
l0
x7
?2\
\fZJ0
y(?)刖…愁)Z嚴(yán)六」)必)
ID3/①2①3XL
興)嚴(yán),…,湍)上)Ji,2)鏟)
ID①g⑴【⑴x2甲
(3)源)
P2
產(chǎn))/(N)2)0(N)鏟)鏟)鏟)守
IN)產(chǎn)/(N)2)0(N)—鏟野或2)鏟)????鏟
*)
虻P6????
3。連鎖模型。這實(shí)質(zhì)上是將混合模型推廣,來(lái)處理“混合連鎖不平衡”,即,在
近來(lái)混和的群體中的連鎖標(biāo)識(shí)之間出現(xiàn)的有關(guān)性。Falush等(a)描述了該模型和更詳
細(xì)的計(jì)算.
基本的模型是,過(guò)去的r個(gè)世代,有一次混合事件,將K個(gè)群體混合了。假如你考慮單
個(gè)染色體,它由一系列“塊(chunk)”構(gòu)成,這些“塊”是從混合時(shí)的祖先那里作
為離散的單位遺傳來(lái)的。出現(xiàn)混合LD是由于連鎖的等位基因常常在相似的塊上,因
此來(lái)自相似的祖先群體。
塊的大小被假設(shè)為獨(dú)立的指數(shù)隨機(jī)變量,具有平為長(zhǎng)度1〃(以摩爾根為單位),在實(shí)
踐中我們估計(jì)“重組率”〃所用的數(shù)據(jù)對(duì)應(yīng)于從目前的塊切換到新的塊的比率。個(gè)
體i里的每個(gè)塊以概率碼①獨(dú)立地來(lái)自群體上其中詼⑷是那個(gè)個(gè)體的祖先來(lái)自群體〃的
比例。
總起來(lái),新模型保留了混合模型的重要要素,不過(guò)在單個(gè)塊上的所有等位基因必須來(lái)
自相似的群體。新的MCMC算法結(jié)合了也許的塊大小和斷點(diǎn).它對(duì)于每個(gè)體匯報(bào)總的
祖先,考慮連鎖,并且也能匯報(bào)染色體的每一點(diǎn)人的來(lái)源的也許性,假如顧客想要的
話。
當(dāng)使用連鎖的位點(diǎn)來(lái)研究混合的群體時(shí),這個(gè)新模型體現(xiàn)得比原先的混合模型更好.
它得到對(duì)祖先向量的更精確的估計(jì),并且能從數(shù)據(jù)中抽出更多的信息。這對(duì)混合作
圖應(yīng)當(dāng)是有用的.該模型不是用于處理非常緊密連鎖的標(biāo)識(shí)之間的背景LD的。
顯然,這個(gè)模型是大多數(shù)混合群體的復(fù)雜現(xiàn)實(shí)的大大的簡(jiǎn)化。不過(guò),混合的重要的效
應(yīng)是在連鎖的標(biāo)識(shí)之間建立長(zhǎng)遠(yuǎn)的有關(guān)性,因此我們這里的目的是在一種相稱簡(jiǎn)樸
的模型中將那個(gè)特性包括進(jìn)來(lái).
計(jì)算比混合模型的要慢一點(diǎn),尤其對(duì)于大的K和不懂得連鎖相的數(shù)據(jù)。不過(guò),它們
對(duì)于數(shù)千個(gè)位點(diǎn)和個(gè)體以及多種群體來(lái)說(shuō)還是切實(shí)可行的。假如有有關(guān)標(biāo)識(shí)的相對(duì)
位置的信息(一般是一張遺傳圖譜),則只能使用該模型.
4.使用先驗(yàn)的群體信息。Structure的默認(rèn)模式只贊用遺傳學(xué)的信息來(lái)理解群體構(gòu)造。
不過(guò),常常有可以與聚類有關(guān)的附加信息(例如,取樣的個(gè)體的物理特性或者取樣的
地理位置.).目前,Slruclure可以用3種方式使用這種信息:
?LOCPRIOR模型:運(yùn)用取樣位置作為先驗(yàn)信息來(lái)輔助聚類--用于構(gòu)造信號(hào)比較弱
的數(shù)據(jù)集。有某些數(shù)據(jù)集,其中有真實(shí)的群體構(gòu)造(例如,取樣位置之間的明顯的吊7),
不過(guò)信號(hào)太弱,原則的Structure模型不能發(fā)現(xiàn).對(duì)于標(biāo)識(shí)很少、個(gè)體很少或者#常弱
的Slructure,常常是這樣的狀況.
在這種情形下,為了提高性能,Hubisz等()發(fā)展了新模型,運(yùn)用地點(diǎn)信息來(lái)輔助聚類。
乂寸于這樣的數(shù)據(jù)集,其中構(gòu)造的信號(hào)太弱以致使用原則的Structure模型不能被發(fā)現(xiàn),
新模型常常能提供群體構(gòu)造和個(gè)體祖先的精確的推斷.
簡(jiǎn)言之,LOCPRIOR模型的基本原理如下.一般,Structure假定個(gè)體的所有部分都大概
是先驗(yàn)等也許的。由于也許的部分的數(shù)目非常巨大,對(duì)于Struclure來(lái)說(shuō),需要信息非
常豐富的數(shù)據(jù)來(lái)斷定個(gè)體的任何特定的部分被聚類到群具有強(qiáng)的記錄支持。相
反,LOCPRIOR模型認(rèn)為實(shí)際匕來(lái)自相似的取樣位置的個(gè)體常常來(lái)自相似的群體。
因此,建立LOCPRIOR模型以期望取樣的位置也許有關(guān)祖先是信息豐富的.假如數(shù)
據(jù)表明位置是信息豐富的,那么LOCPRIOR模型容許Structure使用這種信息。
Hubisz等0發(fā)展了一對(duì)LOCPRIOR模型:一種用于沒(méi)有混合的狀況,一種用于有混合
的狀況。在兩種狀況中,內(nèi)在的模型(以及似然函數(shù))與原則版本相似。關(guān)鍵的差異
是容許structure使用地點(diǎn)信息來(lái)協(xié)助聚類(即,通過(guò)修改先驗(yàn)信息來(lái)得到與位置有關(guān)
的更偏愛(ài)的聚類處理方案)。
LOCPRIOR模型具有合乎需要的特性:(i)當(dāng)不存在構(gòu)造時(shí),它們不傾向于發(fā)現(xiàn)構(gòu)造;
(ii)當(dāng)個(gè)體的祖先與取樣位置不有關(guān)時(shí),他們可以忽視取樣的信息;(iii)當(dāng)群體
構(gòu)造的信號(hào)非常強(qiáng)大時(shí),舊模型和新模型基本上給出相似的答案。因此,我們提議在
大多數(shù)數(shù)據(jù)數(shù)量非常有限的情形下使用新模型,尤其是當(dāng)原則的Structure模型不提
供一種Structure的清晰信號(hào)時(shí)。不過(guò),由于目前已經(jīng)積累了原則的Structure模型的諸
多經(jīng)驗(yàn),我們提議對(duì)于信息非常豐富的數(shù)據(jù)集將基本模型作為默認(rèn)(Hubisz等等,).
為了運(yùn)行LOCPRIOR模型,顧客必須首先為每個(gè)個(gè)體指定“取樣地點(diǎn)”,作為-?種整
數(shù)編碼。即,我們假定樣品是在一組分離的位置搜集的,并且我們不使用有關(guān)地點(diǎn)的
仃何空間信息。(我們認(rèn)識(shí)到,在某些研究中,每個(gè)個(gè)體也許在一種不一樣的地點(diǎn)搜
集,因此將個(gè)體塞進(jìn)一套更小的分離的地點(diǎn)也許不是對(duì)數(shù)據(jù)的理想的代表。)“地點(diǎn)”
也可以代表一種體現(xiàn)型、生態(tài)型(ecolype)或者民族團(tuán)體(ethnicgroup)o
地點(diǎn)被鍵入到輸入文獻(xiàn)中,要么在PopData列(設(shè)置LOCISPOP=1)中,要么作
為一種單獨(dú)的LocData列(參閱第23節(jié))。為了使用LOCPRIOR模型,你必須首先
指定或者用混合模型用非混合的模型。假如你使用的是圖形顧客界面版本,則勾選
“usesamplinglocationsasprio”(用取樣位置作為先驗(yàn)信息)框。假如你使用的是命
令行版本,則設(shè)置LOCPRIOR=1.(注意,LOCPRIOR與連鎖模型不兼容.)
我們迄今的經(jīng)驗(yàn)是當(dāng)不存在構(gòu)造時(shí),LOCPRIOR模型不偏向于檢測(cè)到假的構(gòu)造。
你可以把相似的診斷用于與否有真的構(gòu)造,當(dāng)你沒(méi)使用LOCPRIOR時(shí)。此外查看,?的
值也許有協(xié)助,它確定由位置攜帶的信息的數(shù)量?!傅闹悼拷?,或者(1,表明位置
是信息豐富的?!傅母蟮闹当砻骰蛘邲](méi)有群體構(gòu)造,或者構(gòu)造不依賴位置。
USEPOPINFO模型:使用取樣位置來(lái)對(duì)移居者或者雜交種進(jìn)行檢杳--供信息非常
豐富的數(shù)據(jù)數(shù)據(jù)集使用。在某些數(shù)據(jù)集里,顧客也許發(fā)現(xiàn)預(yù)確定的組(例如取樣位置)
幾乎恰好與構(gòu)造聚類相對(duì)應(yīng),除了少數(shù)似乎被錯(cuò)誤歸類的個(gè)體以外.Pritchard等(a)
提出了正式的Bayesian檢查,用于評(píng)價(jià)與否在這個(gè)樣品內(nèi)的任何個(gè)體是他們認(rèn)為的
群體的移民,或者具有新近的移民祖先.
注意這個(gè)模型假定被預(yù)先規(guī)定的群體?般是對(duì)的的。它采用十分強(qiáng)大的數(shù)據(jù)來(lái)
克服先驗(yàn)的錯(cuò)誤分類。在使用USEPOPINFO模型之前,你也應(yīng)當(dāng)在沒(méi)有群體信息的
狀況下運(yùn)行程序,以保證預(yù)確定的群體與遺傳學(xué)的信息粗略一致。
為了使用這模型,把USEPOPINFO設(shè)置為1,并且選擇MIGRPRIOR的一種值(在
Pritchard^(a)中它是立。你可以在0。001到0。1的范圍內(nèi)為v選擇一種值。
每個(gè)個(gè)體的預(yù)確定的群體被設(shè)置在輸入數(shù)據(jù)文獻(xiàn)中(見(jiàn)PopData)。用這種方式,
在輸入文獻(xiàn)里被分派到群體人的個(gè)體在Structure算法中將被分派到群匕因此,被預(yù)先
規(guī)定的群體應(yīng)當(dāng)是在1和MAXPOPS(K)之間的整數(shù).假如任何個(gè)體的PopDala超過(guò)這
個(gè)范圍,它們的夕珞按正常的方式被更新(即沒(méi)有先驗(yàn)的群體信息,根據(jù)將被使用的
模型,假如USEPOPINFO被關(guān)上的話。)
USEPOPINFO模型:預(yù)先指定某些個(gè)體的來(lái)源的群體來(lái)協(xié)助未知來(lái)源的個(gè)體的祖
先估計(jì)。使用USEPOPINFO模型的第二個(gè)措施是定義“學(xué)習(xí)樣本"(learningsamples),
它被預(yù)定義為來(lái)自特定的群。然后用Structure來(lái)聚類剩余的個(gè)體。注意:在前端里,
這個(gè)選項(xiàng)使用“UpdateallelefrequenciesusingonlyindividualswithPOPFLAG=I"選
項(xiàng)被打開(kāi),位于“AdvancedTab”標(biāo)簽下。
學(xué)習(xí)樣品是運(yùn)用數(shù)據(jù)文獻(xiàn)里的PopFlag列實(shí)現(xiàn)的。預(yù)先規(guī)定的群體被用于那些個(gè)
體,它們的PopFlag=1(并且它們的PopData在(1<K)中)。對(duì)于PopFlag=0的個(gè)
體,PopData值被忽視。假如數(shù)據(jù)文獻(xiàn)里沒(méi)有PopFlag列,那么當(dāng)USEPOPINFO被啟
動(dòng)時(shí),PopFlag被為所有個(gè)體設(shè)置為1。具有PopFlag=0的或者PopData不在(K.<?
K)中的個(gè)體的祖先,根據(jù)混合或者沒(méi)有混合的模型被更新,象由顧客指定的那樣。如上
所述,假如有很少的個(gè)體沒(méi)有預(yù)先規(guī)定的群體,將a設(shè)置成一種明智的值來(lái)也許是有
協(xié)助的。
USEPOPINFO的應(yīng)用也許在幾種方面有協(xié)助。例如,也許有某些個(gè)體的來(lái)源是
己知的,我們的目的是對(duì)未知來(lái)源的此外的個(gè)體進(jìn)行歸類。例如I,我們也許從一群
已知品種(編號(hào)為1..。K)的狗中搜集數(shù)據(jù);然后使用Structure為未知的(也許是雜
交種)來(lái)源的此外的狗估計(jì)祖先。通過(guò)預(yù)先設(shè)置群體數(shù)目,我們可以保證Structure聚類
對(duì)應(yīng)于預(yù)先確定的品種,這使輸出更可解釋,并且能改善推論的精確性。(當(dāng)然,
假如兩個(gè)預(yù)先確定的品種在遺傳上是相似的,那么未知來(lái)源的狗也許被推斷為具有
混合的祖先。
USEPOPINFO的另一種用途是用于這樣一種狀況:顧客想要只使用個(gè)體的一種
子集來(lái)更新等位基因頻率。一般,Stnicuire分析使用所有可得到的個(gè)體來(lái)更新等位
基因頻率估計(jì)值。不過(guò)有某些狀況,在那里你也許想對(duì)于某些個(gè)體估計(jì)祖先,沒(méi)有
那些個(gè)體會(huì)影響等位基因頻率的估計(jì)。例如你可以有學(xué)習(xí)樣品的一種原則的搜集,
然后周期性地你想要為新的一批基因型化的個(gè)體估計(jì)祖先。使用默認(rèn)的選項(xiàng),個(gè)體
的祖先估計(jì)(稍微)取決于它們所在的批次。通過(guò)使用PFROMPOPFLAGONLY,你
可以保證等位基因頻率估計(jì)值只依賴于PopFlag=1的那些樣品。在不一樣的狀況下,
Murgia等()想要確定一套無(wú)性系的狗瘤的來(lái)源。那些瘤如此緊密有關(guān)以至于使用的
缺省設(shè)置時(shí)瘤形成它們自己的一類。通過(guò)使用PFROMPOPFLAGONLY,Murgia等
迫使瘤與其他canid聚類分在一組。
意見(jiàn):我們提議首先運(yùn)行Structure的基本的版本,以便證明被預(yù)先規(guī)定的標(biāo)簽確
實(shí)確實(shí)符合實(shí)際的遺傳學(xué)群體。另一方面,當(dāng)使用學(xué)習(xí)樣品時(shí),通過(guò)設(shè)置比0大的
MIGRPRIOR來(lái)容許某些錯(cuò)誤的分類也許是明智的.
3.2等位基因頻率模型
對(duì)于等位基因頻率有兩個(gè)基本的模型.一種模型假定每個(gè)群體內(nèi)的等位基因頻率是獨(dú)立
的,從一種分布中抽取,這個(gè)分布由參數(shù)九指定.那是用于Pritchard等(a)種的原先的模型。
一般我們?cè)O(shè)置兀=1:這是缺省設(shè)置
Falush等(a)實(shí)行了一種模型,具有有關(guān)的等位基因頻率.這個(gè)模型標(biāo)明不一樣群體中的
頻率很也許是相似的(或許由于遷移或者由于共有的祖先)。更詳細(xì)的資料如下。
獨(dú)立.的模型對(duì)「諸多數(shù)據(jù)集體現(xiàn)不錯(cuò).粗略地說(shuō),這最先說(shuō)我們期望在不一樣的群體中
的等位基因頻率彼此不一樣。有關(guān)的頻率模型說(shuō)它們實(shí)際上也許十分相似。對(duì)于親緣關(guān)系近
的群體,這常常改善聚類,不過(guò)也許增長(zhǎng)過(guò)高估計(jì)的K的危險(xiǎn)(如下).假如一種群體與其他
群體分歧較大,則當(dāng)那個(gè)群體被除去時(shí),有關(guān)的模型有時(shí)可以獲得更好的推論。
估計(jì)Q固定人1對(duì)于大多數(shù)數(shù)據(jù)是一種好主意,不過(guò)在某些狀況下,例如SNP數(shù)據(jù).其中
大多多次要的等位基因是稀少的,這時(shí)候較小的數(shù)值也許工作得更好.對(duì)于這個(gè)原因,你可
以讓程序?yàn)槟愕臄?shù)據(jù)估計(jì)I你也許想要這樣做一次,或許對(duì)于K=1來(lái)說(shuō),然后將九固定在被估
計(jì)的值上,由于在試圖同步國(guó)際太多的假設(shè)參數(shù)(九,a,刀時(shí)對(duì)于非識(shí)別性
(non-identifiability)仿佛有某些問(wèn)題.
有關(guān)的等位基因頻率模型:如同F(xiàn)alush等(a)描述的那樣,有關(guān)的頻率模型使用一種(多
維的)矢量,PA,它記錄假設(shè)的“祖先”群體中的等位基因頻率。假定在我們的樣品中代表
的K個(gè)群體每個(gè)都已經(jīng)經(jīng)歷過(guò)與這些祖先頻率的獨(dú)立的漂移,速率分別用參數(shù)Q,匕,f3…,
心表達(dá).除歸因于有點(diǎn)不一樣的模型的差異和估計(jì)的差異外,被估計(jì)的人值應(yīng)當(dāng)數(shù)量上類似
于FsX直。此外,對(duì)于具有許多混合的數(shù)據(jù)要精確地估計(jì)人很難。
PA被假設(shè)為具有Dirichlet先驗(yàn),具有與上面的群體頻率使用的相似的形式:
(入1,九2,o..,Aj),(1)
對(duì)每個(gè)/獨(dú)立。然后,群體A中的頻率的先驗(yàn)為
對(duì)每個(gè)2和/獨(dú)立.在這個(gè)模型里,尸與遺傳學(xué)距離外而親密的關(guān)系。按照八7的原則的參數(shù)化
措施,每個(gè)群體中的期望頻率由總的平均頻率給出,當(dāng)?shù)任换虻目傤l率為〃時(shí),跨越亞群
體的頻率的方差為p(l-〃)FST.這里的模型幾乎同樣,除了我們對(duì)模型稍微做了推廣以外,
通過(guò)容許每個(gè)群體以一種不通的速率(入)漂離祖先群體,如同群體具有不一樣的大小時(shí)也
許被期望的那樣.我們也試圖估計(jì)“祖先頻率”,而不是使用平均的頻率
我們將獨(dú)立的先驗(yàn)(prior)放于凡上,與平均數(shù)為0。01、原則差為0。05的Y分布成正
比(不過(guò)有Pr[&21]=0).Y先驗(yàn)分布的參數(shù)可以由顧客修改。某些試驗(yàn)表明,0o01的先
驗(yàn)平均值對(duì)應(yīng)于非常低細(xì)分的水平,對(duì)于獨(dú)立頻率模型的數(shù)據(jù)常常導(dǎo)致好的體現(xiàn)。在其他的
問(wèn)題中(其中群體之間的差異愈加明顯),仿佛數(shù)據(jù)一般壓倒了這個(gè)人的先驗(yàn).
3.3程序要運(yùn)行多長(zhǎng)時(shí)間?
程序從一種隨機(jī)的配置啟動(dòng),從那里采用一系列環(huán)節(jié)穿過(guò)參數(shù)空間,每個(gè)環(huán)節(jié)(只)依
賴于前一種環(huán)節(jié)的參數(shù)值.這個(gè)程序在運(yùn)行期間引起不一樣的點(diǎn)上的Markov鏈的狀態(tài)之間的
有關(guān)性。但愿是通過(guò)運(yùn)轉(zhuǎn)模擬足夠久,有關(guān)性將可以被忽視。
有兩個(gè)問(wèn)題要緊張:(I)burnin長(zhǎng)度:在搜集數(shù)據(jù)使啟動(dòng)配置的影響減到最小之前模
擬要運(yùn)行多久,(2)在burnin以得到精確的參數(shù)估計(jì)之后模擬要運(yùn)行多久。
要選擇合適的bumin長(zhǎng)度,看看由這個(gè)程序打印的歸納記錄量的值是真的有協(xié)助的(例
如(a,E在群體之間的分歧距離?!?,以及似然),以便理解它們與否已經(jīng)收斂。一般1000("
—100000的burnin非常足夠了.
要選擇合適的運(yùn)行長(zhǎng)度,你需要在每個(gè)K上做幾次運(yùn)行,也許長(zhǎng)度不一樣,看看你與否得
到一致的答案。一般,運(yùn)用10000—JOOOOO步運(yùn)行你能得到參數(shù)(P和Q)的好的估計(jì),不過(guò)
Pr(X]K)的精確的估計(jì)也許需要更長(zhǎng)時(shí)間的運(yùn)行。實(shí)際上,你的運(yùn)行時(shí)間的長(zhǎng)度也許決定于
你的計(jì)算機(jī)速度和耐心。假如你正處理極其大的數(shù)據(jù)集,并且被運(yùn)行時(shí)間制止,你可以試著
修剪運(yùn)行的長(zhǎng)度和標(biāo)識(shí)/個(gè)體的數(shù)量,至少為探索的分析。
前端提供了兒種重要參數(shù)的時(shí)間序列曲線。在burnin階段結(jié)束之前你應(yīng)當(dāng)看看這些曲
線,以便理解這些曲線與否看起來(lái)到達(dá)了平衡。假如在burnin階段結(jié)束時(shí)數(shù)值仍然在增長(zhǎng)或
者減少,你需要增長(zhǎng)burnin長(zhǎng)度。
假如在整個(gè)運(yùn)行期間(即,不只是在bumin期間)Q的估計(jì)值變化非常大,你可以通過(guò)
增大ALPHAPROPSD來(lái)得至IJ對(duì)Pr(XIK)的更精確的估計(jì),這改善了在那種形勢(shì)下的混合。(見(jiàn)
在第5節(jié)的一種有關(guān)的問(wèn)題).
4缺失數(shù)據(jù),無(wú)效的等位基因和顯性標(biāo)識(shí)
當(dāng)不停改善。和P時(shí),程序忽視缺失的基因型數(shù)據(jù)。當(dāng)在一種尤其的位點(diǎn)有漏缺數(shù)據(jù)的
也許性與個(gè)體在那里有什么等位基因無(wú)關(guān)時(shí),這種措施乃對(duì)的的。當(dāng)具有漏缺數(shù)據(jù)的個(gè)體的
Q的估計(jì)不那么精確時(shí),沒(méi)有尤其的原因制止這樣的個(gè)體參與分析,除非他們主線幾乎沒(méi)有數(shù)
據(jù)。
當(dāng)數(shù)據(jù)以系統(tǒng)的方式遺漏時(shí),出現(xiàn)一種嚴(yán)重的問(wèn)題,如同用無(wú)效等位基因那樣。這些不
適合假設(shè)的模型,雖然沒(méi)有群體構(gòu)造,也可以導(dǎo)致明顯的違反哈迪-溫伯格。人們不應(yīng)當(dāng)期望
假設(shè)的模型對(duì)此類破壞是穩(wěn)健的。不過(guò)假如無(wú)效的等位基因也許是一種重要的問(wèn)題的話,則
顯性標(biāo)識(shí)模型(下面)可以被使用。
在樣本中有多名家庭組員也會(huì)破壞模型假定。這有時(shí)會(huì)導(dǎo)致K的過(guò)而估計(jì),尤其對(duì)于有
關(guān)的頻率模型(Falush等,a),不過(guò)當(dāng)K固定期,這對(duì)將個(gè)體分派給群體的影響很小.
4o1顯性標(biāo)識(shí)、無(wú)效等位基因和多倍體基因型
對(duì)某些類型的遺傳學(xué)標(biāo)識(shí)(例如AFLP)來(lái)說(shuō),辨別所有基因型是不也許的.其他類型的
標(biāo)識(shí)也許導(dǎo)致模棱兩可的基因型,假如由于附近序列的變化導(dǎo)致PCR產(chǎn)物不能擴(kuò)增,一部分
等位基由于“無(wú)效”。從2.2版開(kāi)始,我們實(shí)現(xiàn)了一種模型,處理與顯性標(biāo)識(shí)有關(guān)的基因型的模
糊性。
總之,我們假定在任何特定的位點(diǎn)也許有對(duì)所行其他等位基因(例如A)為隱性的單個(gè)的
等位基因,而所有其他的標(biāo)識(shí)是共顯性的。因此A8和將作為“體現(xiàn)型”B出目前未加工
的基因型數(shù)據(jù)中,AC和CC將被記錄為C,而8C將被記錄為8C。當(dāng)有模糊性時(shí),模型在也許
的基因型上求和。所有的細(xì)節(jié)在Falush等()里給出.
為了執(zhí)行這些計(jì)算,必須告訴算法每個(gè)位點(diǎn)上的哪個(gè)等位基因(假如有的話)是隱性的.
這通過(guò)設(shè)置RECESSIVEALLELES=1來(lái)進(jìn)行,并且在輸入文獻(xiàn)頂上包括一行單L整數(shù),在標(biāo)識(shí)
名稱和圖譜距離的(可選的)行之間,表明在數(shù)據(jù)集里的7/個(gè)位點(diǎn)的每個(gè)上面的隱性等位基因。
假如一種給定的位點(diǎn)上的所有標(biāo)識(shí)是共顯性的,那么那個(gè)位點(diǎn)上的隱性值必須被調(diào)整成
MISSING(缺失的)數(shù)據(jù)值,相反,假如隱性等位基因從未在純合狀態(tài)被觀測(cè)到,不過(guò)你認(rèn)為它
也許存在(例如也許有無(wú)效的等位基因),那么就把隱性值設(shè)置成在那個(gè)位點(diǎn)沒(méi)被觀測(cè)到的
等位基因(而不是MISSING!).
編碼基因型數(shù)據(jù):假如體現(xiàn)型是不模糊的,那么它被在Structure輸入文獻(xiàn)里按照它本來(lái)
的樣子編碼.假如它是模糊的,那么它被作為顯性等位基因的純合體編碼。例如,體現(xiàn)型A被
編碼為被編碼為3氏BC被編碼為BC,等等。假如標(biāo)識(shí)是其他方面為二倍體的一利個(gè)體
中的單倍體(例如男性中的X染色體),那么第2個(gè)等位基因被象此前同樣編碼為MISSING(缺
失)。當(dāng)A是隱性的時(shí),基因型48、AC等等在輸入文獻(xiàn)里是不合法的。
當(dāng)RECESSIVEALLELES被用來(lái)處理無(wú)效的等位基因時(shí),看起來(lái)是無(wú)效的純合體
(homozygotenull)的基因型應(yīng)當(dāng)作為隱性等位基因的純合體而不是作為缺失數(shù)據(jù)被輸入。
在實(shí)踐中也許不確定與否一種失敗的基因型真的歸因于純合的無(wú)效等位基因。Smiclure應(yīng)當(dāng)
對(duì)這些編碼為缺失的數(shù)據(jù)是穩(wěn)健的,除非無(wú)效等位基因在一種位點(diǎn)上的頻率很高。
在多倍體(PLOIDY>2)中形勢(shì)更復(fù)雜,由于甚至對(duì)共顯性標(biāo)識(shí)都也許有基因型的模糊。
在雜合體中精確地識(shí)別出基因型常常足困難的。例如在二倍體中,體現(xiàn)型A3也許是AM或
者AB8。假如Structure在RECESSIVEALLELES=O的條件下運(yùn)行,那么就假定沒(méi)有模糊。
對(duì)于多倍體,當(dāng)RECESSIVEALLELES=I時(shí),Slructure容許數(shù)據(jù)包括具有基因型模糊和
不具有基因型模糊的位點(diǎn)。假如某些位點(diǎn)不模糊那么設(shè)置代碼NOTAMBIGUOUS為一種整
數(shù),這個(gè)整數(shù)不與數(shù)據(jù)內(nèi)的的任何等位基因相匹配,并且不等于MISSING(缺失)。然后在
輸入文獻(xiàn)頂上的隱性等位基因的行里為不模糊的位點(diǎn)放置NOTAMBIGUOUS代碼.假如不是
那樣,而是在一種特定的位點(diǎn)上等位基因所有是共顯性的,不過(guò)有有關(guān)每個(gè)的數(shù)目(例如為
在四倍體里的微衛(wèi)星)模糊,那么就把隱性等位基因代碼設(shè)置為MISSING。最終,假如有隱
性等位基因,并且尚有有關(guān)每個(gè)等位基因的數(shù)目的模糊性,則設(shè)置隱性等位基因代碼來(lái)表明
哪個(gè)等位基因是隱性的。存在拷貝數(shù)模糊性的等位基因的編碼與存在顯性標(biāo)識(shí)的那些相似.
因此,舉例來(lái)說(shuō),在四倍體中,觀測(cè)到3個(gè)共顯性位點(diǎn)8、C和。,這應(yīng)當(dāng)被編碼為BCDD或者
等效地BBCD或者任何包括3個(gè)等位基因中的每一種的其他組合。它不應(yīng)當(dāng)被編碼為BCD
(MISSING),由于這表明該特定的個(gè)體在所指的位點(diǎn)是三倍體。假如在這個(gè)位點(diǎn)上存在
一種隱性等位基因A,它也不能被編碼為BCDAo
Pr(K)的估計(jì):當(dāng)RECESSIVEALLELES被用于二倍體時(shí),Markov鏈的每個(gè)環(huán)節(jié)上的
似然值是通過(guò)在也許的基因型上求和來(lái)計(jì)算的。為了便于編碼,當(dāng)要么PLOIDY>2要么使用
了連鎖模型時(shí),我們以目前推算的(impuled)基因型為條件。這減小似然值,并且仿佛大大
地?cái)U(kuò)大似然值的方差。有限的經(jīng)驗(yàn)表明在后一種狀況下這導(dǎo)致對(duì)K的估計(jì)效果變差,你應(yīng)當(dāng)把
K的這種估計(jì)看做是不可靠的。
5K(群體數(shù)目)的估計(jì)
在描述這個(gè)程序的我們的文章里,我們指出這個(gè)問(wèn)題應(yīng)當(dāng)被小心看待,由于兩個(gè)原因:
(1)要獲得對(duì)Pr(x|/O的精確估計(jì)在計(jì)算上是困難的,我們的措施僅僅提供一種專門的(ad
hoc)近似;(2)K的生物學(xué)解釋也許不是簡(jiǎn)樸的.
在我們的經(jīng)驗(yàn)里我們發(fā)現(xiàn)真正的困難在于第2個(gè)問(wèn)題。我們的用于估計(jì)K的程序一般在
具有少許離散的群體的數(shù)據(jù)集中計(jì)算效果很好。不過(guò),諸多現(xiàn)實(shí)世界的數(shù)據(jù)集并不精確地符
合Siruclure模型(例如,由于通過(guò)距離或者近交而產(chǎn)生的隔離)。在那些狀況里對(duì)于什么是K
的對(duì)的值也許沒(méi)有一種自然的答案。
或許由于這種原因,在真實(shí)的數(shù)據(jù)中我們的模型選擇原則的值伴隨增長(zhǎng)的K而繼續(xù)增長(zhǎng)
是不稀有的。那么集中于捕捉數(shù)據(jù)中的大多數(shù)構(gòu)造的K的值一般是講得通的,這在生物學(xué)上似
乎是合理的。
5o1估計(jì)K的環(huán)節(jié)
l.(命令行版本)在文獻(xiàn)extraparams里把COMPUTEPROBS和INFERALPHA設(shè)置
為L(zhǎng)(前端版本)保證a容許變化。
2.對(duì)不一樣的MAXPOPS(K)值運(yùn)行MCMC方案.最終它將輸出一行aEstimatedLn
ProbofData"o這是InPr(X]K)的估計(jì)。你應(yīng)當(dāng)對(duì)每個(gè)K獨(dú)立地運(yùn)行幾次,以便證
明不一樣運(yùn)行得到的估計(jì)值是一致的。假如與不一樣的K獲得的估計(jì)值的變異性
相比,一種給定的K的不一樣運(yùn)行的變異性是明顯的,那么你也許需要使用更長(zhǎng)的
運(yùn)行或者更長(zhǎng)的burnin時(shí)期。假如lnP「(X]K)看起來(lái)是雙峰的(bimodal)或者多
峰的(multimodal),則MCMC方案也許找到不一樣的答案。你可以對(duì)此進(jìn)行驗(yàn)
證,通過(guò)比較在單個(gè)K上的不一樣運(yùn)行的Q.1參看Pritchardetal.(a)的數(shù)據(jù)集2A
(DataSet2A),也見(jiàn)下面有關(guān)多峰性(Multimodality)的部分,)。
3.計(jì)算K的后驗(yàn)概率.例如,對(duì)于論文中的數(shù)據(jù)集2A(這里K是2),我們得到
KInPr(XIK)
1-4356
2-3983
3—3982
4一3983
5-4(X)6
我們一開(kāi)始可以假定一種有關(guān)長(zhǎng)={1,5}的均勻先驗(yàn)分布.然后根據(jù)貝葉斯定理,Pr(K=2)
由下式給出:
,3983
;
--------------------------------(3))
,-4356,L-3983i,L-3982-iL-3983i-L-4006°
假如我們將該式簡(jiǎn)化為下面的公式,計(jì)算就會(huì)更輕易
~l
——---:---e------:-----=0.21(4)
e-374+,e-1+.e0+.e-I+.e-24
5.2輕微的違反模型也許導(dǎo)致過(guò)高估計(jì)K
當(dāng)存在真正的群體構(gòu)造時(shí),這導(dǎo)致不連鎖的位點(diǎn)之間的LD,以及違反哈迪溫伯格比例。
粗略地說(shuō),這是被Slructure算法使用的信號(hào)。不過(guò)模型的某些違反也能導(dǎo)致哈迪溫伯格或連
鎖不平衡.這些包括近交和基因型鑒定錯(cuò)誤(例如偶爾的、未被發(fā)現(xiàn)的無(wú)效的等位基因).雖然
在沒(méi)有群體構(gòu)造的狀況下,對(duì)于K〉I,這些類型的原因也也許導(dǎo)致弱的記錄信號(hào).
從2版本開(kāi)始,我們提出有關(guān)的等位基因頻率模型(correlatedallelefrequencymodel)應(yīng)
當(dāng)被用作默認(rèn),由于它在困難的問(wèn)題上常常實(shí)現(xiàn)更好的執(zhí)行,不過(guò)顧客應(yīng)當(dāng)意識(shí)到,在這樣
的設(shè)置中也許更輕易過(guò)高估計(jì)K,與獨(dú)立的頻率模型下相比(Falushetal。(a))。
下一節(jié)討論怎樣確定推斷的構(gòu)造與否是真實(shí)的。
5.3有關(guān)選擇K的非正式提醒;構(gòu)造是真實(shí)的嗎?
有兩個(gè)非正式的提醒,也許有助于選擇K.第一種是,對(duì)于比合適的值(有效零)更小的
K,Pr(K)常常是非常小的,本于更大的K,則有或多或少的高原,如同上面顯示的數(shù)據(jù)集2A的例
子中那樣。在這種情形中(其中K的兒種值給出logPr(X|K)的相似的估計(jì)下),似乎這些
估計(jì)中最小的常常是對(duì)的狗.
對(duì)于我們通過(guò)“或多或少的高原”所示的東西,要提供一種結(jié)實(shí)的規(guī)則有點(diǎn)難。對(duì)于小
數(shù)據(jù)集來(lái)說(shuō),這也許意味著logPr(X|K)的值在5-10的范圍內(nèi),不過(guò)DanielFalush寫(xiě)道”在非常
大的數(shù)據(jù)集中,K=3和K=4之間的差異也許是50,不過(guò)假如K=3和K=2之間的差異是5000,
那么我將肯定選擇K=3"。想要使用改正式的原則(這種原則將這一點(diǎn)納入了考慮)的讀者也
許對(duì)Evanno等()的措施感愛(ài)好.
我們認(rèn)為考慮這一點(diǎn)的一種明智的措施是就模型選擇而言。即,我們也許不總是能懂得
K的真值,不過(guò)我們應(yīng)當(dāng)致力于捕捉數(shù)據(jù)里的重要構(gòu)造的K的最小的值。
第二提醒是,假如真的有單獨(dú)的群體,那個(gè),一般有許多有關(guān)a的值的信息,一旦Markov
鏈?zhǔn)諗浚琣一般將相對(duì)恒定(范圍常常為0。2或更少).不過(guò),假如沒(méi)有任何真正的構(gòu)造,在運(yùn)
行過(guò)程中a一般變化很大。
這一點(diǎn)的一種必然的成果是當(dāng)沒(méi)有群體構(gòu)造時(shí),你將一般將看到分派給每個(gè)群體的樣本
的比例是大體勻稱的(每個(gè)群體中1/K),大多數(shù)個(gè)體將被公平地混和.假如某些個(gè)體被強(qiáng)烈地
分派到一群體或者另一種,以及假如分派給每組的比例不對(duì)稱,那么這是你有真正的群體構(gòu)
造的強(qiáng)的跡象。
假定你有兩個(gè)清晰的群體,不過(guò)你試圖決定與否這些中之一是更深入再分(例如,Pr
(*K=3)的值類似于P(XIK=2),或者也許比P(X|K=2)還大一點(diǎn))。那么,你能嘗試
的一件事情是只使用你懷疑也許被再分的群體內(nèi)的個(gè)體來(lái)運(yùn)行Siructure,看看與否有一種如
上所述的強(qiáng)信號(hào)。
總之,你應(yīng)當(dāng)對(duì)根據(jù)小的Pr(2的差異推斷的群體構(gòu)造持懷疑態(tài)度,假如(I)對(duì)于分派
沒(méi)有清晰的生物學(xué)解釋,(2)對(duì)所有群體的分派大體勻稱,沒(méi)有個(gè)體被強(qiáng)烈地分派。
5o4通過(guò)距離數(shù)據(jù)的隔離
通過(guò)距離的隔離指的是這樣的想法:個(gè)體也許跨越莫些地區(qū)呈空間分布,帶有當(dāng)?shù)胤稚?/p>
的.在這種形勢(shì)下,等位基因頻率跨越地區(qū)逐漸變化.基礎(chǔ)的Structure模型對(duì)來(lái)自這種狀況的
數(shù)據(jù)不很適合。當(dāng)這發(fā)生時(shí),推斷的K的值,以及在每組中的對(duì)應(yīng)的等位基因頻率也許相
稱任意.取決于取樣的計(jì)戈人大多數(shù)個(gè)體也許在多種組中具有混合的組員身份。即,算法將
嘗試使用K的不?樣組分的加權(quán)平均數(shù)來(lái)對(duì)跨越地區(qū)的等位基因頻率建模。在這樣的形勢(shì)
下,成果的解釋也許具有挑戰(zhàn)性。
6背景LD和其他miscellania
6,1序列數(shù)據(jù),緊密連鎖的SNP和單體型數(shù)據(jù)
Structure模型假定位點(diǎn)在群體內(nèi)是獨(dú)立的(即,在群體內(nèi)不處在LD)。序列數(shù)據(jù)或者來(lái)
自非重組區(qū)域的(例如Y染色體或者mtDNA)的數(shù)據(jù)很也許違反這個(gè)假定.
假如你有序列數(shù)據(jù)或來(lái)自多種獨(dú)立區(qū)域的密集的SNP數(shù)據(jù),那么盡管數(shù)據(jù)不完全適合模
型,Structure實(shí)際上也許演出得想當(dāng)好.粗略地說(shuō),這將發(fā)生,倘若跨越不一樣的區(qū)域有足夠
的獨(dú)立性,以至于區(qū)域內(nèi)的LD不在數(shù)據(jù)中占優(yōu)勢(shì).當(dāng)有足夠的獨(dú)立區(qū)域時(shí),區(qū)域內(nèi)的依賴性
(dependence)的重要代價(jià)將是Structure在尤其的個(gè)體的分派中低估不確定性。
例如,Falush等(b)把Slructure用于來(lái)自"〃的”的MLST(多位點(diǎn)序列)數(shù)據(jù),以理解〃。
?的群體構(gòu)造和遷移歷史。在那種狀況下,在區(qū)域內(nèi)有足夠的重組以至于群體構(gòu)造的信號(hào)
超過(guò)了背景LD。(有關(guān)MLST數(shù)據(jù)的更多狀況,也見(jiàn)第10節(jié))。在人類的應(yīng)用中,Conrad等
()發(fā)現(xiàn)來(lái)自36個(gè)連鎖的區(qū)域的3000個(gè)SNP生產(chǎn)明智(不過(guò)嘈雜)的答案,在一種全世界的樣
本中,基本上與基于微衛(wèi)星的此前的成果一致[見(jiàn)他們的SupplementaryMethodsFigure
SM2]o
然而,假如數(shù)據(jù)被一種或者少數(shù)非重組的或在低重組的區(qū)域主導(dǎo),那么,Structure也許被
嚴(yán)重地誤導(dǎo)。例如,假如數(shù)據(jù)只由Y染色體數(shù)據(jù)構(gòu)成,那么估計(jì)的構(gòu)造大概將反應(yīng)出有美Y染
色體樹(shù)的某些事情,而非群體構(gòu)造自身。使用這樣的數(shù)據(jù)的影響很也許是:(1)算法低估祖先
估計(jì)中的不確定性的程度、在最壞的狀況下,也許是有偏的或者不精確的;(2)K的估計(jì)不也許
演出得好。假如你有Y或者mtDNA數(shù)據(jù)加上許多核標(biāo)識(shí),一種安全和有效的處理措施是重新
編碼來(lái)自每個(gè)連鎖區(qū)域的單體型,以至于單體型被描述為?種具有〃等位基因的單個(gè)位點(diǎn)。
假如有許多單體型,則可以把有關(guān)的單體型歸類到一起.
注意連鎖模型不一定比(非)混合模型對(duì)于處理這些問(wèn)題更好。連鎖模型不是設(shè)計(jì)來(lái)處
理群體內(nèi)的背景LD的,并且很也許被類似地干擾。
6o2多峰性
Structure算法在參數(shù)空間中的一種隨機(jī)的地方開(kāi)始,然后朝著參數(shù)空間的一種峰收斂。
(在這里的上下文內(nèi),峰可以被看作,松弛地講,具有高的后驗(yàn)概率的一種聚類解.)當(dāng)不
使用先驗(yàn)的標(biāo)簽時(shí),在K類的編號(hào)過(guò)程中沒(méi)有固有的意思,因此有K!個(gè)對(duì)稱的峰,對(duì)應(yīng)于對(duì)
類標(biāo)簽的排列。理論上,Sl「ucture可以在這些峰之間切換,不過(guò)這一般對(duì)真正的數(shù)據(jù)集不發(fā)生
(Pritchardctal.,a).為準(zhǔn)備用于出版的圖,諾厄?羅森堡(NoahRosenberg)的試驗(yàn)室有一
種有協(xié)助的程序,CLUMPP,在對(duì)數(shù)據(jù)繪圖之前跨越不一樣的運(yùn)行把類標(biāo)簽排列成行(第10
節(jié))。
除了這些對(duì)稱的峰之外,某些數(shù)據(jù)集也許尚有此外的非對(duì)稱的峰.Structure的目前的實(shí)行
一般不在實(shí)際長(zhǎng)度的運(yùn)行過(guò)程中在這些之間穿過(guò)。這表明不一樣的運(yùn)行也許產(chǎn)生明顯不一樣
的答案,并且更長(zhǎng)時(shí)間的運(yùn)行或許將不能修正這一點(diǎn).
這重要是對(duì)于非常更雜的數(shù)據(jù)集的一種問(wèn)題,具有大的K值,例如K〉5或者K>10(不
過(guò)見(jiàn)Pritchard等(a)中的數(shù)據(jù)集2A的例子)。你可以檢查Q的成果,以理解這與否發(fā)生了。
Rosenberg等()提出了此類,,青形的仔細(xì)的分析,對(duì)一種數(shù)據(jù)集,其中估計(jì)的K大概是19。
6O3當(dāng)大多數(shù)個(gè)體被混合時(shí),估計(jì)混合比例
假如親本的群體的代表非常少,估計(jì)混合比例也許尤其具有挑戰(zhàn)性.在Pritchard等(b)
中對(duì)于模擬數(shù)據(jù)有一種這樣的例子。數(shù)據(jù)假定是來(lái)自大多數(shù)個(gè)體有某種程度的歐洲祖先的美
國(guó)黑人群體的一種樣本。對(duì)那些數(shù)據(jù)來(lái)說(shuō),估計(jì)的祖先比例與真實(shí)(模擬)值高度有關(guān),不
過(guò)祖先的實(shí)際比例是有偏的。那個(gè)例子也是我們用真正的數(shù)據(jù)的更新近的經(jīng)歷的代表。
這發(fā)生由于在缺乏任何程度非摻和的個(gè)體的狀況下,也許有某些不可識(shí)別性
(nonidentifiability),在那里有也許把等位基因頻率推得更開(kāi),把混合比例擠壓到一起(反
過(guò)來(lái)也是這樣),獲得兒乎同樣的模型擬合.當(dāng)有強(qiáng)烈非對(duì)稱的混合時(shí),使用POPALPHAS
1(每個(gè)群體單獨(dú)的a)能協(xié)助一點(diǎn),不過(guò)不處理基本的問(wèn)題。因此,在這些情形下的混合性的
估計(jì)應(yīng)當(dāng)被謹(jǐn)慎看待.
7從命令行運(yùn)行Structure
有許多由顧客設(shè)置的程序參數(shù)。這些在兩個(gè)文獻(xiàn)中(mainparams和exiraparams),每當(dāng)
程序執(zhí)行的時(shí)候,這些文獻(xiàn)被讀取。mainparams指定數(shù)據(jù)文獻(xiàn)的輸入形式和最基本的運(yùn)行參
數(shù)。extraparams指定多種程序選項(xiàng)。你需要設(shè)置mainparams里的所有值,而以extraparams里
的默認(rèn)值開(kāi)始運(yùn)行或許沒(méi)有問(wèn)題。注意默認(rèn)模型假定混合,并且不使用顧客定義的P
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 克羅恩病診療新進(jìn)展:從機(jī)制突破到臨床實(shí)踐
- 2025年河北省公需課學(xué)習(xí)-建筑施工高處作業(yè)安全技術(shù)規(guī)范
- 2025年招錄政府專職消防文員筆試判讀題170題及答案
- 2025年泥工安全教育培訓(xùn)試題及答案
- 2025年人才引進(jìn)面談?wù)骖}及答案
- 中考藝術(shù)科目試卷及答案
- 物業(yè)崗前考試題庫(kù)及答案
- 鎮(zhèn)海中考英語(yǔ)試卷及答案
- 四川省成都市蓉城名校聯(lián)盟2024-2025學(xué)年高二上學(xué)期期中考試生物考試生物學(xué)試題
- 上海德語(yǔ)高考真題及答案
- (2026年)如何做好科室護(hù)理質(zhì)量管理課件
- 2025年湖南省長(zhǎng)沙市政府采購(gòu)評(píng)審專家考試真題(附含答案)
- 《阿拉善右旗阿拉騰敖包鐵礦、螢石礦開(kāi)采方案》評(píng)審意見(jiàn)書(shū)
- 國(guó)際胰腺病學(xué)會(huì)急性胰腺炎修訂指南(2025年)解讀課件
- 2025年《稅收征收管理法》新修訂版知識(shí)考試題庫(kù)及答案解析
- 帶隙基準(zhǔn)電路的設(shè)計(jì)
- 2025年《廣告策劃與創(chuàng)意》知識(shí)考試題庫(kù)及答案解析
- 壓力管道安裝交叉作業(yè)方案
- 2025年副高消化內(nèi)科試題及答案
- 九年級(jí)上冊(cè)《道德與法治》期中必背大題
- 協(xié)助老年人洗浴
評(píng)論
0/150
提交評(píng)論