主動學(xué)習(xí)在藥物發(fā)現(xiàn)中應(yīng)用的現(xiàn)狀和前景 2024_第1頁
主動學(xué)習(xí)在藥物發(fā)現(xiàn)中應(yīng)用的現(xiàn)狀和前景 2024_第2頁
主動學(xué)習(xí)在藥物發(fā)現(xiàn)中應(yīng)用的現(xiàn)狀和前景 2024_第3頁
主動學(xué)習(xí)在藥物發(fā)現(xiàn)中應(yīng)用的現(xiàn)狀和前景 2024_第4頁
主動學(xué)習(xí)在藥物發(fā)現(xiàn)中應(yīng)用的現(xiàn)狀和前景 2024_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

DrugDiscov.Today|主動學(xué)習(xí)在藥物發(fā)現(xiàn)中應(yīng)用的現(xiàn)狀和前景主動學(xué)習(xí)(AL)是一個迭代反饋過程,其能迭代性的從化學(xué)空間中識別有價值的數(shù)據(jù),從而實現(xiàn)以較少的有標(biāo)簽數(shù)據(jù)高效的完成對空間的探索和開發(fā)。AL的這一特性正好與藥物發(fā)現(xiàn)過程中所面臨的探索空間不斷擴(kuò)大和有標(biāo)簽數(shù)據(jù)存在缺陷等問題互補(bǔ),因此,AL已經(jīng)被廣泛的用于藥物發(fā)現(xiàn)領(lǐng)域以推動藥物發(fā)現(xiàn)的進(jìn)程。最近,曹東升教授課題組和曾湘祥課題組在DrugDiscoveryToday上發(fā)表了一篇綜述“ThePresentStateandChallengesofActiveLearninginDrugDiscovery”,這篇綜述首先介紹了AL工作流,然后對AL在藥物發(fā)現(xiàn)領(lǐng)域中的應(yīng)用進(jìn)行了全面且系統(tǒng)的回顧,最后總結(jié)了AL在藥物發(fā)現(xiàn)領(lǐng)域的研究現(xiàn)狀和研究前景,具體見下文。主動學(xué)習(xí)工作流的介紹AL是一個迭代反饋的過程,其從一個小的初始訓(xùn)練數(shù)據(jù)集構(gòu)建模型開始,然后,使用一定的查詢策略迭代地從數(shù)據(jù)集中選擇富含信息量的數(shù)據(jù)進(jìn)行標(biāo)注,這些新標(biāo)注的數(shù)據(jù)被用于迭代性的更新模型,最后,在達(dá)到預(yù)定的目標(biāo)后或者資源耗盡時,停止AL的過程。因此,AL通常主要由以下四個部分組成(如圖1所示):1.初始訓(xùn)練集:初始訓(xùn)練集作為AL的起始對AL的過程有重要的影響,大量的研究表明初始訓(xùn)練集選擇的一個趨勢:在前瞻性研究中,其通常是從各種數(shù)據(jù)庫中直接提取或者處理過的歷史數(shù)據(jù);而在回顧性研究中,其通常是隨機(jī)抽取的一個或者一組數(shù)據(jù)集。然而,無論初始數(shù)據(jù)集是如何選擇的,AL都展現(xiàn)出了顯著的優(yōu)勢。2.ML算法:ML算法是AL工作流的重要組成部分,目前,各種ML算法均已成功的與AL相融合,包括傳統(tǒng)的ML算法,深度學(xué)習(xí)算法以及一些更加精密的ML算法。這些ML算法的成功融合為專家在使用AL時有了更多的ML算法選擇,同時也鼓勵研究者將更加先進(jìn)的ML算法與AL相融合,此外,需要注意的是,同一種ML算法在不同研究背景下表現(xiàn)出的性能是不同的,所以在解決特定問題時,研究人員必須仔細(xì)選擇適合的ML算法。3.查詢策略:用于指導(dǎo)數(shù)據(jù)選擇的查詢策略是AL工作流的核心部分,其主要分為三類:開采性查詢策略、探索性查詢策略和平衡查詢策略。開采性查詢策略通常優(yōu)先選擇具有潛在理想特征的數(shù)據(jù)卻不考慮他們對模型性能的影響;探索性查詢策略則專注于選擇可以為模型提供新見解的分子,即使它們不具有理想性質(zhì);平衡選擇策略則致力于選擇可以同時具有理想性質(zhì)和提高模型性能的數(shù)據(jù),以實現(xiàn)開采和探索之間的平衡,比如選擇一半探索性數(shù)據(jù)和一半探索性數(shù)據(jù)。這些查詢策略最后所能實現(xiàn)的目的不同,研究人員需要根據(jù)自己的研究目標(biāo)去合理的選擇查詢策略以高效率的完成研究目標(biāo)。4.評估指標(biāo):AL最后階段是在合適的時間停止迭代,與這密切相關(guān)的是用于衡量AL效益的評估指標(biāo)。通常,這些評價指標(biāo)可以分為兩大類,一是基于分子的指標(biāo),其聚焦于選擇的分子,比如選擇到的活性分子數(shù)目或者活性分子的骨架數(shù)目;二是基于模型的指標(biāo),其專注于模型的變化,比如模型性能的改變和特征重要性的變化。然而,這兩種指標(biāo)都只能用于評估當(dāng)前迭代的狀態(tài),而不能衡量進(jìn)一步迭代可能獲得的收益。為了解決這一限制,研究人員也通過分析建模和統(tǒng)計方法去評估多一輪迭代的潛在效益以進(jìn)一步確定是否需要進(jìn)行下一次迭代。研究人員可以根據(jù)這些指標(biāo)確定何時停止AL工作流,使之與他們的研究目標(biāo)相圖一:AL工作流的概述圖。主動學(xué)習(xí)在藥物發(fā)現(xiàn)中的應(yīng)用集成了各種的ML算法和查詢策略的AL已經(jīng)在藥物發(fā)現(xiàn)的化合物-靶點相互作用(CTIs)預(yù)測、虛擬篩選(VS)、分子生成和優(yōu)化以及分子性質(zhì)預(yù)測這些關(guān)鍵階段中被成功的用于解決各種問題(如圖2所示)。下面這一部分將對AL在藥物發(fā)現(xiàn)不同階段的應(yīng)用進(jìn)行全面和系統(tǒng)的綜述。圖2AL在藥物發(fā)現(xiàn)的各個階段的主要應(yīng)用。分子-靶點相互作用預(yù)測在CTI預(yù)測中存在有標(biāo)簽數(shù)據(jù)分布不平衡以及有標(biāo)簽數(shù)據(jù)缺乏不足以準(zhǔn)確預(yù)測空間中所有的CTI等問題。此外,如何高效的解決與CTIs相關(guān)的復(fù)雜的多類別分類問題也是CTI研究需要解決的。使用不同分子查詢策略的AL的融合可以有效的解決這些問題(參見圖3),目前這已經(jīng)被大量的報道所證明。圖3通過引入AL來解決DTI預(yù)測中存在的一些棘手問題的示意圖。1.解決標(biāo)記數(shù)據(jù)集中的數(shù)據(jù)不平衡問題:基于探索性選擇策略的AL可以迭代性的從有標(biāo)簽數(shù)據(jù)集中選擇富含信息量的數(shù)據(jù)加入訓(xùn)練集,從而構(gòu)建相互作用對和非相互作用對比例平衡且靶點覆蓋率高的訓(xùn)練集。Reker等人的研究證明了這點,他們使用基于不確定性的分子選擇策略在每次迭代時選擇了被模型預(yù)測不準(zhǔn)確的相互作用對加入訓(xùn)練集,最終構(gòu)建了一個相互作用對和非相互作用對比例平衡且靶點覆蓋率較高的訓(xùn)練集。此外,Sharma等人的研究也表明通過AL迭代性的選擇最接近預(yù)測邊界的相互作用對加入訓(xùn)練集可以有效的解決數(shù)據(jù)不平衡問題。2.加快CTI空間的探索和利用:基于探索性選擇策略的AL可以快速的從相互作用空間中找到最富含信息量的相互作用對加入訓(xùn)練集,從而構(gòu)建高質(zhì)量的相互作用預(yù)測模型準(zhǔn)確的預(yù)測相互作用空間中的CTIs,這已被很多研究所證明。比如,Naik等人通過迭代性的選擇預(yù)測置信度低的相互作用對進(jìn)行標(biāo)注以擴(kuò)充訓(xùn)練集和更新模型,最終實現(xiàn)了以較少的訓(xùn)練數(shù)據(jù)構(gòu)建高質(zhì)量的相互作用預(yù)測模型,從而準(zhǔn)確的預(yù)測數(shù)據(jù)集中所有的CTI;Sun等人的研究也證明了通過基于探索性選擇策略的AL可以快速的完成對相互作用空間的探索,實現(xiàn)以較少的樣本構(gòu)建高質(zhì)量的相互作用模型,準(zhǔn)確的預(yù)測空間中的CTIs?;陂_采性選擇策略的AL可以引導(dǎo)快速找到空間中具有相互作用的分子-靶點對,高效的完成對相互作用空間的開采,Kanga等人的研究就證明了這點,他們通過在每次迭代時使用貪婪選擇策略選擇被預(yù)測具有相互作用的分子-靶點對,最終快速的找到了空間中具有相互作用的分子-靶點對,從而高效的完成對相互作用空間的開采。此外,他們的研究也表明通過平衡性選擇策略可以在快速找到具有相互作用的分子-靶點對的同時找到最富含信息量的相互作用對以快速的改進(jìn)模型的性能,從而高效的完成對相互作用空間的開發(fā)和探索。3.提高多類別分類的效率:基于探索性選擇策略的AL可以迭代性的選擇最有價值的數(shù)據(jù)快速的改進(jìn)多類別分類模型性能,高效的解決與CTI相關(guān)的多類別分類問題,這已經(jīng)被相關(guān)的研究所證明。比如Lang等人通過基于不確定性的選擇策略在每次迭代時選擇兩個最高正概率之間差異最小的分子進(jìn)行標(biāo)注去擴(kuò)充訓(xùn)練集,最后實現(xiàn)了以較少的樣本構(gòu)建高質(zhì)量的模型準(zhǔn)確的從多個靶點中找到每個分子結(jié)合的特定靶點;RodríguezPérez等人的研究通過基于熵的選擇策略選擇富含信息量的數(shù)據(jù)快速的構(gòu)建高性能的模型,準(zhǔn)確的將分子分到正確的結(jié)合位點上。虛擬篩選(SBVS)。LBVS方法是基于相似性的基本原理,所以很難發(fā)現(xiàn)骨架新穎的活性分子。SBVS方法利用計算模擬來模擬配體與蛋白質(zhì)的結(jié)合,可以有效識別骨架新穎的活性分子,但是其計算速度慢且會耗費大量計算資源。此外,最廣泛應(yīng)用的SBVS方法-分子對接,其也面臨預(yù)測準(zhǔn)確性低等問題?;诓煌肿舆x擇策略的AL可以有效的彌補(bǔ)這兩種虛擬篩選方法的主要缺陷,如圖4所示,這也被很多研究報道所證明。圖4AL緩解兩種VS方法的主要缺點:幫助LBVS發(fā)現(xiàn)骨架新穎的活性分子和加速SBVS的示意圖1.輔助LBVS發(fā)現(xiàn)骨架新穎的活性分子:早期,Warmuth等人的研究表明通過基于開采性查詢策略的AL可以引導(dǎo)快速的找到數(shù)據(jù)庫中的活性分子;Czarnecki等人的研究則表明通過基于探索性選擇策略的AL可以快速的找到富含信息量的分子快速的為模型添加新的信息。為此,Reker等人開始進(jìn)一步的探索通過基于平衡性選擇策略的AL是否可以找到骨架新穎的活性分子,他們通過迭代性的選擇結(jié)構(gòu)新穎且很可能具有活性的分子進(jìn)行標(biāo)注,最終引導(dǎo)找到了結(jié)構(gòu)新穎的活性分子。這就表明通過平衡性選擇策略的AL可以輔助LBVS方法找到骨架新穎的活性分子。2.提高SBVS的篩選效率:基于開采性的AL可以迭代性的從數(shù)據(jù)集中選擇最可能具有好的計算得分的分子進(jìn)行SBVS計算,從而將SBVS計算聚焦于數(shù)據(jù)庫中最有前景的那部分分子,避免了計算資源在得分差的分子上的浪費,這點已經(jīng)被Graff和Gusev等專家的研究所證明。在他們的研究中,他們通過迭代性的選擇預(yù)測的計算得分好的分子進(jìn)行SBVS計算,最終以較少的分子對接或分子動力學(xué)模擬計算快速的找到數(shù)據(jù)庫中大多數(shù)對接得分好或結(jié)合自由能低的分子,即將計算資源成功的聚焦于數(shù)據(jù)庫中最有前景的這部分分子。Schrodinger公司也據(jù)此開發(fā)了可以使這個過程自動化的程序:AL-Glide和AL-FEP+。3.增強(qiáng)SBVS的預(yù)測準(zhǔn)確性:AL在改進(jìn)SBVS的預(yù)測準(zhǔn)確性上也發(fā)揮了重要的作用,Hsu等人的研究就表明通過基于探索性選擇策略的AL可以迭代性的改進(jìn)對接構(gòu)象預(yù)測模型對新型蛋白質(zhì)-配體結(jié)合構(gòu)象的預(yù)測;Wang等人的研究表明通過采用一種負(fù)向選擇策略的AL可以改進(jìn)基于機(jī)器學(xué)習(xí)打分函數(shù)的預(yù)測性能,降低篩選假陽性率;César等人的研究表明通過基于開采性選擇策略的AL可以引導(dǎo)FEP計算程序的參數(shù)選擇,從而找到適合特定靶點FEP計算的參數(shù)設(shè)置,準(zhǔn)確的進(jìn)行FEP計算。分子的生成和優(yōu)化分子的生成和優(yōu)化過程主要包括兩個關(guān)鍵步驟:一是使用生成模型生成可能具有所需屬性的分子;二是使用實驗或精確計算方法評估這些生成的分子,識別出真正具有理想特性的分子。AL已被證明可以通過增強(qiáng)生成分子的質(zhì)量和加速對生成分子的性質(zhì)評估來改進(jìn)分子的生成和優(yōu)化過程。1.提高生成分子的質(zhì)量:AL可以通過利用生成的分子迭代性的對生成模型進(jìn)行反饋而改進(jìn)模型的性能,提高生成分子的質(zhì)量,這已經(jīng)被一些報道證明了。比如Iovanac等人的報道表明通過AL迭代性的從生成的分子中選擇具有理想性質(zhì)的分子去迭代性的更新簡單的生成模型,最終可以改進(jìn)生成模型以生成更多的具有理想性質(zhì)的分子;Bengio等人的研究也表明通過迭代性的利用生成的分子更新強(qiáng)化模型可以生成更多結(jié)構(gòu)多樣且對接得分好的分子。2.加速對生成分子的性質(zhì)評估:正如在虛擬篩選部分中的AL提高SBVS的篩選效率所述,通過AL也可以加速對生成分子的性質(zhì)評估,快速地從生成的分子中找到具有理想性質(zhì)的分子,Konze等人的研究就證明了這一點,他們通過在每一次迭代時選擇模型預(yù)測FEP+得分最好的分子進(jìn)行FEP+計算,最后以較少的計算資源從生成的分子中快速的找到FEP+得分好的分子。分子性質(zhì)預(yù)測在分子性質(zhì)預(yù)測中,模型預(yù)測的準(zhǔn)確性經(jīng)常會受到有標(biāo)簽數(shù)據(jù)中存在的問題的影響,例如數(shù)據(jù)冗余。此外,現(xiàn)有的有標(biāo)簽數(shù)據(jù)有限,其構(gòu)建的模型無法準(zhǔn)確的預(yù)測日益擴(kuò)大的空間中所有分子的性質(zhì)?;谔剿餍圆樵儾呗缘腁L是解決這些挑戰(zhàn)的一個解決方案,已有大量文獻(xiàn)報導(dǎo)證明了它的有效性。1.解決有標(biāo)簽數(shù)據(jù)集的局限性:基于探索性選擇策略的AL可以從有標(biāo)簽數(shù)據(jù)集中迭代性的選擇富含信息量的數(shù)據(jù)作為訓(xùn)練集,從而移除有標(biāo)簽數(shù)據(jù)集中存在的冗余數(shù)據(jù),這點已經(jīng)被Ding等人的研究所證明。在他們的研究中,他們通過基于不確定性選擇策略的AL迭代性的從數(shù)據(jù)集中選擇含信息量的數(shù)據(jù)構(gòu)建模型,最終實現(xiàn)了以明顯少的數(shù)據(jù)構(gòu)建了與使用全部數(shù)據(jù)構(gòu)建的模型性能相當(dāng)或者更好的模型。2.加速化學(xué)空間性質(zhì)的探索:基于探索性選擇策略的AL可以迭代性地從化學(xué)空間中選擇有代表性的數(shù)據(jù)向模型中添加新的信息,從而使之可以更加準(zhǔn)確的預(yù)測空間中分子的性質(zhì),許多研究已經(jīng)證明了這點。比如Gubaev等人使用探索性查詢策略選擇與訓(xùn)練集數(shù)據(jù)差異較大的分子來擴(kuò)充訓(xùn)練集,從而改進(jìn)模型使之更加準(zhǔn)確的預(yù)測空間中分子的性質(zhì);Zhang等人也迭代性的選擇預(yù)測不確定的分子去為模型添加新的信息使之更加準(zhǔn)確的預(yù)測空間中分子的性質(zhì);Hao等人也通過基于多樣性的分子選擇策略迭代性的選擇分子擴(kuò)充訓(xùn)練集使之更加準(zhǔn)確的預(yù)測空間中的分子的性質(zhì)?,F(xiàn)狀和研究前景1.整合更加先進(jìn)的ML算法:目前很多先進(jìn)的ML和自動化ML(Auto-ML)算法都已經(jīng)成功的與AL相結(jié)合并在藥物發(fā)現(xiàn)中得到了成功的應(yīng)用,但是也有一些在其他領(lǐng)域成功融合的ML算法還沒在藥物發(fā)現(xiàn)領(lǐng)域得到成功的應(yīng)用,例如多任務(wù)AL。此外,隨著各種新的更加精進(jìn)的算法的不斷出現(xiàn),如何將在其他領(lǐng)域成功融合的ML算法和新出現(xiàn)的更加精進(jìn)的算法與AL相結(jié)合以促進(jìn)藥物發(fā)現(xiàn)的進(jìn)程在未來仍需要進(jìn)一步的探究。2.開發(fā)或者遷移新型的分子選擇策略:為了在改進(jìn)模型性能的同時找到具有理想性質(zhì)的分子,一系列致力于平衡開采和探索的平衡選擇策略被開發(fā)出來了,但是如何精細(xì)的調(diào)節(jié)兩者的比例以最大化收益仍是需要探索的;此外,在不同階段采用不同的查詢策略也可以實現(xiàn)改進(jìn)模型性能和找到理想性質(zhì)的活性分子的目的,但是在什么時候進(jìn)行查詢策略的轉(zhuǎn)化可以最快的實現(xiàn)研究目標(biāo)也是需要進(jìn)一步研究的。此外,近年來,在其他領(lǐng)域也出現(xiàn)了一些新穎且成效顯著的查詢策略,將這些策略從其他領(lǐng)域直接遷移或者改編后遷移到藥物發(fā)現(xiàn)領(lǐng)域以加速藥物發(fā)現(xiàn)也是值得進(jìn)一步研究的。3.探索AL的新應(yīng)用:AL的常規(guī)應(yīng)用是用于快速的改進(jìn)模型的性能或者找到具有理想性質(zhì)的分子,但是一些研究也展示了AL的新應(yīng)用層面,比如使用A

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論