CN114974460B 一種預(yù)測消毒副產(chǎn)物細(xì)胞毒性的方法(南京大學(xué))_第1頁
CN114974460B 一種預(yù)測消毒副產(chǎn)物細(xì)胞毒性的方法(南京大學(xué))_第2頁
CN114974460B 一種預(yù)測消毒副產(chǎn)物細(xì)胞毒性的方法(南京大學(xué))_第3頁
CN114974460B 一種預(yù)測消毒副產(chǎn)物細(xì)胞毒性的方法(南京大學(xué))_第4頁
CN114974460B 一種預(yù)測消毒副產(chǎn)物細(xì)胞毒性的方法(南京大學(xué))_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

(19)國家知識產(chǎn)權(quán)局(12)發(fā)明專利(10)授權(quán)公告號CN114974460B(65)同一申請的已公布的文獻(xiàn)號(43)申請公布日2022.08.30(73)專利權(quán)人南京大學(xué)地址210008江蘇省南京市鼓樓區(qū)漢口路22號(72)發(fā)明人潘旸陳雪瑤任家豐羅家怡王樂怡韓亮亮湯萌萌周慶雙陳冬施鵬李愛民(74)專利代理機(jī)構(gòu)江蘇瑞途律師事務(wù)所32346專利代理師張素云GO6N20/00(2019.審查員李楊軍(54)發(fā)明名稱一種預(yù)測消毒副產(chǎn)物細(xì)胞毒性的方法本發(fā)明公開了一種預(yù)測消毒副產(chǎn)物細(xì)胞毒性的方法,借助化合物分子結(jié)構(gòu)和理化性質(zhì),利用基于機(jī)器學(xué)習(xí)算法預(yù)測DBPs細(xì)胞毒性的方法。所述方法流程包括:收集DBPs的細(xì)胞毒性值,建立數(shù)據(jù)庫;將所有DBPs轉(zhuǎn)化為SMILES;計(jì)算所有DBPs樣本的分子指紋,對樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化、歸一化;基于多種機(jī)器學(xué)習(xí)算法構(gòu)建毒性預(yù)測模型,選出最優(yōu)模型;輸入待測DBPs的SMILES表達(dá)據(jù)庫。21.一種預(yù)測消毒副產(chǎn)物細(xì)胞毒性的方法,其特征在于,至少包括以下步驟:(1)建立DBPs的細(xì)胞毒性數(shù)據(jù)庫;(2)獲取DBPs樣本的SMILES,獲取DBPs的SMILES表達(dá)式的過程中,針對無法轉(zhuǎn)換成所述分子指紋為:MACCS的166位分子指紋,和/或ECFP_4的1024位擴(kuò)展連通性指紋,和/或FCFP_4的1024位官能團(tuán)類型指紋;所述的預(yù)處理方式包括標(biāo)準(zhǔn)化和歸一化;所述標(biāo)準(zhǔn)化是依照特征矩陣的列處理數(shù)據(jù),將樣本的特征值轉(zhuǎn)換到同一量綱下;所述歸一化是依照特征矩陣的行處理數(shù)據(jù),將數(shù)據(jù)映射到指定的范圍;(4)基于機(jī)器學(xué)習(xí)算法構(gòu)建毒性預(yù)測模型:保留同時具有全部描述符和細(xì)胞毒性值的樣本構(gòu)建數(shù)據(jù)集,計(jì)算模型評價相關(guān)參數(shù),對模型進(jìn)行篩選;(5)輸入待測DBPs的SMILES表達(dá)式后自動計(jì)算待測DBPs的分子指紋,再輸入至預(yù)測模型中,預(yù)測待測DBPs的細(xì)胞毒性數(shù)值;所述細(xì)胞毒性指CHO細(xì)胞的EC?0值。2.根據(jù)權(quán)利要求1所述的預(yù)測消毒副產(chǎn)物細(xì)胞毒性的方法,其特征在于,步驟(4)中,所述的機(jī)器學(xué)習(xí)算法選自隨機(jī)森林算法、支持向量機(jī)算法、樸素貝葉斯算法和人工神經(jīng)網(wǎng)絡(luò)算法中的任意一種。3.根據(jù)權(quán)利要求1~2任一所述的預(yù)測消毒副產(chǎn)物細(xì)胞毒性的方法,其特征在于,步驟(4)中,將所述樣本構(gòu)建的數(shù)據(jù)集劃分為訓(xùn)練集和測試集;利用訓(xùn)練集訓(xùn)練所述的預(yù)測模型;利用測試集評價所述預(yù)測模型的優(yōu)度,優(yōu)化所述預(yù)測模型的參數(shù)。4.根據(jù)權(quán)利要求3所述的預(yù)測消毒副產(chǎn)物細(xì)胞毒性的方法,其特征在于,所述訓(xùn)練集和測試集按照(8~7):(2~3)的比例進(jìn)行劃分。5.根據(jù)權(quán)利要求3所述的預(yù)測消毒副產(chǎn)物細(xì)胞毒性的方法,其特征在于,步驟(4)中,通過計(jì)算回歸系數(shù)和均方誤差來對模型進(jìn)行篩選。6.根據(jù)權(quán)利要求5所述的預(yù)測消毒副產(chǎn)物細(xì)胞毒性的方法,其特征在于,選取R2值最接近1和MSE最小的模型為最優(yōu)模型。7.根據(jù)權(quán)利要求6所述的預(yù)測消毒副產(chǎn)物細(xì)胞毒性的方法,其特征在于,MSE的計(jì)算公式為:3技術(shù)領(lǐng)域[0001]本發(fā)明屬于環(huán)境風(fēng)險(xiǎn)評價技術(shù)領(lǐng)域,具體涉及一種預(yù)測消毒副產(chǎn)物細(xì)胞毒性的方背景技術(shù)[0002]飲用水消毒是一項(xiàng)重要的公共衛(wèi)生措施,有助于滅活病原微生物,從而預(yù)防水傳播疾病。然而,消毒劑(如氯、氯胺、二氧化氯等)可能會無意中與源水中的天然有機(jī)物和鹵性、基因毒性、致突變性、致畸性或致癌性。這些對生物體不利影響的特性對環(huán)境風(fēng)險(xiǎn)評估及管控有重要指導(dǎo)意義。目前環(huán)境中的DBPs數(shù)量龐大且增速快,對全部DBPs開展實(shí)驗(yàn)耗費(fèi)人力、物力,因此了解未開展實(shí)驗(yàn)的DBPs細(xì)胞毒性、在開展實(shí)驗(yàn)前對DBPs毒性進(jìn)行預(yù)先初篩等都尤為重要。[0003]細(xì)胞毒性是測定外源化合物或環(huán)境中其他因子對細(xì)胞結(jié)構(gòu)和功能產(chǎn)生的毒性作用。一般細(xì)胞毒性實(shí)驗(yàn)都會進(jìn)行細(xì)胞體外培養(yǎng)。細(xì)胞體外培養(yǎng),是指細(xì)胞在體外適宜的條件下生長和增殖的培養(yǎng)技術(shù)。中國倉鼠卵巢細(xì)胞(Chinesehamsterovarycell,CHO)廣泛應(yīng)用于毒理學(xué)研究。半數(shù)最大效應(yīng)濃度(concentrationfor50%ofmaximaleffect,EC?0)是指能引起50%最大效應(yīng)的濃度。用CHO細(xì)胞的EC??作為衡量細(xì)胞毒性的指標(biāo)在研究中是非常常見的,對環(huán)境風(fēng)險(xiǎn)評估與管控有重要的參考意義,通過本專利的方法可以預(yù)測出DBPs[0004]公開號為CN114171137的中國專利文獻(xiàn)公開了一種基于機(jī)器學(xué)習(xí)預(yù)測化合物環(huán)境危害性的方法,以化合物的分子結(jié)構(gòu)為基礎(chǔ),根據(jù)化合物結(jié)構(gòu)與其PMT屬性(持久性和遷移性及毒性)或vPvM屬性(高持久性和高遷移性)之間的關(guān)系建立預(yù)測模型預(yù)測化合物的PMT屬性或vPvM屬性,包括以下步驟:(1)建立化合物環(huán)境危害性篩選標(biāo)準(zhǔn);(2)在化合物數(shù)據(jù)庫中抽取部分化合物作為樣本,將這些導(dǎo)出樣本的SMILES表達(dá)式作為樣本數(shù)據(jù);(3)基于機(jī)器學(xué)習(xí)算法構(gòu)建預(yù)測模型,優(yōu)化預(yù)測模型參數(shù);(4)最后利用優(yōu)化的預(yù)測模型中預(yù)測新分子是否具有環(huán)境危害性。公開號為CN110890137A的中國專利文獻(xiàn)公開了一種化合物毒性預(yù)測模型建模方法,包括:(1)對化合物的毒性建立分類標(biāo)簽;(2)提供各候選建模化合物的分子描述符(3)提供各候選建?;衔锏陌械鞍酌枋龇?4)提供各候選建?;衔锏亩扛咄亢Y選分析描述符;(5)構(gòu)建并訓(xùn)練化合物毒性預(yù)測模型并可以進(jìn)行預(yù)測。[0005]但截至目前為止在DBPs的CHO細(xì)胞毒性預(yù)測領(lǐng)域缺乏相應(yīng)的技術(shù)。發(fā)明內(nèi)容[0007]本發(fā)明的目的在于提供一種針對DBPs的CHO細(xì)胞毒性預(yù)測領(lǐng)域的預(yù)測消毒副產(chǎn)物細(xì)胞毒性的方法。[0008]2.技術(shù)方案4[0009]為了解決上述問題,本發(fā)明所采用的技術(shù)方案如下:[0010]一種預(yù)測消毒副產(chǎn)物細(xì)胞毒性的方法,至少包括以[0014](4)基于機(jī)器學(xué)習(xí)算法構(gòu)建毒性預(yù)測模型:保留同時具有全部描述符和細(xì)胞毒性值的樣本構(gòu)建數(shù)據(jù)集,計(jì)算模型評價相關(guān)參數(shù),對模型進(jìn)行篩選;[0015](5)輸入待測DBPs的SMILES表達(dá)式后自動計(jì)算待測DBPs的分子指紋,再輸入至預(yù)[0017]進(jìn)一步地,所述的消毒副產(chǎn)物數(shù)據(jù)的來源于途徑如下:[0018]已發(fā)表的文獻(xiàn),示意性的所述文獻(xiàn)可以是如JOURNALOFENVIRONMENTSCIENCES[0019]廣泛認(rèn)可的公共數(shù)據(jù)庫,示意性的所述公共數(shù)據(jù)庫可以是如ToxCast、PubChem等;[0020]標(biāo)準(zhǔn)化、科學(xué)化的生物實(shí)驗(yàn),示意性的所述生物實(shí)驗(yàn)可以是如南京大學(xué)污染控制與資源化研究國家重點(diǎn)實(shí)驗(yàn)室的實(shí)驗(yàn)數(shù)據(jù)。[0021]進(jìn)一步地,步驟(2)中,獲取DBPs的SMILES表達(dá)式的過程中,針對無法轉(zhuǎn)換成[0022]進(jìn)一步地,步驟(3)中,所述的分子指紋需要為MACCS的166位分子指紋;和/或,ECFP_4的1024位擴(kuò)展連通性指紋;和/或,F(xiàn)CFP_4的1024位官能團(tuán)類型指紋。[0023]進(jìn)一步地,步驟(3)中,所述的預(yù)處理方式包括標(biāo)準(zhǔn)化和歸一化;[0024]所述標(biāo)準(zhǔn)化是依照特征矩陣的列處理數(shù)據(jù),將樣本的特征值轉(zhuǎn)換到同一量綱下;[0025]所述歸一化是依照特征矩陣的行處理數(shù)據(jù),將數(shù)據(jù)映射到指定的范圍。[0026]進(jìn)一步地,步驟(4)中,所述的機(jī)器學(xué)習(xí)算法選自隨機(jī)森林算法、支持向量機(jī)算法、樸素貝葉斯算法、人工神經(jīng)網(wǎng)絡(luò)算法。[0027]進(jìn)一步地,步驟(4)中,將所述樣本構(gòu)建的數(shù)據(jù)集劃分為訓(xùn)練集和測試集;[0028]利用訓(xùn)練集訓(xùn)練所述的預(yù)測模型;[0029]利用測試集評價所述預(yù)測模型的優(yōu)度,優(yōu)化所述預(yù)測模型的參數(shù)。[0030]進(jìn)一步地,訓(xùn)練集和測試集按照(8~7):(2~3)的比例進(jìn)行劃分。示意性的如按照8:2或者7:3的比例進(jìn)行劃分。[0031]進(jìn)一步地,步驟(4)中,通過計(jì)算回歸系數(shù)和均方誤差來對模型進(jìn)行篩選。[0032]進(jìn)一步地,選取R2最接近1和MSE最小的模型為最優(yōu)模型。[0033]進(jìn)一步地,MSE的計(jì)算公式為:[0034]其中,n為樣本數(shù),Y,為樣本的真實(shí)值,Y;為樣本的預(yù)測值。[0035]3.有益效果[0036]相比于現(xiàn)有技術(shù),本發(fā)明提供的預(yù)測消毒副產(chǎn)物細(xì)胞毒性的方法:[0037]1)填補(bǔ)了當(dāng)前技術(shù)在DBPs的CHO細(xì)胞毒性預(yù)測領(lǐng)域內(nèi)的空白。5[0038]2)基于機(jī)器學(xué)習(xí)的方法進(jìn)行回歸,可以進(jìn)行定量預(yù)測,即預(yù)測出具體毒性數(shù)值,準(zhǔn)確度較傳統(tǒng)回歸方法高。[0039]有別于傳統(tǒng)已知的基于機(jī)器學(xué)習(xí)的方法進(jìn)行分類,只能進(jìn)行定性預(yù)測,如化合物有毒性或無毒性。[0040]3)可省去大量繁復(fù)生物實(shí)驗(yàn),只需輸入待測物質(zhì)的SMILES表達(dá)式,就可以直接輸消毒副產(chǎn)物的毒性篩選范圍,為科學(xué)研究工作和飲用水的風(fēng)險(xiǎn)評價和管控提供指導(dǎo)。附圖說明[0041]圖1是本發(fā)明基于機(jī)器學(xué)習(xí)預(yù)測消毒副產(chǎn)物細(xì)胞毒性的方法的流程圖;[0042]圖2是隨機(jī)森林預(yù)測值與真實(shí)值對比圖;[0043]圖3是人工神經(jīng)網(wǎng)絡(luò)預(yù)測值與真實(shí)值對比圖。具體實(shí)施方式[0044]本發(fā)明提供的基于機(jī)器學(xué)習(xí)預(yù)測消毒副產(chǎn)物細(xì)胞毒性的方法,是以DBPs的分子結(jié)構(gòu)為基礎(chǔ),根據(jù)DBPs的分子結(jié)構(gòu)與其細(xì)胞毒性之間的關(guān)系建立預(yù)測模型,以待測分子的SMILES表達(dá)式作為輸入,計(jì)算出待測分子的分子指紋,[0045]在前述[2.技術(shù)方案]的基礎(chǔ)上,更加具體的步驟包括:[0046](1)從已發(fā)表的學(xué)術(shù)期刊中,和/或廣泛認(rèn)可的公共數(shù)據(jù)庫中,和/或標(biāo)準(zhǔn)化、科學(xué)化的生物實(shí)驗(yàn)中收集DBPs的細(xì)胞毒性值,建立數(shù)據(jù)庫;[0047](2)提供步驟(1)中所有DBPs樣本的SMILES(簡化分子線性輸入規(guī)范);[0048](3)計(jì)算步驟(1)中所有DBPs樣本的分子指紋,并對樣本數(shù)據(jù)進(jìn)行預(yù)處理;[0049](4)基于機(jī)器學(xué)習(xí)算法構(gòu)建毒性預(yù)測模型:保留同時具有全部描述符和細(xì)胞毒性值的樣本構(gòu)建數(shù)據(jù)集,計(jì)算模型評價相關(guān)參數(shù),對模型進(jìn)行篩選;[0050](5)輸入待測DBPs的SMILES表達(dá)式后自動計(jì)算待測DBPs的分子指紋,再輸入至參數(shù)優(yōu)化好的預(yù)測模型中,預(yù)測待測DBPs的細(xì)胞毒性數(shù)值;[0051]如在此所述的,方法中的“細(xì)胞毒性”是指中國倉鼠卵巢細(xì)胞的半數(shù)最大效應(yīng)濃度即,細(xì)胞毒性指CHO細(xì)胞的EC?0值,其中CHO細(xì)胞廣泛應(yīng)用于毒理學(xué)研究,EC??是指能引起50%最大效應(yīng)的濃度,其數(shù)值均來自已經(jīng)發(fā)表的期刊文獻(xiàn),通過標(biāo)準(zhǔn)化的生物實(shí)驗(yàn)和科學(xué)嚴(yán)謹(jǐn)?shù)慕y(tǒng)計(jì)學(xué)計(jì)算測得。MACCS)或者摩根分子指紋。MACCS是一種典型的分子指紋,其166位中的每一位都編碼特定的結(jié)構(gòu)特征,例如:分子中的甲基數(shù)是否大于1;分子是否芳香等。該指紋由MDL公司(MolecularDesignLTD)開發(fā)的化學(xué)結(jié)構(gòu)數(shù)據(jù)庫衍生,MDL公司以化學(xué)信息學(xué)聞名,其開發(fā)的分子指紋應(yīng)用廣泛,在相關(guān)領(lǐng)域認(rèn)同度較高。ECFP(擴(kuò)展連通性指紋ExtendedConnectivityFingerprints,ECFP)/FCFP(功能類指紋Functional-ClassFingerprints,FCFPs)都屬于摩根分子指紋(MorganFingerprints),摩根分子指紋是一種圓形指紋,也屬于拓?fù)湫椭讣y,是通過對標(biāo)準(zhǔn)的摩根算法進(jìn)行改造后得到。因?yàn)槠涠x需要設(shè)定半徑n(即迭代次數(shù)),然后計(jì)算每個原子環(huán)境識別符n=2時為ECFP_4,本方法中取1024位的長度。三6種指紋都可利用RDkit工具包提取得到習(xí)算法預(yù)測DBPs細(xì)胞毒性的方法。所述方法流程域的技術(shù)人員根據(jù)本發(fā)明的內(nèi)容做出一些非本質(zhì)的改進(jìn)和調(diào)整,均屬于本發(fā)明的保護(hù)范技術(shù)人員通常理解的含義相同;本文所使用的術(shù)語和/或包括一個或多個相關(guān)的所列項(xiàng)目[0062]本發(fā)明中實(shí)施例中基于機(jī)器學(xué)習(xí)預(yù)測消毒副產(chǎn)物細(xì)胞毒性的方法的流程圖如圖1[0066]利用ChemDraw等化學(xué)專業(yè)軟件將步驟(1)中找到的所有DBPs樣本名稱轉(zhuǎn)換為[0068]利用RDKit工具包提取樣本的特異性結(jié)構(gòu)特征,以樣本的SMILES作為輸入,以7ECFP_4分子指紋作為輸出,每一列數(shù)據(jù)對應(yīng)一個分子指紋,最終獲取1024列分子指紋,加上預(yù)測值EC??為一列,即變?yōu)?0行1025列的特征矩陣,利用sklearn.preprocessing工具包里的StandardScaler函數(shù)將樣本數(shù)據(jù)集標(biāo)準(zhǔn)化、[0069](4)基于機(jī)器學(xué)習(xí)算法構(gòu)建毒性預(yù)測模型:保留同時具有全部描述符和細(xì)胞毒性[0070]將步驟(3)得到的數(shù)據(jù)用隨機(jī)森林法進(jìn)行回歸建模,設(shè)置參數(shù)(n_estimators=85,random_state=0),再用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行回歸建模,設(shè)置參數(shù)(solver='lbfgs',alpha=0.5e?,hidden_layer_sizes=(80,80,80,80,50),random_state=1)。得到兩個預(yù)測模型,再分別計(jì)算兩個模型的回歸系數(shù)R2和均方誤差MSE,并進(jìn)行比較,選取R2最接近1和[0071](5)輸入待測DBPs

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論