版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
(19)國(guó)家知識(shí)產(chǎn)權(quán)局(12)發(fā)明專(zhuān)利(10)授權(quán)公告號(hào)CN114912787B(65)同一申請(qǐng)的已公布的文獻(xiàn)號(hào)林大道163號(hào)馬宗偉黃玉潔謝文君審查員張春祥(74)專(zhuān)利代理機(jī)構(gòu)蘇州新知行知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙)32414專(zhuān)利代理師鄭麗玲(54)發(fā)明名稱(chēng)一種企業(yè)危險(xiǎn)廢物瞞報(bào)漏報(bào)風(fēng)險(xiǎn)的智能評(píng)估方法本發(fā)明提供一種企業(yè)危險(xiǎn)廢物瞞報(bào)漏報(bào)風(fēng)險(xiǎn)的智能評(píng)估方法,獲取企業(yè)相關(guān)數(shù)據(jù)表,完成數(shù)據(jù)表間的精確匹配,構(gòu)建不同行業(yè)的產(chǎn)廢多維數(shù)據(jù)庫(kù);消除多維數(shù)據(jù)庫(kù)中的臟數(shù)據(jù),確定時(shí)間分辨率進(jìn)行合并,得到初始樣本數(shù)據(jù)集;利用無(wú)監(jiān)督異常檢測(cè)集成框架對(duì)初始樣本數(shù)據(jù)集進(jìn)行測(cè)數(shù)據(jù)集,進(jìn)行隨機(jī)森林模型的訓(xùn)練和驗(yàn)證,對(duì)監(jiān)管時(shí)間段內(nèi)企業(yè)的理論產(chǎn)廢量和理論產(chǎn)廢范圍進(jìn)行預(yù)測(cè),計(jì)算企業(yè)危廢產(chǎn)量瞞報(bào)漏報(bào)概率和數(shù)量。本發(fā)明基于企業(yè)的基礎(chǔ)信息和在線(xiàn)監(jiān)測(cè)數(shù)據(jù),結(jié)合無(wú)監(jiān)督異常檢測(cè)和有監(jiān)督機(jī)器學(xué)習(xí)方獲取企業(yè)基本信息數(shù)據(jù)、生產(chǎn)數(shù)據(jù)、污染物在線(xiàn)監(jiān)測(cè)數(shù)據(jù)、危廢獲取企業(yè)基本信息數(shù)據(jù)、生產(chǎn)數(shù)據(jù)、污染物在線(xiàn)監(jiān)測(cè)數(shù)據(jù)、危廢產(chǎn)量申報(bào)數(shù)據(jù)、轉(zhuǎn)移聯(lián)單數(shù)據(jù)、企業(yè)信用評(píng)價(jià)數(shù)據(jù)和移動(dòng)執(zhí)法數(shù)據(jù),完成數(shù)據(jù)表間的精確匹配和分類(lèi),構(gòu)建各行業(yè)產(chǎn)廢多維數(shù)據(jù)庫(kù)對(duì)多維數(shù)據(jù)庫(kù)進(jìn)行清洗,并根據(jù)實(shí)際應(yīng)用需求確定利用無(wú)監(jiān)督異常檢測(cè)集成框架對(duì)初始樣本數(shù)據(jù)集進(jìn)利用預(yù)測(cè)數(shù)據(jù)集進(jìn)行隨機(jī)森林模型的訓(xùn)練和驗(yàn)證,根據(jù)性能指標(biāo)比選出最佳超參數(shù)組合,對(duì)監(jiān)管時(shí)間段內(nèi)企業(yè)理論產(chǎn)廢量和區(qū)間進(jìn)行預(yù)測(cè)將理論產(chǎn)廢量和區(qū)間和企業(yè)實(shí)際申報(bào)量進(jìn)行比較,計(jì)算企業(yè)危廢產(chǎn)量瞞報(bào)漏報(bào)概率和數(shù)量21.一種企業(yè)危險(xiǎn)廢物瞞報(bào)漏報(bào)風(fēng)險(xiǎn)的智能評(píng)估方法,其特征在于:包括以下步驟:步驟1:獲取企業(yè)基本信息表、企業(yè)生產(chǎn)數(shù)據(jù)表、污染物在線(xiàn)監(jiān)測(cè)數(shù)據(jù)表、危廢產(chǎn)量申報(bào)數(shù)據(jù)表、轉(zhuǎn)移聯(lián)單數(shù)據(jù)表、企業(yè)信用評(píng)價(jià)數(shù)據(jù)表和移動(dòng)執(zhí)法數(shù)據(jù)表,完成數(shù)據(jù)表間的精確匹配,并根據(jù)行業(yè)代碼進(jìn)行分類(lèi),構(gòu)建不同行業(yè)的產(chǎn)廢多維數(shù)據(jù)庫(kù);步驟2:針對(duì)步驟1中的產(chǎn)廢多維數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行人工清洗,消除多維數(shù)據(jù)庫(kù)中的臟數(shù)據(jù),并根據(jù)實(shí)際應(yīng)用需求確定時(shí)間分辨率,對(duì)人工清洗后的數(shù)據(jù)進(jìn)行合并,得到初始樣本數(shù)據(jù)集;步驟3:構(gòu)建無(wú)監(jiān)督異常檢測(cè)集成框架,利用無(wú)監(jiān)督異常檢測(cè)集成框架對(duì)步驟2中的初始樣本數(shù)據(jù)集進(jìn)行異常數(shù)據(jù)的識(shí)別,然后,將初始樣本數(shù)據(jù)集中異常數(shù)據(jù)剔除,獲得預(yù)測(cè)數(shù)步驟4:利用步驟3中的預(yù)測(cè)數(shù)據(jù)集,以危廢總產(chǎn)量或單類(lèi)危廢產(chǎn)量作為因變量,進(jìn)行隨機(jī)森林模型的訓(xùn)練和驗(yàn)證,根據(jù)均方根誤差RMSE的平均數(shù)和回歸決定系數(shù)R2的平均數(shù)比選出最佳超參數(shù)組合,對(duì)監(jiān)管時(shí)間段內(nèi)企業(yè)的理論產(chǎn)廢量和理論產(chǎn)廢范圍進(jìn)行預(yù)測(cè);步驟5:將步驟4獲得的理論產(chǎn)廢量與企業(yè)實(shí)際申報(bào)量進(jìn)行比較,計(jì)算企業(yè)危廢產(chǎn)量瞞報(bào)漏報(bào)概率和數(shù)量。2.如權(quán)利要求1所述的企業(yè)危險(xiǎn)廢物瞞報(bào)漏報(bào)風(fēng)險(xiǎn)的智能評(píng)估方法,其特征在于:步驟1具體包括以下步驟:步驟1-1:從企業(yè)級(jí)別的信息化系統(tǒng)中獲得企業(yè)相關(guān)數(shù)據(jù)表,所述企業(yè)相關(guān)數(shù)據(jù)表包企業(yè)員工數(shù);企業(yè)生產(chǎn)數(shù)據(jù)表:包括原輔料名稱(chēng)、原輔料用量、主要產(chǎn)品名稱(chēng)、主要產(chǎn)品產(chǎn)量、用電位名稱(chēng);移動(dòng)執(zhí)法數(shù)據(jù)表:包括企業(yè)名稱(chēng)、污染源代碼、檢查時(shí)間、是否涉及環(huán)境違法和違法類(lèi)步驟1-2:根據(jù)企業(yè)名稱(chēng)、污染源代碼和組織機(jī)構(gòu)代碼精確匹配步驟1-1中各數(shù)據(jù)表,構(gòu)建初始產(chǎn)廢多維數(shù)據(jù)庫(kù);步驟1-3:根據(jù)國(guó)民經(jīng)濟(jì)行業(yè)分類(lèi)與代碼中小類(lèi)代碼劃分步驟1-2中獲得的初始產(chǎn)廢多維數(shù)據(jù)庫(kù),使用歷史時(shí)間段數(shù)據(jù)構(gòu)建不同行業(yè)的產(chǎn)廢多維數(shù)據(jù)庫(kù);步驟1-4:根據(jù)相關(guān)企業(yè)規(guī)模劃分標(biāo)準(zhǔn),將企業(yè)按企業(yè)員工數(shù)和總產(chǎn)值劃分為大、中、小、微四個(gè)企業(yè)規(guī)模層級(jí),并根據(jù)企業(yè)規(guī)模層級(jí)進(jìn)一步對(duì)不同行業(yè)的產(chǎn)廢多維數(shù)據(jù)庫(kù)進(jìn)行劃分,或?qū)⑵髽I(yè)規(guī)模作為后續(xù)預(yù)測(cè)模型輸入變量之一。3.如權(quán)利要求1所述的企業(yè)危險(xiǎn)廢物瞞報(bào)漏報(bào)風(fēng)險(xiǎn)的智能評(píng)估方法,其特征在于:步驟3步驟2-1:采用人工篩選的方式,對(duì)步驟1獲得的產(chǎn)廢多維數(shù)據(jù)庫(kù)中不符合用戶(hù)定義完步驟2-2:針對(duì)產(chǎn)廢多維數(shù)據(jù)庫(kù)中的產(chǎn)廢企業(yè)進(jìn)行合規(guī)性檢驗(yàn),對(duì)合規(guī)性較低的企業(yè)觀(guān)步驟2-3:根據(jù)實(shí)際應(yīng)用需求確定時(shí)間分辨率,將經(jīng)過(guò)步驟2-1和步驟2-2人工清洗后的步驟2-2-1:通過(guò)企業(yè)基本信息、企業(yè)信用評(píng)價(jià)數(shù)據(jù)和移動(dòng)執(zhí)法數(shù)據(jù)的匹配,獲得企業(yè)步驟2-2-2:根據(jù)合規(guī)性信息表統(tǒng)計(jì)產(chǎn)廢企業(yè)每年檢查次數(shù)和其中的違法次數(shù),計(jì)算違步驟2-2-3,根據(jù)合規(guī)性信息表計(jì)算產(chǎn)廢企業(yè)年平均信用評(píng)分結(jié)果,確定企業(yè)環(huán)保信用步驟2-2-4,將違法率或環(huán)保信用等級(jí)不符合要求的企業(yè)視為低合規(guī)性企業(yè),并刪除該3中還包括對(duì)無(wú)監(jiān)督異常檢測(cè)集成框架中異常檢測(cè)算法的重要參數(shù)和異常比例進(jìn)行優(yōu)化調(diào)步驟3-3:利用降維算法對(duì)多維異常數(shù)據(jù)進(jìn)行降維,并步驟3-2-1:利用若干異常檢測(cè)算法分別對(duì)步驟3-1所述標(biāo)準(zhǔn)化檢測(cè)數(shù)據(jù)集分別進(jìn)行異4步驟3-2-2:將步驟3-2-1所述的若干單維異常分?jǐn)?shù)矩陣合并成一個(gè)多維異常分?jǐn)?shù)矩步驟3-2-3:將步驟3-2-2所述的標(biāo)準(zhǔn)化多維異常分?jǐn)?shù)矩陣采用組合函數(shù)合并,按異常步驟4-2:隨機(jī)森林模型的訓(xùn)練與驗(yàn)證整體采用k折交叉驗(yàn)證的方法,根據(jù)所預(yù)測(cè)的因步驟4-3:確定隨機(jī)森林模型的超參數(shù),并設(shè)置每種超參數(shù)的取值范圍和步長(zhǎng),生成備其中,分子部分表示真實(shí)值與預(yù)測(cè)值的平方差之和;分母步驟4-5:根據(jù)目標(biāo)企業(yè)所屬行業(yè)選取最優(yōu)超參數(shù)組合對(duì)應(yīng)的隨機(jī)森林模型作為最優(yōu)模型,針對(duì)監(jiān)管時(shí)間段,整理企業(yè)的自變量參數(shù)輸入最優(yōu)模型,對(duì)企業(yè)的理論產(chǎn)廢量進(jìn)行預(yù)步驟4-6:自變量參數(shù)輸入最優(yōu)模型后,根據(jù)隨機(jī)森林模型預(yù)測(cè)監(jiān)管時(shí)間段內(nèi)企業(yè)理論步驟4-6-1:對(duì)于隨機(jī)森林模型構(gòu)建中未被抽樣的包外數(shù)據(jù)集,使用步驟4-5中的最優(yōu)5步驟4-6-4:對(duì)于新輸入的監(jiān)管時(shí)間段數(shù)據(jù)集xnew,根據(jù)步驟4-5中最優(yōu)模型構(gòu)建過(guò)程中的包外數(shù)據(jù)集將與xn處于同一決策樹(shù)最終節(jié)點(diǎn)的數(shù)據(jù)樣本構(gòu)成新的集合BOP(xne),利用步驟4-6-5:對(duì)于步驟4-6-4中獲得的殘差分布,設(shè)置置信度為α,殘差分布中至少覆蓋α%樣本的上限和下限即為殘差覆蓋范圍;步驟4-6-6:在殘差覆蓋范圍上下限基礎(chǔ)上同時(shí)加上步驟4-5中預(yù)測(cè)的理論產(chǎn)廢量,獲得置信區(qū)間,即為企業(yè)理論產(chǎn)廢范圍。10.如權(quán)利要求1所述的企業(yè)危險(xiǎn)廢物瞞報(bào)漏報(bào)風(fēng)險(xiǎn)的智能評(píng)估方法,其特征在于:步驟5具體包括以下步驟:步驟5-1:獲取并計(jì)算目標(biāo)企業(yè)監(jiān)管時(shí)間段內(nèi)危廢產(chǎn)量申報(bào)數(shù)據(jù),作為實(shí)際申報(bào)量,將步驟4得到的企業(yè)理論產(chǎn)廢量作為理論預(yù)測(cè)量,計(jì)算瞞報(bào)數(shù)量:其中,9為理論預(yù)測(cè)量,y為實(shí)際申報(bào)量;步驟5-2:在理論產(chǎn)生廢量符合正態(tài)分布的前提假設(shè)下,根據(jù)步驟4預(yù)測(cè)的理論產(chǎn)廢范圍獲得理論產(chǎn)廢量的累積分布函數(shù)曲線(xiàn),獲得取值為目標(biāo)企業(yè)實(shí)際申報(bào)量時(shí)對(duì)應(yīng)的概率瞞報(bào)概率=Fx(a)=P(X>a)其中,F(xiàn)x(a)為理論產(chǎn)廢量的互補(bǔ)累積分布函數(shù)曲線(xiàn),P(X>a)為理論產(chǎn)廢量大于a時(shí)的概率,當(dāng)a取值恰好為實(shí)際申報(bào)值時(shí),F(xiàn)x(a)可代表理論產(chǎn)廢量超過(guò)實(shí)際申報(bào)量的概率,即瞞報(bào)概率;步驟5-3:根據(jù)數(shù)據(jù)實(shí)際情況,擬取閾值,將瞞報(bào)數(shù)量和概率大于閾值的企業(yè)納入高瞞報(bào)漏報(bào)風(fēng)險(xiǎn)企業(yè)名單,作為環(huán)保執(zhí)法的重點(diǎn)對(duì)象。6一種企業(yè)危險(xiǎn)廢物瞞報(bào)漏報(bào)風(fēng)險(xiǎn)的智能評(píng)估方法技術(shù)領(lǐng)域[0001]本發(fā)明涉及危險(xiǎn)廢物產(chǎn)量評(píng)估技術(shù)領(lǐng)域,特別是涉及一種企業(yè)危險(xiǎn)廢物瞞報(bào)漏報(bào)風(fēng)險(xiǎn)的智能評(píng)估方法。背景技術(shù)[0002]危險(xiǎn)廢物是指列入國(guó)家危險(xiǎn)廢物名錄或者根據(jù)國(guó)家規(guī)定的危險(xiǎn)廢物鑒別標(biāo)準(zhǔn)和鑒別方法認(rèn)定的具有危險(xiǎn)特性(包括腐蝕性、毒性、易燃性、反應(yīng)性和感染性)的固體廢物。近年來(lái)隨著城市化和工業(yè)化進(jìn)程的加快,我國(guó)危險(xiǎn)廢物的產(chǎn)生量保持高位增長(zhǎng)。且危險(xiǎn)廢生態(tài)環(huán)境和人體健康帶來(lái)巨大威脅。[0003]國(guó)家高度重視生態(tài)文明建設(shè)和環(huán)境保護(hù)工作,固體廢物尤其是危險(xiǎn)廢物的管理工作是加強(qiáng)生態(tài)文明建設(shè)和改善環(huán)境質(zhì)量的關(guān)鍵。危險(xiǎn)廢物的管理工作目前面臨的挑戰(zhàn)之一是危險(xiǎn)廢物底數(shù)不清。為了獲取企業(yè)危險(xiǎn)廢物的產(chǎn)生和流動(dòng)信息,我國(guó)目前實(shí)施的是基于企業(yè)自主申報(bào)登記危廢信息的管理制度。然而部分企業(yè)在經(jīng)濟(jì)利益和僥幸心理的驅(qū)動(dòng)下,極易發(fā)生瞞報(bào)漏報(bào)的行為。瞞報(bào)漏報(bào)的現(xiàn)象如果不能被及時(shí)有效地管控,可能會(huì)導(dǎo)致大量危險(xiǎn)廢物游離于監(jiān)管范圍之外,被非法地處置或傾倒,造成嚴(yán)重的環(huán)境風(fēng)險(xiǎn)。[0004]為了確定企業(yè)是否存在瞞報(bào)漏報(bào)行為,需要準(zhǔn)確掌握企業(yè)理論產(chǎn)廢量,將理論產(chǎn)廢量與企業(yè)申報(bào)值進(jìn)行對(duì)比后,判斷企業(yè)是否瞞報(bào)漏報(bào)?,F(xiàn)有的預(yù)測(cè)企業(yè)理論產(chǎn)廢量的方法主要包括:產(chǎn)排污系數(shù)法、物料衡算法和實(shí)測(cè)法。產(chǎn)排污系數(shù)法依據(jù)《排放源統(tǒng)計(jì)調(diào)查產(chǎn)排污核算方法和系數(shù)手冊(cè)》等各類(lèi)手冊(cè)獲得污染物產(chǎn)排系數(shù),結(jié)合企業(yè)產(chǎn)品產(chǎn)量信息,計(jì)算出特定污染物的排放總量;物料衡算法和實(shí)測(cè)法通過(guò)實(shí)地研究和對(duì)特定企業(yè)生產(chǎn)條件的考慮,直接從生產(chǎn)設(shè)施收集信息?,F(xiàn)有的技術(shù)方法都存在著一定局限性:①產(chǎn)廢系數(shù)從地區(qū)或行業(yè)的平均水平考慮,對(duì)具體企業(yè)的實(shí)用性及適應(yīng)性存在局限;②物料衡算法和實(shí)測(cè)法需精準(zhǔn)掌握企業(yè)的生產(chǎn)工藝和流程,技術(shù)難度大,也很難在國(guó)家和地區(qū)層面上實(shí)施;③上述方法在工藝復(fù)雜、干擾因素多時(shí)都會(huì)引入較大偏差。[0005]因此,有必要運(yùn)用更加科學(xué)恰當(dāng)?shù)姆椒ㄔu(píng)估企業(yè)級(jí)別的危險(xiǎn)廢物排放,掌握企業(yè)危險(xiǎn)廢物的理論產(chǎn)生量,結(jié)合自主申報(bào)數(shù)據(jù)進(jìn)行核查,從而實(shí)現(xiàn)對(duì)企業(yè)瞞報(bào)漏報(bào)行為的智能識(shí)別,有效提升危險(xiǎn)廢物管理水平。發(fā)明內(nèi)容[0006]本發(fā)明所要解決的技術(shù)問(wèn)題是:為了克服現(xiàn)有技術(shù)中的不足,本發(fā)明提供一種企業(yè)危險(xiǎn)廢物瞞報(bào)漏報(bào)風(fēng)險(xiǎn)的智能評(píng)估方法,提高環(huán)境監(jiān)管的準(zhǔn)度和效率。[0007]本發(fā)明解決其技術(shù)問(wèn)題所要采用的技術(shù)方案是:一種企業(yè)危險(xiǎn)廢物瞞報(bào)漏報(bào)風(fēng)險(xiǎn)[0008]步驟1:獲取企業(yè)基本信息表、企業(yè)生產(chǎn)數(shù)據(jù)表、污染物在線(xiàn)監(jiān)測(cè)數(shù)據(jù)表、危廢產(chǎn)量申報(bào)數(shù)據(jù)表、轉(zhuǎn)移聯(lián)單數(shù)據(jù)表、企業(yè)信用評(píng)價(jià)數(shù)據(jù)表和移動(dòng)執(zhí)法數(shù)據(jù)表,完成數(shù)據(jù)表間的精7確匹配,并根據(jù)行業(yè)代碼進(jìn)行分類(lèi),構(gòu)建不同行業(yè)的產(chǎn)廢多維數(shù)據(jù)庫(kù)。[0009]步驟2:針對(duì)步驟1中的產(chǎn)廢多維數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行人工清洗,消除多維數(shù)據(jù)庫(kù)中的臟數(shù)據(jù),具體的;并根據(jù)實(shí)際應(yīng)用需求確定時(shí)間分辨率,對(duì)人工清洗后的數(shù)據(jù)進(jìn)行合規(guī)、異常數(shù)據(jù)統(tǒng)稱(chēng)為臟數(shù)據(jù);時(shí)間分辨率是指數(shù)據(jù)整理時(shí)候用的時(shí)間,也就是訓(xùn)練和預(yù)測(cè)的[0010]步驟3:利用無(wú)監(jiān)督異常檢測(cè)集成框架對(duì)步驟2中的初始樣本數(shù)據(jù)集進(jìn)行異常數(shù)據(jù)集成框架是一種已知的技術(shù),在目前異常檢測(cè)任務(wù)中應(yīng)用比較廣泛且有比較完善的python[0011]步驟4:利用步驟3中的預(yù)測(cè)數(shù)據(jù)集,以危廢總產(chǎn)量或單類(lèi)危廢產(chǎn)量作為因變量,進(jìn)行隨機(jī)森林模型的訓(xùn)練和驗(yàn)證,根據(jù)均方根誤差RMSE的平均數(shù)和回歸決定系數(shù)R2的平均數(shù)比選出最佳超參數(shù)組合,對(duì)監(jiān)管時(shí)間段內(nèi)企業(yè)的理論產(chǎn)廢量和理論產(chǎn)廢范圍進(jìn)行預(yù)測(cè),其中,監(jiān)管時(shí)間段是指需要對(duì)企業(yè)產(chǎn)廢量進(jìn)行預(yù)測(cè),并評(píng)估瞞報(bào)數(shù)量和概率的時(shí)間段。[0012]步驟5:將步驟4獲得的理論產(chǎn)廢量與企業(yè)實(shí)際申報(bào)量進(jìn)行比較,計(jì)算企業(yè)危廢產(chǎn)量瞞報(bào)漏報(bào)概率和數(shù)量。[0014]步驟1-1:從企業(yè)級(jí)別的信息化系統(tǒng)中獲得企業(yè)相關(guān)數(shù)據(jù)表,其中,企業(yè)級(jí)別的信息化系統(tǒng)為危險(xiǎn)廢物全生命周期監(jiān)控系統(tǒng)、污染物在線(xiàn)監(jiān)測(cè)系統(tǒng)等,獲得權(quán)限后可訪(fǎng)問(wèn),還可以采用其他滿(mǎn)足要求的信息化系統(tǒng)。[0015]所述企業(yè)相關(guān)數(shù)據(jù)表包括:業(yè)類(lèi)別代碼和企業(yè)員工數(shù);[0017]企業(yè)生產(chǎn)數(shù)據(jù)表:包括但不限于原輔料名稱(chēng)、原輔料用量、主要產(chǎn)品名稱(chēng)、主要產(chǎn)[0018]污染物在線(xiàn)監(jiān)測(cè)數(shù)據(jù)表:包括但不限于監(jiān)測(cè)時(shí)間、污染源代碼、污染因子(包括廢和產(chǎn)生單位名稱(chēng);時(shí)間和產(chǎn)生單位名稱(chēng)。[0021]企業(yè)信用評(píng)價(jià)數(shù)據(jù)表:包括但不限于企業(yè)名稱(chēng)、污染源代碼、評(píng)價(jià)時(shí)間、信用評(píng)分和信用評(píng)級(jí);[0022]移動(dòng)執(zhí)法數(shù)據(jù)表:包括但不限于企業(yè)名稱(chēng)、污染源代碼、檢查時(shí)間、是否涉及環(huán)境違法和違法類(lèi)型。[0023]步驟1-2,根據(jù)企業(yè)名稱(chēng)、污染源代碼和組織機(jī)構(gòu)代碼精確匹配步驟1-1中各數(shù)據(jù)表,構(gòu)建初始產(chǎn)廢多維數(shù)據(jù)庫(kù)。[0024]步驟1-3,根據(jù)國(guó)民經(jīng)濟(jì)行業(yè)分類(lèi)與代碼(GB/T4754-2017)中小類(lèi)代碼劃分步驟1-2中獲得的初始產(chǎn)廢多維數(shù)據(jù)庫(kù),使用歷史時(shí)間段數(shù)據(jù)構(gòu)建不同行業(yè)的產(chǎn)廢多維數(shù)據(jù)庫(kù),8其中,歷史時(shí)間段是指用于構(gòu)建模型時(shí)使用的數(shù)據(jù)集對(duì)應(yīng)的時(shí)間段。[0025]步驟1-4,可選的,根據(jù)相關(guān)企業(yè)規(guī)模劃分標(biāo)準(zhǔn)(如:國(guó)家統(tǒng)計(jì)局印發(fā)的《統(tǒng)計(jì)上大中小微型企業(yè)劃分辦法(2017)》),將企業(yè)按企業(yè)員工數(shù)和總產(chǎn)值劃分為大、中、小、微四個(gè)企業(yè)規(guī)模層級(jí),并根據(jù)企業(yè)規(guī)模層級(jí)進(jìn)一步對(duì)不同行業(yè)的產(chǎn)廢多維數(shù)據(jù)庫(kù)進(jìn)行劃分,或?qū)⑵髽I(yè)規(guī)模作為后續(xù)預(yù)測(cè)模型輸入變量之一。[0027]步驟2-1:采用人工篩選的方式,對(duì)步驟1獲得的產(chǎn)廢多維數(shù)據(jù)庫(kù)中不符合用戶(hù)定義完整性的數(shù)據(jù)和重復(fù)數(shù)據(jù)進(jìn)行刪除,以及對(duì)有大量缺失值的不可用變量進(jìn)行刪除。[0028]步驟2-2:針對(duì)產(chǎn)廢多維數(shù)據(jù)庫(kù)中的產(chǎn)廢企業(yè)進(jìn)行合規(guī)性檢驗(yàn),對(duì)合規(guī)性較低的企業(yè)觀(guān)測(cè)進(jìn)行初步篩除;其中,合規(guī)性檢驗(yàn)是在企業(yè)環(huán)境信用越差,環(huán)境違法行為越多,申報(bào)數(shù)據(jù)越容易作假的假設(shè)下,對(duì)數(shù)據(jù)進(jìn)行粗篩查,以保證構(gòu)建預(yù)測(cè)模型的數(shù)據(jù)可靠性更高,也屬于人工清洗的一部分。[0029]步驟2-3:根據(jù)實(shí)際應(yīng)用需求確定時(shí)間分辨率,將經(jīng)過(guò)步驟2-1和步驟2-2人工清洗后的產(chǎn)廢多維數(shù)據(jù)庫(kù)中的數(shù)據(jù)按照指定的時(shí)間周期進(jìn)行合并,得到初始樣本數(shù)據(jù)集。其中,時(shí)間分辨率和時(shí)間周期是根據(jù)實(shí)際需求確定的,例如:如果想要預(yù)測(cè)企業(yè)周產(chǎn)廢量,則需要把清洗后的數(shù)據(jù)按周加和;如果想要預(yù)測(cè)企業(yè)月產(chǎn)廢量,則需要把清洗后的數(shù)據(jù)按月加和;如果想要預(yù)測(cè)季產(chǎn)廢量,則需要把清洗后的數(shù)據(jù)按季加和,以此類(lèi)推。[0030]具體的,步驟2-2中對(duì)企業(yè)的合規(guī)性檢驗(yàn)包括以下步驟:[0031]步驟2-2-1:通過(guò)企業(yè)基本信息、企業(yè)信用評(píng)價(jià)數(shù)據(jù)和移動(dòng)執(zhí)法數(shù)據(jù)的匹配,獲得企業(yè)合規(guī)性信息表。[0032]步驟2-2-2:根據(jù)合規(guī)性信息表統(tǒng)計(jì)產(chǎn)廢企業(yè)每年檢查次數(shù)和其中的違法次數(shù),計(jì)算違法率:[0034]步驟2-2-3,根據(jù)合規(guī)性信息表計(jì)算產(chǎn)廢企業(yè)年平均信用評(píng)分結(jié)果,確定企業(yè)環(huán)保信用等級(jí);在確定環(huán)保信用等級(jí)時(shí),根據(jù)相關(guān)的法律法規(guī)、部門(mén)規(guī)章等進(jìn)行確定,本實(shí)施例中對(duì)應(yīng)《江蘇省企事業(yè)環(huán)保信用評(píng)價(jià)辦法》,確定企業(yè)環(huán)保信用等級(jí)。[0035]步驟2-2-4,將違法率或環(huán)保信用等級(jí)不符合要求的企業(yè)視為低合規(guī)性企業(yè),并刪除該企業(yè)和對(duì)應(yīng)年份的數(shù)據(jù)。[0036]進(jìn)一步,為了提高異常數(shù)據(jù)的識(shí)別效果,步驟3中還包括對(duì)無(wú)監(jiān)督異常檢測(cè)集成框架中異常檢測(cè)算法的重要參數(shù)和異常比例進(jìn)行優(yōu)化調(diào)整的過(guò)程。[0038]步驟3-1:針對(duì)步驟2中的初始樣本數(shù)據(jù)集,選取各類(lèi)危廢產(chǎn)量、各類(lèi)廢水因子監(jiān)測(cè)值和各類(lèi)廢氣因子監(jiān)測(cè)值作為異常檢測(cè)特征,對(duì)異常檢測(cè)特征進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化操作,獲得標(biāo)準(zhǔn)化檢測(cè)數(shù)據(jù)集;[0039]標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化(Z-normalization)操作的公式為:9標(biāo)準(zhǔn)差。[0042]步驟3-2,構(gòu)建無(wú)監(jiān)督異常檢測(cè)集成框架,識(shí)別標(biāo)準(zhǔn)化檢測(cè)數(shù)據(jù)集中的異常數(shù)據(jù)。[0043]由于采用無(wú)監(jiān)督異常檢測(cè)集成框架確定的異常數(shù)據(jù)為多維異常數(shù)據(jù),無(wú)法在二維、三維空間繪圖,因此,需要對(duì)多維異常數(shù)據(jù)進(jìn)行降維后映射到二維坐標(biāo)圖上,才能形成可視化的異常數(shù)據(jù)分布圖像,對(duì)異常檢測(cè)算法的重要參數(shù)和異常比例進(jìn)行優(yōu)化調(diào)整,因此,[0044]步驟3-3,利用降維算法對(duì)多維異常數(shù)據(jù)進(jìn)行降維,并對(duì)降維后的異常數(shù)據(jù)分布特征進(jìn)行可視化,形成異常數(shù)據(jù)的分布圖像,結(jié)合分布圖像中異常數(shù)據(jù)分布特征調(diào)整異常檢測(cè)集成框架中異常檢測(cè)算法的重要參數(shù)和異常比例,作為優(yōu)選,選取圖像中離群值皆被標(biāo)記且異常數(shù)據(jù)和正常數(shù)據(jù)的標(biāo)記沒(méi)有較多重疊的分布圖像作為識(shí)別結(jié)果,將初始樣本數(shù)據(jù)集中異常值剔除后獲得預(yù)測(cè)數(shù)據(jù)集。其中,不同異常檢測(cè)算法的參數(shù)不盡相同,因此,在進(jìn)行參數(shù)調(diào)整時(shí),也存在差異,但是每種異常檢測(cè)算法都需要設(shè)定異常比例。作為優(yōu)選,映射到二維坐標(biāo)圖上的數(shù)據(jù),將正常點(diǎn)和異常點(diǎn)分別用藍(lán)色和紅色區(qū)分標(biāo)記,當(dāng)圖像中顯著離群觀(guān)測(cè)點(diǎn)都被標(biāo)記為紅色,且兩種數(shù)據(jù)分布沒(méi)有較多重疊時(shí),識(shí)別效果較好。[0045]可選的,使用的降維算法為以下算法中的一[0046]主成分分析(PrincipalComponentAnalysis)、t-SNE(t-Distributed[0048]步驟3-2-1:利用若干異常檢測(cè)算法分別對(duì)步驟3-1所述標(biāo)準(zhǔn)化檢測(cè)數(shù)據(jù)集分別進(jìn)行異常識(shí)別,獲得若干單維異常分?jǐn)?shù)矩陣。[0050]線(xiàn)性模型(LinearModel):最小協(xié)方差矩陣(MinimumCovarianceDeterminant)、單類(lèi)支持向量機(jī)(One-ClassSuppo[0051]基于接近度算法(Proximity-Based):k鄰近(kNearestNeighbors)、局部利群因[0052]基于概率算法(Probabilistic):絕對(duì)中位差(Angle-BasedOutlierDetection)[0053]集成檢測(cè)(OutlierEnsembles):孤立森林(IsolationForest)等;[0054]神經(jīng)網(wǎng)絡(luò)(NeuralNetworks):變分自編碼器(VariationalAutoEncoder)等。[0055]步驟3-2-2:將步驟3-2-1所述的若干單維異常分?jǐn)?shù)矩陣合并成一個(gè)多維異常分?jǐn)?shù)矩陣,進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化操作,獲得標(biāo)準(zhǔn)化多維異常分?jǐn)?shù)矩陣。[0056]步驟3-2-3:將步驟3-2-2所述的標(biāo)準(zhǔn)化多維異常分?jǐn)?shù)矩陣采用組合函數(shù)合并,按異常比例選取綜合異常得分最高的部分?jǐn)?shù)據(jù)定義為異常數(shù)據(jù)。[0057]可選的,使用的組合函數(shù)為以下算法中的一種:[0058]簡(jiǎn)單平均(Average)、加權(quán)平均(WeightedAverage)、最大化(Maximization)、簡(jiǎn)單平均和最大化結(jié)合(A0M:AverageofMaximum、MOA:MaximumofAverage)等。[0060]步驟4-1:確定預(yù)測(cè)的因變量,以危廢總產(chǎn)量或單類(lèi)危廢產(chǎn)量作為預(yù)測(cè)的因變量。[0061]步驟4-2:隨機(jī)森林模型的訓(xùn)練與驗(yàn)證整體采用k折交叉驗(yàn)證的方法,根據(jù)所預(yù)測(cè)法。比如超參數(shù)a可以取[1,2],超參數(shù)b可以取[3,4],a和b就會(huì)有1和3,2和3,1和4,2和4四[0074]步驟4-5:根據(jù)目標(biāo)企業(yè)所屬行業(yè)選取最優(yōu)超參數(shù)組合對(duì)應(yīng)的隨機(jī)森林模型作為廢量。[0077]步驟4-6-1:對(duì)于隨機(jī)森林模型構(gòu)建中未被抽樣的包外數(shù)據(jù)集,使用步驟4-5中的11重新構(gòu)建一個(gè)殘差預(yù)測(cè)隨機(jī)森林模型,預(yù)測(cè)包外數(shù)據(jù)集的殘差&,與YoOB加和獲得校正后的包外數(shù)據(jù)產(chǎn)廢量預(yù)測(cè)值YooB; [0079]步驟4-6-3:利用校正后的包外數(shù)據(jù)集產(chǎn)廢量預(yù)測(cè)值YooB*與真實(shí)值Yo?相減,獲得校正后包外數(shù)據(jù)的殘差800B;[0080]步驟4-6-4:對(duì)于新輸入的監(jiān)管時(shí)間段數(shù)據(jù)集xnw,根據(jù)步驟4-5中最優(yōu)模型構(gòu)建過(guò)程中的包外數(shù)據(jù)集將與x處于同一決策樹(shù)最終節(jié)點(diǎn)的數(shù)據(jù)樣本構(gòu)成新的集合BOP(x),利用殘差預(yù)測(cè)模型計(jì)算出BOP(xne)中各數(shù)據(jù)的校正后殘差800B,獲得數(shù)據(jù)集的殘差分布;[0081]步驟4-6-5:對(duì)于步驟4-6-4中獲得的殘差分布,設(shè)置置信度為α,殘差分布中至少覆蓋α%樣本的上限和下限即為殘差覆蓋范圍;[0082]步驟4-6-6:在殘差覆蓋范圍上下限基礎(chǔ)上同時(shí)加上步驟4-5中預(yù)測(cè)的理論產(chǎn)廢[0084]步驟5-1:獲取并計(jì)算目標(biāo)企業(yè)預(yù)測(cè)周期內(nèi)危廢產(chǎn)量申報(bào)數(shù)據(jù),作為實(shí)際申報(bào)量,將步驟4得到的企業(yè)理論產(chǎn)廢量作為理論預(yù)測(cè)量,計(jì)算瞞報(bào)數(shù)量:[0087]步驟5-2:在理論產(chǎn)生廢量符合正態(tài)分布的前提假設(shè)下,根據(jù)步驟4預(yù)測(cè)的理論產(chǎn)廢范圍獲得理論產(chǎn)廢量的累積分布函數(shù)曲線(xiàn),獲得取值為目標(biāo)企業(yè)實(shí)際申報(bào)量時(shí)對(duì)應(yīng)的概[0088]瞞報(bào)概率=Fx(a)=P(X>a)[0089]其中,F(xiàn)x(a)為理論產(chǎn)廢量的互補(bǔ)累積分布函數(shù)曲線(xiàn),P(X>a)為理論產(chǎn)廢量大于a時(shí)的概率,當(dāng)a取值恰好為實(shí)際申報(bào)值時(shí),F(xiàn)x(a)可代表理論產(chǎn)廢量超過(guò)實(shí)際申報(bào)量的概率,即瞞報(bào)概率,此概率越大說(shuō)明實(shí)際申報(bào)量偏少的可能性越高。[0090]步驟5-3:根據(jù)數(shù)據(jù)實(shí)際情況,擬取閾值,將瞞報(bào)數(shù)量和瞞報(bào)概率大于閾值的企業(yè)納入高瞞報(bào)漏報(bào)風(fēng)險(xiǎn)企業(yè)名單,作為環(huán)保執(zhí)法的重點(diǎn)對(duì)象。作為優(yōu)選,瞞報(bào)數(shù)量的閾值可以選取該行業(yè)企業(yè)產(chǎn)廢均值,瞞報(bào)概率的閾值可以選取50%,即將瞞報(bào)數(shù)量大于該行業(yè)企業(yè)產(chǎn)廢均值和概率大于50%的企業(yè)納入高瞞報(bào)漏報(bào)風(fēng)險(xiǎn)企業(yè)名單,作為環(huán)保執(zhí)法的重點(diǎn)對(duì)[0091]本發(fā)明的有益效果是:[0092](1)構(gòu)建融合多維度產(chǎn)廢數(shù)據(jù)的數(shù)據(jù)庫(kù),可為危廢產(chǎn)量的精準(zhǔn)預(yù)測(cè)提供全面可靠的數(shù)據(jù)基礎(chǔ),避免參數(shù)選擇不當(dāng)導(dǎo)致模型準(zhǔn)確度低,計(jì)算時(shí)間長(zhǎng),以及適用范圍小的不足。[0093](2)綜合采用人工數(shù)據(jù)清洗與無(wú)監(jiān)督異常檢測(cè)集成框架結(jié)合的方法,消除多維數(shù)據(jù)庫(kù)中的臟數(shù)據(jù),可解決目前自主申報(bào)數(shù)據(jù)真實(shí)性相對(duì)不足的問(wèn)題,確保模型輸入數(shù)據(jù)的[0094](3)基于多維產(chǎn)廢數(shù)據(jù)庫(kù),使用泛化能力良好的機(jī)器學(xué)習(xí)算法,可構(gòu)建出偏差小、行業(yè)內(nèi)普遍適用的模型,以解決現(xiàn)有危廢核算方法精確性和適用性不足的問(wèn)題,實(shí)現(xiàn)在企業(yè)級(jí)別進(jìn)行危險(xiǎn)廢物排放強(qiáng)度的核算。[0095](4)利用本發(fā)明所述方法全流程,可以實(shí)現(xiàn)涉廢企業(yè)危廢產(chǎn)量“瞞報(bào)漏報(bào)”的智能識(shí)別,解決環(huán)境執(zhí)法針對(duì)性不足,執(zhí)法相對(duì)滯后和監(jiān)管能力有限的問(wèn)題。附圖說(shuō)明[0096]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明。[0097]圖1是本發(fā)明智能評(píng)估方法的整體流程圖。[0098]圖2為集成異常數(shù)據(jù)檢測(cè)方法流程圖。[0099]圖3為基于隨機(jī)森林模型實(shí)現(xiàn)瞞報(bào)漏報(bào)智能識(shí)別方法流程圖。具體實(shí)施方式[0100]現(xiàn)在結(jié)合附圖對(duì)本發(fā)明作詳細(xì)的說(shuō)明。此圖為簡(jiǎn)化的示意圖,僅以示意方式說(shuō)明本發(fā)明的基本結(jié)構(gòu),因此其僅顯示與本發(fā)明有關(guān)的構(gòu)成。[0101]本發(fā)明提供了一種企業(yè)危險(xiǎn)廢物瞞報(bào)漏報(bào)風(fēng)險(xiǎn)的智能評(píng)估方法,本實(shí)施例闡述了將本發(fā)明所提供的方法應(yīng)用于江蘇省電子電路制造行業(yè)(行業(yè)代碼為C3982),識(shí)別企業(yè)危險(xiǎn)廢物瞞報(bào)漏報(bào)行為的情況。[0102]結(jié)合附圖1,本發(fā)明的一種企業(yè)危險(xiǎn)廢物瞞報(bào)漏報(bào)風(fēng)險(xiǎn)的智能評(píng)估方法,包括以下[0103]步驟1:獲取企業(yè)基本信息表、企業(yè)生產(chǎn)數(shù)據(jù)表、污染物在線(xiàn)監(jiān)測(cè)數(shù)據(jù)表、危廢產(chǎn)量申報(bào)數(shù)據(jù)表、轉(zhuǎn)移聯(lián)單數(shù)據(jù)表、企業(yè)信用評(píng)價(jià)數(shù)據(jù)表和移動(dòng)執(zhí)法數(shù)據(jù)表,完成數(shù)據(jù)表間的精確匹配,并根據(jù)行業(yè)代碼進(jìn)行分類(lèi),構(gòu)建不同行業(yè)的產(chǎn)廢多維數(shù)據(jù)庫(kù)。[0104]步驟2:針對(duì)步驟1中的產(chǎn)廢多維數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行人工清洗,消除多維數(shù)據(jù)庫(kù)中的臟數(shù)據(jù),具體的;并根據(jù)實(shí)際應(yīng)用需求確定時(shí)間分辨率,對(duì)人工清洗后的數(shù)據(jù)進(jìn)行合規(guī)、異常數(shù)據(jù)統(tǒng)稱(chēng)為臟數(shù)據(jù);時(shí)間分辨率是指訓(xùn)練和預(yù)測(cè)的對(duì)象是企業(yè)每天、每月、還是每年產(chǎn)生的危廢量;周期合并就是把日數(shù)據(jù)加起來(lái)變成月數(shù)據(jù),把月數(shù)據(jù)加起來(lái)變成年數(shù)據(jù)。[0105]步驟3:利用無(wú)監(jiān)督異常檢測(cè)集成框架對(duì)步驟2中的初始樣本數(shù)據(jù)集進(jìn)行異常數(shù)據(jù)集成框架是一種已知的技術(shù),在目前異常檢測(cè)任務(wù)中應(yīng)用比較廣泛且有比較完善的python[0106]步驟4:利用步驟3中的預(yù)測(cè)數(shù)據(jù)集,以危廢總產(chǎn)量或單類(lèi)危廢產(chǎn)量作為因變量,進(jìn)行隨機(jī)森林模型的訓(xùn)練和驗(yàn)證,根據(jù)均方根誤差RMSE的平均數(shù)和回歸決定系數(shù)R2的平均數(shù)比選出最佳超參數(shù)組合,對(duì)監(jiān)管時(shí)間段內(nèi)企業(yè)的理論產(chǎn)廢量和理論產(chǎn)廢范圍進(jìn)行預(yù)測(cè)。[0107]步驟5:將步驟4獲得的理論產(chǎn)廢量與企業(yè)實(shí)際申報(bào)量進(jìn)行比較,計(jì)算企業(yè)危廢產(chǎn)量瞞報(bào)漏報(bào)概率和數(shù)量。[0108]本實(shí)施例步驟1具體包括:[0109]步驟1-1:從危險(xiǎn)廢物全生命周期監(jiān)控系統(tǒng)、污染物在線(xiàn)監(jiān)測(cè)系統(tǒng)等企業(yè)級(jí)別的信產(chǎn)量申報(bào)數(shù)據(jù)、轉(zhuǎn)移聯(lián)單數(shù)據(jù)、企業(yè)信用評(píng)價(jià)數(shù)據(jù)和移動(dòng)執(zhí)法數(shù)據(jù)。[0110]步驟1-2:根據(jù)企業(yè)名稱(chēng)、污染源代碼和組織機(jī)構(gòu)代碼精確匹配各數(shù)據(jù)表,構(gòu)建產(chǎn)廢多維數(shù)據(jù)庫(kù)。[0111]步驟1-3:根據(jù)國(guó)民經(jīng)濟(jì)行業(yè)分類(lèi)與代碼(GB/T4754-2017)中小類(lèi)代碼劃分產(chǎn)廢多維數(shù)據(jù)庫(kù),篩選出所屬行業(yè)為C3982的企業(yè)數(shù)據(jù),共92家,使用2020年1月至2021年11月的歷史數(shù)據(jù),構(gòu)建所屬行業(yè)為C3982的企業(yè)產(chǎn)廢多維數(shù)據(jù)庫(kù)。[0112]本實(shí)施例步驟2具體包括:[0113]步驟2-1:對(duì)C3982的企業(yè)產(chǎn)廢多維數(shù)據(jù)庫(kù)中不符合用戶(hù)定義完整性的數(shù)據(jù)、重復(fù)數(shù)據(jù)進(jìn)行刪除,以及對(duì)有大量缺失值的不可用變量進(jìn)行刪除。[0114]步驟2-2:通過(guò)企業(yè)基本信息、企業(yè)信用評(píng)價(jià)數(shù)據(jù)和移動(dòng)執(zhí)法數(shù)據(jù)的匹配,獲得企業(yè)合規(guī)性信息表。統(tǒng)計(jì)產(chǎn)廢企業(yè)每年檢查次數(shù)和其中的違法次數(shù),計(jì)算違法率,并根據(jù)信用評(píng)分結(jié)果,對(duì)應(yīng)《江蘇省企事業(yè)環(huán)保信用評(píng)價(jià)辦法》,確定企業(yè)環(huán)保信10%或環(huán)保信用等級(jí)低于藍(lán)色等級(jí)的企業(yè)視為低合規(guī)性企業(yè),并刪除該企業(yè)對(duì)應(yīng)的數(shù)據(jù)。[0117]步驟2-3,時(shí)間分辨率指整理數(shù)據(jù)時(shí)用的分辨率,本實(shí)施例中為“月”,將經(jīng)過(guò)人工清洗后的數(shù)據(jù)集以月為分辨率進(jìn)行合并,即將屬于相同月份的數(shù)據(jù)進(jìn)行合并,具體方式為[0118]結(jié)合附圖2,本實(shí)施例步驟3具體包括:[0119]步驟3-1:選取初始樣本數(shù)據(jù)集的危廢總量、廢水流量、氨氮、COD共四個(gè)特征作為異常檢測(cè)特征,對(duì)異常檢測(cè)特征進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化操作,獲得標(biāo)準(zhǔn)化檢測(cè)數(shù)據(jù)集;[0120]標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化(Z-normalization):標(biāo)準(zhǔn)差。[0123]步驟3-2:選取六種常用異常檢測(cè)模型,分別為孤立森林(iForest)、最小協(xié)方差矩陣(MCD)、局部離群因子法(LOF)、k最鄰近法(KNN)、基于聚類(lèi)的局部離群因子法(CBLOF)和基于直方圖異常點(diǎn)檢測(cè)法(HBOS),構(gòu)建無(wú)監(jiān)督異常檢測(cè)集成框架,對(duì)標(biāo)準(zhǔn)化檢測(cè)數(shù)據(jù)集進(jìn)行異常值識(shí)別檢測(cè),獲得六個(gè)單維異常分?jǐn)?shù)矩陣。對(duì)模型識(shí)別的六維異常分?jǐn)?shù)矩陣再次進(jìn)行標(biāo)準(zhǔn)化處理,采用AOM(AverageofMaximum)的組合函數(shù)合并,按異常比例選取綜合異常得分最高的部分?jǐn)?shù)據(jù)定義為異常數(shù)據(jù);[0124]具體的,孤立森林(iForest)是一種基于多決策樹(shù)集成的檢測(cè)算法。其基本原理是。在孤立森林中遞歸地隨機(jī)分割數(shù)據(jù)集,直到所有的樣本點(diǎn)都是孤立的,綜合所有決策樹(shù)結(jié)果,總路徑較短的通常為異常值;[0125]最小協(xié)方差行矩陣(MCD)是一種基于馬氏距離的檢測(cè)算法。其基本原理是,利用最小協(xié)方差行列式計(jì)算獲取更穩(wěn)健的均值和協(xié)方差估計(jì)量,再根據(jù)馬氏距離計(jì)算,馬氏距離大于臨界值的為異常值;[0126]局部離群因子法(LOF)是一種基于密度的檢測(cè)算法。其基本思想是,根據(jù)數(shù)據(jù)點(diǎn)周?chē)臄?shù)據(jù)密集情況,計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的一個(gè)局部可達(dá)密度,通過(guò)局部可達(dá)密度進(jìn)一步計(jì)算得到每個(gè)數(shù)據(jù)點(diǎn)的一個(gè)離群因子,該離群因子即標(biāo)識(shí)了一個(gè)數(shù)據(jù)點(diǎn)的離群程度,因子值越[0127]k最鄰近法(KNN)是一種基于距離的檢測(cè)算法。其基本原理是,依次計(jì)算每個(gè)樣本點(diǎn)與它最近的k個(gè)樣本的平均距離,計(jì)算的平均距離大于閾值,則認(rèn)為是異常點(diǎn);[0128]基于聚類(lèi)的局部離群因子法(CBLOF)是一種基于聚類(lèi)的檢測(cè)算法。其基本原理是,使用聚類(lèi)來(lái)確定數(shù)據(jù)中的密集區(qū)域,然后對(duì)每個(gè)聚類(lèi)進(jìn)行密度估計(jì);[0129]基于直方圖異常點(diǎn)檢測(cè)法(HBOS)是一種基于統(tǒng)計(jì)方法的檢測(cè)算法。其基本原理是,假設(shè)每個(gè)維度獨(dú)立,對(duì)每個(gè)維度再進(jìn)行區(qū)間劃分,每個(gè)區(qū)間所對(duì)應(yīng)的異常值取決于密[0130]AOM組合函數(shù)是一種簡(jiǎn)單平均和最大化結(jié)合的組合方法。具體方式為將多維異常得分矩陣按維度平均劃分成幾組,每條數(shù)據(jù)在組內(nèi)取最大異常得分,并在組間取平均值后獲得綜合異常得分。[0131]步驟3-3:利用t-SNE(t-DistributedStochasticNeighborEmbedding)降維算法對(duì)多維異常數(shù)據(jù)分布特征進(jìn)行可視化,形成異常數(shù)據(jù)的分布圖像,可結(jié)合分布圖像中異常數(shù)據(jù)分布特征調(diào)整算法重要參數(shù)和異常比例,最終選擇了10%(60條)異常數(shù)據(jù)從初始樣[0132]具體的,t-SNE算法是一種非線(xiàn)性的降維技術(shù),可以較好地通過(guò)視覺(jué)可視化來(lái)驗(yàn)證算法的性能。將數(shù)據(jù)點(diǎn)之間的相似度轉(zhuǎn)換為概率,高維空間中的相似度由高斯聯(lián)合概率表示,低維空間的相似度由“學(xué)生t分布”表示,通過(guò)盡[0133]結(jié)合附圖3,本實(shí)施例步驟4和步驟5具體包括:[0134]步驟4-1:使用隨機(jī)森林(RandomForest)算法,以預(yù)測(cè)數(shù)據(jù)集中廢水流量、氨氮、COD三個(gè)特征為自變量,危廢總產(chǎn)量作為因變量,進(jìn)行模型的訓(xùn)練與驗(yàn)證;[0135]具體的,隨機(jī)森林是一種基于決策樹(shù)集成的算法。在應(yīng)用于回歸與測(cè)試時(shí),其基本原理為,從原始訓(xùn)練樣本集N中有放回地重復(fù)隨機(jī)抽取k個(gè)樣本生成新的訓(xùn)練樣本集合,然后生成k個(gè)回歸樹(shù)組成隨機(jī)森林,新數(shù)據(jù)的預(yù)測(cè)值為所有回歸樹(shù)預(yù)測(cè)結(jié)果的平均值。[0136]步驟4-2:隨機(jī)森林模型的訓(xùn)練與驗(yàn)證整體采用十折交叉驗(yàn)證的方法,根據(jù)所預(yù)測(cè)的因變量數(shù)據(jù)特征,將預(yù)測(cè)數(shù)據(jù)集劃分成因變量數(shù)據(jù)分布一致的10組。每次取9組作為訓(xùn)練[0137]步驟4-3:對(duì)三種主要超參數(shù)設(shè)置一定取值范圍和步長(zhǎng),生成備選超參數(shù)列表,對(duì)備選超參數(shù)列表使用網(wǎng)格搜索法將不同超參數(shù)組合分別代入模型進(jìn)行訓(xùn)練與驗(yàn)證。[0139]決策樹(shù)數(shù)量(n_estimators):在利用最大投票數(shù)或平均值來(lái)預(yù)測(cè)之前,想要建立子樹(shù)的數(shù)量,較多的子樹(shù)可以讓模型有更好的性能;[0140]節(jié)點(diǎn)數(shù)(max_features):每個(gè)節(jié)點(diǎn)上隨機(jī)選擇的變量最大數(shù)目,進(jìn)而在其中選擇影響最大的變量;[0141]最大樹(shù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年生鮮電商損耗控制方法課程
- 成都市新都區(qū)部分單位2026年1月公開(kāi)招聘編外(聘用)人員的備考題庫(kù)(一)及答案詳解(易錯(cuò)題)
- 2026年客戶(hù)投訴處理話(huà)術(shù)優(yōu)化課
- 繁殖繁殖場(chǎng)規(guī)劃與建設(shè)手冊(cè)
- 2026重慶市璧山區(qū)人民政府璧城街道辦事處招聘非編聘用人員2人備考題庫(kù)含答案詳解
- 客運(yùn)保衛(wèi)稽查年終總結(jié)(3篇)
- 職業(yè)健康遠(yuǎn)程隨訪(fǎng)的醫(yī)患溝通障礙解決方案
- 職業(yè)健康監(jiān)護(hù)中的標(biāo)準(zhǔn)化健康宣教材料
- 職業(yè)健康成就感對(duì)醫(yī)療員工組織承諾的促進(jìn)效應(yīng)
- 職業(yè)健康促進(jìn)醫(yī)療質(zhì)量持續(xù)改進(jìn)
- 化工生產(chǎn)安全用電課件
- 2026屆湖北省武漢市高三元月調(diào)考英語(yǔ)試卷(含答案無(wú)聽(tīng)力原文及音頻)
- 110kV~750kV架空輸電線(xiàn)路施工及驗(yàn)收規(guī)范
- 質(zhì)量檢驗(yàn)部2025年度工作總結(jié)與2026年度規(guī)劃
- 陳世榮使徒課件
- 2025至2030中國(guó)丙烯酸壓敏膠行業(yè)調(diào)研及市場(chǎng)前景預(yù)測(cè)評(píng)估報(bào)告
- 河北省石家莊2026屆高二上數(shù)學(xué)期末考試試題含解析
- EPC工程總承包項(xiàng)目合同管理
- 四年級(jí)數(shù)學(xué)除法三位數(shù)除以?xún)晌粩?shù)100道題 整除 帶答案
- 村委會(huì) 工作總結(jié)
- 個(gè)人IP打造運(yùn)營(yíng)方案【新媒體運(yùn)營(yíng)】【個(gè)人自媒體IP】
評(píng)論
0/150
提交評(píng)論