【《PM2.5反演模型構(gòu)建與評估分析案例》6700字】_第1頁
【《PM2.5反演模型構(gòu)建與評估分析案例》6700字】_第2頁
【《PM2.5反演模型構(gòu)建與評估分析案例》6700字】_第3頁
【《PM2.5反演模型構(gòu)建與評估分析案例》6700字】_第4頁
【《PM2.5反演模型構(gòu)建與評估分析案例》6700字】_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

PM2.5反演模型構(gòu)建與評估分析案例目錄TOC\o"1-3"\h\u10059PM2.5反演模型構(gòu)建與評估分析案例 1173511.1反演數(shù)據(jù)相關(guān)性分析 166371.2高濕訂正影響研究 2292161.3PM2.5反演模型構(gòu)建與對比 33231.3.1隨機森林模型 4219061.3.2深度神經(jīng)網(wǎng)絡模型 5145121.3.3結(jié)合空間距離與注意力機制的神經(jīng)網(wǎng)絡模型 7326811.3.4模型反演精度評估與對比 81.1反演數(shù)據(jù)相關(guān)性分析PM2.5污染物的積累、擴散、輸送以及稀釋等現(xiàn)象與氣象要素、地形要素息息相關(guān)。各種氣象要素決定著當?shù)氐拇髿鈧鬏敆l件,從而影響PM2.5的擴散、輸送和稀釋。地形要素與大氣環(huán)境條件相結(jié)合,則決定著PM2.5污染物在當?shù)胤e累的難易程度。因此在進行PM2.5反演模型構(gòu)建時,需要充分考慮各類反演要素對PM2.5的影響。本文選取的反演要素有氣溶膠光學厚度(AOD)、氣溫(T)、濕度(RH)、氣壓(SP)、距地表10米高度處的風的向東分量(U10)、距地表10米高度處的風的向北分量(V10)、大氣邊界層高度(PBLH)以及地表高程數(shù)據(jù)(DEM),同時考慮到地表植被景觀覆蓋度對PM2.5濃度空間分布存在的影響以及PM2.5日均濃度變化具有一定的時間規(guī)律,還選取了地表高植被覆蓋指數(shù)(HVC)、地表低植被覆蓋指數(shù)(LVC)兩種植被覆蓋要素數(shù)據(jù)與數(shù)據(jù)所處月份(MONTH)、數(shù)據(jù)所處一年內(nèi)天數(shù)(DAY)兩種時間數(shù)據(jù),共計12種反演要素。在構(gòu)建反演模型前,探究各季節(jié)這些反演數(shù)據(jù)與PM2.5之間的相關(guān)性關(guān)系,驗證這些要素與PM2.5之間的密切程度。下表展示了不同季節(jié)各要素與PM2.5之間的相關(guān)系數(shù)。表4-1反演要素與PM2.5的相關(guān)系數(shù)季節(jié)AODTRHSPU10V10PBLHHVCLVCMONTHDAYDEM春季0.59-0.130.420.12-0.21-0.025-0.48-0.0810.081-0.13-0.14-0.17夏季0.57-0.280.160.17-0.094-0.092-0.12-0.120.13-0.094-0.1-0.17秋季0.57-0.140.460.13-0.2-0.12-0.48-0.120.130.220.22-0.14冬季0.54-0.290.570.1-0.36-0.3-0.5-0.170.17-0.054-0.057-0.16由上表的相關(guān)系數(shù)可以發(fā)現(xiàn),各種反演要素對PM2.5的影響存在差異,相同反演要素在不同季節(jié)對PM2.5的影響也會有所變化。氣溶膠AOD、相對濕度RH與邊界層高度PBLH的相關(guān)性最高,說明三者是PM2.5濃度變化的主要影響因子。氣溶膠AOD、相對濕度RH、地表氣壓SP與PM2.5濃度一直呈現(xiàn)正相關(guān),氣溶膠AOD是反映空氣污染嚴重程度的重要指標,其值越高則大氣污染越嚴重,相應的PM2.5濃度也越高;相對濕度RH越高,具有吸濕特性的氣溶膠粒子則越吸濕增長,導致了PM2.5濃度的增加;地表氣壓SP與PM2.5濃度的正相關(guān)性則是因為當某地被高氣壓控制時,氣流會向周圍地區(qū)輻射,在中心地區(qū)會形成下沉氣流,使得污染物不易擴散,PM2.5濃度持續(xù)增加。氣溫T、大氣邊界層高度PBLH、高程DEM與PM2.5濃度呈現(xiàn)負相關(guān)關(guān)系,氣溫T通過兩種方式影響PM2.5濃度,一是影響近地表的對流強度,溫度越高,對流越強,從而影響污染物的對流與擴散,使得PM2.5向上運輸,近地表的PM2.5濃度下降,二是影響燃料使用量,氣溫較低的情況下,人類社會供暖需求變高,燃料使用增加,從而使得污染排放增多;在無風或者風對污染物的輸送作用不明顯時,污染物會積聚在邊界層內(nèi),大氣邊界層高度PBLH決定了污染物在垂直方向上可以擴散的空間,大氣邊界層高度越高,近地表的PM2.5越容易稀釋;高程則影響著污染物擴散的難易程度。10米風的東向風量U10、10米風的北向風量V10與PM2.5濃度均為負相關(guān),二者對PM2.5濃度的影響則是由于京津冀地區(qū)的西面、北面主要為山地,東面和南面主要為平原,西風和北風有助于PM2.5的稀釋擴散。高植被覆蓋HVC、低植被覆蓋LVC與PM2.5濃度一個負相關(guān),一個正相關(guān),這和植被對PM2.5的吸收、吸附和轉(zhuǎn)移作用有。PM2.5濃度與月份、天數(shù)在秋季為正相關(guān),其他季節(jié)為負相關(guān),這種差異表明了并不是簡單的線性關(guān)系。上述的相關(guān)性分析,說明了各反演要素對PM2.5濃度有一定影響,且不同季節(jié)表現(xiàn)不同,所以有必要進行分季節(jié)建模研究。1.2高濕訂正影響研究由第二章的高濕訂正原理可以知曉,AOD與PM2.5之間的物理意義不相同,二者之間的相關(guān)性容易受到氣溶膠吸濕特性與垂直分布特性的影響,高濕訂正便是在這一背景下被提出的,旨在減小氣溶膠物理特性對AOD-PM2.5相關(guān)性的影響??紤]到濕度訂正有正向AOD訂正與反向PM2.5訂正兩種形式,同時相對濕度、大氣邊界層高度與PM2.5濃度的相關(guān)性有季節(jié)性差異,所以本文對高度訂正、濕度訂正以及它們的組合訂正進行了實驗研究,并分季節(jié)對比不同訂正形式下多元線性回歸的反演效果,然后從中選取出較優(yōu)的一種訂正形式用于后續(xù)的反演模型搭建。所進行的較優(yōu)訂正形式研究,按照高度訂正與濕度訂正的組合可以分為以下幾組:未經(jīng)訂正組(E0)、AOD經(jīng)高度訂正,PM2.5經(jīng)濕度訂正組(E1)、AOD經(jīng)高度訂正組(E2)、AOD經(jīng)濕度訂正(E3)、AOD經(jīng)高度訂正與濕度訂正(E4)。實驗結(jié)果如下表所示。表4-2各季節(jié)不同訂正形式多元線性回歸模型擬合優(yōu)度季節(jié)E0E1E2E3E4春季0.52610.55290.55180.52760.5520夏季0.40150.36300.36210.42830.3624秋季0.55180.60740.60420.55710.6041冬季0.51540.57430.57260.51970.5723觀察上表的擬合優(yōu)度,可以發(fā)現(xiàn)不同的訂正組合對模型反演效果確實存在影響,且在不同季節(jié)的影響程度差異較大。春季、秋季和冬季只要進行了數(shù)據(jù)訂正,不管何種組合形式,都能提升模型的反演效果。而四種訂正形式中,僅AOD進行濕度訂正的形式(E3)對模型反演效果的提升最小,其余三種訂正形式的提升程度比較接近,其中,AOD進行高度訂正,PM2.5進行濕度訂正的形式(E1)以微弱的優(yōu)勢成為幾種訂正形式在春秋冬三季中的最優(yōu)訂正方案。夏季的實驗結(jié)果則與春秋冬三季的情況截然不同,四種訂正形式中只有AOD進行濕度訂正的形式(E3)才能提升模型的反演效果,其余三種組合在數(shù)據(jù)訂正后反而使得模型的反演效果下降。同時與其他三個季節(jié)的最優(yōu)訂正形式進行對比,可以發(fā)現(xiàn)夏季的E3形式對模型反演效果的提升程度明顯不如E1形式對春秋冬三季的提升。經(jīng)過上述實驗,我們得到了研究區(qū)域各個季節(jié)較優(yōu)的訂正形式,春秋冬三季均是對AOD進行高度訂正,PM2.5進行濕度訂正的形式,夏季則是只對AOD進行濕度訂正的形式。1.3PM2.5反演模型構(gòu)建與對比由于本文所提出的PM2.5反演模型需要使用研究區(qū)域各格網(wǎng)點至93個地面空氣質(zhì)量監(jiān)測站點的距離數(shù)據(jù),若是在劃分訓練數(shù)據(jù)集與測試數(shù)據(jù)集時,只是單純的打亂數(shù)據(jù)然后隨機按比例選取,這樣無法保證搭建的模型具有較好的魯棒性與可靠性,因此數(shù)據(jù)的隨機劃分應該考慮地面監(jiān)測站點的空間位置,使訓練數(shù)據(jù)集與測試數(shù)據(jù)集在空間位置上能較好的覆蓋整個研究地區(qū),從而減小樣本選取差異引起的估算誤差。考慮地面站點空間位置后,我們從93個站點中選取了64個作為訓練站點,剩余29個作為測試站點,其空間分布如下圖所示。圖4-1京津冀地區(qū)空氣質(zhì)量監(jiān)測站點類型劃分1.3.1隨機森林模型隨機森林模型是機器學習算法中高度靈活,極為常用的一種算法,其是基于集成學習中的bagging框架思想將多棵決策樹集成的一種模型,基本單元是決策樹。本文是基于python語言中被廣泛使用的第三方機器學習庫sklearn搭建的隨機森林模型。根據(jù)sklearn的官方文檔,隨機森林模型在應用于回歸問題時,參數(shù)總共有19個,其中對模型的評估性能影響較大的參數(shù)主要有n_estimators(決策子樹的數(shù)量)、bootstrap(是否對樣本集有放回的抽樣)、max_depth(決策樹的最大生長深度)、max_features(決策樹的最大選擇特征數(shù))、min_samples_leaf(葉子節(jié)點含有的最少樣本數(shù)量)、min_samples_split(節(jié)點可分的最小樣本數(shù)量)。本文會在保持其他參數(shù)不變的前提下,對以上六種參數(shù)進行調(diào)整優(yōu)化。隨機森林模型可以看作眾多決策樹模型嵌入bagging框架中,因此整個模型的參數(shù)調(diào)整優(yōu)化將按照這樣的思路:首先對隨機森林的外層bagging框架進行參數(shù)優(yōu)化,在確定了框架參數(shù)后再對模型內(nèi)部的決策樹參數(shù)進行調(diào)整。本文優(yōu)化調(diào)整的六種參數(shù)中,n_estimators與bootstrap屬于bagging框架參數(shù),max_depth、max_features、min_samples_leaf和min_samples_split屬于決策樹參數(shù)。n_estimators又是對模型影響程度最大的參數(shù),過低會導致模型不準確,而若是過高則會增加模型復雜度,影響效率,所以先對其進行調(diào)整,優(yōu)化完畢后調(diào)整bootstrap,再調(diào)整4個決策樹參數(shù)。參數(shù)的調(diào)整范圍與最終的優(yōu)化結(jié)果如下表所示。表4-3隨機森林模型主要參數(shù)的調(diào)整范圍及優(yōu)化結(jié)果參數(shù)含義范圍最優(yōu)值n_estimators決策子樹的數(shù)量[1,300]25bootstrap是否對樣本集有放回的抽樣[True,F(xiàn)alse]Truemax_depth決策樹的最大生長深度[1,50]22max_features決策樹的最大選擇特征數(shù)[1,12]6min_samples_leaf葉子節(jié)點含有的最少樣本數(shù)量[1,20]3min_samples_split節(jié)點可分的最小樣本數(shù)量[1,20]81.3.2深度神經(jīng)網(wǎng)絡模型在回歸任務中,輸入變量越多,對模型擬合能力的要求也越高,而深度神經(jīng)網(wǎng)絡(DNN)的表達能力廣泛,能以任意精度逼近任意復雜度的非線性函數(shù)。而現(xiàn)代計算機具有十分強大的算力,DNN模型復雜的特征選擇、訓練學習過程均可以交給計算機完成,這也使得DNN模型能夠擁有很好的智能性與復雜性,可以更好地描述現(xiàn)實世界中的線性或非線性關(guān)系。本文所使用的DNN模型是基于PyTorch深度學習框架搭建的,模型結(jié)構(gòu)如圖所示。本模型可分為輸入層(InputLayer)、隱藏層(HiddenLayer)與輸出層(OutputLayer),輸入層的輸入數(shù)據(jù)是已完成高濕訂正的12維向量(包含了氣溶膠光學厚度、氣溫、相對濕度、氣壓以及大氣邊界層高度等12個反演要素),隱藏層共有4個,各層的神經(jīng)元個數(shù)分別設置為1000、700、400、100,最后由輸出層輸出各像素的PM2.5濃度反演值。圖4-2深度神經(jīng)網(wǎng)絡模型結(jié)構(gòu)除了網(wǎng)絡層數(shù)與各層神經(jīng)元個數(shù),一個神經(jīng)網(wǎng)絡的構(gòu)建還需要確定學習率、批處理大小、迭代次數(shù)、激活函數(shù)、損失函數(shù)以及優(yōu)化器。常用的激活函數(shù)有Sigmoid函數(shù)、Tanh函數(shù)以及ReLU函數(shù)。Sigmoid函數(shù)與Tanh函數(shù)的輸出值域分別為(0,1)與(-1,1),而PM2.5濃度不存在負值,并且濃度數(shù)值普遍達到了數(shù)十,因此不適合使用Sigmoid函數(shù)與Tanh函數(shù)進行運算。ReLU函數(shù)的圖像如圖所示,其值域為[0,∞),更加契合大氣污染的濃度數(shù)值特點,所以DNN模型隱藏層的激活函數(shù)全部設置為ReLU函數(shù)。在損失函數(shù)的選擇上,由于本模型最后得到的是一個具體PM2.5濃度估計值,并不是分類任務中輸出的類別概率,所以DNN模型的損失函數(shù)設置為回歸任務中常用的均方誤差函數(shù)。優(yōu)化器對整個模型的訓練速度和訓練效果影響很大,目前常用的優(yōu)化器可以劃分為兩大類,第一類的學習率不會受到梯度影響,在優(yōu)化過程中全程保持不變或者按照一定的計劃隨時間變化,這類優(yōu)化器常見的有SGD(隨機梯度下降)、Momentum-SGD(帶動量的隨機梯度下降)、Nesterov-SGD(使用Nesterov動量的隨機梯度下降),這一類可以稱為SGD系列優(yōu)化器;第二類的學習率會隨著梯度自適應改變,并盡可能去減小乃至消除設置的全局學習率的影響,這類優(yōu)化器常見的有Adagrad、Adadelta、RMSprop、Adam、Adamax等,通常被稱為自適應學習率系列。在上述優(yōu)化器中,Adamax不僅較為成熟、性能相對較優(yōu)、迭代效率更高,且與均方誤差損失函數(shù)相契合,所以DNN模型選用此優(yōu)化器。同時,為了防止模型出現(xiàn)過擬合的情況,DNN模型中還使用了正則化中的Dropout技術(shù),在模型的一輪訓練中按照概率P隨機“棄用”部分神經(jīng)元,待這輪訓練結(jié)束,未被“棄用”的神經(jīng)元得到更新后,重新“激活”這些神經(jīng)元,然后在新一輪訓練中重復這一過程。本研究的DNN模型中,Dropout的概率P設置為0.5。在確定了激活函數(shù)、損失函數(shù)與優(yōu)化器等細節(jié)后,通過多次的實驗調(diào)整參數(shù),最終確定了模型的初始學習率、批處理大小以及迭代次數(shù),模型最終的架構(gòu)與參數(shù)如下表所示。表4-4模型架構(gòu)與參數(shù)設置內(nèi)容設置情況隱藏層數(shù)量4各隱藏層神經(jīng)元個數(shù)1000、700、400、100激活函數(shù)ReLU損失函數(shù)MSE優(yōu)化器Adamax正則化Dropout(P=0.5)初始學習率0.001批處理大小256迭代次數(shù)10001.3.3結(jié)合空間距離與注意力機制的神經(jīng)網(wǎng)絡模型PM2.5是地球表面的客觀存在,在大氣輸送的作用下,不同地區(qū)的PM2.5并不完全孤立,反而存在一定的空間相關(guān)性。普通DNN模型存在著無法顧及PM2.5的空間相關(guān)性與PM2.5反演精度仍具有提升空間的問題。鑒于以上兩點,本文對普通DNN模型做出了一定的修改,提出了結(jié)合空間距離與注意力機制的神經(jīng)網(wǎng)絡(SDANN)模型,該模型在DNN模型的基礎上加入了空間距離神經(jīng)網(wǎng)絡模塊、注意力機制模塊以及高濕訂正模塊,目的是通過空間距離模塊將研究區(qū)域內(nèi)各點之間的距離信息融入到網(wǎng)絡模型的訓練學習中,以及通過注意力機制模塊提高模型對輸入數(shù)據(jù)中重要特征的關(guān)注度,從而最終提升PM2.5濃度的反演效果,模型的具體結(jié)構(gòu)如下圖所示。圖4-3結(jié)合空間距離與注意力機制的神經(jīng)網(wǎng)絡模型結(jié)構(gòu)圖其中,空間距離模塊含有三個隱藏層,每層的神經(jīng)元個數(shù)分別為64、32、12,注意力機制模塊是六個并列的隱藏層,神經(jīng)元個數(shù)均為12。在激活函數(shù)的選擇上,這兩個模塊與反演模塊有所不同??臻g距離模塊選擇了在ReLU函數(shù)的基礎上擴充了數(shù)值范圍的PReLU函數(shù)作為激活函數(shù),以減少訓練學習過程中神經(jīng)元不被激活的情況,保證模塊輸出的空間權(quán)重的質(zhì)量。注意力機制模塊得到的是對輸入特征各維度的關(guān)注程度,數(shù)值范圍是(0,1),ReLU函數(shù)不滿足這一要求,因此從Softmax函數(shù)與Sigmoid函數(shù)中選擇激活函數(shù)。為了避免注意力層學習關(guān)鍵特征不到位,對網(wǎng)絡造成負面影響,降低網(wǎng)絡反演效果的情況出現(xiàn),本模型注意力機制模塊的激活函數(shù)設置為輸出更加均衡的Sigmoid函數(shù)。這兩個模塊的具體設置如下表所示。表4-5空間距離模塊與注意力機制模塊具體設置內(nèi)容空間距離模塊設置注意力機制模塊設置隱藏層數(shù)量36各隱藏層神經(jīng)元個數(shù)64、32、1212激活函數(shù)PReLUSigmoid正則化Dropout(P=0.8)無1.3.4模型反演精度評估與對比本文先使用訓練集訓練各個模型,完成模型的訓練后,評估并對比各模型在測試集上的表現(xiàn),從而選出最優(yōu)的反演模型。評估所用的指標包含了決定系數(shù)(R2)、平均絕對誤差(MAE)以及均方根誤差(RMSE),三者的公式如下: (公式2-19) (公式2-20) (公式2-21)其中,為模型反演得到的PM2.5濃度,為真實的PM2.5濃度,為PM2.5濃度的均值。各個模型分季節(jié)訓練完成后,在測試集上的表現(xiàn)如下所示,表4-6記錄了各個季節(jié)三個模型的評估指標具體數(shù)值,圖4-4與圖4-5則分別是模型的R2對比圖和MAE/RMSE對比圖。由下表的評估指標可以發(fā)現(xiàn),三個模型在四季的R2均能達到0.7以上,最高可達0.941,MAE基本保持在10以下,大多數(shù)的RMSE處在9至16的范圍內(nèi),說明所用的三個模型均具有較好的泛化性,能較好的解決PM2.5濃度反演問題。各季節(jié)的反演效果差異較大,其中春季、秋季和冬季,模型的R2均在0.85以上,而夏季三個模型的R2均下降到了0.8之下,表明相比其他季節(jié),夏季的情況更為復雜,模型的解釋能力略有不足,需要進一步優(yōu)化模型或者考慮PM2.5濃度受其他因素影響的情況。同時可以發(fā)現(xiàn),所有季節(jié)普通DNN模型與SDANN模型的反演效果均要明顯好于隨機森林模型,二者的R2均有所提升,同時MAE與RMSE有較大程度的降低,這說明在PM2.5濃度反演這類非線性問題上,神經(jīng)網(wǎng)絡模型相較于隨機森林模型有更強的擬合求解能力。而對比普通DNN模型與SDANN模型的反演效果,可以發(fā)現(xiàn),空間距離信息與注意力機制的引入,對模型在四個季節(jié)的反演精度均有提升效果(春季R2上升了0.023,MAE下降了0.63,RMSE下降了1.151;夏季R2上升了0.026,MAE下降了0.302,RMSE下降了0.536;秋季R2上升了0.015,MAE下降了0.621,RMSE下降了1.234;冬季R2上升了0.006,MAE下降了0.46,RMSE下降了0.777),證明了本文所提出方法的有效性。表4-6各季節(jié)三種模型反演效果對比季節(jié)模型R2MAERMSE春季隨機森林模型0.8677.79911.420普通DNN模型0.8926.83610.276SDANN模型0.9156.2069.125夏季隨機森林模型0.7077.79010.772普通DNN模型0.7546.9609.872SDANN模型0.7806.6589.336表4-6(續(xù)表)季節(jié)模型R2MAERMSE秋季隨機森林模型0.8649.89415.694普通DNN模型0.9267.57411.583SDANN模型0.9416.95310.349冬季隨機森林模型0.87712.32221.684普通DNN模型0.9349.32815.932SDANN模型0.9408.86815.155圖4-4各模型在測試集上的R2對比圖圖4-5各模型在測試集上的MAE與RMSE對比圖為了更加直觀的比較模型的擬合與預測能力,分析預測值的實際分布情況,本文還制作了各個季節(jié)三個模型在測試集上的預測值和觀測值的散點圖,具體展示如下。a1春季隨機森林模型散點圖b1春季普通DNN模型散點圖c1春季SDANN模型散點圖a2夏季隨機森林模型散點圖b2夏季普通DNN模型散點圖c2夏季SDANN模型散點圖a3秋季隨機

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論