【《S市PM2.5濃度時(shí)空精細(xì)預(yù)報(bào)方法研究》18000字】_第1頁
【《S市PM2.5濃度時(shí)空精細(xì)預(yù)報(bào)方法研究》18000字】_第2頁
【《S市PM2.5濃度時(shí)空精細(xì)預(yù)報(bào)方法研究》18000字】_第3頁
【《S市PM2.5濃度時(shí)空精細(xì)預(yù)報(bào)方法研究》18000字】_第4頁
【《S市PM2.5濃度時(shí)空精細(xì)預(yù)報(bào)方法研究》18000字】_第5頁
已閱讀5頁,還剩33頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

S市PM2.5濃度時(shí)空精細(xì)預(yù)報(bào)方法研究摘要近年來,隨著我國(guó)工業(yè)化進(jìn)程的加快和城市的快速發(fā)展,空氣污染程度加劇,以PM2.5為主要成分的大氣污染物對(duì)社會(huì)的發(fā)展和人類身體健康以及生態(tài)環(huán)境帶來了不利影響。熟識(shí)城市PM2.5的時(shí)空分布特征以及演變規(guī)律,建立空氣質(zhì)量預(yù)報(bào)模型對(duì)于智慧城市的建設(shè)和公眾的出行具有重要的意義?,F(xiàn)有的空氣質(zhì)量預(yù)報(bào)方法不計(jì)其數(shù),而基于深度學(xué)習(xí)的方法是現(xiàn)在預(yù)測(cè)空氣質(zhì)量的主流方法,在這一領(lǐng)域有許多創(chuàng)新的方法,具有前瞻性。通過研究深度學(xué)習(xí)的預(yù)測(cè)方法,以期望找尋一種合適的方法提高空氣質(zhì)量預(yù)報(bào)的準(zhǔn)確性。本文以長(zhǎng)沙市為研究區(qū)域,將研究?jī)?nèi)容分為時(shí)序預(yù)報(bào)和空間估算研究?jī)蓚€(gè)主體,開展PM2.5濃度時(shí)空預(yù)報(bào)算法研究。在時(shí)序預(yù)報(bào)研究上,實(shí)現(xiàn)了小時(shí)級(jí)別的站點(diǎn)PM2.5濃度精細(xì)預(yù)報(bào),并且嘗試采用構(gòu)建CNN-LSTM模型進(jìn)行預(yù)報(bào)的方法改進(jìn)LSTM預(yù)報(bào)方法,對(duì)冬季1月份的PM2.5濃度進(jìn)行研究,擬合精度達(dá)到0.83以上,均方根誤差不超過5ug/m3,精度較高;使用LSTM模型對(duì)短期未來24小時(shí)的PM2.5濃度進(jìn)行準(zhǔn)確預(yù)報(bào),87%的監(jiān)測(cè)站點(diǎn)預(yù)報(bào)結(jié)果R2在0.7以上,62%的監(jiān)測(cè)站點(diǎn)預(yù)報(bào)結(jié)果RSME不超過10ug/m3,模型性能較優(yōu)。在空間估算研究上,采用隨機(jī)森林算法實(shí)現(xiàn)PM2.5濃度空間分布模擬,模型擬合精度為0.83,交叉驗(yàn)證擬合精度達(dá)到0.63,均方根誤差均不超過5ug/m3,具有較高的精度。關(guān)鍵詞:空氣污染預(yù)測(cè)深度學(xué)習(xí)細(xì)顆粒物機(jī)器學(xué)習(xí)目錄目錄TOC\o"1-4"\f\h\z\u第1章緒論 11.1 選題背景與研究意義 11.2 國(guó)內(nèi)外研究現(xiàn)狀 11.2.1 空氣質(zhì)量時(shí)序預(yù)報(bào)研究現(xiàn)狀 21.2.2 空氣質(zhì)量空間分布估算研究現(xiàn)狀 31.3 研究目標(biāo)與內(nèi)容 31.3.1研究目標(biāo) 31.3.2研究?jī)?nèi)容 31.4 技術(shù)路線與論文組織架構(gòu) 4第2章研究區(qū)概與數(shù)據(jù)處理 62.1 研究區(qū)概況 62.2 研究數(shù)據(jù)獲取 72.3數(shù)據(jù)預(yù)處理 7第3章PM2.5濃度站點(diǎn)時(shí)序深度學(xué)習(xí)預(yù)報(bào) 93.1 LSTM時(shí)序預(yù)報(bào)建模 93.1.1 LSTM原理 103.1.2 預(yù)報(bào)模型構(gòu)建 123.2 CNN-LSTM預(yù)報(bào)建模 153.2.1 CNN-LSTM原理 153.2.2 預(yù)報(bào)模型構(gòu)建 153.3 結(jié)果分析與討論 173.3.1逐小時(shí)預(yù)報(bào) 173.3.2預(yù)報(bào)時(shí)長(zhǎng)拓展研究 223.3.3站點(diǎn)全天時(shí)預(yù)報(bào)成果 23第4章PM2.5濃度時(shí)空精細(xì)預(yù)報(bào)方法研究 264.1 空間分布估算制圖 26隨機(jī)森林原理 26隨機(jī)森林建模制圖 274.2 時(shí)空耦合精細(xì)預(yù)報(bào)制圖 30第5章結(jié)論與展望 325.1 結(jié)論 325.2 展望 32參考文獻(xiàn) 35第2頁,共37頁第1章緒論選題背景與研究意義研究表明,長(zhǎng)期暴露在空氣污染中會(huì)增加死亡的風(fēng)險(xiǎn)。每立方米10微克濃度的PM2.5和每立方米10ppb濃度的臭氧的增加與全因死亡率增加7.3%(95%置信區(qū)間[CI],7.1至7.5)和1.1%(95%置信區(qū)間,1.0至1.2)具有相關(guān)性[1]。特別地,有學(xué)者通過對(duì)流感病毒的研究,首次在國(guó)家層面檢驗(yàn)空氣污染和傳染性疾病之間關(guān)系的研究,表明,在2013年9月至2014年12月期間,中國(guó)大約每10例流感事件中就有1例可能是由于暴露于環(huán)境PM2.5所致[2]。PM2.5作為大氣氣溶膠的一種典型代表,對(duì)入射太陽輻射的吸收和散射作用所造成的輻射強(qiáng)迫直接影響全球氣候,同時(shí),有的氣溶膠顆粒會(huì)形成云的凝結(jié)核,對(duì)云反照率及可降雨量造成影響,間接影響全球氣候[3-5]。影響空氣質(zhì)量因素比較復(fù)雜,污染物濃度的高低與氣象信息呈現(xiàn)相關(guān)性,大氣對(duì)污染物濃度具有擴(kuò)散稀釋作用,比如濕度、風(fēng)向、風(fēng)速等將影響污染物濃度的擴(kuò)散速度,而地形的變化會(huì)對(duì)氣候形成一定的影響,因此,地形也對(duì)污染物濃度的擴(kuò)散速率也具有一定的影響作用;除此之外,污染物濃度也會(huì)受到排放物濃度的影響,排放物是指與工業(yè)煙塵、汽車尾氣和地表灰塵有關(guān)的因素,如土地利用、道路等[6]。步入十四五新時(shí)代,應(yīng)新型智慧城市建設(shè)要始終著眼于更好地把握解決人民群眾尤其基層百姓最關(guān)心的日常出行和健康問題和和城市建設(shè)可持續(xù)發(fā)展的要求,在政府民眾強(qiáng)烈要求污染防治刻不容緩的形勢(shì)下,PM2.5(細(xì)顆粒物濃度)作為大氣污染物的主要成分,因此,本課題擬基于氣象數(shù)據(jù)和歷史污染物濃度數(shù)據(jù)以及其他數(shù)據(jù),即耦合多源地理要素基于深度學(xué)習(xí)的方法精準(zhǔn)評(píng)估PM2.5,這對(duì)于建設(shè)空氣質(zhì)量預(yù)警系統(tǒng),采取有效措施防治空氣污染和城市科學(xué)規(guī)劃和推動(dòng)產(chǎn)業(yè)結(jié)構(gòu)升級(jí)奠定了基礎(chǔ),提供了一定的科學(xué)依據(jù)。國(guó)內(nèi)外研究現(xiàn)狀現(xiàn)代空氣污染預(yù)報(bào)方法的基本思想是通過分析歷史空氣污染物數(shù)據(jù)和氣象數(shù)據(jù)等信息,了解空氣污染物濃度時(shí)空分布規(guī)律,建立模型,通過預(yù)測(cè)時(shí)段的氣象信息和其他信息通過模型預(yù)測(cè)空氣質(zhì)量。現(xiàn)有的空氣質(zhì)量預(yù)報(bào)方法其實(shí)不計(jì)其數(shù),學(xué)者從多種角度切入尋求高精度的空氣污染預(yù)測(cè)模型,而追溯其根源,實(shí)際上,空氣污染預(yù)測(cè)模型的研究從大體上可以分為三個(gè)個(gè)主體方向:第一,是從污染物濃度擴(kuò)散的角度出發(fā)(物理);第二,是從污染物濃度增加的角度出發(fā)(物理);第三,是從多元因素影響污染物濃度產(chǎn)生復(fù)雜的物理與化學(xué)變化。最早是歐洲一些發(fā)達(dá)國(guó)家最早研究空氣污染預(yù)測(cè),提出了大氣運(yùn)動(dòng)對(duì)污染影響的潛勢(shì)預(yù)測(cè)[7];隨后在監(jiān)測(cè)技術(shù)的發(fā)展和污染物歷史數(shù)據(jù)積累的基礎(chǔ)上部分學(xué)者提出基于歷史污染物的統(tǒng)計(jì)預(yù)報(bào)模型[8]和基于對(duì)大氣環(huán)境進(jìn)行高度模擬的氣象模型進(jìn)行數(shù)值預(yù)測(cè)方法的研究[9];隨著大數(shù)據(jù)時(shí)代的來臨和人工智能的發(fā)展,在人工神經(jīng)網(wǎng)絡(luò)研究發(fā)展的基礎(chǔ)上,機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)的方法進(jìn)行空氣污染預(yù)測(cè)的方法成為了現(xiàn)代研究空氣質(zhì)量預(yù)報(bào)的趨勢(shì),在精度上有了很大提升??諝赓|(zhì)量時(shí)序預(yù)報(bào)研究現(xiàn)狀統(tǒng)計(jì)預(yù)報(bào)的方式進(jìn)行時(shí)序預(yù)報(bào)研究,其基本思想是通過對(duì)歷史污染物濃度數(shù)據(jù)與氣象條件等進(jìn)行相關(guān)分析,進(jìn)行預(yù)報(bào)建模,如多元線性回歸(MLR)模型[10]和自回歸積分滑動(dòng)平均模型ARIMA[11]。由于其對(duì)數(shù)據(jù)以及硬件的精度要求不高,更適合應(yīng)用在城市級(jí)這類區(qū)域范圍不是很大的空氣質(zhì)量預(yù)報(bào)研究中。雖然應(yīng)用比較靈活,但短板也尤其明顯,忽略影響空氣污染的復(fù)雜因素會(huì)導(dǎo)致其性能不是很高,受限數(shù)據(jù)缺失的不確定性,預(yù)測(cè)精度還有很大的提升空間。 基于數(shù)值預(yù)測(cè)的空氣質(zhì)量模型是以大氣動(dòng)力學(xué)為基礎(chǔ),通過對(duì)大氣中物理與化學(xué)性質(zhì)的分析,建立大氣污染物在空氣中輸送擴(kuò)散的數(shù)值模型[12]。常用的模型有CMAQ(CommunityMulti-scaleAirQuality)、SMOKE(SparseMatrixOperatorKernelEmission)、WRF(TheWeatherResearchandForecasting)和MM5(MesoscaleModel5)模型等[13-15]。但是數(shù)值預(yù)測(cè)模型對(duì)數(shù)據(jù)要求比較高,存在運(yùn)行效率不高的問題。近些年來隨著機(jī)器學(xué)習(xí)與深度學(xué)習(xí)算法的不斷發(fā)掘,拓寬了空氣質(zhì)量預(yù)測(cè)的研究方向,不少學(xué)者通過機(jī)器學(xué)習(xí)或深度學(xué)習(xí)方法,在空氣質(zhì)量時(shí)序預(yù)報(bào)研究上取得了不錯(cuò)的進(jìn)展,機(jī)器學(xué)習(xí)方法比如XGBoost[16]模型、MFO-SVM[17]模型、STELM[18]模型等模型,深度學(xué)習(xí)比如CNN模型[19]、LSTM[20]模型等,在此基礎(chǔ)上,一些學(xué)者通過分析模型的性能及其特征,采用多種方法結(jié)合的形式進(jìn)行預(yù)報(bào)建模,大幅提高了精度,比如CNN-LSTM預(yù)報(bào)模型[21]。空氣質(zhì)量空間分布估算研究現(xiàn)狀在早期開展PM2.5濃度監(jiān)測(cè)的工作中,大部分學(xué)者采用空間插值比如克里金插值、反距離權(quán)重插值等來解釋PM2.5濃度的空間分布規(guī)律,但是預(yù)測(cè)精度不高,對(duì)于監(jiān)測(cè)站點(diǎn)的要求較高,需要監(jiān)測(cè)站點(diǎn)分布均勻且密集。隨著時(shí)間的發(fā)展,簡(jiǎn)單的空間插值方式越來越不能滿足學(xué)者對(duì)于研究的要求,依靠地理學(xué)定理的發(fā)展出來一些模型,通過分析PM2.5濃度與所處環(huán)境的地理要素特征之間的聯(lián)系進(jìn)行建模,比如地理加權(quán)回歸(GeographicWeightedRegression,GWR)[22]模型,一種多元回歸線性回歸模型。但是,影響PM2.5濃度的因素復(fù)雜,各種因素之間也會(huì)進(jìn)行復(fù)雜作用,單單用線性回歸的方法不能解釋這些因素與PM2.5濃度之間的聯(lián)系。為了更好的挖掘各類特征因素與PM2.5濃度之間的聯(lián)系,一些學(xué)者嘗試?yán)脵C(jī)器學(xué)習(xí)或是深度學(xué)習(xí)的方法建立模型進(jìn)行污染物濃度空間分布模擬研究,比如,Zhou等構(gòu)建了PM2.5濃度遙感估算GAM模型[23]。研究目標(biāo)與內(nèi)容1.3.1研究目標(biāo)基于國(guó)內(nèi)城市特別是中心大城市空氣污染尤為顯著的情形,為有效防治空氣污染,針對(duì)城市地區(qū)的關(guān)鍵空氣污染物濃度時(shí)空分布差異性特征進(jìn)行研究,深度考察污染物濃度歷史數(shù)據(jù)的時(shí)間變化特征,并根據(jù)氣象因素、地形因素、交通等多角度因素耦合作用為鋪墊,以期構(gòu)建一個(gè)PM2.5濃度時(shí)空分布精細(xì)預(yù)測(cè)模型。循環(huán)神經(jīng)網(wǎng)絡(luò)擅于處理具有時(shí)間關(guān)聯(lián)性的預(yù)測(cè)研究,而隨機(jī)森林對(duì)于處理具有多維特征的數(shù)據(jù)方面具有優(yōu)勢(shì),因此,本文擬采用(LSTM)長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)和(RF)隨機(jī)森林網(wǎng)絡(luò)聯(lián)合預(yù)報(bào)的方法,得到未來一天逐小時(shí)的PM2.5濃度空間預(yù)報(bào)制圖。使相關(guān)環(huán)境管理部門能夠掌握污染物的來源,及時(shí)針對(duì)特定區(qū)域采取相關(guān)防治措施,為制定科學(xué)合理的策略進(jìn)行管理提供了依據(jù)。1.3.2研究?jī)?nèi)容本文的研究?jī)?nèi)容主要大致分為兩個(gè)方向的研究。實(shí)現(xiàn)PM2.5濃度由單一到多個(gè)站點(diǎn),由多個(gè)站點(diǎn)到面的預(yù)測(cè)。(1)PM2.5濃度站點(diǎn)時(shí)序預(yù)報(bào)方法研究采取深度學(xué)習(xí)或機(jī)器學(xué)習(xí)的方法研究污染物濃度歷史數(shù)據(jù),利用氣象數(shù)據(jù),預(yù)測(cè)PM2.5濃度。從單一站點(diǎn)的預(yù)測(cè)出發(fā),通過建模剔除變量法,對(duì)預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,篩選出對(duì)PM2.5濃度最具影響力的變量;同時(shí),對(duì)于各類時(shí)長(zhǎng)的預(yù)測(cè)的精度進(jìn)行評(píng)定,選取較高精度的時(shí)序預(yù)報(bào)模型,確定預(yù)報(bào)時(shí)間范圍;比較不同的預(yù)測(cè)方法比如長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)、卷積神經(jīng)網(wǎng)絡(luò)耦合長(zhǎng)短期記憶網(wǎng)絡(luò)(CNN-LSTM)回歸預(yù)測(cè)方法、極限學(xué)習(xí)機(jī)(ELM)回歸預(yù)測(cè)方法預(yù)測(cè)PM2.5濃度,進(jìn)行精度評(píng)價(jià)和分析,最終確定站點(diǎn)PM2.5濃度預(yù)報(bào)方法。通過單一站點(diǎn)研究方法確立,對(duì)多個(gè)站點(diǎn)進(jìn)行循環(huán)預(yù)報(bào),為時(shí)空耦合精細(xì)預(yù)報(bào)模型建立奠定數(shù)據(jù)基礎(chǔ)。(2)PM2.5濃度時(shí)空耦合精細(xì)預(yù)報(bào)采用隨機(jī)森林方法研究PM2.5濃度空間分布特征,利用氣象數(shù)據(jù)、高程、人口、土地利用等數(shù)據(jù),利用(2)得到的站點(diǎn)PM2.5濃度未來24小時(shí)的預(yù)測(cè)數(shù)據(jù)進(jìn)行空間制圖建模,對(duì)氣象數(shù)據(jù)、高程數(shù)據(jù)等變量進(jìn)行篩選,確定建模變量,對(duì)站點(diǎn)數(shù)據(jù)進(jìn)行訓(xùn)練,進(jìn)行精度評(píng)定,確定建模方法。對(duì)研究區(qū)域進(jìn)行劃分,繪制網(wǎng)格,獲取高分辨率的加密點(diǎn),利用獲取的預(yù)估模型對(duì)加密點(diǎn)的PM2.5的濃度進(jìn)行預(yù)估,實(shí)現(xiàn)了小時(shí)級(jí)別的PM2.5濃度時(shí)空精細(xì)預(yù)報(bào)制圖;對(duì)比PM2.5濃度(實(shí)際觀測(cè)值)與PM2.5濃度(預(yù)測(cè)值)空間預(yù)報(bào)制圖結(jié)果,進(jìn)行成果的分析與評(píng)定。技術(shù)路線與論文組織架構(gòu)通過系統(tǒng)學(xué)習(xí)的深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、空間制圖知識(shí),熟悉工具如ArcGIS、MATLAB、SPSS、Excel,掌握python語言,采用這類工具和語言作為技術(shù)支撐,進(jìn)行了兩個(gè)方面的研究,包括PM2.5濃度站點(diǎn)時(shí)序預(yù)測(cè)和空間制圖。本文主要根據(jù)此次設(shè)計(jì)所作的主要工作,包括文獻(xiàn)資料的查詢、數(shù)據(jù)的獲取以及預(yù)處理、PM2.5濃度的站點(diǎn)時(shí)序預(yù)報(bào)、PM2.5濃度的空間制圖、成果的精度分析與評(píng)價(jià),針對(duì)這些工作內(nèi)容,將整篇文章分為以下幾個(gè)章節(jié):第1章緒論部分,這部分內(nèi)容主要根據(jù)在設(shè)計(jì)前期所作的相關(guān)文獻(xiàn)查詢和文獻(xiàn)翻譯以及研究目標(biāo)內(nèi)容確立等工作進(jìn)行了闡述,包括選題背景與研究意義、國(guó)內(nèi)外研究現(xiàn)狀、研究目標(biāo)與內(nèi)容、論文技術(shù)路線與論文組織框架。這一部分內(nèi)容工作從宏觀上為后期的實(shí)驗(yàn)確立了研究的方向。第2章研究概況與數(shù)據(jù)處理,這一章節(jié)包括研究區(qū)概況、研究數(shù)據(jù)獲取以及數(shù)據(jù)預(yù)處理。選定研究區(qū)域和研究數(shù)據(jù),通過多種渠道獲取數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行分類、預(yù)處理工作,為實(shí)驗(yàn)中期PM2.5濃度時(shí)序預(yù)報(bào)建模以及PM2.5濃度空間制圖建模奠定了數(shù)據(jù)基礎(chǔ)。第3章PM2.5濃度站點(diǎn)時(shí)序深度學(xué)習(xí)預(yù)報(bào),這一章節(jié)主要為確定PM2.5濃度站點(diǎn)時(shí)序預(yù)報(bào)方法,進(jìn)行模型的建立,同時(shí)在預(yù)測(cè)方法上具有一定創(chuàng)新型,不同于大多數(shù)研究拘泥于歷史污染物濃度數(shù)據(jù)。首先闡述了使用長(zhǎng)短期記憶(LSTM)方法進(jìn)行逐小時(shí)預(yù)報(bào)建模的過程,接著拓展了一種卷積神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短期記憶聯(lián)合(CNN-LSTM)逐小時(shí)預(yù)測(cè)的方法進(jìn)行預(yù)報(bào)建模的過程。在此基礎(chǔ)上,將極限學(xué)習(xí)機(jī)(ELM)方法與上述兩種方法進(jìn)行對(duì)比,判定精度,擬確定預(yù)測(cè)建模的方法。通過已確定的模型,進(jìn)行預(yù)測(cè)時(shí)長(zhǎng)的拓展,對(duì)各類時(shí)長(zhǎng)的預(yù)測(cè)進(jìn)行精度評(píng)價(jià)與分析。第4章PM2.5濃度時(shí)空精細(xì)預(yù)報(bào)方法研究,這一章節(jié)主要解決了現(xiàn)在大多數(shù)學(xué)者研究側(cè)重于單一或稀疏站點(diǎn)污染物濃度預(yù)測(cè)的問題,包括三個(gè)方面的內(nèi)容,一是污染物空間分布估算,通過隨機(jī)森林方法進(jìn)行建模,對(duì)加密點(diǎn)的PM2.5濃度進(jìn)行預(yù)估,實(shí)現(xiàn)由地面稀疏監(jiān)測(cè)站點(diǎn)的PM2.5濃度向地面連續(xù)分布面狀的PM2.5濃度分布制圖;二是根據(jù)第3章所獲得的PM2.5濃度站點(diǎn)預(yù)報(bào)值進(jìn)行同等隨機(jī)森林建模方法,實(shí)現(xiàn)PM2.5濃度在時(shí)空維度上連續(xù)的精細(xì)預(yù)報(bào)制圖。第5章結(jié)論與展望,根據(jù)本次設(shè)計(jì)的研究目的、研究?jī)?nèi)容、研究成果,進(jìn)行整體研究思路、結(jié)果的總結(jié),得出結(jié)論;并針對(duì)本文的研究思路中存在的一些不足之處,提出具有可實(shí)施性的一些措施,對(duì)未來可開展的創(chuàng)新性研究做出規(guī)劃和展望。

第2章研究區(qū)概與數(shù)據(jù)處理研究區(qū)概況如下圖所示,長(zhǎng)沙市位于長(zhǎng)江以南、湖南省東部偏北的位置。坐標(biāo)跨越東經(jīng)111°53′至114°15′,北緯27°51′~28°41′,呈東西走向的長(zhǎng)條狀,面積約為11819平方千米;從地形上看,長(zhǎng)沙市主要由山地、丘陵、平原組成,地形分布北部、西部以及南部的邊緣地區(qū)主要是山地,其余地區(qū)以丘陵和平原為主,地勢(shì)較為緩和;長(zhǎng)沙市屬亞熱帶季風(fēng)氣候,四季分明;是國(guó)務(wù)院批復(fù)確定的中國(guó)長(zhǎng)江中游地區(qū)重要的中心城市;常住總?cè)丝诔^800萬人,人口密集,是長(zhǎng)江區(qū)域的重點(diǎn)城市;交通發(fā)達(dá),是湖南省綜合交通樞紐;該城市主要包括9個(gè)分區(qū):寧鄉(xiāng)市、芙蓉區(qū)、長(zhǎng)沙縣、雨花區(qū)、瀏陽市、開福區(qū)、岳麓區(qū)、望城區(qū)和天心區(qū),管轄六個(gè)區(qū)、一個(gè)縣、兩個(gè)市,其中芙蓉區(qū)、天心區(qū)、雨花區(qū)、岳麓區(qū)為長(zhǎng)沙市中心城區(qū),這四個(gè)區(qū)域的經(jīng)濟(jì)發(fā)展?fàn)顩r較為良好,城市建設(shè)用地占比高,而其余地區(qū)的土地類型以林地、耕地、居民地以及工廠等為主。通過對(duì)該城市的自然地理要素以及人文地理要素對(duì)污染物濃度影響程度的考察,進(jìn)行污染物濃度預(yù)測(cè)算法的研究,對(duì)長(zhǎng)江中下游城市空氣污染防控預(yù)警系統(tǒng)的建設(shè)具有重要意義。圖2-1湖南省長(zhǎng)沙市研究數(shù)據(jù)獲取本次設(shè)計(jì)所獲取的數(shù)據(jù),選取區(qū)域?yàn)楹鲜¢L(zhǎng)沙市,主要分為六種類型:濃度數(shù)據(jù)、氣象數(shù)據(jù)、人口數(shù)據(jù)、高程數(shù)據(jù)、道路數(shù)據(jù)以及土地利用數(shù)據(jù)等。濃度數(shù)據(jù),包括178個(gè)監(jiān)測(cè)站點(diǎn)的污染物濃度數(shù)據(jù),監(jiān)測(cè)站點(diǎn)多,且在各個(gè)區(qū)均有分布,污染物主要由O3滑動(dòng)8小時(shí)、PM2.5、PM10、SO2、CO、O3、NO2六類主要污染物濃度數(shù)據(jù)構(gòu)成,數(shù)據(jù)由湖南省長(zhǎng)沙生態(tài)環(huán)境中心提供,數(shù)據(jù)采樣時(shí)間間隔1個(gè)小時(shí),時(shí)間為每天24的逐小時(shí)數(shù)據(jù),時(shí)間范圍為2020年夏冬兩季的數(shù)據(jù)。格式為表格格式,少量站點(diǎn)在某時(shí)段存在缺失,數(shù)據(jù)重復(fù)等問題。氣象數(shù)據(jù),包括長(zhǎng)沙市2020年一整年采樣時(shí)間間隔為大致一小時(shí)的濕度(SHU)、氣壓(PRS)、溫度(TMP)、降水(PRE)、風(fēng)力(WIN)數(shù)據(jù),數(shù)據(jù)由湖南省氣象局網(wǎng)站長(zhǎng)沙市氣象局()獲取,格式為文本格式,為格網(wǎng)分布式的加密點(diǎn)數(shù)據(jù),含有經(jīng)緯度以及氣象數(shù)據(jù)的值。部分?jǐn)?shù)據(jù)采樣間隔分布不均(少于1小時(shí))和缺失的問題。人口數(shù)據(jù),包括2019年的長(zhǎng)沙市人口分布數(shù)據(jù),數(shù)據(jù)的空間分辨率為100*100米,由網(wǎng)站統(tǒng)計(jì)年鑒分享平臺(tái)()提供數(shù)據(jù),格式為標(biāo)簽圖像文件。道路數(shù)據(jù),包括長(zhǎng)沙市各類道路的道路等級(jí)以及長(zhǎng)度數(shù)據(jù),數(shù)據(jù)的格式為矢量文件;長(zhǎng)沙市2017年的土地利用數(shù)據(jù),為面狀矢量文件格式;長(zhǎng)沙市地形高程數(shù)據(jù)、湖南省地級(jí)市行政邊界和區(qū)縣行政邊界矢量數(shù)據(jù)。均來自于網(wǎng)站地理國(guó)情監(jiān)測(cè)云平臺(tái)()。2.3數(shù)據(jù)預(yù)處理針對(duì)2.2節(jié)獲取的研究數(shù)據(jù),進(jìn)行數(shù)據(jù)預(yù)處理工作。對(duì)各類數(shù)據(jù)的處理情況根據(jù)設(shè)計(jì)的具體實(shí)踐(第3、4章)會(huì)有所不同。此次設(shè)計(jì)進(jìn)行時(shí)序預(yù)報(bào)建模和空間分布估算建模的工作主要以工具M(jìn)ATLAB為主要工作空間,因此在處理數(shù)據(jù)最后盡量回歸到MATLAB能處理的狀態(tài)。(1)濃度數(shù)據(jù)的處理。查詢監(jiān)測(cè)站信息利用站點(diǎn)名作為索引進(jìn)行站點(diǎn)信息的匹配工作和批處理工作解決監(jiān)測(cè)站點(diǎn)濃度數(shù)據(jù)沒有經(jīng)緯度信息;部分時(shí)刻站點(diǎn)濃度數(shù)據(jù)存在異常值(負(fù)值)、以及重復(fù)和缺失現(xiàn)象,針對(duì)這種現(xiàn)象,采取負(fù)值取零,刪去重復(fù)值的方法,以Excel、MATLAB作為技術(shù)支撐,將濃度數(shù)據(jù)保存為數(shù)據(jù)集格式。(2)氣象數(shù)據(jù)的處理。利用MATLAB對(duì)各類氣象數(shù)據(jù)文件進(jìn)行分類并進(jìn)行初步預(yù)處理使得ArcGIS能對(duì)數(shù)據(jù)進(jìn)行展點(diǎn)等后續(xù)多項(xiàng)如顯示XY事件等操作,對(duì)于數(shù)據(jù)缺失的部分采取相鄰時(shí)段均值替換,而數(shù)據(jù)重復(fù)的部分采取均值;由于站點(diǎn)的位置和氣象數(shù)據(jù)網(wǎng)格點(diǎn)經(jīng)緯度信息不匹配,利用ArcGIS進(jìn)行批量處理操作:對(duì)氣象數(shù)據(jù)進(jìn)行重采樣和空間插值處理,利用空間分析提取賦值給監(jiān)測(cè)站點(diǎn),使得監(jiān)測(cè)站點(diǎn)具有時(shí)間連續(xù)變化的氣象數(shù)據(jù)信息。利用(1)獲得的濃度數(shù)據(jù)根據(jù)站點(diǎn)號(hào)(上一步獲得的)與此時(shí)獲得的站點(diǎn)氣象數(shù)據(jù)匹配進(jìn)行數(shù)據(jù)的匹配,數(shù)據(jù)格式也保存為矢量形式。(3)人口數(shù)據(jù)、地形數(shù)據(jù),利用ArcGIS,對(duì)人口數(shù)據(jù)和地形數(shù)據(jù)進(jìn)行投影變化,空間分析將值提取至監(jiān)測(cè)站點(diǎn),最后將數(shù)據(jù)進(jìn)行轉(zhuǎn)化,通過MATLAB進(jìn)行格式轉(zhuǎn)化保存為數(shù)據(jù)集形式。以上三步獲取得到的數(shù)據(jù)集,具有站點(diǎn)號(hào)、時(shí)間、污染物濃度、氣象數(shù)據(jù)信息等基本信息,為PM2.5濃度站點(diǎn)時(shí)序預(yù)報(bào)的研究做數(shù)據(jù)準(zhǔn)備工作。(4)道路數(shù)據(jù)預(yù)處理。進(jìn)行投影。(5)土地利用數(shù)據(jù)預(yù)處理。進(jìn)行投影。(6)其他數(shù)據(jù)預(yù)處理。利用湖南省地級(jí)市行政邊界文件將長(zhǎng)沙市邊界矢量文件導(dǎo)出,利用獲得的長(zhǎng)沙市繪制網(wǎng)格加密點(diǎn),同(2)(3)步驟使得網(wǎng)格加密點(diǎn)具有氣象數(shù)據(jù)信息、人口、地形信息。由于涉及到建模思想,(4)、(5)、(6)數(shù)據(jù)的具體處理過程在第四章進(jìn)行詳細(xì)闡述。通過以上步驟對(duì)數(shù)據(jù)進(jìn)行了梳理。大部分步驟采用Python、ArcGIS、MATLAB等語言與工具進(jìn)行批處理工作,大幅度縮減了工作的時(shí)間,并且避免了人工處理的錯(cuò)誤。

第3章PM2.5濃度站點(diǎn)時(shí)序深度學(xué)習(xí)預(yù)報(bào)傳統(tǒng)的PM2.5濃度預(yù)測(cè)的一般思想原理是研究歷史污染物濃度數(shù)據(jù)時(shí)序變化的特征規(guī)律,以過去時(shí)刻污染物濃度作為變量預(yù)測(cè)未來時(shí)刻的污染物濃度,這種思想過度依賴于海量的歷史數(shù)據(jù),并且存在計(jì)算量大,只能對(duì)于固定站點(diǎn)進(jìn)行研究,容易受外在因素的影響等問題。然而PM2.5濃度不會(huì)止步于過去時(shí)段內(nèi)的污染物濃度影響,筆者認(rèn)為這只是在理想狀態(tài)下的研究,實(shí)際污染物并不會(huì)在原地以勻速擴(kuò)散。實(shí)際污染物的濃度受多方因素影響:擴(kuò)散速度會(huì)受到空氣中的濕度、風(fēng)力、氣壓、降水等因素影響;大量污染物受風(fēng)力、風(fēng)速影響由其他站點(diǎn)傳播至站點(diǎn)致使站點(diǎn)PM2.5濃度驟然上升等等。在預(yù)測(cè)時(shí)長(zhǎng)上大多數(shù)學(xué)者選取日、月均值、季均值進(jìn)行,只能在宏觀上對(duì)PM2.5濃度變化的趨勢(shì)具有了解,卻不能實(shí)現(xiàn)精細(xì)預(yù)測(cè)。本文基于以上問題提出了一種以氣象數(shù)據(jù)和污染物濃度數(shù)據(jù)為預(yù)測(cè)變量,進(jìn)行小時(shí)級(jí)別的PM2.5濃度預(yù)測(cè)的建模方法,提高了PM2.5濃度預(yù)測(cè)的精度。圖3-1PM2.5濃度站點(diǎn)時(shí)序預(yù)報(bào)LSTM時(shí)序預(yù)報(bào)建模LSTM原理由于結(jié)構(gòu)的特征,循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)在處理具有前后時(shí)間關(guān)聯(lián)性的序列數(shù)據(jù)具有優(yōu)勢(shì),克服了傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)(FeedforwardNeuralNetwork)不具有記憶能力,難以通過分析歷史數(shù)據(jù)獲取前后時(shí)刻序列數(shù)據(jù)的聯(lián)系。然而,循環(huán)神經(jīng)網(wǎng)絡(luò)存在一定缺陷:循環(huán)神經(jīng)網(wǎng)絡(luò)不能存儲(chǔ)較長(zhǎng)時(shí)間的信息,由于其采用鏈?zhǔn)角髮?dǎo)法則,隨著時(shí)間的往后推動(dòng),離節(jié)點(diǎn)越遠(yuǎn)的后續(xù)節(jié)點(diǎn)所受前節(jié)點(diǎn)的影響或是急劇增加或是逐漸消失,出現(xiàn)梯度爆炸或梯度消失的問題。長(zhǎng)短期記憶網(wǎng)絡(luò)(LongShortTermMemoryNetwork,LSTM)的出現(xiàn)完善了循環(huán)神經(jīng)網(wǎng)絡(luò)梯度爆炸或梯度消失的問題。作為一類特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),LSTM在處理序列數(shù)據(jù)方面具有顯著優(yōu)勢(shì),不僅能夠充分考慮相鄰時(shí)刻事件之間的聯(lián)系,也能夠處理時(shí)間跨度較長(zhǎng)的序列數(shù)據(jù),保留了RNN的優(yōu)點(diǎn),在此基礎(chǔ)上進(jìn)行了發(fā)展。適合日常生活中時(shí)間序列事件的預(yù)測(cè)研究。LSTM在RNN的基礎(chǔ)上增加了記憶單元,具有兩個(gè)傳輸狀態(tài):記憶單元狀態(tài)(h)、隱藏狀態(tài)(c);主要分為四個(gè)部分組成:輸入門、輸出門、遺忘門、記憶單元,每一個(gè)單元的構(gòu)成都具有其特定的功能。RNN、LSTM網(wǎng)絡(luò)結(jié)構(gòu)、LSTM網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)分別如下圖所示:圖3-2RNN網(wǎng)絡(luò)結(jié)構(gòu)圖圖3-3LSTM網(wǎng)絡(luò)結(jié)構(gòu)圖圖3-4長(zhǎng)短期記憶網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)圖在時(shí)間步t上,每個(gè)記憶單元節(jié)點(diǎn)具有四種門:輸入門it、輸出門ot、遺忘門ft、候選單元gt。LSTM的可學(xué)習(xí)權(quán)重包括輸入權(quán)W、循環(huán)權(quán)RW=WiWfWgWo其中的下標(biāo)i、f、g、o分別表示輸入門、遺忘門、候選單元和輸出門。具體分為以下幾個(gè)步驟,其具體公式和步驟如下:(1)輸入門:輸入門(inputgate)控制輸入保存到記憶細(xì)胞中的信息,對(duì)于t時(shí)刻的輸入門iit=(2)遺忘門:遺忘門(forgetgate)決定記憶單元需要遺忘的信息,對(duì)于t時(shí)刻的遺忘門ftft=σg(3)候選單元:t時(shí)刻為記憶單元狀態(tài)添加信息值gt gt=σ(4)輸出門:輸出門(outputgate)控制輸出的信息,t時(shí)刻的輸出值otot=σg其中σg為門激活函數(shù)、σc為狀態(tài)激活函數(shù),σg函數(shù)為使用σx=1+e?x?1根據(jù)以上公式對(duì)下一時(shí)刻的記憶單元狀態(tài)值ct和隱藏狀態(tài)值hct=ht=預(yù)報(bào)模型構(gòu)建擬確定訓(xùn)練變量此次設(shè)計(jì)主要目的是預(yù)測(cè)PM2.5濃度,而PM2.5濃度易受多源因素影響發(fā)生顯著變化,就本次獲取的整體數(shù)據(jù)分析PM2.5濃度的影響因素:歷史污染物濃度自身會(huì)隨著時(shí)間的變化,呈現(xiàn)一定的周期性和規(guī)律;本次研究區(qū)域位于長(zhǎng)江中下游地區(qū),氣候?qū)賮啛釒Ъ撅L(fēng)氣候,各個(gè)季節(jié)呈現(xiàn)不同氣象特征,而氣象因素也會(huì)影響污染物濃度的擴(kuò)散速度和擴(kuò)散方向;地勢(shì)越高,風(fēng)力大,污染物濃度擴(kuò)散地快,而相對(duì)盆地這類地勢(shì)低處的地形,氣壓穩(wěn)定,濕度大,污染物不易擴(kuò)散容易聚集;研究區(qū)域人口越密集,那么該區(qū)域交通、生活、生產(chǎn)所需必然伴隨著能源地消耗和污染物的產(chǎn)生。因此,初步選定監(jiān)測(cè)站點(diǎn)的六種污染物濃度PM2.5、PM10、SO2、O3、NO2、CO(包含O3滑動(dòng)8小時(shí)和O3小時(shí)尺度的數(shù)據(jù)),五種氣象數(shù)據(jù)包括溫度、濕度、風(fēng)速、氣壓作為此次LSTM神經(jīng)網(wǎng)絡(luò)PM2.5濃度預(yù)測(cè)模型的預(yù)測(cè)變量,其中響應(yīng)為PM2.5濃度。時(shí)間跨度為2020年1月1日0時(shí)至2020年2月1日0時(shí)(冬季),數(shù)據(jù)間隔為1小時(shí)(污染物濃度數(shù)據(jù)、氣象數(shù)據(jù),其余為恒定值),每個(gè)站點(diǎn)數(shù)據(jù)共計(jì)745條,共167個(gè)站點(diǎn)。模型搭建數(shù)據(jù)準(zhǔn)備由于PM2.5濃度容易受到氣象因素的影響,并且氣象變化更快的原因,此次設(shè)計(jì)將前一小時(shí)的污染物濃度數(shù)據(jù)和預(yù)測(cè)時(shí)的氣象數(shù)據(jù)作為訓(xùn)練模型的預(yù)測(cè)變量,而將預(yù)測(cè)時(shí)的PM2.5濃度作為響應(yīng),據(jù)此,對(duì)數(shù)據(jù)進(jìn)行相應(yīng)處理:如下圖所示,根據(jù)數(shù)據(jù)預(yù)處理得到的監(jiān)測(cè)站數(shù)據(jù)集,將數(shù)據(jù)分為預(yù)測(cè)變量x和響應(yīng)y,x包括整體數(shù)據(jù)(污染物濃度、氣象數(shù)據(jù)等)。對(duì)x進(jìn)行分類,將污染物濃度數(shù)據(jù)(人口和高程數(shù)據(jù)可選)挑選出來作為預(yù)測(cè)變量x1,而其余作為預(yù)測(cè)變量x2(人口和高程數(shù)據(jù)可選)。預(yù)測(cè)變量數(shù)據(jù)錯(cuò)開:將x1的第一個(gè)樣本值與倒數(shù)到第二個(gè)樣本值篩選出來,篩選x2的第二個(gè)樣本直至最后一個(gè)樣本,將兩者進(jìn)行串聯(lián)得到新的預(yù)測(cè)變量X;響應(yīng)y也做相應(yīng)處理,篩選第二個(gè)樣本直至最后一個(gè)樣本以得到新的響應(yīng)Y。圖3-5模型搭建數(shù)據(jù)準(zhǔn)備模型設(shè)計(jì)具體過程依據(jù)(1)所獲取的數(shù)據(jù)集,共173個(gè)監(jiān)測(cè)站點(diǎn),每個(gè)監(jiān)測(cè)站點(diǎn)含745條時(shí)序數(shù)據(jù)信息,共計(jì)128885條數(shù)據(jù),對(duì)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)進(jìn)行分區(qū),其中訓(xùn)練集由時(shí)間序列前90%的數(shù)據(jù)集構(gòu)成,共計(jì)115996條數(shù)據(jù),測(cè)試集由其余10%的數(shù)據(jù)集構(gòu)成,共計(jì)12889條數(shù)據(jù)。根據(jù)(2)所做數(shù)據(jù)準(zhǔn)備,準(zhǔn)備預(yù)測(cè)變量與響應(yīng),神經(jīng)網(wǎng)絡(luò)的輸入為前一時(shí)間步的污染物濃度PM2.5、PM10、SO2、O3、NO2、CO,預(yù)測(cè)時(shí)間步的氣象數(shù)據(jù)(溫度、濕度、風(fēng)速、氣壓),輸出為預(yù)測(cè)時(shí)間步的PM2.5濃度,時(shí)間步對(duì)應(yīng)于1小時(shí);為了獲得更好的訓(xùn)練效果防止訓(xùn)練發(fā)散,所有訓(xùn)練集的所有數(shù)據(jù)進(jìn)行歸一化處理操作,測(cè)試集的預(yù)測(cè)變量采用訓(xùn)練集預(yù)測(cè)變量的歸一化參數(shù)進(jìn)行歸一化處理。接下來,依據(jù)上述步驟,對(duì)監(jiān)測(cè)站點(diǎn)進(jìn)行網(wǎng)絡(luò)構(gòu)建與預(yù)報(bào),具體建模過程如下:第一步:定義LSTM架構(gòu)。指定LSTM含有200個(gè)隱藏層,特征數(shù)目為11,響應(yīng)數(shù)目為1;依此通過相關(guān)函數(shù)決定序列輸入層(sequenceInputLayer)、LSTM層、丟棄層(dropoutLayer)、完全連接層(FullyConnectedLayer)。其中丟棄層參數(shù)設(shè)置為0.5,有效防止過擬合的問題。通過上述工作進(jìn)行初步定義網(wǎng)絡(luò)層架構(gòu)。第二步:指定訓(xùn)練選項(xiàng),綜合多種情形,Adam工作性能優(yōu)秀,具有實(shí)現(xiàn)簡(jiǎn)單,計(jì)算高效、對(duì)內(nèi)存需求少等優(yōu)點(diǎn),優(yōu)化器設(shè)為Adam。設(shè)置訓(xùn)練次數(shù)為250,為防止梯度爆炸,將梯度閾值設(shè)置為1;初始學(xué)習(xí)率為0.005,在訓(xùn)練進(jìn)程到一半時(shí),學(xué)習(xí)率乘以0.2來降低學(xué)習(xí)率。在初次建模時(shí),為了更好的觀察訓(xùn)練的進(jìn)行,在訓(xùn)練選項(xiàng)中通過添加‘Plotstraining-progress’選擇顯示進(jìn)程;為了選擇最優(yōu)模型,將初始學(xué)習(xí)率,學(xué)習(xí)率降低因子等參數(shù)可以在實(shí)驗(yàn)中更改,直至模型的預(yù)測(cè)精度符合要求。第三步:利用訓(xùn)練數(shù)據(jù)集訓(xùn)練LSTM網(wǎng)絡(luò)。第四步:利用測(cè)試集進(jìn)行預(yù)測(cè),由于訓(xùn)練與測(cè)試數(shù)據(jù)的時(shí)間步都為1小時(shí),則可以直接利用測(cè)試集數(shù)據(jù)利用上一步獲得的網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),重置網(wǎng)絡(luò)狀態(tài),使用for循環(huán)對(duì)每一個(gè)時(shí)間步進(jìn)行預(yù)測(cè),并在每一次預(yù)測(cè)時(shí)進(jìn)行網(wǎng)絡(luò)狀態(tài)更新,最終所有預(yù)測(cè)值進(jìn)行歸一化恢復(fù)處理操作。第五步:篩選變量,利用(2)所得數(shù)據(jù)帶入模型中,根據(jù)剔除或增加變量法分析變量,以獲取最優(yōu)模型。第六步:研究預(yù)測(cè)時(shí)間步,并對(duì)不同時(shí)間步的預(yù)測(cè)結(jié)果和精度進(jìn)行評(píng)定與分析。CNN-LSTM預(yù)報(bào)建模CNN-LSTM原理在上一小節(jié)的內(nèi)容的基礎(chǔ)上進(jìn)行拓展,提出一種兩個(gè)神經(jīng)網(wǎng)絡(luò)聯(lián)合預(yù)測(cè)(卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)合,CNN-LSTM)的方法進(jìn)行預(yù)測(cè)模型構(gòu)建的研究,期望提高預(yù)測(cè)結(jié)果的精度。長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)對(duì)于處理時(shí)間序列的數(shù)據(jù)具有優(yōu)勢(shì),但在輸入神經(jīng)網(wǎng)絡(luò)的變量含有特征尺度較大時(shí),會(huì)影響處理效率和精度,大量的參數(shù)可能導(dǎo)致過擬合。而卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionNeuralNetworks,CNN)善于處理圖像的特征,可以完美解決上述過擬合和效率低的問題。將具有污染物濃度、氣象因素(溫度、濕度、風(fēng)速、氣壓)的時(shí)間序列數(shù)據(jù)作為圖像數(shù)據(jù),利用卷積神經(jīng)網(wǎng)絡(luò)提取數(shù)據(jù)的特征,將輸出作為L(zhǎng)STM的輸入數(shù)據(jù),利用LSTM網(wǎng)絡(luò)進(jìn)行回歸預(yù)測(cè)。應(yīng)用該研究思路進(jìn)行模型的探索。CNN-LSTM結(jié)構(gòu)如下圖所示圖3-6CNN-LSTM結(jié)構(gòu)預(yù)報(bào)模型構(gòu)建數(shù)據(jù)處理與3.1節(jié)預(yù)報(bào)建模所作數(shù)據(jù)處理內(nèi)容相同。網(wǎng)絡(luò)預(yù)報(bào)模型構(gòu)建的具體過程如下:第一步:CNN-LSTM層。指定該模型具有兩個(gè)隱藏層,第一個(gè)隱藏層具有150層,第二個(gè)隱藏層具有100層。首先對(duì)輸入層的特征尺寸進(jìn)行定義(每次預(yù)測(cè)變量的個(gè)數(shù));由于要使用CNN和LSTM結(jié)合預(yù)測(cè),添加序列折疊層,通過該層將‘圖像序列’(帶有多項(xiàng)特征的數(shù)據(jù)相當(dāng)于二維圖像形式,具有時(shí)間特征和值)進(jìn)行時(shí)間步卷積操作;增加二維卷積層,設(shè)置濾波器的高寬分別為3、1,過濾器的個(gè)數(shù)設(shè)置為12,其中垂直和水平步幅均設(shè)置為1;由于隨著深度神經(jīng)網(wǎng)絡(luò)層數(shù)增加,越往后面,輸入數(shù)據(jù)的變化非常明顯而不能適應(yīng)網(wǎng)絡(luò)參數(shù)的更新,采取批次規(guī)范化層進(jìn)行歸一化處理;由于梯度消失的問題,而一般的激活函數(shù)sigmoid和tanh不能用于多層網(wǎng)絡(luò),因此,再添加一個(gè)校正線性單元層,其公式如3-8所示;接下來進(jìn)行池化,選擇最大池化(MaxPooling),具有防止過擬合的作用;卷積操作完成,對(duì)應(yīng)之前的序列的折疊層,在這里添加一個(gè)序列展開層,恢復(fù)序列結(jié)構(gòu);為了將多維的輸入實(shí)現(xiàn)一維化的操作,添加平滑層(FlattenLayer);增添LSTM層,再增加丟棄層;增加全連接層;最后增加回歸輸出層。fx=第二步:指定訓(xùn)練選項(xiàng)。采用Adam求解器,訓(xùn)練次數(shù)為250次,梯度閾值為1,初始學(xué)習(xí)率設(shè)為0.001,定義在125輪訓(xùn)練以后開始下降學(xué)習(xí)率,批的最小尺寸設(shè)為100。相關(guān)設(shè)置具體如下表所示,其余參數(shù)按默認(rèn)設(shè)置。表3-1訓(xùn)練參數(shù)指標(biāo)表屬性值初始學(xué)習(xí)率1.00E-03降低學(xué)習(xí)率選項(xiàng)piecewise降低學(xué)習(xí)率因子0.2學(xué)習(xí)率下降時(shí)期125梯度閾值1訓(xùn)練最大次數(shù)250小批尺寸100顯示培訓(xùn)進(jìn)度選項(xiàng)0執(zhí)行環(huán)境CPU第三步:根據(jù)層結(jié)構(gòu)和訓(xùn)練選項(xiàng)進(jìn)行模型的訓(xùn)練,修改參數(shù)優(yōu)化模型。第四步:將第三步訓(xùn)練優(yōu)化得到的模型,應(yīng)用到測(cè)試集預(yù)測(cè),最終獲得的預(yù)測(cè)值進(jìn)行反歸一化處理。進(jìn)行結(jié)果的精度評(píng)定與分析。第五步:與3.1節(jié)得到的模型預(yù)測(cè)結(jié)果以及精度進(jìn)行對(duì)比與分析,得出結(jié)論。結(jié)果分析與討論3.3.1逐小時(shí)預(yù)報(bào)以冬季1月1日0時(shí)至2月1日零時(shí)(冬季)為時(shí)間跨度,時(shí)間間隔為1小時(shí),以前90%為訓(xùn)練集,后10%為測(cè)試集。利用過去一個(gè)小時(shí)監(jiān)測(cè)站點(diǎn)的六種污染物濃度PM2.5、PM10、SO2、O3、NO2、CO(包含O3滑動(dòng)8小時(shí)和O3小時(shí)尺度的數(shù)據(jù))與未來一小時(shí)五種氣象數(shù)據(jù)包括溫度、濕度、風(fēng)速、氣壓對(duì)未來一小時(shí)的PM2.5濃度進(jìn)行預(yù)測(cè)。變量分析通過實(shí)驗(yàn),將高程、人口密度這類隨時(shí)間變化并不大的“穩(wěn)定因子”加入預(yù)測(cè)變量進(jìn)行建模,使用均方根誤差(RMSE)、擬合精度(R2)兩個(gè)指標(biāo)以及擬合直線和散點(diǎn)圖進(jìn)行模型精度的評(píng)價(jià),同時(shí)使用測(cè)試集驗(yàn)證模型,結(jié)果如圖3-9至圖3-10所示。此過程通過3.1節(jié)LSTM建模方法,利用增加變量法進(jìn)行研究。未增加高程和人口密度作為變量進(jìn)行PM2.5濃度預(yù)測(cè)時(shí),建模RMSE為4.84ug/m3,R2為0.94;增加高程作為變量進(jìn)行預(yù)測(cè)建模,RSME為7.54ug/m3,R2為0.88;而增加了人口密度作為變量后,RMSE高達(dá)19.03ug/m3。R2為0.02,RMSE越小,說明預(yù)報(bào)模型的預(yù)報(bào)整體誤差?。籖2越接近1,說明預(yù)報(bào)值與實(shí)際觀測(cè)值的擬合效果,預(yù)報(bào)模型越有效;散點(diǎn)圖的分布可以判別PM2.5濃度預(yù)報(bào)值與PM2.5濃度實(shí)際觀測(cè)之間的關(guān)聯(lián)趨勢(shì);通過對(duì)比建模的RMSE、R2、圖像散點(diǎn)圖以及擬合直線的分布情況,結(jié)果說明,未增加高程和人口密度因子作為變量時(shí),即利用過去一個(gè)小時(shí)監(jiān)測(cè)站點(diǎn)的六種污染物濃度PM2.5、PM10、SO2、O3、NO2、CO(包含O3滑動(dòng)8小時(shí)和O3小時(shí)尺度的數(shù)據(jù))與未來一小時(shí)五種氣象數(shù)據(jù)包括溫度、濕度、風(fēng)速、氣壓作為建模的預(yù)測(cè)變量預(yù)報(bào)未來一小時(shí)的PM2.5濃度效果最佳,散點(diǎn)分布圖呈線性分布,采用最小二乘擬合直線,直線斜率接近于1,說明預(yù)報(bào)效果極佳。使用測(cè)試集進(jìn)行比較,三種情形下的擬合精度與擬合趨勢(shì)效果也呈現(xiàn)依次下降的趨勢(shì),更加驗(yàn)證了結(jié)論,所以對(duì)于站點(diǎn)PM2.5預(yù)測(cè)變量的選擇上考慮時(shí)間依賴性強(qiáng)的因子。其中RMSE、R2的計(jì)算公式如下:RMSE=i=1ny?yR2=y?y圖3-8未增加穩(wěn)定因子時(shí)訓(xùn)練建模、測(cè)試的散點(diǎn)圖及其擬合精度:(a)訓(xùn)練;(b)測(cè)試圖3-9增加高程時(shí)訓(xùn)練建模、測(cè)試的散點(diǎn)圖及其擬合精度:(a)訓(xùn)練;(b)測(cè)試圖3-10增加人口密度時(shí)訓(xùn)練建模、測(cè)試的散點(diǎn)圖及其擬合精度:(a)訓(xùn)練;(b)測(cè)試(2)預(yù)報(bào)方法研究以55號(hào)站點(diǎn)為例,根據(jù)3.1、3.2節(jié)的LSTM與CNN-LSTM建模過程進(jìn)行PM2.5濃度預(yù)報(bào)建模,預(yù)測(cè)未來一小時(shí)的PM2.5濃度,使用一種機(jī)器學(xué)習(xí)方法極限學(xué)習(xí)機(jī)(ExtremeLearningMachines,ELM)與兩種方法進(jìn)行對(duì)比,為了保證對(duì)比的可信度,三種方法建模使用相同的訓(xùn)練集,使用同一個(gè)測(cè)試集進(jìn)行測(cè)試,對(duì)結(jié)果進(jìn)行分析評(píng)價(jià)。繪制預(yù)報(bào)值與實(shí)際觀測(cè)值散點(diǎn)圖、擬合直線,通過散點(diǎn)圖和擬合直線分析擬合效果。如圖3-11所示,通過各預(yù)報(bào)趨勢(shì)線與實(shí)際觀測(cè)值趨勢(shì)線對(duì)比,雖然三種方式都能夠有效預(yù)測(cè)PM2.5濃度,但其中CNN-LSTM回歸預(yù)報(bào)結(jié)果與實(shí)際觀測(cè)值最接近,其趨勢(shì)基本吻合,LSTM次之,而ELM的效果最差。圖3-11擬合趨勢(shì)線對(duì)比圖通過計(jì)算RSME、R2兩個(gè)指標(biāo),對(duì)CNN-LSTM、LSTM和ELM三種預(yù)報(bào)方法的結(jié)果分別進(jìn)行評(píng)定與分析,實(shí)驗(yàn)得到的結(jié)果如圖3-13至圖3-17所示,從散點(diǎn)圖、擬合趨勢(shì)線以及擬合精度R2等各項(xiàng)指標(biāo)分析分析:三種方法測(cè)試集的RSME均不超過7.46ug/m3,而擬合精度均優(yōu)于0.73,預(yù)報(bào)效果均呈現(xiàn)良好,其中CNN-LSTM的方法預(yù)測(cè)效果呈現(xiàn)最佳,LSTM也是一種精度較高的方法,并且與前者相差并不大,ELM預(yù)測(cè)顯然沒有前兩種有效。從各預(yù)報(bào)方法的誤差分布圖來看,其趨勢(shì)與PM2.5濃度趨勢(shì)圖一致,當(dāng)PM2.5濃度變化較為明顯的時(shí)間段內(nèi)的預(yù)報(bào)誤差也會(huì)隨之增加,而相對(duì)平緩的時(shí)段預(yù)測(cè)值與實(shí)際觀測(cè)值吻合情況相當(dāng)好。在實(shí)驗(yàn)的過程中發(fā)現(xiàn),隨著試驗(yàn)次數(shù)的增加,雖然RMSE和R2的值會(huì)發(fā)生波動(dòng),但并不影響三種方法的預(yù)測(cè)效果,隨機(jī)進(jìn)行十次實(shí)驗(yàn),對(duì)均方根誤差以及擬合精度值進(jìn)行平均,分析結(jié)果,如表3-2所示,CNN-LSTM和LSTM的預(yù)測(cè)效果在訓(xùn)練集上差別不大,而CNN-LSTM在測(cè)試集的預(yù)測(cè)效果上更佳,ELM預(yù)報(bào)效果最差。通過腳本運(yùn)行計(jì)時(shí),LSTM的預(yù)報(bào)模型的效率比CNN-LSTM高,ELM預(yù)報(bào)模型的效率最高,有時(shí)預(yù)報(bào)模型精度甚至優(yōu)于前兩種模型,但預(yù)測(cè)精度不穩(wěn)定。綜合以上評(píng)價(jià),LSTM預(yù)報(bào)模型性能最優(yōu),適用于站點(diǎn)PM2.5濃度時(shí)序預(yù)報(bào)。表3-2各預(yù)報(bào)方法精度指標(biāo)平均值預(yù)報(bào)方法建模R2測(cè)試R2建模RSME測(cè)試RSMECNN-LSTM0.970.844.754.61LSTM0.980.834.125.31ELM0.940.606.899.33圖3-12CNN-LSTM預(yù)測(cè)結(jié)果對(duì)比及其誤差分布圖3-13CNN-LSTM訓(xùn)練建模、測(cè)試的散點(diǎn)圖及其擬合精度:圖左訓(xùn)練;圖右測(cè)試圖3-14LSTM預(yù)測(cè)結(jié)果對(duì)比及其誤差分布圖3-15LSTM訓(xùn)練建模、測(cè)試的散點(diǎn)圖及其擬合精度:圖左訓(xùn)練;圖右測(cè)試圖3-16ELM預(yù)測(cè)結(jié)果對(duì)比及其誤差分布圖3-17ELM訓(xùn)練建模、測(cè)試的散點(diǎn)圖及其擬合精度:圖左訓(xùn)練;圖右測(cè)試3.3.2預(yù)報(bào)時(shí)長(zhǎng)拓展研究經(jīng)過3.3.1逐小時(shí)預(yù)報(bào)建模的結(jié)果分析,已經(jīng)可以通過分析歷史污染物濃度數(shù)據(jù)和氣象數(shù)據(jù)與PM2.5濃度之間的時(shí)序聯(lián)系獲取未來1小時(shí)的PM2.5濃度,并且預(yù)測(cè)精度較高,而實(shí)際生活中一小時(shí)的預(yù)測(cè)結(jié)果顯然不能滿足需求,基于此,本文提出一種新的方法預(yù)報(bào)未來8個(gè)小時(shí)、24小時(shí)、72小時(shí)的PM2.5濃度。其基本原理:根據(jù)訓(xùn)練集所得到的LSTM的網(wǎng)絡(luò)模型,由T-1時(shí)刻的污染物濃度和T時(shí)刻的氣象數(shù)據(jù)可以獲得T時(shí)刻的PM2.5濃度預(yù)測(cè)值,將T時(shí)刻的PM2.5濃度預(yù)測(cè)值代入T時(shí)刻的預(yù)測(cè)變量中即T時(shí)刻預(yù)測(cè)值更換為T+1時(shí)刻觀測(cè)值,更新網(wǎng)絡(luò)狀態(tài),對(duì)T+1時(shí)刻的PM2.5濃度進(jìn)行預(yù)測(cè),通過多次迭代預(yù)測(cè),就可以實(shí)現(xiàn)從小時(shí)預(yù)測(cè)到更長(zhǎng)時(shí)間的預(yù)測(cè)。根據(jù)這種思想研究不同時(shí)長(zhǎng)的預(yù)測(cè)的精度。其散點(diǎn)分布圖與各項(xiàng)精度指標(biāo)如圖所示。通過對(duì)比分析直接預(yù)測(cè)8小時(shí)、直接預(yù)測(cè)24小時(shí)與直接預(yù)測(cè)72小時(shí)的結(jié)果精度,結(jié)果顯示直接預(yù)測(cè)8小時(shí)、24小時(shí)的精度較高,72小時(shí)預(yù)測(cè)精度較差,預(yù)測(cè)的時(shí)間跨度越長(zhǎng),預(yù)測(cè)結(jié)果越不可靠。圖3-17未來8小時(shí)預(yù)測(cè)結(jié)果及其精度指標(biāo)圖3-17未來24小時(shí)預(yù)測(cè)結(jié)果及其精度指標(biāo)圖3-19未來72小時(shí)預(yù)測(cè)結(jié)果及其精度指標(biāo)3.3.3站點(diǎn)全天時(shí)預(yù)報(bào)成果根據(jù)3.3.2節(jié)對(duì)監(jiān)測(cè)站點(diǎn)未來24小時(shí)(全天時(shí))的PM2.5濃度進(jìn)行預(yù)報(bào),各站點(diǎn)PM2.5預(yù)測(cè)精度如下表所示,由于站點(diǎn)過多,僅顯示部分結(jié)果(共173個(gè)監(jiān)測(cè)站點(diǎn),僅顯示100個(gè)監(jiān)測(cè)站點(diǎn)的精度指標(biāo)結(jié)果),其余預(yù)報(bào)成果提交于附錄中。部分監(jiān)測(cè)站點(diǎn)由于氣象數(shù)據(jù)或歷史污染物濃度數(shù)據(jù)異常缺失,無法補(bǔ)全進(jìn)行訓(xùn)練預(yù)報(bào)。據(jù)統(tǒng)計(jì),總共173個(gè)監(jiān)測(cè)站點(diǎn),其中有150個(gè)監(jiān)測(cè)站點(diǎn)的全天時(shí)預(yù)測(cè)樣本集的R2值超過0.7,占比約87%;RMSE不超過10ug/m3的監(jiān)測(cè)站點(diǎn)占比約62%,說明整體預(yù)測(cè)精度高,模型預(yù)測(cè)性能強(qiáng),并且比較穩(wěn)定,預(yù)測(cè)結(jié)果與實(shí)際觀測(cè)值比較吻合。而部分監(jiān)測(cè)站點(diǎn)PM2.5濃度預(yù)測(cè)精度不高與所處時(shí)段(冬季)以及某些突發(fā)不可控因素導(dǎo)致PM2.5濃度急劇變化有關(guān)。表3-3各監(jiān)測(cè)站點(diǎn)預(yù)報(bào)精度指標(biāo)站點(diǎn)編號(hào)訓(xùn)練樣本集全天時(shí)預(yù)報(bào)樣本集站點(diǎn)編號(hào)訓(xùn)練樣本集全天時(shí)預(yù)報(bào)樣本集R2R2RMSER2R2RMSE10.930.738.08510.980.898.6520.980.859.50520.980.8114.3930.970.9012.19530.970.8710.3340.980.796.36540.980.824.8050.980.689.84550.980.8514.3560.970.8310.24560.980.816.327NULLNULLNULL570.980.904.7580.980.888.39580.980.828.9590.980.817.49590.980.8712.20100.980.736.48600.980.8312.50110.980.914.72610.980.8815.31120.980.805.59620.970.808.07130.980.8612.28630.980.878.47140.980.879.83640.980.8511.32150.980.826.36650.980.895.35160.980.806.14660.980.824.95170.980.886.76670.980.805.98180.980.814.84680.980.656.3319NULLNULLNULL690.980.823.07200.980.865.14700.980.805.17210.980.843.77710.980.6610.49220.980.779.07720.980.863.22230.980.906.07730.980.867.58240.980.6918.28740.980.795.83250.980.892.56750.980.795.85260.980.927.03760.980.8711.07270.980.874.48770.980.852.79280.980.843.25780.970.788.63290.980.785.82790.980.614.10300.980.786.56800.980.786.40310.980.708.74810.980.6712.52320.980.798.76820.980.764.57330.980.866.27830.980.916.52340.980.809.44840.970.857.81350.970.816.46850.980.859.43360.980.804.31860.980.833.78370.970.606.72870.980.857.13380.980.807.66880.970.577.27390.980.6818.6989NULLNULLNULL400.980.714.35900.960.877.19410.980.799.34910.960.5312.97420.990.765.99920.960.7711.12430.980.8210.65930.960.7712.56440.980.609.75940.960.7111.73450.980.669.36950.960.759.05460.980.715.81960.960.6513.98470.980.832.96970.950.907.47480.980.828.0098NULLNULLNULL490.980.772.78990.970.7212.93500.980.789.261000.940.7213.93

第4章PM2.5濃度時(shí)空精細(xì)預(yù)報(bào)方法研究針對(duì)大多數(shù)學(xué)者在PM2.5濃度時(shí)序預(yù)測(cè)研究中僅針以地面分布稀疏的監(jiān)測(cè)站點(diǎn)為研究對(duì)象,對(duì)站點(diǎn)PM2.5濃度預(yù)報(bào)建模精心鉆研,而忽略連續(xù)空間PM2.5濃度估算,研究方案很難運(yùn)用于實(shí)際特定時(shí)刻以及特定地的PM2.5濃度預(yù)測(cè)的難題,本文提出一種長(zhǎng)短期記憶(LongShortMemoryTime,LSTM)和隨機(jī)森林(RandomForest,RF)結(jié)合的方法實(shí)現(xiàn)PM2.5濃度時(shí)空耦合精細(xì)預(yù)報(bào)制圖,為PM2.5濃度時(shí)空預(yù)報(bào)趨勢(shì)提供一種新的技術(shù)方案和研究路線??臻g分布估算制圖隨機(jī)森林原理決策樹(DecisionTree)是一種監(jiān)督學(xué)習(xí)算法,根據(jù)任務(wù)類型可以分為分類與回歸決策樹;使用分類回歸預(yù)測(cè)數(shù)(ClassificationAndRegression,CART)既可以用于分類,也可用回歸預(yù)測(cè),其構(gòu)成為一個(gè)二叉樹,基本思想原理是通過給定樣本,樣本具有分類結(jié)果或?qū)?yīng)輸出值及屬性或特征一一對(duì)應(yīng),通過學(xué)習(xí)樣本對(duì)新數(shù)據(jù)做出判斷分類或回歸預(yù)測(cè)。決策樹廣泛應(yīng)用于統(tǒng)計(jì)和數(shù)據(jù)挖掘技術(shù)領(lǐng)域,其優(yōu)缺點(diǎn)也比較突出:相較于傳統(tǒng)的統(tǒng)計(jì)預(yù)測(cè)模型,針對(duì)變量復(fù)雜、多的情況,性能優(yōu)越,運(yùn)行速率快,預(yù)測(cè)準(zhǔn)確率高;其缺點(diǎn)是容易發(fā)生過擬合,容易忽略變量之間的相互關(guān)聯(lián)等。本次設(shè)計(jì)的情形顯然是回歸任務(wù),通過分析多個(gè)監(jiān)測(cè)站點(diǎn)的PM2.5濃度與氣象數(shù)據(jù)以及道路長(zhǎng)度、人口、土地利用情況等之間的聯(lián)系,以建立模型能夠準(zhǔn)確預(yù)測(cè)PM2.5濃度。隨機(jī)森林(RandomForest,RF),是集成學(xué)習(xí)中的Bagging(BootstrapAggregation)算法,集成學(xué)習(xí)的基本思想特點(diǎn)是“集思廣益”,將多個(gè)只在個(gè)別領(lǐng)域表現(xiàn)突出的監(jiān)督模型結(jié)合起來以獲取一個(gè)穩(wěn)定而在多領(lǐng)域表現(xiàn)較好的模型。而RF由多棵決策樹構(gòu)成,在訓(xùn)練過程中,隨機(jī)從數(shù)據(jù)集中采樣來訓(xùn)練模型中的每棵決策樹,由于每次采取的樣本不一樣,每一個(gè)決策樹的輸出結(jié)果相似卻并不一樣,根絕這些相似的決策樹結(jié)果分支整合最終輸出結(jié)果。因此,采用RF進(jìn)行預(yù)報(bào)建模具有如下優(yōu)點(diǎn):由于模型的隨機(jī)性很強(qiáng),可以很大程度上解決決策樹容易產(chǎn)生過擬合的問題;對(duì)于異常數(shù)據(jù)的處理能力強(qiáng),由于每個(gè)決策樹只采用總體數(shù)據(jù)集的部分樣點(diǎn),因此在處理多維度的特征變量時(shí)運(yùn)行效率相比單一決策樹提高了不少;由于其自身結(jié)構(gòu)的特點(diǎn),模型可以直觀的解釋每個(gè)變量的貢獻(xiàn)程度。在進(jìn)行PM2.5濃度預(yù)報(bào)研究時(shí),不可避免應(yīng)用多類特征要素進(jìn)行預(yù)測(cè)研究,而隨機(jī)森林顯然適用該類情形。隨機(jī)森林建模制圖建模數(shù)據(jù)準(zhǔn)備由第三章所獲取的數(shù)據(jù):2020年1月31日23時(shí)至2020年2月1日0時(shí)共24小時(shí)167個(gè)監(jiān)測(cè)站點(diǎn)的PM2.5濃度數(shù)據(jù)以及預(yù)測(cè)數(shù)據(jù)、氣象條件包括氣溫、氣壓、風(fēng)速、濕度數(shù)據(jù),以及人口密度數(shù)據(jù)和地形高程數(shù)據(jù)。而現(xiàn)有的數(shù)據(jù)很明顯不能滿足構(gòu)建模型的需要。道路越密集,交通越便利,意味著交通流量的增加,而機(jī)動(dòng)車的開動(dòng)必然伴隨著能源的消耗從而影響PM2.5濃度;另一方面,城市的規(guī)模越大,城鎮(zhèn)建筑物在研究區(qū)域的面積占比越多,也能在一定程度上影響著PM2.5的濃度。因此,道路以及土地利用也是影響PM2.5濃度的關(guān)鍵因子。而將道路、土地利用等地理要素特征變量通過數(shù)據(jù)處理,賦值到監(jiān)測(cè)站點(diǎn)是比較棘手的問題。為解決該問題,本研究利用ArcGIS和SPSS作為技術(shù)支撐,采用空間分析思想,通過對(duì)監(jiān)測(cè)站點(diǎn)周圍建立緩沖區(qū),緩沖區(qū)取1km,截取道路長(zhǎng)度以及土地利用面積,經(jīng)過領(lǐng)域分析與統(tǒng)計(jì),獲得監(jiān)測(cè)站周圍的道路長(zhǎng)度,以及各種類型的土地在監(jiān)測(cè)站點(diǎn)周圍的面積。以表為表現(xiàn)形式建立監(jiān)測(cè)站點(diǎn)與兩種地理要素之間的聯(lián)系。進(jìn)一步,由于研究區(qū)域的土地利用類型較多,而面積占主體為主要為其中幾種,特別考慮城市建設(shè)用地,為研究特定土地利用類型對(duì)PM2.5濃度的影響,選取土地利用類型中的四種:水田、有林地、其他建設(shè)用地(除城市建設(shè)用地之外的其他建設(shè)用地)、城鎮(zhèn)用地,進(jìn)行面積占比計(jì)算。對(duì)地理要素特征變量進(jìn)行篩選,選取剔除變量或增加變量法,選取最具有影響力的特征變量作為建模變量,并對(duì)各要素對(duì)PM2.5濃度的影響效果做分析。最終獲取的特征變量如表4-1所示。貢獻(xiàn)程度“+”表示該要素與PM2.5濃度呈正相關(guān),“-”則相反。城鎮(zhèn)用地面積占比的貢獻(xiàn)呈負(fù),地形高程的貢獻(xiàn)為負(fù),也證明城市的發(fā)展程度和高程與PM2.5濃度相關(guān)。表4-1模型變量選取變量單位貢獻(xiàn)程度氣壓Pa+風(fēng)速m/s-溫度K-濕度%+高程m-人口人+城鎮(zhèn)用地占比%+水田面積占比%-其他建設(shè)用地面積占比%+林地面積占比%-預(yù)測(cè)變量準(zhǔn)備為實(shí)現(xiàn)稀疏觀測(cè)站點(diǎn)到面狀的PM2.5濃度預(yù)報(bào),采用網(wǎng)格對(duì)研究區(qū)域劃分,劃分的尺寸盡量小,設(shè)置劃分尺寸為1km即PM2.5濃度空間分布預(yù)報(bào)制圖分辨率。采用網(wǎng)格的中心點(diǎn)作為加密點(diǎn),這些加密點(diǎn)相當(dāng)于新增的“監(jiān)測(cè)站點(diǎn)”,這些新增的點(diǎn)不具有除了位置之外的屬性信息,因此需要對(duì)加密點(diǎn)進(jìn)行與監(jiān)測(cè)站點(diǎn)相同的數(shù)據(jù)處理工作:根據(jù)第二章所獲得的氣象數(shù)據(jù)、地形高程數(shù)據(jù)、人口數(shù)據(jù),利用空間分析將值提取至加密點(diǎn);對(duì)加密點(diǎn)建立緩沖區(qū),采取與(1)節(jié)相同方式建立表聯(lián)系;最后,加密點(diǎn)也同樣具有氣象條件、地形高程等地理要素特征。建模制圖過程根據(jù)(1)所做的數(shù)據(jù)準(zhǔn)備,以特定時(shí)刻的167個(gè)站點(diǎn)數(shù)據(jù)為例進(jìn)行模型構(gòu)建,訓(xùn)練變量為監(jiān)測(cè)站點(diǎn)處的氣壓、風(fēng)速、溫度、濕度、高程、人口城鎮(zhèn)用地占比、水田面積占比、其他建設(shè)用地占比以及林地面積占比,預(yù)測(cè)變量為監(jiān)測(cè)站點(diǎn)的PM2.5濃度,研究這些地理要素特征與PM2.5濃度的聯(lián)系,采用隨機(jī)森林算法進(jìn)行預(yù)報(bào)建模,根絕建模結(jié)果預(yù)測(cè)PM2.5濃度,最后制圖,具體步驟如下:第一步:準(zhǔn)備預(yù)測(cè)變量數(shù)據(jù)與響應(yīng)。第二步:指定隨機(jī)森林訓(xùn)練選項(xiàng)并進(jìn)行訓(xùn)練,定義決策數(shù)的個(gè)數(shù)為100,選擇任務(wù)為回歸,選定需要存儲(chǔ)每棵樹的袋子里的觀測(cè)結(jié)果的信息,同時(shí)指定需要預(yù)測(cè)機(jī)器重要性的分析。第三步:利用精度指標(biāo)R2、RMSE對(duì)訓(xùn)練結(jié)果進(jìn)行評(píng)定,為了更好的檢驗(yàn)?zāi)P偷姆夯芰头€(wěn)定性,采用十折交叉驗(yàn)證訓(xùn)練模型。優(yōu)化模型。模型擬合精度為0.83,交叉驗(yàn)證擬合精度達(dá)到0.63,均方根誤差均不超過5ug/m3,模型精度較好。圖4-1PM2.5濃度與預(yù)報(bào)值散點(diǎn)分布圖:圖左為訓(xùn)練模型精度;圖右為十折交叉驗(yàn)證精度第四步:根據(jù)優(yōu)化模型,進(jìn)行空間PM2.5濃度分布模擬。利用加密點(diǎn)的地理要素特征變量預(yù)測(cè)加密點(diǎn)處的PM2.5濃度。第五步:根據(jù)加密點(diǎn)預(yù)測(cè)的PM2.5濃度,采用空間插值生成區(qū)域PM2.5濃度分布圖。如圖4-1為某一時(shí)刻的PM2.5濃度空間分布制圖結(jié)果,圖像所在區(qū)域顏色越接近淺綠色表明該地區(qū)PM2.5濃度越低,而越接近深紅色表明該地區(qū)的PM2.5濃度越高。其中中西部受輕中度,污染中部地區(qū)受污染最嚴(yán)重,而東西邊緣地區(qū)受污染程度較輕,污染物濃度沿東西走勢(shì)逐漸變低,與圖4-2所示長(zhǎng)沙市分區(qū)情況也比較吻合,位于中部地區(qū)為芙蓉區(qū)、開福區(qū)、雨花區(qū)等區(qū)都屬于市中心區(qū)域,屬于交通更加便利,人口分布更為集中,受污染的來源更多,而瀏陽市與寧鄉(xiāng)市發(fā)展沒有市中心那么好,因此中部地區(qū)PM2.5濃度相對(duì)于東西兩部就會(huì)高很多。圖4-2長(zhǎng)沙市PM2.5濃度空間分布圖4-3長(zhǎng)沙市分區(qū)圖時(shí)空耦合精細(xì)預(yù)報(bào)制圖根據(jù)3.3節(jié)獲取的167個(gè)監(jiān)測(cè)站點(diǎn)的未來24小時(shí)(1月31日1時(shí)至2月1日零時(shí))的PM2.5濃度(預(yù)測(cè)值)利用4.1節(jié)的空間分布估算制圖原理獲取PM2.5濃度空間分布精細(xì)制圖。實(shí)現(xiàn)了由監(jiān)測(cè)站點(diǎn)PM2.5濃度的時(shí)序預(yù)報(bào)向面的延伸,如圖4-3所示,總體而言,在這24小時(shí)內(nèi),長(zhǎng)沙市中心持續(xù)受空氣污染影響,且受影響最嚴(yán)重,而其余地區(qū)受地形、城市開發(fā)程度等影響,污染情況沒有那么嚴(yán)重。圖4-4長(zhǎng)沙市PM2.5濃度時(shí)空耦合精細(xì)預(yù)報(bào)制圖

第5章結(jié)論與展望結(jié)論此次設(shè)計(jì)以湖南省長(zhǎng)沙市為研究區(qū)域,從多種角度與因素分析PM2.5濃度的時(shí)空變化特征,期望利用深度學(xué)習(xí)或機(jī)器學(xué)習(xí)算法以實(shí)現(xiàn)PM2.5濃度時(shí)空精細(xì)預(yù)報(bào),基于此,開展多項(xiàng)工作,通過熟悉工具、學(xué)習(xí)多種算法,對(duì)PM2.5濃度的時(shí)空預(yù)測(cè)方法具有一定理解。根據(jù)以上的工作,在自己的理解下嘗試采用LSTM、RF算法開展實(shí)驗(yàn),獲得一種PM2.5濃度時(shí)空耦合預(yù)報(bào)制圖方法。本文的研究成果與結(jié)論主要分為兩部分。在時(shí)序預(yù)報(bào)研究上,實(shí)現(xiàn)了小時(shí)級(jí)別的站點(diǎn)PM2.5濃度精細(xì)預(yù)報(bào),并且采用一種構(gòu)建CNN-LSTM模型進(jìn)行預(yù)報(bào)的方法改進(jìn)LSTM預(yù)報(bào)方法;使用LSTM模型對(duì)短期未來8小時(shí)、24小時(shí)的PM2.5濃度進(jìn)行準(zhǔn)確預(yù)報(bào)。在空間估算研究上,采用隨機(jī)森林算法實(shí)現(xiàn)PM2.5濃度空間分布模擬,根據(jù)時(shí)序預(yù)報(bào)研究的未來24小時(shí)的PM2.5濃度預(yù)報(bào)結(jié)果采用上述空間模擬方法獲取PM2.5濃度時(shí)空預(yù)報(bào)制圖,實(shí)現(xiàn)了站點(diǎn)PM2.5濃度向空間維度的拓展。展望根據(jù)本研究所作的共內(nèi)容,本文針對(duì)實(shí)際工作的不足之處在以下幾個(gè)方面提出了展望,期望在下一階段的工作中完善設(shè)計(jì)。首先,數(shù)據(jù)處理方面,此次設(shè)計(jì)處理數(shù)據(jù)的效率不是很高,采用多個(gè)工具處理數(shù)據(jù),數(shù)據(jù)之間的轉(zhuǎn)換過程多,開展的工作內(nèi)容斷斷續(xù)續(xù),不能實(shí)現(xiàn)一步到位,并且對(duì)于數(shù)據(jù)缺失的問題不能很妥善地處理。因此在下一階段的工作中,將在數(shù)據(jù)處理的工作量上將進(jìn)一步拓展,完善代碼,提高數(shù)據(jù)處理的效率。其次,時(shí)序預(yù)報(bào)研究方面,采用CNN-LSTM方法進(jìn)行預(yù)報(bào)建模改進(jìn)LSTM預(yù)報(bào)建模的效果沒有那么顯著,代碼運(yùn)行效率不是很高,尤其是對(duì)應(yīng)多個(gè)站點(diǎn)的時(shí)序預(yù)報(bào),處理時(shí)間較長(zhǎng),并且在長(zhǎng)期預(yù)測(cè)方面效果不佳。采用LSTM預(yù)報(bào)模型在實(shí)現(xiàn)時(shí)間預(yù)測(cè)窗口的延長(zhǎng),使用滾動(dòng)預(yù)測(cè)的方式對(duì)未來8小時(shí)、24小時(shí)的PM2.5濃度進(jìn)行直接預(yù)測(cè),預(yù)測(cè)精度明顯比逐小時(shí)預(yù)報(bào)效果差,滾動(dòng)預(yù)測(cè)方法進(jìn)行預(yù)報(bào)進(jìn)行長(zhǎng)期的預(yù)測(cè)結(jié)果不可信。因此在未來的工作中期望改進(jìn)CNN-LSTM模型代碼的實(shí)現(xiàn),對(duì)預(yù)測(cè)時(shí)長(zhǎng)的拓展考慮采用增大時(shí)間間隔,利用相同時(shí)間步滑動(dòng)預(yù)測(cè)的方式進(jìn)行預(yù)測(cè),即將時(shí)間步滑動(dòng)窗口由1小時(shí)延長(zhǎng)至多小時(shí),由多個(gè)時(shí)間步的PM2.5濃度預(yù)測(cè)多個(gè)時(shí)間步的PM2.5濃度,實(shí)現(xiàn)多輸入多輸出。最后,空間分布估算方面,文獻(xiàn)資料的查詢工作不到位,對(duì)空間制圖的概念以及實(shí)驗(yàn)了解不是很深,采用隨機(jī)森林算法進(jìn)行建模預(yù)報(bào),精度存在不高的現(xiàn)象,并且,時(shí)空預(yù)報(bào)制圖不夠精細(xì)。預(yù)期在一階段工作中拓展學(xué)習(xí)資料;從建模變量入手,挖掘更具有影響力的數(shù)據(jù),比如AOD數(shù)據(jù)等,在制圖上添加更多細(xì)節(jié)。參考文獻(xiàn)[1]DiQ,WangY,ZanobettiA,etal.AirPollutionandMortalityintheMedicarePopulation[J].NewEnglandJournalofMedicine,2017,376(26):2513-2522.[2]ChenG,ZhangW,LiS,etal.TheimpactofambientfineparticlesoninfluenzatransmissionandthemodificationeffectsoftemperatureinChina:Amulti-citystudy[J].EnvironmentInternational,2017,98:82.[3]KnippertzP,EvansMJ,FieldPR,etal.ThepossibleroleoflocalairpollutioninclimatechangeinWestAfrica[J].NatureClimateChange,2015,5(9):815-822.[4]AbbattJ,LeaitchWR,AliabadiAA,etal.Overviewpaper:NewinsightsintoaerosolandclimateintheArctic[J].AtmosphericChemistryandPhysics,2019,19(4):2527-2560.[5]ZhangRJ,Kin-FaiHO.TheRoleofAerosolinClimateChange,theEnvironment,andHumanHealth[J].AtmosphericandOceanicScienceLetters,2012.[6]FangX,ZouB,LiuX,etal.Satellite-basedgroundPM2.5est

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論