《污染場(chǎng)地土壤環(huán)境多源數(shù)據(jù)集成整合方法指南》_第1頁(yè)
《污染場(chǎng)地土壤環(huán)境多源數(shù)據(jù)集成整合方法指南》_第2頁(yè)
《污染場(chǎng)地土壤環(huán)境多源數(shù)據(jù)集成整合方法指南》_第3頁(yè)
《污染場(chǎng)地土壤環(huán)境多源數(shù)據(jù)集成整合方法指南》_第4頁(yè)
《污染場(chǎng)地土壤環(huán)境多源數(shù)據(jù)集成整合方法指南》_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

團(tuán)體標(biāo)準(zhǔn)

污染場(chǎng)地土壤環(huán)境多源數(shù)據(jù)集成整合方法指南

Guidanceonmethodsforintegrationofmultiple

sourcesofsoilenvironmentdatain

contaminatedsites

(T/SSSC)

1范圍

本文件涉及的數(shù)據(jù)主要為污染場(chǎng)地土壤環(huán)境相關(guān)結(jié)構(gòu)化屬性和空間數(shù)據(jù)以

及非結(jié)構(gòu)化識(shí)別數(shù)據(jù),囊括多源異構(gòu)數(shù)據(jù)預(yù)處理、轉(zhuǎn)換、變換等技術(shù)方法,相關(guān)

數(shù)據(jù)集成中間件技術(shù),以及數(shù)據(jù)庫(kù)、表結(jié)構(gòu)、元數(shù)據(jù)等構(gòu)建方法。

本文件適用于污染場(chǎng)地土壤環(huán)境相關(guān)多源異構(gòu)數(shù)據(jù)預(yù)處理、轉(zhuǎn)換/變換、建

庫(kù)、數(shù)據(jù)映射、入庫(kù)匯聚等技術(shù)流程。

2規(guī)范性文件引用

本指南引用了下列文件中的條款。凡是注明日期的引用文件,僅注日期的版

本適用于本指南。凡是不注明日期的引用文件,其有效版本(包括修改單)適用

于本指南。

GB/T41224-2021/ISO28256:2013土壤質(zhì)量土壤相關(guān)數(shù)據(jù)的數(shù)字交換

GB/T18391.1-2002信息技術(shù)數(shù)據(jù)元的規(guī)范與標(biāo)準(zhǔn)化第1部分:數(shù)據(jù)元的

規(guī)范與標(biāo)準(zhǔn)化框架

GB/T35295-2017信息技術(shù)大數(shù)據(jù)術(shù)語(yǔ)

GB/T16820-2009地圖學(xué)術(shù)語(yǔ)

GB/T30883-2014信息技術(shù)數(shù)據(jù)集成中間件

GB/T19710-2005地理信息元數(shù)據(jù)

HJ682—2014污染場(chǎng)地術(shù)語(yǔ)

HJ/T166-2004土壤環(huán)境監(jiān)測(cè)技術(shù)規(guī)范

DB52/T1540.3-2020政務(wù)數(shù)據(jù)第3部分:數(shù)據(jù)清洗加工規(guī)范

3術(shù)語(yǔ)和定義

下列術(shù)語(yǔ)和定義適用于本文件。

3.1場(chǎng)地site

某一地塊范圍內(nèi)的土壤、地下水、地表水以及地塊內(nèi)所有構(gòu)筑物、設(shè)施和生

物的總和。

[HJ682—2014,2.1.1]

3.2污染場(chǎng)地contaminatedsite

對(duì)潛在污染場(chǎng)地進(jìn)行調(diào)查和風(fēng)險(xiǎn)評(píng)估后,確認(rèn)污染危害超過(guò)人體健康或生態(tài)

環(huán)境可接受風(fēng)險(xiǎn)水平的場(chǎng)地。

[HJ682—2014,2.2.2]

3.3土壤環(huán)境soilenvironment

地球環(huán)境由巖石圈、水圈、土壤圈、生物圈和大氣圈構(gòu)成,土壤位于該系統(tǒng)

的中心,既是各圈層相互作用的產(chǎn)物,又是各圈層物質(zhì)循環(huán)與能量交換的樞紐。

受自然和人為作用,內(nèi)在或外顯的土壤狀況稱之為土壤環(huán)境。

[HJ/T166-2004,3.2]

3.4數(shù)據(jù)data

對(duì)事實(shí)、概念或指令的一種形式化表示,適用于以人工或自動(dòng)方式進(jìn)行通信、

解釋或處理。

[GB/T18391.1-2002,3.12]

3.5結(jié)構(gòu)化數(shù)據(jù)structureddata

由數(shù)據(jù)元素匯集而成,每個(gè)記錄的結(jié)構(gòu)一致,且可以使用關(guān)系模型予以有效

描述的一種數(shù)據(jù)表示形式。

[GB/T35295-2017,2.2.13]

3.6非結(jié)構(gòu)化數(shù)據(jù)unstructureddata

不具有預(yù)定義模型或未以預(yù)定義方式組織的數(shù)據(jù)。

[GB/T35295-2017,2.2.25]

3.7空間參考系統(tǒng)spatialreferencesystem

空間參考系統(tǒng)是指地理目標(biāo)平面位置和高程的平面坐標(biāo)系和高程系的統(tǒng)稱,

即在進(jìn)行空間位置描述時(shí)的參照系。

3.8空間數(shù)據(jù)spatialdata

又稱幾何數(shù)據(jù),用來(lái)表示物體的位置、形態(tài)、大小分布等各方面的信息,是

對(duì)現(xiàn)世界中存在的具有定位意義的事物和現(xiàn)象的定量描述。

3.9矢量數(shù)據(jù)vectordata

以坐標(biāo)或有序坐標(biāo)串表示的空間點(diǎn)、線、面等圖形數(shù)據(jù)及與其相聯(lián)系的有關(guān)

屬性數(shù)據(jù)的總稱。

[GB/T16820-2009,5.13]

3.10柵格數(shù)據(jù)griddata

將地理空間劃分成按行、列規(guī)則排列的單元,且各單元帶有不同“值”的數(shù)

據(jù)集。

[GB/T16820-2009,5.14]

3.11土壤圖soilmap

一定地理范圍土壤或其性質(zhì)的二維或三維的表征。

[GB/T41224-2021,3.29]

3.12表結(jié)構(gòu)tablestructure

為主體層內(nèi)容提供表示語(yǔ)義的一種存儲(chǔ)范例。

[GB/T35295-2017,2.2.14]

3.13中間件middleware

在系統(tǒng)軟件和應(yīng)用軟件之間提供連接的獨(dú)立軟件。

[GB/T30883-2014,3.1]

3.14元數(shù)據(jù)metadata

關(guān)于數(shù)據(jù)的數(shù)據(jù)。即數(shù)據(jù)的標(biāo)識(shí)、覆蓋范圍、質(zhì)量、空間和時(shí)間模式、空間

參照系和分發(fā)等信息。

[GB/T19710-2005,4.5]

4多源數(shù)據(jù)集成整合框架

4.1數(shù)據(jù)組成

進(jìn)行集成整合的污染場(chǎng)地多源數(shù)據(jù),主要為結(jié)構(gòu)化屬性和空間數(shù)據(jù),以及非

結(jié)構(gòu)化識(shí)別數(shù)據(jù)。

4.1.1結(jié)構(gòu)化數(shù)據(jù)

1)二維表結(jié)構(gòu)數(shù)據(jù)

大量污染場(chǎng)地核心數(shù)據(jù)由二維表結(jié)構(gòu)表達(dá)的數(shù)據(jù),包括但不限以下數(shù)據(jù):土

壤采樣點(diǎn)位數(shù)據(jù)、樣品物理屬性數(shù)據(jù)、樣品化學(xué)屬性數(shù)據(jù)、樣品生物屬性數(shù)據(jù)、

污染物測(cè)試化驗(yàn)數(shù)據(jù)、場(chǎng)地環(huán)境敏感目標(biāo)、工商企業(yè)基礎(chǔ)信息、建設(shè)用地土壤污

染風(fēng)險(xiǎn)管控和修復(fù)名錄、重點(diǎn)排污單位名錄等。

2)空間數(shù)據(jù)

污染場(chǎng)地相關(guān)空間數(shù)據(jù),包括但不限于以下數(shù)據(jù):數(shù)字地形及其衍生數(shù)據(jù)、

地貌分布數(shù)據(jù)、土壤類型分布數(shù)據(jù)、土壤理化屬性分布數(shù)據(jù)、基礎(chǔ)地理圖、氣候

/氣象因子分布數(shù)據(jù)、土地利用數(shù)據(jù)、遙感影像數(shù)據(jù)等。

4.1.2非結(jié)構(gòu)化數(shù)據(jù)

主要考慮污染場(chǎng)地相關(guān)非結(jié)構(gòu)化文檔和圖片,包括但不限于以下數(shù)據(jù):場(chǎng)地

環(huán)境初步調(diào)查報(bào)告、場(chǎng)地環(huán)境詳細(xì)調(diào)查報(bào)告、場(chǎng)地環(huán)境風(fēng)險(xiǎn)評(píng)估報(bào)告、土壤修復(fù)

方案、排污單位自行監(jiān)測(cè)報(bào)告、排污單位監(jiān)督性監(jiān)測(cè)報(bào)告、隱患排查報(bào)告、清潔

生產(chǎn)報(bào)告、環(huán)境影響評(píng)價(jià)報(bào)告等,以及污染場(chǎng)地相關(guān)的逐月降雨分布(柱狀圖或

散點(diǎn)圖)、污染物濃度分布柱狀圖、污染物濃度隨深度變化散點(diǎn)圖等。場(chǎng)地非結(jié)

構(gòu)化文檔報(bào)告經(jīng)過(guò)表格抽取、文本要素抽取等處理,圖片數(shù)據(jù)經(jīng)過(guò)識(shí)別處理,將

抽取識(shí)別結(jié)果進(jìn)行結(jié)構(gòu)化處理后進(jìn)行集成整合。

4.2技術(shù)框架

多源數(shù)據(jù)集成整合是一個(gè)復(fù)雜的過(guò)程,在考慮多類型數(shù)據(jù)及其自身特點(diǎn)基礎(chǔ)

上,基于土壤、環(huán)境、地理信息、遙感等相關(guān)理論,采用PostgreSQL、PostGIS

等工具,綜合運(yùn)用數(shù)據(jù)預(yù)處理、數(shù)據(jù)變換和轉(zhuǎn)換、匹配映射、存儲(chǔ)和管理以及中

間件等一系列技術(shù)方法,進(jìn)行多源、異構(gòu)、復(fù)雜的結(jié)構(gòu)化與非結(jié)構(gòu)化識(shí)別數(shù)據(jù)集

成整合,以建立標(biāo)準(zhǔn)統(tǒng)一、質(zhì)量可靠、方便共享的數(shù)據(jù)資源庫(kù)??傮w技術(shù)框架如

圖1所示。

圖1數(shù)據(jù)集成整合技術(shù)框架

4.3技術(shù)方法

4.3.1中間件技術(shù)

在數(shù)據(jù)集成過(guò)程中常用到中間件技術(shù)(稱為數(shù)據(jù)集成中間件),用來(lái)將不同

來(lái)源、格式和性質(zhì)的數(shù)據(jù)進(jìn)行邏輯或物理上的有機(jī)集成,進(jìn)而為分散、異構(gòu)的數(shù)

據(jù)提供統(tǒng)一可靠的訪問(wèn)服務(wù),包括但不限于數(shù)據(jù)預(yù)處理、數(shù)據(jù)變換、數(shù)據(jù)轉(zhuǎn)換、

數(shù)據(jù)入庫(kù)等中間件。

4.3.2ETL技術(shù)

在數(shù)據(jù)集成過(guò)程中,經(jīng)常會(huì)用到ETL(Extract-Transform-Load)技術(shù),它可

以將大量污染場(chǎng)地相關(guān)數(shù)據(jù)經(jīng)過(guò)提取、轉(zhuǎn)換、加載到目標(biāo)數(shù)據(jù)庫(kù),進(jìn)而實(shí)現(xiàn)(半)

自動(dòng)的數(shù)據(jù)集成整合。

4.3.3數(shù)據(jù)映射技術(shù)

數(shù)據(jù)映射技術(shù)是將不同數(shù)據(jù)源中的數(shù)據(jù)字段和結(jié)構(gòu),映射到目標(biāo)數(shù)據(jù)庫(kù)模型

的過(guò)程,旨在實(shí)現(xiàn)不同數(shù)據(jù)源之間的數(shù)據(jù)對(duì)應(yīng)和整合,數(shù)據(jù)映射可以通過(guò)中間件、

ETL、API等技術(shù)實(shí)現(xiàn)。

5數(shù)據(jù)庫(kù)設(shè)計(jì)與構(gòu)建流程

為完成集成整合后土壤環(huán)境數(shù)據(jù)的統(tǒng)一規(guī)范存儲(chǔ),首先梳理數(shù)據(jù)庫(kù)中主要數(shù)

據(jù)資源;其次針對(duì)不同的數(shù)據(jù)內(nèi)容,設(shè)計(jì)建立數(shù)據(jù)庫(kù)表,建立相應(yīng)的數(shù)據(jù)索引及

元數(shù)據(jù);再次建立相關(guān)數(shù)據(jù)庫(kù)表的關(guān)聯(lián)關(guān)系,并進(jìn)行屬性和空間數(shù)據(jù)關(guān)聯(lián),構(gòu)建

屬性空間一體化的數(shù)據(jù)資源庫(kù)(圖2)。

圖2數(shù)據(jù)庫(kù)構(gòu)建流程

5.1數(shù)據(jù)庫(kù)設(shè)計(jì)

土壤環(huán)境數(shù)據(jù)資源庫(kù)包括但不限于表1所示的數(shù)據(jù)資源,利用工商企業(yè)名稱

(編碼)、場(chǎng)地名稱(編碼)、樣點(diǎn)名稱(編號(hào))等關(guān)鍵字段建立數(shù)據(jù)庫(kù)表之間的

關(guān)聯(lián)關(guān)系,以及屬性數(shù)據(jù)和空間數(shù)據(jù)間的關(guān)聯(lián)關(guān)系。

表1污染場(chǎng)地土壤環(huán)境數(shù)據(jù)資源庫(kù)

屬性數(shù)據(jù)庫(kù)

管理相關(guān)工商企業(yè)數(shù)據(jù)

重點(diǎn)排污單位名錄

危險(xiǎn)廢物經(jīng)營(yíng)許可證名錄

建設(shè)用地土壤污染風(fēng)險(xiǎn)管控和修復(fù)名錄

建設(shè)用地土壤污染風(fēng)險(xiǎn)篩選值和管控值

場(chǎng)地相關(guān)場(chǎng)地利用演變

水文地質(zhì)信息

環(huán)境敏感目標(biāo)

主要原輔材料信息

三廢相關(guān)信息

特征污染物信息

土層概況信息

采樣點(diǎn)位信息

土壤理化屬性信息

污染物信息

修復(fù)相關(guān)信息

空間數(shù)據(jù)庫(kù)

自然環(huán)境地形數(shù)據(jù)

地貌數(shù)據(jù)

降雨分布

溫度分布

土地利用

植被分布

土壤母質(zhì)

土壤類型

土壤屬性

河流水系

地下水埋深

人工環(huán)境行政區(qū)劃

地名地址

興趣點(diǎn)

道路交通

住宅小區(qū)

自然保護(hù)地

公園綠地

5.2數(shù)據(jù)庫(kù)表構(gòu)建

數(shù)據(jù)庫(kù)表宜根據(jù)以下流程設(shè)計(jì)構(gòu)建:

1)根據(jù)土壤環(huán)境相關(guān)屬性數(shù)據(jù)的特點(diǎn),設(shè)計(jì)合適的數(shù)據(jù)表結(jié)構(gòu),包括字段

名稱、字段類型、約束條件等,并根據(jù)數(shù)據(jù)間關(guān)系設(shè)計(jì)表之間的關(guān)聯(lián)。

2)根據(jù)空間數(shù)據(jù)的特點(diǎn),設(shè)計(jì)合適的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)表來(lái)存儲(chǔ)空間幾何對(duì)

象、空間屬性等。

3)確定空間數(shù)據(jù)和屬性數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,采用空間索引和屬性索引加

速查詢和空間分析。

4)定義適當(dāng)?shù)募s束條件,包括主鍵約束、外鍵約束、唯一性約束等,確保

數(shù)據(jù)的完整性和一致性。

5)記錄數(shù)據(jù)庫(kù)表相關(guān)信息,包括但不限于數(shù)據(jù)字典、元數(shù)據(jù)、表描述、字

段描述等,便于數(shù)據(jù)庫(kù)管理維護(hù)。

6結(jié)構(gòu)化數(shù)據(jù)集成整合

6.1屬性數(shù)據(jù)集成整合

結(jié)構(gòu)化屬性數(shù)據(jù)集成流程及相關(guān)技術(shù)方法如下:

1)分析不同來(lái)源數(shù)據(jù)的格式、字段名稱及其含義等,對(duì)于土壤屬性、污染

物等,還要關(guān)注分析測(cè)試方法、分析儀器、計(jì)量單位、有效值范圍等。

2)歸納所涉及的字段,確定數(shù)據(jù)庫(kù)表名稱及其含義,以及庫(kù)表中字段名稱、

類型、長(zhǎng)度、主鍵等。

3)對(duì)于不同來(lái)源的數(shù)據(jù),進(jìn)行數(shù)據(jù)規(guī)范化操作,如統(tǒng)一名稱、度量單位等。

4)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,去除重復(fù)數(shù)據(jù)、處理缺失數(shù)據(jù)、修正異常數(shù)據(jù)等清

洗操作。

5)基于PostgreSQL等數(shù)據(jù)庫(kù)軟件,設(shè)計(jì)并構(gòu)建相關(guān)數(shù)據(jù)庫(kù)表,進(jìn)行規(guī)范化

命名,并對(duì)表、字段等進(jìn)行注釋形成元數(shù)據(jù)。

6)利用中間件、ETL工具(如Kettle)等,構(gòu)建源數(shù)據(jù)到目標(biāo)數(shù)據(jù)庫(kù)表的

映射規(guī)則,將相關(guān)數(shù)據(jù)加載到目標(biāo)數(shù)據(jù)庫(kù)。

注:在以上步驟中,可以開發(fā)相關(guān)的中間件,實(shí)現(xiàn)數(shù)據(jù)預(yù)處理、字段轉(zhuǎn)換、

單位變換、缺失值填補(bǔ)等過(guò)程。

6.2空間數(shù)據(jù)集成整合

空間數(shù)據(jù)集成整合的主要流程及相關(guān)技術(shù)方法如下:

1)確定空間參考系統(tǒng)

空間參考系統(tǒng)的確定既要考慮現(xiàn)有空間數(shù)據(jù)參考系統(tǒng),也要考慮與后續(xù)空間

數(shù)據(jù)的兼容性,可確定如下的空間參考系統(tǒng):

坐標(biāo)系:2000國(guó)家大地坐標(biāo)系(CGCS2000);

高程基準(zhǔn):1985國(guó)家高程基準(zhǔn);

地圖投影:“高斯-克呂格”投影,國(guó)家3度或6度標(biāo)準(zhǔn)分帶。

2)建立空間數(shù)據(jù)庫(kù)

基于PostGIS等空間數(shù)據(jù)管理工具,創(chuàng)建空間數(shù)據(jù)庫(kù),并定義空間參考系統(tǒng)

等相關(guān)參數(shù)。

3)格式轉(zhuǎn)換

利用QGIS等,將原始矢量或柵格數(shù)據(jù)轉(zhuǎn)換為目標(biāo)格式(如shapefile格式的

矢量數(shù)據(jù)、geotiff格式的柵格數(shù)據(jù))。

4)坐標(biāo)變換

利用QGIS等,進(jìn)行數(shù)據(jù)原始空間坐標(biāo)系到目標(biāo)空間參照系的變換。

5)空間數(shù)據(jù)入庫(kù)

利用QGIS等空間數(shù)據(jù)管理軟件連接空間數(shù)據(jù)庫(kù),對(duì)相關(guān)空間數(shù)據(jù)進(jìn)行入庫(kù)。

注:也可以利用GIS軟件SDK、GDAL/OGR、Proj4等開發(fā)包,設(shè)計(jì)開發(fā)數(shù)

據(jù)格式轉(zhuǎn)換、坐標(biāo)變換等中間件,實(shí)現(xiàn)多源空間數(shù)據(jù)的處理;此外,可根據(jù)實(shí)際

需求,開發(fā)具有空間數(shù)據(jù)庫(kù)連接、數(shù)據(jù)命名、數(shù)據(jù)入庫(kù)、增刪改等功能的中間件,

實(shí)現(xiàn)空間數(shù)據(jù)管理。

7非結(jié)構(gòu)化數(shù)據(jù)集成整合

污染場(chǎng)地土壤環(huán)境相關(guān)非結(jié)構(gòu)化數(shù)據(jù)經(jīng)識(shí)別處理后,獲取到的抽取表格、文

本要素、圖片提取數(shù)據(jù)等,這些數(shù)據(jù)集成整合的主要步驟為:首先,根據(jù)識(shí)別結(jié)

果以及專家經(jīng)驗(yàn),設(shè)計(jì)相關(guān)數(shù)據(jù)庫(kù)表;其次,將結(jié)構(gòu)化識(shí)別的數(shù)據(jù)與數(shù)據(jù)庫(kù)表建

立映射關(guān)系;最后,利用中間件、ETL工具等方法,對(duì)相關(guān)數(shù)據(jù)結(jié)果進(jìn)行入庫(kù)(圖

3)。下面,詳細(xì)說(shuō)明不同類型的非結(jié)構(gòu)化識(shí)別數(shù)據(jù)的集成整合流程和方法。

圖3非結(jié)構(gòu)化數(shù)據(jù)集成整合流程

7.1抽取表格數(shù)據(jù)的集成流程和方法

非結(jié)構(gòu)化文檔抽取表格數(shù)據(jù)的集成方法如下:

1)綜合同類型文檔報(bào)告中所抽取的各種表格數(shù)據(jù)的特征,確定所包含的相

似字段,根據(jù)實(shí)際需求增加特異性字段,確定目標(biāo)數(shù)據(jù)庫(kù)表的字段及其含義,并

將來(lái)源文檔、抽取人員、抽取時(shí)間等信息一并納入。

2)對(duì)于土壤屬性、污染物等數(shù)據(jù),還要關(guān)注分析測(cè)試方法、分析儀器、度

量單位、有效值范圍等。

3)對(duì)相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理,去除重復(fù)數(shù)據(jù)、處理缺失數(shù)據(jù)、修正異常數(shù)據(jù)

等清洗操作。

4)基于Postgresql等數(shù)據(jù)庫(kù)軟件,設(shè)計(jì)并構(gòu)建相關(guān)數(shù)據(jù)庫(kù)表,進(jìn)行規(guī)范化

命名,并對(duì)表、字段等進(jìn)行注釋形成其元數(shù)據(jù)。

5)利用中間件、ETL工具(如Kettle)等,構(gòu)建文檔抽取表數(shù)據(jù)到目標(biāo)數(shù)

據(jù)的映射規(guī)則,將相關(guān)數(shù)據(jù)加載到目標(biāo)數(shù)據(jù)庫(kù)表。

注:在以上步驟中,可以開發(fā)相關(guān)的中間件,實(shí)現(xiàn)如數(shù)據(jù)清洗、字段轉(zhuǎn)換、

單位變換、異常值處理等功能。

7.2文本抽取數(shù)據(jù)的集成流程和方法

文本要素抽取數(shù)據(jù)的集成方法如下:

1)根據(jù)文本要素標(biāo)簽,確定目標(biāo)數(shù)據(jù)表字段名稱與類型,并將來(lái)源文檔、

抽取方法、抽取人員、抽取時(shí)間等信息一并納入。

2)對(duì)文本要素?cái)?shù)據(jù)進(jìn)行清洗,去除重復(fù)抽取數(shù)據(jù)、修正異常數(shù)據(jù)等。

3)基于Postgresql等數(shù)據(jù)庫(kù)軟件,設(shè)計(jì)并構(gòu)建相關(guān)數(shù)據(jù)庫(kù)表,特別注意存

儲(chǔ)要素內(nèi)容的字段宜為可變長(zhǎng)度,進(jìn)行規(guī)范化命名,并對(duì)表、字段進(jìn)行注釋形成

其元數(shù)據(jù)。

4)開發(fā)中間件,將抽取的文本要素?cái)?shù)據(jù)(如JSON格式)加載到目標(biāo)數(shù)據(jù)

庫(kù)表。

7.3圖片提取數(shù)據(jù)的集成流程和方法

從圖片提取數(shù)據(jù)的集成流程方法如下:

1)根據(jù)圖片提取的數(shù)據(jù)內(nèi)容,確定目標(biāo)數(shù)據(jù)表字段名稱與類型,并將來(lái)源

文檔、抽取方法、抽取人員、抽取時(shí)間等信息一并納入。

2)對(duì)圖片提取的結(jié)果進(jìn)行數(shù)據(jù)清洗,去除重復(fù)數(shù)據(jù)、修正異常數(shù)據(jù)等。

3)基于Postgresql等數(shù)據(jù)庫(kù)軟件,設(shè)計(jì)并構(gòu)建相關(guān)數(shù)據(jù)庫(kù)表,進(jìn)行規(guī)范化

命名,并對(duì)表、字段進(jìn)行注釋形成其元數(shù)據(jù)。

4)開發(fā)中間件,將圖片提取的數(shù)據(jù)(如JSON格式)按字段加載到目標(biāo)數(shù)據(jù)庫(kù)

表。

《污染場(chǎng)地土壤環(huán)境多源數(shù)據(jù)

集成整合方法指南》

團(tuán)體標(biāo)準(zhǔn)

(征求意見稿)

編制說(shuō)明

一、工作情況

1、任務(wù)來(lái)源

過(guò)去幾十年以來(lái),我國(guó)形成了數(shù)量龐大的(潛在)污染場(chǎng)地,在生產(chǎn)經(jīng)營(yíng)、

場(chǎng)地土壤環(huán)境調(diào)查、風(fēng)險(xiǎn)評(píng)估和修復(fù)等一系列活動(dòng)中,產(chǎn)生了豐富的管理數(shù)據(jù)、

調(diào)查數(shù)據(jù)、評(píng)估數(shù)據(jù)、修復(fù)數(shù)據(jù),這些土壤環(huán)境相關(guān)數(shù)據(jù)數(shù)量大、類型多樣、非

結(jié)構(gòu)化比例高,呈現(xiàn)大數(shù)據(jù)特征。但它們來(lái)源多樣、結(jié)構(gòu)各異、組織無(wú)序且存儲(chǔ)

分散,亟待進(jìn)行標(biāo)準(zhǔn)化集成整合。因此,建立場(chǎng)地土壤環(huán)境數(shù)據(jù)集成整合方法體

系具有必要性。

在國(guó)家重點(diǎn)研發(fā)“污染場(chǎng)地公共源數(shù)據(jù)結(jié)構(gòu)識(shí)別及大數(shù)據(jù)構(gòu)建”課題的支

持下,起草單位相關(guān)人員進(jìn)行了污染場(chǎng)地土壤環(huán)境數(shù)據(jù)集成建庫(kù)工作,積累了豐

富的實(shí)踐經(jīng)驗(yàn),在屬性數(shù)據(jù)和空間數(shù)據(jù)建庫(kù)整合,集成中間件開發(fā),相關(guān)結(jié)構(gòu)化

數(shù)據(jù)(包括屬性數(shù)據(jù)和空間數(shù)據(jù))集成、非結(jié)構(gòu)化抽取數(shù)據(jù)(包括抽取表格、文

本要素?cái)?shù)據(jù)、圖文識(shí)別數(shù)據(jù))方面,開展了系統(tǒng)性工作。

基于以上背景,根據(jù)《中國(guó)土壤學(xué)會(huì)團(tuán)體標(biāo)準(zhǔn)管理辦法(試行)》,由中國(guó)科

學(xué)院南京土壤研究所牽頭組織編制《污染場(chǎng)地土壤環(huán)境數(shù)據(jù)集成整合方法指南》,

涉及數(shù)據(jù)預(yù)處理、轉(zhuǎn)換、變換、建庫(kù)以及非結(jié)構(gòu)化數(shù)據(jù)處理等涉及到的一系列技

術(shù)及流程,用于指導(dǎo)場(chǎng)地污染土壤環(huán)境大數(shù)據(jù)的集成整合。經(jīng)過(guò)專家評(píng)審,批準(zhǔn)

本標(biāo)準(zhǔn)立項(xiàng),根據(jù)計(jì)劃要求,本標(biāo)準(zhǔn)完成時(shí)限為6個(gè)月。

2、協(xié)作單位

本標(biāo)準(zhǔn)負(fù)責(zé)起草單位:中國(guó)科學(xué)院南京土壤研究所

本標(biāo)準(zhǔn)參加起草單位:生態(tài)環(huán)境部土壤與農(nóng)業(yè)農(nóng)村生態(tài)環(huán)境監(jiān)管技術(shù)中心、

訊飛智元信息科技有限公司、中國(guó)科學(xué)院地理科學(xué)與資源研究所

3、主要工作過(guò)程

2020年12月-2022年12月,結(jié)合國(guó)家重點(diǎn)研發(fā)計(jì)劃“污染場(chǎng)地公共源數(shù)據(jù)

結(jié)構(gòu)識(shí)別及大數(shù)據(jù)構(gòu)建”課題,開展了污染場(chǎng)地相關(guān)土壤環(huán)境數(shù)據(jù)的采集、預(yù)處

理、整理等工作;同時(shí),結(jié)合項(xiàng)目?jī)?nèi)部和示范區(qū)的數(shù)據(jù)需求,綜合運(yùn)用數(shù)據(jù)預(yù)處

理、數(shù)據(jù)變換和轉(zhuǎn)換、匹配映射、存儲(chǔ)和管理以及中間件等一系列技術(shù),進(jìn)行多

源、異構(gòu)、復(fù)雜的結(jié)構(gòu)化與非結(jié)構(gòu)化識(shí)別數(shù)據(jù)集成整合,以建立標(biāo)準(zhǔn)統(tǒng)一、質(zhì)量

可靠、便于共享的污染場(chǎng)地?cái)?shù)據(jù)資源庫(kù)。

2023年1月-2023年5月,成立標(biāo)準(zhǔn)立項(xiàng)工作組,查閱了國(guó)家、地方、行業(yè)

等相關(guān)標(biāo)準(zhǔn)材料,依據(jù)《中華人民共和國(guó)標(biāo)準(zhǔn)化法》、《中華人民共和國(guó)標(biāo)準(zhǔn)化法

實(shí)施條例》、《標(biāo)準(zhǔn)化工作指導(dǎo)》、《標(biāo)準(zhǔn)化工作指南》等,對(duì)污染場(chǎng)地土壤環(huán)境多

源數(shù)據(jù)資源進(jìn)行梳理,總結(jié)了場(chǎng)地土壤環(huán)境數(shù)據(jù)集成整合中用到的技術(shù)方法。

2023年6月-2023年8月,成立標(biāo)準(zhǔn)起草組,進(jìn)一步對(duì)相關(guān)技術(shù)進(jìn)行改進(jìn)、

對(duì)相關(guān)材料進(jìn)行總結(jié)凝練。經(jīng)過(guò)起草小組內(nèi)部討論,并通過(guò)函評(píng)形式征求相關(guān)專

家意見,確定了本標(biāo)準(zhǔn)的框架及主要內(nèi)容。

2023年9月-2023年10月,根據(jù)《中國(guó)土壤學(xué)會(huì)團(tuán)體標(biāo)準(zhǔn)管理辦法(試行)》,

經(jīng)過(guò)專家評(píng)審,本標(biāo)準(zhǔn)成功立項(xiàng)。標(biāo)準(zhǔn)起草組于2023年9月底完成了標(biāo)準(zhǔn)草稿,

通過(guò)函評(píng)形式征求了相關(guān)專家建議,并進(jìn)行了針對(duì)性修改;10月中旬,組織了

視頻會(huì)議對(duì)標(biāo)準(zhǔn)稿件中的文字表述、技術(shù)等進(jìn)行詳細(xì)討論,并與2023年10月

28日形成了統(tǒng)一意見的征求意見稿。

4、起草組成員及其所做的主要工作

中國(guó)科學(xué)院南京土壤研究所負(fù)責(zé)全面工作,收集、整理國(guó)內(nèi)外相關(guān)材料,組

織開展標(biāo)準(zhǔn)及編制說(shuō)明的起草、討論、審核等工作,其他起草單位協(xié)助進(jìn)行;其

中,訊飛智元信息科技有限公司主要負(fù)責(zé)技術(shù)方案及其落地工作,生態(tài)環(huán)境部土

壤與農(nóng)業(yè)農(nóng)村生態(tài)環(huán)境監(jiān)管技術(shù)中心和中國(guó)科學(xué)院地理科學(xué)與資源研究所負(fù)責(zé)

污染場(chǎng)地多源數(shù)據(jù)梳理及數(shù)據(jù)需求和應(yīng)用,以及相關(guān)材料收集、撰寫等工作。起

草組成員名單及詳細(xì)分工如下表所示。

序號(hào)姓名單位主要工作

1劉杰中國(guó)科學(xué)院南京土壤研究所材料撰寫、技術(shù)和應(yīng)用協(xié)調(diào)

2潘賢章中國(guó)科學(xué)院南京土壤研究所負(fù)責(zé)全面工作

3郭觀林生態(tài)環(huán)境部土壤與農(nóng)業(yè)農(nóng)村生內(nèi)容和質(zhì)量把控

態(tài)環(huán)境監(jiān)管技術(shù)中心

4許大偉訊飛智元信息科技有限公司技術(shù)負(fù)責(zé)及材料撰寫

5曹紅英中國(guó)科學(xué)院地理科學(xué)與資源研數(shù)據(jù)梳理及應(yīng)用,材料撰寫等

究所

6郟夢(mèng)思中國(guó)科學(xué)院南京土壤研究所資料收集分析、材料撰寫

7方婷婷生態(tài)環(huán)境部土壤與農(nóng)業(yè)農(nóng)村生數(shù)據(jù)梳理及應(yīng)用

態(tài)環(huán)境監(jiān)管技術(shù)中心

8湯馳訊飛智元信息科技有限公司技術(shù)負(fù)責(zé)及材料撰寫

9李家年訊飛智元信息科技有限公司資料收集分析

10郭志英中國(guó)科學(xué)院南京土壤研究所數(shù)據(jù)采集及材料撰寫

11王昌昆中國(guó)科學(xué)院南京土壤研究所數(shù)據(jù)采集及材料撰寫

二、標(biāo)準(zhǔn)編制原則和主要內(nèi)容

1、編制原則

遵循開放原則、協(xié)商一致原則、透明原則、可追溯原則等,本著科學(xué)性、先

進(jìn)性、適用性、可操作等原則,并按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1

部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。

在本標(biāo)準(zhǔn)制定過(guò)程中,主要參考GB/T41224-2021/ISO28256:2013、GB/T

18391.1-2002、GB/T35295-2017、GB/T16820-2009、GB/T30883-2014、GB/T

19710-2005、HJ682—2014、HJ/T166-2004、DB52/T1540.3-2020等標(biāo)準(zhǔn)文件,

同時(shí)將“污染場(chǎng)地公共源數(shù)據(jù)結(jié)構(gòu)識(shí)別及大數(shù)據(jù)構(gòu)建”課題執(zhí)行過(guò)程中的相關(guān)技

術(shù)方法納入本標(biāo)準(zhǔn),使標(biāo)準(zhǔn)的內(nèi)容、技術(shù)和應(yīng)用場(chǎng)景更貼合實(shí)際工作需求。

2、主要內(nèi)容

本標(biāo)準(zhǔn)提出了污染場(chǎng)地土壤環(huán)境多源異構(gòu)數(shù)據(jù)預(yù)處理、轉(zhuǎn)換、變換等規(guī)范化

方法,提出數(shù)據(jù)庫(kù)、表結(jié)構(gòu)、元數(shù)據(jù)等構(gòu)建方法和技術(shù),并囊括了相關(guān)數(shù)據(jù)集成

中間件技術(shù)。提出了污染場(chǎng)地土壤環(huán)境集成整合建庫(kù)的方案及技術(shù)方法,包括數(shù)

據(jù)預(yù)處理、轉(zhuǎn)換/變換、建庫(kù)、映射、入庫(kù)等。

三、主要試驗(yàn)(或驗(yàn)證)的分析、綜述報(bào)告,技術(shù)經(jīng)濟(jì)論證,

預(yù)期的經(jīng)濟(jì)效果

污染場(chǎng)地相關(guān)數(shù)據(jù)資源來(lái)源廣泛,類型多樣,覆蓋了結(jié)構(gòu)化的業(yè)務(wù)及管理類

數(shù)據(jù)、非結(jié)構(gòu)化/半結(jié)構(gòu)化的調(diào)查數(shù)據(jù),以及大量遙感及專題圖等多維時(shí)空數(shù)據(jù)。

然而,目前這些場(chǎng)地相關(guān)數(shù)據(jù)組織無(wú)序,存儲(chǔ)分散,數(shù)據(jù)碎片化、孤島現(xiàn)象嚴(yán)重,

最主要原因是缺乏系統(tǒng)集成整合,以及統(tǒng)一的存儲(chǔ)管理,從而造成數(shù)據(jù)檢索不便、

共享受阻、應(yīng)用效率低下等問(wèn)題。因此,本標(biāo)準(zhǔn)的提出,對(duì)于指導(dǎo)場(chǎng)地土壤環(huán)境

類多源異構(gòu)數(shù)據(jù)的標(biāo)準(zhǔn)化集成整合,以及土壤環(huán)境大數(shù)據(jù)資源庫(kù)建設(shè)具有重要意

義。

本標(biāo)準(zhǔn)的提出主要依據(jù)國(guó)家重點(diǎn)研發(fā)計(jì)劃課題“污染場(chǎng)地公共源數(shù)據(jù)結(jié)構(gòu)識(shí)

別及大數(shù)據(jù)構(gòu)建”執(zhí)行過(guò)程積累的成果和經(jīng)驗(yàn),通過(guò)研發(fā)數(shù)據(jù)預(yù)處理、非結(jié)構(gòu)化

數(shù)據(jù)處理、中間件等技術(shù),完成了大量污染場(chǎng)地相關(guān)數(shù)據(jù)資源的整合,形成了污

染場(chǎng)地源數(shù)據(jù)資源庫(kù),為項(xiàng)目參與單位提供數(shù)據(jù)服務(wù),

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論