下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
ICS35.240.70
CCSB07
DB61111
楊凌農(nóng)業(yè)高新技術(shù)產(chǎn)業(yè)示范區(qū)地方標(biāo)準(zhǔn)
DB6111/T197—2023
智慧農(nóng)業(yè)園區(qū)數(shù)據(jù)處理技術(shù)規(guī)范
TechnicalSpecificationsforDataProcessingofIntelligent
AgricultureParks
2023-04-27發(fā)布2023-05-27實(shí)施
楊凌示范區(qū)市場(chǎng)監(jiān)督管理局??發(fā)布
DB6111/T197-2023
前言
本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定
起草。
本文件由西北農(nóng)林科技大學(xué)信息工程學(xué)院提出。
本文件由楊凌示范區(qū)農(nóng)業(yè)標(biāo)準(zhǔn)化技術(shù)委員會(huì)歸口。
本文件起草單位:西北農(nóng)林科技大學(xué)(信息工程學(xué)院、信息化管理處)、陜西省農(nóng)村科技開發(fā)中心、
楊凌耘尚田園網(wǎng)絡(luò)科技有限公司、楊凌乾泰電子科技有限責(zé)任公司、楊凌現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)標(biāo)準(zhǔn)化研究推廣
服務(wù)中心。
本文件主要起草人:劉斌、耿楠、蒲攀、周兆永、張宏鳴、李書琴、黃鋁文、劉運(yùn)松、耿耀
君、李梅、張海曦、衛(wèi)星、鄧希廉、李皓、馬軍妮、文立紅。
本文件首次發(fā)布。
I
DB6111/T197-2023
智慧農(nóng)業(yè)園區(qū)數(shù)據(jù)處理技術(shù)規(guī)范
1范圍
本文件規(guī)定了基于物聯(lián)網(wǎng)系統(tǒng)的智慧農(nóng)業(yè)園數(shù)據(jù)處理的相關(guān)術(shù)語和定義、處理流程及技術(shù)要求。
本文件適用于智慧農(nóng)業(yè)園的數(shù)據(jù)規(guī)范處理、數(shù)據(jù)分析、數(shù)據(jù)可視化管理。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T36344-2018信息技術(shù)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)
GB/T37025-2018信息安全技術(shù)物聯(lián)網(wǎng)數(shù)據(jù)傳輸安全技術(shù)要求
QX/T628-2021常規(guī)高空氣象觀測(cè)數(shù)據(jù)處理方法
3術(shù)語和定義
下列術(shù)語和定義適用于本文件。
3.1
農(nóng)業(yè)大數(shù)據(jù)bigdataofagriculture
在農(nóng)業(yè)生產(chǎn)、經(jīng)營、管理、服務(wù)等環(huán)節(jié)中產(chǎn)生的海量的,具備多樣性、高增長率、真實(shí)性及一定價(jià)
值的數(shù)據(jù)集。
3.2
數(shù)據(jù)處理dataprocessing
為從大量雜亂無章、難于直接理解的數(shù)據(jù)中抽取并推導(dǎo)到對(duì)特定人群有價(jià)值、有意義的信息,而進(jìn)
行的數(shù)據(jù)采集、存儲(chǔ)、檢索、加工、變換和傳輸?shù)然顒?dòng)。
3.3
數(shù)據(jù)增強(qiáng)dataaugmentation
一種為提升數(shù)據(jù)利用價(jià)值,用有限數(shù)據(jù)創(chuàng)造出盡可能多有用信息的數(shù)據(jù)擴(kuò)充技術(shù)。
3.4
監(jiān)測(cè)預(yù)警monitoringandearlywarning
通過監(jiān)測(cè)、匯集、抽取相關(guān)信息數(shù)據(jù),結(jié)合風(fēng)險(xiǎn)評(píng)估分析,將可能出現(xiàn)的結(jié)果直觀展現(xiàn)給決策者,
提醒作出預(yù)先處置的活動(dòng)。
3.5
特征衍生featurederivatives
利用現(xiàn)有的數(shù)據(jù)特征,組合構(gòu)建出新的數(shù)據(jù)特征的技術(shù)手段。也稱特征構(gòu)建。
3.6
特征選擇featureselection
按系統(tǒng)特定指標(biāo)最優(yōu)化目標(biāo),從原始特征中選擇出最有效特征的過程。也稱特征子集選擇或?qū)傩赃x
擇(Attributeselection)。
1
DB6111/T197-2023
4處理流程
4.1數(shù)據(jù)預(yù)處理
4.1.1數(shù)據(jù)清洗
4.1.1.1檢驗(yàn)重復(fù)性數(shù)據(jù)需要根據(jù)具體場(chǎng)景、數(shù)據(jù)特點(diǎn)和問題需求,確定重復(fù)性數(shù)據(jù)的定義、檢驗(yàn)方
法以及工具,并記錄檢驗(yàn)結(jié)果。
4.1.1.2異常值采用刪除、替換、離群值檢測(cè)等方法處理。其中離群值檢測(cè)可以采用箱線圖、3σ準(zhǔn)則、
聚類等統(tǒng)計(jì)方法處理。
4.1.1.3重復(fù)值采用刪除、合并、標(biāo)記等方法處理。其中合并可以采用相似度匹配、聚類等方法處理。
4.1.1.4不一致值采用規(guī)范化、轉(zhuǎn)換、匹配等方法處理。其中規(guī)范化可以采用大小寫轉(zhuǎn)換、數(shù)據(jù)類型
轉(zhuǎn)換等方法處理。
4.1.1.5格式不一致采用規(guī)范化、轉(zhuǎn)換、格式化等方法處理。其中規(guī)范化可以采用格式化字符串、正
則表達(dá)式等方法處理。
4.1.1.6噪聲數(shù)據(jù)處理包括但不限于以下方法:
a)采用分箱法、聚類法、回歸法等處理噪聲數(shù)據(jù)。
b)采用分箱法將原始數(shù)據(jù)劃分為若干區(qū)間,統(tǒng)計(jì)每個(gè)區(qū)間內(nèi)的樣本數(shù)量并計(jì)算樣本占比,然后
平滑處理每個(gè)區(qū)間的樣本占比,將平滑后的數(shù)據(jù)作為處理后的結(jié)果,用于后續(xù)的分析和建模。
c)采用聚類法根據(jù)一定的相似性度量分組原始數(shù)據(jù),計(jì)算每個(gè)組的中心點(diǎn),并根據(jù)中心點(diǎn)重新
分配數(shù)據(jù)點(diǎn)到各個(gè)組中,迭代執(zhí)行上述步驟直到滿足停止條件為止。最終得到的聚類結(jié)果可
以用于分析和建模,去除噪聲數(shù)據(jù)對(duì)后續(xù)分析和建模的影響。
d)采用回歸法包括建立一個(gè)回歸模型,通過擬合已知數(shù)據(jù)的函數(shù)關(guān)系,預(yù)測(cè)未知數(shù)據(jù),并評(píng)估
和調(diào)整預(yù)測(cè)結(jié)果,得到更準(zhǔn)確的預(yù)測(cè)結(jié)果。在建立回歸模型時(shí),需要去除或修正噪聲數(shù)據(jù),
提高模型的預(yù)測(cè)精度。
4.1.1.7清洗處理的數(shù)據(jù)再次傳輸應(yīng)符合GB/T37025-2018的安全傳輸規(guī)定。
4.1.1.8高空氣象數(shù)據(jù)的處理應(yīng)符合QX/T628-2021的規(guī)定。
4.1.2數(shù)據(jù)補(bǔ)全
a)均值/中位數(shù)/眾數(shù)填充:對(duì)于數(shù)值型數(shù)據(jù),可以使用均值、中位數(shù)或眾數(shù)來填充缺失值。
b)固定值填充:對(duì)于某些特殊的數(shù)據(jù),可以使用固定值來填充缺失值。
c)向前/向后填充:對(duì)于時(shí)間序列數(shù)據(jù),可以使用向前或向后的值來填充缺失值。
d)插值法填充:可以使用插值法來填充缺失值,例如線性插值、多項(xiàng)式插值等。
e)建模預(yù)測(cè)填充:可以使用其他變量建立模型,預(yù)測(cè)缺失值。
4.1.3數(shù)據(jù)融合
采用深度學(xué)習(xí)模型提取多個(gè)數(shù)據(jù)源的數(shù)據(jù)信息特征(園區(qū)小氣候數(shù)據(jù)、種植環(huán)境數(shù)據(jù)、圖像數(shù)據(jù)和
農(nóng)技知識(shí)數(shù)據(jù)),融合特征級(jí)、決策級(jí),提升數(shù)據(jù)的有效性和準(zhǔn)確性。
4.1.4數(shù)據(jù)變換
4.1.4.1圖像數(shù)據(jù)按照目標(biāo)程度劃分為一般或嚴(yán)重狀態(tài),通過數(shù)字圖像處理技術(shù)生成充足的數(shù)據(jù)集,
按照3:1:1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
4.1.4.2園區(qū)小氣候數(shù)據(jù)和種植環(huán)境數(shù)據(jù),采用特征衍生和特征選擇作預(yù)處理。特征選擇分別基于最
大信息系數(shù)的最小冗余、最大相關(guān)指標(biāo)過濾粗篩特征,再基于嵌入法選擇。
2
DB6111/T197-2023
4.1.5數(shù)據(jù)規(guī)約
應(yīng)在保證數(shù)據(jù)集完整性的基礎(chǔ)上,簡(jiǎn)化數(shù)據(jù)集,包含但不限于以下方面:
a)維度規(guī)約:即將數(shù)據(jù)的維度降低,減少數(shù)據(jù)中不必要的屬性,降低數(shù)據(jù)集的復(fù)雜度。常用的
維度規(guī)約方法有主成分分析(PCA)和線性判別分析(LDA)。
b)數(shù)值規(guī)約:即將數(shù)據(jù)的數(shù)值范圍縮小,減少數(shù)值間的差異,降低數(shù)據(jù)集的復(fù)雜度。常用的數(shù)
值規(guī)約方法有歸一化和標(biāo)準(zhǔn)化。
c)屬性規(guī)約:即從數(shù)據(jù)集中選擇出最具有代表性和區(qū)分性的屬性,剔除無關(guān)或冗余的屬性,減
少數(shù)據(jù)集的復(fù)雜度。常用的屬性規(guī)約方法有逐步回歸法和決策樹算法。
d)數(shù)據(jù)壓縮:即通過壓縮算法去除數(shù)據(jù)集中的冗余信息,減少數(shù)據(jù)集的復(fù)雜度。常用的數(shù)據(jù)壓
縮方法有哈夫曼編碼和Lempel-Ziv算法。
e)隨機(jī)抽樣:即從數(shù)據(jù)集中隨機(jī)選擇部分?jǐn)?shù)據(jù)作為樣本,通過分析處理,減少數(shù)據(jù)集的復(fù)雜度。
常用的隨機(jī)抽樣方法有簡(jiǎn)單隨機(jī)抽樣和分層抽樣。
4.2數(shù)據(jù)分析
應(yīng)建立在計(jì)算機(jī)機(jī)器學(xué)習(xí)基礎(chǔ)上。被分析的數(shù)據(jù)質(zhì)量按照GB/T36344-2018的規(guī)定評(píng)價(jià),評(píng)價(jià)合格
的數(shù)據(jù)分析結(jié)果為有效分析結(jié)果。分析技術(shù)包括但不限于:
a)描述性統(tǒng)計(jì):通過對(duì)數(shù)據(jù)的描述性統(tǒng)計(jì)分析,了解數(shù)據(jù)的基本情況,包括中心趨勢(shì)、離散程
度、分布形態(tài)等等。
b)探索性數(shù)據(jù)分析:通過可視化和統(tǒng)計(jì)分析探索數(shù)據(jù)之間的關(guān)系趨勢(shì),為后續(xù)建模和分析做準(zhǔn)
備。
c)假設(shè)檢驗(yàn):用于檢驗(yàn)數(shù)據(jù)之間是否有顯著差異,判斷是否拒絕某個(gè)假設(shè)。
d)回歸分析:用于分析自變量和因變量之間的關(guān)系,建立回歸模型,預(yù)測(cè)因變量的變化趨勢(shì)。
e)聚類分析:將數(shù)據(jù)分成若干類別,同一類別內(nèi)的數(shù)據(jù)相似度較高,不同類別之間的數(shù)據(jù)相似
度較低。
f)主成分分析:將多個(gè)變量合并成少數(shù)幾個(gè)新變量,保留原始變量的大部分信息,以減少維度。
g)時(shí)間序列分析:用于分析時(shí)間序列數(shù)據(jù),找出趨勢(shì)、季節(jié)性和周期性等規(guī)律,預(yù)測(cè)未來的變
化趨勢(shì)。
h)關(guān)聯(lián)規(guī)則挖掘:從數(shù)據(jù)中發(fā)現(xiàn)頻繁出現(xiàn)的模式和關(guān)聯(lián)關(guān)系,如超市商品的購買關(guān)系。
i)決策樹分析:基于樣本數(shù)據(jù)建立決策樹模型,通過選擇屬性值,逐步篩選出目標(biāo)屬性預(yù)測(cè)值。
j)神經(jīng)網(wǎng)絡(luò)分析:用人工神經(jīng)網(wǎng)絡(luò)模擬人腦處理信息的過程,進(jìn)行數(shù)據(jù)建模和預(yù)測(cè)等操作。
4.3數(shù)據(jù)可視化
數(shù)據(jù)分析與預(yù)測(cè)結(jié)果應(yīng)以圖像、圖表的直觀方式,展示數(shù)據(jù)所蘊(yùn)含的信息、規(guī)律與趨勢(shì),并可實(shí)現(xiàn)
交互式處理。
a)明確對(duì)象。通過
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年鯉城區(qū)新步實(shí)驗(yàn)小學(xué)秋季招聘合同制頂崗教師備考題庫完整答案詳解
- 2025年永康市農(nóng)機(jī)產(chǎn)業(yè)園開發(fā)有限公司公開招聘國有企業(yè)合同制員工7人備考題庫完整答案詳解
- 2025年寧夏黃河農(nóng)村商業(yè)銀行科技人員社會(huì)招聘?jìng)淇碱}庫及一套完整答案詳解
- 重大安全隱患排查治理和建檔監(jiān)控等制度
- 中國電建集團(tuán)昆明勘測(cè)設(shè)計(jì)研究院有限公司招聘20人備考題庫及參考答案詳解1套
- 2025年關(guān)于為淄博市檢察機(jī)關(guān)公開招聘聘用制書記員的備考題庫及一套答案詳解
- 2025年青島市李滄區(qū)人民法院公開招聘司法輔助人員備考題庫參考答案詳解
- 2025年首都醫(yī)科大學(xué)附屬北京朝陽醫(yī)院石景山醫(yī)院派遣合同制職工招聘?jìng)淇碱}庫及答案詳解1套
- 銀聯(lián)企業(yè)服務(wù)(上海)有限公司2026年度招聘?jìng)淇碱}庫及參考答案詳解1套
- plc課程設(shè)計(jì)彩燈循環(huán)
- 劇組用車合同范本
- 2024年法律職業(yè)資格《客觀題卷一》試題及答案
- 鋼鐵廠勞務(wù)合同范本
- 2025年沈陽華晨專用車有限公司公開招聘筆試考試備考題庫及答案解析
- 職業(yè)技能競(jìng)賽和技術(shù)比武活動(dòng)方案
- 2025課堂懲罰 主題班會(huì):馬達(dá)加斯加企鵝課堂懲罰 課件
- 本科《行政領(lǐng)導(dǎo)學(xué)》期末紙質(zhì)考試總題庫2025版
- GB/T 4457.2-2003技術(shù)制圖圖樣畫法指引線和基準(zhǔn)線的基本規(guī)定
- GB/T 39433-2020氣彈簧設(shè)計(jì)計(jì)算
- GB/T 28756-2012纜索起重機(jī)
- 新人教版八年級(jí)美術(shù)下冊(cè)教案《情感的抒發(fā)與理念的表達(dá)》教學(xué)設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論