工業(yè)高質(zhì)量數(shù)據(jù)集研究報(bào)告_第1頁(yè)
工業(yè)高質(zhì)量數(shù)據(jù)集研究報(bào)告_第2頁(yè)
工業(yè)高質(zhì)量數(shù)據(jù)集研究報(bào)告_第3頁(yè)
工業(yè)高質(zhì)量數(shù)據(jù)集研究報(bào)告_第4頁(yè)
工業(yè)高質(zhì)量數(shù)據(jù)集研究報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩55頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

工業(yè)高質(zhì)量數(shù)據(jù)集研究報(bào)告2025年09月前 言人工智能作為引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略性技術(shù),是新型工業(yè)化的重要推動(dòng)力量。黨的十八大以來(lái),以習(xí)近平同志為核心的黨中央把發(fā)展人工智能提升到戰(zhàn)略高度,強(qiáng)調(diào)加快發(fā)展新一代人工智能是我們贏得全球科技競(jìng)為指引和推動(dòng)工業(yè)領(lǐng)域高質(zhì)量數(shù)據(jù)集建設(shè),在工業(yè)和信息化部信息技術(shù)發(fā)展司指導(dǎo)下,中國(guó)工業(yè)互聯(lián)網(wǎng)研究院牽頭組織產(chǎn)業(yè)界、學(xué)術(shù)界進(jìn)行深入研討交流、凝聚行業(yè)共識(shí),聯(lián)合相關(guān)研究機(jī)構(gòu)和行業(yè)龍頭企業(yè)開(kāi)展了深入實(shí)踐探索,編制了《工業(yè)高質(zhì)量數(shù)據(jù)集研究報(bào)告》。本報(bào)告圍繞工業(yè)高質(zhì)量數(shù)據(jù)集的建設(shè)與應(yīng)用展開(kāi)深入研究,旨在厘清其內(nèi)涵特征,明晰分級(jí)分類(lèi)標(biāo)準(zhǔn),探索數(shù)據(jù)集建設(shè)、評(píng)估、流通應(yīng)用全鏈路有效路徑,為業(yè)界推進(jìn)工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)、評(píng)估及應(yīng)用提供可參考的理論支撐與發(fā)展指引。編寫(xiě)組指導(dǎo)單位:工業(yè)和信息化部信息技術(shù)發(fā)展司組織單位:中國(guó)工業(yè)互聯(lián)網(wǎng)研究院參編單位(排名不分先后):北京大學(xué)東北大學(xué)()上海

南京鋼鐵集團(tuán)有限公司聯(lián)通數(shù)據(jù)智能有限公司西安塔力科技有限公司蔚來(lái)控股有限公司目 錄一、工業(yè)高質(zhì)量數(shù)據(jù)集的內(nèi)涵意義 1(一)相關(guān)概念 1(二)工業(yè)高質(zhì)量數(shù)據(jù)集的內(nèi)涵與特征 2(三)工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)的重大意義 4二、工業(yè)高質(zhì)量數(shù)據(jù)集的分級(jí)分類(lèi) 5(一)分級(jí)體系 5(二)分類(lèi)體系 13三、工業(yè)高質(zhì)量數(shù)據(jù)集的建設(shè)路徑 17(一)建設(shè)規(guī)劃 18(二)研發(fā)實(shí)施 21(三)應(yīng)用驗(yàn)證 29(四)典型案例 30四、工業(yè)高質(zhì)量數(shù)據(jù)集的評(píng)估體系 38(一)評(píng)估框架 39(二)評(píng)估指標(biāo) 40(三)測(cè)評(píng)方法 44五、工業(yè)高質(zhì)量數(shù)據(jù)集的流通應(yīng)用 45(一)面臨問(wèn)題 46(二)解決路徑 47(三)實(shí)現(xiàn)方案 50參考文獻(xiàn) 53圖目錄圖3-1工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)流程 18圖3-2工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)技術(shù)流程 22圖4-1工業(yè)高質(zhì)量數(shù)據(jù)集評(píng)估框架 40圖4-2工業(yè)高質(zhì)量數(shù)據(jù)集評(píng)估流程 45圖5-1工業(yè)高質(zhì)量數(shù)據(jù)集可信數(shù)據(jù)空間總體功能架構(gòu) 48圖5-2工業(yè)高質(zhì)量數(shù)據(jù)集可信數(shù)據(jù)空間部署架構(gòu) 49表目錄表2-1工業(yè)高質(zhì)量數(shù)據(jù)集分級(jí)方法 6表2-2工業(yè)高質(zhì)量數(shù)據(jù)集分類(lèi)方法 13表3-1典型案例:中厚板軋制力實(shí)時(shí)智能預(yù)測(cè)數(shù)據(jù)集建設(shè)要求 31表3-2典型案例:礦山行業(yè)高質(zhì)量數(shù)據(jù)集覆蓋要素與場(chǎng)景 37表3-3典型案例:礦山行業(yè)高質(zhì)量數(shù)據(jù)集典型場(chǎng)景應(yīng)用成效 38表4-1工業(yè)高質(zhì)量數(shù)據(jù)集評(píng)估指標(biāo) 42一、工業(yè)高質(zhì)量數(shù)據(jù)集的內(nèi)涵意義工業(yè)高質(zhì)量數(shù)據(jù)集作為工業(yè)領(lǐng)域人工智能技術(shù)應(yīng)用的(一)相關(guān)概念工業(yè)數(shù)據(jù)中,定義工業(yè)數(shù)據(jù)為“在工業(yè)領(lǐng)域中,涉及企業(yè)的所有生ISO8000形狀、拓?fù)浣Y(jié)構(gòu)和可視化、技術(shù)詞典以及零部件目錄”[3]。狹義的工業(yè)數(shù)據(jù)是指工業(yè)設(shè)備與軟件運(yùn)行過(guò)程中沉淀廣義的工業(yè)數(shù)據(jù)更強(qiáng)調(diào)由原始數(shù)據(jù)經(jīng)融合加工所沉淀的工業(yè)機(jī)理與規(guī)律認(rèn)知,工業(yè)數(shù)據(jù)的特征包括領(lǐng)領(lǐng)域特定性多源異構(gòu)性高時(shí)序性指生產(chǎn)流程的連續(xù)性與實(shí)時(shí)性要求工業(yè)強(qiáng)關(guān)聯(lián)性指工業(yè)數(shù)據(jù)點(diǎn)之間存在復(fù)雜的關(guān)聯(lián)關(guān)系,反映生產(chǎn)流程中的關(guān)聯(lián)關(guān)系。高質(zhì)量數(shù)據(jù)集據(jù)的集合[4]。數(shù)據(jù)集質(zhì)量包括完整性、準(zhǔn)確性、現(xiàn)時(shí)性、無(wú)(二)工業(yè)高質(zhì)量數(shù)據(jù)集的內(nèi)涵與特征工業(yè)高質(zhì)量數(shù)節(jié)產(chǎn)生和采集,經(jīng)過(guò)清洗、標(biāo)注等專業(yè)化處理,用于分析、建模,以及訓(xùn)練工業(yè)模型的數(shù)據(jù)集合。完整度高即數(shù)據(jù)集基本覆蓋各類(lèi)質(zhì)量達(dá)標(biāo)即數(shù)據(jù)集歷經(jīng)完整場(chǎng)景明確即數(shù)據(jù)集可直接用于工業(yè)時(shí)效性強(qiáng)即數(shù)據(jù)集具備完備的定期更新計(jì)劃以及自動(dòng)化更新機(jī)制,實(shí)時(shí)保障數(shù)據(jù)集在模型訓(xùn)練、微調(diào)等階段的有效性。一是數(shù)據(jù)三是多模態(tài)數(shù)(三)工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)的重大意義工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)是推進(jìn)新型工業(yè)化的現(xiàn)實(shí)要求。-知識(shí)-決策”工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)是搶占工業(yè)智能制高點(diǎn)的重要抓手全鏈條、破解數(shù)據(jù)孤島、激活A(yù)I賦能的關(guān)鍵路徑,是驅(qū)動(dòng)制造業(yè)智能化升級(jí)的堅(jiān)實(shí)支撐。工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)是應(yīng)對(duì)全球產(chǎn)業(yè)競(jìng)爭(zhēng)的戰(zhàn)略要求二、工業(yè)高質(zhì)量數(shù)據(jù)集的分級(jí)分類(lèi)(一)分級(jí)體系參照工業(yè)互聯(lián)網(wǎng)技術(shù)架構(gòu)體系,梳理工業(yè)數(shù)據(jù)集的數(shù)據(jù)來(lái)源、數(shù)據(jù)類(lèi)型和應(yīng)用場(chǎng)景,形成工業(yè)高質(zhì)量數(shù)據(jù)集五級(jí)架構(gòu),即設(shè)備級(jí)(L1)、產(chǎn)線級(jí)(L2)、工廠級(jí)(L3)、、企業(yè)級(jí)(L4)和生態(tài)級(jí)(L5)。層級(jí)表征數(shù)據(jù)集賦能應(yīng)用場(chǎng)景的廣度,層級(jí)越高,數(shù)據(jù)聚合程度越高,應(yīng)用場(chǎng)景范圍越廣,[6,7]2-1所示。表2-1工業(yè)高質(zhì)量數(shù)據(jù)集分級(jí)方法歸屬層級(jí)數(shù)據(jù)集級(jí)別具體定義基礎(chǔ)層設(shè)備級(jí)(L1)等應(yīng)用場(chǎng)景。產(chǎn)線級(jí)(L2)預(yù)測(cè)、產(chǎn)線參數(shù)尋優(yōu)與協(xié)同控制等應(yīng)用場(chǎng)景。核心層工廠級(jí)(L3)智能監(jiān)控與預(yù)警等應(yīng)用場(chǎng)景。企業(yè)級(jí)(L4)產(chǎn)、供應(yīng)鏈優(yōu)化、財(cái)務(wù)管理等應(yīng)用場(chǎng)景。生態(tài)層生態(tài)級(jí)(L5)同管理等場(chǎng)景。設(shè)備與產(chǎn)線級(jí)作為基礎(chǔ)層級(jí),從業(yè)務(wù)執(zhí)行的最小單元出發(fā),匯聚設(shè)備運(yùn)行、工藝參數(shù)等高質(zhì)量數(shù)據(jù),實(shí)現(xiàn)故障診斷、工廠與企業(yè)級(jí)產(chǎn)業(yè)生態(tài)級(jí)作為生用,創(chuàng)造生態(tài)協(xié)同的增量?jī)r(jià)值。設(shè)備級(jí)高質(zhì)量數(shù)據(jù)集從數(shù)據(jù)來(lái)源從數(shù)據(jù)類(lèi)型分析,主要涉及設(shè)備數(shù)據(jù)、狀態(tài)數(shù)據(jù)和工裝數(shù)據(jù)。設(shè)備數(shù)據(jù)是指描述設(shè)備基本信息,反映設(shè)備運(yùn)行工況和健康狀態(tài),影響設(shè)備性能和運(yùn)行狀態(tài)的環(huán)境信息等數(shù)據(jù)。狀態(tài)數(shù)據(jù)是指在制造過(guò)程、控制過(guò)程中反映各種不同狀態(tài)的物理量信號(hào),如刀具磨破損、機(jī)床熱變形、切削負(fù)荷、振動(dòng)變形等數(shù)據(jù)。工裝數(shù)據(jù)是指描述工裝基本信息,以及采用條碼標(biāo)簽等采集的器件、輔具環(huán)境、工況數(shù)值等數(shù)據(jù)。從數(shù)據(jù)特征分析實(shí)時(shí)性強(qiáng)是指動(dòng)態(tài)變化大是指設(shè)備物理意義明確是指數(shù)據(jù)多源異構(gòu)是指數(shù)據(jù)來(lái)自不同傳感器、系統(tǒng)和設(shè)備,格式和標(biāo)準(zhǔn)多樣。價(jià)值密度低是指海量數(shù)據(jù)中真正有價(jià)值的信息占比低,需要高效挖掘。從應(yīng)用場(chǎng)景升電站運(yùn)營(yíng)盈利能力。產(chǎn)線級(jí)高質(zhì)量數(shù)據(jù)集從數(shù)據(jù)來(lái)源(DCS)(HMI)、(RTU)、數(shù)據(jù)采集與監(jiān)視控制系統(tǒng)(SCADA)等控制與監(jiān)控系統(tǒng),承擔(dān)工藝執(zhí)行、數(shù)據(jù)采集與狀態(tài)監(jiān)控等功能。從數(shù)據(jù)類(lèi)型控制系統(tǒng)數(shù)據(jù)PLC包含的G網(wǎng)絡(luò)參數(shù)數(shù)據(jù)是指通過(guò)聯(lián)網(wǎng)系統(tǒng)采集的控制層網(wǎng)絡(luò)參數(shù)、信號(hào)等。從數(shù)據(jù)特征實(shí)時(shí)性強(qiáng)是指數(shù)據(jù)數(shù)據(jù)體量大是指單條產(chǎn)線據(jù)質(zhì)量低多源異構(gòu)關(guān)聯(lián)度高影響另一設(shè)備的相關(guān)參數(shù)。從應(yīng)用場(chǎng)景研發(fā)“粗軋-精軋-層冷”全流程過(guò)程控制在線仿真系統(tǒng),實(shí)現(xiàn)生產(chǎn)過(guò)程核心模型與關(guān)鍵參數(shù)的靜態(tài)/動(dòng)態(tài)精準(zhǔn)模擬和實(shí)時(shí)調(diào)優(yōu),提升控制模型在線優(yōu)化迭代效率與安全性。工廠級(jí)高質(zhì)量數(shù)據(jù)集從數(shù)據(jù)來(lái)源從數(shù)據(jù)類(lèi)型管理數(shù)據(jù)是指工藝數(shù)據(jù)是指在產(chǎn)品工藝設(shè)計(jì)過(guò)程中產(chǎn)生的二BOM信息、零部件信息、數(shù)控程序等數(shù)技術(shù)數(shù)據(jù)物料數(shù)據(jù)是指產(chǎn)成品的包安全環(huán)保類(lèi)數(shù)據(jù)是指涉及企業(yè)生產(chǎn)安全和環(huán)保相關(guān)的數(shù)據(jù)。工廠質(zhì)量數(shù)據(jù)是指報(bào)檢、計(jì)量數(shù)據(jù)是指檢驗(yàn)檢測(cè)數(shù)據(jù)。從數(shù)據(jù)特征流程關(guān)聯(lián)性強(qiáng)是統(tǒng)數(shù)據(jù)高度關(guān)聯(lián)。多模態(tài)異構(gòu)是指數(shù)據(jù)來(lái)源龐雜,包括CAD/CAEMESHSE的非時(shí)空復(fù)雜度高是指數(shù)據(jù)業(yè)務(wù)邏輯深度耦合是指數(shù)據(jù)數(shù)據(jù)價(jià)值高度依賴于業(yè)務(wù)場(chǎng)景解釋。從應(yīng)用場(chǎng)景-網(wǎng)-荷-企業(yè)級(jí)高質(zhì)量數(shù)據(jù)集從數(shù)據(jù)來(lái)源分析,主要源自企業(yè)資產(chǎn)管理系統(tǒng)、企業(yè)資源規(guī)劃系統(tǒng)(ERP)、供應(yīng)鏈管理系統(tǒng)、物流信息系統(tǒng)、財(cái)從數(shù)據(jù)類(lèi)型財(cái)務(wù)數(shù)據(jù)同等的有關(guān)財(cái)務(wù)數(shù)據(jù)。采購(gòu)銷(xiāo)售數(shù)據(jù)是指采購(gòu)、銷(xiāo)售、市場(chǎng)、成本數(shù)據(jù)供應(yīng)鏈數(shù)據(jù)調(diào)度數(shù)據(jù)生產(chǎn)計(jì)劃數(shù)據(jù)企業(yè)質(zhì)量數(shù)據(jù)售后服務(wù)數(shù)據(jù)服務(wù)數(shù)據(jù)等。從數(shù)據(jù)特征強(qiáng)業(yè)務(wù)規(guī)則驅(qū)動(dòng)強(qiáng)戰(zhàn)略導(dǎo)向全域覆蓋價(jià)值鏈高安全合規(guī)要求是指包含大量財(cái)務(wù)、人力、客戶隱私等敏感信息,必須滿足網(wǎng)絡(luò)安全法、數(shù)據(jù)安全法等法律法規(guī)要求。從應(yīng)用場(chǎng)景(52億token,(81%提高企業(yè)經(jīng)營(yíng)決策效率。生態(tài)級(jí)高質(zhì)量數(shù)據(jù)集從數(shù)據(jù)來(lái)源分析,主要源自客戶關(guān)系管理、遠(yuǎn)程運(yùn)維、共性應(yīng)用和供應(yīng)鏈協(xié)同等。從數(shù)據(jù)類(lèi)型協(xié)同策略數(shù)據(jù)協(xié)同管理數(shù)據(jù)是同資源調(diào)度、協(xié)同績(jī)效與評(píng)估、協(xié)同審計(jì)與合規(guī)等數(shù)據(jù)。從數(shù)據(jù)特征跨主體是指數(shù)據(jù)的所有權(quán)和使用權(quán)分布在不同的產(chǎn)業(yè)化是指數(shù)據(jù)應(yīng)用旨在提升整個(gè)產(chǎn)業(yè)鏈的效率和競(jìng)爭(zhēng)力。合作博弈是指各合作參與方有強(qiáng)烈的價(jià)值主張,數(shù)據(jù)共享面臨信任、定價(jià)和利益分配挑戰(zhàn)。從應(yīng)用場(chǎng)景1個(gè)專用數(shù)據(jù)集、71個(gè)數(shù)據(jù)模擬訓(xùn)練數(shù)12個(gè)行業(yè)。該行業(yè)賦能,降低整體物流成本10%1000家。(二)分類(lèi)體系(經(jīng)營(yíng)管理)2-2所示。表2-2工業(yè)高質(zhì)量數(shù)據(jù)集分類(lèi)方法數(shù)據(jù)集類(lèi)別具體定義研發(fā)設(shè)計(jì)指源自產(chǎn)品研發(fā)設(shè)計(jì)全流程,涵蓋從需求輸入到樣品定型驗(yàn)證的高質(zhì)量數(shù)據(jù)集,主要來(lái)源于產(chǎn)品生命周期管理、計(jì)可應(yīng)用于產(chǎn)品結(jié)構(gòu)優(yōu)化、工藝方案迭代等應(yīng)用場(chǎng)景。生產(chǎn)制造指源自產(chǎn)品生產(chǎn)執(zhí)行全流程,涵蓋從原料投入到成品產(chǎn)出的高質(zhì)量數(shù)據(jù)集,主要來(lái)源于制造執(zhí)行系統(tǒng)、可編程邏輯控制器、分布式控制系統(tǒng)、監(jiān)控與數(shù)據(jù)采集及生產(chǎn)管理系運(yùn)維服務(wù)指源自設(shè)備全生命周期維護(hù)過(guò)程,涵蓋從客戶使用反饋到遠(yuǎn)程運(yùn)維系統(tǒng)、售后管理系統(tǒng)、設(shè)備傳感器等運(yùn)維服務(wù)系統(tǒng),可應(yīng)用于產(chǎn)品故障預(yù)警、客戶滿意度提升、產(chǎn)品迭代數(shù)據(jù)集類(lèi)別具體定義改進(jìn)、資源循環(huán)利用等應(yīng)用場(chǎng)景。經(jīng)營(yíng)管理指源自企業(yè)整體經(jīng)營(yíng)運(yùn)營(yíng)過(guò)程,涵蓋采購(gòu)、銷(xiāo)售、財(cái)務(wù)、人力資源、供應(yīng)鏈、網(wǎng)絡(luò)安全等核心管理環(huán)節(jié)的高質(zhì)量數(shù)據(jù)集,主要來(lái)源于企業(yè)資源計(jì)劃、客戶關(guān)系管理、供應(yīng)鏈管理、財(cái)務(wù)系統(tǒng)、人力資源系統(tǒng)、網(wǎng)絡(luò)安全系統(tǒng)等,可應(yīng)用于企業(yè)成本控制、供應(yīng)鏈優(yōu)化等應(yīng)用場(chǎng)景。研發(fā)設(shè)計(jì)類(lèi)高質(zhì)量數(shù)據(jù)集從數(shù)據(jù)類(lèi)型設(shè)計(jì)規(guī)劃數(shù)據(jù)指圍概念設(shè)計(jì)數(shù)據(jù)指基于市場(chǎng)與客戶需求形成的產(chǎn)品初步詳細(xì)設(shè)計(jì)數(shù)據(jù)指對(duì)產(chǎn)物料清單數(shù)據(jù)指描述產(chǎn)品組成設(shè)計(jì)仿真數(shù)據(jù)工藝仿真數(shù)據(jù)樣品制作數(shù)據(jù)指樣品生產(chǎn)過(guò)程中的加工記錄、檢驗(yàn)結(jié)果、尺寸測(cè)量數(shù)據(jù)、裝配調(diào)試反饋等數(shù)據(jù)。生產(chǎn)制造類(lèi)高質(zhì)量數(shù)據(jù)集從數(shù)據(jù)類(lèi)型分析,主要涉及生產(chǎn)計(jì)劃管理數(shù)據(jù)、生產(chǎn)技術(shù)準(zhǔn)備數(shù)據(jù)、生產(chǎn)訂單管理數(shù)據(jù)、生產(chǎn)領(lǐng)料管理數(shù)據(jù)、生產(chǎn)生產(chǎn)計(jì)劃管理數(shù)據(jù)指基生產(chǎn)技術(shù)準(zhǔn)備數(shù)據(jù)指生生產(chǎn)領(lǐng)料管理數(shù)據(jù)生產(chǎn)外協(xié)管理數(shù)據(jù)指委托外部單位完成部分工序加工生產(chǎn)質(zhì)量管理數(shù)據(jù)指生產(chǎn)過(guò)程中的原料檢驗(yàn)報(bào)告、生產(chǎn)完工管理數(shù)據(jù)指產(chǎn)品完成生產(chǎn)后的入庫(kù)記錄、生產(chǎn)仿真管理數(shù)據(jù)設(shè)備管理數(shù)據(jù)指生產(chǎn)設(shè)備的實(shí)時(shí)運(yùn)行狀態(tài)、故障報(bào)警信息、維修記錄、原料配比數(shù)據(jù)指流程工業(yè)生產(chǎn)工藝運(yùn)行數(shù)據(jù)指生產(chǎn)過(guò)程中關(guān)鍵工藝參數(shù)的實(shí)時(shí)監(jiān)測(cè)與歷史生產(chǎn)能耗數(shù)據(jù)指生產(chǎn)過(guò)程中水電汽等能源的消耗生產(chǎn)安全數(shù)據(jù)指生運(yùn)行人員數(shù)據(jù)指生產(chǎn)現(xiàn)場(chǎng)操作人員的考勤記錄、崗位分配、操作流程執(zhí)行記錄、技能培訓(xùn)情況等數(shù)據(jù)。運(yùn)維服務(wù)類(lèi)高質(zhì)量數(shù)據(jù)集從數(shù)據(jù)類(lèi)型/維修服務(wù)數(shù)據(jù)指產(chǎn)品售后出現(xiàn)故障后的維修維護(hù)服務(wù)數(shù)據(jù)指產(chǎn)品定增值服務(wù)數(shù)據(jù)指為客戶提供報(bào)廢/回收數(shù)據(jù)指產(chǎn)品達(dá)到使用年限或因故產(chǎn)品使用反饋數(shù)據(jù)指客戶在產(chǎn)品日常使用中發(fā)現(xiàn)的問(wèn)題、功能優(yōu)化建議、特殊使用場(chǎng)景描述等數(shù)據(jù)。經(jīng)營(yíng)管理類(lèi)高質(zhì)量數(shù)據(jù)集從數(shù)據(jù)類(lèi)型采購(gòu)管理類(lèi)數(shù)據(jù)/銷(xiāo)售管理類(lèi)數(shù)據(jù)包括市場(chǎng)預(yù)售訂單數(shù)據(jù)、銷(xiāo)售合同數(shù)據(jù)、發(fā)票管理數(shù)據(jù)、應(yīng)收款管理數(shù)據(jù)、退/換貨管理數(shù)據(jù)。財(cái)務(wù)類(lèi)數(shù)據(jù)包括成本數(shù)據(jù)、會(huì)計(jì)科目數(shù)據(jù)、薪酬管理數(shù)據(jù)、賬戶數(shù)據(jù)、合同財(cái)務(wù)數(shù)據(jù)。人力資源類(lèi)數(shù)據(jù)包括職員基本信息、薪酬數(shù)據(jù)、合同數(shù)據(jù)、績(jī)效數(shù)據(jù)、供應(yīng)鏈數(shù)據(jù)網(wǎng)絡(luò)安全數(shù)據(jù)三、工業(yè)高質(zhì)量數(shù)據(jù)集的建設(shè)路徑3-1所示,涵蓋建設(shè)規(guī)劃、研發(fā)實(shí)施、應(yīng)用驗(yàn)證三大核心環(huán)節(jié),實(shí)現(xiàn)數(shù)據(jù)集從前期規(guī)劃到持續(xù)優(yōu)化的完整閉環(huán)。圖3-1工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)流程(一)建設(shè)規(guī)劃一是要有效規(guī)避數(shù)據(jù)集建設(shè)資源錯(cuò)配二是要保障數(shù)據(jù)集建設(shè)適配工業(yè)場(chǎng)景差異性。不同業(yè)務(wù)目標(biāo)對(duì)數(shù)據(jù)需求差異顯著,通過(guò)構(gòu)建“業(yè)務(wù)痛點(diǎn)-數(shù)據(jù)需求-三是要為數(shù)據(jù)集建設(shè)全流程提供統(tǒng)一目標(biāo)基準(zhǔn)標(biāo)注階段定義數(shù)據(jù)標(biāo)注規(guī)范,應(yīng)用迭代階段根據(jù)業(yè)務(wù)目標(biāo)變化動(dòng)態(tài)調(diào)整數(shù)據(jù)維度。以場(chǎng)景應(yīng)用為導(dǎo)向的建設(shè)規(guī)劃,通過(guò)構(gòu)建“業(yè)務(wù)目標(biāo)-數(shù)據(jù)需求-二是形成數(shù)據(jù)集需求,明確數(shù)據(jù)集建設(shè)目標(biāo)。以業(yè)務(wù)目《數(shù)據(jù)集建設(shè)需求清單》為基準(zhǔn),構(gòu)建“需求-數(shù)據(jù)源”匹配矩陣,ITOT側(cè)數(shù)據(jù)資源,從字段完整性、時(shí)效性、定針對(duì)性優(yōu)化策略,確保數(shù)據(jù)源覆蓋需求清單的各項(xiàng)要求,形成“需求拆解→數(shù)據(jù)源匹配→綜合評(píng)估→優(yōu)化補(bǔ)全”全流程體系。例如,在風(fēng)電設(shè)備故障診斷數(shù)據(jù)集建設(shè)中,針對(duì)風(fēng)機(jī)罕見(jiàn)故障類(lèi)型(如齒輪斷裂)樣本不足問(wèn)題,通過(guò)回溯歷史設(shè)備維修日志,提取齒輪斷裂相關(guān)歷史數(shù)據(jù),補(bǔ)齊樣本量。以數(shù)據(jù)技術(shù)可行性論證層面成本可行性論證層面”缺乏科學(xué)的建設(shè)規(guī)劃,將導(dǎo)致數(shù)據(jù)集建設(shè)偏離業(yè)務(wù)實(shí)際,另一方(二)研發(fā)實(shí)施01”質(zhì)的飛躍。同時(shí),經(jīng)質(zhì)量評(píng)測(cè)驗(yàn)證的1N”的持續(xù)價(jià)值延伸。工業(yè)高質(zhì)量數(shù)據(jù)集的構(gòu)建需包括研發(fā)設(shè)計(jì)、數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)注、數(shù)據(jù)增強(qiáng)、數(shù)據(jù)合成、質(zhì)量評(píng)測(cè)及持續(xù)運(yùn)維八個(gè)核心環(huán)節(jié),技術(shù)流程如圖3-2所示,實(shí)現(xiàn)從碎片化、低價(jià)值工業(yè)原始數(shù)據(jù)到標(biāo)準(zhǔn)化、高質(zhì)量數(shù)據(jù)集的轉(zhuǎn)化。圖3-2工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)技術(shù)流程一是研發(fā)設(shè)計(jì)指引實(shí)施技術(shù)路徑。作為數(shù)據(jù)集研建的頂層規(guī)劃環(huán)節(jié),研發(fā)設(shè)計(jì)需緊扣數(shù)據(jù)集需求,制定覆蓋數(shù)據(jù)采集、處理、標(biāo)注等全流程的技術(shù)方案與標(biāo)準(zhǔn)規(guī)范,為研發(fā)實(shí)施過(guò)程提供行動(dòng)指南。具體包括:明確工業(yè)數(shù)據(jù)采集接口協(xié)議與格式要求、數(shù)據(jù)處理流程,規(guī)劃數(shù)據(jù)存儲(chǔ)架構(gòu)及災(zāi)備策略,制定融合領(lǐng)域知識(shí)的數(shù)據(jù)標(biāo)注技術(shù)規(guī)范、增強(qiáng)策略等,保障數(shù)據(jù)集建設(shè)按既定技術(shù)路徑有序推進(jìn)。二是數(shù)據(jù)采集提供工業(yè)數(shù)據(jù)“原料”。以“全量覆蓋、ITOT兩側(cè)協(xié)同,實(shí)現(xiàn)原始數(shù)據(jù)全面采集。IT側(cè)對(duì)企OT側(cè)依托工業(yè)傳感器、示例:某數(shù)控機(jī)床生產(chǎn)車(chē)間數(shù)據(jù)采集心,按照數(shù)據(jù)源實(shí)施分類(lèi)數(shù)據(jù)采集,實(shí)現(xiàn)生產(chǎn)全流程的數(shù)據(jù)貫通。APIERPMES等系統(tǒng),((如零件尺寸合格率)。二是針對(duì)物流企業(yè)等外部系統(tǒng),采用API接口方式或約定的數(shù)據(jù)交換協(xié)議,獲取零部件運(yùn)輸軌跡等物流數(shù)據(jù)。特性設(shè)置采集頻率(100ms采集一次),按照采集頻率采+地化預(yù)處理。-生產(chǎn)-質(zhì)檢-預(yù)警模型訓(xùn)練提供完整的原始數(shù)據(jù)支撐。基于各類(lèi)傳感器采集的數(shù)控機(jī)床車(chē)間原始數(shù)據(jù)存在數(shù)據(jù)缺失、噪聲干擾、振動(dòng)數(shù)據(jù)中的噪聲問(wèn)題,采用小波去噪等技術(shù)完成噪聲過(guò)濾?;诟黝?lèi)傳感器采集的數(shù)控機(jī)床車(chē)間原始數(shù)據(jù)存在數(shù)據(jù)缺失、噪聲干擾、振動(dòng)數(shù)據(jù)中的噪聲問(wèn)題,采用小波去噪等技術(shù)完成噪聲過(guò)濾。CSV(如將英寸轉(zhuǎn)換為毫米。通過(guò)歸一化處理(minmax歸一化方法,將數(shù)據(jù)映射到[0,1]區(qū)間),特征提?。豪?,從振動(dòng)、電流等時(shí)序數(shù)據(jù)中提取均值、方差、峰值、峰峰值、均方根值等時(shí)域特征。示例:某數(shù)控機(jī)床車(chē)間數(shù)據(jù)預(yù)處理為提升數(shù)控機(jī)床加工過(guò)程的故障預(yù)警能力,針對(duì)主軸系統(tǒng)的時(shí)序振動(dòng)數(shù)據(jù),明確標(biāo)注精度要求等,選擇適配的標(biāo)注工具與協(xié)作模式(如人機(jī)協(xié)同),開(kāi)展數(shù)據(jù)標(biāo)注工作,關(guān)鍵路徑如下。示例:面向數(shù)控機(jī)床加工過(guò)程的時(shí)序振動(dòng)數(shù)據(jù)標(biāo)注四是數(shù)據(jù)標(biāo)注賦予工業(yè)數(shù)據(jù)“可理解性”。數(shù)據(jù)標(biāo)注是通過(guò)融合工業(yè)機(jī)理與領(lǐng)域知識(shí),依托專業(yè)標(biāo)注工具對(duì)文本、圖像、視頻、時(shí)序信號(hào)等原始數(shù)據(jù)添加標(biāo)簽,使數(shù)據(jù)可被機(jī)器理解和使用。針對(duì)工業(yè)數(shù)據(jù)集需求,按照既定標(biāo)注方案,對(duì)不同模態(tài)數(shù)據(jù)實(shí)施圖像邊界框標(biāo)注、文本分類(lèi)等差異化標(biāo)注流程,形成場(chǎng)景適配的標(biāo)注數(shù)據(jù)集。為提升數(shù)控機(jī)床加工過(guò)程的故障預(yù)警能力,針對(duì)主軸系統(tǒng)的時(shí)序振動(dòng)數(shù)據(jù),明確標(biāo)注精度要求等,選擇適配的標(biāo)注工具與協(xié)作模式(如人機(jī)協(xié)同),開(kāi)展數(shù)據(jù)標(biāo)注工作,關(guān)鍵路徑如下。示例:面向數(shù)控機(jī)床加工過(guò)程的時(shí)序振動(dòng)數(shù)據(jù)標(biāo)注示例:面向數(shù)控機(jī)床加工過(guò)程的時(shí)序振動(dòng)數(shù)據(jù)標(biāo)注時(shí),確保數(shù)據(jù)已經(jīng)過(guò)預(yù)處理,質(zhì)量達(dá)標(biāo)。時(shí)序數(shù)據(jù)對(duì)應(yīng)的工藝參數(shù)(如主軸轉(zhuǎn)速)。一是注平臺(tái)完成預(yù)標(biāo)注,由具備機(jī)床運(yùn)維經(jīng)驗(yàn)的工程師進(jìn)行分段修正標(biāo)注。二是標(biāo)注質(zhì)量核驗(yàn),通過(guò)“標(biāo)注員交叉校驗(yàn)+算法自動(dòng)質(zhì)檢+領(lǐng)域?qū)<页闃訉徍耍ǔ闃颖壤?%)”多層核驗(yàn),確保標(biāo)注數(shù)據(jù)集質(zhì)量,形成“主軸振動(dòng)-工況關(guān)聯(lián)標(biāo)注數(shù)據(jù)集”。承磨損”“主軸不對(duì)中”等典型故障的提前識(shí)別能力。五是數(shù)據(jù)增強(qiáng)緩解數(shù)據(jù)稀缺難題面向領(lǐng)域特性的可控增強(qiáng),結(jié)合工業(yè)場(chǎng)景數(shù)據(jù)的物理約束與場(chǎng)景關(guān)聯(lián)性定制化數(shù)據(jù)增強(qiáng)策略。例如,對(duì)軸承缺陷圖像采用角度受限的旋轉(zhuǎn)增強(qiáng),避免過(guò)度變換導(dǎo)致缺陷形態(tài)失真;基于模型反饋的智能增強(qiáng),-基于質(zhì)量感知的增強(qiáng)過(guò)濾信樣本與高誤差樣本,形成“增強(qiáng)-評(píng)估-淘汰”閉環(huán)機(jī)制,確保增強(qiáng)數(shù)據(jù)的質(zhì)量。示例:汽車(chē)零部件表面缺陷檢測(cè)圖像數(shù)據(jù)增強(qiáng)3000張)80%(2400張),存在嚴(yán)重的類(lèi)別不均衡問(wèn)題。為平衡數(shù)據(jù)分布,提升模型對(duì)缺陷的識(shí)別能力,采用數(shù)據(jù)增強(qiáng)策略如下。數(shù)據(jù)變換快速生成新數(shù)據(jù)樣本樣本,提升數(shù)據(jù)集多樣性。(如縮放(0.8-1.2倍)等操作,生成新缺陷圖像。顏色變換:調(diào)整圖像亮度(如±10%)、對(duì)比度(如±15%)、飽和度(如±10%)等,增加圖像多樣性。生成對(duì)抗網(wǎng)絡(luò)(GAN)生成高質(zhì)量復(fù)雜數(shù)據(jù)樣本針對(duì)某些細(xì)微、罕見(jiàn)的缺陷,難以大量采集,GAN通過(guò)學(xué)習(xí)真實(shí)數(shù)據(jù)分布,生成全新且逼真的缺陷圖像,彌補(bǔ)原始數(shù)據(jù)不足。30007:3比例劃分為訓(xùn)練集(2100張)與測(cè)試集(900張),訓(xùn)練集中缺陷樣本420張,正常樣本1680張。對(duì)圖像進(jìn)行歸一化處理,將像素值縮放到[-1,1]區(qū)間,適配模型輸入要求。模型訓(xùn)練:生成器與判別器交替訓(xùn)練。生成器先輸入隨機(jī)噪聲生成85%。(3)數(shù)據(jù)增強(qiáng):訓(xùn)練完成后,使用生成器對(duì)原始缺陷樣本進(jìn)行擴(kuò)充。針缺陷圖像,且在缺陷形狀、大小、分布密度等方面呈現(xiàn)豐富多樣性。示例:汽車(chē)零部件表面缺陷檢測(cè)圖像數(shù)據(jù)增強(qiáng)300(12080100張GAN合成1500張高質(zhì)量缺陷圖像,彌補(bǔ)數(shù)據(jù)集不足,關(guān)鍵路徑如下。1.300(12080100張GAN合成1500張高質(zhì)量缺陷圖像,彌補(bǔ)數(shù)據(jù)集不足,關(guān)鍵路徑如下。1.300560張帶標(biāo)注的標(biāo)準(zhǔn)化圖像缺陷數(shù)據(jù)集,保證圖像無(wú)黑邊、無(wú)像素溢出,示例:汽車(chē)零部件缺陷圖像數(shù)據(jù)合成數(shù)據(jù)分布均勻,形成適配數(shù)據(jù)分布均勻,形成適配GAN模型的標(biāo)準(zhǔn)化數(shù)據(jù)集。GAN模型,DCGAN模型架構(gòu)。GAN模型通過(guò)對(duì)抗訓(xùn)練達(dá)成納什平衡,能生成高相似度缺陷圖。GAN模型批量生成特定類(lèi)型的缺陷圖像,確保每張缺陷形態(tài)不同。留可用樣本。示例:汽車(chē)零部件缺陷圖像數(shù)據(jù)合成領(lǐng)域適應(yīng)性更新,持續(xù)優(yōu)化更新動(dòng)態(tài)維護(hù)更新二是數(shù)據(jù)集與實(shí)際需求適配度不足因研發(fā)實(shí)施不規(guī)范導(dǎo)致的數(shù)據(jù)集質(zhì)量缺陷會(huì)直接傳導(dǎo)至應(yīng)用驗(yàn)證環(huán)節(jié),導(dǎo)致企業(yè)反復(fù)返工,模型驗(yàn)證周期顯著延長(zhǎng)。(三)應(yīng)用驗(yàn)證過(guò)場(chǎng)景的實(shí)際驗(yàn)證來(lái)檢驗(yàn)數(shù)據(jù)集的可用性?!P吞嵘鷶?shù)據(jù)另一方面,模型性能提升反推數(shù)據(jù)集新需求。隨著數(shù)據(jù)集的不斷優(yōu)化,若跳過(guò)應(yīng)用驗(yàn)證,將導(dǎo)致“看似合格”的數(shù)據(jù)集向全流→模型性能失效→業(yè)務(wù)損失→二是模型性能失控導(dǎo)致業(yè)務(wù)風(fēng)險(xiǎn)傳導(dǎo)(四)典型案例數(shù)據(jù)集建設(shè)背景與目標(biāo)南京鋼鐵集團(tuán)有限公司(以下簡(jiǎn)稱“南鋼”)中厚板產(chǎn)TMEIC(±10%84%)和自主可控缺失的瓶頸,存在三一是二是三是AGC系統(tǒng)調(diào)節(jié)偏差,同板差合格率低,影響厚板成材率。自主高精度軋制力預(yù)測(cè)模型全工序鏈的高質(zhì)量結(jié)構(gòu)化數(shù)據(jù)集。數(shù)據(jù)集建設(shè)規(guī)劃3-1所示。表3-1典型案例:中厚板軋制力實(shí)時(shí)智能預(yù)測(cè)數(shù)據(jù)集建設(shè)要求維度建設(shè)要求樣本范圍覆蓋不同鋼種(如普鋼、特種鋼)、不同規(guī)格、穩(wěn)態(tài)與非穩(wěn)態(tài)工況(如換輥后、換鋼種初期)以及小批量鋼種涵蓋煉鋼/連鑄、加熱、軋制等全工藝流程的關(guān)鍵參數(shù)。例如,煉鋼/連鑄階段的化學(xué)成分和連鑄拉速,加熱階段的溫度曲線和出爐溫度,以及軋制階段的入口厚度、溫度、速度等質(zhì)量指標(biāo)完整性:覆蓋完整生產(chǎn)流程,關(guān)鍵參數(shù)缺失率需極低()的實(shí)際測(cè)量值需嚴(yán)格遵循生產(chǎn)實(shí)際,與真實(shí)值偏差控制在±5%范圍內(nèi)維度建設(shè)要求異常值控制:全數(shù)據(jù)集異常值比例須<5%,并經(jīng)過(guò)嚴(yán)格識(shí)別與處理時(shí)序?qū)R(vs低頻系統(tǒng)在時(shí)間維度上精確對(duì)齊,以反映真實(shí)工藝狀態(tài)目標(biāo)值:包含精確測(cè)量的實(shí)際軋制力值作為模型訓(xùn)練與驗(yàn)證的目標(biāo)變量安全合規(guī)重要數(shù)據(jù)保護(hù):針對(duì)核心工藝數(shù)據(jù),實(shí)施物理隔離存儲(chǔ)策略,在獨(dú)立安全域部署高敏感數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)。訪問(wèn)控制采用系統(tǒng)管理員與安全管理員雙管模式。隱私合規(guī):訂單號(hào)、供應(yīng)商代碼等信息進(jìn)行脫敏,鋼種映射為隨機(jī)編碼隱匿真實(shí)牌號(hào),在消除敏感信息泄露風(fēng)險(xiǎn)的同時(shí),維持工藝參數(shù)與材料性能的關(guān)聯(lián)邏輯操作跟蹤IPID及值變更軌跡),對(duì)化學(xué)成分修改等敏感操作自動(dòng)標(biāo)記告警,且全鏈路數(shù)據(jù)操作日志保留≥3年數(shù)據(jù)集建設(shè)實(shí)施122個(gè)維度、500余萬(wàn)條的高質(zhì)量數(shù)據(jù)集。在研發(fā)規(guī)范方面ID為主鍵,結(jié)構(gòu)化存儲(chǔ)全鏈路數(shù)據(jù)。在數(shù)據(jù)處理方面+統(tǒng)計(jì)檢測(cè)+在數(shù)據(jù)增強(qiáng)方面驅(qū)動(dòng)模型工況適應(yīng)性不足的缺陷。數(shù)據(jù)集應(yīng)用驗(yàn)證一是模型訓(xùn)練驅(qū)動(dòng)數(shù)據(jù)迭代。深入分析模型訓(xùn)練結(jié)果(識(shí)別影響模型性能的關(guān)鍵數(shù)據(jù)項(xiàng)或潛在數(shù)據(jù)質(zhì)量問(wèn)題。二是數(shù)據(jù)項(xiàng)針對(duì)性調(diào)整優(yōu)化。根據(jù)模型分析反饋,動(dòng)態(tài)/低貢獻(xiàn)度特征。三是數(shù)據(jù)集同步優(yōu)化步清洗、驗(yàn)證與更新,確保調(diào)整后的數(shù)據(jù)集質(zhì)量不降低。四是閉環(huán)反饋驗(yàn)證證軋制力預(yù)測(cè)模型,評(píng)估精度提升效果。數(shù)據(jù)集應(yīng)用成效在南鋼中厚板生產(chǎn)過(guò)程中,軋制力的精準(zhǔn)預(yù)測(cè)是確保產(chǎn)品質(zhì)量與生產(chǎn)效率的關(guān)鍵環(huán)節(jié)。通過(guò)將高質(zhì)量數(shù)據(jù)集與人工智能模型深度融合,成功構(gòu)建了軋制力實(shí)時(shí)智能預(yù)測(cè)系統(tǒng),并取得顯著應(yīng)用成效。一是質(zhì)量穩(wěn)定性顯著提升10%范圍內(nèi)的準(zhǔn)確率非計(jì)劃率降低3%,提升產(chǎn)品合格率。二是生產(chǎn)效率與產(chǎn)能提升在設(shè)備安全范圍內(nèi)逼近理論最大壓下量,單道次形變量增加,降低軋制總道次數(shù),最終提升軋機(jī)規(guī)程產(chǎn)能。三是數(shù)據(jù)驅(qū)動(dòng)工藝優(yōu)化。系統(tǒng)積累的實(shí)時(shí)生產(chǎn)數(shù)據(jù)為工蔚來(lái)控股有限公司:新能源汽車(chē)電驅(qū)研發(fā)大模型數(shù)據(jù)集建設(shè)背景與目標(biāo)(在新能源汽車(chē)一是二是三是電驅(qū)系統(tǒng)測(cè)試環(huán)節(jié)具有強(qiáng)跨學(xué)科特性,涉及電磁兼容性(EMC)測(cè)試、NVH(四是汽車(chē)電驅(qū)研發(fā)大模型高質(zhì)量數(shù)據(jù)集,支撐電驅(qū)測(cè)試的測(cè)試SPEC和腳本自動(dòng)生成。一方面,提升測(cè)試SPEC編寫(xiě)效率,目標(biāo)效率提升10倍以上。另一方面,提高測(cè)試覆蓋度,目的支撐體系。數(shù)據(jù)集建設(shè)實(shí)施5TB規(guī)在多源數(shù)據(jù)采集環(huán)節(jié),從數(shù)據(jù)庫(kù)、API、傳感器、企業(yè)文檔、專家知識(shí)庫(kù)等多渠道獲取原始數(shù)據(jù),基于datafabric思想,實(shí)現(xiàn)數(shù)據(jù)在數(shù)據(jù)清洗環(huán)節(jié)在數(shù)據(jù)標(biāo)注環(huán)節(jié)在數(shù)據(jù)劃分環(huán)節(jié)在模型訓(xùn)練與評(píng)估環(huán)節(jié)數(shù)據(jù)集應(yīng)用成效AI值四個(gè)方面取得顯著應(yīng)用成效。一是基礎(chǔ)訓(xùn)練支撐。在測(cè)試用例生成領(lǐng)域,采用經(jīng)嚴(yán)格清洗和標(biāo)注的數(shù)據(jù)集進(jìn)行微調(diào)訓(xùn)練,結(jié)合專家規(guī)則的驗(yàn)證流10%二是調(diào)優(yōu)與泛化能力提升。通過(guò)構(gòu)建包含用戶顯式反饋15%。三是RAG優(yōu)化實(shí)踐。基于知識(shí)圖譜的檢索增強(qiáng)生成(RAG)系統(tǒng),通過(guò)構(gòu)建領(lǐng)域知識(shí)圖譜和關(guān)聯(lián)性校驗(yàn)機(jī)制,實(shí)98.5%以上。西安塔力科技有限公司:礦山行業(yè)全場(chǎng)景要素?cái)?shù)據(jù)集建設(shè)背景與目標(biāo)(以礦山數(shù)字化轉(zhuǎn)3-2所示,破解礦山數(shù)據(jù)利用低效、安全預(yù)警滯后、人工依賴度高的難題。3-2要素?cái)?shù)據(jù)集覆蓋場(chǎng)景人員人員裝備狀態(tài)、違規(guī)行為(如危險(xiǎn)區(qū)域闖入、未戴防護(hù)裝備)車(chē)輛車(chē)輛分類(lèi)、停放規(guī)范、行車(chē)軌跡、人車(chē)交互風(fēng)險(xiǎn)設(shè)備設(shè)備運(yùn)行狀態(tài)(如液壓支架伸縮、采煤機(jī)截割)、防護(hù)完整性、標(biāo)識(shí)有效性環(huán)境異物占道、物料堆放隱患、極端工況(煙霧、低光照、粉塵)數(shù)據(jù)集建設(shè)實(shí)施350多571.1億張要素圖片的高質(zhì)量礦在數(shù)據(jù)采集方面萬(wàn)張現(xiàn)場(chǎng)圖像,類(lèi)極端工況。在數(shù)據(jù)標(biāo)注方面,塔力53子類(lèi)目標(biāo)標(biāo)簽,保證標(biāo)注一致性波動(dòng)≤5%,分割掩碼誤差<2%。在數(shù)據(jù)增強(qiáng)與小樣本策略方面,實(shí)施亮度擾動(dòng)等常規(guī)(如瓦斯突出前兆、煙霧、違規(guī)行為等)MixUp/CutMix提升小樣本泛化能力。數(shù)據(jù)集應(yīng)用成效3-3所示。表3-3典型案例:礦山行業(yè)高質(zhì)量數(shù)據(jù)集典型場(chǎng)景應(yīng)用成效場(chǎng)景維度應(yīng)用成效采煤工作面智能監(jiān)測(cè)設(shè)備狀態(tài)識(shí)別通過(guò)全場(chǎng)景分割對(duì)液壓支架、采煤機(jī)等設(shè)備進(jìn)行像素級(jí)標(biāo)注,實(shí)時(shí)監(jiān)測(cè)液壓支架伸縮狀態(tài)(識(shí)別精度缺失(響應(yīng)時(shí)間<1.5秒),較傳統(tǒng)人工巡檢效率提升400%人員行為管控針對(duì)采煤面人員違規(guī)進(jìn)入危險(xiǎn)區(qū)域、未按規(guī)定佩戴防護(hù)裝備等行為,結(jié)合骨架提取技術(shù),違規(guī)識(shí)別精度達(dá)96.7%,誤報(bào)率降至3.2%井下運(yùn)輸巷道安全防控人車(chē)交互管理采用“車(chē)-人”分割算法對(duì)礦車(chē)、膠輪車(chē)與行人進(jìn)秒預(yù)警。系統(tǒng)運(yùn)行以來(lái),井下運(yùn)輸事故發(fā)生率下降62%,其中,人車(chē)碰撞隱患識(shí)別準(zhǔn)確率達(dá)95.3%皮帶機(jī)異常監(jiān)測(cè)(誤差堵塞、異物混入等狀態(tài),結(jié)合紅外熱成像數(shù)據(jù),同步監(jiān)測(cè)滾筒過(guò)熱現(xiàn)象。某巷道皮帶機(jī)曾因異物卡堵觸發(fā)系統(tǒng)預(yù)警,避免了設(shè)備燒毀事故主副井口多維度監(jiān)管人員出入管控對(duì)井口區(qū)域進(jìn)行語(yǔ)義分割,精準(zhǔn)識(shí)別未授權(quán)人員闖入、作業(yè)人員未系安全繩等違規(guī)行為,聯(lián)動(dòng)門(mén)禁系統(tǒng)實(shí)現(xiàn)自動(dòng)攔截,月度違規(guī)事件較改造前減少78%極端環(huán)境適應(yīng)CLAHE對(duì)比度增強(qiáng)與合成樣本訓(xùn)練,在能見(jiàn)度<5米的環(huán)境下,人員識(shí)別準(zhǔn)確率仍保持89.6%,設(shè)備狀態(tài)監(jiān)測(cè)不受影響其他重點(diǎn)場(chǎng)景應(yīng)用人員行為識(shí)別典型場(chǎng)景包括睡崗、玩手機(jī)、攀爬不當(dāng)?shù)?,基于全?chǎng)景分割,識(shí)別精度提升至98%以上車(chē)輛運(yùn)行與安全監(jiān)測(cè)分割與交互檢測(cè)結(jié)合,實(shí)現(xiàn)車(chē)輛運(yùn)行軌跡自動(dòng)化追蹤與危險(xiǎn)區(qū)域預(yù)警設(shè)備運(yùn)行狀態(tài)識(shí)別針對(duì)液壓支架伸縮狀態(tài)、防護(hù)缺失、傳感器異常、帶式運(yùn)輸機(jī)頭/停機(jī)、有煤/患漏檢環(huán)境與風(fēng)險(xiǎn)預(yù)警在煙霧、火情、煤流異常、異物阻塞等場(chǎng)景,結(jié)合時(shí)空數(shù)據(jù),環(huán)境異常識(shí)別率提升至95%以上,提前預(yù)警火災(zāi)和運(yùn)輸風(fēng)險(xiǎn)四、工業(yè)高質(zhì)量數(shù)據(jù)集的評(píng)估體系工業(yè)高質(zhì)量數(shù)據(jù)集的評(píng)估體系是衡量和保障數(shù)據(jù)集質(zhì)分釋放數(shù)據(jù)價(jià)值、賦能工業(yè)高質(zhì)量發(fā)展的關(guān)鍵基礎(chǔ)。通過(guò)全面科學(xué)的評(píng)估體系與測(cè)評(píng)方法,衡量數(shù)據(jù)集對(duì)建模、預(yù)測(cè)、診斷、優(yōu)化等任務(wù)的支撐能力,為數(shù)據(jù)集的持續(xù)優(yōu)化、迭代升級(jí)與應(yīng)用推廣提供精準(zhǔn)指導(dǎo)和可靠依據(jù)。通過(guò)不斷識(shí)別問(wèn)題、優(yōu)化流程、提升效率,實(shí)現(xiàn)數(shù)據(jù)集質(zhì)量的持續(xù)改善,為工業(yè)智能應(yīng)用提供可靠數(shù)據(jù)底座。(一)評(píng)估框架工業(yè)高質(zhì)量數(shù)據(jù)集評(píng)估應(yīng)圍繞數(shù)據(jù)質(zhì)量建立定性與定量相結(jié)合的評(píng)估體系。一是二是要三是要審核數(shù)據(jù)集的內(nèi)容合規(guī)與信息脫敏等安全合規(guī)水平。當(dāng)前面向通用場(chǎng)景的數(shù)據(jù)集質(zhì)量評(píng)估已在形成諸多標(biāo)準(zhǔn)據(jù)精度與分辨率、有效信息密度、合成數(shù)據(jù)真實(shí)性與時(shí)間跨度等影響實(shí)際應(yīng)用成效的問(wèn)題關(guān)注不多。設(shè)計(jì)多層次的工業(yè)高質(zhì)量數(shù)據(jù)集評(píng)估框架并設(shè)計(jì)具體評(píng)估工業(yè)高質(zhì)量數(shù)據(jù)集評(píng)估框架以《信息技術(shù)數(shù)據(jù)質(zhì)量評(píng)[8]提出規(guī)范性、完整性、準(zhǔn)確性、一致性、時(shí)效性、稠密性、10個(gè)一級(jí)指標(biāo)。每個(gè)4-1所示。上述的圖4-1工業(yè)高質(zhì)量數(shù)據(jù)集評(píng)估框架(二)評(píng)估指標(biāo)工業(yè)數(shù)據(jù)集的質(zhì)量評(píng)估既遵循數(shù)據(jù)質(zhì)量的一般評(píng)估原則,也需考慮工業(yè)領(lǐng)域獨(dú)有特點(diǎn)與服務(wù)模型應(yīng)用的具體需求。工業(yè)高質(zhì)量數(shù)據(jù)集的評(píng)估指標(biāo)包含1030個(gè)二級(jí)指標(biāo)。各項(xiàng)一級(jí)指標(biāo)內(nèi)涵與范圍概述如下:規(guī)范性指數(shù)據(jù)集符合數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)模型、業(yè)務(wù)規(guī)則、元數(shù)據(jù)或權(quán)威參考數(shù)據(jù)的程度,包括數(shù)據(jù)集的格式、標(biāo)注、單位和元數(shù)據(jù)的規(guī)范性等方面。完整性指數(shù)據(jù)集按照建設(shè)規(guī)則要求,數(shù)據(jù)元素被賦予數(shù)值的程度,包括數(shù)據(jù)集的特征完整性、分布完整性、標(biāo)注完整性、文檔完整性等方面。準(zhǔn)確性(實(shí)際對(duì)象)真實(shí)值的程度,包括數(shù)據(jù)的內(nèi)容、精度、誤差、標(biāo)注信息、文檔描述等方面。一致性指數(shù)據(jù)集內(nèi)部及與其他數(shù)據(jù)源之間的統(tǒng)一時(shí)效性指數(shù)據(jù)集能夠反映當(dāng)前或指定時(shí)間窗口內(nèi)稠密性指數(shù)據(jù)集單位數(shù)據(jù)所含信息量的多樣化程度,包括數(shù)據(jù)樣本分布密度、信息價(jià)值密度與樣本數(shù)據(jù)充足性等方面。均衡性指數(shù)據(jù)集數(shù)據(jù)的均勻分布程度,包括數(shù)據(jù)類(lèi)別分布均衡性和數(shù)據(jù)來(lái)源均衡性等方面。專業(yè)性指數(shù)據(jù)集涵蓋的信息內(nèi)容和工業(yè)場(chǎng)景的匹的關(guān)聯(lián)性等方面。通用性指數(shù)據(jù)集在跨行業(yè)、跨場(chǎng)景的適用程度,具體包括知識(shí)的適用性、數(shù)據(jù)集的可復(fù)用性與可遷移性等方面。合規(guī)性準(zhǔn)與倫理規(guī)范等方面。各項(xiàng)二級(jí)指標(biāo)說(shuō)明如表4-1所示。表4-1工業(yè)高質(zhì)量數(shù)據(jù)集評(píng)估指標(biāo)一級(jí)指標(biāo)二級(jí)指標(biāo)指標(biāo)說(shuō)明規(guī)范性內(nèi)容規(guī)范性數(shù)據(jù)集中樣本的數(shù)據(jù)格式、單位應(yīng)與標(biāo)準(zhǔn)格式保持一致,無(wú)空白、缺失與無(wú)效數(shù)據(jù)。標(biāo)注規(guī)范性數(shù)據(jù)集中需標(biāo)注的樣本,標(biāo)注的格式應(yīng)與標(biāo)準(zhǔn)保持一致。(適用于包含標(biāo)注樣本的情形)元數(shù)據(jù)規(guī)范性數(shù)據(jù)集元數(shù)據(jù)應(yīng)具備規(guī)范的標(biāo)識(shí)與格式。數(shù)據(jù)集元數(shù)據(jù)中包含的各類(lèi)元素內(nèi)容應(yīng)以規(guī)范形式填寫(xiě)。完整性特征完整性數(shù)據(jù)集中樣本包含的模態(tài)與特征,應(yīng)足夠描述對(duì)象行為特性,或滿足預(yù)期要求。分布完整性數(shù)據(jù)集中樣本應(yīng)覆蓋對(duì)象在所關(guān)注范圍內(nèi)所有可能的狀態(tài)分布范圍。標(biāo)注完整性數(shù)據(jù)集中需標(biāo)注的樣本,應(yīng)完整標(biāo)注出所有需要標(biāo)注的標(biāo)簽、類(lèi)別、對(duì)象等信息。(適用于包含標(biāo)注樣本的情形)元數(shù)據(jù)完整性數(shù)據(jù)集元數(shù)據(jù)中應(yīng)完整包含數(shù)據(jù)集的基本信息、準(zhǔn)確性內(nèi)容準(zhǔn)確性實(shí)對(duì)象保持一致。對(duì)于語(yǔ)料數(shù)據(jù),語(yǔ)料文本應(yīng)符一級(jí)指標(biāo)二級(jí)指標(biāo)指標(biāo)說(shuō)明內(nèi)容精確性數(shù)據(jù)集中樣本的數(shù)值有效數(shù)字、圖像與視頻分辨率,誤差范圍、噪聲占比等精度屬性應(yīng)足夠精準(zhǔn)刻畫(huà)對(duì)象特征,或滿足預(yù)期要求。(適用于對(duì)精度指標(biāo)存在要求的情形)標(biāo)注準(zhǔn)確性數(shù)據(jù)集中需標(biāo)注的樣本,標(biāo)注的類(lèi)型、位置與尺度等應(yīng)準(zhǔn)確無(wú)誤。(適用于包含標(biāo)注樣本的情形)元數(shù)據(jù)準(zhǔn)確性數(shù)據(jù)集元數(shù)據(jù)中包含的各類(lèi)元素內(nèi)容應(yīng)準(zhǔn)確無(wú)誤。一致性分布一致性數(shù)據(jù)集中樣本所數(shù)據(jù)樣本在空間、時(shí)間、屬性等維度上的分布形態(tài)應(yīng)與真實(shí)對(duì)象保持一致。標(biāo)注一致性數(shù)據(jù)集中需標(biāo)注的樣本,不同樣本間應(yīng)遵循一致的標(biāo)注基準(zhǔn)與判別標(biāo)準(zhǔn)。(適用于包含標(biāo)注樣本的情形)信息一致性數(shù)據(jù)集中樣本包含的數(shù)值、邏輯和知識(shí)等信息應(yīng)能夠自洽,不應(yīng)存在自相矛盾。時(shí)效性時(shí)效及時(shí)性數(shù)據(jù)集中包含的內(nèi)容應(yīng)符合對(duì)象當(dāng)前的實(shí)際狀態(tài),不應(yīng)存在過(guò)時(shí)數(shù)據(jù)和信息。(適用于對(duì)時(shí)效及時(shí)性存在要求的情形)時(shí)效全面性數(shù)據(jù)集中包含的內(nèi)容應(yīng)全面覆蓋對(duì)象在全部時(shí)間范圍內(nèi)的狀態(tài)信息,或覆蓋指定的時(shí)段區(qū)間,不應(yīng)存在遺漏或缺失。(適用于對(duì)時(shí)效全面性存在要求的情形)稠密性分布稠密性數(shù)據(jù)集中樣本在空間與時(shí)間維度的樣本密度應(yīng)滿足香農(nóng)采樣定理要求,能夠無(wú)失真地刻畫(huà)原始對(duì)象狀態(tài)信息。信息密集性無(wú)重復(fù)、冗余、噪聲、無(wú)意義樣本。樣本充足性據(jù)集中包含的樣本數(shù)量應(yīng)足夠描述對(duì)象行為特性,滿足模型構(gòu)建對(duì)樣本數(shù)量的需求。均衡性類(lèi)別均衡性數(shù)據(jù)集中樣本所屬類(lèi)別應(yīng)具備均衡的類(lèi)間分布,涵蓋稀缺場(chǎng)景與類(lèi)型。(適用于對(duì)類(lèi)別均衡性存在要求的情形)來(lái)源均衡性數(shù)據(jù)集中樣本應(yīng)具備多樣化的來(lái)源,涵蓋有代表性的數(shù)據(jù)來(lái)源。(適用于對(duì)類(lèi)別均衡性存在要求的情形)專業(yè)性信息專業(yè)性數(shù)據(jù)集應(yīng)包含面向特定工業(yè)行業(yè)領(lǐng)域的有效信息和知識(shí),可用于解決專業(yè)領(lǐng)域問(wèn)題。(適用于對(duì)信息專業(yè)性存在要求的情形)場(chǎng)景匹配性數(shù)據(jù)集的形式應(yīng)與相關(guān)的業(yè)務(wù)場(chǎng)景相契合,內(nèi)容應(yīng)能夠滿足相關(guān)業(yè)務(wù)場(chǎng)景實(shí)際使用需求。機(jī)理關(guān)聯(lián)性數(shù)據(jù)集中數(shù)據(jù)的生成、分布、內(nèi)容等應(yīng)符合對(duì)象一級(jí)指標(biāo)二級(jí)指標(biāo)指標(biāo)說(shuō)明的自身機(jī)理邏輯,具備基于機(jī)理的可解釋性。(適用于對(duì)機(jī)理關(guān)聯(lián)性存在要求的情形)通用性信息通用性數(shù)據(jù)集應(yīng)具備跨場(chǎng)景、跨用戶、跨行業(yè)不等的通識(shí)類(lèi)信息和知識(shí)。(適用于對(duì)信息通用性存在要求的情形)可復(fù)用性數(shù)據(jù)集應(yīng)具備對(duì)使用方能夠持續(xù)復(fù)用的能力??蛇w移性數(shù)據(jù)集應(yīng)具備對(duì)相似場(chǎng)景可遷移泛化的能力。合規(guī)性內(nèi)容安全性數(shù)據(jù)集中敏感信息應(yīng)完成脫敏處理,不應(yīng)包含恐怖、偏見(jiàn)、歧視、誤導(dǎo)、虛假等有害信息,不得包含中毒與惡意數(shù)據(jù),遵循《中華人民共和國(guó)數(shù)等相關(guān)法規(guī)規(guī)定[11–13]。來(lái)源合規(guī)性數(shù)據(jù)集中數(shù)據(jù)的來(lái)源與采集過(guò)程應(yīng)合法或得到授權(quán)。權(quán)屬明確性數(shù)據(jù)集中開(kāi)源數(shù)據(jù)應(yīng)符合開(kāi)源協(xié)議,非公有數(shù)據(jù)應(yīng)具備權(quán)屬證明與使用許可。(三)測(cè)評(píng)方法4-2所示。評(píng)估準(zhǔn)備階段包括評(píng)評(píng)估活動(dòng)階段/評(píng)估結(jié)論階段包括數(shù)據(jù)集質(zhì)量圖4-2工業(yè)高質(zhì)量數(shù)據(jù)集評(píng)估流程對(duì)于基于視覺(jué)圖像的產(chǎn)品缺陷檢測(cè)對(duì)于需要精準(zhǔn)建模的過(guò)程控制系統(tǒng)辨識(shí)對(duì)于基于超聲信號(hào)的結(jié)構(gòu)探傷對(duì)于設(shè)備預(yù)測(cè)性維護(hù)工況與失效記錄,故而需對(duì)時(shí)效完整性和分布全面性指標(biāo)加強(qiáng)關(guān)注。PDCA”循環(huán)[14,15],全方位系統(tǒng)性提升數(shù)據(jù)質(zhì)量,確保數(shù)據(jù)集質(zhì)量的五、工業(yè)高質(zhì)量數(shù)據(jù)集的流通應(yīng)用工業(yè)高質(zhì)量數(shù)據(jù)集的流通應(yīng)用是激活工業(yè)數(shù)據(jù)價(jià)值、賦能產(chǎn)業(yè)提質(zhì)增效的重要環(huán)節(jié)。當(dāng)前,數(shù)據(jù)孤島嚴(yán)重、權(quán)屬不(一)面臨問(wèn)題當(dāng)前,工業(yè)高質(zhì)量數(shù)據(jù)集流通應(yīng)用的主要問(wèn)題集中在供需協(xié)作不暢、隱私保護(hù)不足、流通管控體系不完善等方面,直接影響數(shù)據(jù)集價(jià)值轉(zhuǎn)化效率。的擔(dān)憂,制約數(shù)據(jù)集的可信共享與流通。從供給端看,數(shù)據(jù)集建設(shè)分散于各企業(yè)、各生產(chǎn)環(huán)節(jié),呈現(xiàn)“碎片化”分布特征,缺乏跨主體、跨環(huán)節(jié)的統(tǒng)籌規(guī)劃,難以形成規(guī)范化的高質(zhì)量數(shù)據(jù)集。使用方由于缺乏數(shù)據(jù)集檢索與篩選渠道,難以快速定位符合自身業(yè)務(wù)需求的數(shù)據(jù)集,增加了需求挖掘成本。而供給方無(wú)法通過(guò)公共或開(kāi)放平臺(tái)觸達(dá)潛在用戶,導(dǎo)致高質(zhì)量、高價(jià)值數(shù)據(jù)集的市場(chǎng)曝光度不足,難以形成有效供給和精準(zhǔn)匹配,整體呈現(xiàn)“信息孤島與無(wú)序供給并存”的局面,降低了數(shù)據(jù)集的供需匹配效率。(二)解決路徑如圖5-1所示。圖5-1工業(yè)高質(zhì)量數(shù)據(jù)集可信數(shù)據(jù)空間總體功能架構(gòu)利用全鏈路臺(tái)賬與追溯體系打造數(shù)據(jù)集全生命5-2所示。企業(yè)層面,通過(guò)鏈接生產(chǎn)制造、設(shè)備運(yùn)維等數(shù)據(jù)源頭,產(chǎn)業(yè)集群層面國(guó)家層面化配置。圖5-2

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論