版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
中國(guó)工業(yè)互聯(lián)網(wǎng)研究院2025年09月本報(bào)告所有材料和內(nèi)容的知識(shí)產(chǎn)權(quán)歸中國(guó)工業(yè)互聯(lián)網(wǎng)研究院所有(注明是引自其他地方的內(nèi)容除外),并受法律保護(hù)。任何單位和個(gè)人未經(jīng)中國(guó)工業(yè)互聯(lián)網(wǎng)研究院授權(quán),不得使用或轉(zhuǎn)載本研究報(bào)告中的任何部分。授權(quán)后轉(zhuǎn)載、摘編或利用其它方式使用本報(bào)告文字或者觀點(diǎn)的,應(yīng)注明“來(lái)源:中國(guó)工業(yè)互聯(lián)網(wǎng)研究院”。違反上述聲明者,本院將追究其相關(guān)法律責(zé)任。人工智能作為引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略性技術(shù),是新型工業(yè)化的重要推動(dòng)力量。黨的十八大以來(lái),以習(xí)近平同志為核心的黨中央把發(fā)展人工智能提升到戰(zhàn)略高度,強(qiáng)調(diào)加快發(fā)展新一代人工智能是我們贏得全球科技競(jìng)爭(zhēng)主動(dòng)權(quán)的重要戰(zhàn)略抓手,是推動(dòng)我國(guó)科技跨越發(fā)展、產(chǎn)業(yè)優(yōu)化升級(jí)、生產(chǎn)力整體躍升的重要戰(zhàn)略資源。隨著大模型技術(shù)的迅猛發(fā)展與規(guī)?;瘧?yīng)用,人工智能發(fā)展范式從傳統(tǒng)以算法模型優(yōu)化為導(dǎo)向逐步轉(zhuǎn)向以高質(zhì)量數(shù)據(jù)集構(gòu)建為支撐。特別是在工業(yè)領(lǐng)域,人工智能、工業(yè)機(jī)理等模型的構(gòu)建,對(duì)數(shù)據(jù)集的質(zhì)量和規(guī)模提出更高要求。工業(yè)高質(zhì)量數(shù)據(jù)集作為支撐各類(lèi)工業(yè)智能模型落地應(yīng)用的“核心燃料”,是人工智能技術(shù)在工業(yè)領(lǐng)域應(yīng)用發(fā)展的關(guān)鍵要素。加快構(gòu)建工業(yè)高質(zhì)量數(shù)據(jù)集,是我國(guó)搶占全球工業(yè)智能制高點(diǎn)、應(yīng)對(duì)國(guó)際產(chǎn)業(yè)競(jìng)爭(zhēng)的重要抓手,對(duì)加速推進(jìn)新型工業(yè)化具有重大戰(zhàn)略意義。當(dāng)前,工業(yè)高質(zhì)量數(shù)據(jù)集概念界定不清晰,內(nèi)涵特征不明確,分級(jí)分類(lèi)標(biāo)準(zhǔn)不完善。不同行業(yè)的高質(zhì)量數(shù)據(jù)集建設(shè)水平和需求存在較大差異。數(shù)據(jù)獲取、專(zhuān)業(yè)標(biāo)注、多模態(tài)融合、數(shù)據(jù)集質(zhì)量評(píng)估、數(shù)據(jù)集流通與共享等關(guān)鍵環(huán)節(jié)缺乏系統(tǒng)規(guī)劃和指引,建設(shè)實(shí)施過(guò)程面臨多重挑戰(zhàn),亟須以場(chǎng)景需求為導(dǎo)向,分級(jí)分類(lèi)推進(jìn)數(shù)據(jù)集建設(shè),構(gòu)建高質(zhì)量數(shù)據(jù)集建設(shè)運(yùn)營(yíng)體系,為推動(dòng)人工智能賦能新型工業(yè)化夯實(shí)數(shù)據(jù)基礎(chǔ)。為指引和推動(dòng)工業(yè)領(lǐng)域高質(zhì)量數(shù)據(jù)集建設(shè),在工業(yè)和信息化部信息技術(shù)發(fā)展司指導(dǎo)下,中國(guó)工業(yè)互聯(lián)網(wǎng)研究院牽頭組織產(chǎn)業(yè)界、學(xué)術(shù)界進(jìn)行深入研討交流、凝聚行業(yè)共識(shí),聯(lián)合相關(guān)研究機(jī)構(gòu)和行業(yè)龍頭企業(yè)開(kāi)展了深入實(shí)踐探索,編制了《工業(yè)高質(zhì)量數(shù)據(jù)集研究報(bào)告》。本報(bào)告圍繞工業(yè)高質(zhì)量數(shù)據(jù)集的建設(shè)與應(yīng)用展開(kāi)深入研究,旨在厘清其內(nèi)涵特征,明晰分級(jí)分類(lèi)標(biāo)準(zhǔn),探索數(shù)據(jù)集建設(shè)、評(píng)估、流通應(yīng)用全鏈路有效路徑,為業(yè)界推進(jìn)工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)、評(píng)估及應(yīng)用提供可參考的理論支撐與發(fā)展指引。編寫(xiě)組指導(dǎo)單位:組織單位:參編單位(排名不分先后): 1 1 2 4 5 5 6 1一、工業(yè)高質(zhì)量數(shù)據(jù)集的內(nèi)涵意義工業(yè)高質(zhì)量數(shù)據(jù)集作為工業(yè)領(lǐng)域人工智能技術(shù)應(yīng)用的關(guān)鍵要素,相較原始工業(yè)數(shù)據(jù)或高質(zhì)量數(shù)據(jù)集,場(chǎng)景導(dǎo)向性更強(qiáng)、數(shù)據(jù)價(jià)值更高,能更為充分地滿(mǎn)足工業(yè)機(jī)理模型、工業(yè)智能模型等工業(yè)模型的建模需求。加快建設(shè)工業(yè)高質(zhì)量數(shù)據(jù)集,對(duì)我國(guó)搶占全球工業(yè)智能制高點(diǎn)、應(yīng)對(duì)國(guó)際產(chǎn)業(yè)競(jìng)爭(zhēng)、加速推進(jìn)新型工業(yè)化具有重大戰(zhàn)略意義。(一)相關(guān)概念工業(yè)數(shù)據(jù)作為工業(yè)領(lǐng)域認(rèn)知與改造活動(dòng)的直接產(chǎn)物,是指在工業(yè)生產(chǎn)、制造、創(chuàng)新、運(yùn)營(yíng)及相關(guān)活動(dòng)中產(chǎn)生、采集、處理和使用的各類(lèi)數(shù)據(jù)的總和,它貫穿于工業(yè)產(chǎn)品全生命周期以及工業(yè)企業(yè)運(yùn)營(yíng)管理全過(guò)程,是工業(yè)數(shù)字化、智能化轉(zhuǎn)型的核心要素。在國(guó)家標(biāo)準(zhǔn)《智能制造工業(yè)數(shù)據(jù)分類(lèi)原則》[1]中,定義工業(yè)數(shù)據(jù)為“在工業(yè)領(lǐng)域中,涉及企業(yè)的所有生產(chǎn)活動(dòng)和服務(wù)所產(chǎn)生的數(shù)據(jù)”。國(guó)際標(biāo)準(zhǔn)化組織指出,工業(yè)數(shù)據(jù)“可被視為某種工業(yè)流程的產(chǎn)物,受制于一般性的生命周期活動(dòng)”[2],并在ISO8000系列數(shù)據(jù)質(zhì)量國(guó)際標(biāo)準(zhǔn)中做出定義“工業(yè)數(shù)據(jù)涵蓋產(chǎn)品與生命周期流程,包括制造、分銷(xiāo)和維護(hù),生命周期流程所使用的設(shè)施,數(shù)字孿生,產(chǎn)品幾何形狀、拓?fù)浣Y(jié)構(gòu)和可視化、技術(shù)詞典以及零部件目錄”[3]。狹義的工業(yè)數(shù)據(jù)是指工業(yè)設(shè)備與軟件運(yùn)行過(guò)程中沉淀的數(shù)字化信息,包括生產(chǎn)過(guò)程中的傳感器數(shù)據(jù)、設(shè)備的運(yùn)行參數(shù)與日志等,是工業(yè)生產(chǎn)的直接記錄。廣義的工業(yè)數(shù)據(jù)更強(qiáng)調(diào)由原始數(shù)據(jù)經(jīng)融合加工所沉淀的工業(yè)機(jī)理與規(guī)律認(rèn)知,2不僅包含狹義定義中的原始數(shù)據(jù),還涵蓋了對(duì)這些原始數(shù)據(jù)進(jìn)行清洗、挖掘、分析后形成的與工業(yè)生產(chǎn)相關(guān)的各類(lèi)認(rèn)知成果,例如通過(guò)對(duì)設(shè)備運(yùn)行數(shù)據(jù)的長(zhǎng)期分析總結(jié)出的設(shè)備故障預(yù)警模型所蘊(yùn)含的故障發(fā)生機(jī)理。工業(yè)數(shù)據(jù)的特征包括領(lǐng)域特定性、多源異構(gòu)性、高時(shí)序性、強(qiáng)關(guān)聯(lián)性等。領(lǐng)域特定性指數(shù)據(jù)產(chǎn)生于工業(yè)環(huán)境,與設(shè)備、產(chǎn)品等物理實(shí)體和業(yè)務(wù)流程緊密相關(guān),需結(jié)合行業(yè)知識(shí)才能理解和應(yīng)用。多源異構(gòu)性指工業(yè)數(shù)據(jù)來(lái)源廣泛,涵蓋從設(shè)備傳感器、執(zhí)行器、工業(yè)控制系統(tǒng)、制造執(zhí)行系統(tǒng)、企業(yè)資源計(jì)劃到供應(yīng)鏈管理、客戶(hù)關(guān)系管理等各個(gè)層面,來(lái)源設(shè)備、協(xié)議與格式各異,數(shù)據(jù)模態(tài)各異。高時(shí)序性指生產(chǎn)流程的連續(xù)性與實(shí)時(shí)性要求工業(yè)數(shù)據(jù)具備精確的時(shí)間戳與序列性。強(qiáng)關(guān)聯(lián)性指工業(yè)數(shù)據(jù)點(diǎn)之間存在復(fù)雜的關(guān)聯(lián)關(guān)系,反映生產(chǎn)流程中的關(guān)聯(lián)關(guān)系。高質(zhì)量數(shù)據(jù)集通常指經(jīng)過(guò)采集、加工等數(shù)據(jù)處理,可直接用于開(kāi)發(fā)和訓(xùn)練人工智能模型,能有效提升模型性能的數(shù)據(jù)的集合[4]。數(shù)據(jù)集質(zhì)量包括完整性、準(zhǔn)確性、現(xiàn)時(shí)性、無(wú)偏性、相關(guān)性、安全性、數(shù)據(jù)集共享等通用要求,面向人工智能應(yīng)用的拓展要求還包括,訓(xùn)練數(shù)據(jù)集的多樣性、代表性、可審核性,測(cè)試數(shù)據(jù)集的均衡性、有效性、易用性等[5]。(二)工業(yè)高質(zhì)量數(shù)據(jù)集的內(nèi)涵與特征工業(yè)是國(guó)民經(jīng)濟(jì)的主導(dǎo)產(chǎn)業(yè),相較其他產(chǎn)業(yè)類(lèi)型,工業(yè)場(chǎng)景眾多、機(jī)理復(fù)雜,包含幾何模型、仿真模型、機(jī)理模型、算法模型等諸多工業(yè)模型。因此,我們認(rèn)為,工業(yè)高質(zhì)量數(shù)據(jù)集是從研發(fā)、生產(chǎn)、供應(yīng)、銷(xiāo)售、服務(wù)等全生命周期各環(huán)3節(jié)產(chǎn)生和采集,經(jīng)過(guò)清洗、標(biāo)注等專(zhuān)業(yè)化處理,用于分析、建模,以及訓(xùn)練工業(yè)模型的數(shù)據(jù)集合。工業(yè)高質(zhì)量數(shù)據(jù)集具有完整度高、質(zhì)量達(dá)標(biāo)、場(chǎng)景明確和時(shí)效性強(qiáng)四個(gè)顯著特征。完整度高即數(shù)據(jù)集基本覆蓋各類(lèi)工況,且包含齊全的說(shuō)明文檔;質(zhì)量達(dá)標(biāo)即數(shù)據(jù)集歷經(jīng)完整且充分的采集、預(yù)處理、標(biāo)注、增強(qiáng)、合成與質(zhì)量評(píng)測(cè)環(huán)節(jié),滿(mǎn)足工業(yè)數(shù)據(jù)質(zhì)量要求;場(chǎng)景明確即數(shù)據(jù)集可直接用于工業(yè)領(lǐng)域特定應(yīng)用場(chǎng)景,能有效提升對(duì)應(yīng)場(chǎng)景模型性能;時(shí)效性強(qiáng)即數(shù)據(jù)集具備完備的定期更新計(jì)劃以及自動(dòng)化更新機(jī)制,實(shí)時(shí)保障數(shù)據(jù)集在模型訓(xùn)練、微調(diào)等階段的有效性。工業(yè)高質(zhì)量數(shù)據(jù)集蘊(yùn)含工業(yè)生產(chǎn)、運(yùn)營(yíng)、管理等各環(huán)節(jié)的關(guān)鍵信息,是工業(yè)智能模型實(shí)現(xiàn)預(yù)測(cè)、推理、生成等的核心要素,可直接決定模型的性能上限與應(yīng)用價(jià)值。一是數(shù)據(jù)集規(guī)模是模型能力突破的“助推器”。模型參數(shù)量與訓(xùn)練數(shù)據(jù)量的指數(shù)級(jí)增長(zhǎng),有效增強(qiáng)了新一代算法模型對(duì)復(fù)雜系統(tǒng)與認(rèn)知模式的建模和學(xué)習(xí)能力,提升泛化性能,突破能力瓶頸。特別是人工智能大模型,通過(guò)對(duì)海量數(shù)據(jù)的學(xué)習(xí),突破小模型“見(jiàn)過(guò)才會(huì)”的局限,實(shí)現(xiàn)了智能涌現(xiàn)與跨場(chǎng)景的高級(jí)認(rèn)知能力。二是數(shù)據(jù)集質(zhì)量是模型訓(xùn)練的“校準(zhǔn)儀”。數(shù)據(jù)集質(zhì)量直接決定了模型的有效性,是訓(xùn)練出可靠、精準(zhǔn)模型的前提。準(zhǔn)確全面的高質(zhì)量數(shù)據(jù)集,能引導(dǎo)模型快速、準(zhǔn)確掌握本質(zhì)規(guī)律。反之,錯(cuò)誤標(biāo)注、冗余重復(fù)或帶有偏見(jiàn)的數(shù)據(jù),會(huì)讓模型在錯(cuò)誤路徑上“越走越遠(yuǎn)”。三是多模態(tài)數(shù)據(jù)是模型認(rèn)知力提升的“催化劑”。多模態(tài)數(shù)據(jù)通過(guò)融合文4本、圖像、音頻等不同模態(tài)的信息,彌補(bǔ)單一模態(tài)的局限性,使模型具備更全面的理解能力,從而顯著提升模型對(duì)復(fù)雜任務(wù)的處理水平和與真實(shí)世界的交互能力。(三)工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)的重大意義工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)是推進(jìn)新型工業(yè)化的現(xiàn)實(shí)要求。推進(jìn)新型工業(yè)化,關(guān)鍵在于以科技創(chuàng)新引領(lǐng)產(chǎn)業(yè)變革,推動(dòng)制造業(yè)高端化、智能化、綠色化發(fā)展。工業(yè)高質(zhì)量數(shù)據(jù)集作為數(shù)據(jù)基礎(chǔ)設(shè)施的重要組成部分,是打通“數(shù)據(jù)-知識(shí)-決策”閉環(huán)的基礎(chǔ)前提。當(dāng)前,我國(guó)制造業(yè)數(shù)字化轉(zhuǎn)型進(jìn)入深水區(qū),大量企業(yè)面臨“有數(shù)據(jù)、無(wú)價(jià)值”的困境,根源之一在于數(shù)據(jù)質(zhì)量不高、難以支撐復(fù)雜分析與智能決策。建設(shè)工業(yè)高質(zhì)量數(shù)據(jù)集,有助于統(tǒng)一數(shù)據(jù)采集標(biāo)準(zhǔn)、提升數(shù)據(jù)治理能力、完善數(shù)據(jù)標(biāo)注體系,推動(dòng)工業(yè)數(shù)據(jù)從“碎片化記錄”向“結(jié)構(gòu)化資產(chǎn)”轉(zhuǎn)變。系統(tǒng)性推進(jìn)工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè),是破解轉(zhuǎn)型瓶頸、提升全要素生產(chǎn)率、實(shí)現(xiàn)可持續(xù)發(fā)展的現(xiàn)實(shí)路徑,對(duì)構(gòu)建現(xiàn)代化產(chǎn)業(yè)體系具有基礎(chǔ)性、先導(dǎo)性作用。工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)是搶占工業(yè)智能制高點(diǎn)的重要抓手。工業(yè)高質(zhì)量數(shù)據(jù)集是訓(xùn)練和優(yōu)化工業(yè)人工智能模型的“核心燃料”和“知識(shí)底座”。在全球工業(yè)智能競(jìng)爭(zhēng)白熱化階段,科技強(qiáng)國(guó)正加速布局覆蓋關(guān)鍵工藝、核心設(shè)備及典型制造場(chǎng)景的高質(zhì)量數(shù)據(jù)資源體系。率先建成系統(tǒng)化數(shù)據(jù)集的國(guó)家,將牢牢掌控工業(yè)知識(shí)沉淀、復(fù)用與創(chuàng)新的主動(dòng)權(quán),主導(dǎo)智能檢測(cè)、預(yù)測(cè)性維護(hù)、柔性生產(chǎn)等核心環(huán)節(jié)的技術(shù)突破與標(biāo)準(zhǔn)制定。深化工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè),是打通智能制造5全鏈條、破解數(shù)據(jù)孤島、激活A(yù)I賦能的關(guān)鍵路徑,是驅(qū)動(dòng)制造業(yè)智能化升級(jí)的堅(jiān)實(shí)支撐。工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)是應(yīng)對(duì)全球產(chǎn)業(yè)競(jìng)爭(zhēng)的戰(zhàn)略要求。當(dāng)前,高端制造領(lǐng)域的國(guó)際競(jìng)爭(zhēng),正逐步演變?yōu)榛跀?shù)據(jù)驅(qū)動(dòng)的產(chǎn)業(yè)生態(tài)體系競(jìng)爭(zhēng)。工業(yè)高質(zhì)量數(shù)據(jù)集不僅承載著核心工藝參數(shù)、設(shè)備運(yùn)行規(guī)律和生產(chǎn)優(yōu)化經(jīng)驗(yàn),更是推動(dòng)產(chǎn)業(yè)鏈協(xié)同升級(jí)、價(jià)值鏈高端躍遷的關(guān)鍵要素。如果缺乏自主可控的高質(zhì)量數(shù)據(jù)資源,我國(guó)在高端工業(yè)軟件、智能控制系統(tǒng)等領(lǐng)域?qū)⑹冀K面臨“不敢用”國(guó)外模型又“用不好”國(guó)產(chǎn)工具的雙重困境,陷入“數(shù)據(jù)依附”風(fēng)險(xiǎn),導(dǎo)致技術(shù)升級(jí)受制于人。唯有加快建設(shè)自主、安全、可信的工業(yè)高質(zhì)量數(shù)據(jù)集,才能從根本上突破“卡脖子”難題,增強(qiáng)產(chǎn)業(yè)鏈供應(yīng)鏈的韌性與安全性,構(gòu)筑面向全球競(jìng)爭(zhēng)的新優(yōu)勢(shì)。二、工業(yè)高質(zhì)量數(shù)據(jù)集的分級(jí)分類(lèi)工業(yè)場(chǎng)景存在從“設(shè)備、產(chǎn)線、工廠、企業(yè)”到“產(chǎn)業(yè)生態(tài)”的多重層級(jí),不同層級(jí)數(shù)據(jù)集的融合程度與決策價(jià)值差異顯著。為有效釋放數(shù)據(jù)價(jià)值潛能、提升工業(yè)智能決策水平,應(yīng)遵循分級(jí)分類(lèi)原則推進(jìn)工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)。(一)分級(jí)體系參照工業(yè)互聯(lián)網(wǎng)技術(shù)架構(gòu)體系,梳理工業(yè)數(shù)據(jù)集的數(shù)據(jù)來(lái)源、數(shù)據(jù)類(lèi)型和應(yīng)用場(chǎng)景,形成工業(yè)高質(zhì)量數(shù)據(jù)集五級(jí)架構(gòu),即設(shè)備級(jí)(L1)、產(chǎn)線級(jí)(L2)、工廠級(jí)(L3)、、企業(yè)級(jí)(L4)和生態(tài)級(jí)(L5)。層級(jí)表征數(shù)據(jù)集賦能應(yīng)用場(chǎng)景的廣度,層級(jí)越高,數(shù)據(jù)聚合程度越高,應(yīng)用場(chǎng)景范圍越廣,6決策價(jià)值密度越高,數(shù)據(jù)支撐產(chǎn)生的經(jīng)濟(jì)價(jià)值越大[6,7]。具體分級(jí)方法如表2-1所示。設(shè)備與產(chǎn)線級(jí)作為基礎(chǔ)層級(jí),從業(yè)務(wù)執(zhí)行的最小單元出發(fā),匯聚設(shè)備運(yùn)行、工藝參數(shù)等高質(zhì)量數(shù)據(jù),實(shí)現(xiàn)故障診斷、能耗優(yōu)化等局部效率提升,為數(shù)字化轉(zhuǎn)型奠定堅(jiān)實(shí)的數(shù)據(jù)基石。工廠與企業(yè)級(jí)作為核心層級(jí),聚合生產(chǎn)計(jì)劃、成本投經(jīng)營(yíng)管理等數(shù)據(jù),驅(qū)動(dòng)生產(chǎn)調(diào)度、資源配置等核心業(yè)務(wù)流程的系統(tǒng)性?xún)?yōu)化,提升企業(yè)整體運(yùn)營(yíng)水平。產(chǎn)業(yè)生態(tài)級(jí)作為生態(tài)層級(jí),通過(guò)聚合跨主體、跨領(lǐng)域的數(shù)據(jù),賦能供應(yīng)鏈柔性與韌性、產(chǎn)品全生命周期綠色低碳、產(chǎn)業(yè)風(fēng)險(xiǎn)監(jiān)測(cè)預(yù)警等應(yīng)用,創(chuàng)造生態(tài)協(xié)同的增量?jī)r(jià)值。1.設(shè)備級(jí)高質(zhì)量數(shù)據(jù)集7從數(shù)據(jù)來(lái)源分析,主要源自傳感器、儀器儀表、數(shù)控裝備、智能機(jī)床、工業(yè)機(jī)器人、倉(cāng)儲(chǔ)設(shè)備、加工單元、裝配單元、條碼標(biāo)簽等感知終端。從數(shù)據(jù)類(lèi)型分析,主要涉及設(shè)備數(shù)據(jù)、狀態(tài)數(shù)據(jù)和工裝數(shù)據(jù)。設(shè)備數(shù)據(jù)是指描述設(shè)備基本信息,反映設(shè)備運(yùn)行工況和健康狀態(tài),影響設(shè)備性能和運(yùn)行狀態(tài)的環(huán)境信息等數(shù)據(jù)。狀態(tài)數(shù)據(jù)是指在制造過(guò)程、控制過(guò)程中反映各種不同狀態(tài)的物理量信號(hào),如刀具磨破損、機(jī)床熱變形、切削負(fù)荷、振動(dòng)變形等數(shù)據(jù)。工裝數(shù)據(jù)是指描述工裝基本信息,以及采用條碼標(biāo)簽等采集的器件、輔具環(huán)境、工況數(shù)值等數(shù)據(jù)。從數(shù)據(jù)特征分析,主要存在實(shí)時(shí)性強(qiáng)、動(dòng)態(tài)變化大、物理意義明確、多源異構(gòu)、價(jià)值密度低等特點(diǎn)。實(shí)時(shí)性強(qiáng)是指數(shù)據(jù)產(chǎn)生與傳輸速度快,需快速響應(yīng)。動(dòng)態(tài)變化大是指設(shè)備狀態(tài)頻繁切換,數(shù)據(jù)模式快速演變。物理意義明確是指數(shù)據(jù)與設(shè)備物理狀態(tài)直接相關(guān),具有明確的業(yè)務(wù)解釋。多源異構(gòu)是指數(shù)據(jù)來(lái)自不同傳感器、系統(tǒng)和設(shè)備,格式和標(biāo)準(zhǔn)多樣。價(jià)值密度低是指海量數(shù)據(jù)中真正有價(jià)值的信息占比低,需要高效挖掘。從應(yīng)用場(chǎng)景分析,主要包括設(shè)備故障診斷、生產(chǎn)工藝優(yōu)化、壽命預(yù)測(cè)、預(yù)測(cè)性維護(hù)等場(chǎng)景。例如,國(guó)家電力投資集團(tuán)有限公司構(gòu)建了光伏逆變器健康診斷數(shù)據(jù)集,涵蓋光伏逆變器多維度實(shí)時(shí)運(yùn)行數(shù)據(jù)、設(shè)備信息及環(huán)境數(shù)據(jù),可用于開(kāi)發(fā)智能診斷模型,實(shí)現(xiàn)逆變器故障的精準(zhǔn)診斷與預(yù)測(cè)性維護(hù),縮短故障修復(fù)時(shí)間,減少停機(jī)損失,降低運(yùn)維成本10%,提8升電站運(yùn)營(yíng)盈利能力。2.產(chǎn)線級(jí)高質(zhì)量數(shù)據(jù)集從數(shù)據(jù)來(lái)源分析,產(chǎn)線級(jí)數(shù)據(jù)主要源自可編程邏輯控制器(PLC)、分布式控制系統(tǒng)(DCS)、人機(jī)界面(HMI)、智能控制器、網(wǎng)關(guān)、遠(yuǎn)程終端單元(RTU)、數(shù)據(jù)采集與監(jiān)視控制系統(tǒng)(SCADA)等控制與監(jiān)控系統(tǒng),承擔(dān)工藝執(zhí)行、數(shù)據(jù)采集與狀態(tài)監(jiān)控等功能。從數(shù)據(jù)類(lèi)型分析,主要涉及經(jīng)過(guò)處理的設(shè)備級(jí)數(shù)據(jù)、控制系統(tǒng)數(shù)據(jù)和網(wǎng)絡(luò)參數(shù)數(shù)據(jù)??刂葡到y(tǒng)數(shù)據(jù)是指PLC包含的伺服參數(shù)、G代碼、系統(tǒng)操作日志等。網(wǎng)絡(luò)參數(shù)數(shù)據(jù)是指通過(guò)聯(lián)網(wǎng)系統(tǒng)采集的控制層網(wǎng)絡(luò)參數(shù)、信號(hào)等。從數(shù)據(jù)特征分析主要表現(xiàn)為實(shí)時(shí)性強(qiáng)、數(shù)據(jù)體量大、數(shù)據(jù)質(zhì)量低、多源異構(gòu)、關(guān)聯(lián)度高等特點(diǎn)。實(shí)時(shí)性強(qiáng)是指數(shù)據(jù)產(chǎn)生與傳輸速度快,需快速響應(yīng)。數(shù)據(jù)體量大是指單條產(chǎn)線每秒可產(chǎn)生數(shù)千條數(shù)據(jù)點(diǎn),車(chē)間層數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng)。數(shù)據(jù)質(zhì)量低是指設(shè)備通信與網(wǎng)絡(luò)產(chǎn)生的噪聲與異常值較多。多源異構(gòu)是指數(shù)據(jù)來(lái)源多樣,格式復(fù)雜、通信協(xié)議多樣。關(guān)聯(lián)度高是指數(shù)據(jù)間存在時(shí)空關(guān)聯(lián),如某一設(shè)備的伺服數(shù)據(jù)可能影響另一設(shè)備的相關(guān)參數(shù)。從應(yīng)用場(chǎng)景分析主要包括產(chǎn)線異常檢測(cè)、能耗預(yù)測(cè)、產(chǎn)線參數(shù)尋優(yōu)與協(xié)同控制等場(chǎng)景。例如北京首鋼股份有限公司構(gòu)建熱軋帶鋼控制模型訓(xùn)練數(shù)據(jù)集,該數(shù)據(jù)集包含熱軋產(chǎn)線工藝參數(shù)、過(guò)程數(shù)據(jù)、設(shè)備狀態(tài)數(shù)據(jù)及仿真數(shù)據(jù),支撐公司研發(fā)“粗軋-精軋-層冷”全流程過(guò)程控制在線仿真系統(tǒng),實(shí)9現(xiàn)生產(chǎn)過(guò)程核心模型與關(guān)鍵參數(shù)的靜態(tài)/動(dòng)態(tài)精準(zhǔn)模擬和實(shí)時(shí)調(diào)優(yōu),提升控制模型在線優(yōu)化迭代效率與安全性。3.工廠級(jí)高質(zhì)量數(shù)據(jù)集從數(shù)據(jù)來(lái)源分析,主要源自計(jì)算機(jī)輔助制造系統(tǒng)、計(jì)算機(jī)輔助設(shè)計(jì)系統(tǒng)、計(jì)算機(jī)輔助工程系統(tǒng)、計(jì)算機(jī)輔助工藝設(shè)計(jì)、制造執(zhí)行系統(tǒng)、設(shè)備管理系統(tǒng)、質(zhì)量管理系統(tǒng)、倉(cāng)庫(kù)管理系統(tǒng)、實(shí)驗(yàn)室管理系統(tǒng)、計(jì)量系統(tǒng)、健康安全與環(huán)境管理系統(tǒng)、產(chǎn)品生命周期管理系統(tǒng)等。從數(shù)據(jù)類(lèi)型分析,主要涉及經(jīng)過(guò)處理的產(chǎn)線級(jí)數(shù)據(jù)、管理數(shù)據(jù)、工藝數(shù)據(jù)、技術(shù)數(shù)據(jù)、作程數(shù)據(jù)、物料數(shù)據(jù)、計(jì)劃數(shù)據(jù)、安全環(huán)保數(shù)據(jù)、質(zhì)量數(shù)據(jù)和計(jì)量數(shù)據(jù)。管理數(shù)據(jù)是指描述人員、部門(mén)、崗位、班組的基本信息,人工成本、技能等級(jí)等相關(guān)屬性,以及車(chē)間地理位置、設(shè)備布局、人機(jī)交互硬件等數(shù)據(jù)。工藝數(shù)據(jù)是指在產(chǎn)品工藝設(shè)計(jì)過(guò)程中產(chǎn)生的二維、三維工藝路線及裝配作業(yè)指導(dǎo)書(shū)等與產(chǎn)品工藝直接相關(guān)的數(shù)據(jù)信息,以及BOM信息、零部件信息、數(shù)控程序等數(shù)據(jù)。技術(shù)數(shù)據(jù)是指企業(yè)根據(jù)自身特點(diǎn)開(kāi)展的產(chǎn)品研發(fā)、技術(shù)資料、工藝資料等設(shè)計(jì)數(shù)據(jù)。作程數(shù)據(jù)是指工位考勤狀態(tài),派工、完工信息等作業(yè)過(guò)程數(shù)據(jù)。物料數(shù)據(jù)是指產(chǎn)成品的包裝運(yùn)輸,在制品的跟蹤,工裝的申請(qǐng)、使用、報(bào)廢、出入庫(kù)等物料數(shù)據(jù)。計(jì)劃數(shù)據(jù)是指根據(jù)生產(chǎn)計(jì)劃下達(dá)的生產(chǎn)指令、機(jī)臺(tái)計(jì)劃、生產(chǎn)備料等計(jì)劃數(shù)據(jù)。安全環(huán)保類(lèi)數(shù)據(jù)是指涉及企業(yè)生產(chǎn)安全和環(huán)保相關(guān)的數(shù)據(jù)。工廠質(zhì)量數(shù)據(jù)是指報(bào)檢、檢驗(yàn)、試驗(yàn)、質(zhì)量指導(dǎo)書(shū)、返工返修等質(zhì)量數(shù)據(jù)。計(jì)量數(shù)據(jù)是指檢驗(yàn)檢測(cè)數(shù)據(jù)。時(shí)空復(fù)雜度高、業(yè)務(wù)邏輯深度耦合等特點(diǎn)。流程關(guān)聯(lián)性強(qiáng)是指數(shù)據(jù)圍繞產(chǎn)品設(shè)計(jì)、工藝、制造、質(zhì)量等環(huán)節(jié)產(chǎn)生,各系統(tǒng)數(shù)據(jù)高度關(guān)聯(lián)。多模態(tài)異構(gòu)是指數(shù)據(jù)來(lái)源龐雜,包括CAD/CAE的設(shè)計(jì)模型文件、MES的結(jié)構(gòu)化報(bào)表、HSE的非結(jié)構(gòu)化文本報(bào)告、質(zhì)量檢測(cè)圖像等。時(shí)空復(fù)雜度高是指數(shù)據(jù)在時(shí)間和空間維度上具有復(fù)雜關(guān)系,如生產(chǎn)批次的順序、物料在倉(cāng)庫(kù)和產(chǎn)線的流轉(zhuǎn)路徑等。業(yè)務(wù)邏輯深度耦合是指數(shù)據(jù)與工廠排產(chǎn)、工藝規(guī)程、質(zhì)量標(biāo)準(zhǔn)等核心業(yè)務(wù)邏輯緊密綁定,數(shù)據(jù)價(jià)值高度依賴(lài)于業(yè)務(wù)場(chǎng)景解釋。從應(yīng)用場(chǎng)景分析,主要包括車(chē)間資源協(xié)同分配、供應(yīng)鏈協(xié)同調(diào)度、生產(chǎn)智能排產(chǎn)、安全風(fēng)險(xiǎn)監(jiān)控預(yù)警、物料搬運(yùn)倉(cāng)儲(chǔ)優(yōu)化與排放監(jiān)控控制等。例如,國(guó)家電力投資集團(tuán)有限公司構(gòu)建光儲(chǔ)充一體化綜合能源系統(tǒng)高質(zhì)量數(shù)據(jù)集,涵蓋分布式光伏設(shè)備參數(shù)及出力、儲(chǔ)能系統(tǒng)狀態(tài)監(jiān)測(cè)、充電樁負(fù)荷交互、設(shè)備資料圖紙、運(yùn)維工單等數(shù)據(jù),可用于光儲(chǔ)充一體化綜合能源管理系統(tǒng)的智能運(yùn)維與精準(zhǔn)調(diào)控,實(shí)現(xiàn)分布式光伏發(fā)電精準(zhǔn)預(yù)測(cè)與運(yùn)維評(píng)估,提升綜合能源效率和“源-網(wǎng)-荷-儲(chǔ)”協(xié)同水平,提高能源利用效率,降低運(yùn)營(yíng)成本并保障電網(wǎng)安全穩(wěn)定。4.企業(yè)級(jí)高質(zhì)量數(shù)據(jù)集從數(shù)據(jù)來(lái)源分析,主要源自企業(yè)資產(chǎn)管理系統(tǒng)、企業(yè)資源規(guī)劃系統(tǒng)(ERP)、供應(yīng)鏈管理系統(tǒng)、物流信息系統(tǒng)、財(cái)務(wù)系統(tǒng)、人力資源系統(tǒng)、客戶(hù)關(guān)系管理系統(tǒng)(CRM)、網(wǎng)絡(luò)安全系統(tǒng)和實(shí)驗(yàn)室管理系統(tǒng)等。從數(shù)據(jù)類(lèi)型分析,主要包括經(jīng)過(guò)處理的工廠級(jí)數(shù)據(jù)、人力資源數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、采購(gòu)銷(xiāo)售數(shù)據(jù)、成本數(shù)據(jù)、供應(yīng)鏈數(shù)據(jù)、調(diào)度數(shù)據(jù)、生產(chǎn)計(jì)劃數(shù)據(jù)、質(zhì)量數(shù)據(jù)和售后服務(wù)數(shù)據(jù)。人力資源數(shù)據(jù)是指職員基本信息如人員薪酬、合同、績(jī)效、獎(jiǎng)懲、考勤、加班、年休假、離退休等跟職員有關(guān)的人力資源數(shù)據(jù)。財(cái)務(wù)數(shù)據(jù)是指描述會(huì)計(jì)科目、薪酬管理、賬戶(hù)、合同等的有關(guān)財(cái)務(wù)數(shù)據(jù)。采購(gòu)銷(xiāo)售數(shù)據(jù)是指采購(gòu)、銷(xiāo)客戶(hù)等市場(chǎng)相關(guān)數(shù)據(jù)。成本數(shù)據(jù)是指工藝員、部門(mén)在生產(chǎn)制造中涉及的設(shè)計(jì)費(fèi)用、加工費(fèi)用、材料費(fèi)用等成本數(shù)據(jù)。供應(yīng)鏈數(shù)據(jù)是指融合采購(gòu)、供應(yīng)商等一體的供應(yīng)鏈數(shù)據(jù)。調(diào)度數(shù)據(jù)是指能源產(chǎn)耗數(shù)據(jù)、調(diào)度指令等調(diào)度數(shù)據(jù)。生產(chǎn)計(jì)劃數(shù)據(jù)是指與生產(chǎn)相關(guān)的項(xiàng)目計(jì)劃、需求計(jì)劃、協(xié)作計(jì)劃、工藝變更等生產(chǎn)計(jì)劃數(shù)據(jù)。企業(yè)質(zhì)量數(shù)據(jù)是指采購(gòu)檢驗(yàn)信息、第三方檢驗(yàn),不合格品審理、客戶(hù)反饋和索賠等質(zhì)量數(shù)據(jù)。售后服務(wù)數(shù)據(jù)是指售后服務(wù)信息反饋、服務(wù)處理、改進(jìn)等售后服務(wù)數(shù)據(jù)等。從數(shù)據(jù)特征分析,主要存在強(qiáng)業(yè)務(wù)規(guī)則驅(qū)動(dòng)、強(qiáng)戰(zhàn)略導(dǎo)向、全域覆蓋價(jià)值鏈和高安全合規(guī)要求等特點(diǎn)。強(qiáng)業(yè)務(wù)規(guī)則驅(qū)動(dòng)是指數(shù)據(jù)嚴(yán)格遵循財(cái)務(wù)準(zhǔn)則、人力資源政策、銷(xiāo)售合同條款等企業(yè)規(guī)章制度,對(duì)準(zhǔn)確性和一致性要求高。強(qiáng)戰(zhàn)略導(dǎo)向是指數(shù)據(jù)多為跨部門(mén)、跨周期的匯總統(tǒng)計(jì)結(jié)果,服務(wù)于企業(yè)高層戰(zhàn)略決策,如財(cái)務(wù)報(bào)表、市場(chǎng)占有率等。全域覆蓋價(jià)值鏈?zhǔn)侵笖?shù)據(jù)貫穿從供應(yīng)商、生產(chǎn)、客戶(hù)的整個(gè)價(jià)值鏈,涉及企業(yè)內(nèi)外部多個(gè)協(xié)作方。高安全合規(guī)要求是指包含大量財(cái)務(wù)、人力、客戶(hù)隱私等敏感信息,必須滿(mǎn)足網(wǎng)絡(luò)安全法、數(shù)據(jù)安全法等法律法規(guī)要求。從應(yīng)用場(chǎng)景分析,主要包括經(jīng)營(yíng)利潤(rùn)預(yù)測(cè)、智能財(cái)務(wù)管理、人員技能任務(wù)匹配、經(jīng)營(yíng)風(fēng)險(xiǎn)監(jiān)控與戰(zhàn)略決策支持等場(chǎng)景。例如,中國(guó)聯(lián)通構(gòu)建高質(zhì)量經(jīng)營(yíng)決策推理數(shù)據(jù)集。該數(shù)據(jù)集面向智慧經(jīng)分場(chǎng)景,匯聚企業(yè)全量經(jīng)營(yíng)分析場(chǎng)景真實(shí)數(shù)據(jù),包含具有意圖實(shí)體標(biāo)簽的經(jīng)營(yíng)管理數(shù)據(jù)(5.2億tokens用于支撐市場(chǎng)策略模擬推演與風(fēng)險(xiǎn)預(yù)判,提升大模型經(jīng)營(yíng)分析語(yǔ)義理解能力(準(zhǔn)確率從81%提升至98%提高企業(yè)經(jīng)營(yíng)決策效率。5.生態(tài)級(jí)高質(zhì)量數(shù)據(jù)集從數(shù)據(jù)來(lái)源分析,主要源自客戶(hù)關(guān)系管理、遠(yuǎn)程運(yùn)維、協(xié)同設(shè)計(jì)研發(fā)、協(xié)同采購(gòu)、協(xié)同生產(chǎn)、資源共享、供需對(duì)接、共性應(yīng)用和供應(yīng)鏈協(xié)同等。從數(shù)據(jù)類(lèi)型分析,主要包括協(xié)同策略數(shù)據(jù)和協(xié)同管理數(shù)據(jù)。協(xié)同策略數(shù)據(jù)是指協(xié)同計(jì)劃分解、協(xié)同目標(biāo)規(guī)則、資源能力目錄、任務(wù)調(diào)度、風(fēng)險(xiǎn)與應(yīng)急策略等數(shù)據(jù)。協(xié)同管理數(shù)據(jù)是指協(xié)同組織信息、協(xié)同流程定義、協(xié)同任務(wù)與進(jìn)度、協(xié)同資源調(diào)度、協(xié)同績(jī)效與評(píng)估、協(xié)同審計(jì)與合規(guī)等數(shù)據(jù)。從數(shù)據(jù)特征分析,主要表現(xiàn)為跨主體、產(chǎn)業(yè)化和合作博弈等特點(diǎn)??缰黧w是指數(shù)據(jù)的所有權(quán)和使用權(quán)分布在不同的法律實(shí)體。產(chǎn)業(yè)化是指數(shù)據(jù)應(yīng)用旨在提升整個(gè)產(chǎn)業(yè)鏈的效率和競(jìng)爭(zhēng)力。合作博弈是指各合作參與方有強(qiáng)烈的價(jià)值主張,數(shù)據(jù)共享面臨信任、定價(jià)和利益分配挑戰(zhàn)。從應(yīng)用場(chǎng)景分析,主要包括供需智能匹配、產(chǎn)業(yè)風(fēng)險(xiǎn)監(jiān)測(cè)預(yù)警、區(qū)域產(chǎn)業(yè)大腦、區(qū)域能源與碳排放協(xié)同管理、設(shè)計(jì)協(xié)同等場(chǎng)景。例如,新疆匯通互聯(lián)公司構(gòu)建輻射“一帶一路”的多源物流體系數(shù)據(jù)服務(wù)體系。該體系基于區(qū)塊鏈技術(shù),包含1個(gè)專(zhuān)用數(shù)據(jù)集、7個(gè)功能數(shù)據(jù)集和1個(gè)數(shù)據(jù)模擬訓(xùn)練數(shù)據(jù)集,囊括煤炭、煤化工、農(nóng)業(yè)、新能源等12個(gè)行業(yè)。該數(shù)據(jù)集體系可用于構(gòu)建交通流量、事故風(fēng)險(xiǎn)、價(jià)格指數(shù)等預(yù)測(cè)模型,以多源數(shù)據(jù)融合促進(jìn)多環(huán)節(jié)貫通、多主體協(xié)同和跨行業(yè)賦能,降低整體物流成本10%,累積服務(wù)企業(yè)超1000家。(二)分類(lèi)體系按照產(chǎn)品全生命周期(研發(fā)設(shè)計(jì)、生產(chǎn)制造、經(jīng)營(yíng)管理)對(duì)工業(yè)數(shù)據(jù)集進(jìn)行分類(lèi),具體分類(lèi)方法如表2-2所示。指源自產(chǎn)品生產(chǎn)執(zhí)行全流程,涵蓋從原料投入到成品產(chǎn)出的高質(zhì)量數(shù)據(jù)集,主要來(lái)源于制造執(zhí)行系統(tǒng)、可編程邏輯控制器、分布式控制系統(tǒng)、監(jiān)控與數(shù)據(jù)采集及生產(chǎn)管理系指源自設(shè)備全生命周期維護(hù)過(guò)程,涵蓋從客戶(hù)使用反饋到遠(yuǎn)程運(yùn)維系統(tǒng)、售后管理系統(tǒng)、設(shè)備傳感器等運(yùn)維服務(wù)系統(tǒng),可應(yīng)用于產(chǎn)品故障預(yù)警、客戶(hù)滿(mǎn)意度提升、產(chǎn)品迭代指源自企業(yè)整體經(jīng)營(yíng)運(yùn)營(yíng)過(guò)程,涵蓋采購(gòu)、銷(xiāo)售、財(cái)務(wù)、人力資源、供應(yīng)鏈、網(wǎng)絡(luò)安全等核心管理環(huán)節(jié)的高質(zhì)量數(shù)據(jù)集,主要來(lái)源于企業(yè)資源計(jì)劃、客戶(hù)關(guān)系管理、供應(yīng)鏈管理、財(cái)務(wù)系統(tǒng)、人力資源系統(tǒng)、網(wǎng)絡(luò)安全系統(tǒng)等,可應(yīng)1.研發(fā)設(shè)計(jì)類(lèi)高質(zhì)量數(shù)據(jù)集從數(shù)據(jù)類(lèi)型分析,主要涉及設(shè)計(jì)規(guī)劃數(shù)據(jù)、概念設(shè)計(jì)數(shù)據(jù)、技術(shù)設(shè)計(jì)數(shù)據(jù)、詳細(xì)設(shè)計(jì)數(shù)據(jù)、物料清單數(shù)據(jù)、設(shè)計(jì)仿真數(shù)據(jù)、工藝仿真數(shù)據(jù)和樣品制作數(shù)據(jù)。設(shè)計(jì)規(guī)劃數(shù)據(jù)指圍繞設(shè)計(jì)目標(biāo)、技術(shù)路線、資源分配、時(shí)間節(jié)點(diǎn)制定的規(guī)劃類(lèi)信息。概念設(shè)計(jì)數(shù)據(jù)指基于市場(chǎng)與客戶(hù)需求形成的產(chǎn)品初步構(gòu)想、功能框架、外觀草圖、核心原理方案等早期設(shè)計(jì)數(shù)據(jù)。技術(shù)設(shè)計(jì)數(shù)據(jù)指明確產(chǎn)品技術(shù)參數(shù)、性能指標(biāo)、核心部件選型、接口標(biāo)準(zhǔn)、關(guān)鍵工藝要求等數(shù)據(jù)。詳細(xì)設(shè)計(jì)數(shù)據(jù)指對(duì)產(chǎn)品各部件、組件的尺寸、材質(zhì)、加工精度、裝配關(guān)系、公差要求等進(jìn)行細(xì)化描述的數(shù)據(jù)。物料清單數(shù)據(jù)指描述產(chǎn)品組成結(jié)構(gòu),包含各物料規(guī)格、數(shù)量、層級(jí)關(guān)系、供應(yīng)商信息等數(shù)據(jù)。設(shè)計(jì)仿真數(shù)據(jù)指通過(guò)仿真軟件對(duì)產(chǎn)品結(jié)構(gòu)強(qiáng)度、力學(xué)性能、運(yùn)行工況、環(huán)境適應(yīng)性等進(jìn)行模擬計(jì)算產(chǎn)生的數(shù)據(jù)。工藝仿真數(shù)據(jù)指對(duì)產(chǎn)品加工工藝、裝配流程、工裝適配性等進(jìn)行仿真模擬產(chǎn)生的數(shù)據(jù)。樣品制作數(shù)據(jù)指樣品生產(chǎn)過(guò)程中的加工記錄、檢驗(yàn)結(jié)果、尺寸測(cè)量數(shù)據(jù)、裝配調(diào)試反饋等數(shù)據(jù)。2.生產(chǎn)制造類(lèi)高質(zhì)量數(shù)據(jù)集從數(shù)據(jù)類(lèi)型分析,主要涉及生產(chǎn)計(jì)劃管理數(shù)據(jù)、生產(chǎn)技術(shù)準(zhǔn)備數(shù)據(jù)、生產(chǎn)訂單管理數(shù)據(jù)、生產(chǎn)領(lǐng)料管理數(shù)據(jù)、生產(chǎn)過(guò)程管理數(shù)據(jù)、生產(chǎn)外協(xié)管理數(shù)據(jù)、生產(chǎn)質(zhì)量管理數(shù)據(jù)、生產(chǎn)完工管理數(shù)據(jù)、生產(chǎn)仿真管理數(shù)據(jù)、設(shè)備管理數(shù)據(jù)、原料配比數(shù)據(jù)、生產(chǎn)外協(xié)管理數(shù)據(jù)、生產(chǎn)能耗數(shù)據(jù)、生產(chǎn)安全數(shù)據(jù)、環(huán)保排放數(shù)據(jù)和運(yùn)行人員數(shù)據(jù)。生產(chǎn)計(jì)劃管理數(shù)據(jù)指基于訂單需求或市場(chǎng)預(yù)測(cè)制定的生產(chǎn)任務(wù)分配、產(chǎn)能規(guī)劃、生產(chǎn)批次安排、交付周期規(guī)劃等數(shù)據(jù)。生產(chǎn)技術(shù)準(zhǔn)備數(shù)據(jù)指生產(chǎn)前的工藝文件編制、工裝夾具調(diào)試、設(shè)備參數(shù)設(shè)定、技術(shù)交底記錄等數(shù)據(jù)。生產(chǎn)訂單管理數(shù)據(jù)指記錄生產(chǎn)訂單編號(hào)、產(chǎn)品型號(hào)、生產(chǎn)數(shù)量、交付日期等數(shù)據(jù)。生產(chǎn)領(lǐng)料管理數(shù)據(jù)指生產(chǎn)過(guò)程中物料領(lǐng)用的申請(qǐng)、審批、發(fā)放記錄、物料消耗統(tǒng)計(jì)等數(shù)據(jù)。生產(chǎn)過(guò)程管理數(shù)據(jù)指生產(chǎn)各工序的加工記錄、工序流轉(zhuǎn)狀態(tài)、工時(shí)統(tǒng)計(jì)、異常停機(jī)原因、過(guò)程調(diào)整記錄等數(shù)據(jù)。生產(chǎn)外協(xié)管理數(shù)據(jù)指委托外部單位完成部分工序加工的外協(xié)訂單、質(zhì)量要求、交付進(jìn)度、費(fèi)用結(jié)算、外協(xié)質(zhì)量驗(yàn)收等數(shù)據(jù)。生產(chǎn)質(zhì)量管理數(shù)據(jù)指生產(chǎn)過(guò)程中的原料檢驗(yàn)報(bào)告、工序檢驗(yàn)記錄、成品檢測(cè)數(shù)據(jù)、不合格品判定與返工返修記錄等數(shù)據(jù)。生產(chǎn)完工管理數(shù)據(jù)指產(chǎn)品完成生產(chǎn)后的入庫(kù)記錄、成品檢驗(yàn)總報(bào)告、生產(chǎn)產(chǎn)能統(tǒng)計(jì)、生產(chǎn)能耗匯總、生產(chǎn)異??偨Y(jié)等數(shù)據(jù)。生產(chǎn)仿真管理數(shù)據(jù)指對(duì)生產(chǎn)流程優(yōu)化、設(shè)備布局調(diào)整、產(chǎn)能匹配驗(yàn)證等進(jìn)行仿真產(chǎn)生的數(shù)據(jù)。設(shè)備管理數(shù)據(jù)指生產(chǎn)設(shè)備的實(shí)時(shí)運(yùn)行狀態(tài)、故障報(bào)警信息、維修記錄、保養(yǎng)計(jì)劃與執(zhí)行情況等數(shù)據(jù)。原料配比數(shù)據(jù)指流程工業(yè)生產(chǎn)中各類(lèi)原料的混合比例、投放量、配比調(diào)整記錄等數(shù)據(jù)。工藝運(yùn)行數(shù)據(jù)指生產(chǎn)過(guò)程中關(guān)鍵工藝參數(shù)的實(shí)時(shí)監(jiān)測(cè)與歷史記錄數(shù)據(jù)。生產(chǎn)能耗數(shù)據(jù)指生產(chǎn)過(guò)程中水電汽等能源的消耗記錄、能耗峰值、能耗分析報(bào)告等數(shù)據(jù)。生產(chǎn)安全數(shù)據(jù)指生產(chǎn)現(xiàn)場(chǎng)的安全檢查記錄、隱患排查結(jié)果、安全培訓(xùn)記錄、安全事故處理報(bào)告等數(shù)據(jù)。環(huán)保排放數(shù)據(jù)指生產(chǎn)過(guò)程中廢水、廢氣、廢渣等污染物的排放指標(biāo)監(jiān)測(cè)數(shù)據(jù)、環(huán)保處理設(shè)施運(yùn)行狀態(tài)等數(shù)據(jù)。運(yùn)行人員數(shù)據(jù)指生產(chǎn)現(xiàn)場(chǎng)操作人員的考勤記錄、崗位分配、操作流程執(zhí)行記錄、技能培訓(xùn)情況等數(shù)據(jù)。3.運(yùn)維服務(wù)類(lèi)高質(zhì)量數(shù)據(jù)集從數(shù)據(jù)類(lèi)型分析,主要涉及維修服務(wù)數(shù)據(jù)、維護(hù)服務(wù)數(shù)據(jù)、增值服務(wù)數(shù)據(jù)、報(bào)廢/回收數(shù)據(jù)、客戶(hù)滿(mǎn)意度數(shù)據(jù)、產(chǎn)品使用反饋數(shù)據(jù)。維修服務(wù)數(shù)據(jù)指產(chǎn)品售后出現(xiàn)故障后的維修申請(qǐng)單、故障診斷結(jié)果、維修方案制定、維修過(guò)程記錄、維修費(fèi)用結(jié)算、維修效果驗(yàn)證等數(shù)據(jù)。維護(hù)服務(wù)數(shù)據(jù)指產(chǎn)品定期保養(yǎng)計(jì)劃、預(yù)防性維護(hù)執(zhí)行記錄、維護(hù)耗材使用統(tǒng)計(jì)、維護(hù)后設(shè)備性能檢測(cè)數(shù)據(jù)等數(shù)據(jù)。增值服務(wù)數(shù)據(jù)指為客戶(hù)提供的超出基礎(chǔ)維修維護(hù)的服務(wù)相關(guān)的服務(wù)記錄、客戶(hù)需求反饋、服務(wù)評(píng)價(jià)等數(shù)據(jù)。報(bào)廢/回收數(shù)據(jù)指產(chǎn)品達(dá)到使用年限或因故障報(bào)廢后的回收計(jì)劃、回收過(guò)程記錄、拆解分類(lèi)結(jié)果、資源再利用評(píng)估報(bào)告等數(shù)據(jù)??蛻?hù)滿(mǎn)意度數(shù)據(jù)指通過(guò)問(wèn)卷調(diào)研、電話(huà)回訪、在線反饋等方式收集的客戶(hù)對(duì)產(chǎn)品性能、服務(wù)響應(yīng)速度、維修質(zhì)量等方面的滿(mǎn)意度評(píng)價(jià)數(shù)據(jù)。產(chǎn)品使用反饋數(shù)據(jù)指客戶(hù)在產(chǎn)品日常使用中發(fā)現(xiàn)的問(wèn)題、功能優(yōu)化建議、特殊使用場(chǎng)景描述等數(shù)據(jù)。4.經(jīng)營(yíng)管理類(lèi)高質(zhì)量數(shù)據(jù)集從數(shù)據(jù)類(lèi)型分析,主要涉及采購(gòu)管理類(lèi)數(shù)據(jù)、銷(xiāo)售管理類(lèi)數(shù)據(jù),財(cái)務(wù)類(lèi)數(shù)據(jù)、人力資源類(lèi)數(shù)據(jù)、供應(yīng)鏈數(shù)據(jù)和網(wǎng)絡(luò)安全數(shù)據(jù)。采購(gòu)管理類(lèi)數(shù)據(jù)包括采購(gòu)計(jì)劃數(shù)據(jù)、采購(gòu)方案數(shù)據(jù)、采購(gòu)訂單數(shù)據(jù)、采購(gòu)合同數(shù)據(jù)、采購(gòu)執(zhí)行過(guò)程數(shù)據(jù)、供方管理數(shù)據(jù)、退/換貨管理數(shù)據(jù)。銷(xiāo)售管理類(lèi)數(shù)據(jù)包括市場(chǎng)預(yù)測(cè)數(shù)據(jù)、客戶(hù)管理數(shù)據(jù)、銷(xiāo)售計(jì)劃數(shù)據(jù)、銷(xiāo)售報(bào)價(jià)數(shù)據(jù)、銷(xiāo)售訂單數(shù)據(jù)、銷(xiāo)售合同數(shù)據(jù)、發(fā)票管理數(shù)據(jù)、應(yīng)收款管理數(shù)據(jù)、退/換貨管理數(shù)據(jù)。財(cái)務(wù)類(lèi)數(shù)據(jù)包括成本數(shù)據(jù)、會(huì)計(jì)科目數(shù)據(jù)、薪酬管理數(shù)據(jù)、賬戶(hù)數(shù)據(jù)、合同財(cái)務(wù)數(shù)據(jù)。人力資源類(lèi)數(shù)據(jù)包括職員基本信息、薪酬數(shù)據(jù)、合同數(shù)據(jù)、績(jī)效數(shù)據(jù)、獎(jiǎng)懲數(shù)據(jù)、考勤數(shù)據(jù)、年休假數(shù)據(jù)、離退休數(shù)據(jù)。供應(yīng)鏈數(shù)據(jù)指融合采購(gòu)、生產(chǎn)、庫(kù)存、物流、銷(xiāo)售等環(huán)節(jié)的供應(yīng)鏈全流程數(shù)據(jù),包括庫(kù)存水平實(shí)時(shí)統(tǒng)計(jì)、物流運(yùn)輸路線與時(shí)效記錄、供應(yīng)鏈節(jié)點(diǎn)協(xié)同進(jìn)度、供應(yīng)鏈風(fēng)險(xiǎn)預(yù)警信息等。網(wǎng)絡(luò)安全數(shù)據(jù)指企業(yè)網(wǎng)絡(luò)安全管理平臺(tái)、態(tài)勢(shì)感知系統(tǒng)采集的安全漏洞掃描結(jié)果、網(wǎng)絡(luò)攻擊行為記錄、安全防護(hù)措施執(zhí)行情況、數(shù)據(jù)泄露風(fēng)險(xiǎn)預(yù)警等數(shù)據(jù)。三、工業(yè)高質(zhì)量數(shù)據(jù)集的建設(shè)路徑工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)應(yīng)以研發(fā)設(shè)計(jì)、生產(chǎn)制造等場(chǎng)景需求為導(dǎo)向,從場(chǎng)景、技術(shù)、管理等維度系統(tǒng)規(guī)劃,明確建設(shè)流程、技術(shù)路徑,形成規(guī)范化的工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)實(shí)施路徑,打造匹配工業(yè)智能化需求的高質(zhì)量數(shù)據(jù)集。建設(shè)流程如圖3-1所示,涵蓋建設(shè)規(guī)劃、研發(fā)實(shí)施、應(yīng)用驗(yàn)證三大核心環(huán)節(jié),實(shí)現(xiàn)數(shù)據(jù)集從前期規(guī)劃到持續(xù)優(yōu)化的完整閉環(huán)。(一)建設(shè)規(guī)劃建設(shè)規(guī)劃作為數(shù)據(jù)集建設(shè)的前置環(huán)節(jié),是決定數(shù)據(jù)集能否貼合業(yè)務(wù)場(chǎng)景、釋放實(shí)際價(jià)值的“源頭錨點(diǎn)”。建設(shè)規(guī)劃需要具體考量以下三個(gè)方面的因素:一是要有效規(guī)避數(shù)據(jù)集建設(shè)資源錯(cuò)配。工業(yè)數(shù)據(jù)具有規(guī)模龐大、維度復(fù)雜、關(guān)聯(lián)性強(qiáng)、采集成本高等特征。通過(guò)建設(shè)規(guī)劃,能夠精準(zhǔn)定義數(shù)據(jù)集建設(shè)目標(biāo),為數(shù)據(jù)集的范圍、維度、精度及更新頻率等核心參數(shù)劃定邊界,避免陷入“為建而建”的資源浪費(fèi),保障資源配置效率;二是要保障數(shù)據(jù)集建設(shè)適配工業(yè)場(chǎng)景差異性。不同業(yè)務(wù)目標(biāo)對(duì)數(shù)據(jù)需求差異顯著,通過(guò)構(gòu)建“業(yè)務(wù)痛點(diǎn)-數(shù)據(jù)需求-應(yīng)用場(chǎng)景”映射關(guān)系,確保數(shù)據(jù)集建設(shè)貼合真實(shí)場(chǎng)景需求,避免采集冗余數(shù)據(jù)或遺漏關(guān)鍵特征,從源頭防止數(shù)據(jù)集與業(yè)務(wù)“兩張皮”。例如,針對(duì)焊接車(chē)間飛濺缺陷問(wèn)題,需明確缺陷圖像的采集角度、標(biāo)注標(biāo)準(zhǔn)及關(guān)聯(lián)工藝參數(shù),確保數(shù)據(jù)集服務(wù)于缺陷識(shí)別模型訓(xùn)練;三是要為數(shù)據(jù)集建設(shè)全流程提供統(tǒng)一目標(biāo)基準(zhǔn)。數(shù)據(jù)采集階段明確采集對(duì)象和方式,標(biāo)注階段定義數(shù)據(jù)標(biāo)注規(guī)范,應(yīng)用迭代階段根據(jù)業(yè)務(wù)目標(biāo)變化動(dòng)態(tài)調(diào)整數(shù)據(jù)維度。以場(chǎng)景應(yīng)用為導(dǎo)向的建設(shè)規(guī)劃,通過(guò)構(gòu)建“業(yè)務(wù)目標(biāo)-數(shù)據(jù)需求-應(yīng)用效果”的閉環(huán)鏈路,為數(shù)據(jù)集建設(shè)提供精準(zhǔn)的方向指引。建設(shè)規(guī)劃具體步驟如下。一是錨定業(yè)務(wù)目標(biāo),反向推導(dǎo)數(shù)據(jù)集建設(shè)要求。以“場(chǎng)景具象化、環(huán)節(jié)清晰化、指標(biāo)可量化”為原則,聚焦工業(yè)領(lǐng)域的生產(chǎn)工藝參數(shù)優(yōu)化、產(chǎn)品缺陷檢測(cè)、生產(chǎn)過(guò)程機(jī)理建模等特定應(yīng)用場(chǎng)景,明確具體業(yè)務(wù)目標(biāo),包括業(yè)務(wù)覆蓋的關(guān)鍵環(huán)節(jié)、驗(yàn)收指標(biāo)等,反向推導(dǎo)各場(chǎng)景數(shù)據(jù)集建設(shè)目標(biāo)。例如,在產(chǎn)品缺陷檢測(cè)場(chǎng)景中,需界定檢測(cè)覆蓋的產(chǎn)品類(lèi)型、缺陷類(lèi)別,并明確缺陷識(shí)別準(zhǔn)確率、誤判率、檢測(cè)效率提升幅度等可量化的驗(yàn)收指標(biāo)。二是形成數(shù)據(jù)集需求,明確數(shù)據(jù)集建設(shè)目標(biāo)。以業(yè)務(wù)目標(biāo)為核心牽引開(kāi)展需求分析,厘清數(shù)據(jù)集需求規(guī)格,具體包括:定義數(shù)據(jù)集特征維度、數(shù)據(jù)類(lèi)型、樣本規(guī)模、更新機(jī)制、質(zhì)量基線等關(guān)鍵參數(shù);明確交付數(shù)據(jù)集的格式標(biāo)準(zhǔn)、存儲(chǔ)形態(tài)與驗(yàn)證方式,確保能夠反向?qū)?yīng)業(yè)務(wù)目標(biāo)的支撐價(jià)值,形成可追溯、可量化、可執(zhí)行的《數(shù)據(jù)集建設(shè)需求清單》,為數(shù)據(jù)集研發(fā)提供明確依據(jù)。三是收集多維數(shù)據(jù)源,構(gòu)建數(shù)據(jù)源匹配矩陣。以《數(shù)據(jù)集建設(shè)需求清單》為基準(zhǔn),構(gòu)建“需求-數(shù)據(jù)源”匹配矩陣,系統(tǒng)整合IT側(cè)與OT側(cè)數(shù)據(jù)資源,從字段完整性、時(shí)效性、樣本充足性等維度綜合評(píng)估數(shù)據(jù)源。針對(duì)評(píng)估不達(dá)標(biāo)項(xiàng),制定針對(duì)性?xún)?yōu)化策略,確保數(shù)據(jù)源覆蓋需求清單的各項(xiàng)要求,形成“需求拆解→數(shù)據(jù)源匹配→綜合評(píng)估→優(yōu)化補(bǔ)全”全流程體系。例如,在風(fēng)電設(shè)備故障診斷數(shù)據(jù)集建設(shè)中,針對(duì)風(fēng)機(jī)罕見(jiàn)故障類(lèi)型(如齒輪斷裂)樣本不足問(wèn)題,通過(guò)回溯歷史設(shè)備維修日志,提取齒輪斷裂相關(guān)歷史數(shù)據(jù),補(bǔ)齊樣本量。四是多維度論證可行性,夯實(shí)數(shù)據(jù)集建設(shè)基礎(chǔ)。以數(shù)據(jù)集建設(shè)項(xiàng)目落地可行性為目標(biāo),圍繞技術(shù)可行性、成本可行性等核心維度,論證數(shù)據(jù)集建設(shè)的可行性。技術(shù)可行性論證層面,針對(duì)數(shù)據(jù)采集、標(biāo)注、增強(qiáng)等研發(fā)實(shí)施環(huán)節(jié),評(píng)估技術(shù)難度與潛在風(fēng)險(xiǎn)。成本可行性論證層面,構(gòu)建成本測(cè)算模型,測(cè)算數(shù)據(jù)集建設(shè)全流程成本構(gòu)成。基于技術(shù)與成本可行性論證結(jié)果,建立數(shù)據(jù)集需求清單動(dòng)態(tài)修正機(jī)制,確保需求清單與技術(shù)能力、成本預(yù)算相適配。五是構(gòu)建系統(tǒng)化工作計(jì)劃,保障建設(shè)實(shí)施全程可控。以數(shù)據(jù)集建設(shè)“過(guò)程可控、結(jié)果達(dá)標(biāo)”為目標(biāo),遵循“責(zé)任可明確實(shí)施路徑與責(zé)任邊界,形成覆蓋數(shù)據(jù)集建設(shè)全周期的行動(dòng)指南,包括:組建專(zhuān)項(xiàng)團(tuán)隊(duì),明確權(quán)責(zé)分工,夯實(shí)“責(zé)任可追溯”執(zhí)行基礎(chǔ);制定精細(xì)化進(jìn)度計(jì)劃,構(gòu)建“進(jìn)度可管控”階段機(jī)制;圍繞技術(shù)落地、進(jìn)度延誤與成本超支等風(fēng)險(xiǎn),制定分級(jí)分類(lèi)風(fēng)險(xiǎn)預(yù)案,實(shí)現(xiàn)“風(fēng)險(xiǎn)可預(yù)判”前置防控。缺乏科學(xué)的建設(shè)規(guī)劃,將導(dǎo)致數(shù)據(jù)集建設(shè)偏離業(yè)務(wù)實(shí)際,引發(fā)多重風(fēng)險(xiǎn)。一方面,數(shù)據(jù)集建設(shè)易陷入“重規(guī)模輕實(shí)效”誤區(qū)。例如,盲目采集海量冗余數(shù)據(jù),導(dǎo)致數(shù)據(jù)存儲(chǔ)、清洗、標(biāo)注等環(huán)節(jié)資源浪費(fèi);因關(guān)鍵特征缺失,數(shù)據(jù)集無(wú)法支撐核心業(yè)務(wù)場(chǎng)景的模型訓(xùn)練,導(dǎo)致“數(shù)據(jù)建成即無(wú)用”。另一方面,數(shù)據(jù)集往往面臨“建成即落后”困境。例如,因數(shù)據(jù)維度與業(yè)務(wù)迭代脫節(jié)而被閑置,因標(biāo)注標(biāo)準(zhǔn)不統(tǒng)一導(dǎo)致數(shù)據(jù)集跨場(chǎng)景復(fù)用率低下。(二)研發(fā)實(shí)施研發(fā)實(shí)施階段是工業(yè)高質(zhì)量數(shù)據(jù)集從“概念”走向“實(shí)用”的“煉金過(guò)程”。圍繞數(shù)據(jù)集建設(shè)需求清單,針對(duì)性制定技術(shù)路徑與方案,通過(guò)多源異構(gòu)數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)注、增強(qiáng)與合成等技術(shù)手段,將分散無(wú)序的“原始素材”轉(zhuǎn)化為可支撐工業(yè)場(chǎng)景應(yīng)用的高質(zhì)量、高可用工業(yè)數(shù)據(jù)集,實(shí)現(xiàn)“從0到1”質(zhì)的飛躍。同時(shí),經(jīng)質(zhì)量評(píng)測(cè)驗(yàn)證的數(shù)據(jù)集可突破單一場(chǎng)景限制,實(shí)現(xiàn)跨域復(fù)用,推動(dòng)數(shù)據(jù)集價(jià)值從單點(diǎn)向規(guī)?;瘧?yīng)用輻射,完成“從1到N”的持續(xù)價(jià)值延伸。工業(yè)高質(zhì)量數(shù)據(jù)集的構(gòu)建需包括研發(fā)設(shè)計(jì)、數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)注、數(shù)據(jù)增強(qiáng)、數(shù)據(jù)合成、質(zhì)量評(píng)測(cè)及持續(xù)運(yùn)維八個(gè)核心環(huán)節(jié),技術(shù)流程如圖3-2所示,實(shí)現(xiàn)從碎片化、低價(jià)值工業(yè)原始數(shù)據(jù)到標(biāo)準(zhǔn)化、高質(zhì)量數(shù)據(jù)集的轉(zhuǎn)化。一是研發(fā)設(shè)計(jì)指引實(shí)施技術(shù)路徑。作為數(shù)據(jù)集研建的頂層規(guī)劃環(huán)節(jié),研發(fā)設(shè)計(jì)需緊扣數(shù)據(jù)集需求,制定覆蓋數(shù)據(jù)采集、處理、標(biāo)注等全流程的技術(shù)方案與標(biāo)準(zhǔn)規(guī)范,為研發(fā)實(shí)施過(guò)程提供行動(dòng)指南。具體包括:明確工業(yè)數(shù)據(jù)采集接口協(xié)議與格式要求、數(shù)據(jù)處理流程,規(guī)劃數(shù)據(jù)存儲(chǔ)架構(gòu)及災(zāi)備策略,制定融合領(lǐng)域知識(shí)的數(shù)據(jù)標(biāo)注技術(shù)規(guī)范、增強(qiáng)策略等,保障數(shù)據(jù)集建設(shè)按既定技術(shù)路徑有序推進(jìn)。二是數(shù)據(jù)采集提供工業(yè)數(shù)據(jù)“原料”。以“全量覆蓋、質(zhì)量可控、場(chǎng)景適配”為原則,按照既定數(shù)據(jù)采集方案,通過(guò)IT與OT兩側(cè)協(xié)同,實(shí)現(xiàn)原始數(shù)據(jù)全面采集。IT側(cè)對(duì)企業(yè)內(nèi)部信息系統(tǒng)、合作共享數(shù)據(jù),以及供應(yīng)鏈上下游等外部數(shù)據(jù),按數(shù)據(jù)源類(lèi)型實(shí)施分類(lèi)采集。OT側(cè)依托工業(yè)傳感器、邊緣計(jì)算設(shè)備等硬件設(shè)施,多維度實(shí)時(shí)采集生產(chǎn)環(huán)境參數(shù)等原始數(shù)據(jù)。同時(shí),在采集流程中預(yù)設(shè)數(shù)據(jù)清洗規(guī)則,最終形成覆蓋全需求場(chǎng)景、質(zhì)量達(dá)標(biāo)的原始數(shù)據(jù)集。二是針對(duì)物流企業(yè)等外部系統(tǒng),采用API接口方式或約定的數(shù)據(jù)交換協(xié)特性設(shè)置采集頻率(如關(guān)鍵動(dòng)態(tài)參數(shù)每100ms采集一次),按照采集頻率采三是數(shù)據(jù)預(yù)處理提供原始“高可用數(shù)據(jù)”。數(shù)據(jù)預(yù)處理是針對(duì)工業(yè)原始數(shù)據(jù)中普遍存在的噪聲干擾、信息缺失等質(zhì)量問(wèn)題,通過(guò)實(shí)施數(shù)據(jù)清洗、轉(zhuǎn)換和整合等操作,從根源提升數(shù)據(jù)可用性。數(shù)據(jù)清洗階段采用規(guī)則過(guò)濾、異常檢測(cè)等手段剔除噪聲、補(bǔ)全缺失值,確保數(shù)據(jù)樣本的準(zhǔn)確性與完整性。數(shù)據(jù)轉(zhuǎn)換階段通過(guò)對(duì)原始數(shù)據(jù)實(shí)施格式轉(zhuǎn)換、多模態(tài)數(shù)據(jù)語(yǔ)義映射與對(duì)齊,結(jié)合量綱統(tǒng)一、數(shù)據(jù)歸一化或標(biāo)準(zhǔn)化處理,解決多源數(shù)據(jù)異構(gòu)性、數(shù)值尺度差異等問(wèn)題,實(shí)現(xiàn)工業(yè)數(shù)據(jù)的標(biāo)準(zhǔn)化整合。),四是數(shù)據(jù)標(biāo)注賦予工業(yè)數(shù)據(jù)“可理解性”。數(shù)據(jù)標(biāo)注是通過(guò)融合工業(yè)機(jī)理與領(lǐng)域知識(shí),依托專(zhuān)業(yè)標(biāo)注工具對(duì)文本、圖像、視頻、時(shí)序信號(hào)等原始數(shù)據(jù)添加標(biāo)簽,使數(shù)據(jù)可被機(jī)器理解和使用。針對(duì)工業(yè)數(shù)據(jù)集需求,按照既定標(biāo)注方案,對(duì)不同模態(tài)數(shù)據(jù)實(shí)施圖像邊界框標(biāo)注、文本分類(lèi)等差異化標(biāo)注流程,形成場(chǎng)景適配的標(biāo)注數(shù)據(jù)集。為提升數(shù)控機(jī)床加工過(guò)程的故障預(yù)警能力,針對(duì)主軸系統(tǒng)的時(shí)序振動(dòng)數(shù)五是數(shù)據(jù)增強(qiáng)緩解數(shù)據(jù)稀缺難題。數(shù)據(jù)增強(qiáng)通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行合理變換與擴(kuò)展,在不改變數(shù)據(jù)核心特征的前提下擴(kuò)充數(shù)據(jù)集規(guī)模,有效解決工業(yè)場(chǎng)景故障樣本少、極端工況數(shù)據(jù)不足等難題,推動(dòng)數(shù)據(jù)集從“小而精”向“大而全”演結(jié)合工業(yè)場(chǎng)景數(shù)據(jù)的物理約束與場(chǎng)景關(guān)聯(lián)性定制化數(shù)據(jù)增強(qiáng)策略。例如,對(duì)軸承缺陷圖像采用角度受限的旋轉(zhuǎn)增強(qiáng),避免過(guò)度變換導(dǎo)致缺陷形態(tài)失真;基于模型反饋的智能增強(qiáng),通過(guò)構(gòu)建“識(shí)別-增強(qiáng)”閉環(huán)機(jī)制提升數(shù)據(jù)增強(qiáng)的精準(zhǔn)性。例如,先訓(xùn)練輕量教師模型識(shí)別難例與偏差,再對(duì)難例區(qū)域做亮度調(diào)整、局部遮擋等針對(duì)性增強(qiáng);基于質(zhì)量感知的增強(qiáng)過(guò)濾,對(duì)增強(qiáng)后的樣本進(jìn)行置信度評(píng)分與誤差檢測(cè),剔除低置信樣本與高誤差樣本,形成“增強(qiáng)-評(píng)估-淘汰”閉環(huán)機(jī)制,確保增強(qiáng)數(shù)據(jù)的質(zhì)量。據(jù)分布,提升模型對(duì)缺陷的識(shí)別能力,采用數(shù)據(jù)增強(qiáng)針對(duì)某些細(xì)微、罕見(jiàn)的缺陷,難以大量采集,GAN通過(guò)學(xué)習(xí)真實(shí)數(shù)據(jù)分(2)模型訓(xùn)練:生成器與判別器交替訓(xùn)練。生成器先輸入隨機(jī)六是數(shù)據(jù)合成填補(bǔ)數(shù)據(jù)供給缺口。數(shù)據(jù)合成利用生成式AI等技術(shù)模擬生成與真實(shí)場(chǎng)景數(shù)據(jù)特征高度吻合的模擬樣本,彌補(bǔ)數(shù)據(jù)供給總量不足、結(jié)構(gòu)性缺失及獲取成本高昂等短板,提升數(shù)據(jù)集場(chǎng)景覆蓋度與特征完備性。在生成階段,明確待合成數(shù)據(jù)的類(lèi)型、規(guī)模及特征約束,采用生成對(duì)抗網(wǎng)絡(luò)(GAN)、擴(kuò)散模型等生成式模型定向訓(xùn)練,產(chǎn)出高保真模擬樣本,確保其在特征分布等方面與真實(shí)數(shù)據(jù)保持對(duì)齊。在驗(yàn)證階段,將合成數(shù)據(jù)與真實(shí)數(shù)據(jù)按多比例混合進(jìn)行測(cè)試,檢驗(yàn)合成數(shù)據(jù)對(duì)模型性能的提升效果及是否存在偏差,確保合格的合成數(shù)據(jù)納入主數(shù)據(jù)集。構(gòu)建能生成逼真缺陷的DCGAN模型架構(gòu)。3.訓(xùn)練優(yōu)化:使GAN模型通過(guò)對(duì)抗訓(xùn)練達(dá)成納什平衡,能生成高相熟的GAN模型批量生成特定類(lèi)型的缺陷圖像,確保每張缺陷形態(tài)不同。七是質(zhì)量評(píng)測(cè)筑牢數(shù)據(jù)集高質(zhì)量“防線”。數(shù)據(jù)質(zhì)量評(píng)測(cè)是推動(dòng)工業(yè)數(shù)據(jù)集從“建成”到“建好”的關(guān)鍵環(huán)節(jié)。圍繞準(zhǔn)確性、完整性、一致性、可靠性、時(shí)效性等核心指標(biāo),構(gòu)建多維度數(shù)據(jù)集質(zhì)量評(píng)測(cè)體系,采用自動(dòng)評(píng)估與人工評(píng)估協(xié)同方式,全面掌握數(shù)據(jù)集質(zhì)量狀況。通過(guò)量化指標(biāo)度量與定性研判,精準(zhǔn)定位極端工況數(shù)據(jù)缺失、設(shè)備異構(gòu)數(shù)據(jù)沖突等質(zhì)量問(wèn)題,為工業(yè)數(shù)據(jù)集迭代優(yōu)化提供清晰的技術(shù)路徑。八是持續(xù)運(yùn)維保障數(shù)據(jù)集長(zhǎng)效可用。工業(yè)數(shù)據(jù)集的“高質(zhì)量”需依托長(zhǎng)效運(yùn)維機(jī)制實(shí)現(xiàn)持續(xù)保障,通過(guò)定期更新數(shù)據(jù)集內(nèi)容,淘汰過(guò)時(shí)數(shù)據(jù),補(bǔ)充新增場(chǎng)景數(shù)據(jù),確保數(shù)據(jù)集根據(jù)工業(yè)應(yīng)用場(chǎng)景變化及時(shí)更新數(shù)據(jù)集特征維度,確保數(shù)據(jù)集的場(chǎng)景適配性;持續(xù)優(yōu)化更新,依托用戶(hù)反饋機(jī)制與自動(dòng)化監(jiān)測(cè)工具,實(shí)時(shí)捕獲數(shù)據(jù)錯(cuò)標(biāo)等質(zhì)量偏差,觸發(fā)重標(biāo)注、增補(bǔ)樣本等迭代流程,推動(dòng)數(shù)據(jù)集在反饋與調(diào)整中完成自我進(jìn)化;動(dòng)態(tài)維護(hù)更新,實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)源,及時(shí)解決設(shè)備漂新工況數(shù)據(jù)缺失等問(wèn)題,確保數(shù)據(jù)集持續(xù)可用。研發(fā)實(shí)施環(huán)節(jié)缺失或執(zhí)行不規(guī)范,將導(dǎo)致工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)陷入“需求空轉(zhuǎn)、應(yīng)用失效”困境,從而引發(fā)全鏈條風(fēng)險(xiǎn)。一是數(shù)據(jù)集淪為“低價(jià)值數(shù)據(jù)堆積”,例如,因缺乏標(biāo)準(zhǔn)化采集和質(zhì)量校驗(yàn)機(jī)制,數(shù)據(jù)集無(wú)法滿(mǎn)足模型訓(xùn)練需求,將淪為復(fù)用率極低的“數(shù)據(jù)垃圾”。二是數(shù)據(jù)集與實(shí)際需求適配度不足,例如,在汽車(chē)焊接場(chǎng)景中,因未規(guī)范采集電流、電壓等動(dòng)態(tài)參數(shù),數(shù)據(jù)集難以支撐質(zhì)量檢測(cè)模型訓(xùn)練,直接影響缺陷識(shí)別精度。三是應(yīng)用驗(yàn)證階段陷入低效循環(huán),因研發(fā)實(shí)施不規(guī)范導(dǎo)致的數(shù)據(jù)集質(zhì)量缺陷會(huì)直接傳導(dǎo)至應(yīng)用驗(yàn)證環(huán)節(jié),導(dǎo)致企業(yè)反復(fù)返工,模型驗(yàn)證周期顯著延長(zhǎng)。(三)應(yīng)用驗(yàn)證因工業(yè)場(chǎng)景的動(dòng)態(tài)性與復(fù)雜性,工業(yè)數(shù)據(jù)集普遍存在標(biāo)注邏輯偏差、場(chǎng)景覆蓋盲區(qū)等隱性問(wèn)題,難以通過(guò)研發(fā)階段的質(zhì)量評(píng)測(cè)完全暴露,須將其置于工業(yè)場(chǎng)景實(shí)際應(yīng)用中,通過(guò)場(chǎng)景的實(shí)際驗(yàn)證來(lái)檢驗(yàn)數(shù)據(jù)集的可用性。應(yīng)用驗(yàn)證環(huán)節(jié)通過(guò)構(gòu)建“數(shù)據(jù)集優(yōu)化→模型提升→數(shù)據(jù)集再優(yōu)化”迭代閉環(huán)機(jī)制,實(shí)現(xiàn)模型性能與數(shù)據(jù)集質(zhì)量的雙向提升,進(jìn)而推動(dòng)數(shù)據(jù)集建設(shè)全流程的持續(xù)改進(jìn),是工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)的“試金石”與“推進(jìn)器”。一方面,數(shù)據(jù)集通過(guò)模型反饋優(yōu)化。將構(gòu)建完成的數(shù)據(jù)集接入工業(yè)預(yù)測(cè)模型、故障診斷系統(tǒng)等實(shí)際應(yīng)用載體,通過(guò)模型表現(xiàn)反向驗(yàn)證數(shù)據(jù)集的完整性、樣本分布合理性、時(shí)效性以及場(chǎng)景精準(zhǔn)定位數(shù)據(jù)集中存在的標(biāo)注偏差、特征維度不足、時(shí)效性滯后等問(wèn)題,并反饋至建設(shè)規(guī)劃和研發(fā)實(shí)施環(huán)節(jié)。另一方面,模型性能提升反推數(shù)據(jù)集新需求。隨著數(shù)據(jù)集的不斷優(yōu)化,模型性能同步提升,其適用場(chǎng)景隨之?dāng)U展,進(jìn)一步對(duì)數(shù)據(jù)集的覆蓋范圍與特征維度提出新要求,實(shí)現(xiàn)“模型能力邊界擴(kuò)展→數(shù)據(jù)集范圍擴(kuò)展”的正向循環(huán)。若跳過(guò)應(yīng)用驗(yàn)證,將導(dǎo)致“看似合格”的數(shù)據(jù)集向全流程傳導(dǎo),形成“數(shù)據(jù)質(zhì)量不足→模型性能失效→業(yè)務(wù)損失→病上線”風(fēng)險(xiǎn)。例如,生產(chǎn)線故障診斷數(shù)據(jù)集未經(jīng)實(shí)際工況驗(yàn)證,可能遺漏特定負(fù)載下的設(shè)備異常特征,導(dǎo)致數(shù)據(jù)集中“正常樣本”與真實(shí)場(chǎng)景“故障樣本”邊界模糊,嚴(yán)重影響模型訓(xùn)練效果。二是模型性能失控導(dǎo)致業(yè)務(wù)風(fēng)險(xiǎn)傳導(dǎo)?;凇氨砻婧细瘛睌?shù)據(jù)集訓(xùn)練的模型,預(yù)測(cè)精度、診斷準(zhǔn)確性等指標(biāo)存在隱性缺陷,實(shí)際預(yù)測(cè)或診斷中可能出現(xiàn)高誤報(bào)率或漏報(bào)率,影響生產(chǎn)決策。三是迭代返工引發(fā)后期成本失控。數(shù)據(jù)集缺陷暴露后需回溯至數(shù)據(jù)采集、清洗、標(biāo)注等環(huán)節(jié)進(jìn)行重新優(yōu)化,導(dǎo)致時(shí)間、人力等成本指數(shù)級(jí)增長(zhǎng)。(四)典型案例1.南京鋼鐵集團(tuán)有限公司:中厚板軋制力實(shí)時(shí)智能預(yù)測(cè)數(shù)據(jù)集南京鋼鐵集團(tuán)有限公司(以下簡(jiǎn)稱(chēng)“南鋼”)中厚板產(chǎn)10%誤差內(nèi)準(zhǔn)確率約84%)和自主可控缺失的瓶頸,存在三大核心業(yè)務(wù)痛點(diǎn):一是非穩(wěn)態(tài)工況下,傳統(tǒng)機(jī)理模型預(yù)測(cè)失準(zhǔn)率達(dá)20%,換輥、換鋼種等環(huán)節(jié)需頻繁人工干預(yù),影響產(chǎn)線連續(xù)作業(yè)效率;二是小批量特種鋼材生產(chǎn)時(shí),現(xiàn)有模型自學(xué)習(xí)能力不足,軋制力預(yù)測(cè)波動(dòng)大,板形缺陷率上升,制約高端特種鋼材國(guó)產(chǎn)化;三是中厚板生產(chǎn)中,現(xiàn)有模型預(yù)測(cè)精度不足致AGC系統(tǒng)調(diào)節(jié)偏差,同板差合格率低,影響厚板成材率。為突破傳統(tǒng)機(jī)理模型預(yù)測(cè)失準(zhǔn)、現(xiàn)有模型預(yù)測(cè)精度不足等瓶頸,南鋼亟須開(kāi)發(fā)融合冶金知識(shí)與人工智能算法的自主高精度軋制力預(yù)測(cè)模型,構(gòu)建覆蓋煉鋼、連鑄、加熱、軋制全工序鏈的高質(zhì)量結(jié)構(gòu)化數(shù)據(jù)集。(2)數(shù)據(jù)集建設(shè)規(guī)劃從樣本范圍、質(zhì)量指標(biāo)、安全合規(guī)等方面進(jìn)行數(shù)據(jù)集建設(shè)規(guī)劃,明確數(shù)據(jù)集建設(shè)要求,確保數(shù)據(jù)集的結(jié)構(gòu)化、完整性、準(zhǔn)確性、可復(fù)用性與時(shí)效性等,滿(mǎn)足高精度軋制力預(yù)測(cè)模型的訓(xùn)練與驗(yàn)證需求,如表3-1所示。的實(shí)際測(cè)量值需嚴(yán)格遵循生產(chǎn)實(shí)際,與真實(shí)值偏差理),全鏈路數(shù)據(jù)操作日志保留≥3年(3)數(shù)據(jù)集建設(shè)實(shí)施南鋼通過(guò)數(shù)據(jù)采集、處理及增強(qiáng)等技術(shù)手段,構(gòu)建了涵蓋122個(gè)維度、500余萬(wàn)條的高質(zhì)量數(shù)據(jù)集。在研發(fā)規(guī)范方面,例如,應(yīng)實(shí)現(xiàn)高頻傳感器數(shù)據(jù)與低頻系統(tǒng)數(shù)據(jù)的時(shí)序?qū)R;以板坯ID為主鍵,結(jié)構(gòu)化存儲(chǔ)全鏈路數(shù)據(jù)。在數(shù)據(jù)處理方面,采用“冶金規(guī)則+統(tǒng)計(jì)檢測(cè)+無(wú)監(jiān)督學(xué)習(xí)”三級(jí)協(xié)同清洗體系,從基于冶金物理約束的粗篩,到利用數(shù)理統(tǒng)計(jì)方法識(shí)別顯性異常值,再到通過(guò)無(wú)監(jiān)督學(xué)習(xí)識(shí)別隱性異常三個(gè)層次進(jìn)行數(shù)據(jù)清洗。針對(duì)多系統(tǒng)數(shù)據(jù)異構(gòu)問(wèn)題,利用物料跟蹤技術(shù)實(shí)現(xiàn)跨工序數(shù)據(jù)動(dòng)態(tài)關(guān)聯(lián)與時(shí)空對(duì)齊,解決數(shù)據(jù)在時(shí)間、空間維度的匹配難題。在數(shù)據(jù)增強(qiáng)方面,深度融合材料科學(xué)理論與冶金先驗(yàn)知識(shí)構(gòu)建知識(shí)特征庫(kù),開(kāi)展特征增強(qiáng)工作,強(qiáng)化特征判別能力與模型可理解性,有效彌補(bǔ)傳統(tǒng)數(shù)據(jù)驅(qū)動(dòng)模型工況適應(yīng)性不足的缺陷。(4)數(shù)據(jù)集應(yīng)用驗(yàn)證南鋼結(jié)合數(shù)據(jù)集與模型訓(xùn)練的協(xié)同優(yōu)化機(jī)制,將高質(zhì)量數(shù)據(jù)集應(yīng)用于軋制力預(yù)測(cè)模型的訓(xùn)練與驗(yàn)證,以持續(xù)提升模型預(yù)測(cè)精度。一是模型訓(xùn)練驅(qū)動(dòng)數(shù)據(jù)迭代。深入分析模型訓(xùn)練結(jié)果(如特征重要性、預(yù)測(cè)誤差分布),識(shí)別影響模型性能的關(guān)鍵數(shù)據(jù)項(xiàng)或潛在數(shù)據(jù)質(zhì)量問(wèn)題。二是數(shù)據(jù)項(xiàng)針對(duì)性調(diào)整優(yōu)化。根據(jù)模型分析反饋,動(dòng)態(tài)調(diào)整數(shù)據(jù)集中的數(shù)據(jù)項(xiàng)構(gòu)成。例如,可能增加關(guān)鍵過(guò)程的高三是數(shù)據(jù)集同步優(yōu)化。數(shù)據(jù)項(xiàng)調(diào)整后,對(duì)數(shù)據(jù)集進(jìn)行同步清洗、驗(yàn)證與更新,確保調(diào)整后的數(shù)據(jù)集質(zhì)量不降低。四是閉環(huán)反饋驗(yàn)證。使用優(yōu)化后的數(shù)據(jù)集重新訓(xùn)練與驗(yàn)證軋制力預(yù)測(cè)模型,評(píng)估精度提升效果。通過(guò)“模型訓(xùn)練反饋-數(shù)據(jù)項(xiàng)調(diào)整-數(shù)據(jù)集優(yōu)化-模型再訓(xùn)練”的閉環(huán)迭代過(guò)程,不斷精煉數(shù)據(jù)集的核心特征與信息密度,支撐軋制力預(yù)測(cè)模型實(shí)現(xiàn)更高的準(zhǔn)確性與泛化能力。(5)數(shù)據(jù)集應(yīng)用成效在南鋼中厚板生產(chǎn)過(guò)程中,軋制力的精準(zhǔn)預(yù)測(cè)是確保產(chǎn)品質(zhì)量與生產(chǎn)效率的關(guān)鍵環(huán)節(jié)。通過(guò)將高質(zhì)量數(shù)據(jù)集與人工智能模型深度融合,成功構(gòu)建了軋制力實(shí)時(shí)智能預(yù)測(cè)系統(tǒng),并取得顯著應(yīng)用成效。一是質(zhì)量穩(wěn)定性顯著提升。軋制力預(yù)測(cè)相對(duì)誤差控制在10%范圍內(nèi)的準(zhǔn)確率≥95%,優(yōu)于傳統(tǒng)模型的預(yù)測(cè)精度,有效減少因軋制力波動(dòng)導(dǎo)致的厚度超差、板形失穩(wěn)等質(zhì)量問(wèn)題;非計(jì)劃率降低3%,提升產(chǎn)品合格率。二是生產(chǎn)效率與產(chǎn)能提升。板材成材率提升0.2%,降低材料消耗,提高軋制過(guò)程穩(wěn)定性。充分發(fā)揮軋機(jī)最大能力,在設(shè)備安全范圍內(nèi)逼近理論最大壓下量,單道次形變量增加,降低軋制總道次數(shù),最終提升軋機(jī)規(guī)程產(chǎn)能。三是數(shù)據(jù)驅(qū)動(dòng)工藝優(yōu)化。系統(tǒng)積累的實(shí)時(shí)生產(chǎn)數(shù)據(jù)為工藝參數(shù)優(yōu)化提供數(shù)據(jù)支撐,形成“預(yù)測(cè)-反饋-優(yōu)化”閉環(huán),持續(xù)提升模型泛化能力。未來(lái)可拓展至多鋼種、多規(guī)格板材的智能軋制策略?xún)?yōu)化,進(jìn)一步挖掘降本增效潛力。2.蔚來(lái)控股有限公司:新能源汽車(chē)電驅(qū)研發(fā)大模型數(shù)據(jù)蔚來(lái)控股有限公司(以下簡(jiǎn)稱(chēng)“蔚來(lái)”)在新能源汽車(chē)電驅(qū)系統(tǒng)研發(fā)測(cè)試環(huán)節(jié),發(fā)現(xiàn)傳統(tǒng)模式存在顯著短板。一是測(cè)試項(xiàng)評(píng)估過(guò)度依賴(lài)個(gè)人經(jīng)驗(yàn),導(dǎo)致決策缺乏數(shù)據(jù)支撐,易造成資源浪費(fèi);二是測(cè)試規(guī)格說(shuō)明編寫(xiě)工作量大、重復(fù)性高,歷史案例復(fù)用難度大,且因人員對(duì)需求理解差異,出現(xiàn)用例描述模糊、執(zhí)行標(biāo)準(zhǔn)不統(tǒng)一等問(wèn)題;三是電驅(qū)系統(tǒng)測(cè)試環(huán)節(jié)具有強(qiáng)跨學(xué)科特性,涉及電磁兼容性(EMC)測(cè)試、NVH(噪聲、振動(dòng)與聲振粗糙度)優(yōu)化、多合一集成系統(tǒng)開(kāi)發(fā)等多個(gè)領(lǐng)域;四是數(shù)據(jù)來(lái)源分散,涵蓋高校研究成果、主機(jī)廠實(shí)測(cè)報(bào)告與第三方檢測(cè)機(jī)構(gòu)數(shù)據(jù)等,結(jié)構(gòu)化整合難度極高。為解決上述短板,蔚來(lái)圍繞電驅(qū)測(cè)試場(chǎng)景,構(gòu)建新能源汽車(chē)電驅(qū)研發(fā)大模型高質(zhì)量數(shù)據(jù)集,支撐電驅(qū)測(cè)試的測(cè)試SPEC和腳本自動(dòng)生成。一方面,提升測(cè)試SPEC編寫(xiě)效率,目標(biāo)效率提升10倍以上。另一方面,提高測(cè)試覆蓋度,目標(biāo)覆蓋度達(dá)到95%,同時(shí)解決傳統(tǒng)測(cè)試模式中經(jīng)驗(yàn)依賴(lài)、資源浪費(fèi)、標(biāo)準(zhǔn)不統(tǒng)一等問(wèn)題,為電驅(qū)系統(tǒng)研發(fā)提供數(shù)據(jù)驅(qū)動(dòng)的支撐體系。(2)數(shù)據(jù)集建設(shè)實(shí)施蔚來(lái)在數(shù)據(jù)集建設(shè)過(guò)程中,攻克了電驅(qū)系統(tǒng)測(cè)試數(shù)據(jù)跨學(xué)科整合的復(fù)雜性、數(shù)據(jù)隱私安全風(fēng)險(xiǎn)等問(wèn)題,建立覆蓋數(shù)據(jù)“采集-處理-分析-建模-驗(yàn)證”的閉環(huán)系統(tǒng),形成性能優(yōu)化、可靠性提升的完整數(shù)據(jù)閉環(huán),已成功構(gòu)建了5TB規(guī)模的文本類(lèi)新能源汽車(chē)電驅(qū)研發(fā)大模型數(shù)據(jù)集。在多源數(shù)據(jù)采集環(huán)節(jié),從數(shù)據(jù)庫(kù)、API、傳感器、企業(yè)文檔、專(zhuān)家知識(shí)庫(kù)等多渠道獲取原始數(shù)據(jù),基于datafabric思想,實(shí)現(xiàn)數(shù)據(jù)處理缺失值、噪聲數(shù)據(jù)及重復(fù)項(xiàng),保證數(shù)據(jù)質(zhì)量與一致性。在數(shù)據(jù)標(biāo)注環(huán)節(jié),利用大模型能力對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行標(biāo)注,與結(jié)構(gòu)化數(shù)據(jù)共同構(gòu)建領(lǐng)域數(shù)據(jù)集。在數(shù)據(jù)劃分環(huán)節(jié),將領(lǐng)域數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,用于模型開(kāi)發(fā)與評(píng)估。在模型訓(xùn)練與評(píng)估環(huán)節(jié),利用數(shù)據(jù)集對(duì)模型進(jìn)行在線和監(jiān)督學(xué)習(xí),提升模型的效果,并利用測(cè)試集、專(zhuān)家知識(shí)和大模型驗(yàn)證性能。(3)數(shù)據(jù)集應(yīng)用成效圍繞電驅(qū)測(cè)試場(chǎng)景需求,新能源汽車(chē)電驅(qū)研發(fā)大模型數(shù)據(jù)集在基礎(chǔ)研發(fā)效率、AI模型性能、研發(fā)模式變革及行業(yè)價(jià)值四個(gè)方面取得顯著應(yīng)用成效。一是基礎(chǔ)訓(xùn)練支撐。在測(cè)試用例生成領(lǐng)域,采用經(jīng)嚴(yán)格清洗和標(biāo)注的數(shù)據(jù)集進(jìn)行微調(diào)訓(xùn)練,結(jié)合專(zhuān)家規(guī)則的驗(yàn)證流程,可使系統(tǒng)生成測(cè)試用例的準(zhǔn)確率提升10%以上。這種專(zhuān)家知識(shí)校驗(yàn)的訓(xùn)練方式,確保了模型在特定領(lǐng)域具備專(zhuān)業(yè)級(jí)的推理能力。二是調(diào)優(yōu)與泛化能力提升。通過(guò)構(gòu)建包含用戶(hù)顯式反饋和隱式修正注意力特點(diǎn),能夠采集多維度反饋的數(shù)據(jù)集,實(shí)現(xiàn)模型持續(xù)優(yōu)化。實(shí)踐表明,這種結(jié)合用戶(hù)顯式反饋和隱式反饋的調(diào)優(yōu)方式可使模型在真實(shí)場(chǎng)景的適應(yīng)能力提升15%。三是RAG優(yōu)化實(shí)踐?;谥R(shí)圖譜的檢索增強(qiáng)生成(RAG)系統(tǒng),通過(guò)構(gòu)建領(lǐng)域知識(shí)圖譜和關(guān)聯(lián)性校驗(yàn)機(jī)制,實(shí)現(xiàn)知識(shí)獲取的高準(zhǔn)確率。該系統(tǒng)從多源異構(gòu)數(shù)據(jù)中提取實(shí)體和關(guān)系,構(gòu)建結(jié)構(gòu)化知識(shí)圖譜;在檢索階段,利用語(yǔ)義相似度計(jì)算和路徑推理,確保檢索內(nèi)容的相關(guān)性;再通過(guò)一致性校驗(yàn)?zāi)K,過(guò)濾矛盾或過(guò)時(shí)信息。這種雙重校驗(yàn)機(jī)制使知識(shí)獲取的正確率達(dá)到98.5%以上。3.西安塔力科技有限公司:礦山行業(yè)全場(chǎng)景要素?cái)?shù)據(jù)集當(dāng)前礦山行業(yè)智慧化建設(shè)面臨“煙囪效應(yīng)”突出、數(shù)據(jù)孤島嚴(yán)重、系統(tǒng)協(xié)同困難、傳統(tǒng)運(yùn)維效率低下等痛點(diǎn),導(dǎo)致數(shù)據(jù)價(jià)值難以釋放,安全管理與生產(chǎn)運(yùn)營(yíng)成本高企。西安塔力科技有限公司(以下簡(jiǎn)稱(chēng)“塔力科技”)以礦山數(shù)字化轉(zhuǎn)型為核心目標(biāo),構(gòu)建“人-車(chē)-設(shè)備-環(huán)境”的全場(chǎng)景高質(zhì)量數(shù)據(jù)集,覆蓋礦山全場(chǎng)景關(guān)鍵要素,如表3-2所示,破解礦山數(shù)據(jù)利用低效、安全預(yù)警滯后、人工依賴(lài)度高的難題。(2)數(shù)據(jù)集建設(shè)實(shí)施在礦山圖像數(shù)據(jù)集建設(shè)實(shí)踐過(guò)程中,塔力科技通過(guò)數(shù)據(jù)采集、精準(zhǔn)標(biāo)注、數(shù)據(jù)增強(qiáng)等技術(shù)手段,構(gòu)建了涵蓋350多座煤礦數(shù)據(jù)、57個(gè)煤礦場(chǎng)景及1.1億張要素圖片的高質(zhì)量礦包含煙霧、黑暗等11類(lèi)極端工況。在數(shù)據(jù)標(biāo)注方面,塔力科技引入全場(chǎng)景語(yǔ)義分割支持復(fù)雜交互識(shí)別,精準(zhǔn)標(biāo)注了53子類(lèi)目標(biāo)標(biāo)簽,保證標(biāo)注一致性波動(dòng)≤5%,分割掩碼誤差<2%。在數(shù)據(jù)增強(qiáng)與小樣本策略方面,實(shí)施亮度擾動(dòng)等常規(guī)增強(qiáng),采用過(guò)采樣與合成樣本補(bǔ)償稀缺樣本(如瓦斯突出前兆、煙霧、違規(guī)行為等),結(jié)合遷移學(xué)習(xí)與MixUp/CutMix提升小樣本泛化能力。(3)數(shù)據(jù)集應(yīng)用成效圍繞礦山核心生產(chǎn)與安全場(chǎng)景,選取采煤工作面、井下運(yùn)輸巷道、主副井口等關(guān)鍵區(qū)域開(kāi)展數(shù)據(jù)集應(yīng)用驗(yàn)證,實(shí)現(xiàn)設(shè)備狀態(tài)、人員行為、設(shè)備異常等情況的實(shí)時(shí)監(jiān)測(cè)與智能預(yù)警,具體場(chǎng)景應(yīng)用效果如表3-3所示。通過(guò)全場(chǎng)景分割對(duì)液壓支架、采煤機(jī)等設(shè)備進(jìn)行像素級(jí)標(biāo)注,實(shí)時(shí)監(jiān)測(cè)液壓支架伸縮狀態(tài)(識(shí)別精度缺失(響應(yīng)時(shí)間<1.5秒),較傳統(tǒng)人工巡檢效率提針對(duì)采煤面人員違規(guī)進(jìn)入危險(xiǎn)區(qū)域、未按規(guī)定佩戴防護(hù)裝備等行為,結(jié)合骨架提取技術(shù),違規(guī)識(shí)別精采用“車(chē)-人”分割算法對(duì)礦車(chē)、膠輪車(chē)與行人進(jìn)秒預(yù)警。系統(tǒng)運(yùn)行以來(lái),井下運(yùn)輸事故發(fā)生率下降堵塞、異物混入等狀態(tài),結(jié)合紅外熱成像數(shù)據(jù),同步監(jiān)測(cè)滾筒過(guò)熱現(xiàn)象。某巷道皮帶機(jī)曾因異物卡堵對(duì)井口區(qū)域進(jìn)行語(yǔ)義分割,精準(zhǔn)識(shí)別未授權(quán)人員闖入、作業(yè)人員未系安全繩等違規(guī)行為,聯(lián)動(dòng)門(mén)禁系強(qiáng)與合成樣本訓(xùn)練,在能見(jiàn)度<5米的環(huán)境下,人員典型場(chǎng)景包括睡崗、玩手機(jī)、攀爬不當(dāng)?shù)?,基于全測(cè)針對(duì)液壓支架伸縮狀態(tài)、防護(hù)缺失、傳感器異常、停機(jī)、有煤/無(wú)煤、遮擋、防護(hù)缺失等狀態(tài),減少隱在煙霧、火情、煤流異常、異物阻塞等場(chǎng)景,結(jié)合時(shí)空數(shù)據(jù),環(huán)境異常識(shí)別率提升至95%以上,提前四、工業(yè)高質(zhì)量數(shù)據(jù)集的評(píng)估體系工業(yè)高質(zhì)量數(shù)據(jù)集的評(píng)估體系是衡量和保障數(shù)據(jù)集質(zhì)量、價(jià)值與安全水平的核心,對(duì)推動(dòng)數(shù)據(jù)集從量的積累到質(zhì)的飛躍具有決定性作用,是確保工業(yè)數(shù)據(jù)要素高效流通、充分釋放數(shù)據(jù)價(jià)值、賦能工業(yè)高質(zhì)量發(fā)展的關(guān)鍵基礎(chǔ)。通過(guò)全面科學(xué)的評(píng)估體系與測(cè)評(píng)方法,衡量數(shù)據(jù)集對(duì)建模、預(yù)測(cè)、診斷、優(yōu)化等任務(wù)的支撐能力,為數(shù)據(jù)集的持續(xù)優(yōu)化、迭代升級(jí)與應(yīng)用推廣提供精準(zhǔn)指導(dǎo)和可靠依據(jù)。通過(guò)不斷識(shí)別問(wèn)題、優(yōu)化流程、提升效率,實(shí)現(xiàn)數(shù)據(jù)集質(zhì)量的持續(xù)改善,為工業(yè)智能應(yīng)用提供可靠數(shù)據(jù)底座。(一)評(píng)估框架工業(yè)高質(zhì)量數(shù)據(jù)集評(píng)估應(yīng)圍繞數(shù)據(jù)質(zhì)量建立定性與定量相結(jié)合的評(píng)估體系。一是要重點(diǎn)評(píng)估數(shù)據(jù)集的準(zhǔn)確性、完整性、一致性、時(shí)效性與標(biāo)注質(zhì)量等基礎(chǔ)質(zhì)量特性;二是要考察數(shù)據(jù)集的元數(shù)據(jù)完整性、場(chǎng)景適配性、可復(fù)用性與可擴(kuò)展性等應(yīng)用適配能力;三是要審核數(shù)據(jù)集的內(nèi)容合規(guī)與信息脫敏等安全合規(guī)水平。數(shù)據(jù)集的評(píng)估過(guò)程應(yīng)結(jié)合典型行業(yè)與業(yè)務(wù)場(chǎng)景,選取差異化的評(píng)估指標(biāo),衡量其對(duì)建模、預(yù)測(cè)、診斷、優(yōu)化等任務(wù)的支撐能力,采用公式計(jì)算、模型基準(zhǔn)測(cè)試、專(zhuān)家評(píng)審與場(chǎng)景驗(yàn)證、第三方機(jī)構(gòu)認(rèn)證等方法開(kāi)展評(píng)估工作,為工業(yè)高質(zhì)量數(shù)據(jù)集的持續(xù)優(yōu)化與應(yīng)用推廣提供依據(jù)。當(dāng)前面向通用場(chǎng)景的數(shù)據(jù)集質(zhì)量評(píng)估已在形成諸多標(biāo)準(zhǔn)[5,8–10],但現(xiàn)有數(shù)據(jù)集評(píng)估標(biāo)準(zhǔn)對(duì)工業(yè)領(lǐng)域人工智能應(yīng)用中尤為關(guān)注的數(shù)據(jù)分布、數(shù)據(jù)標(biāo)注、時(shí)效性與泛化性等要素覆蓋不足,對(duì)行業(yè)特性的差異化評(píng)估標(biāo)準(zhǔn)亦有待細(xì)化?,F(xiàn)有數(shù)據(jù)集評(píng)估標(biāo)準(zhǔn)多著重?cái)?shù)據(jù)樣本自身的質(zhì)量,對(duì)工業(yè)數(shù)據(jù)集構(gòu)建與應(yīng)用中面臨的標(biāo)注基準(zhǔn)一致性、元數(shù)據(jù)信息完整性、數(shù)據(jù)精度與分辨率、有效信息密度、合成數(shù)據(jù)真實(shí)性與時(shí)間跨度等影響實(shí)際應(yīng)用成效的問(wèn)題關(guān)注不多。因此,針對(duì)工業(yè)高質(zhì)量數(shù)據(jù)集完整度高、質(zhì)量達(dá)標(biāo)、時(shí)效性強(qiáng)、場(chǎng)景明確的顯著特征,應(yīng)參考現(xiàn)有數(shù)據(jù)評(píng)估標(biāo)準(zhǔn),設(shè)計(jì)多層次的工業(yè)高質(zhì)量數(shù)據(jù)集評(píng)估框架并設(shè)計(jì)具體評(píng)估指標(biāo),覆蓋產(chǎn)品缺陷檢測(cè)、工藝參數(shù)優(yōu)化、設(shè)備預(yù)測(cè)性維護(hù)等常見(jiàn)工業(yè)應(yīng)用場(chǎng)景與機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、多模態(tài)大模型等典型模型構(gòu)建過(guò)程中涉及的各類(lèi)數(shù)據(jù)質(zhì)量要素。工業(yè)高質(zhì)量數(shù)據(jù)集評(píng)估框架以《信息技術(shù)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)》國(guó)家標(biāo)準(zhǔn)[8]為基礎(chǔ),參考相關(guān)行業(yè)標(biāo)準(zhǔn)與應(yīng)用需求,提出規(guī)范性、完整性、準(zhǔn)確性、一致性、時(shí)效性、稠密性、均衡性、專(zhuān)業(yè)性、通用性、合規(guī)性等10個(gè)一級(jí)指標(biāo)。每個(gè)一級(jí)指標(biāo)下還可細(xì)分為若干二級(jí)指標(biāo),以對(duì)元數(shù)據(jù)、數(shù)據(jù)分布、數(shù)據(jù)標(biāo)注等方面進(jìn)行具體評(píng)估,如圖4-1所示。上述的一級(jí)和二級(jí)評(píng)估指標(biāo),是實(shí)施工業(yè)數(shù)據(jù)集質(zhì)量評(píng)價(jià)的最大集合,實(shí)踐中應(yīng)根據(jù)具體應(yīng)用與數(shù)據(jù)特點(diǎn),選取適用于所評(píng)估對(duì)象的評(píng)估指標(biāo)開(kāi)展數(shù)據(jù)集質(zhì)量評(píng)價(jià)活動(dòng)。(二)評(píng)估指標(biāo)工業(yè)數(shù)據(jù)集的質(zhì)量評(píng)估既遵循數(shù)據(jù)質(zhì)量的一般評(píng)估原則,也需考慮工業(yè)領(lǐng)域獨(dú)有特點(diǎn)與服務(wù)模型應(yīng)用的具體需求。工業(yè)高質(zhì)量數(shù)據(jù)集的評(píng)估指標(biāo)包含10個(gè)一級(jí)指標(biāo)與30個(gè)二級(jí)指標(biāo)。各項(xiàng)一級(jí)指標(biāo)內(nèi)涵與范圍概述如下:(1)規(guī)范性指數(shù)據(jù)集符合數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)模型、業(yè)務(wù)規(guī)則、元數(shù)據(jù)或權(quán)威參考數(shù)據(jù)的程度,包括數(shù)據(jù)集的格式、標(biāo)注、單位和元數(shù)據(jù)的規(guī)范性等方面。(2)完整性指數(shù)據(jù)集按照建設(shè)規(guī)則要求,數(shù)據(jù)元素被賦予數(shù)值的程度,包括數(shù)據(jù)集的特征完整性、分布完整性、標(biāo)注完整性、文檔完整性等方面。(3)準(zhǔn)確性指數(shù)據(jù)集準(zhǔn)確表示其所描述的真實(shí)實(shí)體(實(shí)際對(duì)象)真實(shí)值的程度,包括數(shù)據(jù)的內(nèi)容、精度、誤差、標(biāo)注信息、文檔描述等方面。(4)一致性指數(shù)據(jù)集內(nèi)部及與其他數(shù)據(jù)源之間的統(tǒng)一程度,包括數(shù)據(jù)單位與格式的一致性,數(shù)據(jù)集樣本分布與真實(shí)世界數(shù)據(jù)分布的一致性,不同樣本間數(shù)據(jù)標(biāo)注基準(zhǔn)的一致性等方面。(5)時(shí)效性指數(shù)據(jù)集能夠反映當(dāng)前或指定時(shí)間窗口內(nèi)的真實(shí)狀態(tài)程度,包括是否涵蓋了所需的時(shí)效區(qū)間、是否包含過(guò)時(shí)信息等方面。(6)稠密性指數(shù)據(jù)集單位數(shù)據(jù)所含信息量的多樣化程度,包括數(shù)據(jù)樣本分布密度、信息價(jià)值密度與樣本數(shù)據(jù)充足性等方面。(7)均衡性指數(shù)據(jù)集數(shù)據(jù)的均勻分布程度,包括數(shù)據(jù)類(lèi)別分布均衡性和數(shù)據(jù)來(lái)源均衡性等方面。(8)專(zhuān)業(yè)性指數(shù)據(jù)集涵蓋的信息內(nèi)容和工業(yè)場(chǎng)景的匹配程度,包括知識(shí)的專(zhuān)業(yè)性、業(yè)務(wù)場(chǎng)景的匹配性、工業(yè)機(jī)理的關(guān)聯(lián)性等方面。(9)通用性指數(shù)據(jù)集在跨行業(yè)、跨場(chǎng)景的適用程度,具體包括知識(shí)的適用性、數(shù)據(jù)集的可復(fù)用性與可遷移性等方(10)合規(guī)性指數(shù)據(jù)集的內(nèi)容、來(lái)源與權(quán)屬遵循各類(lèi)規(guī)章制度的合規(guī)程度,包括相關(guān)法律法規(guī)、監(jiān)管要求、行業(yè)標(biāo)準(zhǔn)與倫理規(guī)范等方面。各項(xiàng)二級(jí)指標(biāo)說(shuō)明如表4-1所示。數(shù)據(jù)集元數(shù)據(jù)中應(yīng)完整包含數(shù)據(jù)集的基本信息、等相關(guān)法規(guī)規(guī)定[11-13]。工業(yè)高質(zhì)量數(shù)據(jù)集的評(píng)估通常包含評(píng)估準(zhǔn)備、評(píng)估活動(dòng)和評(píng)估結(jié)論三個(gè)階段,如圖4-2所示。評(píng)估準(zhǔn)備階段包括評(píng)估對(duì)象分析、評(píng)估指標(biāo)選取、評(píng)估指標(biāo)權(quán)重、評(píng)估準(zhǔn)則制定設(shè)定四個(gè)步驟。評(píng)估準(zhǔn)備需根據(jù)具體場(chǎng)景和數(shù)據(jù)特點(diǎn),對(duì)評(píng)估指標(biāo)進(jìn)行取舍,選取適合的數(shù)據(jù)集質(zhì)量指標(biāo)并按需設(shè)定不同的指標(biāo)權(quán)重,形成制定數(shù)據(jù)集評(píng)估的計(jì)劃。評(píng)估活動(dòng)階段包括評(píng)估活動(dòng)執(zhí)行、分項(xiàng)指標(biāo)結(jié)果收集、總體質(zhì)量指標(biāo)計(jì)算三個(gè)步驟。評(píng)估活動(dòng)需對(duì)選定的各項(xiàng)指標(biāo)分別按標(biāo)準(zhǔn)化的方法進(jìn)行評(píng)定并收集評(píng)估結(jié)果;指標(biāo)計(jì)算應(yīng)基于具體指標(biāo)特點(diǎn)與業(yè)務(wù)場(chǎng)景,選取定性或定量方式進(jìn)行,以合格/不合格、等級(jí)或分?jǐn)?shù)形式得出評(píng)估結(jié)果。評(píng)估結(jié)論階段包括數(shù)據(jù)集質(zhì)量判別、評(píng)估報(bào)告編制兩個(gè)步驟。評(píng)估結(jié)論需根據(jù)各項(xiàng)評(píng)估指標(biāo)的等級(jí)或得分,結(jié)合指標(biāo)權(quán)重綜合得出最終的數(shù)據(jù)集質(zhì)量判別結(jié)果,并編制評(píng)估報(bào)告。不同行業(yè)不同場(chǎng)景下,對(duì)評(píng)估指標(biāo)的選取各有側(cè)重,應(yīng)結(jié)合實(shí)際數(shù)據(jù)特點(diǎn)與模型類(lèi)型進(jìn)行分析。例如,對(duì)于基于視覺(jué)圖像的產(chǎn)品缺陷檢測(cè),需要特別重視標(biāo)注準(zhǔn)確性與標(biāo)注一致性指標(biāo),以保證直接影響模型的訓(xùn)練效果;對(duì)于需要精準(zhǔn)建模的過(guò)程控制系統(tǒng)辨識(shí),數(shù)據(jù)記錄的精確性應(yīng)給予更高的關(guān)注。對(duì)于基于超聲信號(hào)的結(jié)構(gòu)探傷,需要重點(diǎn)優(yōu)化采樣頻率與信噪比指標(biāo)以提升異常信號(hào)的識(shí)別效果;對(duì)于設(shè)備預(yù)測(cè)性維護(hù),因剩余壽命預(yù)測(cè)模型的構(gòu)建需要設(shè)備全生命周期的工況與失效記錄,故而需對(duì)時(shí)效完整性和分布全面性指標(biāo)加強(qiáng)關(guān)注。工業(yè)高質(zhì)量數(shù)據(jù)集的建設(shè)不是一勞永逸的,而是貫穿數(shù)據(jù)集從構(gòu)建到應(yīng)用整個(gè)生命周期中持續(xù)改進(jìn)的過(guò)程。應(yīng)從質(zhì)量管理的角度,將數(shù)據(jù)集視為一種產(chǎn)品,引入系統(tǒng)化的質(zhì)量管理體系機(jī)制,結(jié)合“策劃—實(shí)施—檢查—處置”的“PDCA”循環(huán)[14,15],全方位系統(tǒng)性提升數(shù)據(jù)質(zhì)量,確保數(shù)據(jù)集質(zhì)量的可控性與可追溯性,推動(dòng)工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)可持續(xù)發(fā)展。五、工業(yè)高質(zhì)量數(shù)據(jù)集的流通應(yīng)用工業(yè)高質(zhì)量數(shù)據(jù)集的流通應(yīng)用是激活工業(yè)數(shù)據(jù)價(jià)值、賦能產(chǎn)業(yè)提質(zhì)增效的重要環(huán)節(jié)。當(dāng)前,數(shù)據(jù)孤島嚴(yán)重、權(quán)屬不明晰、流通安全缺乏保障等實(shí)際問(wèn)題阻礙了工業(yè)高質(zhì)量數(shù)據(jù)集的流通共享,亟需構(gòu)建可信數(shù)據(jù)空間等新型數(shù)據(jù)基礎(chǔ)設(shè)施,通過(guò)區(qū)塊鏈、隱私計(jì)算等技術(shù),實(shí)現(xiàn)工業(yè)高質(zhì)量數(shù)據(jù)集跨主體協(xié)同、供需協(xié)作和合規(guī)高效利用。(一)面臨問(wèn)題當(dāng)前,工業(yè)高質(zhì)量數(shù)據(jù)集流通應(yīng)用的主要問(wèn)題集中在供需協(xié)作不暢、隱私保護(hù)不足、流通管控體系不完善等方面,直接影響數(shù)據(jù)集價(jià)值轉(zhuǎn)化效率。一是數(shù)據(jù)集隱私保護(hù)與共享需求存在矛盾,共享意愿不足。工業(yè)領(lǐng)域蘊(yùn)含研發(fā)設(shè)計(jì)、生產(chǎn)工藝參數(shù)等大量敏感數(shù)據(jù),企業(yè)為保護(hù)商業(yè)機(jī)密、防范數(shù)據(jù)泄露、確保合規(guī)運(yùn)營(yíng),對(duì)數(shù)據(jù)集共享持高度謹(jǐn)慎態(tài)度。然而,工業(yè)高質(zhì)量數(shù)據(jù)集的開(kāi)放共享是實(shí)現(xiàn)數(shù)據(jù)價(jià)值釋放的關(guān)鍵路徑,需要各企業(yè)共享數(shù)據(jù)集,形成合力。當(dāng)前隱私保護(hù)技術(shù)在在實(shí)用性與安全性上難以兼顧,依然存在數(shù)據(jù)泄露風(fēng)險(xiǎn),這種安全不確定性顯著削弱了企業(yè)共享積極性,“安全顧慮壓倒共享動(dòng)力”問(wèn)題突顯,嚴(yán)重制約數(shù)據(jù)集的價(jià)值釋放。二是數(shù)據(jù)集權(quán)屬不明與全鏈路追溯能力不足,主權(quán)缺乏保障。工業(yè)高質(zhì)量數(shù)據(jù)集流通涉及數(shù)據(jù)提供方、使用方等眾多主體,各主體權(quán)屬邊界模糊、缺乏統(tǒng)一的權(quán)屬登記與確認(rèn)機(jī)制,易引發(fā)數(shù)據(jù)集使用爭(zhēng)議和利益分配糾紛。此外,數(shù)據(jù)集在傳輸、使用等環(huán)節(jié)缺乏唯一標(biāo)識(shí)與完整日志記錄,流向追蹤與行為審計(jì)較薄弱,一旦發(fā)生數(shù)據(jù)集濫用或泄露,難以快速追蹤溯源,進(jìn)一步加劇數(shù)據(jù)提供方對(duì)自身數(shù)據(jù)集歸屬權(quán)的擔(dān)憂(yōu),制約數(shù)據(jù)集的可信共享與流通。三是數(shù)據(jù)集流通可信管控與信任機(jī)制缺失,阻礙供需協(xié)作。工業(yè)高質(zhì)量數(shù)據(jù)集具有高價(jià)值密度屬性,且在流通利用環(huán)節(jié)涉及多主體、多角色參與,不同參與方的訪問(wèn)范圍、操作權(quán)限存在顯著差異,對(duì)數(shù)據(jù)集全流程使用過(guò)程的精準(zhǔn)管控提出更高要求。由于跨主體可信管控能力不足,對(duì)數(shù)據(jù)集的使用行為和操作目的驗(yàn)證難度較大,數(shù)據(jù)集質(zhì)量難以保障,導(dǎo)致企業(yè)對(duì)數(shù)據(jù)集共享缺乏足夠信任,形成“管控不足→信任缺失”的負(fù)面循環(huán)。在供需協(xié)作方面,信任機(jī)制缺失導(dǎo)致供需對(duì)接成本高、周期長(zhǎng),進(jìn)一步推高了數(shù)據(jù)集的協(xié)作成本。數(shù)據(jù)集建設(shè)分散于各企業(yè)、各生產(chǎn)環(huán)節(jié),呈現(xiàn)“碎片化”分布特征,缺乏跨主體、跨環(huán)節(jié)的統(tǒng)籌規(guī)劃,難以形成規(guī)范化的高質(zhì)量數(shù)據(jù)集。使用方由于缺乏數(shù)據(jù)集檢索與篩選渠道,難以快速定位符合自身業(yè)務(wù)需求的數(shù)據(jù)集,增加了需求挖掘成本。而供給方無(wú)法通過(guò)公共或開(kāi)放平臺(tái)觸達(dá)潛在用戶(hù),導(dǎo)致高質(zhì)量、高價(jià)值數(shù)據(jù)集的市場(chǎng)曝光度不足,難以形成有效供給和精準(zhǔn)匹配,整體呈現(xiàn)“信息孤島與無(wú)序供給并存”的局面,降低了數(shù)據(jù)集的供需匹配效率。(二)解決路徑依托國(guó)家工業(yè)互聯(lián)網(wǎng)大數(shù)據(jù)中心,構(gòu)建工業(yè)高質(zhì)量數(shù)據(jù)集可信數(shù)據(jù)空間,為供需多方數(shù)據(jù)主體提供安全、合規(guī)、可信的應(yīng)用環(huán)境,確保數(shù)據(jù)集可信可管可追溯,促進(jìn)工業(yè)高質(zhì)量數(shù)據(jù)集的精準(zhǔn)管理、安全共享與高效利用,總體功能架構(gòu)如圖5-1所示。一是技術(shù)賦能,夯實(shí)數(shù)據(jù)集流通信任底座?;陔[私計(jì)算、安全沙箱、可信認(rèn)證、數(shù)據(jù)使用控制及全鏈路追溯等核心技術(shù),構(gòu)建“數(shù)據(jù)集可用不可見(jiàn)、用途可控可追溯”的信任機(jī)制,打通數(shù)據(jù)集供給方、需求方及服務(wù)方協(xié)同鏈路,在“數(shù)據(jù)集物理不出域”前提下,通過(guò)“可用不可見(jiàn)”模式滿(mǎn)足多主體的數(shù)據(jù)集使用需求,實(shí)現(xiàn)數(shù)據(jù)集主權(quán)不轉(zhuǎn)移、價(jià)值可流轉(zhuǎn)。通過(guò)身份可信認(rèn)證與權(quán)限管控筑牢“準(zhǔn)入門(mén)檻”和“權(quán)限基石”,利用多主體身份認(rèn)證、細(xì)粒度權(quán)限策略、動(dòng)態(tài)權(quán)限調(diào)整等能力,保障數(shù)據(jù)集訪問(wèn)“主體可信、按需分配、動(dòng)態(tài)可控”。利用全鏈路臺(tái)賬與追溯體系打造數(shù)據(jù)集全生命周期“數(shù)字賬本”,構(gòu)建數(shù)據(jù)集“共建—共享—共用”全流程臺(tái)賬體系,通過(guò)記錄數(shù)據(jù)集提供方和接收方、共享時(shí)間、使用場(chǎng)景、操作行為、數(shù)據(jù)集流向等全維度信息,以及全鏈路關(guān)聯(lián)追溯,實(shí)現(xiàn)“數(shù)據(jù)來(lái)源可查、使用去向可追、責(zé)任主全屏障”,利用數(shù)據(jù)脫敏與加密、隱私計(jì)算等技術(shù)能力,在保障數(shù)據(jù)集隱私與安全前提下,實(shí)現(xiàn)數(shù)據(jù)集價(jià)值有效釋放。二是架構(gòu)支撐,形成規(guī)模化層級(jí)化管理體系。通過(guò)“國(guó)家—產(chǎn)業(yè)集群—企業(yè)”三級(jí)互聯(lián)部署架構(gòu),形成規(guī)模化覆蓋、層級(jí)化運(yùn)營(yíng)的可信數(shù)據(jù)空間管理體系,部署架構(gòu)如圖5-2所示。企業(yè)層面,通過(guò)鏈接生產(chǎn)制造、設(shè)備運(yùn)維等數(shù)據(jù)源頭,利用數(shù)據(jù)采集、清洗及標(biāo)注等技術(shù)手段,構(gòu)建高質(zhì)量“數(shù)據(jù)集原材料”;產(chǎn)業(yè)集群層面,聚焦先進(jìn)制造
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 模特崗前安全生產(chǎn)知識(shí)考核試卷含答案
- 特種彈簧制作工班組協(xié)作測(cè)試考核試卷含答案
- 橡膠割膠工安全實(shí)操知識(shí)考核試卷含答案
- 起重工復(fù)試模擬考核試卷含答案
- 冷拉絲工安全理論強(qiáng)化考核試卷含答案
- 刻瓷工崗前個(gè)人技能考核試卷含答案
- 紫膠熱濾工安全風(fēng)險(xiǎn)能力考核試卷含答案
- 醬腌菜制作工崗后考核試卷含答案
- 木竹藤材處理工安全專(zhuān)項(xiàng)知識(shí)考核試卷含答案
- 疫苗菌毒種培育工安全意識(shí)強(qiáng)化考核試卷含答案
- 2025北部灣港集團(tuán)秋季校園招聘筆試歷年備考題庫(kù)附帶答案詳解2套試卷
- 思想道德與法治題庫(kù)及答案2025
- 醫(yī)用面膜產(chǎn)品介紹
- 新員工入職目標(biāo)
- 2025年煤礦安全規(guī)程培訓(xùn)講義
- 萬(wàn)科-建筑方案設(shè)計(jì)任務(wù)書(shū)
- GB/T 46483-2025信息技術(shù)客服型虛擬數(shù)字人通用技術(shù)要求
- 2024河南文物局所屬事業(yè)單位招聘考試真題
- 2025華能云南滇東能源有限責(zé)任公司擬錄用應(yīng)屆畢業(yè)生情況筆試歷年參考題庫(kù)附帶答案詳解(3卷合一)
- DB64∕T 1948-2023 智慧旅游景區(qū)建設(shè)指南
- 民事合同協(xié)議模板5篇(3篇)
評(píng)論
0/150
提交評(píng)論