版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
-QualityDatasets一、央企高質(zhì)量數(shù)據(jù)集建設背景 (一)發(fā)展趨勢 (二)政策驅(qū)動 2二、央企高質(zhì)量數(shù)據(jù)集建設問題和挑戰(zhàn) (一)數(shù)據(jù)集建設 (二)數(shù)據(jù)集運營 (三)基礎保障體系 (一)智慧能源 26(三)綠色低碳 30 32 35(六)現(xiàn)代農(nóng)業(yè) 37(七)移動通信 40(八)應急管理 46 48(一)現(xiàn)狀評估 48(二)核心發(fā)現(xiàn) 49(三)未來建議 1一、央企高質(zhì)量數(shù)據(jù)集建設背景務院國資委圍繞實施央企“人工智能+”行動和產(chǎn)業(yè)煥新行動,將高質(zhì)量數(shù)據(jù)集建設作為提升中央企業(yè)智能化能力和核心競爭力的重要驅(qū)動下,央企高質(zhì)量數(shù)據(jù)集建設逐步進入系統(tǒng)性推進時期。(一)發(fā)展趨勢:行業(yè)智能化轉(zhuǎn)型依賴高質(zhì)量數(shù)據(jù)集依賴零散數(shù)據(jù)或業(yè)務系統(tǒng)數(shù)據(jù)已難以支撐復雜模型訓練和規(guī)?;瘧?而滿足人工智能模型對大規(guī)模、高質(zhì)量訓練數(shù)據(jù)集的需求。經(jīng)在很大程度上決定了央企智能化轉(zhuǎn)型的深度和質(zhì)量。(二)政策驅(qū)動:全面支持高質(zhì)量數(shù)據(jù)集建設—3策依據(jù)。2025年,圍繞“人工智能+”行動和數(shù)字中國建設,國家層面關鍵要素,推動高質(zhì)量數(shù)據(jù)集加速向行業(yè)、場景建設。發(fā)布時間政策名稱相關內(nèi)容《政務領指引》委部綜合考慮場景應用需求必要性、技術可行4發(fā)布時間政策名稱相關內(nèi)容局“積極開展人工智能高質(zhì)量數(shù)據(jù)集建設”門部要構建集成數(shù)據(jù)采集、存儲、清洗、標注、具平臺,提升數(shù)據(jù)加工效率和保證數(shù)據(jù)質(zhì)門要素×”底座,建設高質(zhì)量語料庫和基礎科學數(shù)據(jù)5發(fā)布時間政策名稱相關內(nèi)容(2024—《生成式門成式人工智能技術研發(fā)過程中進行數(shù)據(jù)標6二、央企高質(zhì)量數(shù)據(jù)集建設問題和挑戰(zhàn)體系,影響高質(zhì)量數(shù)據(jù)集的持續(xù)建設。7多達數(shù)十套,各系統(tǒng)的數(shù)據(jù)標準和技術接口均不統(tǒng)一。等過程難以追溯、驗證和迭代。數(shù)據(jù)處理方面,缺乏面向非結(jié)構化、貫穿于采集、處理、標注等各階段,導致系統(tǒng)無法實現(xiàn)對采集偏差、標注錯誤、樣本分布失衡等問題的即時發(fā)現(xiàn)與修正。據(jù)即服務”為核心的商業(yè)模式,數(shù)據(jù)產(chǎn)品供給形式單一、價值實現(xiàn)路徑模糊,進一步阻礙了高質(zhì)量數(shù)據(jù)集的服務化推廣和產(chǎn)業(yè)化落地。8三、央企高質(zhì)量數(shù)據(jù)集實踐分析注:關于具體建設內(nèi)容與實施路徑歡迎讀者與編寫組聯(lián)系探討,聯(lián)系人:白玉企業(yè)以場景為牽引,梳理行業(yè)數(shù)據(jù)資源,以形成一批產(chǎn)業(yè)亟需、量管理和數(shù)據(jù)交付六部分能力。9模態(tài)和規(guī)模。從實踐情況來看,數(shù)據(jù)需求正由以部門單點提出效提高數(shù)據(jù)集與模型訓練、業(yè)務驗證之間的匹配度。確哪些數(shù)據(jù)需要采集和補充,進而獲取分散在不同系統(tǒng)、不同環(huán)節(jié)、不同載體中的數(shù)據(jù)。從實踐情況來看,央企數(shù)據(jù)采集來源較為廣泛。既包括業(yè)務系統(tǒng)內(nèi)的各類模態(tài)的數(shù)據(jù)資源,也包括采買的數(shù)據(jù)產(chǎn)品、據(jù)采集逐步形成“面向場景取數(shù)”“內(nèi)部資源匯聚”“多源多模態(tài)”部分央企開始優(yōu)化技術架構,打通建設全流程。針對結(jié)構化、時序、圖像等不同類型的數(shù)據(jù),研發(fā)覆蓋全流程的工具鏈,開發(fā)格式轉(zhuǎn)換、場景適配和處理結(jié)果可解釋性等方面仍需持續(xù)完善。專業(yè)經(jīng)驗轉(zhuǎn)化為模型可學習知識,標注的質(zhì)量直接影響數(shù)據(jù)集質(zhì)量。續(xù)沉淀專業(yè)知識,增強跨項目復用能力。關鍵環(huán)節(jié)。從實踐情況來看,當前數(shù)據(jù)交付仍以企業(yè)內(nèi)部使用為主。流通使用延伸。而降低數(shù)據(jù)集使用門檻,避免數(shù)據(jù)集重復建設。隨著央企AI應用場或重構提供依據(jù)。整體來看,央企在運營監(jiān)控方面構建全面的運營監(jiān)控指標體系,增強運營監(jiān)控能力。界、使用規(guī)則和協(xié)作方式,實現(xiàn)數(shù)據(jù)集有序流通和價值放基礎。從實踐情況來看,高質(zhì)量數(shù)據(jù)集建設已不再局限于單個團隊,條線或?qū)I(yè)單位,由熟悉業(yè)務場景和數(shù)據(jù)特性的團隊承擔,形成“集團統(tǒng)籌規(guī)劃、企業(yè)分工建設”的協(xié)同格局。例如,某交通行業(yè)央企構成專業(yè)的統(tǒng)籌、業(yè)務、數(shù)字化、人工智能團隊。二是人才培養(yǎng)方面,隊的協(xié)同機制等方面,仍需要在實踐中不斷優(yōu)化。建關鍵性的制度、機制和標準。和運營工作穩(wěn)定有序開展的重要基礎支撐條件。數(shù)據(jù)資源基礎,將數(shù)據(jù)集建設嵌入生產(chǎn)運行和管理流程之中。首先,央企在資源整合、標準牽頭和生態(tài)組織方面的優(yōu)勢,通過集團統(tǒng)籌、分批建設的方式推進數(shù)據(jù)集規(guī)?;瘶嫿?。然后,夯實技術支撐能力,用和迭代,并逐步向行業(yè)協(xié)作和生態(tài)共建拓展。四、央企高質(zhì)量數(shù)據(jù)集建設案例一步總結(jié)央企高質(zhì)量數(shù)據(jù)集建設的特點與經(jīng)驗。序號所屬行業(yè)單位名稱數(shù)據(jù)集名稱1司2345集678集9信息通信領域高質(zhì)量數(shù)據(jù)集(一)智慧能源下面以中國石油天然氣集團有限公司的中國石油油氣地震勘探地震數(shù)據(jù)標注的工作量巨大,同時專業(yè)數(shù)據(jù)的標注需要很強的專家經(jīng)不斷擴大,亟需構建行業(yè)高質(zhì)量數(shù)據(jù)集,提升垂直領域AI算法模型性制,面向油氣管道保護核心業(yè)務場景,開發(fā)了5個高質(zhì)量數(shù)據(jù)集,有效將多標注效率提升40%以上。實行“雙人標注+專家抽檢”機制,關鍵場景一致率要求≥95%。建立動態(tài)反饋閉環(huán):將模型誤檢、漏檢定位IoU0.88、地質(zhì)災害預警提前量API調(diào)用與批量下載。模型驗證與數(shù)據(jù)更新、規(guī)則更新形成閉環(huán),及時修正為確保用于模型訓練與分析的樣本數(shù)據(jù)具備高度的準確性與業(yè)務符合注任務定義->智能模型預標注->專家審核與修正->標注結(jié)果反饋學習->模材料金相組織圖片數(shù)據(jù)集為例進行介紹。),智能駕駛技術的快速發(fā)展依賴于高質(zhì)量的數(shù)據(jù)集,用于訓練和驗證感),車輛違規(guī)變道、惡劣天氣等邊緣場景用例,同時,還可利用仿真工具(如:本方案依托圖商專屬合規(guī)云實現(xiàn)數(shù)據(jù)存儲,滿足數(shù)據(jù)審核及監(jiān)管要求。區(qū)域真值生產(chǎn)。通過離線大模型預標注真值,再人工100%審核修正,大幅本方案的數(shù)據(jù)多樣性使目標檢測模型在復雜城市場景的準確率提升2.智駕產(chǎn)品商業(yè)化落地需求涵蓋光學顯微鏡(OM)和掃描電子顯微鏡(SEM)圖像,要求格式統(tǒng)種工藝狀態(tài),并通過均衡采樣保證數(shù)據(jù)代表性。元數(shù)據(jù)管理包括采集時間、用非局部均值濾波消除荷電效應偽影,OM圖像采用中值濾波(kernel晶界標注等特殊情況。標注流程創(chuàng)新采用“人工初標-模型預標-專家矯正”耗時從312人天降至4天;社會發(fā)展全面綠色轉(zhuǎn)型的重要驅(qū)動力。“十四五”以來,“數(shù)字化”碳數(shù)據(jù)是依托5G、物聯(lián)網(wǎng)、云計算、人工智能、區(qū)塊鏈等大數(shù)據(jù)技以中節(jié)能大數(shù)據(jù)有限公司的企業(yè)遠程非現(xiàn)場執(zhí)法數(shù)據(jù)集為例進行介理數(shù)據(jù)取自環(huán)保設施運行監(jiān)控設備,包括廢水廢緣計算技術實現(xiàn)數(shù)據(jù)實時傳輸,確保采集時效性值(單企業(yè)單日有效數(shù)據(jù)占比≥90%)。建管由“人海戰(zhàn)術”向“智慧監(jiān)管”轉(zhuǎn)型。交通物流行業(yè)數(shù)據(jù)資源呈現(xiàn)出“體量大、類型多、時效強、增長快”的特征,細分領域涵蓋交通流量、路網(wǎng)結(jié)構、運力調(diào)度、運輸狀施多模態(tài)三維構件數(shù)據(jù)集為例進行介紹。為系統(tǒng)性破解傳統(tǒng)交通基建全生命周期數(shù)字化轉(zhuǎn)型中的信息壁壘與數(shù)模層、數(shù)據(jù)應用層,以及貫穿全流程的數(shù)據(jù)質(zhì)量控制層和模型閉環(huán)迭代層的優(yōu)化和場景落地。的三維構件分類算法,將構件審核效率從傳統(tǒng)人工審核的數(shù)天縮短至數(shù)小上,較傳統(tǒng)人工標注效率提升超3倍,支在醫(yī)療行業(yè)的疾病篩查、臨床診斷與疾病預測等核心場景中,高質(zhì)量數(shù)據(jù)集已成為推動智能化落地的關鍵基礎,下面以中國聯(lián)合網(wǎng)絡通信集團有限公司的肺結(jié)核影像精標注高質(zhì)量數(shù)據(jù)集為例進行依賴臨床癥狀、實驗室檢查以及影像學檢查等數(shù)據(jù)集建設依托國內(nèi)結(jié)核病學科排名第一的首都醫(yī)科大學附屬北京胸有一支影像學和結(jié)核病專家隊伍。胸部CT影像肺結(jié)核數(shù)據(jù)集使用的臨床胸整性、圖像內(nèi)容的合理性等,不符合DICOM標準的圖像、破損或無法讀?。?,第一階段,組織影像學領域?qū)<裔槍Ψ谓Y(jié)核患者胸部CT影像的基本病征象,構建17個自定義語義標簽,使用醫(yī)學專業(yè)3DSlicer軟件在前期完成種植業(yè)、養(yǎng)殖業(yè)、農(nóng)產(chǎn)品加工、農(nóng)業(yè)機械裝備制造等多個細分領域。技有限公司的農(nóng)業(yè)機械及作業(yè)高質(zhì)量數(shù)據(jù)集為例進行介紹。駛和精準作業(yè)技術快速發(fā)展,農(nóng)機裝備在運行過程中持續(xù)產(chǎn)生海量多源數(shù)注體系缺失、數(shù)據(jù)質(zhì)量參差不齊、難以支撐算法訓練和規(guī)?;瘧玫葐栴}。對推動農(nóng)機裝備智能化、農(nóng)業(yè)生產(chǎn)數(shù)字化和行業(yè)高質(zhì)量發(fā)展具有重要意義。數(shù)據(jù)采集依托智能農(nóng)機作業(yè)示范區(qū)和規(guī)模化生產(chǎn)場景,通過車載終2.社會價值與行業(yè)影響速度最快的行業(yè)之一。隨著5G、物聯(lián)網(wǎng)和即將到來的6G通信,移動通信行業(yè)數(shù)據(jù)不僅可服務于大眾通信需求,還延伸至工業(yè)互聯(lián)網(wǎng)、面以中國移動通信集團有限公司的中國移動人時空三元組高質(zhì)量數(shù)據(jù)集、中國電信集團有限公司的通信行業(yè)網(wǎng)絡大模型高質(zhì)量數(shù)據(jù)集、中國聯(lián)合網(wǎng)絡通信集團有限公司的信息通信領域高質(zhì)量數(shù)據(jù)集為例中國移動十億級手機用戶和百萬級通信基站產(chǎn)生的信令數(shù)據(jù)蘊含了大規(guī)模人群7×24小時連續(xù)的時空活動信息,具有“大樣本、全過程、廣覆蓋”出行軌跡與人地交互關系且具備豐富活動語義標簽的高質(zhì)量人時空三元組—評估—反饋”閉環(huán)。提出集團+省多級協(xié)同機制,通過職責分工、質(zhì)量追二是全生命周期管理模式創(chuàng)新。建立“規(guī)劃-采集加工-應用-評估”啟明知識管理平臺應用覆蓋集團+31個省份,建成5大類數(shù)據(jù)集,包括識圖譜數(shù)據(jù),支撐數(shù)十類云網(wǎng)AI助手與數(shù)字員工構建數(shù)百場景網(wǎng)絡大模型高質(zhì)量數(shù)據(jù)集構建方法與數(shù)據(jù)標注等能力成功輸出給某工量達53.5TB,質(zhì)檢合規(guī)率超98%,在-質(zhì)檢-應用-評估”的端到端多模態(tài)一站式數(shù)據(jù)生產(chǎn)流水線,自研43項智能數(shù)據(jù)處理算子、26項智能標注能力,依托AI智能工具集與標準化處理,實的數(shù)據(jù)供給,整體提升模型訓練效率50%。),4.多維度標準化數(shù)據(jù)質(zhì)檢體系建立“標注-稽核-評估”三級聯(lián)動質(zhì)檢機家在線校驗,形成六個基礎維度和十個個性存預測,按需分析終端日志,通訊終端問題響應速率提升20%;應急管理行業(yè)是國家安全體系和社會治理體有限公司的大型石油儲罐火災救援數(shù)據(jù)集為例進行介紹。消防規(guī)范數(shù)據(jù)訓練應急裝備大模型,實現(xiàn)裝備參數(shù)、操作規(guī)范的精準問答;的建設經(jīng)驗可復用于化工儲罐、天然氣儲備庫等高危險設施的應急裝備研五、主要結(jié)論及未來展望智能+”行動和數(shù)據(jù)要素等相關政策推動下,央企高質(zhì)量數(shù)據(jù)集建設為支撐全行業(yè)協(xié)同創(chuàng)新的基礎性資源。(一)現(xiàn)狀評估:成效顯著,但深層次矛盾亟待破解共識基本形成,企業(yè)已明確將數(shù)據(jù)集作為AI時代的核心戰(zhàn)略資產(chǎn)。流程,并逐步完善質(zhì)量評估流程和指標體系。用”走向“共用”的深層次矛盾依然突出:偏高、周期較長、質(zhì)量不穩(wěn)定等突出問題。三是項目制思維阻礙發(fā)展。數(shù)據(jù)集建設多依附于特定AI項目,制定和組織協(xié)調(diào)等方面的制度性優(yōu)勢難以有效發(fā)揮。(二)核心發(fā)現(xiàn):央企高質(zhì)量數(shù)據(jù)集建設的關鍵要素估等環(huán)節(jié)流程化、自動化和智能化,并逐步完善質(zhì)量評估指標體系。數(shù)據(jù)集建設過程的質(zhì)量、安全等各類管理制度和機制構建?;诎咐龑嵺`,報告總結(jié)出央企建設高質(zhì)量數(shù)據(jù)集的關鍵要素:功案例均始于明確的業(yè)務痛點(如管道安全風險、勘探效率低等二是構建“專家知識+智能工具”人機協(xié)同
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 社區(qū)員工培訓制度
- 板式家具廠安全培訓制度
- 創(chuàng)業(yè)培訓教學管理制度
- 2026年中企耘鮮(浙江)冷鏈科技有限公司招聘筆試備考題庫及答案解析
- 校園食堂培訓制度
- 衛(wèi)生院住院醫(yī)師培訓制度
- 民辦培訓教職工聘任制度
- 2026陸軍軍醫(yī)大學第二附屬醫(yī)院(重慶新橋醫(yī)院)心血管內(nèi)科人才引進與招聘筆試備考題庫及答案解析
- 無砟軌道質(zhì)量檢查及驗收制度
- 計劃外培訓獎勵制度
- 體檢中心外科檢查
- 中緬邊境景頗克欽族:社會經(jīng)濟的歷史、現(xiàn)狀與發(fā)展路徑探究
- 深圳市鹽田區(qū)2025年數(shù)學六上期末綜合測試試題含解析
- DB5203∕T 38-2023 特色酒莊旅游服務等級劃分與評定
- 四川省成都市嘉祥外國語學校2024-2025學年七年級數(shù)學第一學期期末學業(yè)質(zhì)量監(jiān)測試題含解析
- 華為客戶分級管理制度
- 雙向轉(zhuǎn)診職責與患者體驗提升
- 2025年中考道德與法治三輪沖刺:主觀題常用答題術語速查寶典
- 2025屆北京豐臺區(qū)高三二模高考語文試卷試題(含答案詳解)
- 《四川省普通國省道養(yǎng)護預算編制辦法》及配套定額解讀2025
- 論語的測試題及答案
評論
0/150
提交評論