數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展研究報(bào)告(2025年)_第1頁
數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展研究報(bào)告(2025年)_第2頁
數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展研究報(bào)告(2025年)_第3頁
數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展研究報(bào)告(2025年)_第4頁
數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展研究報(bào)告(2025年)_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

前202412目一、數(shù)據(jù)標(biāo)注產(chǎn)業(yè)總體概 (一)數(shù)據(jù)標(biāo)注定義范 (二)數(shù)據(jù)標(biāo)注方式類 (三)數(shù)據(jù)標(biāo)注服務(wù)模 (四)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)結(jié) (五)數(shù)據(jù)標(biāo)注發(fā)展意 二、數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展現(xiàn)狀和機(jī) (二)大模型蓬勃發(fā)展帶來新的數(shù)據(jù)標(biāo)注需 (三)數(shù)據(jù)標(biāo)注行業(yè)與市場蓬勃發(fā) 三、數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展核心要素與實(shí) (一)技術(shù)創(chuàng) (二)行業(yè)賦 (三)生態(tài)培 (四)標(biāo)準(zhǔn)應(yīng) (五)人才培 (六)安全保 四、數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展趨 (一)高技術(shù)含 (二)高知識(shí)密 (三)高價(jià)值應(yīng) 五、推動(dòng)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展的建 (一)不斷加強(qiáng)數(shù)據(jù)標(biāo)注技術(shù)創(chuàng)新能 (二)持續(xù)提升數(shù)據(jù)標(biāo)注行業(yè)賦能水 (三)積極完善數(shù)據(jù)標(biāo)注生態(tài)體 (四)大力推動(dòng)數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)編制和應(yīng) (五)著重強(qiáng)化數(shù)據(jù)標(biāo)注人才培養(yǎng)力 (六)切實(shí)保障數(shù)據(jù)安全可 圖1廣義的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)定 圖2數(shù)據(jù)標(biāo)注產(chǎn)業(yè)鏈情 圖3大模型數(shù)據(jù)需求海量增 圖4大模型的各類型訓(xùn)練數(shù)據(jù)投入構(gòu) 圖5大模型的訓(xùn)練數(shù)據(jù)來源構(gòu) 圖6數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展聚焦六大核心任 圖7多模態(tài)數(shù)據(jù)智能標(biāo)注平臺(tái)總體架 圖8醫(yī)學(xué)影像智能數(shù)據(jù)標(biāo)注解決方 圖9數(shù)據(jù)生態(tài)中心架 圖10高質(zhì)量數(shù)據(jù)集數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)體 圖11數(shù)據(jù)標(biāo)注產(chǎn)教融合實(shí)訓(xùn)平臺(tái)設(shè) 附圖1人工智能數(shù)據(jù)標(biāo)注產(chǎn)業(yè)圖譜(2024年 表1數(shù)據(jù)標(biāo)注類 附表1國家層面關(guān)于數(shù)據(jù)標(biāo)注相關(guān)政策文 附表2地方層面數(shù)據(jù)標(biāo)注相關(guān)產(chǎn)業(yè)發(fā)展政 附表3七個(gè)數(shù)據(jù)標(biāo)注基地相關(guān)產(chǎn)業(yè)發(fā)展政 數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展研究報(bào)告(2025數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展研究報(bào)告(2025年語音識(shí)別、語音分割、語音情感分析等)3D點(diǎn)云標(biāo)注(3D點(diǎn)圖13D點(diǎn)云標(biāo)注。1文本標(biāo)注是對(duì)文本進(jìn)行機(jī)器更加深入地理解人圖像標(biāo)注是將標(biāo)簽附加給整個(gè)圖像添加一個(gè)標(biāo)每一組像素分別添加多OCR轉(zhuǎn)寫等語音標(biāo)注是指將語音中視頻標(biāo)注以圖片幀為單3D3D框?qū)⒛繕?biāo)3D3D3D3D具身智能等領(lǐng)域所需的置)2所示。圖2

(??)例如,自動(dòng)駕駛領(lǐng)域?qū)Φ缆肺矬w(信號(hào)燈、行人)CT從“潛在資源”向“可交易資產(chǎn)”數(shù)據(jù)標(biāo)注成為人工智能技術(shù)應(yīng)用的核心支撐。工智能系統(tǒng)提供“學(xué)習(xí)樣本”數(shù)據(jù)標(biāo)注成為數(shù)據(jù)要素與人工智能融合的創(chuàng)新加速器。據(jù)標(biāo)注串聯(lián)起資源方、技術(shù)方與應(yīng)用方。例如,公共數(shù)據(jù)平臺(tái)(城市交通攝像頭數(shù)據(jù))業(yè),形成“數(shù)據(jù)采集-標(biāo)注加工-模型訓(xùn)練-場景應(yīng)用”共同夯實(shí)產(chǎn)業(yè)基礎(chǔ)。標(biāo)準(zhǔn)應(yīng)用機(jī)構(gòu)制定的標(biāo)注規(guī)范(ISO/IEC30%數(shù)據(jù)標(biāo)注產(chǎn)業(yè)在AI技術(shù)推動(dòng)下快速發(fā)展,市場規(guī)模不斷擴(kuò)大,要性和緊迫性,并列舉了數(shù)據(jù)標(biāo)注的多個(gè)關(guān)鍵處理流程。20177發(fā)展產(chǎn)生廣闊的市場需求和技術(shù)創(chuàng)新動(dòng)力。20221月,國務(wù)院印二是產(chǎn)業(yè)布局階段。為加快推動(dòng)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展,20241日,全國數(shù)據(jù)工作會(huì)議提出“探索建設(shè)數(shù)據(jù)標(biāo)注基地”。國家數(shù)202412272”24年904年10標(biāo)準(zhǔn)化技術(shù)委員會(huì)(C69)獲批成立,以加快語料領(lǐng)域標(biāo)準(zhǔn)24年4個(gè)部門聯(lián)合印發(fā)《加快數(shù)字人才培育支撐數(shù)字經(jīng)濟(jì)發(fā)展行動(dòng)方案20241022日、2025182025320202562818日-20日,數(shù)據(jù)標(biāo)注基地先行先試現(xiàn)場會(huì)在四川省成都市召開,人才是數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展的關(guān)鍵要素。20252月,保定市印24年224-6年)》,計(jì)劃通過“數(shù)標(biāo)擴(kuò)容行動(dòng)”,以建設(shè)國家級(jí)數(shù)據(jù)標(biāo)注基地為24年1“全”0620B810將全力發(fā)展以AI20241220日公布了首批省級(jí)數(shù)據(jù)標(biāo)注基地建設(shè)先行先試城各地方把數(shù)據(jù)安全作為數(shù)2925》在相關(guān)政策文件中明確提出“提升本市人工智能數(shù)據(jù)標(biāo)注庫規(guī)模和質(zhì)量”,將“加強(qiáng)大模型訓(xùn)練數(shù)據(jù)采集及治理工具研發(fā)、數(shù)據(jù)清洗、圖32018年OpenAIGPT-14.6GB2025年Qwen2.5Max20萬億tokens1.42023年GooglePaLM23.6萬億tokensGoogleGemini3.3萬億tokens。2024年MetaLIama3大模15萬億tokens。練所需的原始數(shù)據(jù)規(guī)模通常在TBTB之間,但在訓(xùn)練之前,需將文本等原始數(shù)據(jù)進(jìn)行token化處理。例如,20244月開源的Llama315Ttoken,是Llama27倍。ChatGPTClaudeLlama和Mistral圖4

圖5

已采用“交叉驗(yàn)證+AI質(zhì)檢”混合模式,且建立動(dòng)態(tài)反饋閉環(huán)優(yōu)化標(biāo)3-5倍。其次,建立全鏈路數(shù)據(jù)治理體系,包含版本控制、過建立數(shù)據(jù)質(zhì)量KPI看板,實(shí)時(shí)監(jiān)控標(biāo)注一致性指標(biāo)、專家復(fù)核通GDPR、網(wǎng)絡(luò)安全法等法規(guī)要求,部DeepSeek-R1模型在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù)。據(jù)的精準(zhǔn)和高效。DeepSeek開啟了數(shù)據(jù)標(biāo)注的以下三個(gè)新范式:自動(dòng)生成高質(zhì)量數(shù)據(jù)集減少傳統(tǒng)數(shù)據(jù)標(biāo)注需求。DeepSeek模型數(shù)據(jù)蒸餾+人類協(xié)同技術(shù)提升數(shù)據(jù)標(biāo)注質(zhì)量和效率。eepek強(qiáng)化學(xué)習(xí)新范式聚焦高質(zhì)量推理型數(shù)據(jù)集。DeepSeek聚焦高質(zhì)600k200k的非推2010年以后,隨著人3D點(diǎn)云進(jìn)行標(biāo)注,年澳鵬(Appen)誕生并布局?jǐn)?shù)據(jù)服務(wù)領(lǐng)域業(yè)務(wù)。2007目,該項(xiàng)目要通過亞馬遜的勞務(wù)眾包平MechanicalTurk(AMT)來Scale人工智能、Mighty人工智能、Mturk、Supervise.ly等;歐洲地區(qū)代表性企業(yè)有MindySupport等,但近些年歐洲地區(qū)的數(shù)據(jù)標(biāo)注企業(yè)逐漸將業(yè)務(wù)轉(zhuǎn)業(yè)有海天瑞聲(Speechocean)、澳鵬、Infolks、iMerit等。中國地20231123家,呈現(xiàn)出井噴17282TB652429PB163個(gè)。2過搭建高效的標(biāo)注平、培訓(xùn)專業(yè)團(tuán)隊(duì)、利用自動(dòng)化工具、實(shí)施數(shù)圖6127524四是數(shù)據(jù)預(yù)處理技術(shù)。案例1案例1AI訓(xùn)練數(shù)據(jù)方面的技術(shù)壟注與管理平。圖7多模態(tài)數(shù)據(jù)智能標(biāo)注 總體架公共安全領(lǐng)域。案例2案例2MISM據(jù)依賴國外數(shù)據(jù)源的瓶頸。多模態(tài)醫(yī)學(xué)影像數(shù)據(jù)標(biāo)注平取得突破,完成醫(yī)學(xué)圖8展、平支持等方面的賦能,加快下游產(chǎn)業(yè)應(yīng)用盡快落地,將歷史案例3案例3N個(gè)頭部數(shù)據(jù)企業(yè)/數(shù)據(jù)標(biāo)注基地多頭并進(jìn),系統(tǒng)性推進(jìn)以大模型精標(biāo)數(shù)據(jù)為特色的數(shù)據(jù)產(chǎn)業(yè)發(fā)展。通過創(chuàng)新開展“地方政府+國家智庫+AI企業(yè)”三方AI企業(yè)提供大模型數(shù)據(jù)精標(biāo)指導(dǎo)與大模型應(yīng)用落地能力,打通數(shù)據(jù)9建立產(chǎn)業(yè)標(biāo)準(zhǔn)信息服務(wù)平,提高標(biāo)準(zhǔn)的透明度和適用性。數(shù)據(jù)標(biāo)注安全與隱私保護(hù)標(biāo)準(zhǔn)、標(biāo)注工具與平標(biāo)準(zhǔn)、標(biāo)注流程與指標(biāo)設(shè)計(jì),平開發(fā),案例打造等核心組成部分。開展標(biāo)注數(shù)據(jù)的案例44(征求意見稿(征求意見稿)(征求意見稿)》、《高質(zhì)量數(shù)據(jù)集質(zhì)量評(píng)測規(guī)范(征求意見稿)》。在數(shù)據(jù)標(biāo)圖10(??)秀人才投身產(chǎn)業(yè)發(fā)展,保持行業(yè)活力和平競爭力。案例5案例5圖圖11數(shù)據(jù)標(biāo)注產(chǎn)教融合實(shí)訓(xùn) 設(shè)二是數(shù)據(jù)加密與訪問控制。完善,高水平人才供不應(yīng)求,技術(shù)創(chuàng)新能力有待提升,專業(yè)平能數(shù)據(jù)標(biāo)注平臺(tái)能力加速發(fā)展。務(wù)業(yè)均建了數(shù)據(jù)理平和工具企業(yè)質(zhì)量數(shù)集平處理力以及心數(shù)據(jù)理技顯著提,標(biāo)平的靠性提,平具,注需求。目前,數(shù)據(jù)標(biāo)注平的信創(chuàng)國產(chǎn)化水平顯著提升,采用國產(chǎn)硬件、操作系統(tǒng)、數(shù)據(jù)庫等先進(jìn)技術(shù),提升平的整體性能和穩(wěn)從業(yè)者素質(zhì)要求的提升。人才培養(yǎng)與職業(yè)發(fā)展的專業(yè)化。(??)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展研究報(bào)告(2025年附圖1人工智能數(shù)據(jù)標(biāo)注產(chǎn)業(yè)圖譜(2024年

1(2024—026年(續(xù)表)(續(xù)表)12通過龍頭企業(yè)“數(shù)字領(lǐng)航”開展2025年組織開展2025年全省數(shù)據(jù)要素市場化配置“六新”(續(xù)表)(續(xù)表)2方案明確實(shí)施“333”“光谷”“車谷”“網(wǎng)谷”(2023—25年)核心領(lǐng)域。目標(biāo)包括建設(shè)1-2家全國重點(diǎn)實(shí)驗(yàn)室,打造5家以上省級(jí)創(chuàng)新平,培育30家以上有影響力的人工智能高新技術(shù)企業(yè),100家以上專精特新“小巨人”5500等領(lǐng)域,實(shí)施六大行動(dòng),加快關(guān)鍵要素協(xié)同服務(wù)平,推進(jìn)公共服務(wù)數(shù)據(jù)資源統(tǒng)一匯平。建立數(shù)據(jù)共享交換監(jiān)管制度,強(qiáng)(2021—25年)(2024—26年)(2024—25年)地,《關(guān)于推動(dòng)生產(chǎn)性服務(wù)領(lǐng)域平經(jīng)濟(jì)健康發(fā)展企業(yè)向?qū)I(yè)化、工程化、平化發(fā)展。重企業(yè)在津落戶,開展數(shù)據(jù)標(biāo)注、數(shù)據(jù)分202710家數(shù)據(jù)服務(wù)領(lǐng)域平企業(yè)3案還提出打造研發(fā)一體化智能標(biāo)注平,(目)補(bǔ)貼、稅收減免、基礎(chǔ)設(shè)施配套等在內(nèi)的多同時(shí),保定市將數(shù)據(jù)標(biāo)注職業(yè)納入政府補(bǔ)貼性職業(yè)技能培訓(xùn)項(xiàng)目指導(dǎo)目錄,支持企業(yè)開標(biāo)注實(shí)訓(xùn)平和一體化智能標(biāo)注平,提(續(xù)表)(續(xù)表)3推進(jìn)數(shù)據(jù)要素市場化改革,探索建立有利于數(shù)據(jù)安全保護(hù)、有效利用、合規(guī)流通、價(jià)值釋放的數(shù)據(jù)制度和市場環(huán)境,提升數(shù)據(jù)要素服務(wù)經(jīng)濟(jì)社會(huì)發(fā)展能力。主要內(nèi)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論