【量子位】2023中國(guó)AIGC數(shù)據(jù)標(biāo)注產(chǎn)業(yè)全景報(bào)告_第1頁(yè)
【量子位】2023中國(guó)AIGC數(shù)據(jù)標(biāo)注產(chǎn)業(yè)全景報(bào)告_第2頁(yè)
【量子位】2023中國(guó)AIGC數(shù)據(jù)標(biāo)注產(chǎn)業(yè)全景報(bào)告_第3頁(yè)
【量子位】2023中國(guó)AIGC數(shù)據(jù)標(biāo)注產(chǎn)業(yè)全景報(bào)告_第4頁(yè)
【量子位】2023中國(guó)AIGC數(shù)據(jù)標(biāo)注產(chǎn)業(yè)全景報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩47頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

中國(guó)AIGC數(shù)據(jù)標(biāo)注產(chǎn)業(yè)全景報(bào)告數(shù)據(jù)標(biāo)注數(shù)據(jù)標(biāo)注,正迎來關(guān)鍵時(shí)刻。作為AI認(rèn)識(shí)世界的起點(diǎn),數(shù)據(jù)標(biāo)注本質(zhì)上是將現(xiàn)實(shí)世界信大模型時(shí)代到來,AIGC眾多垂直場(chǎng)景落地,以及通用智能、具身智能等前沿領(lǐng)域探索,與高質(zhì)量、與高質(zhì)量、專業(yè)化的場(chǎng)景數(shù)據(jù)密不可分,數(shù)據(jù)標(biāo)注從勞動(dòng)密集型加速朝著知識(shí)密集型轉(zhuǎn)型,行業(yè)壁壘進(jìn)一步提高。作為底層基礎(chǔ)服務(wù),數(shù)據(jù)標(biāo)注貫穿大模型全生命周期(訓(xùn)練測(cè)試、評(píng)估驗(yàn)證和應(yīng)用迭代)。一方面,牽涉關(guān)鍵Know-how,更多大模型公司/AI企業(yè)選擇自建標(biāo)注團(tuán)隊(duì)和管線;另一方面另一方面,上下游合作關(guān)系將更為緊密和耦合,專業(yè)數(shù)據(jù)服務(wù)提供商更多機(jī)會(huì)將在垂直領(lǐng)域,幫助企業(yè)完成私有化部署。機(jī)遇與挑戰(zhàn)并存。合成數(shù)據(jù)作為新衍生賽道,潛在市場(chǎng)空間巨大。與此同時(shí),數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)難以統(tǒng)一、數(shù)據(jù)處理流程尚未規(guī)范,高學(xué)歷多領(lǐng)域多專業(yè)成為標(biāo)注人才的硬指標(biāo)。國(guó)內(nèi)數(shù)據(jù)標(biāo)注廠商,廣義稱之為基礎(chǔ)數(shù)據(jù)服務(wù)提供商,通數(shù)據(jù)標(biāo)注數(shù)據(jù)質(zhì)檢模型訓(xùn)練測(cè)試/驗(yàn)證數(shù)據(jù)清洗數(shù)據(jù)標(biāo)注數(shù)據(jù)質(zhì)檢模型訓(xùn)練測(cè)試/驗(yàn)證數(shù)據(jù)清洗原始數(shù)據(jù)數(shù)據(jù)標(biāo)注中的二八定律通常在一個(gè)AI項(xiàng)目中,數(shù)據(jù)準(zhǔn)備工作需要80%時(shí)長(zhǎng)根據(jù)原始數(shù)據(jù)類型以及訓(xùn)練任務(wù)劃分:上市公司股價(jià)狂飆,創(chuàng)業(yè)公司融資加速大模型數(shù)據(jù)解決方案多處開花,以—站式、定制化服務(wù)為主大模型范式涌入數(shù)據(jù)標(biāo)注,自動(dòng)化標(biāo)注門檻大幅降低證在文本、圖像領(lǐng)域標(biāo)注具有可行性,并衍生出專門做數(shù)據(jù)降低自動(dòng)化標(biāo)注門檻。國(guó)內(nèi)不少數(shù)據(jù)服務(wù)商進(jìn)行相關(guān)大模型智能駕駛新感知范式,BEV+Transformer是機(jī)遇作為最具代表性應(yīng)用場(chǎng)景,智能駕駛迎來新感知范式:以BEV+Transformer為代表的四維感知替代掉2D+CNN為代表的二維感知方案,給數(shù)據(jù)服務(wù)廠商帶來更多機(jī)遇與挑戰(zhàn),包括不限于標(biāo)注場(chǎng)景難度大、數(shù)據(jù)量產(chǎn)能力要求高等。目前國(guó)內(nèi)部分廠商給出了數(shù)據(jù)閉環(huán)工具鏈和1、數(shù)據(jù)標(biāo)注要求從客觀到主觀,很難建立統(tǒng)—標(biāo)準(zhǔn)大模型的開發(fā)范式?jīng)Q定了大模型數(shù)據(jù)標(biāo)注對(duì)自然語言要求要求很高,包括2、高學(xué)歷多領(lǐng)域人才成剛需,缺口或達(dá)百萬3、產(chǎn)業(yè)鏈重構(gòu),大模型公司/AI企業(yè)涌入4、國(guó)內(nèi)百億級(jí)市場(chǎng)規(guī)模,合成數(shù)據(jù)增速最高需求變化:與行業(yè)場(chǎng)景強(qiáng)相關(guān),高質(zhì)量數(shù)據(jù)需求長(zhǎng)期且持續(xù)大模型時(shí)代的到來,正加速推動(dòng)人工智能開發(fā)從以模型為中心朝著以數(shù)據(jù)為中心的方向轉(zhuǎn)變。高質(zhì)量數(shù)據(jù)服務(wù)需求貫穿大模型全生命周期。強(qiáng)化學(xué)習(xí)監(jiān)督微調(diào)強(qiáng)化學(xué)習(xí)監(jiān)督微調(diào)預(yù)訓(xùn)練企業(yè)端客戶需要長(zhǎng)期且持續(xù)的數(shù)據(jù)服務(wù),產(chǎn)業(yè)鏈上下游供應(yīng)處理流程側(cè)變化:標(biāo)準(zhǔn)從客觀到主觀,高學(xué)歷多領(lǐng)域成人才硬指標(biāo)數(shù)據(jù)標(biāo)注從勞動(dòng)密集朝著知識(shí)密集型轉(zhuǎn)變。業(yè)務(wù)變化:合成數(shù)據(jù)成新衍生賽道,潛在市場(chǎng)空間巨大所謂合成數(shù)據(jù),即是用AI生成數(shù)據(jù)而非真實(shí)產(chǎn)生,能夠替代真實(shí)數(shù)據(jù)來訓(xùn)練、測(cè)試和驗(yàn)證大模型。目前主要在自動(dòng)駕駛、機(jī)器人、生物醫(yī)藥等領(lǐng)域應(yīng)用。英偉達(dá)Meta亞馬遜等全球科技巨頭均有相關(guān)布局(投資、收購(gòu)等)。OpenAICEOSamAltman曾放言:未來所有數(shù)據(jù)都將變成合成數(shù)據(jù)。量子位智庫(kù)預(yù)計(jì),合成數(shù)據(jù)將成為未來增速最快賽道,年增長(zhǎng)率可達(dá)45%。合成數(shù)據(jù)的優(yōu)勢(shì)&特點(diǎn)合成數(shù)據(jù)的優(yōu)勢(shì)&特點(diǎn)應(yīng)用場(chǎng)景數(shù)據(jù)增強(qiáng)模型驗(yàn)證可解釋AI自動(dòng)駕駛機(jī)器人生物醫(yī)藥…具身智能…企業(yè)案例多提供室內(nèi)場(chǎng)景數(shù)據(jù)服務(wù)的代表廠商,能針對(duì)不同應(yīng)用場(chǎng)景大模型公司/AI企業(yè)自建數(shù)據(jù)處理管線,對(duì)外輸出大模型數(shù)據(jù)解決方案,傳統(tǒng)產(chǎn)業(yè)鏈重新洗牌。部分廠商還具備云服務(wù)能力,同數(shù)據(jù)服務(wù)打包輸出,更易建立起客戶之間的口碑和信任,具備競(jìng)爭(zhēng)優(yōu)勢(shì)。硬件/云服務(wù)廠商、人力資源廠商百度智能云火山引擎阿里云華為云騰訊云京東云基礎(chǔ)數(shù)據(jù)服務(wù)提供商……百度智能云火山引擎阿里云京東商湯科技毫末智行……數(shù)據(jù)需求方—看技術(shù)能力高質(zhì)量場(chǎng)景數(shù)據(jù)n……高質(zhì)量場(chǎng)景數(shù)據(jù)二看場(chǎng)景資源行業(yè)Know-how*場(chǎng)景專業(yè)人才(領(lǐng)域?qū)<?、深度用戶等)(領(lǐng)域?qū)<?、深度用戶等)三看飛輪效應(yīng)獲得口碑渠道+業(yè)務(wù)量增長(zhǎng)渠道+業(yè)務(wù)量增長(zhǎng)獲客容易獲客容易AIGC數(shù)據(jù)處理能力越強(qiáng)可擴(kuò)展性獲得口碑靈活性更強(qiáng)技術(shù)+場(chǎng)景獲客越容易標(biāo)注經(jīng)驗(yàn) 越豐富標(biāo)注經(jīng)驗(yàn) 越豐富市場(chǎng)競(jìng)爭(zhēng)格局?jǐn)?shù)據(jù)標(biāo)注行業(yè)傳統(tǒng)依靠渠道、人力等形成的低成本競(jìng)爭(zhēng)優(yōu)勢(shì)將被重塑,數(shù)據(jù)需求方將更看重?cái)?shù)據(jù)質(zhì)量、場(chǎng)景多樣性和可擴(kuò)展性?;谝陨显?,量子位智庫(kù)將從數(shù)據(jù)基礎(chǔ)設(shè)施、場(chǎng)景資源兩個(gè)方面來分析目前的業(yè)內(nèi)玩家分布及現(xiàn)狀。第—象限:有技術(shù)有場(chǎng)景的明星公司該象限存在兩種情況:第一種是模型層公司本身有大模積累,可快速輸出數(shù)據(jù)解決方案,與云服務(wù)打包輸出建立信任;術(shù)驅(qū)動(dòng)的明星企業(yè),大部分擁有數(shù)據(jù)閉環(huán)工具鏈,再結(jié)合幾年來第二象限:有強(qiáng)技術(shù)支撐的創(chuàng)業(yè)新勢(shì)力該象限主要聚焦在近兩年創(chuàng)立的創(chuàng)業(yè)公司,主要以自動(dòng)第四象限:場(chǎng)景壁壘更為深厚的行業(yè)玩家該象限著更為深厚的行業(yè)數(shù)據(jù)壁壘,可為下游用戶提供據(jù)標(biāo)注團(tuán)隊(duì),以海天瑞聲為例,不僅是LIama2的唯一中國(guó)伙伴,我國(guó)數(shù)據(jù)標(biāo)注行業(yè)企業(yè)競(jìng)爭(zhēng)格局2233人力標(biāo)注平臺(tái)/工具標(biāo)注知識(shí)密集人力標(biāo)注平臺(tái)/工具標(biāo)注知識(shí)密集人機(jī)協(xié)同關(guān)系進(jìn)一步耦合,人機(jī)協(xié)同關(guān)系進(jìn)一步耦合,人力更多承擔(dān)關(guān)鍵決策角色;市場(chǎng)競(jìng)爭(zhēng)格局趨于以自動(dòng)駕駛為代表人力標(biāo)注無法滿足數(shù)據(jù)需求,自動(dòng)化大量AI數(shù)據(jù)初創(chuàng)公以訓(xùn)練任務(wù)、算法簡(jiǎn)單圖像標(biāo)注為主。產(chǎn)業(yè)鏈重新洗牌,更多企業(yè)參與數(shù)據(jù)標(biāo)注,供應(yīng)合作關(guān)國(guó)內(nèi)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模3503503002023E2028E2030E當(dāng)前,百度智能云升級(jí)大模型數(shù)據(jù)服務(wù)能力,在??谑薪ㄔO(shè)全國(guó)首個(gè) 規(guī)則增強(qiáng) 自動(dòng)分類智能標(biāo)注自動(dòng)質(zhì)檢學(xué)習(xí)SFT大模型能力評(píng)估體系SFT大模型能力評(píng)估體系應(yīng)用產(chǎn)品應(yīng)用產(chǎn)品生態(tài)兼容生態(tài)兼容成本優(yōu)劣對(duì)比數(shù)字化真實(shí)數(shù)據(jù)仿真數(shù)據(jù)算力為主成本低有:高復(fù)用性數(shù)據(jù)集+基于任務(wù)的靈活修改nnn超高性價(jià)比nnn超高性價(jià)比合作成功案例與伙伴星塵COSMO大模型數(shù)據(jù)金字塔解決方案……數(shù)據(jù)采集數(shù)據(jù)存儲(chǔ)數(shù)據(jù)清洗數(shù)據(jù)清洗數(shù)據(jù)采集數(shù)據(jù)存儲(chǔ)數(shù)據(jù)清洗數(shù)據(jù)清洗3層:企業(yè)私有化部署數(shù)據(jù)2層:專有能力數(shù)據(jù)1層:通用能力數(shù)據(jù)0層:公共數(shù)據(jù)四層數(shù)據(jù)結(jié)構(gòu),加速大語言模型構(gòu)建面向垂直行業(yè)大模型AI數(shù)據(jù)解決方案適用于新一代AI工程化數(shù)據(jù)處理工作臺(tái)持續(xù)預(yù)訓(xùn)練下游任務(wù)微調(diào)灰度發(fā)布聯(lián)調(diào)定向垂直場(chǎng)景的數(shù)據(jù)服務(wù)能力基于下游任務(wù)微調(diào)的人機(jī)耦合標(biāo)注能力基于下游任務(wù)微調(diào)的人機(jī)耦合標(biāo)注能力…基于定向垂直領(lǐng)域人員測(cè)試基于定向垂直領(lǐng)域人員測(cè)試系統(tǒng)集成支持特定數(shù)據(jù)回流處理數(shù)據(jù)數(shù)據(jù)回流數(shù)據(jù)推送處理數(shù)據(jù)待處理數(shù)據(jù)任務(wù)創(chuàng)建處理數(shù)據(jù)待處理數(shù)據(jù)任務(wù)創(chuàng)建自動(dòng)駕駛大模型AutopilotGPTAutopilotGPT?意圖評(píng)測(cè)數(shù)據(jù)是標(biāo)注人員A輸出結(jié)果是結(jié)果輸出結(jié)果標(biāo)注人員輸出結(jié)果大模型輸出結(jié)果否自動(dòng)標(biāo)注模型標(biāo)注結(jié)果真實(shí)數(shù)據(jù)自動(dòng)標(biāo)注模型標(biāo)注結(jié)果真實(shí)數(shù)據(jù)仿真數(shù)據(jù)仿真數(shù)據(jù)數(shù)據(jù)集識(shí)別能力對(duì)比數(shù)據(jù)集A數(shù)據(jù)集B數(shù)據(jù)集A數(shù)據(jù)集B

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論