版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
黨的十八大以來,以習(xí)近平同志為核心的黨中央高度重視我國新一代人工智能發(fā)展。習(xí)近平總書記深刻把握世界科技發(fā)展大勢,洞察“人工智能作為引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略性技術(shù),深刻改變?nèi)祟惿a(chǎn)生活方式?!薄拔覈鴶?shù)據(jù)資源豐富,產(chǎn)業(yè)體系完備,應(yīng)用場景廣闊,市場空間巨大。”這為把握智能化浪潮,釋放數(shù)據(jù)要素價值指明了前進方向,提供了根本遵循。工智能高質(zhì)量數(shù)據(jù)集建設(shè),夯實人工智能發(fā)展數(shù)據(jù)基礎(chǔ),對于推動中國電子技術(shù)標準化研究院、國家信息中心、國家發(fā)展和改革委員會創(chuàng)新驅(qū)動發(fā)展中心、中國電子信息產(chǎn)業(yè)發(fā)展研究院等單位,在充分調(diào)研的基礎(chǔ)上,編制《高質(zhì)量數(shù)據(jù)集建設(shè)指引》,總結(jié)高質(zhì)量數(shù)據(jù)集建設(shè)方法論,指導(dǎo)推進高質(zhì)量數(shù)據(jù)集建設(shè),力爭為人工智能縱深發(fā)展提供有力支撐。 一、高質(zhì)量數(shù)據(jù)集建設(shè)背 (一)高質(zhì)量數(shù)據(jù)集的發(fā)展背 (二)高質(zhì)量數(shù)據(jù)集的概念內(nèi) (三)高質(zhì)量數(shù)據(jù)集的分 二、高質(zhì)量數(shù)據(jù)集應(yīng)用需 (一)基礎(chǔ)認知層數(shù)據(jù)集需求——建立世界的基本認 (二)場景理解層數(shù)據(jù)集需求——解析復(fù)雜場景關(guān) (三)行動規(guī)劃層數(shù)據(jù)集需求——規(guī)劃執(zhí)行具體行 三、高質(zhì)量數(shù)據(jù)集建設(shè)現(xiàn) (一)全球高質(zhì)量數(shù)據(jù)集建設(shè)現(xiàn) (二)我國高質(zhì)量數(shù)據(jù)集建設(shè)現(xiàn) (三)高質(zhì)量數(shù)據(jù)集建設(shè)困難與挑 四、高質(zhì)量數(shù)據(jù)集建設(shè)方法與實 (一)典型建設(shè)模 (二)建設(shè)核心環(huán) (三)建設(shè)核心技 (四)數(shù)據(jù)集質(zhì)量評 五、高質(zhì)量數(shù)據(jù)集建設(shè)運營體 (一)高質(zhì)量數(shù)據(jù)集體系規(guī) (二)高質(zhì)量數(shù)據(jù)集工程建 (三)高質(zhì)量數(shù)據(jù)集運營管 六、高質(zhì)量數(shù)據(jù)集建設(shè)推進思 (一)體系化布局高質(zhì)量數(shù)據(jù)集建 (二)設(shè)施化推進高質(zhì)量數(shù)據(jù)集應(yīng) (三)生態(tài)化賦能高質(zhì)量數(shù)據(jù)集發(fā) (一)人工智能技術(shù)邁入大模型時代后,研發(fā)重點從“重點優(yōu)化模型架構(gòu)”轉(zhuǎn)向“模型與數(shù)據(jù)協(xié)同優(yōu)化”,其中高質(zhì)量數(shù)據(jù)的作用日益凸顯。主要表現(xiàn)在:一是將數(shù)據(jù)視為活的資產(chǎn),不再是一次性收集、處理后就束之高閣的靜態(tài)文件,而是一個需要持續(xù)投資、管理、監(jiān)控和優(yōu)化的動態(tài)、演進的戰(zhàn)略資產(chǎn)。二是用自動化的、可編程的、可擴展的數(shù)據(jù)處理流程,取代手動的、一次性的數(shù)據(jù)處理工作,系統(tǒng)性處理海量數(shù)據(jù),并能提升數(shù)據(jù)質(zhì)量。三是整合領(lǐng)域?qū)<?,將擁有深厚行業(yè)知識的主題專家直接整合到數(shù)據(jù)處理的流水線中。專家知識被用來定義數(shù)據(jù)標準、標注復(fù)雜案例、識別數(shù)據(jù)中的細微偏差,從而將領(lǐng)域智慧注入數(shù)據(jù)。四是建立模型反饋閉環(huán),將模型在實際應(yīng)用中的錯誤作為診斷信號,用來發(fā)現(xiàn)數(shù)據(jù)中的問題(如標簽錯誤、數(shù)據(jù)分布不均、邊界案例缺失等),然后有針對性地改進數(shù)據(jù)集。由此就形成了一個“數(shù)據(jù)飛輪”效應(yīng),更好的數(shù)據(jù)訓(xùn)練出更好的模求從“量級積累”轉(zhuǎn)向“量質(zhì)并重”。OpenAI為代策略顯著提升了模型性能與落地能力。而DeepSeek模型在復(fù)雜邏輯推理任務(wù)中取得突破性進展,源于其R1模型采用的數(shù)學(xué)人工智能走進千行百業(yè)的具體場景,行業(yè)模型的性能躍升越來越依賴數(shù)據(jù)與場景的深度耦合,從“數(shù)據(jù)規(guī)模競賽”轉(zhuǎn)向“數(shù)據(jù)質(zhì)量深耕”。越來越多的企業(yè)開始采用自動化的數(shù)據(jù)篩選、數(shù)據(jù)標注與數(shù)據(jù)增強等技術(shù)工具,以提升數(shù)據(jù)集的專業(yè)性和適用性。在這種趨勢下,模型訓(xùn)練不再依賴于盲目擴充數(shù)據(jù)規(guī)模,而是更注重數(shù)據(jù)的代表性、多樣性和場景適配性,為人工智能的可持續(xù)發(fā)展奠定堅實基礎(chǔ)。例如,醫(yī)療領(lǐng)域中某肺結(jié)節(jié)檢測模型訓(xùn)練數(shù)據(jù)集僅利用1萬多例數(shù)據(jù)和亞毫米級病灶邊界勾畫的標注信息,使得早期肺癌篩查中的假陽性率大幅下降;工業(yè)質(zhì)檢場景中某企業(yè)通過合成數(shù)據(jù)等技術(shù)生成了10萬種“極端缺陷樣本”,彌補了真實生產(chǎn)中罕見缺陷數(shù)據(jù)不足的問題,使模型缺陷識別覆蓋率大幅提升。黨中央、國務(wù)院高度重視數(shù)據(jù)資源的開發(fā)利用與高質(zhì)量發(fā)展,圍繞構(gòu)建數(shù)據(jù)基礎(chǔ)制度、完善數(shù)據(jù)要素市場、推動公共數(shù)據(jù)開放、夯實智能技術(shù)底座等方面,陸續(xù)出臺多項綱領(lǐng)性政策文件,為高質(zhì)量數(shù)據(jù)資源體系建設(shè)提供了頂層設(shè)計和制度保障。22212月,中共中央、國務(wù)院印發(fā)《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》,明確提出探索開展數(shù)據(jù)質(zhì)量標準化體系建設(shè)。2231217部門聯(lián)合印發(fā)《“數(shù)據(jù)要素×”三年行動計劃(22—226年)強調(diào)數(shù)據(jù)要素高質(zhì)量供給與合規(guī)高效流通,提出打造高質(zhì)量人工智能大模型訓(xùn)練數(shù)據(jù)集。22412月,國家發(fā)展改革委、國家數(shù)據(jù)局等部門印發(fā)《關(guān)于促進數(shù)據(jù)產(chǎn)業(yè)高質(zhì)量發(fā)展的指導(dǎo)意見》,首次明確提出“高質(zhì)量數(shù)據(jù)集”概念,將其作為人工智能與實體經(jīng)濟融合的核心載體,并對行業(yè)數(shù)據(jù)集建設(shè)提出具體要求。隨后一系列政策相繼發(fā)布,《關(guān)于促進數(shù)據(jù)標注產(chǎn)業(yè)高質(zhì)量發(fā)展的實施意見》《關(guān)于促進企業(yè)數(shù)據(jù)資源開發(fā)利用的意見》以及《國家數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)指引》等政策均提出建設(shè)行業(yè)“高質(zhì)量數(shù)據(jù)集”,由此數(shù)據(jù)集高質(zhì)量發(fā)展成為行業(yè)發(fā)展重要目標。2252月,國家數(shù)據(jù)局組織27個部委召開高質(zhì)量數(shù)據(jù)集建設(shè)工作啟動會,加強統(tǒng)籌協(xié)調(diào),深化部門協(xié)同,全力推動高質(zhì)量數(shù)據(jù)集建設(shè),高效賦能行業(yè)高質(zhì)量發(fā)展,標志著高質(zhì)量數(shù)據(jù)集建設(shè)進入系統(tǒng)化、規(guī)模化推進階段。(二)如,機器學(xué)習(xí)中的經(jīng)典數(shù)據(jù)集鳶尾花(Iris)數(shù)據(jù)集,包含50花萼寬度、花瓣長度和花瓣寬度作為分類特征。再如圖像識別Iaget100萬張高分辨2萬多個類別,每張圖像均配有準確的類別標簽,100(三)單模態(tài)數(shù)據(jù)中,文本數(shù)據(jù)是非結(jié)構(gòu)化的語言信息,用于自然語言處理的機器翻譯、情感分析等場景以及語言模型的訓(xùn)練;圖像數(shù)據(jù)是像素矩陣構(gòu)成的視覺信息,用于計算機視覺的圖像分類、目標檢測、醫(yī)療影像分析以及自動駕駛等場景;音頻數(shù)據(jù)是聲波信號,用于語音識別、音樂生成、工業(yè)設(shè)備異常檢測等場景;IoT數(shù)據(jù)主要是傳感器的實時流數(shù)據(jù),例如溫度、濕度、加速度等,用于設(shè)備狀態(tài)的監(jiān)控、智慧城市中交通流量的預(yù)測等場景。而多模態(tài)數(shù)據(jù)是指兩種及以上模態(tài)數(shù)據(jù)的融合,通過而近期新涌現(xiàn)的思維鏈數(shù)據(jù)則是一種數(shù)據(jù)標注方法或推理過程的表示方法,而非一種獨立的數(shù)據(jù)模態(tài),主要是通過分步推理解釋模型決策,演繹從問題到答案的具體推理步驟,用于數(shù)學(xué)證明、邏輯謎題等模型的復(fù)雜推理,同時也提高人類對模型的信任度。(征求意見稿)》可以分為通識數(shù)據(jù)集、行業(yè)通識數(shù)據(jù)集和行業(yè)專識數(shù)據(jù)集。高質(zhì)量數(shù)據(jù)集作為開發(fā)和訓(xùn)練人工智能模型的重要支撐,不同類型模型所需數(shù)據(jù)集蘊含的通用知識、行業(yè)領(lǐng)域通用知識、行業(yè)領(lǐng)域?qū)I(yè)知識的內(nèi)容、范圍和數(shù)量也不一樣。通識、行業(yè)通識、行業(yè)專識三類高質(zhì)量數(shù)據(jù)集,主要是通過數(shù)據(jù)集的知識內(nèi)容、來源類型、時效性、標注人員類型、敏感程度、模型類型、主題范圍等維度來進行劃分。通識數(shù)據(jù)集包含面向社會公眾、無需專業(yè)背景即可理解的通用知識,主要用于支撐通用模型落地應(yīng)用,例如百度百科;行業(yè)通識數(shù)據(jù)集包含面向行業(yè)從業(yè)人員、需要一定專業(yè)背景才能理解的行業(yè)領(lǐng)域通用知識,主要用于支撐行業(yè)模型落地應(yīng)用,例如行業(yè)研究報告;行業(yè)專識數(shù)據(jù)集包含面向特定業(yè)務(wù)場景相關(guān)人員、需要較深的專業(yè)背景才能理解的行業(yè)領(lǐng)域?qū)I(yè)知識,主要用于支撐業(yè)務(wù)場景模型落地應(yīng)用,例如醫(yī)療領(lǐng)域的電子病歷數(shù)據(jù)集等。二、隨著人工智能技術(shù)的快速發(fā)展,不同應(yīng)用領(lǐng)域?qū)Ω哔|(zhì)量數(shù)據(jù)集的需求呈現(xiàn)出層次化、專業(yè)化的特征。根據(jù)I系統(tǒng)能力的發(fā)展路徑和認知層次,高質(zhì)量數(shù)據(jù)集的應(yīng)用需求可以劃分為基礎(chǔ)認知層、場景理解層、行動規(guī)劃層三個遞進層次。從建立世界的基本認知,到解析復(fù)雜場景關(guān)系,再到規(guī)劃執(zhí)行具體行動,每一層都承載著不同的學(xué)習(xí)目標和能力要求。深入探索這三個層次對高質(zhì)量數(shù)據(jù)集的具體需求,將為建設(shè)主體提供清晰的數(shù)據(jù)集建設(shè)方向和路徑指引。(一)基礎(chǔ)認知層數(shù)據(jù)集需求——基礎(chǔ)認知層是人工智能系統(tǒng)的根基,主要負責(zé)建立對世界I系統(tǒng)掌握“這是什么”的基本判斷能力,構(gòu)建對物理世界和抽象概念的I系統(tǒng)的認知上限——基礎(chǔ)認知層需要通過海量數(shù)據(jù)學(xué)習(xí)各領(lǐng)域的通用模式和基本概念,這種學(xué)習(xí)過程類似于人類兒童通過大量觀察和體驗認識世界的過程。在語言領(lǐng)域,系統(tǒng)不僅需要掌握詞匯、語法、語義的基礎(chǔ)表征,還要理解語言的統(tǒng)計規(guī)律和上下文關(guān)聯(lián)模式,形成對自然語言的內(nèi)在理解;在視覺領(lǐng)域,需要學(xué)習(xí)從低級特征(邊緣、紋理、顏色)到高級概念(物體、場景)的層次化表征,建立視覺世界的認知地圖;在跨模態(tài)領(lǐng)域,需要建立不基礎(chǔ)認知層數(shù)據(jù)集的顯著特征是規(guī)模龐大,通常達到BPB級別,這種規(guī)模需求有其深層的理論依據(jù)。大語言模型的預(yù)訓(xùn)練語料包含數(shù)萬億詞元(okn),這種海量數(shù)據(jù)使模型能夠捕捉語言中的長尾分布和罕見模式;視覺領(lǐng)域的大規(guī)模數(shù)據(jù)集如Iaget1002確保模型能夠?qū)W習(xí)到視覺世界的多樣性。這種大規(guī)模需求源于模型需要從數(shù)據(jù)中學(xué)習(xí)通用表征,遵循尺度定律(Slingw)——隨著數(shù)據(jù)規(guī)模的增加,模型性能會持續(xù)提升,且這種提升呈現(xiàn)冪律關(guān)系。更重要的是,海量數(shù)據(jù)能夠提供足夠的統(tǒng)計信息,使模型學(xué)習(xí)到穩(wěn)定可靠的模式,而非過擬合于特定樣本。基礎(chǔ)認知層對數(shù)據(jù)質(zhì)量的要求體現(xiàn)在多個維度的平衡上。首先是覆蓋面的廣度,數(shù)據(jù)需要涵蓋多領(lǐng)域(科學(xué)、文學(xué)、歷史、技術(shù)等)、多語言(主流語言及小語種)、多場景(非正式、專業(yè)、日常等),這種廣覆蓋確保模型具備處理多樣化輸入的能力;其次是數(shù)據(jù)分布的合理性,要能夠反映真實世界的特征分布,避免因數(shù)據(jù)偏見導(dǎo)致模型產(chǎn)生系統(tǒng)性偏差;第三是基礎(chǔ)質(zhì)量的保障,需要經(jīng)過去重處理避免過擬合、去噪過基礎(chǔ)認知層數(shù)據(jù)集支撐了各類基礎(chǔ)模型的訓(xùn)練,這些基礎(chǔ)IPT、RT等模型通過大規(guī)模文本預(yù)訓(xùn)練,不僅學(xué)會了語言的表面形式,更掌握了語言背后的知識結(jié)構(gòu)和推理模式,為各種下游任務(wù)提供setisinrnsfrer等通過大規(guī)模圖像數(shù)據(jù)集訓(xùn)練,建立了從像素到語義的完整映射,使計算機視覺從特征工程時代進入深度學(xué)習(xí)時IP等模型通過海量圖文對數(shù)據(jù),學(xué)習(xí)到視覺和語言的統(tǒng)一表征空間,實現(xiàn)了零樣本圖像分類等突破性能力。這些基礎(chǔ)模型通過遷移學(xué)習(xí)和微調(diào),能夠快速適應(yīng)各種下游任務(wù),極大降低了I應(yīng)用的開發(fā)成本和技術(shù)門檻。(二)場景理解層數(shù)據(jù)集需求——關(guān)系、語義邏輯和事件過程。這一層的核心是讓AI系統(tǒng)能夠深A(yù)I從“看到”到“看懂”的關(guān)場景理解層要求模型具備結(jié)構(gòu)解析和關(guān)系推理能力,這種能力遠超簡單的模式匹配。在語言領(lǐng)域,模型需要理解篇章的層次結(jié)構(gòu)、段落間的邏輯關(guān)系、句子中的隱含信息和言外之意,能夠進行因果推理、類比推理和反事實推理;在視覺領(lǐng)域,需要理解多個對象的空間關(guān)系(上下、左右、包含、相鄰)、功能關(guān)系(工具與使用者、容器與內(nèi)容物)和場景的整體布局,從而推斷場景的功能和可能發(fā)生的事件;在視頻領(lǐng)域,需要理解時序事件的因果鏈條、動作的目的和結(jié)果、場景的動態(tài)變化規(guī)律,捕捉關(guān)鍵幀之間的語義連續(xù)性。這一層強調(diào)從簡單識別到深度理解的能力躍升,要求模型具備類似人類的場景解析和情境推理能力。載著特定的語義信息。語言理解數(shù)據(jù)集如SQuAD不僅包含問COCO包ActivityNet包含時序動作的精性要求標注覆蓋場景的所有關(guān)鍵信息,不能有重要元素的遺場景理解層數(shù)據(jù)集廣泛應(yīng)用于各類需要深度理解的I在自然語言處理領(lǐng)域,機器閱讀理解系統(tǒng)能夠回答關(guān)于文本的復(fù)雜問題,信息抽取系統(tǒng)能夠從非結(jié)構(gòu)化文本中提取結(jié)構(gòu)化知識;在計算機視覺領(lǐng)域,目標檢測能夠精確定位和識別圖像中的多個對象,語義分割能夠理解每個像素的語義類別,場景圖生成能夠構(gòu)建對象間的關(guān)系網(wǎng)絡(luò);在視頻分析領(lǐng)域,動作識別能夠理解人類的復(fù)雜行為,事件檢測能夠發(fā)現(xiàn)視頻中的關(guān)鍵時刻。這些應(yīng)用不僅要求模型能夠識別“是什么”,更要理解“為什么”和“怎么樣”,真正實現(xiàn)對場景的深度理解。(三)行動規(guī)劃層數(shù)據(jù)集需求——AI系統(tǒng)的最高能力層,負責(zé)將理解轉(zhuǎn)化為決AI系統(tǒng)掌握“怎么做”“為什么這么做”以及“這樣做的后果AI從被動響應(yīng)到主動規(guī)劃的質(zhì)變,是實現(xiàn)通用人工智能的關(guān)鍵行動規(guī)劃層需要學(xué)習(xí)從問題識別到方案制定再到執(zhí)行驗證的完整認知過程。在復(fù)雜推理領(lǐng)域,模型需要掌握多步推理的邏輯鏈條,能夠?qū)?fù)雜問題分解為子問題,選擇合適的求解策略,并驗證每一步的正確性;在對話交互領(lǐng)域,需要理解用戶的真實意圖(包括字面意思和潛在需求),根據(jù)上下文選擇合適的回應(yīng)策略,維持對話的連貫性和目標導(dǎo)向性;在代碼生成領(lǐng)域,需要理解需求的本質(zhì),設(shè)計合理的算法架構(gòu),處理邊界條件和異常情況,生成高質(zhì)量的可執(zhí)行代碼;在具身智能領(lǐng)域,需要將高層任務(wù)目標分解為可執(zhí)行的動作序列,考慮環(huán)境約束和不確定性,實時調(diào)整執(zhí)行策略。這一層強調(diào)思維的完整性、決策的合理性以及執(zhí)行的可行性。行動規(guī)劃層對數(shù)據(jù)質(zhì)量的要求達到了最高標準,因為這直I系統(tǒng)的決策質(zhì)量和安全性。推理正確性不僅要求最終結(jié)果正確,更要求推理過程的每一步都有充分的邏輯依據(jù)和事實支撐,避免“歪打正著”的偽推理;邏輯嚴密性要求推理鏈條完整、清晰、可驗證,沒有邏輯跳躍、循環(huán)論證或自相矛盾,每個推導(dǎo)步驟都能被人類專家理解和審核;價值對齊是最I(lǐng)的決策符合人類的價值觀、道德準則和社會規(guī)范,不產(chǎn)生有害、偏見或違背倫理的輸出。這通常需要通過人類反饋強化學(xué)習(xí)(F)由領(lǐng)域?qū)<疫M行多輪評估,甚至需要建立專門的倫理審查機制。數(shù)據(jù)的構(gòu)建過程往往需要跨學(xué)科團隊的協(xié)作,包括領(lǐng)域?qū)<姨峁I(yè)知識、標注員進行精細標注、算法工程師設(shè)計驗證機制。AI系統(tǒng)最具挑戰(zhàn)性和實用價值的路徑,操作機器人能夠完成精細的物體操控任務(wù);在游戲AI領(lǐng)AI技術(shù)的最前沿,正在1GPT/BERT語言模型、CLIP多模態(tài)模型AI技術(shù)發(fā)展認知到場景理解再到行動規(guī)劃,每一層都建立在前一層的基礎(chǔ)之上,同時為下一層提供支撐,構(gòu)成了I基礎(chǔ)認知層提供了感知和表征能力,場景理解層實現(xiàn)了語義解析和關(guān)系推理,行動規(guī)劃層完成了決策制定和執(zhí)行規(guī)劃。通過針對性地建設(shè)不同層次的高質(zhì)量數(shù)據(jù)集,平衡各層次的發(fā)展需求,可以系統(tǒng)性地推動人工智能從狹義智能向通用智能演進,最終實現(xiàn)真正意義上的智能系統(tǒng)。三、近年來,全球高質(zhì)量數(shù)據(jù)集建設(shè)進入加速階段,呈現(xiàn)出政策引導(dǎo)、市場驅(qū)動與技術(shù)革新協(xié)同推進的態(tài)勢。歐美等發(fā)達經(jīng)濟體在開放共享、標準體系、平臺化建設(shè)方面走在前列,形成了較為完善的多模態(tài)、多領(lǐng)域數(shù)據(jù)集生態(tài)體系;我國則在國家頂層設(shè)計和多方協(xié)同推動下,高質(zhì)量數(shù)據(jù)集建設(shè)體系逐步完善,區(qū)域與行業(yè)層面呈現(xiàn)并進發(fā)展格局。本指引通過分別梳理全球與我國的高質(zhì)量數(shù)據(jù)集建設(shè)情況,分析當(dāng)前面臨的主要困難與挑戰(zhàn),為后續(xù)建設(shè)方法的探討提供現(xiàn)實基礎(chǔ)。(一)規(guī)模預(yù)訓(xùn)練模型。例如,KaggleDatasets50萬CV、NLP、金融、健HuggingFace托管超4萬個開源數(shù)據(jù)集,涵蓋文本、圖像、語音等多種模態(tài),數(shù)據(jù)15Token,已成為全球數(shù)據(jù)集開源托管的核心樞CommonCrawl,總數(shù)據(jù)量達到PBOpenAIta等科技巨頭大規(guī)模語言模型訓(xùn)練的重要數(shù)據(jù)來源之一。德國非營利組織創(chuàng)建的數(shù)據(jù)集I-5B以圖文對數(shù)據(jù)為主,是全球最大的多模態(tài)圖文開源數(shù)據(jù)集之一,超過55為StbeiffsinI圖像生成提供了重要的數(shù)據(jù)支持。加拿大多倫多大學(xué)開發(fā)者創(chuàng)建的數(shù)據(jù)集oosors是一個以電子英文書籍為主的文本類數(shù)據(jù)庫,覆蓋多領(lǐng)域多學(xué)1PT系列模型訓(xùn)練的重要數(shù)據(jù)來源。另一方面,積極建設(shè)開放平臺等基礎(chǔ)設(shè)施提供統(tǒng)一服務(wù)。例如,截至目前,美國國家開放數(shù)據(jù)平臺(dtgov)收錄超過32萬個數(shù)據(jù)集,涵蓋環(huán)境、健康、交通、海洋、能源等領(lǐng)域。歐盟統(tǒng)一數(shù)據(jù)門戶(dturoeu)成為歐盟全域開放數(shù)據(jù)的3515萬個數(shù)據(jù)集,覆蓋行政、健康、環(huán)境、經(jīng)濟、科技等領(lǐng)域,成為歐盟發(fā)展數(shù)字主I創(chuàng)新的戰(zhàn)略基礎(chǔ)設(shè)施。英國開放數(shù)據(jù)門戶(.uk)5.6萬焦高價值數(shù)據(jù)集成的AI訓(xùn)練生態(tài)系統(tǒng)。開放。20246月生效,強AI2256月正式成為法律,旨在利用數(shù)據(jù)力量系統(tǒng)性地推進跨行業(yè)通識數(shù)據(jù)集的建設(shè),構(gòu)建標準化的數(shù)據(jù)共享框架,覆蓋能源、金融、電信、零售等八大戰(zhàn)略行業(yè),致力于實現(xiàn)釋放10億英鎊以上的經(jīng)濟價值目標。另一方面,多領(lǐng)域各行業(yè)加速數(shù)據(jù)集建設(shè)。歐盟urSttInutryub數(shù)據(jù)集包含所有成員國的完整工業(yè)統(tǒng)計數(shù)據(jù),覆蓋制造業(yè)、能源、建筑業(yè)等核心產(chǎn)業(yè)。美國醫(yī)療領(lǐng)域高Pud300萬篇論文摘要,為醫(yī)療大模型提供術(shù)語體系與知識框架,支撐臨床決策輔助系統(tǒng)、藥物研發(fā)模型。美國證監(jiān)會企業(yè)財務(wù)報告數(shù)據(jù)庫SCfiins,收錄超過100萬份文件,是目前全球最大、最完整的開源上市公司財務(wù)文本庫之一,已廣泛用于量化投資、自然語言處理預(yù)訓(xùn)練、合規(guī)監(jiān)控與生成式I決策系統(tǒng)。(二)成效明顯202563.5400PB3364作為交易流通中的關(guān)鍵商品,累計交易額近40億元,規(guī)模達246PB6080%多元協(xié)作”的鮮明特點。建設(shè)工作既在國家層面統(tǒng)一部署、總體謀劃,又在區(qū)域與行業(yè)兩個維度形成分工協(xié)作的格局。區(qū)域高質(zhì)量數(shù)據(jù)集建設(shè)由國家數(shù)據(jù)局統(tǒng)籌指導(dǎo),依托各地政策和資地方層面,各地立足區(qū)域特色,積極探索高質(zhì)量數(shù)據(jù)集建設(shè)創(chuàng)新路徑,形成了各具特色、協(xié)同發(fā)展的良好局面。一方面,國家數(shù)據(jù)局統(tǒng)籌建設(shè)成都、沈陽、合肥、長沙、???、保定和大同七大數(shù)據(jù)標注基地,充分發(fā)揮地方配套支撐作用,在數(shù)據(jù)標注產(chǎn)業(yè)的生態(tài)構(gòu)建、能力提升和場景應(yīng)用等方面先行先試,集聚龍頭企業(yè),促進區(qū)域人工智能產(chǎn)業(yè)生態(tài)發(fā)展,目前已建設(shè)行業(yè)高質(zhì)量數(shù)據(jù)集54個,數(shù)據(jù)總規(guī)模超過29PB13個國產(chǎn)人工智能大模型研發(fā)與應(yīng)用,帶動數(shù)據(jù)標注行業(yè)相關(guān)產(chǎn)83億元。另一方面,江蘇、蘇州、貴州、成都、上海、寧波、廣東、福建、杭州、河南、山東等地分別從數(shù)據(jù)集建設(shè)、數(shù)據(jù)質(zhì)量評價、數(shù)據(jù)產(chǎn)品開發(fā)等多方面建立政策體系、打造特色案例。例如貴州以專項資金支持重點行業(yè)領(lǐng)域,建設(shè)高質(zhì)量30個高質(zhì)量數(shù)據(jù)集,覆蓋工業(yè)制造、交通運輸、金融服務(wù)等領(lǐng)域。北京國際大數(shù)據(jù)交易所引入高質(zhì)量數(shù)據(jù)572041030項央企人工智能行業(yè)高質(zhì)量數(shù)據(jù)集優(yōu)秀建設(shè)成果。8月,國家數(shù)據(jù)局征集遴選出10412個重點領(lǐng)域,以及低空經(jīng)濟、具身智能、智能駕駛、智慧海洋、生5個創(chuàng)新領(lǐng)域。二是全國數(shù)據(jù)標準化技術(shù)委員會等相關(guān)標準化組織積極協(xié)同企業(yè)開展高質(zhì)量數(shù)據(jù)集建設(shè)和標準化研討會,助力完善高質(zhì)量數(shù)據(jù)集國家、行業(yè)、團體等標準體系,明確高質(zhì)量數(shù)據(jù)集的建設(shè)路徑,為業(yè)界實踐提供兼具方向性和規(guī)范性的操作指引,推動行業(yè)數(shù)據(jù)水平提升。三是大模型企業(yè)和科研機構(gòu)也積極貢獻力量,豐富行業(yè)數(shù)據(jù)資源,為人工智能技術(shù)的持續(xù)創(chuàng)新注入動力。例如阿里巴巴發(fā)布中文問答數(shù)據(jù)集,為智能問答系統(tǒng)的研發(fā)提供了高質(zhì)量的訓(xùn)練數(shù)據(jù)。智源研究院Inutroru1034B開源行業(yè)預(yù)18類行業(yè),為人工智能領(lǐng)域的跨語言研究和應(yīng)用提供參考。鵬城國家實驗室開源百萬規(guī)模標準化具身智能數(shù)30283164個具體任務(wù)實例。上海人工智能實驗室開源數(shù)據(jù)平臺pntab提500100多種任務(wù)類型,總數(shù)據(jù)量達到80TB(三)雖然我國高質(zhì)量數(shù)據(jù)集建設(shè)在國家統(tǒng)籌、推進模式和應(yīng)用場景方面具有獨特優(yōu)勢,但在數(shù)據(jù)開放度、標準體系、關(guān)鍵技術(shù)及國際影響力等方面的短板,已經(jīng)在實踐中轉(zhuǎn)化為數(shù)據(jù)供給、數(shù)據(jù)供給方面,結(jié)構(gòu)性短缺與流通壁壘。高質(zhì)量語料枯竭風(fēng)險,尤其是專業(yè)領(lǐng)域數(shù)據(jù)儲備量不足。數(shù)據(jù)孤島與開放困境,標準與治理方面,規(guī)范與協(xié)同機制待完善。標準體系規(guī)劃仍需完善,如行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)指南、分類標準、數(shù)據(jù)格式、質(zhì)量評測等關(guān)鍵標準不充分,且標準應(yīng)用與推廣力度不足。成本與模式方面,商業(yè)閉環(huán)未形成。投入產(chǎn)出比例失衡,數(shù)據(jù)標注與治理成本占比高,但價值轉(zhuǎn)化周期長;缺乏成熟的“數(shù)據(jù)-算法-應(yīng)用”商業(yè)生態(tài),難以支撐長效化可持續(xù)運營。創(chuàng)新模式探索滯后,數(shù)據(jù)交易所尚未形成規(guī)模化交易市場。四、(一)高質(zhì)量數(shù)據(jù)集的建設(shè)是一個覆蓋數(shù)據(jù)集全生命周期的系統(tǒng)性工程。當(dāng)前業(yè)界主要采用兩種典型的建設(shè)模式:“場景驅(qū)動”的建設(shè)模式和“數(shù)據(jù)驅(qū)動”的建設(shè)模式。挖掘,反向發(fā)現(xiàn)潛在的業(yè)務(wù)需求或優(yōu)化方向。這種模式強調(diào)引的“場景驅(qū)動”模式更契合高質(zhì)量數(shù)據(jù)集建設(shè)的核心目標和發(fā)展方向。因此,本指引參考技術(shù)文件《高質(zhì)量數(shù)據(jù)集建設(shè)指南(征求意見稿)11(二)高質(zhì)量數(shù)據(jù)集的數(shù)據(jù)需求環(huán)節(jié)主要是確定人工智能應(yīng)用對數(shù)據(jù)的需求,即根據(jù)特定人工智能用途,明確數(shù)據(jù)集在數(shù)據(jù)范圍、內(nèi)容、可用、質(zhì)量等方面的需求。在數(shù)據(jù)范圍和內(nèi)容方面,統(tǒng)計特性和可分性等;在數(shù)據(jù)可用方面,檢查數(shù)據(jù)集所需要數(shù)據(jù)的可使用性,即確認用于特定人工智能應(yīng)用的數(shù)據(jù)是否可獲取并使用;在數(shù)據(jù)質(zhì)量方面,構(gòu)建數(shù)據(jù)集所需要的數(shù)據(jù)質(zhì)量模型,即實例化一個具有相關(guān)數(shù)據(jù)質(zhì)量特征(例如完整性、準確性、一致性等)的數(shù)據(jù)質(zhì)量模型。高質(zhì)量數(shù)據(jù)集的數(shù)據(jù)預(yù)處理環(huán)節(jié)主要是將所收集到的數(shù)據(jù)處理成可供數(shù)據(jù)標注等后續(xù)環(huán)節(jié)使用的形式。該環(huán)節(jié)涉及以下可選過程:數(shù)據(jù)轉(zhuǎn)換,以最小的內(nèi)容損失,將數(shù)據(jù)從一種表示或空間轉(zhuǎn)換為另一種表示或空間;數(shù)據(jù)驗證,根據(jù)驗證正確性、數(shù)據(jù)清洗,檢測錯誤數(shù)據(jù)或缺失數(shù)據(jù),并通過替換、修改、輸入或刪除等方式修正數(shù)據(jù);數(shù)據(jù)聚合,將兩個或多個數(shù)據(jù)集以匯總的形式合并為一個數(shù)據(jù)集;數(shù)據(jù)抽樣,從數(shù)據(jù)集中選擇數(shù)高質(zhì)量數(shù)據(jù)集的數(shù)據(jù)標注環(huán)節(jié)主要是針對有監(jiān)督機器學(xué)習(xí)的,其訓(xùn)練、驗證和測試數(shù)據(jù)需要對單個或多個目標變量賦值。該環(huán)節(jié)可以涉及以下可選過程:明確數(shù)據(jù)標注規(guī)程規(guī)范、確定所需的技能和資源(如標注人員、工具、平臺等)以及對數(shù)據(jù)標注過程進行監(jiān)督和質(zhì)量管理。高質(zhì)量數(shù)據(jù)集的模型驗證環(huán)節(jié)主要是將所準備的數(shù)據(jù)用于人工智能模型開發(fā)和訓(xùn)練,對模型性能是否達到預(yù)期進行評估,以驗證數(shù)據(jù)集是否滿足要求。若模型性能達到預(yù)期,則表明數(shù)據(jù)集已滿足要求。若模型性能未達到預(yù)期,則可采取以下步驟。一是對于人工智能模型,確定數(shù)據(jù)集相比于算法,是不是致使模型性能未達到預(yù)期的根本原因。二是對模型驗證環(huán)節(jié)所發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題進行分析,將對模型性能產(chǎn)生不利影響的數(shù)據(jù)質(zhì)量問題反饋給上游環(huán)節(jié),以改進相關(guān)環(huán)節(jié)的數(shù)據(jù)質(zhì)量。三是重復(fù)數(shù)據(jù)規(guī)劃、數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)標注等環(huán)節(jié)以提升數(shù)據(jù)質(zhì)量;四是重建人工智能模型,對模型性能進行評估。(三)隨著人工智能、大數(shù)據(jù)等技術(shù)的不斷發(fā)展,數(shù)據(jù)采集技術(shù)呈現(xiàn)出多源融合、自動化運行和邊緣智能等創(chuàng)新趨勢,多個行業(yè)和地方已在實踐中取得初步成果,本指引介紹三種主流的技術(shù)。一是多源異構(gòu)數(shù)據(jù)融合采集技術(shù),支持對結(jié)構(gòu)化、非結(jié)構(gòu)化等多類型數(shù)據(jù)的統(tǒng)一采集和調(diào)度,廣泛應(yīng)用于工業(yè)、政務(wù)等復(fù)雜系統(tǒng)場景。例如,國家工業(yè)互聯(lián)網(wǎng)平臺在制造企業(yè)中部署多類傳感器與控制器,實現(xiàn)設(shè)備層數(shù)據(jù)的高頻融合采集,支撐工業(yè)模型訓(xùn)練所需的全流程數(shù)據(jù)獲取。二是邊緣側(cè)數(shù)據(jù)采集技術(shù),通過在數(shù)據(jù)源附近部署邊緣設(shè)備,實現(xiàn)對實時數(shù)據(jù)的本地采集、預(yù)處理與上傳,提升采集效率并降低網(wǎng)絡(luò)壓力。華為智慧園區(qū)解決方案采用邊緣網(wǎng)關(guān),實時采集環(huán)境監(jiān)測和視頻數(shù)據(jù),保障數(shù)據(jù)的即時性和安全性。三是生成模型輔助等數(shù)據(jù)合成采集技術(shù),針對數(shù)據(jù)稀缺或敏感的應(yīng)用場景,利用仿真、統(tǒng)計、生成對抗網(wǎng)絡(luò)(N)或擴散模型等技術(shù)模擬生成符合真實分布的高質(zhì)量數(shù)據(jù)。例如,清華大學(xué)在醫(yī)療影像領(lǐng)域采用數(shù)據(jù)合成手段構(gòu)建補充數(shù)據(jù)集,為模型提供多樣化訓(xùn)練樣本,解決實近年來,特征選擇技術(shù)正朝著自動化、智能化和高效化方向發(fā)展,當(dāng)前主要包括以下幾類主流和創(chuàng)新趨勢。一是基于統(tǒng)計和過濾方法的特征選擇技術(shù),通過相關(guān)系數(shù)、卡方檢驗等指標快速篩選重要特征。此類技術(shù)在傳統(tǒng)金融風(fēng)控領(lǐng)域廣泛應(yīng)用,提高了模型準確性和穩(wěn)定性。二是基于嵌入式和包裝方法的特征選擇技術(shù),結(jié)合機器學(xué)習(xí)模型訓(xùn)練過程動態(tài)選擇特征,提升選擇效果。華為在通信網(wǎng)絡(luò)故障診斷中采用該方法,實現(xiàn)了對海量網(wǎng)絡(luò)數(shù)據(jù)特征的自動篩選和故障預(yù)測。三是基于深度學(xué)習(xí)的自動特征提取與選擇技術(shù),利用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)自動學(xué)習(xí)有效特征,適應(yīng)復(fù)雜多樣的數(shù)據(jù)場景。清華大學(xué)在智能制造領(lǐng)域開展相關(guān)研究,推動深度特征選擇技術(shù)在設(shè)備故障預(yù)測中的應(yīng)用。(四)為系統(tǒng)提升高質(zhì)量數(shù)據(jù)集的建設(shè)能力與應(yīng)用水平,必須構(gòu)建科學(xué)規(guī)范的數(shù)據(jù)集質(zhì)量評價工作體系。質(zhì)量評價不僅是衡量數(shù)據(jù)集是否滿足“高質(zhì)量”標準的基本途徑,也是推動數(shù)據(jù)集標準化建設(shè)、促進其可信流通與高效應(yīng)用的重要抓手。為此,一方面,明確質(zhì)量評價在數(shù)據(jù)集建設(shè)中的作用,理清其工作流程和關(guān)鍵環(huán)節(jié);另一方面,構(gòu)建覆蓋數(shù)據(jù)全生命周期與實際應(yīng)用需求的質(zhì)量評價指標體系,確保評價結(jié)果的科學(xué)性與指導(dǎo)性?;韭窂剑彩峭苿痈哔|(zhì)量數(shù)據(jù)資源建設(shè)的核心抓手。通過一是評估準備階段:在正式開展評價工作前,需明確數(shù)據(jù)集的基本信息、應(yīng)用場景與評價目標,劃定評價范圍和對象類型,制定相應(yīng)的評價策略和技術(shù)規(guī)范。同時,組織配備具備專業(yè)能力的評估團隊,準備相應(yīng)的評價工具和數(shù)據(jù)支撐環(huán)境,確保評價工作的規(guī)范性與一致性。二是質(zhì)量評估指標體系構(gòu)建與實施階段:該環(huán)節(jié)是整個質(zhì)量評價工作的核心,需要設(shè)計科學(xué)合理的質(zhì)量評估指標體系,明確各項指標的評測標準和實施細則,結(jié)合自動化檢測與人工核查等方法,開展全面系統(tǒng)的質(zhì)量評估,確保評價過程規(guī)范、全面且具操作性。三是綜合評價與反饋應(yīng)用階段:基于前述質(zhì)量評價指標的評價結(jié)果,結(jié)合多維度指標體系進行加權(quán)匯總,形成定量化的質(zhì)量評分與等級劃分。同時,針對發(fā)現(xiàn)的問題,提出可操作的改進建議,形成評價報告,為數(shù)據(jù)集的發(fā)布、認證、共享流通及后續(xù)版本優(yōu)化提供決策支撐與專業(yè)依據(jù)。完整、規(guī)范,是數(shù)據(jù)集可理解性與可重用性的基礎(chǔ)保障。該指標包含基本信息、內(nèi)容特征、建設(shè)過程及應(yīng)用說明等關(guān)鍵指標的完整性評價。在基本信息完整性方面,應(yīng)包含數(shù)據(jù)集規(guī)模、格式規(guī)范、文件結(jié)構(gòu)、訪問渠道、技術(shù)支持方式等基本信息;在內(nèi)容特征完整性方面,應(yīng)包含模態(tài)類型、數(shù)據(jù)分布情況、標簽類別統(tǒng)計、樣本示例、局限性說明等內(nèi)容特征;在建設(shè)過程完整性方面,應(yīng)包含數(shù)據(jù)來源、采集方法、加工處理流程、標注規(guī)范、版本控制等建設(shè)過程;在應(yīng)用說明完整性方面,應(yīng)包含使用許可、目標應(yīng)用場景、評估方法、基準測試結(jié)果、典型應(yīng)用案例等應(yīng)用說明。數(shù)據(jù)質(zhì)量指標直接衡量數(shù)據(jù)本體的質(zhì)量是否滿足人工智能模型開發(fā)和訓(xùn)練的基本要求。關(guān)鍵指標包括:格式規(guī)范性,數(shù)據(jù)集中數(shù)據(jù)的格式符合預(yù)定標準,可直接用于人工智能模型開發(fā)和訓(xùn)練;安全規(guī)范性:數(shù)據(jù)集中數(shù)據(jù)符合人工智能模型開發(fā)和訓(xùn)練的安全要求,應(yīng)不包含違反社會主義核心價值觀的內(nèi)容、歧視性內(nèi)容、商業(yè)違法違規(guī)、侵犯他人合法權(quán)益等非法內(nèi)容;標注規(guī)范性:數(shù)據(jù)集中數(shù)據(jù)的標注符合預(yù)定的標注規(guī)范,遵循預(yù)先設(shè)定的規(guī)范化流程;結(jié)構(gòu)完整性:數(shù)據(jù)集描述數(shù)據(jù)的元數(shù)據(jù)完整,不包含缺失值或缺失值應(yīng)在合理范圍內(nèi);內(nèi)容真實性:數(shù)據(jù)集中數(shù)據(jù)真實可追溯。非合成數(shù)據(jù)能追溯到采集源頭,能與采集源頭保持一致,不存在未經(jīng)說明的篡改;合成數(shù)據(jù)能追內(nèi)容一致性:數(shù)據(jù)集中相關(guān)聯(lián)的數(shù)據(jù)間內(nèi)容一致,能在語義和表達上保持匹配,包括不同模態(tài)數(shù)據(jù)間的一致性和同模態(tài)數(shù)據(jù)間的一致性;類型一致性:數(shù)據(jù)集中數(shù)據(jù)符合其所屬數(shù)據(jù)集類型的要求,通識數(shù)據(jù)集中數(shù)據(jù)應(yīng)蘊含通用知識,行業(yè)通識數(shù)據(jù)集中數(shù)據(jù)應(yīng)蘊含行業(yè)領(lǐng)域通用知識,行業(yè)專識數(shù)據(jù)集中數(shù)據(jù)應(yīng)蘊含行業(yè)領(lǐng)域?qū)I(yè)知識;內(nèi)容干凈性:數(shù)據(jù)集中數(shù)據(jù)經(jīng)過嚴格清洗處理,不包含臟數(shù)據(jù)。構(gòu)建統(tǒng)一的高質(zhì)量數(shù)據(jù)集質(zhì)量評價體系,是數(shù)據(jù)時代發(fā)展的必然要求。它能消除測評指標差異導(dǎo)致的“數(shù)據(jù)質(zhì)量迷局”,讓不同領(lǐng)域、不同機構(gòu)的數(shù)據(jù)集在同一標準下接受檢驗,實現(xiàn)質(zhì)量水平的橫向可比,為數(shù)據(jù)共享、跨域應(yīng)用掃清障礙。同時,統(tǒng)一體系可規(guī)范測評行為,提升整體測評能力,通過明確的標準和流程減少人為誤差,讓測評結(jié)果更具公信力。而有效的監(jiān)督機制還能倒逼數(shù)據(jù)生產(chǎn)和管理方重視質(zhì)量提升,從源頭保障數(shù)據(jù)價值的充分釋放,為數(shù)字經(jīng)濟、科研創(chuàng)新等領(lǐng)域提供堅實的數(shù)據(jù)支撐。構(gòu)建統(tǒng)一的高質(zhì)量數(shù)據(jù)集質(zhì)量評價體系,需從多方面著手。在指標設(shè)計層面,要打造層次清晰、結(jié)構(gòu)合理的體系。設(shè)置一級指標,如準確性指標可通過對比原始數(shù)據(jù)與權(quán)威數(shù)據(jù)源,計算誤差率、偏差度等量化指標進行評估,以反映數(shù)據(jù)與真實在評價流程方面,首先確定測評目標,明確是針對新構(gòu)建數(shù)據(jù)集的質(zhì)量評估,還是對已使用數(shù)據(jù)集的定期審查,抑或為特定項目篩選合適數(shù)據(jù)集等目標。然后制定詳細的評價計劃,依據(jù)測評目標選取適用的評價指標,確定樣本選取方法、評價工具以及人員安排等。在數(shù)據(jù)采集階段,確保樣本具有代表性,能真實反映數(shù)據(jù)集整體特征。接著開展數(shù)據(jù)測評,綜合運用統(tǒng)計分析法對數(shù)據(jù)進行量化分析,利用自動化檢測工具進行快速篩查,組織專家評審從專業(yè)角度把關(guān),收集用戶反饋了解實際使用感受等多種方式。對評價結(jié)果進行深入分析,找出數(shù)據(jù)集質(zhì)量問題所在,按照問題的嚴重程度和影響范圍進行分類排序,為后續(xù)改進提供清晰方向。最后,根據(jù)結(jié)果分析制定針對性改進措施,跟蹤改進措施的實施效果,形成閉環(huán)管理,持續(xù)提升數(shù)據(jù)集質(zhì)量。五、(一)一是針對智能化需求,搭建行業(yè)知識索引框架。結(jié)合行業(yè)業(yè)務(wù)邏輯和模型需求,提煉核心知識節(jié)點,搭建層次化知識架構(gòu),將既有數(shù)據(jù)資源與知識索引精準匹配,實現(xiàn)數(shù)據(jù)的知識化歸類。例如,醫(yī)療行業(yè)聚焦疾病診斷與藥物研發(fā),金融行業(yè)則圍繞風(fēng)險控制和客戶營銷。該索引為模型應(yīng)用提供結(jié)構(gòu)化路徑,支持快速調(diào)用關(guān)聯(lián)數(shù)據(jù),有助于加速模型訓(xùn)練迭代,將數(shù)據(jù)資源高效轉(zhuǎn)化為驅(qū)動業(yè)務(wù)創(chuàng)新的智能生產(chǎn)力,實現(xiàn)從數(shù)據(jù)到模型的價值躍升。平臺、流通交易、行業(yè)應(yīng)用以及安全保障等方面,建立健全高質(zhì)量數(shù)據(jù)集標準體系,為模型開發(fā)方、數(shù)據(jù)運營方與管理方建立統(tǒng)一標準。在生產(chǎn)環(huán)節(jié),制定數(shù)據(jù)采集、處理、標注等標準,規(guī)范數(shù)據(jù)生產(chǎn)流程;在質(zhì)檢環(huán)節(jié),明確質(zhì)量評估指標,規(guī)范自動化工具檢測、人工抽檢及模型反饋流程;在技術(shù)環(huán)節(jié),統(tǒng)一數(shù)據(jù)清洗、標注、存儲等技術(shù)工具的開發(fā)標準和要求,確保工具兼容性與易用性;在應(yīng)用環(huán)節(jié),制定數(shù)據(jù)與模型對接標準,規(guī)范資源運營與風(fēng)險管理流程。此外,加速研制行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)標準,規(guī)范各行業(yè)高質(zhì)量數(shù)據(jù)集的建設(shè)流程、技術(shù)要求與質(zhì)量評價體系。(二)研發(fā)環(huán)節(jié)聚焦數(shù)據(jù)集生成流程的系統(tǒng)性管控,包含需求管理、設(shè)計管理和數(shù)據(jù)加工三個子環(huán)節(jié)。在需求管理環(huán)節(jié),收集、分析、確認業(yè)務(wù)部門對數(shù)據(jù)集規(guī)模、模態(tài)、標注精度等的具體要求,明確其優(yōu)先級和合理性;在設(shè)計管理環(huán)節(jié),構(gòu)建覆蓋數(shù)據(jù)集質(zhì)量、安全、合規(guī)、采集、標注、存儲的全流程規(guī)范體系;合成等方面的技術(shù)要求,并由此開展具體的研發(fā)工作。通過三環(huán)節(jié)協(xié)同,確保數(shù)據(jù)集研發(fā)目標清晰、流程規(guī)范、處理標準,為后續(xù)環(huán)節(jié)奠定基礎(chǔ)。運維環(huán)節(jié)是確保數(shù)據(jù)集交付后的持續(xù)穩(wěn)定運行,涵蓋監(jiān)控管理及資源管理兩個方面。在監(jiān)控管理方面,建立數(shù)據(jù)集質(zhì)量、系統(tǒng)性能、安全合規(guī)等維度的監(jiān)控指標,實施日常監(jiān)控與告警機制。在資源管理方面,對數(shù)據(jù)資源、計算資源和存儲資源分別進行盤點和調(diào)度。對于數(shù)據(jù)資源,通過數(shù)據(jù)資產(chǎn)目錄厘清數(shù)據(jù)分布、權(quán)屬與質(zhì)量狀態(tài);針對計算資源,優(yōu)化任務(wù)調(diào)度與資源分配策略,平衡效能與成本,最大化集群利用率;針對存儲資源,實施分級存儲與生命周期管理,在成本、性能與可靠性間尋求平衡。系統(tǒng)性運維可減少因數(shù)據(jù)質(zhì)量下降、資源不足或安全風(fēng)險導(dǎo)致的服務(wù)中斷,保障數(shù)據(jù)集長期適配業(yè)務(wù)需求。(三)響應(yīng)及時、成本精準可控、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 清苑舒卿培訓(xùn)課件
- 新員工培訓(xùn)開場白
- 新員工培訓(xùn)創(chuàng)意教學(xué)
- 禁塑工作培訓(xùn)
- 項目進度質(zhì)量執(zhí)行責(zé)任書(6篇)
- 企業(yè)研發(fā)投入承諾書范文3篇
- 安徽農(nóng)業(yè)大學(xué)《水污染控制工程》2024 - 2025 學(xué)年第一學(xué)期期末試卷
- 2026安徽馬鞍山市財政信息中心編外聘用人員招聘1人備考題庫附答案詳解ab卷
- 安徽大學(xué)《環(huán)境監(jiān)測》2024 - 2025 學(xué)年第一學(xué)期期末試卷
- 安徽大學(xué)《法語口語》2024 - 2025 學(xué)年第一學(xué)期期末試卷
- 八年級上冊壓軸題數(shù)學(xué)考試試卷含詳細答案
- T/GFPU 1007-2022中小學(xué)幼兒園供餐潮汕牛肉丸
- 2024年攀枝花市中考英語試題(附答案)
- 人工智能通識教程第5章智能體
- 貨運險培訓(xùn)課件
- 新人教版PEP英語單詞表(三年級至六年級全8冊)
- 2025年高考(四川卷)化學(xué)真題(學(xué)生版+解析版)
- 春節(jié)施工停工期間安全檢查表
- 新收入準則稅會差異課件
- 公司安全環(huán)保部年終工作總結(jié)
- 2025版新《中華人民共和國治安管理處罰法》全文課件(原創(chuàng))
評論
0/150
提交評論