版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
一、高質(zhì)量數(shù)據(jù)集建設(shè)背景 1 二、高質(zhì)量數(shù)據(jù)集應(yīng)用需求 8(一)基礎(chǔ)認知層數(shù)據(jù)集需求——建立世界的基本認知 (三)行動規(guī)劃層數(shù)據(jù)集需求——規(guī)劃執(zhí)行具體行動 三、高質(zhì)量數(shù)據(jù)集建設(shè)現(xiàn)狀 17 19 21四、高質(zhì)量數(shù)據(jù)集建設(shè)方法與實踐 24 (四)數(shù)據(jù)集質(zhì)量評價 五、高質(zhì)量數(shù)據(jù)集建設(shè)運營體系 40 六、高質(zhì)量數(shù)據(jù)集建設(shè)推進思路 45 45(二)設(shè)施化推進高質(zhì)量數(shù)據(jù)集應(yīng)用 47 481(一)高質(zhì)量數(shù)據(jù)集的發(fā)展背景在以人工智能為代表的新一輪科技革命和產(chǎn)業(yè)變革深入推進的大背景下,數(shù)據(jù)正日益成為國家基礎(chǔ)性戰(zhàn)略資源和關(guān)鍵性生產(chǎn)要素。高質(zhì)量數(shù)據(jù)集作為人工智能發(fā)展的基礎(chǔ)支撐,其重要地位不斷上升,成為驅(qū)動技術(shù)創(chuàng)新、賦能產(chǎn)業(yè)升級和提升治理能力的重要抓手。當(dāng)前,高質(zhì)量數(shù)據(jù)集的建設(shè)正處于政策驅(qū)人工智能技術(shù)邁入大模型時代后,研發(fā)重點從“重點優(yōu)化模型架構(gòu)”轉(zhuǎn)向“模型與數(shù)據(jù)協(xié)同優(yōu)化”,其中高質(zhì)量數(shù)據(jù)的作用日益凸顯。主要表現(xiàn)在:一是將數(shù)據(jù)視為活的資產(chǎn),不再是一次性收集、處理后就束之高閣的靜態(tài)文件,而是一個需要持續(xù)投資、管理、監(jiān)控和優(yōu)化的動態(tài)、演進的戰(zhàn)略資產(chǎn)。二是一次性的數(shù)據(jù)處理工作,系統(tǒng)性處理海量數(shù)據(jù),并能提升數(shù)據(jù)質(zhì)量。三是整合領(lǐng)域?qū)<?,將擁有深厚行業(yè)知識的主題專家直標(biāo)注復(fù)雜案例、識別數(shù)據(jù)中的細微偏差,從而將領(lǐng)域智慧注入數(shù)據(jù)。四是建立模型反饋閉環(huán),將模型在實際應(yīng)用中的錯誤作為診斷信號,用來發(fā)現(xiàn)數(shù)據(jù)中的問題(如標(biāo)簽錯誤、數(shù)據(jù)分布不均、邊界案例缺失等然后有針對性地改進數(shù)據(jù)集。由此就形成了一個“數(shù)據(jù)飛輪”效應(yīng),更好的數(shù)據(jù)訓(xùn)練出更好的模2大模型參數(shù)規(guī)模指數(shù)級增長與多模態(tài)能力的拓展,數(shù)據(jù)需求從“量級積累”轉(zhuǎn)向“量質(zhì)并重”。例如,以O(shè)penAI為代表的國際領(lǐng)先科技企業(yè)正通過強化微調(diào)等技術(shù)手段,依托小規(guī)模但高度精準(zhǔn)、精細化、結(jié)構(gòu)化的高質(zhì)量數(shù)據(jù)集,實現(xiàn)大模型在垂直領(lǐng)域的專業(yè)化和實用化演進。這種“以質(zhì)取勝”的數(shù)據(jù)策略顯著提升了模型性能與落地能力。而DeepSeek模型在復(fù)雜邏輯推理任務(wù)中取得突破性進展,源于其R1模型采用的數(shù)學(xué)推理數(shù)據(jù)集,不僅要求答案正確性,更對解題步驟的規(guī)范性、邏輯鏈的完整性提出嚴格標(biāo)準(zhǔn),這種精細化的數(shù)據(jù)設(shè)計使得模人工智能走進千行百業(yè)的具體場景,行業(yè)模型的性能躍升越來越依賴數(shù)據(jù)與場景的深度耦合,從“數(shù)據(jù)規(guī)模競賽”轉(zhuǎn)向“數(shù)據(jù)質(zhì)量深耕”。越來越多的企業(yè)開始采用自動化的數(shù)據(jù)篩選、數(shù)據(jù)標(biāo)注與數(shù)據(jù)增強等技術(shù)工具,以提升數(shù)據(jù)集的專業(yè)性和適用性。在這種趨勢下,模型訓(xùn)練不再依賴于盲目擴充數(shù)據(jù)規(guī)模,而是更注重數(shù)據(jù)的代表性、多樣性和場景適配性,為人工智能的可持續(xù)發(fā)展奠定堅實基礎(chǔ)。例如,醫(yī)療領(lǐng)域中某肺結(jié)節(jié)檢測模型訓(xùn)練數(shù)據(jù)集僅利用1萬多例數(shù)據(jù)和亞毫米級病灶邊工業(yè)質(zhì)檢場景中某企業(yè)通過合成數(shù)據(jù)等技術(shù)生成了10萬種“極端缺陷樣本”,彌補了真實生產(chǎn)中罕見缺陷數(shù)據(jù)不足的問3黨中央、國務(wù)院高度重視數(shù)據(jù)資源的開發(fā)利用與高質(zhì)量發(fā)展,圍繞構(gòu)建數(shù)據(jù)基礎(chǔ)制度、完善數(shù)據(jù)要素市場、推動公共數(shù)據(jù)開放、夯實智能技術(shù)底座等方面,陸續(xù)出臺多項綱領(lǐng)性政策2022年12月,中共中央、國務(wù)院印發(fā)《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》,明確提出探索開展數(shù)強調(diào)數(shù)據(jù)要素高質(zhì)量供給與合規(guī)高效流通,提出打造高質(zhì)量人工智能大模型訓(xùn)練數(shù)據(jù)集。2024年12月,國家發(fā)展改革委、國家數(shù)據(jù)局等部門印發(fā)《關(guān)于促進數(shù)據(jù)產(chǎn)業(yè)高質(zhì)量發(fā)展的指導(dǎo)意見》,首次明確提出“高質(zhì)量數(shù)據(jù)集”概念,將其作為人工智能與實體經(jīng)濟融合的核心載體,并對行業(yè)數(shù)據(jù)集建設(shè)提出具體要求。隨后一系列政策相繼發(fā)布,《關(guān)于促進數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展的實施意見》《關(guān)于促進企業(yè)數(shù)據(jù)資源開發(fā)利用的意見》以及《國家數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)指引》等政策均提出建設(shè)行業(yè)“高質(zhì)量數(shù)據(jù)集”,由此數(shù)據(jù)集高質(zhì)量發(fā)展成為行業(yè)發(fā)展量數(shù)據(jù)集建設(shè)工作啟動會,加強統(tǒng)籌協(xié)調(diào),深化部門協(xié)同,全力推動高質(zhì)量數(shù)據(jù)集建設(shè),高效賦能行業(yè)高質(zhì)量發(fā)展,標(biāo)志著4高質(zhì)量數(shù)據(jù)集是指經(jīng)過采集、加工等數(shù)據(jù)處理,可直接用于開發(fā)和訓(xùn)練人工智能模型,能有效提升模型表現(xiàn)的數(shù)據(jù)的集合。高質(zhì)量數(shù)據(jù)集主要服務(wù)于人工智能的實際應(yīng)用場景,通常包括以下四個核心組成要素:特征、標(biāo)簽、元數(shù)據(jù)和樣本。特征是模型訓(xùn)練的輸入變量,用于描述每個樣本的具體屬性;標(biāo)簽是需要模型預(yù)測的目標(biāo)輸出;元數(shù)據(jù)記錄了數(shù)據(jù)生成與處理過程的相關(guān)信息,如采集時間、地點、來源等;樣本則是構(gòu)成數(shù)據(jù)集的基本單元,由特征向量及其對應(yīng)的標(biāo)簽共同組成。例如,機器學(xué)習(xí)中的經(jīng)典數(shù)據(jù)集鳶尾花(Iris)數(shù)據(jù)集,包含150花萼寬度、花瓣長度和花瓣寬度作為分類特征。再如圖像識別領(lǐng)域廣泛使用的ImageNet數(shù)據(jù)集,涵蓋超過1400萬張高分辨率圖像,覆蓋2萬多個類別,每張圖像均配有準(zhǔn)確的類別標(biāo)簽,高質(zhì)量體現(xiàn)在規(guī)?!按蟆薄踩袄巍?、觀點“正”、效果“好”、應(yīng)用“廣”等方面,可以采用靜態(tài)和動態(tài)的質(zhì)量評價方法來度量。靜態(tài)質(zhì)量主要關(guān)注數(shù)據(jù)本身的關(guān)鍵屬性,在準(zhǔn)確性、完整性、一致性、時效性等基礎(chǔ)指標(biāo)上增加多樣性、真實性、合規(guī)性等維度,重點評估數(shù)據(jù)的領(lǐng)域覆蓋、來源可靠性以及在隱私保護和安全合規(guī)方面的表現(xiàn)。動態(tài)質(zhì)量則強調(diào)數(shù)據(jù)集在模型訓(xùn)練和應(yīng)用中的實際效果,可通過引入代表性模型開展基準(zhǔn)測試,結(jié)合基準(zhǔn)評測數(shù)據(jù)集與量化指標(biāo),客觀衡量模型性能的提升程度,從而明確數(shù)據(jù)集的“高質(zhì)量”標(biāo)準(zhǔn)。同時,5還應(yīng)建設(shè)統(tǒng)一的質(zhì)量評估平臺,規(guī)范評估流程與工具,增強不同數(shù)據(jù)集之間的可比性與通用性。由于不同行業(yè)數(shù)據(jù)集的模態(tài)分布、標(biāo)注需求差異較大,需根據(jù)行業(yè)特點應(yīng)用不同的數(shù)據(jù)處理技術(shù)和方法,其質(zhì)量評價也需要在通用的指標(biāo)上進行定制加強。例如,醫(yī)療衛(wèi)生領(lǐng)域,以文本(電子病歷)和醫(yī)療影像居多,側(cè)重于文本解析、圖文結(jié)合處理和專業(yè)標(biāo)注等處理方式,更關(guān)注數(shù)據(jù)內(nèi)容的合規(guī)性、安全性和標(biāo)注準(zhǔn)確性;工業(yè)制造領(lǐng)域,以時序數(shù)據(jù)、圖像、圖紙文檔、仿真數(shù)據(jù)居多,側(cè)重于時序數(shù)據(jù)處理、高精度合成和專業(yè)標(biāo)注等處理方式,更關(guān)注數(shù)據(jù)高質(zhì)量數(shù)據(jù)集的類型和特性因應(yīng)用場景、數(shù)據(jù)來源與模型目標(biāo)的不同而呈現(xiàn)多樣化,可以從數(shù)據(jù)模態(tài)、模型階段與行業(yè)單模態(tài)數(shù)據(jù)中,文本數(shù)據(jù)是非結(jié)構(gòu)化的語言信息,用于自然語言處理的機器翻譯、情感分析等場景以及語言模型的訓(xùn)練;圖像數(shù)據(jù)是像素矩陣構(gòu)成的視覺信息,用于計算機視覺的圖像分類、目標(biāo)檢測、醫(yī)療影像分析以及自動駕駛等場景;音頻數(shù)據(jù)是聲波信號,用于語音識別、音樂生成、工業(yè)設(shè)備異常檢測等場景;IoT數(shù)據(jù)主要是傳感器的實時流數(shù)據(jù),例如溫度、加速度等,用于設(shè)備狀態(tài)的監(jiān)控、智慧城市中交通流量的預(yù)測等場景。而多模態(tài)數(shù)據(jù)是指兩種及以上模態(tài)數(shù)據(jù)的融合,通過6而近期新涌現(xiàn)的思維鏈數(shù)據(jù)則是一種數(shù)據(jù)標(biāo)注方法或推理過程的表示方法,而非一種獨立的數(shù)據(jù)模態(tài),主要是通過分步推理解釋模型決策,演繹從問題到答案的具體推理步驟,用于數(shù)學(xué)證明、邏輯謎題等模型的復(fù)雜推理,同時也提高人類對模型的在模型階段方面,主要分為預(yù)訓(xùn)練數(shù)據(jù)集、微調(diào)數(shù)據(jù)集和評估數(shù)據(jù)集。預(yù)訓(xùn)練數(shù)據(jù)集是用于大規(guī)模無監(jiān)督或自監(jiān)督學(xué)習(xí)的基礎(chǔ)數(shù)據(jù)集,通過讓模型從中學(xué)習(xí)通用特征和知識,為后續(xù)任務(wù)提供強大的初始參數(shù)。它是大模型訓(xùn)練的基石,其核心邏輯是“先通識教育,再專業(yè)精修”,特點是海量、無需標(biāo)注且來源廣泛,包括網(wǎng)頁內(nèi)容、書籍、學(xué)術(shù)文獻、編程代碼、平行語料庫、社交媒體和百科全書等。微調(diào)數(shù)據(jù)集是讓模型“術(shù)業(yè)有專攻”的關(guān)鍵,其核心作用是讓模型在特定任務(wù)、領(lǐng)域或場景中表現(xiàn)更優(yōu),引導(dǎo)模型聚焦特定任務(wù)的規(guī)律,強化與任務(wù)相關(guān)的知識,同時弱化無關(guān)信息的干擾,最終實現(xiàn)“通用能力+專項技能”的結(jié)合。它是連接通用預(yù)訓(xùn)練模型與具體應(yīng)用需求的“橋梁”,相比預(yù)訓(xùn)練階段使用的海量通用數(shù)據(jù),微調(diào)數(shù)據(jù)集通常具有規(guī)模更小、針對性更強、標(biāo)注更精細的特點。評估數(shù)據(jù)集是一類精心設(shè)計的數(shù)據(jù)樣本,主要目的是為了相對客觀地衡量模型的性能和泛化能力,具備獨立性、代表性、時效性等在行業(yè)應(yīng)用方面,參考技術(shù)文件《高質(zhì)量數(shù)據(jù)集分類指南7(征求意見稿)》可以分為通識數(shù)據(jù)集、行業(yè)通識數(shù)據(jù)集和行業(yè)專識數(shù)據(jù)集。高質(zhì)量數(shù)據(jù)集作為開發(fā)和訓(xùn)練人工智能模型的重要支撐,不同類型模型所需數(shù)據(jù)集蘊含的通用知識、行業(yè)領(lǐng)通識、行業(yè)通識、行業(yè)專識三類高質(zhì)量數(shù)據(jù)集,主要是通過數(shù)據(jù)集的知識內(nèi)容、來源類型、時效性、標(biāo)注人員類型、敏感程度、模型類型、主題范圍等維度來進行劃分。通識數(shù)據(jù)集包含面向社會公眾、無需專業(yè)背景即可理解的通用知識,主要用于支撐通用模型落地應(yīng)用,例如百度百科;行業(yè)通識數(shù)據(jù)集包含面向行業(yè)從業(yè)人員、需要一定專業(yè)背景才能理解的行業(yè)領(lǐng)域通行業(yè)專識數(shù)據(jù)集包含面向特定業(yè)務(wù)場景相關(guān)人員、需要較深的專業(yè)背景才能理解的行業(yè)領(lǐng)域?qū)I(yè)知識,主要用于支撐業(yè)務(wù)場8隨著人工智能技術(shù)的快速發(fā)展,不同應(yīng)用領(lǐng)域?qū)Ω哔|(zhì)量數(shù)發(fā)展路徑和認知層次,高質(zhì)量數(shù)據(jù)集的應(yīng)用需求可以劃分為基礎(chǔ)認知層、場景理解層、行動規(guī)劃層三個遞進層次。從建立世每一層都承載著不同的學(xué)習(xí)目標(biāo)和能力要求。深入探索這三個層次對高質(zhì)量數(shù)據(jù)集的具體需求,將為建設(shè)主體提供清晰的數(shù)(一)基礎(chǔ)認知層數(shù)據(jù)集需求——建立世界的基本認知基礎(chǔ)認知層是人工智能系統(tǒng)的根基,主要負責(zé)建立對世界“這是什么”的基本判斷能力,構(gòu)建對物理世界和抽象概念的基礎(chǔ)認知層需要通過海量數(shù)據(jù)學(xué)習(xí)各領(lǐng)域的通用模式和基本概念,這種學(xué)習(xí)過程類似于人類兒童通過大量觀察和體驗認識世界的過程。在語言領(lǐng)域,系統(tǒng)不僅需要掌握詞匯、語法、形成對自然語言的內(nèi)在理解;在視覺領(lǐng)域,需要學(xué)習(xí)從低級特征(邊緣、紋理、顏色)到高級概念(物體、場景)的層次化表征,建立視覺世界的認知地圖;在跨模態(tài)領(lǐng)域,需要建立不9同模態(tài)間的基礎(chǔ)對應(yīng)關(guān)系,理解同一概念在不同感知通道中的表現(xiàn)形式。這種學(xué)習(xí)強調(diào)知識的廣度覆蓋和基礎(chǔ)模式的充分學(xué)基礎(chǔ)認知層數(shù)據(jù)集的顯著特征是規(guī)模龐大,通常達到TB至PB級別,這種規(guī)模需求有其深層的理論依據(jù)。大語言模型的預(yù)訓(xùn)練語料包含數(shù)萬億詞元(Token),這種海量數(shù)據(jù)使模型能夠捕捉語言中的長尾分布和罕見模式;視覺領(lǐng)域的大規(guī)模數(shù)確保模型能夠?qū)W習(xí)到視覺世界的多樣性。這種大規(guī)模需求源于模型需要從數(shù)據(jù)中學(xué)習(xí)通用表征,遵循尺度定律(ScalingLaw)——隨著數(shù)據(jù)規(guī)模的增加,模型性能會持續(xù)提升,且這種提升呈現(xiàn)冪律關(guān)系。更重要的是,海量數(shù)據(jù)能夠提供足夠的統(tǒng)計信息,使模型學(xué)習(xí)到穩(wěn)定可靠的模式,而非過擬合于特定基礎(chǔ)認知層對數(shù)據(jù)質(zhì)量的要求體現(xiàn)在多個維度的平衡上。首先是覆蓋面的廣度,數(shù)據(jù)需要涵蓋多領(lǐng)域(科學(xué)、文學(xué)、歷非正式、專業(yè)、日常等這種廣覆蓋確保模型具備處理多樣化輸入的能力;其次是數(shù)據(jù)分布的合理性,要能夠反映真實世界的特征分布,避免因數(shù)據(jù)偏見導(dǎo)致模型產(chǎn)生系統(tǒng)性偏差;第三是基礎(chǔ)質(zhì)量的保障,需要經(jīng)過去重處理避免過擬合、去噪過濾提高信噪比、內(nèi)容審核確保安全合規(guī)。值得注意的是,相比后續(xù)層次,這一階段對標(biāo)注精度的要求相對較低,更多依賴自監(jiān)督學(xué)習(xí),從數(shù)據(jù)本身的結(jié)構(gòu)中學(xué)習(xí),這也是為什么能夠利用基礎(chǔ)認知層數(shù)據(jù)集支撐了各類基礎(chǔ)模型的訓(xùn)練,這些基礎(chǔ)模型通過大規(guī)模文本預(yù)訓(xùn)練,不僅學(xué)會了語言的表面形式,更掌握了語言背后的知識結(jié)構(gòu)和推理模式,為各種下游任務(wù)提供Transformer等通過大規(guī)模圖像數(shù)據(jù)集訓(xùn)練,建立了從像素到語義的完整映射,使計算機視覺從特征工程時代進入深度學(xué)習(xí)時代;跨模態(tài)的CLIP等模型通過海量圖文對數(shù)據(jù),學(xué)習(xí)到視覺這些基礎(chǔ)模型通過遷移學(xué)習(xí)和微調(diào),能夠快速適應(yīng)各種下游任場景理解層在基礎(chǔ)認知之上,負責(zé)理解復(fù)雜場景中的結(jié)構(gòu)度解析“這里發(fā)生了什么”“關(guān)系如何”“為什么會這樣”等鍵跨越,它要求系統(tǒng)不僅能識別單個元素,更要理解元素間的場景理解層要求模型具備結(jié)構(gòu)解析和關(guān)系推理能力,這種能力遠超簡單的模式匹配。在語言領(lǐng)域,模型需要理解篇章的能夠進行因果推理、類比推理和反事實推理;在視覺領(lǐng)域,需要理解多個對象的空間關(guān)系(上下、左右、包含、相鄰)、功能關(guān)系(工具與使用者、容器與內(nèi)容物)和場景的整體布局,從而推斷場景的功能和可能發(fā)生的事件;在視頻領(lǐng)域,需要理解時序事件的因果鏈條、動作的目的和結(jié)果、場景的動態(tài)變化規(guī)律,捕捉關(guān)鍵幀之間的語義連續(xù)性。這一層強調(diào)從簡單識別到深度理解的能力躍升,要求模型具備類似人類的場景解析和場景理解層數(shù)據(jù)集包含豐富而精細的標(biāo)注,每個標(biāo)注都承載著特定的語義信息。語言理解數(shù)據(jù)集如SQuAD不僅包含問答對,還標(biāo)注了答案在原文中的精確位置和推理依據(jù),要求模型理解問題意圖并定位關(guān)鍵信息;視覺場景數(shù)據(jù)集如COCO包含多層次標(biāo)注體系——從粗粒度的場景類別到細粒度的像素級分割,從靜態(tài)的對象位置到動態(tài)的動作描述,形成了完整的視覺語義體系;視頻理解數(shù)據(jù)集如ActivityNet包含時序動作的精確邊界、動作類別的層次結(jié)構(gòu)以及事件間的因果關(guān)系。數(shù)據(jù)規(guī)模通常在十萬到百萬級別,這種相對適中的規(guī)模反映了一個重要權(quán)衡:標(biāo)注的精細度與覆蓋的廣度。每個樣本都經(jīng)過精心設(shè)場景理解層對數(shù)據(jù)質(zhì)量有著嚴格的多維度要求。語義完整性要求標(biāo)注覆蓋場景的所有關(guān)鍵信息,不能有重要元素的遺漏——例如在圖像描述中,不僅要標(biāo)注主要對象,還要包括它們的屬性、狀態(tài)和相互關(guān)系;邏輯一致性要求不同層次、不同角度的標(biāo)注必須相互協(xié)調(diào),形成統(tǒng)一的語義表達——如對象檢測的結(jié)果要與場景分類一致,時序標(biāo)注要與事件描述對應(yīng),避免矛盾和歧義;標(biāo)注精確性要求細粒度的語義區(qū)分,能夠區(qū)分相似但不同的概念、動作或關(guān)系。這需要專業(yè)的標(biāo)注團隊經(jīng)過系統(tǒng)培訓(xùn),遵循詳細的標(biāo)注規(guī)范,并通過多輪交叉驗證和一致性檢查來保證質(zhì)量。質(zhì)量控制流程通常包括標(biāo)注員培訓(xùn)、樣例場景理解層數(shù)據(jù)集廣泛應(yīng)用于各類需要深度理解的AI在自然語言處理領(lǐng)域,機器閱讀理解系統(tǒng)能夠回答關(guān)于文本的復(fù)雜問題,信息抽取系統(tǒng)能夠從非結(jié)構(gòu)化文本中提取結(jié)構(gòu)化知識;在計算機視覺領(lǐng)域,目標(biāo)檢測能夠精確定位和識別圖像中的多個對象,語義分割能夠理解每個像素的語義類別,場景圖生成能夠構(gòu)建對象間的關(guān)系網(wǎng)絡(luò);在視頻分析領(lǐng)域,動作識別能夠理解人類的復(fù)雜行為,事件檢測能夠發(fā)現(xiàn)視頻中的關(guān)鍵時刻。這些應(yīng)用不僅要求模型能夠識別“是什么”,更要理解策和行動,實現(xiàn)從認知到執(zhí)行的完整閉環(huán)。這一層的核心是讓AI系統(tǒng)掌握“怎么做”“為什么這么做”以及“這樣做的后果是什么”,形成類似人類的決策推理能力。行動規(guī)劃層代表了AI從被動響應(yīng)到主動規(guī)劃的質(zhì)變,是實現(xiàn)通用人工智能的關(guān)鍵行動規(guī)劃層需要學(xué)習(xí)從問題識別到方案制定再到執(zhí)行驗證的完整認知過程。在復(fù)雜推理領(lǐng)域,模型需要掌握多步推理的邏輯鏈條,能夠?qū)?fù)雜問題分解為子問題,選擇合適的求解策略,并驗證每一步的正確性;在對話交互領(lǐng)域,需要理解用戶的真實意圖(包括字面意思和潛在需求根據(jù)上下文選擇合適的回應(yīng)策略,維持對話的連貫性和目標(biāo)導(dǎo)向性;在代碼生成領(lǐng)域,需要理解需求的本質(zhì),設(shè)計合理的算法架構(gòu),處理邊界需要將高層任務(wù)目標(biāo)分解為可執(zhí)行的動作序列,考慮環(huán)境約束和不確定性,實時調(diào)整執(zhí)行策略。這一層強調(diào)思維的完整性、行動規(guī)劃層數(shù)據(jù)集的核心特征是包含完整、可追溯的推理和決策過程。思維鏈(Chain-of-Thought)數(shù)據(jù)不僅提供最終答案,更重要的是展示到達答案的每一個推理步驟,包括假設(shè)的提出、驗證、修正的完整過程,使模型學(xué)會“如何思考”而非僅僅“記住答案”;代碼數(shù)據(jù)集包含從需求分析、設(shè)計思路、實現(xiàn)細節(jié)到測試驗證的完整軟件開發(fā)流程,每個決策點都有明確的理由和權(quán)衡;強化學(xué)習(xí)數(shù)據(jù)集記錄了智能體在環(huán)境中的完整交互歷史,包括狀態(tài)觀察、動作選擇、獎勵反饋和策略調(diào)整,展現(xiàn)了試錯學(xué)習(xí)的完整過程;人機對話數(shù)據(jù)集保留了多輪交互的完整上下文,包括話題的展開、轉(zhuǎn)換和收束,以及對話策略的動態(tài)調(diào)整。數(shù)據(jù)規(guī)模相對精煉,通常在千到百萬級別,但每個樣本都是精心構(gòu)造的“思維標(biāo)本”,包含豐富的決策信息和行動規(guī)劃層對數(shù)據(jù)質(zhì)量的要求達到了最高標(biāo)準(zhǔn),因為這直終結(jié)果正確,更要求推理過程的每一步都有充分的邏輯依據(jù)和事實支撐,避免“歪打正著”的偽推理;邏輯嚴密性要求推理鏈條完整、清晰、可驗證,沒有邏輯跳躍、循環(huán)論證或自相矛盾,每個推導(dǎo)步驟都能被人類專家理解和審核;價值對齊是最觀、道德準(zhǔn)則和社會規(guī)范,不產(chǎn)生有害、偏見或違背倫理的輸由領(lǐng)域?qū)<疫M行多輪評估,甚至需要建立專門的倫理審查機制。數(shù)據(jù)的構(gòu)建過程往往需要跨學(xué)科團隊的協(xié)作,包括領(lǐng)域?qū)<姨釕?yīng)用。在科學(xué)研究領(lǐng)域,數(shù)學(xué)定理證明系統(tǒng)能夠發(fā)現(xiàn)新的證明路徑,科學(xué)假設(shè)生成系統(tǒng)能夠提出可驗證的研究方向;在軟件開發(fā)領(lǐng)域,代碼生成系統(tǒng)不僅能編寫功能代碼,還能進行代碼優(yōu)化、錯誤調(diào)試和文檔生成;在人機交互領(lǐng)域,對話系統(tǒng)能夠進行深度的知識問答、情感陪伴和任務(wù)協(xié)助,展現(xiàn)出類人的交流能力;在機器人領(lǐng)域,自主導(dǎo)航系統(tǒng)能夠在復(fù)雜環(huán)境中規(guī)劃路徑,操作機器人能夠完成精細的物體操控任務(wù);在游戲AI領(lǐng)域,策略系統(tǒng)能夠在復(fù)雜的游戲環(huán)境中制定長期策略,展現(xiàn)出超越人類的規(guī)劃能力。這些應(yīng)用代表了AI技術(shù)的最通過對基礎(chǔ)認知、場景理解、行動規(guī)劃三個層次數(shù)據(jù)集需富生成、對話系這種層次化的數(shù)據(jù)集建設(shè)框架不僅反映了當(dāng)前AI技術(shù)發(fā)展的實際需求,更揭示了智能系統(tǒng)能力提升的內(nèi)在規(guī)律。從基礎(chǔ)認知到場景理解再到行動規(guī)劃,每一層都建立在前一層的基礎(chǔ)基礎(chǔ)認知層提供了感知和表征能力,場景理解層實現(xiàn)了語義解析和關(guān)系推理,行動規(guī)劃層完成了決策制定和執(zhí)行規(guī)劃。通過針對性地建設(shè)不同層次的高質(zhì)量數(shù)據(jù)集,平衡各層次的發(fā)展需求,可以系統(tǒng)性地推動人工智能從狹義智能向通用智能演進,近年來,全球高質(zhì)量數(shù)據(jù)集建設(shè)進入加速階段,呈現(xiàn)出政策引導(dǎo)、市場驅(qū)動與技術(shù)革新協(xié)同推進的態(tài)勢。歐美等發(fā)達經(jīng)濟體在開放共享、標(biāo)準(zhǔn)體系、平臺化建設(shè)方面走在前列,形成了較為完善的多模態(tài)、多領(lǐng)域數(shù)據(jù)集生態(tài)體系;我國則在國家區(qū)域與行業(yè)層面呈現(xiàn)并進發(fā)展格局。本指引通過分別梳理全球與我國的高質(zhì)量數(shù)據(jù)集建設(shè)情況,分析當(dāng)前面臨的主要困難與(一)全球高質(zhì)量數(shù)據(jù)集建設(shè)現(xiàn)狀目前全球范圍內(nèi),高質(zhì)量數(shù)據(jù)集建設(shè)呈現(xiàn)出通識類與行業(yè)類并行推進的格局。通識數(shù)據(jù)集主要服務(wù)于通用人工智能模型的基礎(chǔ)能力建設(shè),強調(diào)廣度和多樣性;行業(yè)數(shù)據(jù)集則聚焦于特歐美國家作為通識數(shù)據(jù)集的建設(shè)主力,一方面全力支撐大規(guī)模預(yù)訓(xùn)練模型。例如,KaggleDatasets平臺提供了超過50萬康、社交等多個領(lǐng)域,美國人工智能公司HuggingFace托管超4萬個開源數(shù)據(jù)集,涵蓋文本、圖像、語音等多種模態(tài),數(shù)據(jù)紐之一。美國非營利組織創(chuàng)建的非結(jié)構(gòu)化、多語言網(wǎng)頁開源數(shù)據(jù)集CommonCrawl,總數(shù)據(jù)量達到PB級別,是OpenAI、Meta等科技巨頭大規(guī)模語言模型訓(xùn)練的重要數(shù)據(jù)來源之一。德國非營利組織創(chuàng)建的數(shù)據(jù)集LAION-5B以圖文對數(shù)據(jù)為主,是據(jù)支持。加拿大多倫多大學(xué)開發(fā)者創(chuàng)建的數(shù)據(jù)集BooksCorpus是一個以電子英文書籍為主的文本類數(shù)據(jù)庫,覆蓋多領(lǐng)域多學(xué)源。另一方面,積極建設(shè)開放平臺等基礎(chǔ)設(shè)施提供統(tǒng)一服務(wù)。例如,截至目前,美國國家開放數(shù)據(jù)平臺()收錄超過32萬個數(shù)據(jù)集,涵蓋環(huán)境、健康、交通、海洋、能源等領(lǐng)域。歐盟統(tǒng)一數(shù)據(jù)門戶(data.europa.eu)成為歐盟全域開放數(shù)據(jù)的行政、健康、環(huán)境、經(jīng)濟、科技等領(lǐng)域,成為歐盟發(fā)展數(shù)字主(.uk)作為官方公共數(shù)據(jù)集訪問節(jié)點,收錄超過5.6萬個數(shù)據(jù)集,涵蓋政府機構(gòu)發(fā)布的民生、經(jīng)濟、環(huán)境等領(lǐng)域,聚焦高價值數(shù)據(jù)集成的AI訓(xùn)練生態(tài)系統(tǒng)。一方面,歐美國家通過實施法案加速行業(yè)數(shù)據(jù)集的建設(shè)與制要求成員國開放環(huán)境、地理、交通、企業(yè)、經(jīng)濟、氣象等行業(yè)通識數(shù)據(jù),要求機器可讀格式,提升數(shù)據(jù)可用性,支撐環(huán)境監(jiān)測、城市規(guī)劃及歐洲共同數(shù)據(jù)空間建設(shè),為跨行業(yè)AI模型提成為法律,旨在利用數(shù)據(jù)力量系統(tǒng)性地推進跨行業(yè)通識數(shù)據(jù)集零售等八大戰(zhàn)略行業(yè),致力于實現(xiàn)釋放100億英鎊以上的經(jīng)濟價值目標(biāo)。另一方面,多領(lǐng)域各行業(yè)加速數(shù)據(jù)集建設(shè)。歐盟EuroStatIndustryHub數(shù)據(jù)集包含所有成員國的完整工業(yè)統(tǒng)計數(shù)據(jù),覆蓋制造業(yè)、能源、建筑業(yè)等核心產(chǎn)業(yè)。美國醫(yī)療領(lǐng)域高質(zhì)量數(shù)據(jù)集PubMed,含超3800萬篇論文摘要,為醫(yī)療大模型提供術(shù)語體系與知識框架,支撐臨床決策輔助系統(tǒng)、藥物研發(fā)模型。美國證監(jiān)會企業(yè)財務(wù)報告數(shù)據(jù)庫SECfilings,收錄超過1800萬份文件,是目前全球最大、最完整的開源上市公司財務(wù)文本庫之一,已廣泛用于量化投資、自然語言處理預(yù)訓(xùn)練、合在黨中央、國務(wù)院的統(tǒng)籌部署下,我國高質(zhì)量數(shù)據(jù)集建設(shè)作為交易流通中的關(guān)鍵商品,累計交易額近40億元,規(guī)模達多元協(xié)作”的鮮明特點。建設(shè)工作既在國家層面統(tǒng)一部署、總體謀劃,又在區(qū)域與行業(yè)兩個維度形成分工協(xié)作的格局。區(qū)域高質(zhì)量數(shù)據(jù)集建設(shè)由國家數(shù)據(jù)局統(tǒng)籌指導(dǎo),依托各地政策和資20源分層推進落地;行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)則以中央企業(yè)和科研地方層面,各地立足區(qū)域特色,積極探索高質(zhì)量數(shù)據(jù)集建設(shè)創(chuàng)新路徑,形成了各具特色、協(xié)同發(fā)展的良好局面。一方面,國家數(shù)據(jù)局統(tǒng)籌建設(shè)成都、沈陽、合肥、長沙、???、保定和大同七大數(shù)據(jù)標(biāo)注基地,充分發(fā)揮地方配套支撐作用,在數(shù)據(jù)標(biāo)注產(chǎn)業(yè)的生態(tài)構(gòu)建、能力提升和場景應(yīng)用等方面先行先試,集聚龍頭企業(yè),促進區(qū)域人工智能產(chǎn)業(yè)生態(tài)發(fā)展,目前已建設(shè)行業(yè)高質(zhì)量數(shù)據(jù)集524個,數(shù)據(jù)總規(guī)模超過29PB,賦能163個國產(chǎn)人工智能大模型研發(fā)與應(yīng)用,帶動數(shù)據(jù)標(biāo)注行業(yè)相關(guān)產(chǎn)值超過83億元。另一方面,江蘇、蘇州、貴州、成都、上海、寧波、廣東、福建、杭州、河南、山東等地分別從數(shù)據(jù)集建設(shè)、數(shù)據(jù)質(zhì)量評價、數(shù)據(jù)產(chǎn)品開發(fā)等多方面建立政策體系、打造特色案例。例如貴州以專項資金支持重點行業(yè)領(lǐng)域,建設(shè)高質(zhì)量數(shù)據(jù)集。蘇州發(fā)布30個高質(zhì)量數(shù)據(jù)集,覆蓋工業(yè)制造、交通運輸、金融服務(wù)等領(lǐng)域。北京國際大數(shù)據(jù)交易所引入高質(zhì)量數(shù)據(jù)行業(yè)層面,中央企業(yè)、大模型技術(shù)企業(yè)、標(biāo)準(zhǔn)化組織、科研學(xué)術(shù)機構(gòu)等多方主體正協(xié)同共建行業(yè)生態(tài)體系,形成了多元聯(lián)動的發(fā)展格局。一是行業(yè)主體發(fā)揮數(shù)據(jù)資源優(yōu)勢,成為高質(zhì)量數(shù)據(jù)集建設(shè)的重要力量,醫(yī)療衛(wèi)生、工業(yè)制造、智慧能源等21領(lǐng)域建設(shè)活躍,低空經(jīng)濟、具身智能、生物制造等領(lǐng)域需求迫切。今年4月,國務(wù)院國資委發(fā)布首批10余個行業(yè)30項央企人工智能行業(yè)高質(zhì)量數(shù)據(jù)集優(yōu)秀建設(shè)成果。8月,國家數(shù)據(jù)局征集遴選出104個高質(zhì)量數(shù)據(jù)集典型案例,涵蓋科學(xué)研究、工業(yè)制造、智慧能源、交通運輸、醫(yī)療衛(wèi)生、教育教學(xué)等點領(lǐng)域,以及低空經(jīng)濟、具身智能、智能駕駛、智慧海洋、生物制造等5個創(chuàng)新領(lǐng)域。二是全國數(shù)據(jù)標(biāo)準(zhǔn)化技術(shù)委員會等相關(guān)標(biāo)準(zhǔn)化組織積極協(xié)同企業(yè)開展高質(zhì)量數(shù)據(jù)集建設(shè)和標(biāo)準(zhǔn)化研討會,助力完善高質(zhì)量數(shù)據(jù)集國家、行業(yè)、團體等標(biāo)準(zhǔn)體系,明確高質(zhì)量數(shù)據(jù)集的建設(shè)路徑,為業(yè)界實踐提供兼具方向性和規(guī)范性的操作指引,推動行業(yè)數(shù)據(jù)水平提升。三是大模型企業(yè)和科研機構(gòu)也積極貢獻力量,豐富行業(yè)數(shù)據(jù)資源,為人工智能為智能問答系統(tǒng)的研發(fā)提供了高質(zhì)量的訓(xùn)練數(shù)據(jù)。智源研究院發(fā)布中英雙語數(shù)據(jù)集IndustryCorpus1.0包含3.4TB開源行業(yè)預(yù)用提供參考。鵬城國家實驗室開源百萬規(guī)模標(biāo)準(zhǔn)化具身智能數(shù)任務(wù)實例。上海人工智能實驗室開源數(shù)據(jù)平臺OpenDataLab提80TB以上,下載量超過百萬次,為行業(yè)技術(shù)創(chuàng)新提供了豐富22雖然我國高質(zhì)量數(shù)據(jù)集建設(shè)在國家統(tǒng)籌、推進模式和應(yīng)用場景方面具有獨特優(yōu)勢,但在數(shù)據(jù)開放度、標(biāo)準(zhǔn)體系、關(guān)鍵技數(shù)據(jù)供給方面,結(jié)構(gòu)性短缺與流通壁壘。高質(zhì)量語料枯竭技術(shù)實現(xiàn)方面,處理能力與工具鏈水平薄弱。現(xiàn)有技術(shù)難以高效處理文本、圖像、視頻等混合結(jié)構(gòu)數(shù)據(jù),自動化清洗、智能化標(biāo)注工具成熟度低。數(shù)據(jù)清洗、標(biāo)注等環(huán)節(jié)仍依賴傳統(tǒng)標(biāo)準(zhǔn)與治理方面,規(guī)范與協(xié)同機制待完善。標(biāo)準(zhǔn)體系規(guī)劃仍需完善,如行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)指南、分類標(biāo)準(zhǔn)、數(shù)據(jù)格安全與合規(guī)方面,風(fēng)險控制與開放平衡。隱私與安全技術(shù)瓶頸,數(shù)據(jù)脫敏、差分隱私等技術(shù)的規(guī)?;瘧?yīng)用滯后,數(shù)據(jù)泄漏風(fēng)險制約高價值敏感數(shù)據(jù)(如醫(yī)療、金融)的開放。權(quán)屬規(guī)成本與模式方面,商業(yè)閉環(huán)未形成。投入產(chǎn)出比例失衡,數(shù)據(jù)標(biāo)注與治理成本占比高,但價值轉(zhuǎn)化周期長;缺乏成熟的創(chuàng)新模式探索滯后,數(shù)據(jù)交易所尚未形成規(guī)模化23這些問題不僅制約了高質(zhì)量數(shù)據(jù)集建設(shè)的速度與質(zhì)量,也影響了數(shù)據(jù)要素價值的有效釋放。為破解上述瓶頸,本指引將在第四章從建設(shè)方法與技術(shù)路徑的角度,提出體系化、可操作的工程方案,并在第五章從建設(shè)運營體系的角度,探討多主體協(xié)同、標(biāo)準(zhǔn)化治理與商業(yè)化運營的落地模式。通過方法論與運營體系的雙重發(fā)力,形成覆蓋數(shù)據(jù)集建設(shè)全生命周期的應(yīng)對策略,推動我國高質(zhì)量數(shù)據(jù)集建設(shè)走向高效、可持續(xù)、國際化的24(一)典型建設(shè)模式高質(zhì)量數(shù)據(jù)集的建設(shè)是一個覆蓋數(shù)據(jù)集全生命周期的系統(tǒng)性工程。當(dāng)前業(yè)界主要采用兩種典型的建設(shè)模式:“場景驅(qū)動”第一種模式是“場景驅(qū)動”的建設(shè)模式。以明確的業(yè)務(wù)需求或場景為起點,通過“需求拆解-數(shù)據(jù)設(shè)計-數(shù)據(jù)采集-數(shù)據(jù)處理-數(shù)據(jù)質(zhì)量檢測-數(shù)據(jù)運營”的閉環(huán),確保數(shù)據(jù)集對場景的智能化水平提升,避免“數(shù)據(jù)冗余”或“數(shù)據(jù)缺失”。這種模式強調(diào)“先有需求或場景,再構(gòu)建對應(yīng)的數(shù)據(jù)支撐”,是目標(biāo)導(dǎo)向型建設(shè)的典型代表。這種建設(shè)模式的優(yōu)勢是數(shù)據(jù)質(zhì)量高、針對性強,能夠有效支撐特定任務(wù)的模型訓(xùn)練和評估,易于形成閉環(huán)反饋機制,通過模型效果反向優(yōu)化數(shù)據(jù)采集和處理第二種模式是“數(shù)據(jù)驅(qū)動”的建設(shè)模式。以積累的大量、多源異構(gòu)數(shù)據(jù)為基礎(chǔ),通過主動的數(shù)據(jù)探索、關(guān)聯(lián)分析與價值挖掘,反向發(fā)現(xiàn)潛在的業(yè)務(wù)需求或優(yōu)化方向。這種模式強調(diào)“先有數(shù)據(jù)資產(chǎn),再通過數(shù)據(jù)驅(qū)動需求升級”,是過程導(dǎo)向型建設(shè)的典型代表。這種建設(shè)模式的優(yōu)勢是能快速形成大規(guī)模數(shù)據(jù)資產(chǎn),為后續(xù)模型探索提供豐富素材,一般更適合通用大模當(dāng)前,國家層面及各行業(yè)對高質(zhì)量數(shù)據(jù)集提出了更為明確的建設(shè)目標(biāo)與應(yīng)用要求。因此,從實際成效出發(fā),以需求為牽25引的“場景驅(qū)動”模式更契合高質(zhì)量數(shù)據(jù)集建設(shè)的核心目標(biāo)和發(fā)展方向。因此,本指引參考技術(shù)文件《高質(zhì)量數(shù)據(jù)集建設(shè)指高質(zhì)量數(shù)據(jù)集建設(shè)應(yīng)按照生命周期有序展開,包括數(shù)據(jù)需求、數(shù)據(jù)規(guī)劃、數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)注、模型驗證等環(huán)節(jié)。其中,各環(huán)節(jié)主要按以上順序逐步開展,同時,各環(huán)節(jié)會對其他環(huán)節(jié)進行反饋,或者會在其他環(huán)節(jié)反饋下進行迭代26高質(zhì)量數(shù)據(jù)集的數(shù)據(jù)需求環(huán)節(jié)主要是確定人工智能應(yīng)用對數(shù)據(jù)的需求,即根據(jù)特定人工智能用途,明確數(shù)據(jù)集在數(shù)據(jù)范統(tǒng)計特性和可分性等;在數(shù)據(jù)可用方面,檢查數(shù)據(jù)集所需要數(shù)據(jù)的可使用性,即確認用于特定人工智能應(yīng)用的數(shù)據(jù)是否可獲取并使用;在數(shù)據(jù)質(zhì)量方面,構(gòu)建數(shù)據(jù)集所需要的數(shù)據(jù)質(zhì)量模型,即實例化一個具有相關(guān)數(shù)據(jù)質(zhì)量特征(例如完整性、準(zhǔn)確高質(zhì)量數(shù)據(jù)集的數(shù)據(jù)規(guī)劃環(huán)節(jié)主要是確保所用數(shù)據(jù)滿足數(shù)據(jù)需求環(huán)節(jié)的要求,同時為使用這些數(shù)據(jù)完成人工智能應(yīng)用的目標(biāo)提供支持,主要涉及設(shè)計數(shù)據(jù)架構(gòu),即界定所需數(shù)據(jù)的全部屬性、來源、范圍等,以及如何使用這些數(shù)據(jù);制定具體計劃,即制定涵蓋數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)注、模型驗證等環(huán)節(jié)的具體計劃,包括各環(huán)節(jié)實施計劃、數(shù)據(jù)質(zhì)量計劃等,以滿足數(shù)據(jù)規(guī)范等方面要求;預(yù)計工作量,即預(yù)估獲得和準(zhǔn)備數(shù)據(jù)以支持特定人工智能應(yīng)用所需的工作量,可能包括任何必要的數(shù)據(jù)重組、傳輸或收集的時間,以及為特定人工智能應(yīng)用27高質(zhì)量數(shù)據(jù)集的數(shù)據(jù)采集環(huán)節(jié)主要是收集用于特定人工智能應(yīng)用的數(shù)據(jù),即從數(shù)據(jù)規(guī)劃環(huán)節(jié)所確定的數(shù)據(jù)源收集的實時和歷史數(shù)據(jù)。該環(huán)節(jié)主要涉及結(jié)合預(yù)期數(shù)據(jù)源確定數(shù)據(jù)采集方式,即根據(jù)所需數(shù)據(jù)是否已存在并可直接再利用、是否可轉(zhuǎn)化現(xiàn)有數(shù)據(jù)來滿足要求、是否可通過購買或許可獲得數(shù)據(jù)、是否可以生成數(shù)據(jù)、是否需要采集新數(shù)據(jù)等情況,確定是以獲取和組合現(xiàn)有數(shù)據(jù)集、生成數(shù)據(jù)(如模擬數(shù)據(jù)、合成數(shù)據(jù)等)、收集數(shù)據(jù)(如傳感器采集、手動輸入等)等之中何種方式采集數(shù)據(jù);測試并在必要時改進數(shù)據(jù)收集方法,即如需收集新數(shù)據(jù),則要測試數(shù)據(jù)收集方法,在必要時調(diào)整相關(guān)配置和參數(shù)設(shè)置、操作條件、傳感器規(guī)格和安裝位置等,以滿足相關(guān)數(shù)據(jù)收集規(guī)范要求;測量并在必要時提升采集數(shù)據(jù)質(zhì)量,以降低采集環(huán)節(jié)數(shù)據(jù)質(zhì)量問題引入下游環(huán)節(jié)的風(fēng)險,避免為下游環(huán)節(jié)增加不必高質(zhì)量數(shù)據(jù)集的數(shù)據(jù)預(yù)處理環(huán)節(jié)主要是將所收集到的數(shù)據(jù)處理成可供數(shù)據(jù)標(biāo)注等后續(xù)環(huán)節(jié)使用的形式。該環(huán)節(jié)涉及以下可選過程:數(shù)據(jù)轉(zhuǎn)換,以最小的內(nèi)容損失,將數(shù)據(jù)從一種表示數(shù)據(jù)清洗,檢測錯誤數(shù)據(jù)或缺失數(shù)據(jù),并通過替換、修改、輸入或刪除等方式修正數(shù)據(jù);數(shù)據(jù)聚合,將兩個或多個數(shù)據(jù)集以匯總的形式合并為一個數(shù)據(jù)集;數(shù)據(jù)抽樣,從數(shù)據(jù)集中選擇數(shù)28據(jù),抽樣可以替換或非替換方式進行;特征創(chuàng)建,創(chuàng)建比原始特征更能有效捕捉數(shù)據(jù)中主要信息的新特征;特征選擇,使用可用特征的子集來降低數(shù)據(jù)的維數(shù);信息豐富,鏈接各類數(shù)據(jù)高質(zhì)量數(shù)據(jù)集的數(shù)據(jù)標(biāo)注環(huán)節(jié)主要是針對有監(jiān)督機器學(xué)習(xí)該環(huán)節(jié)可以涉及以下可選過程:明確數(shù)據(jù)標(biāo)注規(guī)程規(guī)范、確定所需的技能和資源(如標(biāo)注人員、工具、平臺等)以及對數(shù)據(jù)高質(zhì)量數(shù)據(jù)集的模型驗證環(huán)節(jié)主要是將所準(zhǔn)備的數(shù)據(jù)用于以驗證數(shù)據(jù)集是否滿足要求。若模型性能達到預(yù)期,則表明數(shù)一是對于人工智能模型,確定數(shù)據(jù)集相比于算法,是不是致使模型性能未達到預(yù)期的根本原因。二是對模型驗證環(huán)節(jié)所發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題進行分析,將對模型性能產(chǎn)生不利影響的數(shù)據(jù)質(zhì)量問題反饋給上游環(huán)節(jié),以改進相關(guān)環(huán)節(jié)的數(shù)據(jù)質(zhì)量。三是重復(fù)數(shù)據(jù)規(guī)劃、數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)注等環(huán)節(jié)以提高質(zhì)量數(shù)據(jù)集建設(shè)的每個核心環(huán)節(jié)均依托相應(yīng)的核心技術(shù)29形成完整的數(shù)據(jù)集構(gòu)建體系,主要包括數(shù)據(jù)采集技術(shù)、數(shù)據(jù)轉(zhuǎn)換技術(shù)、數(shù)據(jù)清洗技術(shù)、特征選擇技術(shù)和數(shù)據(jù)標(biāo)注技術(shù)。本節(jié)數(shù)據(jù)采集是指通過軟硬件手段從多種來源中獲取原始數(shù)據(jù)的過程,為人工智能模型訓(xùn)練、大數(shù)據(jù)分析和業(yè)務(wù)決策提供基隨著人工智能、大數(shù)據(jù)等技術(shù)的不斷發(fā)展,數(shù)據(jù)采集技術(shù)呈現(xiàn)出多源融合、自動化運行和邊緣智能等創(chuàng)新趨勢,多個行業(yè)和地方已在實踐中取得初步成果,本指引介紹三種主流的技術(shù)。一是多源異構(gòu)數(shù)據(jù)融合采集技術(shù),支持對結(jié)構(gòu)化、非結(jié)構(gòu)化等多類型數(shù)據(jù)的統(tǒng)一采集和調(diào)度,廣泛應(yīng)用于工業(yè)、政務(wù)等復(fù)雜系統(tǒng)場景。例如,國家工業(yè)互聯(lián)網(wǎng)平臺在制造企業(yè)中部署多類傳感器與控制器,實現(xiàn)設(shè)備層數(shù)據(jù)的高頻融合采集,支撐工業(yè)模型訓(xùn)練所需的全流程數(shù)據(jù)獲取。二是邊緣側(cè)數(shù)據(jù)采集技術(shù),通過在數(shù)據(jù)源附近部署邊緣設(shè)備,實現(xiàn)對實時數(shù)據(jù)的本地采集、預(yù)處理與上傳,提升采集效率并降低網(wǎng)絡(luò)壓力。華為智保障數(shù)據(jù)的即時性和安全性。三是生成模型輔助等數(shù)據(jù)合成采集技術(shù),針對數(shù)據(jù)稀缺或敏感的應(yīng)用場景,利用仿真、統(tǒng)計、生成對抗網(wǎng)絡(luò)(GAN)或擴散模型等技術(shù)模擬生成符合真實分布的高質(zhì)量數(shù)據(jù)。例如,清華大學(xué)在醫(yī)療影像領(lǐng)域采用數(shù)據(jù)合成手段構(gòu)建補充數(shù)據(jù)集,為模型提供多樣化訓(xùn)練樣本,解決實30數(shù)據(jù)轉(zhuǎn)換是指以最小的內(nèi)容損失,將數(shù)據(jù)從一種表示或空間轉(zhuǎn)換為另一種表示或空間,旨在增強數(shù)據(jù)的一致性、兼容性近年來,數(shù)據(jù)轉(zhuǎn)換技術(shù)正朝著自動化、智能化和標(biāo)準(zhǔn)化方向發(fā)展,當(dāng)前主要包括以下幾類主流和創(chuàng)新思路。一是基于規(guī)則引擎的結(jié)構(gòu)化轉(zhuǎn)換技術(shù),通過定義轉(zhuǎn)換規(guī)則,實現(xiàn)數(shù)據(jù)格式的統(tǒng)一和標(biāo)準(zhǔn)化。這一技術(shù)在醫(yī)療和能源行業(yè)得到廣泛應(yīng)用,例如中國移動醫(yī)療健康平臺構(gòu)建了規(guī)則驅(qū)動的數(shù)據(jù)轉(zhuǎn)換系統(tǒng),有效實現(xiàn)了醫(yī)療數(shù)據(jù)的跨系統(tǒng)標(biāo)準(zhǔn)化管理。二是基于語義理解和知識圖譜的數(shù)據(jù)轉(zhuǎn)換技術(shù),利用自然語言處理和語義匹配,實現(xiàn)異構(gòu)數(shù)據(jù)的語義映射和智能轉(zhuǎn)換。京東在商品數(shù)據(jù)管理中應(yīng)用此類技術(shù),提升了多源數(shù)據(jù)的集成和智能化處理能力。三是面向多模態(tài)數(shù)據(jù)的轉(zhuǎn)換技術(shù),針對圖像、視頻、文本等不同模態(tài)數(shù)據(jù),開發(fā)專用的轉(zhuǎn)換框架和接口,支持跨模態(tài)數(shù)據(jù)的統(tǒng)一處理。深圳市智慧交通項目采用多模態(tài)數(shù)據(jù)轉(zhuǎn)換技術(shù),實現(xiàn)數(shù)據(jù)清洗是指檢測錯誤數(shù)據(jù)或缺失數(shù)據(jù),并通過替換、修改、插入或刪除等方式修正數(shù)據(jù),旨在提升數(shù)據(jù)的質(zhì)量和一致隨著數(shù)據(jù)來源和類型的多樣化,數(shù)據(jù)清洗技術(shù)不斷發(fā)展,31向自動化、智能化和大規(guī)模處理方向邁進。當(dāng)前,數(shù)據(jù)清洗技術(shù)主要包括以下幾類主流和創(chuàng)新思路。一是基于規(guī)則的自動化清洗技術(shù),通過預(yù)定義的數(shù)據(jù)驗證規(guī)則和異常檢測算法,快速識別重復(fù)、缺失和格式錯誤等問題,在傳統(tǒng)金融和制造行業(yè)被廣泛應(yīng)用。例如,中國工商銀行構(gòu)建了完善的規(guī)則引擎體系,實現(xiàn)了對海量交易數(shù)據(jù)的高效清洗與校驗。二是基于機器學(xué)習(xí)和深度學(xué)習(xí)的智能清洗技術(shù),利用模型自動發(fā)現(xiàn)復(fù)雜數(shù)據(jù)中的異常模式和錯誤,提升數(shù)據(jù)清洗的準(zhǔn)確性和適應(yīng)性。阿里巴巴集團在電商大數(shù)據(jù)處理中應(yīng)用了多種智能清洗算法,顯著提升了數(shù)據(jù)質(zhì)量保障能力。三是面向大規(guī)模分布式環(huán)境的數(shù)據(jù)清洗技術(shù),結(jié)合云計算和大數(shù)據(jù)平臺,實現(xiàn)海量異構(gòu)數(shù)據(jù)的并行清洗和實時更新。華為云數(shù)據(jù)治理平臺通過大規(guī)模分布式清洗框特征選擇是指從原始數(shù)據(jù)中篩選出與目標(biāo)變量關(guān)系密切、信息量豐富且冗余較少的特征子集的過程,旨在減少計算復(fù)雜度,提升模型訓(xùn)練速度,對應(yīng)于高質(zhì)量數(shù)據(jù)集建設(shè)中的數(shù)據(jù)預(yù)近年來,特征選擇技術(shù)正朝著自動化、智能化和高效化方向發(fā)展,當(dāng)前主要包括以下幾類主流和創(chuàng)新趨勢。一是基于統(tǒng)計和過濾方法的特征選擇技術(shù),通過相關(guān)系數(shù)、卡方檢驗等指32提高了模型準(zhǔn)確性和穩(wěn)定性。二是基于嵌入式和包裝方法的特征選擇技術(shù),結(jié)合機器學(xué)習(xí)模型訓(xùn)練過程動態(tài)選擇特征,提升選擇效果。華為在通信網(wǎng)絡(luò)故障診斷中采用該方法,實現(xiàn)了對海量網(wǎng)絡(luò)數(shù)據(jù)特征的自動篩選和故障預(yù)測。三是基于深度學(xué)習(xí)的自動特征提取與選擇技術(shù),利用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)自動學(xué)習(xí)有效特征,適應(yīng)復(fù)雜多樣的數(shù)據(jù)場景。清華大學(xué)在智能制造領(lǐng)域開數(shù)據(jù)標(biāo)注是對原始數(shù)據(jù)進行加工處理,形成可服務(wù)于人工智能模型訓(xùn)練、數(shù)據(jù)挖掘分析等活動必需的高質(zhì)量數(shù)據(jù)集的關(guān)鍵技術(shù),標(biāo)注質(zhì)量往往直接影響人工智能模型的訓(xùn)練效果和性隨著數(shù)據(jù)類型和應(yīng)用場景的多樣化,數(shù)據(jù)標(biāo)注技術(shù)不斷演進,逐步實現(xiàn)從傳統(tǒng)人工標(biāo)注向智能化、自動化標(biāo)注的轉(zhuǎn)變,主要集中在三大主流方向。一是半自動化標(biāo)注技術(shù),通過引入人工智能輔助工具,減少人工勞動強度,提高標(biāo)注效率與一致性。例如,阿里巴巴智能標(biāo)注平臺利用自動標(biāo)注預(yù)處理結(jié)合人工復(fù)核,實現(xiàn)了海量電商圖像與文本數(shù)據(jù)的高效精準(zhǔn)標(biāo)注。二是眾包標(biāo)注與分布式管理技術(shù),搭建規(guī)?;瘏f(xié)作平臺,整合大量標(biāo)注人員資源,解決大規(guī)模數(shù)據(jù)標(biāo)注的人力瓶頸問題。廣東省政務(wù)數(shù)據(jù)中心借助此技術(shù),構(gòu)建了覆蓋多部門的眾包標(biāo)注體系,有效支撐了政務(wù)數(shù)據(jù)的智能化應(yīng)用。三是主動學(xué)習(xí)與模型輔助標(biāo)注技術(shù),利用模型預(yù)測指導(dǎo)標(biāo)注優(yōu)先級,提高標(biāo)注資源33的利用效率。清華大學(xué)在該領(lǐng)域開展創(chuàng)新研究,推動多模態(tài)數(shù)為系統(tǒng)提升高質(zhì)量數(shù)據(jù)集的建設(shè)能力與應(yīng)用水平,必須構(gòu)建科學(xué)規(guī)范的數(shù)據(jù)集質(zhì)量評價工作體系。質(zhì)量評價不僅是衡量數(shù)據(jù)集是否滿足“高質(zhì)量”標(biāo)準(zhǔn)的基本途徑,也是推動數(shù)據(jù)集標(biāo)準(zhǔn)化建設(shè)、促進其可信流通與高效應(yīng)用的重要抓手。為此,一方面,明確質(zhì)量評價在數(shù)據(jù)集建設(shè)中的作用,理清其工作流程和關(guān)鍵環(huán)節(jié);另一方面,構(gòu)建覆蓋數(shù)據(jù)全生命周期與實際應(yīng)數(shù)據(jù)集作為人工智能模型開發(fā)與訓(xùn)練的基礎(chǔ)資源,其質(zhì)量水平直接影響模型性能和實際應(yīng)用效果。開展系統(tǒng)性、規(guī)范化的數(shù)據(jù)集質(zhì)量評價,是判斷數(shù)據(jù)集是否達到“高質(zhì)量”標(biāo)準(zhǔn)的基本路徑,也是推動高質(zhì)量數(shù)據(jù)資源建設(shè)的核心抓手。通過“以評促建、以評促用”,可以有效倒逼數(shù)據(jù)生產(chǎn)和管理環(huán)節(jié)提質(zhì)增效,全面提升數(shù)據(jù)資源的可用性、可信度與應(yīng)用價值。制定統(tǒng)一的高質(zhì)量數(shù)據(jù)集質(zhì)量評價規(guī)范,明確評價工作的組織方式、指標(biāo)要求和操作細則,對于提升優(yōu)質(zhì)數(shù)據(jù)供給能力,推動數(shù)據(jù)共享流通,強化人工智能模型訓(xùn)練支撐能力,具有重要從實施路徑看,高質(zhì)量數(shù)據(jù)集的質(zhì)量評價通常包含若干關(guān)鍵流程與環(huán)節(jié),形成閉環(huán)式管理機制,確保評價過程系統(tǒng)、規(guī)34一是評估準(zhǔn)備階段:在正式開展評價工作前,需明確數(shù)據(jù)集的基本信息、應(yīng)用場景與評價目標(biāo),劃定評價范圍和對象類型,制定相應(yīng)的評價策略和技術(shù)規(guī)范。同時,組織配備具備專業(yè)能力的評估團隊,準(zhǔn)備相應(yīng)的評價工具和數(shù)據(jù)支撐環(huán)境,確保評價工作的規(guī)范性與一致性。二是質(zhì)量評估指標(biāo)體系構(gòu)建與實施階段:該環(huán)節(jié)是整個質(zhì)量評價工作的核心,需要設(shè)計科學(xué)合理的質(zhì)量評估指標(biāo)體系,明確各項指標(biāo)的評測標(biāo)準(zhǔn)和實施細則,結(jié)合自動化檢測與人工核查等方法,開展全面系統(tǒng)的質(zhì)量評估,確保評價過程規(guī)范、全面且具操作性。三是綜合評價與反饋應(yīng)用階段:基于前述質(zhì)量評價指標(biāo)的評價結(jié)果,結(jié)合多維同時,針對發(fā)現(xiàn)的問題,提出可操作的改進建議,形成評價報告,為數(shù)據(jù)集的發(fā)布、認證、共享流通及后續(xù)版本優(yōu)化提供決為全面系統(tǒng)地評估數(shù)據(jù)集的質(zhì)量水平,科學(xué)指導(dǎo)高質(zhì)量數(shù)據(jù)集建設(shè)與應(yīng)用,參考技術(shù)文件《高質(zhì)量數(shù)據(jù)集質(zhì)量評測規(guī)范(征求意見稿)》構(gòu)建涵蓋說明文檔、數(shù)據(jù)質(zhì)量、模型應(yīng)用三個維度的質(zhì)量評價指標(biāo)體系。該體系立足于數(shù)據(jù)全生命周期管理要求,兼顧數(shù)據(jù)的描述規(guī)范性、本體質(zhì)量和應(yīng)用效果,能夠有效反映數(shù)據(jù)集的完備性、實用性與發(fā)展?jié)摿?。為增強評價的針對性和可操作性,以下重點介紹三個維度的評價細則與核心35完整、規(guī)范,是數(shù)據(jù)集可理解性與可重用性的基礎(chǔ)保障。該指標(biāo)包含基本信息、內(nèi)容特征、建設(shè)過程及應(yīng)用說明等關(guān)鍵指標(biāo)的完整性評價。在基本信息完整性方面,應(yīng)包含數(shù)據(jù)集規(guī)模、格式規(guī)范、文件結(jié)構(gòu)、訪問渠道、技術(shù)支持方式等基本信息;在內(nèi)容特征完整性方面,應(yīng)包含模態(tài)類型、數(shù)據(jù)分布情況、標(biāo)簽類別統(tǒng)計、樣本示例、局限性說明等內(nèi)容特征;在建設(shè)過程完整性方面,應(yīng)包含數(shù)據(jù)來源、采集方法、加工處理流程、標(biāo)注規(guī)范、版本控制等建設(shè)過程;在應(yīng)用說明完整性方面,應(yīng)包含使用許可、目標(biāo)應(yīng)用場景、評估方法、基準(zhǔn)測試結(jié)果、典型數(shù)據(jù)質(zhì)量指標(biāo)直接衡量數(shù)據(jù)本體的質(zhì)量是否滿足人工智能模型開發(fā)和訓(xùn)練的基本要求。關(guān)鍵指標(biāo)包括:格式規(guī)范性,數(shù)據(jù)集中數(shù)據(jù)的格式符合預(yù)定標(biāo)準(zhǔn),可直接用于人工智能模型開發(fā)和訓(xùn)練;安全規(guī)范性:數(shù)據(jù)集中數(shù)據(jù)符合人工智能模型開發(fā)歧視性內(nèi)容、商業(yè)違法違規(guī)、侵犯他人合法權(quán)益等非法內(nèi)容;標(biāo)注規(guī)范性:數(shù)據(jù)集中數(shù)據(jù)的標(biāo)注符合預(yù)定的標(biāo)注規(guī)范,遵循預(yù)先設(shè)定的規(guī)范化流程;結(jié)構(gòu)完整性:數(shù)據(jù)集描述數(shù)據(jù)的元數(shù)數(shù)據(jù)集中數(shù)據(jù)真實可追溯。非合成數(shù)據(jù)能追溯到采集源頭,能與采集源頭保持一致,不存在未經(jīng)說明的篡改;合成數(shù)據(jù)能追36內(nèi)容一致性:數(shù)據(jù)集中相關(guān)聯(lián)的數(shù)據(jù)間內(nèi)容一致,能在語義和表達上保持匹配,包括不同模態(tài)數(shù)據(jù)間的一致性和同模態(tài)數(shù)據(jù)間的一致性;類型一致性:數(shù)據(jù)集中數(shù)據(jù)符合其所屬數(shù)據(jù)集類型的要求,通識數(shù)據(jù)集中數(shù)據(jù)應(yīng)蘊含通用知識,行業(yè)通識數(shù)據(jù)集中數(shù)據(jù)應(yīng)蘊含行業(yè)領(lǐng)域通用知識,行業(yè)專識數(shù)據(jù)集中數(shù)據(jù)應(yīng)蘊含行業(yè)領(lǐng)域?qū)I(yè)知識;內(nèi)容干凈性:數(shù)據(jù)集中數(shù)據(jù)經(jīng)過嚴格模型應(yīng)用指標(biāo)強調(diào)數(shù)據(jù)集應(yīng)能有效支撐目標(biāo)場景人工智能模型的開發(fā)和訓(xùn)練。該指標(biāo)主要包括以下關(guān)鍵子指標(biāo):內(nèi)容多樣性:數(shù)據(jù)集的數(shù)據(jù)分布全面程度應(yīng)滿足目標(biāo)應(yīng)用場景人工智能模型開發(fā)和訓(xùn)練的要求;規(guī)模完整性:數(shù)據(jù)集的規(guī)模滿足目標(biāo)應(yīng)用場景人工智能模型開發(fā)和訓(xùn)練的要求;內(nèi)容時效性:數(shù)據(jù)集中數(shù)據(jù)的采集時間和更新狀態(tài)滿足目標(biāo)應(yīng)用場景人工智能模型開發(fā)和訓(xùn)練的要求;標(biāo)注準(zhǔn)確性:數(shù)據(jù)集中數(shù)據(jù)的標(biāo)注能精準(zhǔn)標(biāo)記出目標(biāo)應(yīng)用場景人工智能模型開發(fā)和訓(xùn)練所需的所有信息;模型適配性:數(shù)據(jù)集是能有效提升目標(biāo)應(yīng)用場景人工智通過上述三個維度協(xié)同構(gòu)建的評價指標(biāo)體系,能夠?qū)崿F(xiàn)從數(shù)據(jù)文檔規(guī)范、數(shù)據(jù)本體質(zhì)量到模型應(yīng)用效果的全過程質(zhì)量控制與多維度系統(tǒng)評估,不僅為數(shù)據(jù)集建設(shè)單位提供明確的質(zhì)量提升方向,也為評測機構(gòu)、使用方等相關(guān)主體提供客觀可依的37構(gòu)建統(tǒng)一的高質(zhì)量數(shù)據(jù)集質(zhì)量評價體系,是數(shù)據(jù)時代發(fā)展讓不同領(lǐng)域、不同機構(gòu)的數(shù)據(jù)集在同一標(biāo)準(zhǔn)下接受檢驗,實現(xiàn)統(tǒng)一體系可規(guī)范測評行為,提升整體測評能力,通過明確的標(biāo)準(zhǔn)和流程減少人為誤差,讓測評結(jié)果更具公信力。而有效的監(jiān)督機制還能倒逼數(shù)據(jù)生產(chǎn)和管理方重視質(zhì)量提升,從源頭保障數(shù)據(jù)價值的充分釋放,為數(shù)字經(jīng)濟、科研創(chuàng)新等領(lǐng)域提供堅實的數(shù)據(jù)支撐。構(gòu)建統(tǒng)一的高質(zhì)量數(shù)據(jù)集質(zhì)量評價體系,需從多在構(gòu)建原則方面,應(yīng)遵循全面性、客觀性、可操作性與動態(tài)適應(yīng)性原則。全面性要求體系涵蓋數(shù)據(jù)的準(zhǔn)確性、完整性、一致性、時效性、安全性、可用性等各個關(guān)鍵質(zhì)量維度,確保對數(shù)據(jù)集質(zhì)量進行全方位考量;客觀性即測評過程和結(jié)果不受主觀因素干擾,依靠科學(xué)合理的方法與標(biāo)準(zhǔn)得出結(jié)論;可操作性意味著各項測評指標(biāo)和流程在實際執(zhí)行中切實可行,便于相關(guān)人員操作實施;動態(tài)適應(yīng)性則使體系能夠隨著數(shù)據(jù)應(yīng)用場景的拓展、技術(shù)的革新以及新數(shù)據(jù)質(zhì)量問題的出現(xiàn),及時調(diào)整優(yōu)在指標(biāo)設(shè)計層面,要打造層次清晰、結(jié)構(gòu)合理的體系。設(shè)計算誤差率、偏差度等量化指標(biāo)進行評估,以反映數(shù)據(jù)與真實38情況的契合程度;完整性指標(biāo)關(guān)注字段完整性、記錄完整性以及數(shù)據(jù)一致性,統(tǒng)計缺失值、重復(fù)值和異常值的處理情況以及數(shù)據(jù)結(jié)構(gòu)的完備性;一致性指標(biāo)聚焦不同來源、不同時間數(shù)據(jù)在定義、格式、類型上的一致性以及跨系統(tǒng)、跨部門的數(shù)據(jù)同步情況;時效性指標(biāo)考量數(shù)據(jù)更新周期、加載時間、同步時間等,衡量數(shù)據(jù)更新的頻率與速度是否滿足需求;可用性指標(biāo)評估數(shù)據(jù)是否易于獲取和使用。同時,針對每個一級指標(biāo)進一步細化二級指標(biāo),形成完整的樹狀結(jié)構(gòu)指標(biāo)體系,以便更深入、在評價流程方面,首先確定測評目標(biāo),明確是針對新構(gòu)建數(shù)據(jù)集的質(zhì)量評估,還是對已使用數(shù)據(jù)集的定期審查,抑或為特定項目篩選合適數(shù)據(jù)集等目標(biāo)。然后制定詳細的評價計劃,依據(jù)測評目標(biāo)選取適用的評價指標(biāo),確定樣本選取方法、評價能真實反映數(shù)據(jù)集整體特征。接著開展數(shù)據(jù)測評,綜合運用統(tǒng)計分析法對數(shù)據(jù)進行量化分析,利用自動化檢測工具進行快速篩查,組織專家評審從專業(yè)角度把關(guān),收集用戶反饋了解實際使用感受等多種方式。對評價結(jié)果進行深入分析,找出數(shù)據(jù)集為后續(xù)改進提供清晰方向。最后,根據(jù)結(jié)果分析制定針對性改進措施,跟蹤改進措施的實施效果,形成閉環(huán)管理,持續(xù)提升在監(jiān)督機制方面,國家數(shù)據(jù)局將會同相關(guān)部門建立專門的39監(jiān)督機制,明確高質(zhì)量數(shù)據(jù)集質(zhì)量評價機構(gòu)能力要求,指導(dǎo)制定數(shù)據(jù)質(zhì)量評價管理規(guī)范,并負責(zé)對評價過程和結(jié)果進行抽查審核,確保評價的公正性與準(zhǔn)確性。同時,將評價結(jié)果公開透明化,接受社會監(jiān)督,對于評價過程和評價報告質(zhì)量不達標(biāo)的評價行為和機構(gòu)依據(jù)管理規(guī)范進行管理,要求評價機構(gòu)限期整改,并公布整改情況,以此推動全國范圍內(nèi)高質(zhì)量數(shù)據(jù)集質(zhì)量40(一)高質(zhì)量數(shù)據(jù)集體系規(guī)劃體系規(guī)劃是高質(zhì)量數(shù)據(jù)集建設(shè)運營的前提,通過知識索引構(gòu)建、數(shù)據(jù)資源盤點、標(biāo)準(zhǔn)體系搭建三大環(huán)節(jié),分別驅(qū)動數(shù)據(jù)知識化、場景適配性、全周期標(biāo)準(zhǔn)化,為后續(xù)數(shù)據(jù)集的具體建一是針對智能化需求,搭建行業(yè)知識索引框架。結(jié)合行業(yè)業(yè)務(wù)邏輯和模型需求,提煉核心知識節(jié)點,搭建層次化知識架構(gòu),將既有數(shù)據(jù)資源與知識索引精準(zhǔn)匹配,實現(xiàn)數(shù)據(jù)的知識化歸類。例如,醫(yī)療行業(yè)聚焦疾病診斷與藥物研發(fā),金融行業(yè)則支持快速調(diào)用關(guān)聯(lián)數(shù)據(jù),有助于加速模型訓(xùn)練迭代,將數(shù)據(jù)資源高效轉(zhuǎn)化為驅(qū)動業(yè)務(wù)創(chuàng)新的智能生產(chǎn)力,實現(xiàn)從數(shù)據(jù)到模型二是錨定智能場景,繪制行業(yè)數(shù)據(jù)集資源地圖。通過深入分析模型應(yīng)用的業(yè)務(wù)場景,全面梳理企業(yè)內(nèi)外部數(shù)據(jù)資源,包括內(nèi)部結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù),以及外部公開數(shù)據(jù)與合作數(shù)據(jù),形成完整的數(shù)據(jù)資源目錄。盤點數(shù)據(jù)資源目錄清單,可視化呈現(xiàn)數(shù)據(jù)的分布、權(quán)屬關(guān)系、質(zhì)量狀態(tài)及采集渠道、存儲位置、更新頻率等關(guān)鍵信息,形成“數(shù)據(jù)資源三是圍繞高質(zhì)量數(shù)據(jù)集建設(shè)運營環(huán)節(jié),構(gòu)建全鏈條、全行業(yè)標(biāo)準(zhǔn)體系。重點圍繞基礎(chǔ)通用、關(guān)鍵技術(shù)、質(zhì)量控制、工具41平臺、流通交易、行業(yè)應(yīng)用以及安全保障等方面,建立健全高質(zhì)量數(shù)據(jù)集標(biāo)準(zhǔn)體系,為模型開發(fā)方、數(shù)據(jù)運營方與管理方建規(guī)范數(shù)據(jù)生產(chǎn)流程;在質(zhì)檢環(huán)節(jié),明確質(zhì)量評估指標(biāo),規(guī)范自動化工具檢測、人工抽檢及模型反饋流程;在技術(shù)環(huán)節(jié),統(tǒng)一數(shù)據(jù)清洗、標(biāo)注、存儲等技術(shù)工具的開發(fā)標(biāo)準(zhǔn)和要求,確保工具兼容性與易用性;在應(yīng)用環(huán)節(jié),制定數(shù)據(jù)與模型對接標(biāo)準(zhǔn),規(guī)范資源運營與風(fēng)險管理流程。此外,加速研制行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)標(biāo)準(zhǔn),規(guī)范各行業(yè)高質(zhì)量數(shù)據(jù)集的建設(shè)流程、技術(shù)要工程建設(shè)是高質(zhì)量數(shù)據(jù)集體系規(guī)劃落地的實施階段,涵蓋研發(fā)環(huán)節(jié)聚焦數(shù)據(jù)集生成流程的系統(tǒng)性管控,包含需求管分析、確認業(yè)務(wù)部門對數(shù)據(jù)集規(guī)模、模態(tài)、標(biāo)注精度等的具體要求,明確其優(yōu)先級和合理性;在設(shè)計管理環(huán)節(jié),構(gòu)建覆蓋數(shù)合成等方面的技術(shù)要求,并由此開展具體的研發(fā)工作。通過三環(huán)節(jié)協(xié)同,確保數(shù)據(jù)集研發(fā)目標(biāo)清晰、流程規(guī)范、處理標(biāo)準(zhǔn),交付環(huán)節(jié)是對數(shù)據(jù)集交付過程的規(guī)范化管控,包括測試管42理和發(fā)布管理兩個關(guān)鍵階段。測試管理階段,對標(biāo)注質(zhì)量、數(shù)據(jù)集質(zhì)量以及數(shù)據(jù)的倫理和合規(guī)性進行全方位測試,以保證開發(fā)完成的數(shù)據(jù)符合合規(guī)性、數(shù)據(jù)質(zhì)量、場景下可用性等要求。發(fā)布管理階段,建立包含發(fā)布審批、接口管理、數(shù)據(jù)集管理的發(fā)布體系,將經(jīng)過驗證的數(shù)據(jù)集安全、高效、規(guī)范地轉(zhuǎn)化為生產(chǎn)級服務(wù),并實施版本管控,規(guī)范記錄版本更新內(nèi)容、責(zé)任人及時間戳,保障數(shù)據(jù)在長期演化中的可追溯性、一致性與可復(fù)運維環(huán)節(jié)是確保數(shù)據(jù)集交付后的持續(xù)穩(wěn)定運行,涵蓋監(jiān)控系統(tǒng)性能、安全合規(guī)等維度的監(jiān)控指標(biāo),實施日常監(jiān)控與告警機制。在資源管理方面,對數(shù)據(jù)資源、計算資源和存儲資源分別進行盤點和調(diào)度。對于數(shù)據(jù)資源,通過數(shù)據(jù)資產(chǎn)目錄厘清數(shù)據(jù)分布、權(quán)屬與質(zhì)量狀態(tài);針對計算資源,優(yōu)化任務(wù)調(diào)度與資源分配策略,平衡效能與成本,最大化集群利用率;針對存儲資源,實施分級存儲與生命周期管理,在成本、性能與可靠性間尋求平衡。系統(tǒng)性運維可減少因數(shù)據(jù)質(zhì)量下降、資源不足或運營管理是實現(xiàn)高質(zhì)量數(shù)據(jù)集可持續(xù)發(fā)展的核心,需圍繞用戶需求響應(yīng)、成本精細化管理、質(zhì)量與安全維護及生態(tài)協(xié)同發(fā)展四個方面構(gòu)建全流程管理體系,在使用過程中達成“需求響應(yīng)及時、成本精準(zhǔn)可控、質(zhì)量安全可信、生態(tài)價值共創(chuàng)”的43用戶需求響應(yīng),旨在通過構(gòu)建用戶友好平臺、建立動態(tài)迭代機制、推動跨場景復(fù)用,實現(xiàn)從“數(shù)據(jù)可用”到“價值可見”。首先,通過提供可視化工具、接口及詳實元數(shù)據(jù),構(gòu)建基于用戶反饋與模型效果,聯(lián)動研發(fā)團隊補充缺失樣本、修正最后,通過知識關(guān)聯(lián)與格式適配,推動跨場景復(fù)用,打破“一數(shù)據(jù)集一模型”局限。例如,通識文本數(shù)據(jù)集可同時支撐預(yù)訓(xùn)練與情感分析微調(diào);工業(yè)故障數(shù)據(jù)集可關(guān)聯(lián)設(shè)備參數(shù),延伸至成本精細化管理,旨在通過成本核算、成本優(yōu)化以及建立內(nèi)外部成本結(jié)算機制,實現(xiàn)從“粗放投入”到“精準(zhǔn)管控”。其一,量化核算人力、存算資源及技術(shù)工具成本,并基于歷史數(shù)據(jù)與業(yè)務(wù)需求制定預(yù)算。其二,實施成本優(yōu)化策略,應(yīng)用自動化工具降低人力成本、優(yōu)化資源調(diào)度、清理冗余數(shù)據(jù),并推動技術(shù)工具跨場景復(fù)用以節(jié)約技術(shù)工具成本。此外,建立成本結(jié)算機制,內(nèi)部按調(diào)用次數(shù)和樣本下載量分攤成本,外部合作質(zhì)量與安全維護,旨在通過建立質(zhì)量監(jiān)控體系和安全管控體系,實現(xiàn)從“交付合格”到“持續(xù)可信”。建立全生命周期質(zhì)量監(jiān)控體系,要求實時跟蹤完整性、標(biāo)注一致性、時效性等核心指標(biāo),通過自動化掃描與人工復(fù)核等手段處理異常,有效44保障數(shù)據(jù)集質(zhì)量水平。建立覆蓋數(shù)據(jù)集全生命周期的安全管控和國個人信息保護法》等法規(guī),實施分級安全管控,如敏感數(shù)據(jù)去標(biāo)識化處理。此外,為確保數(shù)據(jù)集長期滿足模型訓(xùn)練的準(zhǔn)確性與安全性要求,需規(guī)范版本控制,記錄迭代內(nèi)容、責(zé)任人生態(tài)協(xié)同發(fā)展,旨在通過制定行業(yè)數(shù)據(jù)集共享、流通、共建與價值分配機制,實現(xiàn)從“單一運營”到“生態(tài)共贏”。一是制定分級共享策略,基礎(chǔ)數(shù)據(jù)集可以通過數(shù)據(jù)交易所或開源社區(qū)開放,專有數(shù)據(jù)集可以通過可信數(shù)據(jù)空間等數(shù)據(jù)流通基礎(chǔ)設(shè)施在授權(quán)范圍內(nèi)共享。二是遵循國家與行業(yè)標(biāo)準(zhǔn)規(guī)范數(shù)據(jù)格式、接口及權(quán)屬界定,推動標(biāo)準(zhǔn)化流通。三是建立共建與價值分配機制,協(xié)同產(chǎn)業(yè)鏈研發(fā)工具,共建行業(yè)基準(zhǔn)數(shù)據(jù)集與評測體系,按數(shù)據(jù)量、標(biāo)注工作量等貢獻度分配聯(lián)合建設(shè)收益,拓展數(shù)據(jù)應(yīng)用邊界和市場影響力。四是完成生態(tài)運營,通過完善的數(shù)據(jù)集生態(tài)管理機制和運營流程規(guī)范,專業(yè)的生態(tài)運營團隊和服務(wù)平臺,建立高效生態(tài)健康度監(jiān)測體系,實現(xiàn)多方的廣泛45作為一項系統(tǒng)性工程,高質(zhì)量數(shù)據(jù)集建設(shè)工作需要政府、企業(yè)、科研機構(gòu)等各方協(xié)同參與,從制度設(shè)計、技術(shù)攻關(guān)、生形成合力。我國高質(zhì)量數(shù)據(jù)集建設(shè)的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 國際發(fā)展援助中“氣候資金”與“傳統(tǒng)ODA”的統(tǒng)計重疊問題-基于2024年OECD DAC新核算指南爭議
- 2025年黃山太平經(jīng)濟開發(fā)區(qū)投資有限公司公開招聘高管人員備考筆試試題及答案解析
- 2025重慶梁平區(qū)事業(yè)單位面向應(yīng)屆生考核招聘68人備考筆試題庫及答案解析
- 2025新疆青河縣社保中心綜柜崗位見習(xí)生招聘1人模擬筆試試題及答案解析
- 2025年山西省長治市人民醫(yī)院公開招聘碩士以上專業(yè)技術(shù)工作人員模擬筆試試題及答案解析
- 《解決問題的策略》數(shù)學(xué)課件教案
- 2025廣西科學(xué)院分析測試中心分子細胞生物學(xué)團隊招1人參考考試試題及答案解析
- 2025年皖北煤電集團公司掘進工招聘380名考試筆試備考題庫及答案解析
- 2026天津市和平區(qū)事業(yè)單位招聘38人備考筆試試題及答案解析
- 2026年山西省選調(diào)生招錄(面向西安電子科技大學(xué))參考考試題庫及答案解析
- GSV2.0反恐內(nèi)審計劃+反恐管理評審報告+反恐安全改進計劃
- 國開《企業(yè)信息管理》形考任務(wù)1-4試題及答案
- TD-T 1048-2016耕作層土壤剝離利用技術(shù)規(guī)范
- 三角函數(shù)2024-2025學(xué)年高中數(shù)學(xué)一輪復(fù)習(xí)專題訓(xùn)練(含答案)
- JBT 13675-2019 筒式磨機 鑄造襯板 技術(shù)條件
- 道德與法治四年級上冊期末練習(xí)測試題附答案(精練)
- 區(qū)域銷售代理合作框架協(xié)議
- 物業(yè)裝修施工防火安全規(guī)定協(xié)議書
- 紀(jì)檢監(jiān)察信訪知識講座
- 智能教育:科技驅(qū)動下的學(xué)校革新
- 漢字筆畫練習(xí)字帖
評論
0/150
提交評論