版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
人工智能面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程1范圍2規(guī)范性引用文件3術(shù)語(yǔ)和定義4數(shù)據(jù)標(biāo)注流程框架5標(biāo)注任務(wù)前期準(zhǔn)備51標(biāo)注任務(wù)52標(biāo)注人員53標(biāo)注環(huán)境6標(biāo)注任務(wù)執(zhí)行61過(guò)程控制62質(zhì)量保證63管理機(jī)制7標(biāo)注結(jié)果輸出71內(nèi)部質(zhì)檢驗(yàn)收72數(shù)據(jù)交付73后期維護(hù)1數(shù)據(jù)標(biāo)注流程框架人工智能面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程本文件規(guī)定了機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注框架及流程。本文件適用于指導(dǎo)本公司內(nèi)部進(jìn)行人工智能領(lǐng)域面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注工作。規(guī)范性引用文件下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T37973-2019信息安全技術(shù)大數(shù)據(jù)安全管理指南GB/T35274-2017信息安全技術(shù)大數(shù)據(jù)服務(wù)安全能力要求術(shù)語(yǔ)和定義GB/T37973-2019界定的以及下列術(shù)語(yǔ)和定義適用于本文件。數(shù)據(jù)標(biāo) data對(duì)文本、圖像、語(yǔ)音、視頻等數(shù)據(jù)添加標(biāo)簽的過(guò)程。標(biāo)注任 labeling按照數(shù)據(jù)標(biāo)注說(shuō)明對(duì)數(shù)據(jù)進(jìn)行標(biāo)注的過(guò)程。數(shù)據(jù)標(biāo)注 data承擔(dān)數(shù)據(jù)標(biāo)注工作的人員或機(jī)構(gòu)。數(shù)據(jù)需求 data提出數(shù)據(jù)標(biāo)注需求的人員或機(jī)構(gòu),通常是數(shù)據(jù)使用者。標(biāo)注管理 datalabeling管理數(shù)據(jù)標(biāo)注任務(wù)評(píng)估、分發(fā)、交付、驗(yàn)收的人員或機(jī)構(gòu)。標(biāo)注工 labeling執(zhí)行數(shù)據(jù)標(biāo)注時(shí)使用的工具。標(biāo)注任務(wù)說(shuō) labelingtask數(shù)據(jù)需求方用于明確標(biāo)注任務(wù)的書面表達(dá)。注:標(biāo)注任務(wù)說(shuō)明通常包含對(duì)要執(zhí)行的標(biāo)注任務(wù)的描述、標(biāo)注方法、正反示例、驗(yàn)收方法與驗(yàn)收指標(biāo)等內(nèi)容。數(shù)據(jù)標(biāo)注流程數(shù)據(jù)標(biāo)注涉及數(shù)據(jù)需求方、標(biāo)注管理方及數(shù)據(jù)標(biāo)注方三方人員,主要流程包括標(biāo)注任務(wù)前期準(zhǔn)備、標(biāo)注任務(wù)執(zhí)行、標(biāo)注結(jié)果輸出三個(gè)階段。數(shù)據(jù)標(biāo)注流程見(jiàn)圖1。圖 數(shù)據(jù)標(biāo)注流程框在標(biāo)注前期準(zhǔn)備階段,數(shù)據(jù)需求方和標(biāo)注管理方應(yīng)確定標(biāo)注任務(wù),完成標(biāo)注內(nèi)容和標(biāo)注數(shù)據(jù)的確定。標(biāo)注管理方評(píng)估標(biāo)注任務(wù),向數(shù)據(jù)需求方反饋是否需要變更需求,若需要?jiǎng)t變更標(biāo)注需求,并重新評(píng)估標(biāo)注任務(wù)。標(biāo)注前期準(zhǔn)備階段還應(yīng)根據(jù)標(biāo)注人員的要求確定數(shù)據(jù)標(biāo)注方,同時(shí)確定標(biāo)注環(huán)境,選擇合適的標(biāo)注工具和場(chǎng)景。在標(biāo)注任務(wù)執(zhí)行階段,數(shù)據(jù)需求方、標(biāo)注管理方及數(shù)據(jù)標(biāo)注方三方人員應(yīng)遵循標(biāo)注流程的過(guò)程控制,完成標(biāo)注任務(wù)的創(chuàng)建、分發(fā)、開(kāi)展及回收。同時(shí)應(yīng)保證標(biāo)注任務(wù)的質(zhì)量,嚴(yán)格遵守管理機(jī)制。在標(biāo)注結(jié)果輸出階段,數(shù)據(jù)標(biāo)注方應(yīng)對(duì)數(shù)據(jù)標(biāo)注方標(biāo)注后的數(shù)據(jù)進(jìn)行內(nèi)部質(zhì)檢,質(zhì)檢合格后將標(biāo)注后的數(shù)據(jù)交付給數(shù)據(jù)需求方。若標(biāo)注后的數(shù)據(jù)符合預(yù)期,則數(shù)據(jù)標(biāo)注完成;否則進(jìn)行后期維護(hù)環(huán)節(jié),數(shù)據(jù)標(biāo)注方應(yīng)對(duì)數(shù)據(jù)進(jìn)行修正,并重啟內(nèi)部質(zhì)檢流程。標(biāo)注任務(wù)前期準(zhǔn)備標(biāo)注任務(wù)標(biāo)注內(nèi)容確定標(biāo)注內(nèi)容由標(biāo)注需求方在標(biāo)注任務(wù)說(shuō)明中提供,標(biāo)注任務(wù)說(shuō)明一經(jīng)確認(rèn),不可修改,如需修改則進(jìn)入需求變更環(huán)節(jié),標(biāo)注任務(wù)說(shuō)明應(yīng)包括但不限于:版本信息:明確當(dāng)前版本編號(hào)、發(fā)布日期、發(fā)布人、發(fā)布說(shuō)明(發(fā)布原因或迭代原因)及歷史迭代信息(歷代版本編號(hào)、發(fā)布日期、發(fā)布人、發(fā)布說(shuō)明等);項(xiàng)目背景:明確數(shù)據(jù)標(biāo)注需求產(chǎn)生的原因,以及數(shù)據(jù)標(biāo)注結(jié)果的應(yīng)用場(chǎng)景;任務(wù)描述:明確數(shù)據(jù)標(biāo)注任務(wù),包括數(shù)據(jù)形式、數(shù)據(jù)規(guī)模、標(biāo)注規(guī)則、相關(guān)術(shù)語(yǔ)、標(biāo)注樣例、質(zhì)量要求、指標(biāo)計(jì)算方式、驗(yàn)收流程、交付時(shí)間等;標(biāo)注人員資質(zhì):約定標(biāo)注任務(wù)參與人員的資質(zhì)要求;標(biāo)注結(jié)果:明確數(shù)據(jù)標(biāo)注結(jié)果的交付形式;知識(shí)產(chǎn)權(quán):明確數(shù)據(jù)的知識(shí)產(chǎn)權(quán)歸屬。標(biāo)注數(shù)據(jù)確定待標(biāo)注數(shù)據(jù)分析數(shù)據(jù)標(biāo)注前,數(shù)據(jù)需求方應(yīng)對(duì)待標(biāo)注數(shù)據(jù)分析,核對(duì)標(biāo)注任務(wù),包括: 數(shù)據(jù)核查:檢查待標(biāo)注數(shù)據(jù)是否與標(biāo)注任務(wù)說(shuō)明書中的數(shù)據(jù)定義相符,核查結(jié)果及時(shí)同步給數(shù)據(jù)需求方; 數(shù)據(jù)處理:根據(jù)標(biāo)注任務(wù)以及標(biāo)注數(shù)據(jù)的特性,通過(guò)數(shù)據(jù)聚類、組合排列、數(shù)據(jù)雜質(zhì)去除等方法,提高標(biāo)注質(zhì)量。數(shù)據(jù)安全等級(jí)確定根據(jù)標(biāo)注任務(wù)中的數(shù)據(jù)安全描述,數(shù)據(jù)需求方應(yīng)根據(jù)GB/T37973-2019GB/T35274-2017相關(guān)要求,確定標(biāo)注數(shù)據(jù)的安全等級(jí)。標(biāo)注任務(wù)評(píng)估根據(jù)標(biāo)注任務(wù)說(shuō)明,評(píng)估標(biāo)注任務(wù)可行性、標(biāo)注規(guī)則合理性; 在數(shù)據(jù)需求方提供的小規(guī)模樣本上進(jìn)行預(yù)標(biāo)注,將標(biāo)注結(jié)果提交給數(shù)據(jù)需求方驗(yàn)收。在獲得數(shù)據(jù)需求方確認(rèn)后,再正式啟動(dòng)數(shù)據(jù)標(biāo)注任務(wù)。注:數(shù)據(jù)預(yù)標(biāo)注流程中,如發(fā)現(xiàn)標(biāo)注規(guī)則與數(shù)據(jù)相悖、覆蓋不全或規(guī)則之間相悖的,應(yīng)及時(shí)記錄,并向數(shù)據(jù)需求方反饋完善標(biāo)注規(guī)則。標(biāo)注需求變更標(biāo)注需求方需求變更時(shí),應(yīng)在標(biāo)注管理方評(píng)審?fù)夂蟾聵?biāo)注任務(wù)說(shuō)明,重新進(jìn)入標(biāo)注任務(wù)評(píng)估階段。標(biāo)注人員標(biāo)注人員范圍數(shù)據(jù)標(biāo)注方根據(jù)標(biāo)注任務(wù)內(nèi)容中規(guī)定的標(biāo)注人員資質(zhì)需求,應(yīng)確定符合要求的人員進(jìn)入標(biāo)注人員培訓(xùn)環(huán)節(jié)。標(biāo)注人員培訓(xùn)數(shù)據(jù)標(biāo)注方根據(jù)標(biāo)注任務(wù)說(shuō)明,應(yīng)對(duì)標(biāo)注人員進(jìn)行崗前能力培訓(xùn)。通過(guò)標(biāo)注能力考試合格者,方能參與標(biāo)注任務(wù)。標(biāo)注人員能力檔案數(shù)據(jù)標(biāo)注方應(yīng)建立標(biāo)注人員能力檔案,記錄標(biāo)注人員承擔(dān)標(biāo)注任務(wù)的相關(guān)內(nèi)容,用于進(jìn)行標(biāo)注人員能力評(píng)估與標(biāo)注質(zhì)量追蹤。標(biāo)注環(huán)境選擇標(biāo)注工具數(shù)據(jù)標(biāo)注方應(yīng)根據(jù)標(biāo)注任務(wù)難度、數(shù)據(jù)處理規(guī)模及數(shù)據(jù)屬性特征、數(shù)據(jù)安全控制層級(jí)與方式,合理選擇標(biāo)注工具,完成數(shù)據(jù)標(biāo)注任務(wù)。選擇標(biāo)注場(chǎng)地?cái)?shù)據(jù)標(biāo)注方應(yīng)根據(jù)標(biāo)注任務(wù)中必要的數(shù)據(jù)安全要求,搭建數(shù)據(jù)標(biāo)注場(chǎng)地。標(biāo)注任務(wù)執(zhí)行過(guò)程控制標(biāo)注任務(wù)創(chuàng)建標(biāo)注任務(wù)創(chuàng)建主要包括以下內(nèi)容: 任務(wù)包創(chuàng)建:數(shù)據(jù)需求方應(yīng)以適應(yīng)標(biāo)注環(huán)境分發(fā)、標(biāo)注工具讀取為目標(biāo),將需要標(biāo)注的數(shù)據(jù)合理分組,保證轉(zhuǎn)寫質(zhì)量以及后續(xù)的任務(wù)分配; 任務(wù)賬戶創(chuàng)建:數(shù)據(jù)需求方應(yīng)以標(biāo)注人員數(shù)量為依據(jù),綜合標(biāo)注、質(zhì)量分析等任務(wù)需求,跟據(jù)標(biāo)注環(huán)境或者標(biāo)注工具,創(chuàng)建標(biāo)注過(guò)程中所需要使用的用戶賬戶,并分配相應(yīng)的權(quán)限或賬戶使用規(guī)則;數(shù)據(jù)安全風(fēng)險(xiǎn)評(píng)估和安全監(jiān)控制度,監(jiān)管對(duì)于上傳數(shù)據(jù)的合法合規(guī)性。標(biāo)注任務(wù)分發(fā)標(biāo)注任務(wù)分發(fā)主要包括以下內(nèi)容: 標(biāo)注任務(wù)分發(fā)類型:標(biāo)注管理方應(yīng)根據(jù)標(biāo)注任務(wù)要求的標(biāo)注環(huán)境、標(biāo)注工具,結(jié)合標(biāo)注質(zhì)量管理以及標(biāo)注速度管理,在保證標(biāo)注質(zhì)量的前提下,選擇主動(dòng)領(lǐng)取或系統(tǒng)自動(dòng)分發(fā)等任務(wù)分發(fā)類型,優(yōu)化標(biāo)注任務(wù)分發(fā)策略; 標(biāo)注任務(wù)分發(fā)保障:標(biāo)注管理方應(yīng)制定標(biāo)注任務(wù)分發(fā)安全管理制度,明確標(biāo)注任務(wù)分發(fā)日志內(nèi)容,監(jiān)控標(biāo)注任務(wù)分發(fā)安全。標(biāo)注任務(wù)開(kāi)展標(biāo)注任務(wù)開(kāi)展主要包括以下內(nèi)容: 標(biāo)注任務(wù)分配:數(shù)據(jù)標(biāo)注方應(yīng)安排數(shù)據(jù)標(biāo)注人員使用分配的標(biāo)注賬戶,對(duì)分配到的標(biāo)注任務(wù)包進(jìn)行標(biāo)注工作; 標(biāo)注過(guò)程反饋:數(shù)據(jù)標(biāo)注方應(yīng)建立標(biāo)注過(guò)程反饋機(jī)制,將與標(biāo)注要求不符、標(biāo)注要求中未涵蓋的數(shù)據(jù)等情況,及時(shí)反饋給標(biāo)注管理方和數(shù)據(jù)需求方,確保標(biāo)注規(guī)則與數(shù)據(jù)的匹配度; 標(biāo)注任務(wù)開(kāi)展保障:數(shù)據(jù)標(biāo)注方應(yīng)明確數(shù)據(jù)脫敏和個(gè)人信息安全影響評(píng)估制度,在標(biāo)注前對(duì)個(gè)人信息進(jìn)行數(shù)據(jù)脫敏處理,保障數(shù)據(jù)標(biāo)注流程合法合規(guī)性,并對(duì)數(shù)據(jù)標(biāo)注結(jié)果進(jìn)行分級(jí)制度,適當(dāng)提高數(shù)據(jù)安全等級(jí)。標(biāo)注任務(wù)回收在標(biāo)注任務(wù)完成后,數(shù)據(jù)標(biāo)注方的標(biāo)注團(tuán)隊(duì)負(fù)責(zé)人應(yīng)檢查標(biāo)注數(shù)量,確保所有任務(wù)包均被回收,對(duì)未能及時(shí)完成的任務(wù)包,要建立適當(dāng)?shù)臏贤ê突厥赵侔l(fā)放的管理機(jī)制,以確保標(biāo)注任務(wù)按期完成,保證任務(wù)進(jìn)度。質(zhì)量保證標(biāo)注任務(wù)質(zhì)量檢查在標(biāo)注過(guò)程中,應(yīng)采用多種檢查方法對(duì)標(biāo)注任務(wù)質(zhì)量進(jìn)行檢測(cè),對(duì)不滿足標(biāo)注任務(wù)要求的,及時(shí)預(yù)警反饋,并查明問(wèn)題原因。根據(jù)項(xiàng)目特性,標(biāo)注任務(wù)質(zhì)量檢查方法可歸納為以下三種:注結(jié)果。結(jié)果選擇可通過(guò)下列方式: 標(biāo)注工具自動(dòng)選擇:通過(guò)與標(biāo)注工具匹配的模型推理,或擬合若干個(gè)標(biāo)注結(jié)果,選擇其中置信度最高的標(biāo)注結(jié)果,作為最終結(jié)果; 人工輔助選擇:人工對(duì)多個(gè)標(biāo)注結(jié)果進(jìn)行對(duì)比,從而挑選出置信度最高的標(biāo)注結(jié)果作為最終結(jié)果。對(duì)于需要特定專業(yè)知識(shí)標(biāo)注的領(lǐng)域,進(jìn)行人工輔助標(biāo)注時(shí)應(yīng)以多個(gè)專家的共同商議結(jié)果作為最終結(jié)果。埋題驗(yàn)證:在任務(wù)進(jìn)行期間,除了常規(guī)標(biāo)注子任務(wù)外,在任務(wù)中混進(jìn)若干已知結(jié)果的測(cè)試題,以此驗(yàn)證標(biāo)注質(zhì)量。在此操作的過(guò)程中注意以下事項(xiàng): 針對(duì)數(shù)據(jù)特征專題專用:對(duì)于埋題驗(yàn)證,應(yīng)保障測(cè)試題在真題中間處于混淆的狀態(tài)。因此,在出題的過(guò)程中,應(yīng)針對(duì)數(shù)據(jù)的自身特征(數(shù)據(jù)的類別、場(chǎng)景、內(nèi)容等),準(zhǔn)備相應(yīng)的題目,避免題目暴露于操作者,失去驗(yàn)證的效果; 限制題目的使用次數(shù):為避免題目多次出現(xiàn),引起被測(cè)者的注意,從而失去驗(yàn)證效果,應(yīng)限制題目的使用次數(shù)。尤其以擁有容易記憶的特征點(diǎn)的題目(如特定臉部特征、特定文字、特定場(chǎng)景等),應(yīng)嚴(yán)格限制出現(xiàn)的次數(shù)。標(biāo)注人員狀態(tài)驗(yàn)證:通過(guò)對(duì)標(biāo)注人員的操作規(guī)范性、實(shí)時(shí)注意力狀態(tài)、標(biāo)注準(zhǔn)確率等方面進(jìn)行檢查與監(jiān)測(cè),及時(shí)發(fā)現(xiàn)操作違規(guī)問(wèn)題,保證數(shù)據(jù)質(zhì)量;在發(fā)現(xiàn)操作違規(guī)問(wèn)題、數(shù)據(jù)質(zhì)量有下降時(shí),應(yīng)根據(jù)時(shí)間段等特征,對(duì)標(biāo)注人員在這一狀態(tài)內(nèi)操作的標(biāo)注數(shù)據(jù)進(jìn)行檢查或者返工等操作。標(biāo)注任務(wù)一致性檢查在標(biāo)注任務(wù)進(jìn)行期間應(yīng)使用統(tǒng)計(jì)規(guī)則或模型驗(yàn)證等方法,得到標(biāo)注任務(wù)一致性水平,一旦發(fā)現(xiàn)離群點(diǎn)或明顯的降低趨勢(shì),及時(shí)對(duì)標(biāo)注人員預(yù)警和警告。管理機(jī)制標(biāo)注任務(wù)進(jìn)度管理數(shù)據(jù)標(biāo)注方應(yīng)定期與標(biāo)注管理方同步數(shù)據(jù)標(biāo)注任務(wù)工作進(jìn)度。標(biāo)注任務(wù)風(fēng)險(xiǎn)預(yù)估在標(biāo)注任務(wù)進(jìn)行過(guò)程中,數(shù)據(jù)標(biāo)注方應(yīng)對(duì)標(biāo)注人員是否能夠如期達(dá)到對(duì)應(yīng)的執(zhí)行進(jìn)度,進(jìn)行預(yù)估和檢測(cè),并針對(duì)可能存在的標(biāo)注進(jìn)度延誤風(fēng)險(xiǎn),對(duì)數(shù)據(jù)需求方、標(biāo)注管理方進(jìn)行適當(dāng)?shù)奶崾?。任?wù)風(fēng)險(xiǎn)預(yù)估和提醒的方法,可分為以下兩類: 收集和更新:在任務(wù)進(jìn)行期間,對(duì)不同的時(shí)間節(jié)點(diǎn),對(duì)標(biāo)注人員任務(wù)完成時(shí)間的推測(cè)和預(yù)估進(jìn)行定期的收集、更新,匯總于系統(tǒng)上,并對(duì)其中有風(fēng)險(xiǎn)的完成時(shí)間節(jié)點(diǎn)進(jìn)行顯著的提醒。這種預(yù)估和提醒的方式,應(yīng)遵守以下規(guī)則: 收集、更新任務(wù)完成的推測(cè)時(shí)間的時(shí)間節(jié)點(diǎn):為了在標(biāo)注的工作全流程中得到盡量準(zhǔn)確的推測(cè)時(shí)間預(yù)估,同時(shí)也避免頻繁收集推測(cè)時(shí)間造成的效率損失,應(yīng)在任務(wù)未開(kāi)始標(biāo)注、開(kāi)始分配并啟動(dòng)標(biāo)注時(shí)和距離標(biāo)注結(jié)束較為接近時(shí)的節(jié)點(diǎn),對(duì)推測(cè)的任務(wù)完成時(shí)間進(jìn)行收集、更新; 判定任務(wù)完成風(fēng)險(xiǎn):在上述若干類時(shí)間節(jié)點(diǎn)收集到推測(cè)完成標(biāo)注任務(wù)的時(shí)間節(jié)點(diǎn)之后,應(yīng)對(duì)收集到的標(biāo)注人員上報(bào)的時(shí)間節(jié)點(diǎn)進(jìn)行判定,從而推斷出標(biāo)注任務(wù)當(dāng)前的執(zhí)行是否存在逾期的風(fēng)險(xiǎn)。對(duì)于是否有逾期風(fēng)險(xiǎn)的判定,基本的判定規(guī)則是依據(jù)標(biāo)注管理方扣除預(yù)估充裕的驗(yàn)收、返工時(shí)間后,給出的截止時(shí)間,將任務(wù)完成的推測(cè)時(shí)間與之進(jìn)行對(duì)比。如果推測(cè)時(shí)間晚于該截止時(shí)間,則任務(wù)存在風(fēng)險(xiǎn),應(yīng)進(jìn)行風(fēng)險(xiǎn)的提醒。 率,進(jìn)行標(biāo)注效率的推測(cè)。效率的推測(cè)過(guò)程中,應(yīng)遵守以下規(guī)范: 應(yīng)以天為單位,進(jìn)行時(shí)間尺度上的效率推算。標(biāo)注人員的工作時(shí)間并非全天候,在全日時(shí)間內(nèi)的分布并不均勻,主要集中在規(guī)定的上班時(shí)間,因此,對(duì)于標(biāo)注效率的推算,宜以天為單位,能夠在若干天的項(xiàng)目周期內(nèi),得到更準(zhǔn)確的產(chǎn)能預(yù)估; 應(yīng)以標(biāo)注人員整組的按天效率為粒度,進(jìn)行工作能力上的推算。以完成任務(wù)的整一組標(biāo)注人員為整體,進(jìn)行整體任務(wù)效率的預(yù)估,有效屏蔽標(biāo)注人員個(gè)體在效率上的差距,得到標(biāo)注任務(wù)在推進(jìn)上的總體效率,更有效地反映任務(wù)的推進(jìn)速度; 宜在每日結(jié)束的時(shí)間點(diǎn),以天為單位對(duì)執(zhí)行風(fēng)險(xiǎn)進(jìn)行平均推算和提示。在每日結(jié)束的時(shí)間點(diǎn),對(duì)當(dāng)天的標(biāo)注人員整組的按天效率進(jìn)行計(jì)算,可通過(guò)歷史若干天的平均效率,以及當(dāng)前剩余的數(shù)據(jù)量,推算出標(biāo)注任務(wù)剩余的預(yù)估工作日數(shù)。若該日數(shù)已經(jīng)超過(guò)目前預(yù)計(jì)的截止時(shí)間,則認(rèn)為任務(wù)有可能存在逾期的風(fēng)險(xiǎn),此時(shí)應(yīng)進(jìn)行風(fēng)險(xiǎn)的及時(shí)暴露和提醒。標(biāo)注任務(wù)風(fēng)險(xiǎn)提醒在預(yù)估到標(biāo)注任務(wù)可能存在風(fēng)險(xiǎn)的情況下,數(shù)據(jù)標(biāo)注方應(yīng)對(duì)風(fēng)險(xiǎn)進(jìn)行及時(shí)的暴露和提醒,從而使得數(shù)據(jù)需求方、標(biāo)注管理方能及時(shí)對(duì)該逾期風(fēng)險(xiǎn)進(jìn)行處理。因此風(fēng)險(xiǎn)的暴露和提醒應(yīng)足夠清晰,應(yīng)保障消息能夠觸達(dá)數(shù)據(jù)需求方、標(biāo)注管理方。風(fēng)險(xiǎn)預(yù)估的消息提醒應(yīng)包含如下信息,以助于數(shù)據(jù)需求方、標(biāo)注管理方進(jìn)行恰當(dāng)?shù)那閯?shì)判斷:標(biāo)注任務(wù)的基本概況信息:包含足以識(shí)別面臨風(fēng)險(xiǎn)的標(biāo)注任務(wù)的信息,包括任務(wù)的名稱、需求方、標(biāo)注要求、總?cè)蝿?wù)量、剩余未完成的任務(wù)量等;執(zhí)行任務(wù)的標(biāo)注人員:包含足以識(shí)別面臨風(fēng)險(xiǎn)的標(biāo)注人員或團(tuán)隊(duì)的信息;目前預(yù)估的完成時(shí)間;完成時(shí)間的預(yù)估途徑:通過(guò)何種途徑預(yù)估得到完成時(shí)間,包括且不限于上述的兩種途徑(收集和刷新/效率推測(cè));原本預(yù)計(jì)的截止時(shí)間。為了使得消息能夠及時(shí)傳遞到數(shù)據(jù)需求方、標(biāo)注管理方,標(biāo)注任務(wù)可能有風(fēng)險(xiǎn)的消息內(nèi)容應(yīng)通過(guò)各類手段進(jìn)行觸達(dá),包括但不限于:電子郵件;告警短信;告警電話;應(yīng)用消息推送。標(biāo)注結(jié)果輸出內(nèi)部質(zhì)檢內(nèi)部質(zhì)檢要求數(shù)據(jù)標(biāo)注方在完成數(shù)據(jù)標(biāo)注,由內(nèi)部質(zhì)檢驗(yàn)收合格后,應(yīng)提交給標(biāo)注管理方。根據(jù)數(shù)據(jù)標(biāo)注任務(wù)說(shuō)明,合格的數(shù)據(jù)標(biāo)注結(jié)果應(yīng)滿足:標(biāo)注數(shù)據(jù)核驗(yàn)滿足數(shù)據(jù)標(biāo)注任務(wù)說(shuō)明中的要求;數(shù)據(jù)質(zhì)量滿足數(shù)據(jù)標(biāo)注任務(wù)說(shuō)明中的期望。標(biāo)注數(shù)據(jù)任務(wù)核檢根據(jù)數(shù)據(jù)標(biāo)注任務(wù)說(shuō)明,數(shù)據(jù)標(biāo)注方應(yīng)對(duì)標(biāo)注數(shù)據(jù)格式、內(nèi)容進(jìn)行合理性和正確性核驗(yàn),以確定其滿足標(biāo)注要求。標(biāo)注數(shù)據(jù)質(zhì)量檢查標(biāo)注數(shù)據(jù)質(zhì)量檢查能夠確保數(shù)據(jù)標(biāo)注結(jié)果有價(jià)值,符合數(shù)據(jù)需求方的特定應(yīng)用目的。根據(jù)項(xiàng)目特性,質(zhì)量檢查方法可以歸納為以下幾種,標(biāo)注項(xiàng)目負(fù)責(zé)人應(yīng)根據(jù)場(chǎng)景需求及項(xiàng)目特點(diǎn)進(jìn)行選擇: 逐條檢查:即對(duì)整個(gè)標(biāo)注項(xiàng)目所包含的所有標(biāo)注子任務(wù)逐一核查并確認(rèn)。適用于項(xiàng)目量級(jí)不大、人力資源充沛、時(shí)間節(jié)點(diǎn)不緊張、對(duì)標(biāo)注數(shù)據(jù)結(jié)果的準(zhǔn)確率要求極高的標(biāo)注項(xiàng)目。這種方法覆蓋的質(zhì)量檢查范圍最全,同時(shí)也適用于任何形式的數(shù)據(jù)標(biāo)注場(chǎng)景。該方法可確保標(biāo)注數(shù)據(jù)輸出的最高質(zhì)量,尤其對(duì)于數(shù)據(jù)格式主觀成分較多、應(yīng)用場(chǎng)景較復(fù)雜的任務(wù)更有效; 按比例抽查:即從全部標(biāo)注數(shù)據(jù)中科學(xué)地抽取樣本,對(duì)樣本中的數(shù)據(jù)逐條檢查,以此評(píng)判全部標(biāo)注數(shù)據(jù)的質(zhì)量。樣本量的選擇應(yīng)符合統(tǒng)計(jì)學(xué)基本原理,足以代表全部標(biāo)注數(shù)據(jù),例如在逐包分配進(jìn)行標(biāo)注的同時(shí),可以確保每包均按一定比例進(jìn)行抽查,以確保抽樣足夠均勻,足以代表總體結(jié)果。抽查審核時(shí),項(xiàng)目負(fù)責(zé)人應(yīng)指定審核員完成,審核員應(yīng)明確標(biāo)注的詳細(xì)執(zhí)行要求,從而確保交付質(zhì)量; 抽樣檢驗(yàn):即從整個(gè)標(biāo)注項(xiàng)目中隨機(jī)抽取少量標(biāo)注子任務(wù)進(jìn)行檢驗(yàn),據(jù)以判斷該標(biāo)注項(xiàng)目是否合格。抽樣檢驗(yàn)可分為簡(jiǎn)單抽樣、系統(tǒng)抽樣和分層抽樣三種方式; 機(jī)器驗(yàn)證:通過(guò)機(jī)器學(xué)習(xí),包括使用已訓(xùn)練模型進(jìn)行檢查或使用遷移學(xué)習(xí)、在線學(xué)習(xí)等方法對(duì)人工標(biāo)注的數(shù)據(jù)做質(zhì)量檢查,實(shí)現(xiàn)全自動(dòng)或輔助人工質(zhì)量檢查方式。機(jī)器學(xué)習(xí)方法輸出的準(zhǔn)確率不能完全代表數(shù)據(jù)集的準(zhǔn)確率,但能在一定程度上反映數(shù)據(jù)集的質(zhì)量; 第三方驗(yàn)證:醫(yī)學(xué)等專業(yè)領(lǐng)域,如需對(duì)標(biāo)注結(jié)果進(jìn)行第三方驗(yàn)證的,應(yīng)由有資質(zhì)的第三方邀請(qǐng)有資質(zhì)和從業(yè)經(jīng)驗(yàn)的專家進(jìn)行驗(yàn)證,從而確保標(biāo)注結(jié)果的質(zhì)量。標(biāo)注數(shù)據(jù)質(zhì)量檢查設(shè)定在質(zhì)量檢查過(guò)程中,為了防止一次性不合格數(shù)據(jù)積壓過(guò)多而導(dǎo)致延誤交付,同時(shí)防止檢查過(guò)于碎片化、零散導(dǎo)致檢查效率低下、檢查切換時(shí)間開(kāi)銷過(guò)大,對(duì)于不同任務(wù)檢查的時(shí)間點(diǎn),應(yīng)進(jìn)行如下的設(shè)定,避免此類情況發(fā)生: 設(shè)定質(zhì)量檢查間隔:通過(guò)設(shè)定質(zhì)量檢查間隔,使得抽樣更均勻,更能有效反映出整體的質(zhì)量情況;同時(shí)使得需要被返
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 酒類生產(chǎn)技術(shù)規(guī)范制度
- 易制毒安全生產(chǎn)規(guī)章制度
- 2026上半年云南林業(yè)職業(yè)技術(shù)學(xué)院招聘16人備考考試題庫(kù)附答案解析
- 安全生產(chǎn)三個(gè)清單制度
- 存貨及生產(chǎn)成本管理制度
- 2026江西吉安吉州區(qū)興泰科技股份有限公司向社會(huì)招募就業(yè)見(jiàn)習(xí)人員參考考試試題附答案解析
- 鄉(xiāng)鎮(zhèn)農(nóng)業(yè)標(biāo)準(zhǔn)化生產(chǎn)制度
- 2026北京國(guó)防科技大學(xué)電子對(duì)抗學(xué)院幼兒園社會(huì)招聘3人參考考試試題附答案解析
- 變電站安全生產(chǎn)獎(jiǎng)罰制度
- 獸醫(yī)站安全生產(chǎn)制度
- 2025年無(wú)人駕駛公共交通項(xiàng)目可行性研究報(bào)告
- 北京市朝陽(yáng)區(qū)2026屆高三上英語(yǔ)期末考試試題含解析
- 亞急性硬化性全腦炎2-
- GB/T 6462-2025金屬和氧化物覆蓋層厚度測(cè)量顯微鏡法
- 工程量鑒定合同范本
- 建筑工程施工工藝詳細(xì)操作手冊(cè)
- 外科院感課件
- 2025國(guó)家核安保技術(shù)中心招聘筆試歷年常考點(diǎn)試題專練附帶答案詳解試卷3套
- 《鋼質(zhì)海船入級(jí)規(guī)范》
- 小區(qū)凈水設(shè)備維修方案(3篇)
- DB14∕T2248-2020 《煤礦安全風(fēng)險(xiǎn)分級(jí)管控和隱患排查治理雙重預(yù)防機(jī)制實(shí)施規(guī)范》
評(píng)論
0/150
提交評(píng)論