版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1.數(shù)據(jù)標(biāo)注概述1數(shù)據(jù)標(biāo)注概述2
人工智能行業(yè)的數(shù)據(jù)需求數(shù)據(jù)標(biāo)注概述數(shù)據(jù)標(biāo)注的定義數(shù)據(jù)標(biāo)注(DataAnnotations)是指對(duì)待標(biāo)注數(shù)據(jù)進(jìn)行歸類(lèi)、整理、編輯、糾錯(cuò)、標(biāo)記和批注等加工操作,按特定的標(biāo)注任務(wù)為待標(biāo)注數(shù)據(jù)增加標(biāo)簽,生成滿足機(jī)器學(xué)習(xí)訓(xùn)練要求的機(jī)器可讀數(shù)據(jù)編碼的工作。簡(jiǎn)單地說(shuō),就是數(shù)據(jù)標(biāo)注員使用標(biāo)注工具對(duì)圖像、視頻、語(yǔ)音、文本等數(shù)據(jù)執(zhí)行拉框、標(biāo)點(diǎn)、注釋、轉(zhuǎn)寫(xiě)等操作,并轉(zhuǎn)換為機(jī)器可識(shí)別信息的過(guò)程。1這是一輛“汽車(chē)”數(shù)據(jù)標(biāo)注概述相關(guān)基本概念標(biāo)注任務(wù)(AnnotationTask)標(biāo)簽(Label)數(shù)據(jù)標(biāo)注員(DataLabeler)標(biāo)注工具(AnnotationTool)1這是一輛“汽車(chē)”數(shù)據(jù)標(biāo)注概述數(shù)據(jù)標(biāo)注的發(fā)展1數(shù)據(jù)標(biāo)注概述數(shù)據(jù)標(biāo)注的發(fā)展-全球數(shù)據(jù)標(biāo)注行業(yè)發(fā)展歷程1萌芽期(上世紀(jì)90年代–2007年)成長(zhǎng)期(2007
–2015年)快速發(fā)展期(2015年以來(lái))上世紀(jì)90年代,一些科技公司如Appen等開(kāi)始關(guān)注并布局?jǐn)?shù)據(jù)服務(wù)行業(yè);2007年,斯坦福大學(xué)教授李飛飛等人開(kāi)始啟動(dòng)ImageNet項(xiàng)目,借助亞馬遜的勞務(wù)眾包平臺(tái)MechanicalTurk(AMT)來(lái)完成圖片的分類(lèi)和標(biāo)注;數(shù)據(jù)標(biāo)注行業(yè)開(kāi)始起步發(fā)展全球人工智能和大數(shù)據(jù)行業(yè)的快速發(fā)展催生數(shù)據(jù)處理需求快速增長(zhǎng),全球開(kāi)始涌現(xiàn)出一批數(shù)據(jù)標(biāo)注公司;全球數(shù)據(jù)標(biāo)注行業(yè)進(jìn)入成長(zhǎng)期2015年以來(lái),全球自動(dòng)駕駛、智慧醫(yī)療、智慧教育等人工智能應(yīng)用領(lǐng)域加快發(fā)展,一些優(yōu)質(zhì)的數(shù)據(jù)標(biāo)注公司加快并購(gòu)步伐,同時(shí)也有越來(lái)越多的新興公司加入數(shù)據(jù)標(biāo)注行業(yè);全球數(shù)據(jù)標(biāo)注進(jìn)入快速發(fā)展期數(shù)據(jù)標(biāo)注概述數(shù)據(jù)標(biāo)注的分類(lèi)方法-數(shù)據(jù)標(biāo)注的分類(lèi)可以從不同的維度進(jìn)行劃分,通常有三種分類(lèi)方式:標(biāo)注對(duì)象、標(biāo)注方式和標(biāo)注者類(lèi)型。分類(lèi)方式概念優(yōu)點(diǎn)缺點(diǎn)1數(shù)據(jù)標(biāo)注概述1分類(lèi)方式概念優(yōu)點(diǎn)缺點(diǎn)標(biāo)注對(duì)象圖像標(biāo)注將標(biāo)簽添加到圖像上的過(guò)程使人臉識(shí)別和自動(dòng)駕駛等技術(shù)得到發(fā)展和完善相對(duì)復(fù)雜且耗時(shí)語(yǔ)音標(biāo)注需要人工將語(yǔ)音內(nèi)容轉(zhuǎn)化為文本內(nèi)容,然后通過(guò)算法模型識(shí)別轉(zhuǎn)化后的文本內(nèi)容幫助人工智能領(lǐng)域中的語(yǔ)音識(shí)別功能更加完善算法無(wú)法直接理解語(yǔ)音內(nèi)容,需要進(jìn)行文本轉(zhuǎn)化文本標(biāo)注與音頻標(biāo)注相似,都需要通過(guò)人工識(shí)別轉(zhuǎn)化成文本內(nèi)容減少了文本識(shí)別行業(yè)和領(lǐng)域的人工工作量人工識(shí)別過(guò)程復(fù)雜標(biāo)注方式結(jié)構(gòu)化標(biāo)注數(shù)據(jù)標(biāo)簽必須在規(guī)定的標(biāo)簽候選集內(nèi),數(shù)據(jù)標(biāo)注員通過(guò)將標(biāo)注對(duì)象與標(biāo)簽候選集進(jìn)行匹配,選出最合理的標(biāo)簽值作為標(biāo)注結(jié)果標(biāo)簽候選集將標(biāo)注類(lèi)別描述得很清晰,便于數(shù)據(jù)標(biāo)注員選擇;標(biāo)簽是結(jié)構(gòu)化的,利于存儲(chǔ)和后期的統(tǒng)計(jì)查找遇到具有二義性標(biāo)簽時(shí)往往會(huì)影響最終的標(biāo)注結(jié)果非結(jié)構(gòu)化標(biāo)注數(shù)據(jù)標(biāo)注員在規(guī)定的約束內(nèi),自由組織關(guān)鍵字對(duì)標(biāo)注對(duì)象進(jìn)行描述數(shù)據(jù)標(biāo)注員可以清楚地表達(dá)自己的觀點(diǎn)給數(shù)據(jù)存儲(chǔ)和使用帶來(lái)困難,不利于統(tǒng)計(jì)分析半結(jié)構(gòu)化標(biāo)注標(biāo)簽值采用結(jié)構(gòu)化標(biāo)注,而標(biāo)簽域采用非結(jié)構(gòu)化標(biāo)注標(biāo)注靈活性強(qiáng),便于統(tǒng)計(jì)查找對(duì)數(shù)據(jù)標(biāo)注員要求高,且工作量大,耗時(shí)標(biāo)注者類(lèi)型人工標(biāo)注雇用經(jīng)過(guò)培訓(xùn)的數(shù)據(jù)標(biāo)注員進(jìn)行標(biāo)注標(biāo)注質(zhì)量高標(biāo)注成本高,時(shí)間長(zhǎng),效率低機(jī)器標(biāo)注通常使用智能算法進(jìn)行標(biāo)注標(biāo)注速度快,成本相對(duì)較低算法對(duì)涉及高層語(yǔ)義的對(duì)象識(shí)別和提取效果不好數(shù)據(jù)標(biāo)注概述數(shù)據(jù)標(biāo)注的分類(lèi)方法圖像標(biāo)注對(duì)汽車(chē)和行人進(jìn)行篩選、分類(lèi)、標(biāo)框等;對(duì)骨骼進(jìn)行描點(diǎn);對(duì)病理切片標(biāo)注;1數(shù)據(jù)標(biāo)注概述數(shù)據(jù)標(biāo)注的分類(lèi)方法語(yǔ)音標(biāo)注發(fā)音人角色標(biāo)注環(huán)境情景標(biāo)注多語(yǔ)種標(biāo)注ToBI(TonesandBreakIndices)韻律標(biāo)注體系標(biāo)注噪聲標(biāo)注等1數(shù)據(jù)標(biāo)注概述數(shù)據(jù)標(biāo)注的分類(lèi)方法文本標(biāo)注語(yǔ)句分詞標(biāo)注語(yǔ)義判定標(biāo)注文本翻譯標(biāo)注情感色彩標(biāo)注拼音標(biāo)注多音字標(biāo)注數(shù)字符號(hào)標(biāo)注等1人工智能的行業(yè)數(shù)據(jù)需求1數(shù)據(jù)標(biāo)注概述2人工智能行業(yè)的數(shù)據(jù)需求人工智能行業(yè)的數(shù)據(jù)需求有多少智能,就有多少人工有監(jiān)督學(xué)習(xí)通過(guò)訓(xùn)練樣本找出規(guī)律,對(duì)模型進(jìn)行優(yōu)化,使其具有判斷與預(yù)知能力,這是向“樣本”學(xué)習(xí)的過(guò)程。數(shù)據(jù)處理的量級(jí)與質(zhì)量又直接關(guān)系到機(jī)器的智能程度,也就是我們所說(shuō)的“有多少智能,就有多少人工”。隨著人工智能由弱人工智能向強(qiáng)人工智能直至超人工智能的轉(zhuǎn)變,以及有監(jiān)督學(xué)習(xí)向無(wú)監(jiān)督學(xué)習(xí)或遷移學(xué)習(xí)的轉(zhuǎn)變,數(shù)據(jù)標(biāo)注的需求將大幅度削減,人工標(biāo)注最終可能將不復(fù)存在。數(shù)據(jù)標(biāo)注工程師將是陪伴人工智能成長(zhǎng)壯大的最后一批“老師”,很可能成為最后被替代的人類(lèi)。2手動(dòng)標(biāo)注與流體標(biāo)注對(duì)比(相差無(wú)幾)人工智能行業(yè)的數(shù)據(jù)需求數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景-自動(dòng)駕駛在汽車(chē)自動(dòng)駕駛的過(guò)程中,想要讓汽車(chē)本身的算法做到處理更多、更復(fù)雜的場(chǎng)景,背后就需要有海量的真實(shí)道路數(shù)據(jù)做支撐。而這就需要依靠數(shù)據(jù)標(biāo)注。在汽車(chē)自動(dòng)駕駛領(lǐng)域,數(shù)據(jù)標(biāo)注處理的標(biāo)注場(chǎng)景通常包括換道超車(chē)、通過(guò)路口、無(wú)紅綠燈控制的無(wú)保護(hù)左轉(zhuǎn)、右轉(zhuǎn),以及一些復(fù)雜的長(zhǎng)尾場(chǎng)景諸如闖紅燈車(chē)輛、橫穿馬路的行人、路邊違章??康能?chē)輛等等。2人工智能行業(yè)的數(shù)據(jù)需求數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景-智慧安防智能安防是人工智能與信息技術(shù)結(jié)合的關(guān)鍵領(lǐng)域,對(duì)于城市與民生發(fā)展有重要的意義。通過(guò)生物識(shí)別、行為監(jiān)測(cè)等技術(shù)手段,廣泛地應(yīng)用于城市道路監(jiān)控、車(chē)輛人流監(jiān)測(cè)、公共安全防范等領(lǐng)域。智能安防的6種數(shù)據(jù)標(biāo)注:人臉打點(diǎn)骨骼關(guān)鍵點(diǎn)人體拉框視頻切分目標(biāo)跟蹤語(yǔ)義分割2人工智能行業(yè)的數(shù)據(jù)需求數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景-智能醫(yī)療智能醫(yī)療是通過(guò)打造健康檔案區(qū)域醫(yī)療信息平臺(tái),利用最先進(jìn)的物聯(lián)網(wǎng)技術(shù),實(shí)現(xiàn)患者與醫(yī)務(wù)人員、醫(yī)療機(jī)構(gòu)、醫(yī)療設(shè)備之間的互動(dòng),逐步達(dá)到信息化。AI與醫(yī)療行業(yè)的結(jié)合將有望迎來(lái)跨越式發(fā)展。醫(yī)療影像標(biāo)注是對(duì)醫(yī)療影像進(jìn)行區(qū)域標(biāo)注及分類(lèi)標(biāo)注,多應(yīng)用于輔助臨床診斷。人工智能通過(guò)學(xué)習(xí)大量的醫(yī)療影像標(biāo)注數(shù)據(jù)集,將會(huì)很好的輔助醫(yī)生進(jìn)行臨床診斷以及提出治療方案。2人工智能行業(yè)的數(shù)據(jù)需求人工智能行業(yè)常用的數(shù)據(jù)集-ImageNetlmageNet數(shù)據(jù)集是一個(gè)計(jì)算機(jī)視覺(jué)數(shù)據(jù)集,由斯坦福大學(xué)李飛飛教授帶領(lǐng)創(chuàng)建。該數(shù)據(jù)集包含14,197,122張圖片和21,841個(gè)類(lèi)別。ImageNet數(shù)據(jù)集一直是評(píng)估圖像分類(lèi)算法性能的基準(zhǔn)。官網(wǎng)地址:/2人工智能行業(yè)的數(shù)據(jù)需求人工智能行業(yè)常用的數(shù)據(jù)集-COCOCOCO數(shù)據(jù)集是一個(gè)大型的物體檢測(cè)、分割和字符的數(shù)據(jù)集。該數(shù)據(jù)集以sceneunderstanding為目標(biāo),主要從復(fù)雜的日常場(chǎng)景中截取,圖像中的目標(biāo)通過(guò)精確的segmentation進(jìn)行位置的標(biāo)定。圖像包括91類(lèi)目標(biāo),328,000影像和2,500,000個(gè)label。目前為止有語(yǔ)義分割的最大數(shù)據(jù)集,提供的類(lèi)別有80類(lèi),有超過(guò)33萬(wàn)張圖片,其中20萬(wàn)張有標(biāo)注,整個(gè)數(shù)據(jù)集中個(gè)體的數(shù)目超過(guò)150萬(wàn)個(gè)。官網(wǎng)地址:
2人工智能行業(yè)的數(shù)據(jù)需求人工智能行業(yè)常用的數(shù)據(jù)集-YelpYelp數(shù)據(jù)集是Yelp業(yè)務(wù)、評(píng)論和用戶數(shù)據(jù)的子集,用于個(gè)人、教育和學(xué)術(shù)目的。數(shù)據(jù)集由來(lái)自8大都市區(qū)域的約16萬(wàn)商戶、863萬(wàn)條評(píng)論和20萬(wàn)張圖片數(shù)據(jù)構(gòu)成。官網(wǎng)的數(shù)據(jù)需要解壓,Kaggle直接以JSON格式提供。官網(wǎng)地址:/dataset
或Kaggle:/datasets/yelp-dataset/yelp-dataset
2人工智能行業(yè)的數(shù)據(jù)需求人工智能行業(yè)常用的數(shù)據(jù)集-VoxCelebVoxCeleb是一個(gè)大型人聲識(shí)別數(shù)據(jù)集。該數(shù)據(jù)集收集來(lái)自YouTube視頻的1251位名人的約10萬(wàn)段語(yǔ)音。數(shù)據(jù)性別是基本平衡的(男性占55%)。這些名人有不同的口音、職業(yè)和年齡。開(kāi)發(fā)集和測(cè)試集之間沒(méi)有重疊。數(shù)據(jù)集有2個(gè)子集:VoxCeleb1和VoxCeleb2。VoxCeleb1包含超過(guò)10萬(wàn)個(gè)針對(duì)1,251個(gè)名人的話語(yǔ),這些話語(yǔ)是從上傳到Y(jié)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026吉林富維股份內(nèi)部招聘16人備考題庫(kù)及答案詳解參考
- 2026山東聊城市冠縣冠州陸港供應(yīng)鏈有限公司招聘6人備考題庫(kù)參考答案詳解
- 2026四川成都市雙流區(qū)空港第五幼兒園招聘2人備考題庫(kù)及答案詳解(奪冠系列)
- 2026云南滇池學(xué)院招聘97人備考題庫(kù)及答案詳解1套
- 2026云南紅河州彌勒人社公益性崗位招聘8人備考題庫(kù)及答案詳解參考
- 2026上海驅(qū)動(dòng)新區(qū)醫(yī)學(xué)技術(shù)學(xué)院招聘教學(xué)科研人員2人備考題庫(kù)及參考答案詳解1套
- 2026北京大學(xué)王選計(jì)算機(jī)研究所招聘勞動(dòng)合同制人員1人備考題庫(kù)及完整答案詳解一套
- 2025-2030長(zhǎng)江經(jīng)濟(jì)帶職業(yè)教育擴(kuò)張現(xiàn)狀質(zhì)量提升競(jìng)爭(zhēng)環(huán)境投資方向辦學(xué)模式科學(xué)分析報(bào)告
- 2025-2030造船行業(yè)市場(chǎng)供需特點(diǎn)分析投資評(píng)估規(guī)劃發(fā)展研究報(bào)告
- 2025-2030造紙行業(yè)環(huán)保要求和原材料供應(yīng)及市場(chǎng)生產(chǎn)分析研究報(bào)告
- 工程勘探與設(shè)計(jì)報(bào)告范文模板
- 【數(shù)學(xué)】2025-2026學(xué)年人教版七年級(jí)上冊(cè)數(shù)學(xué)壓軸題訓(xùn)練
- 產(chǎn)品銷(xiāo)售團(tuán)隊(duì)外包協(xié)議書(shū)
- 汽車(chē)充電站安全知識(shí)培訓(xùn)課件
- 民航招飛pat測(cè)試題目及答案
- 2026年鄭州鐵路職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性考試題庫(kù)及參考答案詳解
- DB35-T 2278-2025 醫(yī)療保障監(jiān)測(cè)統(tǒng)計(jì)指標(biāo)規(guī)范
- 長(zhǎng)沙股權(quán)激勵(lì)協(xié)議書(shū)
- 心源性腦卒中的防治課件
- 2025年浙江輔警協(xié)警招聘考試真題含答案詳解(新)
- 果園合伙經(jīng)營(yíng)協(xié)議書(shū)
評(píng)論
0/150
提交評(píng)論