數(shù)據(jù)標(biāo)注工程-概念、方法、工具與案例 課件 第6章 文本數(shù)據(jù)標(biāo)注_第1頁
數(shù)據(jù)標(biāo)注工程-概念、方法、工具與案例 課件 第6章 文本數(shù)據(jù)標(biāo)注_第2頁
數(shù)據(jù)標(biāo)注工程-概念、方法、工具與案例 課件 第6章 文本數(shù)據(jù)標(biāo)注_第3頁
數(shù)據(jù)標(biāo)注工程-概念、方法、工具與案例 課件 第6章 文本數(shù)據(jù)標(biāo)注_第4頁
數(shù)據(jù)標(biāo)注工程-概念、方法、工具與案例 課件 第6章 文本數(shù)據(jù)標(biāo)注_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能技術(shù)應(yīng)用核心課程系列教材數(shù)據(jù)標(biāo)注工程——概念、方法、工具與案例第6章文本數(shù)據(jù)標(biāo)注6.2文本數(shù)據(jù)標(biāo)注工具人工智能技術(shù)應(yīng)用核心課程系列教材6.1文本數(shù)據(jù)標(biāo)注簡(jiǎn)介6.3序列標(biāo)注方法舉例6.4關(guān)系標(biāo)注方法舉例6.5屬性標(biāo)注方法案例6.6本章小結(jié)6.7作業(yè)與練習(xí)文本數(shù)據(jù)標(biāo)注作為最常見的數(shù)據(jù)標(biāo)注類型之一,是指將文字、符號(hào)在內(nèi)的文本進(jìn)行標(biāo)注,讓計(jì)算機(jī)能夠讀懂并識(shí)別。從本質(zhì)上來看,文本數(shù)據(jù)標(biāo)注就是一個(gè)監(jiān)督學(xué)習(xí)的過程,而標(biāo)注問題就是更復(fù)雜結(jié)構(gòu)預(yù)測(cè)問題的簡(jiǎn)單形式。標(biāo)注問題的目的在于學(xué)習(xí)模型,使該模型能夠?qū)τ^測(cè)序列給出標(biāo)記序列作為預(yù)測(cè)。這也決定了標(biāo)注問題的工作流程,即輸入是一個(gè)觀測(cè)序列,之后輸出是一個(gè)標(biāo)記序列或者狀態(tài)序列。需要注意的是,標(biāo)記個(gè)數(shù)是有限的,但其組合所成的標(biāo)記序列的個(gè)數(shù)是依照序列長(zhǎng)度呈指數(shù)級(jí)增長(zhǎng)的。6.1

文本數(shù)據(jù)標(biāo)注簡(jiǎn)介第6章文本數(shù)據(jù)標(biāo)注(1)自然語言對(duì)話是網(wǎng)絡(luò)大數(shù)據(jù)語義理解的主要挑戰(zhàn)之一,被譽(yù)為人工智能皇冠上的寶石,而文本數(shù)據(jù)標(biāo)注就是這一系列工作中最基礎(chǔ)、最重要的環(huán)節(jié)。文本數(shù)據(jù)標(biāo)注就是為了讓機(jī)器準(zhǔn)確識(shí)別人類的自然語言,并促使機(jī)器對(duì)人類的自然語言做出精準(zhǔn)定位。(2)近二三十年的研究成果顯示,自然語言對(duì)話系統(tǒng)歷經(jīng)了由基于概率決策過程的多輪對(duì)話系統(tǒng)到基于深度學(xué)習(xí)的生成式對(duì)話系統(tǒng)、再到將深度學(xué)習(xí)和符號(hào)處理相融合的神經(jīng)符號(hào)對(duì)話系統(tǒng)的快速發(fā)展。但是,無論系統(tǒng)發(fā)展的如何迅速、無論系統(tǒng)朝著何種方向發(fā)展,自然語言對(duì)話系統(tǒng)的核心推動(dòng)力從未改變,即更好地進(jìn)行自然語言理解、知識(shí)表示和邏輯推理。6.1.1發(fā)展與研究現(xiàn)狀6.1

文本數(shù)據(jù)標(biāo)注簡(jiǎn)介第6章文本數(shù)據(jù)標(biāo)注文本數(shù)據(jù)標(biāo)注類型包括:序列標(biāo)注、關(guān)系標(biāo)注、屬性標(biāo)注和類別標(biāo)注。具體介紹如下:(1)序列標(biāo)注:是一個(gè)比較簡(jiǎn)單的自然語言處理(NaturalLanguageProcessing,NLP)NLP任務(wù),也是最基礎(chǔ)的任務(wù)。序列標(biāo)注的涵蓋范圍非常廣泛,包括分詞、實(shí)體、關(guān)鍵字、韻律、意圖理解等;(2)關(guān)系標(biāo)注:對(duì)復(fù)句的句法關(guān)聯(lián)和語義關(guān)聯(lián)做出重要標(biāo)示的一種任務(wù),是復(fù)句自動(dòng)分析的形式標(biāo)記。關(guān)系標(biāo)注包括:指向關(guān)系、修飾關(guān)系、平行語料等等。(3)屬性標(biāo)注:對(duì)事物屬性進(jìn)行標(biāo)簽,屬性標(biāo)注包括:文本類別、新聞、娛樂等;(4)類別標(biāo)注:對(duì)文章的類別進(jìn)行標(biāo)注,例如篇章級(jí)的閱讀理解等。6.1.2基本概念6.1

文本數(shù)據(jù)標(biāo)注簡(jiǎn)介第6章文本數(shù)據(jù)標(biāo)注文本項(xiàng)目數(shù)據(jù)標(biāo)注的大致流程為,預(yù)處理、標(biāo)注、線上標(biāo)注、線下標(biāo)注、質(zhì)檢、驗(yàn)收、數(shù)據(jù)處理和數(shù)據(jù)交付。具體到各個(gè)步驟,操作細(xì)節(jié)如下,:(1)預(yù)處理:根據(jù)數(shù)據(jù)的規(guī)范要求,對(duì)數(shù)據(jù)進(jìn)行算法的初步處理;(2)標(biāo)注:根據(jù)項(xiàng)目要求,可以將標(biāo)注分為線上標(biāo)注(數(shù)據(jù)+平臺(tái))和線下標(biāo)注:①線上標(biāo)注:將源數(shù)據(jù)上傳到“數(shù)據(jù)+平臺(tái)”,通過互聯(lián)網(wǎng)進(jìn)行操作;②線下標(biāo)注:通過線下小工具或線下文本(TXT、Excel等)進(jìn)行操作;(3)質(zhì)檢:根據(jù)數(shù)據(jù)合格率要求,由定義規(guī)范理解的人員對(duì)已經(jīng)標(biāo)注數(shù)據(jù)進(jìn)行抽查;(4)驗(yàn)收:由數(shù)據(jù)質(zhì)量中心對(duì)質(zhì)檢合格數(shù)據(jù)進(jìn)行再次驗(yàn)證;(5)數(shù)據(jù)處理:利用技術(shù)處理成客戶需要的格式(如:JSON、UTF-8文本或Excel等);(6)數(shù)據(jù)交付:數(shù)據(jù)加密后交付客戶。6.1.3流程介紹6.1

文本數(shù)據(jù)標(biāo)注簡(jiǎn)介第6章文本數(shù)據(jù)標(biāo)注文本類標(biāo)注任務(wù)的數(shù)據(jù)結(jié)果包含文本標(biāo)簽的位置和標(biāo)簽的具體內(nèi)容。標(biāo)注文件的輸岀格式推薦使用易解析、易存儲(chǔ)的數(shù)據(jù)格式,包括JSON、XML、TXT等。標(biāo)注文件應(yīng)該包含詳細(xì)的標(biāo)簽信息。每個(gè)獨(dú)立標(biāo)簽應(yīng)包含以下信息:(1)標(biāo)簽id:每個(gè)標(biāo)簽的獨(dú)立編號(hào);(2)文件路徑:待標(biāo)注文本的文件鏈接;(3)原始文本:待標(biāo)注文本的全部?jī)?nèi)容(文本數(shù)據(jù)標(biāo)注任務(wù)僅需提供文件路徑或原始文本中的一個(gè));(4)置信度:為標(biāo)簽的置信度;(5)每個(gè)標(biāo)簽中可能包含多個(gè)對(duì)象,對(duì)于每個(gè)對(duì)象需要定義:①對(duì)象類型:比如text_classification或者text_tag;②對(duì)象詳情:對(duì)象的具體文本位置和內(nèi)容信息,或與其他對(duì)象的關(guān)系信息。6.1.4

交付格式6.1

文本數(shù)據(jù)標(biāo)注簡(jiǎn)介第6章文本數(shù)據(jù)標(biāo)注數(shù)據(jù)交付時(shí),標(biāo)注團(tuán)隊(duì)需對(duì)最終提交的數(shù)據(jù)量進(jìn)行說明。交付的內(nèi)容應(yīng)包括:(1)標(biāo)注結(jié)果(必選);(2)交付和說明文檔(可選);(3)關(guān)于標(biāo)注數(shù)據(jù)的Metadata(可選),包括描述原始數(shù)據(jù)的元信息;(4)原始數(shù)據(jù)(可選,有時(shí)數(shù)據(jù)使用方可直接訪問原始數(shù)據(jù),則無須單獨(dú)交付原始數(shù)據(jù))。6.1.4

交付格式6.1

文本數(shù)據(jù)標(biāo)注簡(jiǎn)介第6章文本數(shù)據(jù)標(biāo)注文本數(shù)據(jù)標(biāo)注是最常見的數(shù)據(jù)標(biāo)注類型之一,在現(xiàn)實(shí)生活中也得到了充分應(yīng)用。具體來說,文本數(shù)據(jù)標(biāo)注應(yīng)用比較多的場(chǎng)景包括:新零售、客服行業(yè)、廣告營(yíng)銷、金融行業(yè)和醫(yī)療行業(yè)等,具體介紹如下:(1)新零售行業(yè):新零售需要重塑零售行業(yè)的服務(wù)模式,因此需要對(duì)客戶的問題進(jìn)行精準(zhǔn)定位,既需要對(duì)客戶的問題進(jìn)行量身定制,又需要考慮多數(shù)客戶的共性要求,這就需要借助文本數(shù)據(jù)標(biāo)注的方法,將顧客的相應(yīng)問題做出標(biāo)記。(2)客服行業(yè):隨著互聯(lián)網(wǎng)技術(shù)的興起,電子客服越來越多的取締了人工客服。電子客服同樣也可進(jìn)行文字客服、視頻客服和語音客服三類,這就需要機(jī)器對(duì)客戶說話方式進(jìn)行識(shí)別。考慮到不同人的說話方式不同、說話習(xí)慣不同,因此,對(duì)于同一個(gè)問題提問的方式也會(huì)不同。但是對(duì)于機(jī)器而言,面對(duì)同一問題,顧客提問方式雖然不同,但做出的回答應(yīng)該是完全相同的。這就要求把對(duì)同一問題的不同提問方式進(jìn)行學(xué)習(xí),從而做出回復(fù)。6.1.5應(yīng)用場(chǎng)景6.1

文本數(shù)據(jù)標(biāo)注簡(jiǎn)介第6章文本數(shù)據(jù)標(biāo)注(3)廣告行業(yè):對(duì)某產(chǎn)品進(jìn)行廣告設(shè)計(jì)時(shí),通常會(huì)把類別相近的且銷量較高的商品文案相互借鑒,把已經(jīng)有的單個(gè)商品文案進(jìn)行綜合,取其精華、去其糟粕,通過文本數(shù)據(jù)標(biāo)注把文案中的“精華”與“糟粕”標(biāo)記出來,這讓文案設(shè)計(jì)工作者可以在案例中進(jìn)行提取綜合,這無疑提高了工作人員的工作效率。(4)金融行業(yè):在企業(yè)的商務(wù)合同中,關(guān)鍵信息的讀取顯得尤為重要。例如:合同中提到的公司名稱、合同編號(hào)、發(fā)票編號(hào)、相關(guān)金額、到期日期和風(fēng)險(xiǎn)提示等內(nèi)容,這些內(nèi)容囊括了甲乙雙方公司的核心信息。對(duì)于一個(gè)規(guī)模較大的公司來說,每天的簽約合同非常之多,這時(shí)用人工智能對(duì)合同中的相關(guān)信息進(jìn)行提取,可以大幅減少勞動(dòng)力,降低人力成本、提高工作效率。6.1.5應(yīng)用場(chǎng)景6.1

文本數(shù)據(jù)標(biāo)注簡(jiǎn)介第6章文本數(shù)據(jù)標(biāo)注第6章文本數(shù)據(jù)標(biāo)注6.1文本數(shù)據(jù)標(biāo)注簡(jiǎn)介人工智能技術(shù)應(yīng)用核心課程系列教材6.2文本數(shù)據(jù)標(biāo)注工具6.3序列標(biāo)注方法舉例6.4關(guān)系標(biāo)注方法舉例6.5屬性標(biāo)注方法案例6.6本章小結(jié)6.7作業(yè)與練習(xí)常用的開源文本標(biāo)注工具包括:Doccano、YEDDA、Chinese-Annotator、IEPY、DeepDive和BRAT,具體介紹如下。(1)Doccano:是一個(gè)開源文本標(biāo)注工具,它提供了文本分類、序列標(biāo)記和序列到序列任務(wù)的標(biāo)注功能。因此,可以為情感分析、命名實(shí)體識(shí)別、文本摘要等標(biāo)注任務(wù)創(chuàng)建帶標(biāo)簽的數(shù)據(jù)。Doccano序列標(biāo)注任務(wù)界面如下圖所示。6.2.1開源文本數(shù)據(jù)標(biāo)注工具匯總6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(2)YEDDA:是一個(gè)針對(duì)實(shí)體類的開源文本注釋工具,它提供了序列標(biāo)記的標(biāo)注功能。YEDDA為文本跨度標(biāo)注提供了一個(gè)系統(tǒng)的解決方案,從協(xié)作用戶標(biāo)注到管理員評(píng)估和分析。它克服了傳統(tǒng)文本注釋工具效率低下的問題,通過命令行和快捷鍵對(duì)實(shí)體進(jìn)行注釋,這些實(shí)體可配置自定義標(biāo)簽。下圖為YEDDA進(jìn)行序列標(biāo)注任務(wù)的界面。6.2.1開源文本數(shù)據(jù)標(biāo)注工具匯總6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(3)

Chinese-Annotator:是一款智能中文文本標(biāo)注工具,擁有簡(jiǎn)潔的標(biāo)注環(huán)境與智能的學(xué)習(xí)算法,能夠進(jìn)行線下學(xué)習(xí)。該標(biāo)注工具標(biāo)注界面顯而易見地友好,讓標(biāo)注操作盡可能簡(jiǎn)便和符合直覺。標(biāo)注框架是一個(gè)較為完整的系統(tǒng),包括前端、后臺(tái)與數(shù)據(jù)庫。下圖為Chinese-Annotator的標(biāo)注界面。6.2.1開源文本數(shù)據(jù)標(biāo)注工具匯總6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(4)

IEPY:是一個(gè)專注于關(guān)系提取的信息提取開源工具。操作界面如下圖所示。6.2.1開源文本數(shù)據(jù)標(biāo)注工具匯總6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(5)

DeepDive:與IEPY類似,也是針對(duì)信息抽取類型任務(wù)的開源標(biāo)注工具,DeepDive非常適合信息抽取,是構(gòu)建知識(shí)庫的利器。能夠基于詞性標(biāo)注、句法分析等通過各種文本規(guī)則實(shí)現(xiàn)實(shí)體之間關(guān)系的抽取,同時(shí)可面向異構(gòu)、海量的數(shù)據(jù)。下圖為DeepDive的標(biāo)注界面。6.2.1開源文本數(shù)據(jù)標(biāo)注工具匯總6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(6)

BRAT:這個(gè)工具可以用于各種自然語言處理(NLP)任務(wù),該工具是為實(shí)體識(shí)別和關(guān)系抽取設(shè)計(jì)的。BRAT服務(wù)器是一個(gè)Python程序,默認(rèn)情況使用烏班圖(Ubuntu)操作系統(tǒng),網(wǎng)頁瀏覽器使用谷歌瀏覽器。下圖為BRAT的標(biāo)注界面。6.2.1開源文本數(shù)據(jù)標(biāo)注工具匯總6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注本部分以數(shù)據(jù)堂的文本數(shù)據(jù)標(biāo)注工具為樣例介紹典型的幾種文本數(shù)據(jù)標(biāo)注工具。(1)韻律標(biāo)注:韻律原指詩詞中的平仄格式和押韻規(guī)則,后引申為音響的節(jié)奏規(guī)律。這里的韻律是指句子中字詞之間的停頓,大多數(shù)情況下,我們不能完全沒有停頓地說一句話,總會(huì)或長(zhǎng)或短的有些停頓,這些停頓就是我們要標(biāo)注韻律符號(hào)的位置,根據(jù)停頓長(zhǎng)度不同,韻律符號(hào)也會(huì)相應(yīng)發(fā)生變化。韻律標(biāo)注界面如下圖所示。6.2.2文本數(shù)據(jù)標(biāo)注工具使用介紹6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(2)詞性標(biāo)注:詞性標(biāo)注是文本數(shù)據(jù)標(biāo)注的一種形式,詞性標(biāo)注工具可對(duì)文本內(nèi)容進(jìn)行實(shí)體名稱、實(shí)體屬性、實(shí)體關(guān)系標(biāo)注,下圖為實(shí)體標(biāo)注工具,實(shí)體標(biāo)注工具具有實(shí)體名稱列表、文本顯示區(qū)、屬性編輯框、標(biāo)注列表、工具欄等,能夠進(jìn)行選中文本、新建/編輯/刪除實(shí)體標(biāo)注操作,同時(shí)支持自定義標(biāo)簽功能。6.2.2文本數(shù)據(jù)標(biāo)注工具使用介紹6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(3)詞性(實(shí)體)關(guān)系標(biāo)注:需要先對(duì)文本進(jìn)行實(shí)體標(biāo)注,然后對(duì)實(shí)體之間進(jìn)行實(shí)體的關(guān)系標(biāo)注。相關(guān)聯(lián)的實(shí)體會(huì)通過一條線進(jìn)行關(guān)聯(lián),示意圖如下。6.2.2文本數(shù)據(jù)標(biāo)注工具使用介紹6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(4)音調(diào)多音字標(biāo)注:通俗地講,就是給一個(gè)多音字加讀音,例如“駢”讀音(pián),便(pián)宜等。通過音調(diào)多音字標(biāo)注工具,實(shí)現(xiàn)快速的標(biāo)注。首先通過算法把一段文本的多音字識(shí)別出來,與原始文本一起導(dǎo)入平臺(tái),模板會(huì)同時(shí)將文本和讀音加載顯示在標(biāo)注頁面。多音字標(biāo)注平臺(tái)示意圖如下。6.2.2文本數(shù)據(jù)標(biāo)注工具使用介紹6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(5)語義標(biāo)注:是文本數(shù)據(jù)標(biāo)注的一種形式,針對(duì)交互的短文本進(jìn)行理解,標(biāo)注出文本的意圖。語義標(biāo)注工具可進(jìn)行意圖標(biāo)注以及設(shè)置自定義標(biāo)簽。語義標(biāo)注首先是要自定義標(biāo)簽,自定義標(biāo)簽包括意圖級(jí)別配置、功能配置、預(yù)識(shí)別配置等,語義標(biāo)注平臺(tái)如下圖所示。6.2.2文本數(shù)據(jù)標(biāo)注工具使用介紹6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(6)閱讀理解:模板區(qū)域和實(shí)體標(biāo)注的基本一致,不同之處在于右側(cè)顯示的是問答標(biāo)注列表,可以在該處進(jìn)行問答填寫,同時(shí)底部也沒有工具欄,下圖展示的是閱讀理解標(biāo)注展示界面。6.2.2文本數(shù)據(jù)標(biāo)注工具使用介紹6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(7)標(biāo)注準(zhǔn)確率計(jì)算:數(shù)據(jù)質(zhì)檢完成后,根據(jù)標(biāo)注結(jié)果與質(zhì)檢結(jié)果比對(duì)情況,計(jì)算標(biāo)注的準(zhǔn)確率,標(biāo)注人員和質(zhì)檢人員均可以在任務(wù)執(zhí)行情況頁面查看實(shí)時(shí)的準(zhǔn)確率,準(zhǔn)確率統(tǒng)計(jì)界面如下圖所示。6.2.2文本數(shù)據(jù)標(biāo)注工具使用介紹6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注標(biāo)注工具對(duì)于數(shù)據(jù)產(chǎn)品生產(chǎn)任務(wù)至關(guān)重要,一個(gè)好的標(biāo)注工具能夠大大減少標(biāo)注過程中出現(xiàn)的問題,減少標(biāo)注人員出現(xiàn)的錯(cuò)誤,提高數(shù)據(jù)產(chǎn)品生產(chǎn)效率與數(shù)據(jù)質(zhì)量。那么一款優(yōu)秀的標(biāo)注工具應(yīng)當(dāng)具備什么樣的條件呢?這里給出以下幾個(gè)思考方面:(1)擴(kuò)展性強(qiáng);(2)操作便捷;(3)容錯(cuò)性強(qiáng);(4)數(shù)據(jù)存儲(chǔ)穩(wěn)定;(5)數(shù)據(jù)導(dǎo)出格式多樣;(6)支持預(yù)識(shí)別算法;(7)支持多語種;(8)網(wǎng)頁版。6.2.3優(yōu)秀的標(biāo)注工具應(yīng)具備的條件6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注第6章文本數(shù)據(jù)標(biāo)注6.2文本數(shù)據(jù)標(biāo)注工具人工智能技術(shù)應(yīng)用核心課程系列教材6.3序列標(biāo)注方法舉例6.6本章小結(jié)6.4關(guān)系標(biāo)注方法舉例6.5屬性標(biāo)注方法案例6.1文本數(shù)據(jù)標(biāo)注簡(jiǎn)介6.7作業(yè)與練習(xí)項(xiàng)目背景:顧客在點(diǎn)外賣時(shí),首先考慮的第一個(gè)問題是要買什么,即商品的類別是什么,第二個(gè)問題就是商品的品牌是什么、規(guī)格怎樣,第三個(gè)問題就是顧客本身對(duì)某些特定產(chǎn)品的偏好。而商家在接到顧客的外賣訂單時(shí),考慮到的第一個(gè)問題就是顧客的需求如何,應(yīng)該提供什么樣的商品,第二個(gè)問題就是顧客的位置,如何給顧客送達(dá)。標(biāo)注目的:標(biāo)注結(jié)果用于訓(xùn)練外賣成分識(shí)別模型,優(yōu)化來自外賣意圖的召回和排序效果。標(biāo)注內(nèi)容:在句中劃詞并選擇標(biāo)簽。標(biāo)注?員需要對(duì)用戶搜索的意圖進(jìn)行推斷,確定查詢?cè)~的邊界以及對(duì)應(yīng)的成分類型;對(duì)于模糊查詢,需要借助搜索引擎來判斷查詢的意圖;如果存在多種分析結(jié)果,就填寫多次,按粗粒度、細(xì)粒度順序填寫外賣成分識(shí)別標(biāo)注案例6.3序列標(biāo)注方法舉例第6章文本數(shù)據(jù)標(biāo)注標(biāo)注流程:根據(jù)項(xiàng)目要求,需要標(biāo)注的內(nèi)容如下表所示。外賣成分識(shí)別標(biāo)注案例6.3序列標(biāo)注方法舉例第6章文本數(shù)據(jù)標(biāo)注標(biāo)注內(nèi)容符號(hào)地址L品牌B其它U品類C口味AT商品描述屬性AS用戶需求屬性AU規(guī)格AQ食物類別S標(biāo)注結(jié)果:部分標(biāo)注結(jié)果如下表所示。外賣成分識(shí)別標(biāo)注案例6.3序列標(biāo)注方法舉例第6章文本數(shù)據(jù)標(biāo)注querylabel新都榴蓮蛋糕新都/L;榴蓮/AS;蛋糕/S睡眠美白面膜睡眠/AU;美白/AU;面膜/S秦鎮(zhèn)米皮臘汁肉夾饃秦鎮(zhèn)/L;米皮/S;臘汁/AS;肉夾饃/S第6章文本數(shù)據(jù)標(biāo)注6.2文本數(shù)據(jù)標(biāo)注工具人工智能技術(shù)應(yīng)用核心課程系列教材6.4關(guān)系標(biāo)注方法舉例6.3序列標(biāo)注方法舉例6.6本章小結(jié)6.5屬性標(biāo)注方法案例6.1文本數(shù)據(jù)標(biāo)注簡(jiǎn)介6.7作業(yè)與練習(xí)標(biāo)注內(nèi)容:給定新聞文章內(nèi)容,要求標(biāo)注員根據(jù)文章內(nèi)容提出問題,并對(duì)問題進(jìn)行回答。標(biāo)注過程:一次標(biāo)注過程中,系統(tǒng)會(huì)在頁面左側(cè)顯示文章內(nèi)容并按照段落劃分好。(1)標(biāo)注者快速閱讀段落內(nèi)容。(2)提問。標(biāo)注員在右側(cè)輸入框內(nèi)輸入標(biāo)注者根據(jù)段落內(nèi)容想到的問題,要求問題與段落內(nèi)容相關(guān),標(biāo)注員自己組織語言提問,不得復(fù)制文章內(nèi)容當(dāng)作問題,問題表述與段落內(nèi)容差異越大越好。(3)標(biāo)記問題答案。標(biāo)注員根據(jù)問題和段落內(nèi)容,在段落中選擇答案所在位置。要求選出所有答案,在選擇過程中按照答案與問題匹配程度的由高到低選取。段落開頭有類似“####”的特殊標(biāo)記,標(biāo)注者首先選擇可以正確回答問題的答案,然后選擇這個(gè)特殊標(biāo)記作為分隔,之后選出看似是答案但是實(shí)際不能正確回答問題的可以答案。中文閱讀理解分析案例6.4

關(guān)系標(biāo)注方法舉例第6章文本數(shù)據(jù)標(biāo)注標(biāo)注示例:段落內(nèi)容為:####石墨烯如此低的電阻率自然是動(dòng)力電池的最好材料,也有數(shù)據(jù)顯示,石墨烯聚合材料電池的重量?jī)H為傳統(tǒng)電池50%,成本將比鋰電池低77%,且石墨烯鋰電池充電一次,耗時(shí)也不超過10分鐘。不過有關(guān)石墨烯電池的說法已經(jīng)流傳了很久,至今沒有實(shí)際的落地,榮耀手機(jī)不大可能會(huì)進(jìn)行“技術(shù)大躍進(jìn)”。標(biāo)注員給出問題及答案示例如下:?jiǎn)栴}1:石墨烯電池的成本怎么樣?答案1:比鋰電池低77%答案2:####答案3:僅為傳統(tǒng)電池50%(解釋:答案1為問題的正確回答,答案2是正確答案與可疑答案的分隔,答案3是可疑答案,因?yàn)閮H看答案貌似可以回答問題,但是結(jié)合段落上下文可知50%是指重量,非成本。)中文閱讀理解分析案例6.4

關(guān)系標(biāo)注方法舉例第6章文本數(shù)據(jù)標(biāo)注第6章文本數(shù)據(jù)標(biāo)注6.2文本數(shù)據(jù)標(biāo)注工具人工智能技術(shù)應(yīng)用核心課程系列教材6.5屬性標(biāo)注方法案例6.3序列標(biāo)注方法舉例6.6本章小結(jié)6.4關(guān)系標(biāo)注方法舉例6.1文本數(shù)據(jù)標(biāo)注簡(jiǎn)介6.7作業(yè)與練習(xí)項(xiàng)目背景:在人與機(jī)器的語音通話中,能夠?qū)㈩櫩蛦栴}精準(zhǔn)定位是十分必要的??紤]到不同人的說話方式不同、說話習(xí)慣不同,因此,對(duì)于同一個(gè)問題提問的方式也會(huì)不同。但是對(duì)于機(jī)器而言,面對(duì)同一問題,顧客提問方式雖然不同,但做出的回答應(yīng)該是完全相同的。這就要求把對(duì)同一問題的不同提問方式進(jìn)行學(xué)習(xí),從而進(jìn)行回復(fù)。標(biāo)注需求:在電話對(duì)話場(chǎng)景下,語音轉(zhuǎn)為文本作為數(shù)據(jù),因此標(biāo)注過程中需要充分考慮到這一環(huán)境,對(duì)可能存在的干擾數(shù)據(jù)進(jìn)行排除。6.5.1語音文本判別標(biāo)注案例6.5屬性標(biāo)注方法案例第6章文本數(shù)據(jù)標(biāo)注標(biāo)注規(guī)范:(1)在各個(gè)類別中,每個(gè)類別代表一個(gè)用戶意圖,其對(duì)應(yīng)的句子語義表達(dá)跟類別意圖相同或不相同。需要將與意圖相同的句子標(biāo)注為1,與意圖不相同的標(biāo)注為0;(2)表達(dá)語義明確,但存在干擾信息的句子中,與意圖相同的句子標(biāo)注為1,與意圖不相同的標(biāo)注為0;(3)表達(dá)語義不明確的句子,按照不相關(guān)進(jìn)行處理,即標(biāo)注為”0”;(4)數(shù)據(jù)標(biāo)注準(zhǔn)確率要求達(dá)到98%.6.5.1語音文本判別標(biāo)注案例6.5屬性標(biāo)注方法案例第6章文本數(shù)據(jù)標(biāo)注標(biāo)注結(jié)果示例:客戶-客戶在忙標(biāo)注6.5.1語音文本判別標(biāo)注案例6.5屬性標(biāo)注方法案例第6章文本數(shù)據(jù)標(biāo)注標(biāo)注結(jié)果示例:公司—什么公司標(biāo)注6.5.1語音文本判別標(biāo)注案例6.5屬性標(biāo)注方法案例第6章文本數(shù)據(jù)標(biāo)注項(xiàng)目背景:近年來,隨著論壇、點(diǎn)評(píng)、微博、微信和QQ等語言社交軟件平臺(tái)的快速發(fā)展。在社交平臺(tái)上的帖子直接關(guān)系到了企業(yè)形象的重塑等相關(guān)問題討論,這些帖子在無形中左右了公眾的情緒和情感,深刻地影響了我們社會(huì)發(fā)展。當(dāng)我們?cè)诟袊@人言可畏的同時(shí),對(duì)政府的輿情系統(tǒng)也提出了重大考驗(yàn)。社交平臺(tái)上公眾發(fā)表的帖子就是文本數(shù)據(jù),通過對(duì)文本數(shù)據(jù)進(jìn)行情感分析,可以實(shí)時(shí)把控群眾的情感變化或者是輿論趨勢(shì),以此避免發(fā)生惡性事件或者虛假事件。標(biāo)注需求:對(duì)平臺(tái)上獲得的文本數(shù)據(jù)進(jìn)行情感判別,可以在此基礎(chǔ)上進(jìn)行情感分析。6.5.2文本情感分析判別標(biāo)注案例6.5屬性標(biāo)注方法案例第6章文本數(shù)據(jù)標(biāo)注標(biāo)注規(guī)范:(1)比較多的事件信息判斷有誤,比如上市、漲停、公司合作、增持等均屬于利好事件,比較突出的是很多漲停事件全部標(biāo)記為負(fù)面;(2)比較傾向性的情感描述,比如有望、史上最大、看好、合作、騰飛等描述,均可以視作利好,這種描述表達(dá)了作者對(duì)市場(chǎng)的看好情緒,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論