版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
CCKS2021技術(shù)評(píng)測(cè)任務(wù)書通用百科知識(shí)圖譜實(shí)體類型推斷任務(wù)描述本評(píng)測(cè)任務(wù)圍繞通用百科知識(shí)圖譜構(gòu)建中的實(shí)體類型推斷展開,評(píng)測(cè)從實(shí)體百科(包括百度百科、搜狗百科等來源)頁面出發(fā),從給定的數(shù)據(jù)中推斷相關(guān)實(shí)體的類型。實(shí)體類型推斷在知識(shí)庫中具有非常重要的價(jià)值,因此該任務(wù)也一直是研究的熱點(diǎn)。在CCKS2020新冠知識(shí)圖譜構(gòu)建與問答任務(wù)中,其第一個(gè)子任務(wù)就屬于實(shí)體類型推斷任務(wù),該任務(wù)主要圍繞著醫(yī)學(xué)領(lǐng)域,構(gòu)建了7個(gè)實(shí)體類型的推斷任務(wù)。而這次,我們對(duì)實(shí)體類型推斷任務(wù)做了一定的拓展和改進(jìn),主要包括以下幾個(gè)方面:任務(wù)涉及的領(lǐng)域更加廣泛和通用,涉及到包括組織機(jī)構(gòu)、人物、作品、位置等多個(gè)領(lǐng)域。實(shí)體類型更加豐富,不同領(lǐng)域下包括多個(gè)具體的實(shí)體類型,整體任務(wù)包括幾十個(gè)實(shí)體類型。實(shí)體類型之間具有層級(jí)關(guān)系,所有實(shí)體類型構(gòu)成了一棵分類樹,并且具有subclassof關(guān)系。一個(gè)具體的實(shí)體需要盡可能的推斷到最細(xì)粒度的實(shí)體類型才算正確。各參賽隊(duì)伍可以考慮是否把這種層級(jí)關(guān)系加入到模型當(dāng)中進(jìn)行訓(xùn)練。某些實(shí)體可能只屬于一個(gè)實(shí)體類型,某些實(shí)體可能屬于多個(gè)實(shí)體類型,因此更加增添了任務(wù)的難度。比如“劉德華”既屬于“歌手”類型,又屬于“演員”類型;“知識(shí)圖譜概念與技術(shù)”就只屬于“書籍”類型。實(shí)體類型該任務(wù)共包括組織機(jī)構(gòu)、人物、作品、位置等幾個(gè)領(lǐng)域的實(shí)體類型。不同領(lǐng)域包括多個(gè)具體的實(shí)體類型,具體如下:組織機(jī)構(gòu):政府機(jī)構(gòu)、公司、教育機(jī)構(gòu)、樂隊(duì)位置:居住地、基礎(chǔ)建筑、自然景觀、旅游景點(diǎn)、天體人物:文藝工作者、運(yùn)動(dòng)員、商人、老師、醫(yī)生、政治人物、律師、記者、虛擬人物文藝工作者:作家、編劇、歌手、演員、舞蹈者、導(dǎo)演、攝影師、詩人、畫家運(yùn)動(dòng)員:足球運(yùn)動(dòng)員、籃球運(yùn)動(dòng)員、跳水運(yùn)動(dòng)員、田徑運(yùn)動(dòng)員、游泳運(yùn)動(dòng)員、體操運(yùn)動(dòng)員作品:影視作品、書面作品、軟件程序、音樂作品影視作品:電影、電視劇、動(dòng)漫、電視節(jié)目書面作品:書籍、小說、詩歌、漫畫、歌戲劇、文章音樂作品:歌曲、專輯軟件程序:游戲?qū)τ谀硞€(gè)實(shí)體,基于百度百科或者搜狗百科提供的頁面數(shù)據(jù),根據(jù)上面的實(shí)體類型定義,需要將實(shí)體盡可能預(yù)測(cè)到最細(xì)粒度的實(shí)體類型。比如:“林丹”應(yīng)該預(yù)測(cè)為“運(yùn)動(dòng)員”、“武磊”應(yīng)該預(yù)測(cè)為“足球運(yùn)動(dòng)員”、一名普通的學(xué)生應(yīng)該預(yù)測(cè)為“人物”。如果實(shí)體屬于多個(gè)實(shí)體類型,預(yù)測(cè)結(jié)果需要包含所有的實(shí)體類型。比如“特朗普”,應(yīng)該預(yù)測(cè)為“商人”和“政治人物”兩個(gè)類型。實(shí)體類型的層級(jí)關(guān)系如下圖所示:輸入輸出輸入:包括train.csv、valid.csv、test.csv和type.txttrain.csv:百度百科、搜狗百科等來源的實(shí)體頁面內(nèi)容。實(shí)體頁面文件中包含類型推斷可能會(huì)用到的名稱、簡(jiǎn)介等信息。選手可以通過分析該文件中的內(nèi)容,采用各種機(jī)器學(xué)習(xí)方法構(gòu)建模型,進(jìn)行實(shí)體類型推理。train.csv包含的字段信息如下:valid.csv:valid.csv里面的數(shù)據(jù)格式與train.csv文件相同,包含了選手需要進(jìn)行預(yù)測(cè)及提交結(jié)果的實(shí)體數(shù)據(jù),A榜的排名取決于這份數(shù)據(jù)的預(yù)測(cè)結(jié)果。該份數(shù)據(jù)會(huì)隨train.csv一起在5月中旬發(fā)布。test.csv:test.csv里面的數(shù)據(jù)格式與train.csv和valid.csv文件相同,包含了選手最終需要提交的實(shí)體推理數(shù)據(jù),B榜的排名取決于這份數(shù)據(jù)的預(yù)測(cè)結(jié)果。該份數(shù)據(jù)將在7月中旬發(fā)布。type.txt:包含所有實(shí)體類型,類型之間的層級(jí)關(guān)系如上所描述。輸出:entity_type.txtentity_type.txt:實(shí)體id、實(shí)體名及預(yù)測(cè)的實(shí)體類型,每行一個(gè)“實(shí)體id\t實(shí)體名\t類型”對(duì)。實(shí)體id、實(shí)體名、類型之間通過分隔符“\t”進(jìn)行分割。注意不要包含類型不在給定的實(shí)體類型當(dāng)中的實(shí)體。若一個(gè)實(shí)體屬于多個(gè)類型,則類型之間用英文逗號(hào)“,”分隔,表示為“實(shí)體id\t實(shí)體名\t類型1,類型2”對(duì)。類型1、類型2的書寫順序沒有影響。樣例:type.txt:組織機(jī)構(gòu),組織機(jī)構(gòu)>政府機(jī)構(gòu),組織機(jī)構(gòu)>公司,組織機(jī)構(gòu)>教育機(jī)構(gòu),組織機(jī)構(gòu)>樂隊(duì),位置,位置>居住地,位置>基礎(chǔ)建筑,位置>自然景觀,位置>旅游景點(diǎn),位置>天體,人物,人物>文藝工作者,人物>文藝工作者>作家,人物>文藝工作者>編劇,人物>文藝工作者>歌手,人物>文藝工作者>演員,人物>文藝工作者>舞蹈者,人物>文藝工作者>導(dǎo)演,人物>文藝工作者>攝影師,人物>文藝工作者>詩人,人物>文藝工作者>畫家,人物>運(yùn)動(dòng)員,人物>運(yùn)動(dòng)員>足球運(yùn)動(dòng)員,人物>運(yùn)動(dòng)員>籃球運(yùn)動(dòng)員,人物>運(yùn)動(dòng)員>跳水運(yùn)動(dòng)員,人物>運(yùn)動(dòng)員>田徑運(yùn)動(dòng)員,人物>運(yùn)動(dòng)員>游泳運(yùn)動(dòng)員,人物>運(yùn)動(dòng)員>體操運(yùn)動(dòng)員,人物>商人,人物>老師,人物>醫(yī)生,人物>政治人物,人物>律師,人物>記者,人物>虛擬人物,作品,作品>影視作品,作品>影視作品>電影,作品>影視作品>電視劇,作品>影視作品>動(dòng)漫,作品>影視作品>電視節(jié)目,作品>書面作品,作品>書面作品>書籍,作品>書面作品>小說,作品>書面作品>詩歌,作品>書面作品>漫畫,作品>書面作品>歌戲劇,作品>書面作品>文章,作品>音樂作品,作品>音樂作品>歌曲,作品>音樂作品>專輯,作品>軟件程序,作品>軟件程序>游戲train.csv表格中一個(gè)具體的實(shí)體數(shù)據(jù)例子:其中,train.csv的contents字段為該實(shí)體的完整json描述內(nèi)容,json解析完如下圖所示:輸出樣例 1131993 晶茂電影傳媒 組織機(jī)構(gòu)>公司 22067022 清華大學(xué) 組織機(jī)構(gòu)>教育機(jī)構(gòu) 6072077 細(xì)胞的旅程 作品>軟件程序>游戲2110758 崔志成 人物>商人22469665 陳國(guó)緒 人物>老師20007006 梅爾·吉卜森 人物>文藝工作者>導(dǎo)演,人物>文藝工作者>演員說明假設(shè)實(shí)體“尿TH糖蛋白”在valid.csv中,但由于該實(shí)體的類型不是type.txt中所包含的實(shí)體類型,因此輸出結(jié)果中不包含該實(shí)體。評(píng)價(jià)指標(biāo)本任務(wù)采用精確率(Precision,P)、召回率(Recall,R)、F1值(F1-measure,F1)來評(píng)估效果。設(shè)A為參賽隊(duì)伍輸出文件中的所有實(shí)體-類型對(duì)的集合,G為評(píng)測(cè)方標(biāo)注文件中的所有實(shí)體-類型對(duì)的集合,相關(guān)計(jì)算公式如下:P=數(shù)據(jù)描述我們分別從收集的幾千萬百科類實(shí)體頁面中,抽取了部分實(shí)體頁面作為這次任務(wù)的數(shù)據(jù)來源。任務(wù)本身不限定方法類型,可以是無監(jiān)督、半監(jiān)督、有監(jiān)督方法,因此不提供任務(wù)相關(guān)的有標(biāo)注結(jié)果的訓(xùn)練集,參賽選手如有需要,可以自行對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注。測(cè)試集是通過自動(dòng)化實(shí)體類型推測(cè)和人工檢驗(yàn)進(jìn)行標(biāo)注的。測(cè)試集上不允許參賽選手進(jìn)行任何人工標(biāo)注。任務(wù)提交本次任務(wù)將采取刷榜的方式,將會(huì)發(fā)布A榜和B榜兩個(gè)測(cè)試集,A榜測(cè)試集用于日常刷榜和模型迭代,不計(jì)入最終比賽成績(jī),測(cè)試集A發(fā)布后,允許參賽隊(duì)伍每天至多提交一次結(jié)果,文件命名為“entity_type.txt”,格式與任務(wù)描述中的示例輸出相同。測(cè)試集B為最終評(píng)估比賽成績(jī)的有效評(píng)測(cè)集,待測(cè)試集B發(fā)布后,允許參賽隊(duì)伍每天至多提交一次。所有獲獎(jiǎng)團(tuán)隊(duì)需額外提交相關(guān)材料以供資格審查,要求如下:測(cè)試集B結(jié)果文件,用result.txt命名(UTF-8格式)相關(guān)代碼及說明方法描述文檔(非評(píng)測(cè)論文,評(píng)測(cè)論文撰寫要求見CCKS2021官網(wǎng))將以上三個(gè)文件在任務(wù)提交截止日期前發(fā)送至郵箱lihongyu1@。郵件的標(biāo)題為:“CCKS2021-ETI-參賽隊(duì)名稱”,例如“CCKS2021-ETI-FindX隊(duì)”。代碼及其文檔需打包成一個(gè)文件(tar,zip,gzip,rar等均可),用“參賽隊(duì)名_code.xxx”命名,要求提交所有的程序代碼及相關(guān)的配置說明,程序應(yīng)當(dāng)可以運(yùn)行且所得結(jié)果與result.txt相符。如果方法使用了額外資源,要求說明并提供資源文件或地址。本次評(píng)測(cè)將依托Biendata平臺(tái),請(qǐng)有意向的參賽隊(duì)伍關(guān)注平臺(tái)上的比賽列表。評(píng)測(cè)規(guī)則參賽選手需要提交“參賽隊(duì)名,隊(duì)長(zhǎng)信息(姓名,郵箱,聯(lián)系電話),參賽單位名稱”等信息,報(bào)名方式稍后在評(píng)測(cè)網(wǎng)站發(fā)布。報(bào)名截止到最終測(cè)試數(shù)據(jù)集B發(fā)布,在測(cè)試數(shù)據(jù)集發(fā)布之后,未報(bào)名的選手/隊(duì)伍不能再報(bào)名或提交。每支隊(duì)伍需指定一名隊(duì)長(zhǎng),隊(duì)伍名稱不超過15個(gè)字符,隊(duì)伍成員不超過4人。每名選手只能參加一支隊(duì)伍,一旦發(fā)現(xiàn)某選手以注冊(cè)多個(gè)賬號(hào)的方式參加多支隊(duì)伍,將取消所有相關(guān)隊(duì)伍的參賽資格。允許使用開源代碼或工具,但不允許使用任何未公開發(fā)布或需要授權(quán)的代碼或工具。允許使用外部數(shù)據(jù),但該數(shù)據(jù)必須是公開的,并在提交最終結(jié)果時(shí)一并提交(如數(shù)據(jù)過大,需提供下載地址)。參賽選手最終需要提交可運(yùn)行的代碼和方法描述文檔,若在排行榜上的結(jié)果無法復(fù)現(xiàn),將取消參賽資格。歡迎國(guó)內(nèi)外在校生及社會(huì)在職人士參加。比賽組織方成員不可參賽。關(guān)于比賽的所有解釋權(quán)歸比賽組織方所有。評(píng)測(cè)獎(jiǎng)勵(lì)第一名:10000第二名:8000第三名:6000技術(shù)創(chuàng)新獎(jiǎng):6000組織者任務(wù)組織者:李洪宇(OPPO)莢濟(jì)民(OPPO)任務(wù)聯(lián)系人:李洪宇:lihongyu1@莢濟(jì)民:jiajimin@附錄:實(shí)體類型簡(jiǎn)要說明表一級(jí)標(biāo)簽二級(jí)標(biāo)簽三級(jí)標(biāo)簽簡(jiǎn)要說明人物文藝工作者作家編劇歌手演員舞蹈者導(dǎo)演攝影師詩人畫家運(yùn)動(dòng)員足球運(yùn)動(dòng)員籃球運(yùn)動(dòng)員跳水運(yùn)動(dòng)員田徑運(yùn)動(dòng)員游泳運(yùn)動(dòng)員體操運(yùn)動(dòng)員商人老師學(xué)校教師、大學(xué)老師、教授、副教授等醫(yī)生政治人物歷史上真實(shí)存在的官員、國(guó)家政府重要官員、政治家、政協(xié)委員、人大代表等律師記者虛擬人物游戲、動(dòng)漫、小說等等非現(xiàn)實(shí)中的人物或者角色等作品影視作品電影電視劇動(dòng)漫動(dòng)漫影視電視節(jié)目電視節(jié)目、網(wǎng)絡(luò)節(jié)目、綜藝節(jié)目等書面作品書籍小說詩歌詩詞、詩歌漫畫歌戲劇歌劇、戲劇等文章雜志、報(bào)紙或其他媒體發(fā)表的散文、雜文、評(píng)論、報(bào)告等等書面作品軟件程序游戲音樂作品歌曲專輯組織機(jī)構(gòu)政府機(jī)構(gòu)政府機(jī)關(guān),行政部門、居委會(huì)、村委會(huì)、各類銀行等公司教育機(jī)構(gòu)各類學(xué)校、高校、研究機(jī)構(gòu)、教
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年智能后臺(tái)管理主機(jī)項(xiàng)目評(píng)估報(bào)告
- 2026年數(shù)據(jù)中心液冷技術(shù)改造項(xiàng)目公司成立分析報(bào)告
- 教師職業(yè)道德規(guī)范制度
- cmos比較器課程設(shè)計(jì)
- 幼兒園小朋友衛(wèi)生制度
- 能源管理制度
- 安全設(shè)備監(jiān)控方案設(shè)計(jì)課程設(shè)計(jì)
- 桂林市南灣河(象山區(qū)段)小流域環(huán)境整治及水質(zhì)提升工程(一期)環(huán)境影響報(bào)告表
- 2026吉林大學(xué)口腔醫(yī)院招聘勞務(wù)派遣制崗位工作人員5人筆試參考題庫及答案解析
- 采購(gòu)項(xiàng)目合規(guī)性及質(zhì)量承諾書范文5篇
- 河南省2025年普通高等學(xué)校對(duì)口招收中等職業(yè)學(xué)校畢業(yè)生考試語文試題 答案
- 中國(guó)地級(jí)市及各省份-可編輯標(biāo)色地圖
- 實(shí)驗(yàn)室生物安全培訓(xùn)-課件
- 第章交流穩(wěn)態(tài)電路
- 馬口鐵印鐵制罐工藝流程詳解課件
- 預(yù)應(yīng)力管樁-試樁施工方案
- GB/T 16938-2008緊固件螺栓、螺釘、螺柱和螺母通用技術(shù)條件
- FZ/T 82006-2018機(jī)織配飾品
- 《食品包裝學(xué)(第三版)》教學(xué)PPT課件整套電子講義
- 全尺寸測(cè)量報(bào)告FAI
- 新教材教科版五年級(jí)上冊(cè)科學(xué)全冊(cè)課時(shí)練(課后作業(yè)設(shè)計(jì))
評(píng)論
0/150
提交評(píng)論