《面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)規(guī)范》_第1頁
《面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)規(guī)范》_第2頁
《面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)規(guī)范》_第3頁
《面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)規(guī)范》_第4頁
《面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)規(guī)范》_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

ICS17.140.99

CCSL70

T/AHAI

安徽省人工智能協(xié)會(huì)團(tuán)體標(biāo)準(zhǔn)

T/XXXX—XXXX

面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)

技術(shù)規(guī)范

Technicalspecificationforknowledgegraphconstructionsystemoflifelonglearning

(征求意見稿)

在提交反饋意見時(shí),請(qǐng)將您知道的相關(guān)專利連同支持性文件一并附上。

XXXX-XX-XX發(fā)布XXXX-XX-XX實(shí)施

安徽省人工智能協(xié)會(huì)??發(fā)布

T/XXXX—XXXX

面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)技術(shù)規(guī)范

1范圍

本文件規(guī)定了面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)的框架、技術(shù)要求、功能要求和非功能要求。

本文件適用于教育行業(yè)面向終身學(xué)習(xí)的知識(shí)圖譜系統(tǒng)設(shè)計(jì)、開發(fā)與測試。

2規(guī)范性引用文件

GB/T5271.17-2010信息技術(shù)詞匯第17部分?jǐn)?shù)據(jù)庫;

GB/T42131-2022人工智能知識(shí)圖譜框架;

YD/T4044-2022基于人工智能的知識(shí)圖譜構(gòu)建技術(shù)要求。

3術(shù)語和定義

GB/T5271.17-2010界定的以及以下術(shù)語和定義適用于本文件。

3.1

終身學(xué)習(xí)lifelonglearning

終身學(xué)習(xí)是一種持續(xù)不斷的學(xué)習(xí)過程,在人的整個(gè)生命周期中不斷獲取新知識(shí)、技能和經(jīng)驗(yàn),使個(gè)

體能夠持續(xù)提升能力、拓展視野,并保持競爭力。

3.2

實(shí)體entity

存在或者可能存在的任何具體或抽象的事務(wù),包括這些事物間的關(guān)聯(lián)。

[來源:GB/T5271.17-2010,17.02.05]

3.3

實(shí)體類型entitytype

一組具有相同屬性的實(shí)體集合的抽象。

[來源:GB/T42131-20223.3]

3.4

關(guān)系relation

具有相同屬性的各實(shí)體值的集合以及這些屬性。

[來源:GB/T5271.17-2010,17.04.01]

1

T/XXXX—XXXX

3.5

知識(shí)圖譜knowledgegraph

一種以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體及其關(guān)系的方式。它將互聯(lián)網(wǎng)的海量信息表達(dá)成更

接近人類認(rèn)知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力。

[來源:YD/T4044-2022,3.1]

3.6

精確率precision

評(píng)價(jià)機(jī)器學(xué)習(xí)模型效果的參數(shù),反映的是在預(yù)測為正例的樣本中,預(yù)測正確的比例。

注:計(jì)算公式為準(zhǔn)確率=正確預(yù)測的正例樣本數(shù)量/預(yù)測為正例的樣本數(shù)量。

3.7

召回率recallrate

評(píng)價(jià)機(jī)器學(xué)習(xí)模型效果的參數(shù),反映的是在所有正例樣本中,能夠正確地識(shí)別為正例的比例。

注:計(jì)算公式為召回率=正確預(yù)測的正例樣本數(shù)量/(正確預(yù)測的正例樣本數(shù)量+錯(cuò)誤預(yù)測的負(fù)例樣本數(shù)量)。

3.8

F1值F1-score

綜合應(yīng)用精確率和召回率,為二者的調(diào)和均值。

注:計(jì)算公式為F1值=2*精確率*召回率/(精確率+召回率)。

4縮略語

下列縮略語適用于本文件。

NLP自然語言處理(NaturalLanguageProcessing)

API應(yīng)用編程接口(ApplicationProgrammingInterface)

RDF資源描述語言(ResourceDescriptionFramework)

OWL網(wǎng)絡(luò)本體語言(WebOntologyLanguage)

SPARQL數(shù)據(jù)獲取協(xié)議和查詢語言(SPARQLProtocolandRDFQueryLanguage)

5構(gòu)建框架

面向終身學(xué)習(xí)的知識(shí)圖譜系統(tǒng)以底層技術(shù)基礎(chǔ)作為支撐,其構(gòu)建需經(jīng)過數(shù)據(jù)獲取、數(shù)據(jù)清洗和去重、

知識(shí)抽取、知識(shí)表示、實(shí)體鏈接、知識(shí)存儲(chǔ)、知識(shí)更新等階段,各階段間的邏輯結(jié)構(gòu)如圖1所示。

2

T/XXXX—XXXX

圖1面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)結(jié)構(gòu)圖

標(biāo)引序號(hào)說明:

1——數(shù)據(jù)獲取。通過數(shù)據(jù)庫、網(wǎng)絡(luò)爬蟲、API接口、第三方數(shù)據(jù)提供商等手段獲取所需的數(shù)據(jù)。

2——數(shù)據(jù)清洗與去重。針對(duì)獲取的數(shù)據(jù)集中的殘缺數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)和重復(fù)數(shù)據(jù)進(jìn)行清洗。

3——知識(shí)抽取。知識(shí)抽取是使用識(shí)別、理解、過濾和歸納的方法從不同來源的結(jié)構(gòu)化、半結(jié)構(gòu)

化和非結(jié)構(gòu)化數(shù)據(jù)中將信息提取出來

4——知識(shí)表示。將知識(shí)圖譜中的實(shí)體和它們之間的關(guān)系轉(zhuǎn)換為數(shù)學(xué)表示,從而使得計(jì)算機(jī)可以

更加方便地處理和分析這些信息,能夠?qū)?fù)雜的實(shí)體和關(guān)系映射到一個(gè)低維度向量空間中,從而能夠有

效處理大規(guī)模的知識(shí)圖譜。

5——實(shí)體鏈接。實(shí)體鏈接是一種確定兩個(gè)實(shí)體是否指向現(xiàn)實(shí)世界中同一對(duì)象的過程,用于判斷

不同數(shù)據(jù)集中的實(shí)體是否相同。

6——知識(shí)存儲(chǔ)。知識(shí)存儲(chǔ)是指將知識(shí)以某種結(jié)構(gòu)化的形式存儲(chǔ)在計(jì)算機(jī)系統(tǒng)或其他媒體中,以

便于組織、管理和檢索,旨在有效地保存和利用知識(shí)資源。

7——知識(shí)更新。知識(shí)更新是指不斷對(duì)知識(shí)庫、知識(shí)圖譜或其他知識(shí)存儲(chǔ)結(jié)構(gòu)中的信息進(jìn)行修訂、

添加、刪除或修改,以確保其中所包含的知識(shí)與最新的實(shí)際情況和領(lǐng)域知識(shí)相符。

6技術(shù)要求

6.1知識(shí)獲取

終身學(xué)習(xí)過程中涉及到多種知識(shí)獲取途徑,知識(shí)獲取階段應(yīng)明確知識(shí)圖譜構(gòu)建的數(shù)據(jù)來源,針對(duì)不

同來源的數(shù)據(jù)定制不同的獲取規(guī)則。

知識(shí)獲取階段的技術(shù)要求如下:

a)應(yīng)明確數(shù)據(jù)獲取的來源和途徑。應(yīng)明確數(shù)據(jù)獲取的目標(biāo)來源,包括但不限于數(shù)據(jù)庫、網(wǎng)絡(luò)爬蟲、

API接口、第三方數(shù)據(jù)提供商等。對(duì)于每個(gè)來源,需要了解數(shù)據(jù)的結(jié)構(gòu)、格式、訪問方式等具

體信息;

b)應(yīng)明確數(shù)據(jù)粒度和維度。應(yīng)根據(jù)數(shù)據(jù)使用場景和需求,明確數(shù)據(jù)獲取輸出的粒度和維度,以滿

足后續(xù)知識(shí)圖譜構(gòu)建的需求;

3

T/XXXX—XXXX

c)應(yīng)確保數(shù)據(jù)輸出的規(guī)范化和標(biāo)準(zhǔn)化,包括字段命名、數(shù)據(jù)編碼、單位統(tǒng)一等,以便后續(xù)數(shù)據(jù)集

成和應(yīng)用;

d)應(yīng)確保數(shù)據(jù)獲取的合法性和可靠性,避免侵犯他人隱私或知識(shí)產(chǎn)權(quán)。特別是在涉及第三方數(shù)據(jù)

提供商時(shí),需要明確數(shù)據(jù)授權(quán)方式和使用條款;

e)應(yīng)設(shè)置異常處理和改進(jìn)機(jī)制。確保對(duì)數(shù)據(jù)獲取過程中出現(xiàn)的問題和異常進(jìn)行記錄和分析,及時(shí)

糾正和改進(jìn)數(shù)據(jù)獲取的流程和方法;

f)應(yīng)對(duì)采集到的數(shù)據(jù)進(jìn)行存儲(chǔ),以便后續(xù)分析。

6.2數(shù)據(jù)清洗與去重

面向終身學(xué)習(xí)的知識(shí)圖譜數(shù)據(jù)清洗與去重,應(yīng)滿足數(shù)據(jù)來源與途徑明晰化、數(shù)據(jù)粒度和維度確認(rèn)、

數(shù)據(jù)規(guī)范化與標(biāo)準(zhǔn)化以及合法性和可靠性保障等技術(shù)要求,以確保清洗與去重后的數(shù)據(jù)質(zhì)量和可用性,

為知識(shí)圖譜的構(gòu)建和應(yīng)用奠定基礎(chǔ)。

數(shù)據(jù)清洗與去重階段的技術(shù)要求如下:

a)數(shù)據(jù)來源與途徑明晰化:應(yīng)明確數(shù)據(jù)清洗與去重的目標(biāo)數(shù)據(jù)來源,包括已有知識(shí)圖譜、自然語

言文本、結(jié)構(gòu)化數(shù)據(jù)庫等。對(duì)于每個(gè)來源,需要了解數(shù)據(jù)的結(jié)構(gòu)、格式、獲取方式和訪問權(quán)限

等具體信息。

b)數(shù)據(jù)粒度和維度確認(rèn):應(yīng)根據(jù)知識(shí)圖譜的應(yīng)用場景和需求,明確數(shù)據(jù)清洗與去重輸出的粒度(如

實(shí)體、關(guān)系等)和維度(如時(shí)間、地點(diǎn)、屬性等),以滿足后續(xù)知識(shí)圖譜構(gòu)建的需求。

c)數(shù)據(jù)規(guī)范化與標(biāo)準(zhǔn)化:應(yīng)確保清洗與去重后的數(shù)據(jù)輸出符合統(tǒng)一的規(guī)范和標(biāo)準(zhǔn),包括字段命名

一致、數(shù)據(jù)編碼統(tǒng)一、單位規(guī)范等,以便后續(xù)數(shù)據(jù)集成和應(yīng)用。

d)合法性和可靠性保障:應(yīng)確保數(shù)據(jù)清洗與去重過程中的合法性和可靠性,避免侵犯他人隱私或

知識(shí)產(chǎn)權(quán)。特別是在涉及第三方數(shù)據(jù)提供商時(shí),需要明確數(shù)據(jù)授權(quán)方式、使用條款和合規(guī)性,

以保證數(shù)據(jù)的合法獲取和使用。

e)缺失值填充:應(yīng)對(duì)于存在缺失值的數(shù)據(jù),需要進(jìn)行適當(dāng)?shù)奶畛洳僮鳎员3謹(jǐn)?shù)據(jù)完整性。常見

的缺失值填充方法包括使用均值、中位數(shù)或眾數(shù)進(jìn)行填充,或者根據(jù)數(shù)據(jù)的特點(diǎn)和背景知識(shí)進(jìn)

行合理推測和插補(bǔ)。

f)異常值處理:異常值會(huì)對(duì)后續(xù)分析和應(yīng)用造成不利影響,因此需要識(shí)別和處理異常值。常見的

異常值處理方法包括使用統(tǒng)計(jì)學(xué)方法(如3σ原則、箱線圖等)進(jìn)行判斷和剔除,或者根據(jù)領(lǐng)

域知識(shí)和實(shí)際情況進(jìn)行異常值的修正或標(biāo)記。

6.3知識(shí)抽取

6.3.1實(shí)體抽取

實(shí)體抽取是自然語言處理中的一項(xiàng)重要任務(wù),其主要目標(biāo)是從文本中識(shí)別和提取出具有特定意義的

實(shí)體,如人名、地名、組織名、時(shí)間、數(shù)量等。

實(shí)體抽取的技術(shù)要求如下:

a)實(shí)體抽取的結(jié)構(gòu)和形式輸出實(shí)體應(yīng)包括類型、起始位置、結(jié)束位置等信息,以便于后續(xù)處理和

應(yīng)用。實(shí)體抽取結(jié)果應(yīng)采用統(tǒng)一的格式和標(biāo)注規(guī)范,以支持不同系統(tǒng)間的交互和整合;

b)數(shù)據(jù)類型和規(guī)模。文本數(shù)據(jù)應(yīng)涵蓋多個(gè)領(lǐng)域和主題,包括但不限于新聞、社交媒體、學(xué)術(shù)文獻(xiàn)

等,覆蓋范圍廣泛。數(shù)據(jù)規(guī)模應(yīng)確保充分覆蓋各類實(shí)體,包括人物、地點(diǎn)、組織、時(shí)間等;

c)利用命名實(shí)體識(shí)別技術(shù),從文本中識(shí)別出具體的實(shí)體,包括人名、地名、組織名等,以支持多

種實(shí)體類型的識(shí)別,滿足不同場景下的實(shí)體抽取需求;

4

T/XXXX—XXXX

d)實(shí)體分類。對(duì)抽取出的實(shí)體進(jìn)行分類,確定實(shí)體的具體類型,如人物、地點(diǎn)、時(shí)間等,以便后

續(xù)處理和應(yīng)用;

e)實(shí)體抽取的準(zhǔn)確性評(píng)估。建立實(shí)體抽取的精確率、召回率和F1值等指標(biāo),對(duì)實(shí)體抽取結(jié)果進(jìn)行

全面評(píng)估和比對(duì)。

6.3.2關(guān)系抽取

在終身學(xué)習(xí)過程中,面對(duì)海量多領(lǐng)域知識(shí),實(shí)體間的關(guān)聯(lián)起到了重要的鏈接作用。關(guān)系抽取是自然

語言處理領(lǐng)域的重要任務(wù)之一,通過對(duì)應(yīng)算法與模型自動(dòng)識(shí)別和提取文本中的實(shí)體之間的關(guān)系,以構(gòu)建

結(jié)構(gòu)化的知識(shí)表示,進(jìn)而支持信息檢索、問答系統(tǒng)、知識(shí)圖譜構(gòu)建等應(yīng)用。

關(guān)系抽取的技術(shù)要求如下:

a)關(guān)系抽取的結(jié)構(gòu)和形式。輸出關(guān)系應(yīng)包括關(guān)系類型、關(guān)系持有實(shí)體(實(shí)體對(duì))、關(guān)系置信度等

信息,以便于后續(xù)處理和應(yīng)用;

b)關(guān)系抽取結(jié)果應(yīng)采用統(tǒng)一的格式和標(biāo)注規(guī)范,以支持不同系統(tǒng)間的交互和整合;

c)關(guān)系類型的定義。定義一套完整的關(guān)系類型體系,涵蓋常見的關(guān)系類型,同時(shí)支持自定義擴(kuò)展,

以應(yīng)對(duì)不同領(lǐng)域和應(yīng)用場景的需求;

d)上下文信息的利用。應(yīng)利用關(guān)系在上下文中的語境和邏輯,通過利用句法結(jié)構(gòu)、語義信息等,

提高關(guān)系抽取的準(zhǔn)確性和連貫性;

e)應(yīng)進(jìn)行關(guān)系分類器設(shè)計(jì)。構(gòu)建關(guān)系分類器,用于將抽取出的關(guān)系進(jìn)行進(jìn)一步分類和驗(yàn)證。應(yīng)關(guān)

注特征選擇、模型訓(xùn)練和評(píng)估等環(huán)節(jié),確保分類器的準(zhǔn)確性和泛化能力;

f)應(yīng)進(jìn)行可信度計(jì)算。對(duì)于抽取出的關(guān)系,應(yīng)引入可信度計(jì)算模型,評(píng)估關(guān)系的真實(shí)性和可靠性,

排除噪聲和錯(cuò)誤信息;

g)交叉驗(yàn)證和測試。利用交叉驗(yàn)證或者留出測試集的方式,對(duì)關(guān)系抽取系統(tǒng)進(jìn)行全面的性能評(píng)估,

包括精確率、召回率、F1值等指標(biāo)。

6.4知識(shí)表示

知識(shí)表示是指將自然語言中的信息、概念和關(guān)系以一種計(jì)算機(jī)可理解的形式進(jìn)行表達(dá)和存儲(chǔ)的過程。

在NLP任務(wù)中,知識(shí)表示起著至關(guān)重要的作用,它直接影響到文本理解、推理和應(yīng)用的效果。

知識(shí)表示階段的技術(shù)要求如下:

a)應(yīng)明確知識(shí)表示的結(jié)構(gòu)和形式。知識(shí)表示應(yīng)采用統(tǒng)一的格式和結(jié)構(gòu),如圖譜、知識(shí)庫、向量空

間模型等,以便于計(jì)算機(jī)進(jìn)行有效的理解和處理。應(yīng)采用語義網(wǎng)絡(luò)、本體、三元組等形式對(duì)知

識(shí)進(jìn)行表達(dá),以支持語義推理和信息檢索;

b)應(yīng)對(duì)多模態(tài)信息的整合。融合文本、圖像、語音等多模態(tài)信息,構(gòu)建跨模態(tài)的知識(shí)表示,以滿

足不同應(yīng)用場景下的需求。應(yīng)關(guān)注多模態(tài)信息之間的關(guān)聯(lián)和交互,提高知識(shí)表示的豐富度和復(fù)

雜性;

c)應(yīng)明確語義和關(guān)系的表達(dá)。確保知識(shí)表示能夠準(zhǔn)確表達(dá)實(shí)體之間的語義關(guān)系和屬性,包括同義

關(guān)系、層次關(guān)系、關(guān)聯(lián)關(guān)系等,以支持語義推理和信息抽?。?/p>

d)知識(shí)表示建模。應(yīng)利用自然語言處理技術(shù)對(duì)原始數(shù)據(jù)進(jìn)行建模,形成結(jié)構(gòu)化的知識(shí)表示;

e)應(yīng)進(jìn)行知識(shí)的補(bǔ)充和更新。不斷更新和補(bǔ)充知識(shí)表示,及時(shí)引入新的知識(shí)和信息,確保知識(shí)表

示的時(shí)效性和全面性。結(jié)合領(lǐng)域?qū)<业闹R(shí)和經(jīng)驗(yàn),對(duì)知識(shí)表示進(jìn)行修正和完善,提高知識(shí)表

示的準(zhǔn)確性和有效性;

f)確保對(duì)知識(shí)表示中出現(xiàn)的問題和異常進(jìn)行記錄和分析,及時(shí)糾正和改進(jìn)知識(shí)表示的方法和模型。

6.5實(shí)體鏈接

5

T/XXXX—XXXX

實(shí)體鏈接是自然語言處理中的一項(xiàng)任務(wù),旨在將文本中提及的實(shí)體鏈接到知識(shí)庫中相應(yīng)的實(shí)體。在

文本中,實(shí)體可以是具體的人、地點(diǎn)、組織、時(shí)間等事物的提及,而知識(shí)庫中存儲(chǔ)了這些實(shí)體的結(jié)構(gòu)化

信息,如實(shí)體的屬性、關(guān)系、分類等。實(shí)體鏈接的目標(biāo)是將文本中的實(shí)體與知識(shí)庫中的實(shí)體進(jìn)行對(duì)應(yīng),

從而豐富文本的語義表達(dá),幫助計(jì)算機(jī)理解和推理文本內(nèi)容。

實(shí)體鏈接的技術(shù)要求如下:

a)應(yīng)了解系統(tǒng)是否需要額外的上下文信息,如句子級(jí)別的上下文、語義信息等,以提高實(shí)體鏈

接的準(zhǔn)確性;

b)應(yīng)確定實(shí)體鏈接系統(tǒng)的輸出格式,如實(shí)體標(biāo)識(shí)符、實(shí)體類型、鏈接的知識(shí)庫實(shí)體等;

c)應(yīng)關(guān)注到對(duì)未鏈接實(shí)體進(jìn)行處理,系統(tǒng)對(duì)于無法鏈接的實(shí)體應(yīng)當(dāng)給出相應(yīng)的處理方式,如標(biāo)

記為未知實(shí)體、進(jìn)行后續(xù)人工處理等;

d)候選實(shí)體生成模塊應(yīng)確定實(shí)體鏈接系統(tǒng)如何生成候選實(shí)體集合,可以是基于文本上下文的實(shí)

體候選集合或者利用外部知識(shí)庫進(jìn)行實(shí)體匹配;

e)系統(tǒng)應(yīng)當(dāng)包括實(shí)體消歧模塊,用于在候選實(shí)體集合中識(shí)別出正確的鏈接實(shí)體,應(yīng)關(guān)注上下文

語境、實(shí)體描述信息等;

f)確保有合適的標(biāo)注數(shù)據(jù)集用于對(duì)實(shí)體鏈接系統(tǒng)進(jìn)行訓(xùn)練和評(píng)估。

g)確定實(shí)體鏈接系統(tǒng)的評(píng)估指標(biāo),如精確率、召回率、F1值等,以及如何計(jì)算這些指標(biāo)。

6.6知識(shí)存儲(chǔ)

知識(shí)存儲(chǔ)是支撐終身學(xué)習(xí)知識(shí)長久保存與維護(hù)的關(guān)鍵技術(shù)。知識(shí)圖譜是一種用于表示實(shí)體之間關(guān)系

的知識(shí)存儲(chǔ)結(jié)構(gòu),以三元組(subject,predicate,object)的形式來表示事實(shí)或關(guān)系,其中主語和賓

語表示實(shí)體,謂語表示它們之間的關(guān)系。知識(shí)圖譜中的實(shí)體和關(guān)系可以通過唯一的標(biāo)識(shí)符鏈接到外部的

知識(shí)庫或數(shù)據(jù)源,從而構(gòu)成了一個(gè)具有豐富語義信息的知識(shí)存儲(chǔ)結(jié)構(gòu)。

知識(shí)存儲(chǔ)的技術(shù)要求如下:

a)采用圖結(jié)構(gòu)和本體表示等合適的數(shù)據(jù)結(jié)構(gòu)和語義模型,以清晰地表達(dá)實(shí)體之間的關(guān)系和語義信

息;

b)應(yīng)滿足豐富的語義信息,如存儲(chǔ)實(shí)體的屬性、關(guān)系的類型、層次結(jié)構(gòu)等,提供清晰的語義表示,

以支持多樣化的知識(shí)圖譜任務(wù)需求;

c)應(yīng)支持多種查詢和推理操作。提供適當(dāng)?shù)腁PI或查詢接口,支持復(fù)雜的語義查詢和推理操作,

例如基于SPARQL的查詢語言;

d)結(jié)構(gòu)化數(shù)據(jù)。采用RDF或OWL等標(biāo)準(zhǔn)化格式,以便進(jìn)行統(tǒng)一的存儲(chǔ)和查詢。

e)應(yīng)關(guān)注到知識(shí)存儲(chǔ)的準(zhǔn)確性。采用人工審核、自動(dòng)校對(duì)等手段,確保知識(shí)圖譜中的信息準(zhǔn)確無

誤;

f)應(yīng)考慮到知識(shí)存儲(chǔ)的完整性。通過與已知領(lǐng)域知識(shí)庫對(duì)比、自動(dòng)生成的知識(shí)驗(yàn)證等方式,評(píng)估

知識(shí)圖譜的信息完整性;

g)應(yīng)關(guān)注到知識(shí)存儲(chǔ)的一致性。建立嚴(yán)格的邏輯規(guī)則和一致性檢查機(jī)制,確保知識(shí)圖譜中的信息

不會(huì)相互矛盾或沖突;

h)應(yīng)關(guān)注到知識(shí)存儲(chǔ)的更新性。建立自動(dòng)化的更新機(jī)制,定期對(duì)知識(shí)圖譜進(jìn)行更新和維護(hù);

i)應(yīng)關(guān)注到知識(shí)存儲(chǔ)的可信度。評(píng)估知識(shí)來源的可信度,并設(shè)立權(quán)威信息標(biāo)識(shí)機(jī)制,以提高知識(shí)

圖譜的可信度和權(quán)威性。

6.7知識(shí)更新

6

T/XXXX—XXXX

在終身學(xué)習(xí)過程中,海量的領(lǐng)域知識(shí)具有一定的時(shí)效性,因此知識(shí)的增量更新對(duì)終身學(xué)習(xí)知識(shí)圖譜

的構(gòu)建至關(guān)重要。知識(shí)更新是指不斷對(duì)知識(shí)庫、知識(shí)圖譜或其他知識(shí)存儲(chǔ)結(jié)構(gòu)中的信息進(jìn)行修訂、添加、

刪除或修改,以確保其中所包含的知識(shí)與最新的實(shí)際情況和領(lǐng)域知識(shí)相符。更新知識(shí)的目的是保持知識(shí)

庫的準(zhǔn)確性、完整性和時(shí)效性,以滿足學(xué)習(xí)者的終身學(xué)習(xí)需求并反映最新的知識(shí)和信息。

知識(shí)更新技術(shù)要求如下:

a)采用人工審核、自動(dòng)校對(duì)等手段,應(yīng)確保知識(shí)圖譜中的信息準(zhǔn)確無誤。人工審核可以通過專家

審查、領(lǐng)域知識(shí)驗(yàn)證等手段進(jìn)行,以確保添加到知識(shí)圖譜中的信息符合專業(yè)標(biāo)準(zhǔn)和事實(shí)真相。

自動(dòng)校對(duì)技術(shù)如數(shù)據(jù)一致性檢查、邏輯推理等,以發(fā)現(xiàn)潛在的錯(cuò)誤或沖突信息,并及時(shí)予以修

正。

b)評(píng)估知識(shí)圖譜的信息完整性,應(yīng)采用知識(shí)補(bǔ)全技術(shù),通過分析知識(shí)圖譜中的結(jié)構(gòu)和內(nèi)容,發(fā)現(xiàn)

缺失的實(shí)體、關(guān)系或?qū)傩?,并利用各種技術(shù)手段從外部文本、數(shù)據(jù)庫等來源中提取相關(guān)信息,

使知識(shí)圖譜更加完備和全面。

c)應(yīng)建立嚴(yán)格的邏輯規(guī)則和一致性檢查機(jī)制,定義實(shí)體之間的合法關(guān)系和屬性取值范圍,確保知

識(shí)圖譜在補(bǔ)全和更新中信息不會(huì)相互矛盾或沖突,保持?jǐn)?shù)據(jù)一致性。

d)應(yīng)建立自動(dòng)化的更新機(jī)制,定期對(duì)知識(shí)圖譜進(jìn)行更新和維護(hù)。通過自動(dòng)化更新技術(shù),以實(shí)現(xiàn)知

識(shí)的增量更新、錯(cuò)誤修正、新知識(shí)的添加等操作,保證知識(shí)圖譜與實(shí)際領(lǐng)域知識(shí)的同步。

e)評(píng)估知識(shí)來源的可信度,并設(shè)立權(quán)威信息標(biāo)識(shí)機(jī)制,標(biāo)記來源于可靠渠道和權(quán)威機(jī)構(gòu)的知識(shí)信

息,以提高知識(shí)圖譜的可信度和權(quán)威性。

7基本功能要求

面向終身學(xué)習(xí)的知識(shí)圖譜交互系統(tǒng)的基本功能如下:

a)應(yīng)支持知識(shí)圖譜的可視化展示;

b)應(yīng)支持對(duì)知識(shí)的管理功能,包括知識(shí)查詢、知識(shí)增添、知識(shí)更新、知識(shí)刪除等;

c)應(yīng)支持模型訓(xùn)練優(yōu)化,包括支持模型組合和調(diào)參,提高模型性能和泛化能力。在評(píng)測知識(shí)圖譜

模型時(shí),可以結(jié)合精確值(Precision)、召回值(Recall)和F1值來進(jìn)行綜合評(píng)估;

d)應(yīng)保證模型的可用性,即無論輸入什么樣的數(shù)據(jù),模型都能返回一個(gè)結(jié)果,供系統(tǒng)進(jìn)行決策處

理;

e)應(yīng)支持對(duì)機(jī)器學(xué)習(xí)服務(wù)模塊的管理,保證據(jù)傳輸過程安全、開發(fā)框架安全,支持權(quán)限管理和服

務(wù)接口規(guī)范制定等。

8基本非功能要求

8.1可擴(kuò)展性要求

8.1.1應(yīng)具備良好的可擴(kuò)展性,根據(jù)需求隨時(shí)進(jìn)行擴(kuò)展和收縮。

8.1.2應(yīng)支持橫向擴(kuò)展,用戶通過API可以直接接入。

8.2可靠性要求

8.2.1應(yīng)確保數(shù)據(jù)只能按約定好的行為進(jìn)行使用,避免數(shù)據(jù)濫用。

7

T/XXXX—XXXX

8.2.2應(yīng)具備在出現(xiàn)故障(比如服務(wù)器故障、硬盤故障、網(wǎng)絡(luò)故障、關(guān)機(jī)、重啟等)后系統(tǒng)進(jìn)行自動(dòng)容災(zāi)

恢復(fù)的能力,包括數(shù)據(jù)備份和恢復(fù)等。

8.3兼容性要求

8.3.1應(yīng)能在業(yè)界主流硬件上正常運(yùn)行。

8.3.2應(yīng)支持多數(shù)據(jù)源的批量數(shù)據(jù)導(dǎo)入與更新。

8.3.3應(yīng)兼容主流商業(yè)及開源社區(qū)版操作系統(tǒng)。

8.4性能要求

8.4.1應(yīng)支持通過集群化方案解決在線服務(wù)的負(fù)載均衡、故障轉(zhuǎn)移、動(dòng)態(tài)擴(kuò)縮容等問題。

8.4.2可支持億級(jí)或者以上規(guī)模數(shù)據(jù)的秒級(jí)查詢。

8.5易用性要求

8.5.1可提供API及算法封裝,如知識(shí)查詢、知識(shí)增添、知識(shí)更新、知識(shí)刪除等。

8.5.2應(yīng)提供應(yīng)用運(yùn)行時(shí)動(dòng)態(tài)修改配置的服務(wù),并提供圖形化的集中化管理界面。

8.5.3可支持?jǐn)?shù)據(jù)并行加載及增量加載。

8.6安全性要求

8.6.1應(yīng)支持將知識(shí)圖譜中數(shù)據(jù)的傳輸限制在特定授權(quán)實(shí)體間。

8.6.2應(yīng)確保知識(shí)圖譜數(shù)據(jù)的完整性和可用性。

8.6.3應(yīng)保證知識(shí)圖譜輸入數(shù)據(jù)及輸出返回結(jié)果的保密性和完整性,確保不被未授權(quán)用戶非法獲取。

8

團(tuán)體標(biāo)準(zhǔn)《面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)規(guī)范》

編制說明

一、工作簡況

一)項(xiàng)目背景

知識(shí)圖譜作為機(jī)器認(rèn)知智能實(shí)現(xiàn)的基礎(chǔ)之一,是人工智能的重要

組成部分,有助于實(shí)現(xiàn)知識(shí)的自動(dòng)化和智能化獲取、挖掘和應(yīng)用。知

識(shí)圖譜是以結(jié)構(gòu)化的形式描述客觀世界中的概念、實(shí)體及其關(guān)系的大

型知識(shí)網(wǎng)絡(luò),將信息表達(dá)成更接近人類認(rèn)知的形式,提供了一種更好

地組織、管理和理解海量信息的能力。在教育信息化的時(shí)代,將知識(shí)

圖譜運(yùn)用在教育領(lǐng)域顯得尤為重要。

2019年2月23日,中共中央國務(wù)院印發(fā)《中國教育現(xiàn)代化2035》,

提出了推進(jìn)教育現(xiàn)代化的八大基本理念:更加注重以德為先,更加注

重全面發(fā)展,更加注重面向人人,更加注重終身學(xué)習(xí),更加注重因材

施教,更加注重知行合一,更加注重融合發(fā)展,更加注重共建共享。

到2035年建成服務(wù)全民終身學(xué)習(xí)的現(xiàn)代教育體系、普及有質(zhì)量的學(xué)

前教育、實(shí)現(xiàn)優(yōu)質(zhì)均衡的義務(wù)教育、全面普及高中階段教育、職業(yè)教

育服務(wù)能力顯著提升、高等教育競爭力明顯提升、殘疾兒童少年享有

適合的教育、形成全社會(huì)共同參與的教育治理新格局。

2022年10月16日,習(xí)近平總書記在黨的二十大報(bào)告中提出,

推進(jìn)教育數(shù)字化,建設(shè)全民終身學(xué)習(xí)的學(xué)習(xí)型社會(huì)、學(xué)習(xí)型大國。終

身學(xué)習(xí)理念是指讓學(xué)習(xí)貫穿于人的一生,在更好適應(yīng)經(jīng)濟(jì)社會(huì)全面發(fā)

展的基礎(chǔ)上不斷學(xué)習(xí)。當(dāng)前,我國已經(jīng)構(gòu)建起完整的教育體系,包括

學(xué)前教育、義務(wù)教育、高中教育、高等教育、職業(yè)教育、繼續(xù)教育等,

對(duì)培養(yǎng)勞動(dòng)者的勞動(dòng)技能、全面素質(zhì)、終身學(xué)習(xí)習(xí)慣等,具有重要作

用。

2019年9月11日,中國電子技術(shù)標(biāo)準(zhǔn)化研究院正式發(fā)布了《知

識(shí)圖譜標(biāo)準(zhǔn)化白皮書》(2019版),根據(jù)當(dāng)前知識(shí)圖譜技術(shù)發(fā)展情況

及在多個(gè)領(lǐng)域的成功實(shí)踐,從哲學(xué)層面、政策層面、產(chǎn)業(yè)層面、行業(yè)

層面、技術(shù)層面、工具層面、支撐技術(shù)等多個(gè)層面對(duì)知識(shí)圖譜的實(shí)際

需求、關(guān)鍵技術(shù)、面臨的問題與挑戰(zhàn)、標(biāo)準(zhǔn)化需求、展望與建議等進(jìn)

行了梳理,涉及智慧金融、智慧醫(yī)療、智能制造、智慧教育、智慧政

務(wù)、智慧司法、智慧交通等十五個(gè)領(lǐng)域,并初步提出了知識(shí)圖譜技術(shù)

架構(gòu)和標(biāo)準(zhǔn)體系框架等,對(duì)未來知識(shí)圖譜在更多行業(yè)的推廣應(yīng)用及標(biāo)

準(zhǔn)研制提供支撐。

2021年12月10日,中國電子技術(shù)標(biāo)準(zhǔn)化研究院依托全國信標(biāo)

委人工智能分委會(huì)知識(shí)圖譜工作組聯(lián)合東軟集團(tuán)股份有限公司、北京

華宇元典信息服務(wù)有限公司、華為云計(jì)算技術(shù)有限公司、浙商銀行股

份有限公司等49家企事業(yè)單位、高校和研究院所共同編制《知識(shí)圖

譜選型與實(shí)施指南》(2021年版)。緊密圍繞知識(shí)圖譜應(yīng)用企業(yè)面臨

的概念模糊、基礎(chǔ)薄弱、需求不清、選型困難、評(píng)估缺失、管理困難

等問題,從知識(shí)圖譜應(yīng)用現(xiàn)狀與可能存在的挑戰(zhàn)、知識(shí)圖譜應(yīng)用系統(tǒng)

構(gòu)建、建設(shè)基礎(chǔ)能力評(píng)估、選型準(zhǔn)則與關(guān)鍵性能指標(biāo)、建設(shè)與管理過

程、建設(shè)服務(wù)方選擇等方面進(jìn)行了闡述。同時(shí),從國家支持、行業(yè)部

署、產(chǎn)學(xué)研協(xié)同等層面給出了建議,對(duì)未來知識(shí)圖譜的產(chǎn)業(yè)化、工程

化和標(biāo)準(zhǔn)化提供支撐。

目前,面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)存在如下問題:

1.數(shù)據(jù)質(zhì)量參差不齊。在數(shù)據(jù)采集、存儲(chǔ)、處理等環(huán)節(jié)存在不科

學(xué)、不規(guī)范等問題,導(dǎo)致錯(cuò)誤數(shù)據(jù)、異常數(shù)據(jù)、缺失數(shù)據(jù)等臟數(shù)據(jù),

由于知識(shí)圖譜構(gòu)建流程繁雜,數(shù)據(jù)存在準(zhǔn)確性和一致性問題。

2.知識(shí)抽取技術(shù)多樣。知識(shí)抽取包括實(shí)體抽取和關(guān)系抽取兩個(gè)子

任務(wù),現(xiàn)有的抽取技術(shù)路線繁多,但如何在深度學(xué)習(xí)時(shí)代與神經(jīng)網(wǎng)絡(luò)

模型優(yōu)勢相結(jié)合,有力拓展神經(jīng)網(wǎng)絡(luò)知識(shí)抽取模型的泛化能力,值得

更多深入探索。

3.多源異構(gòu)數(shù)據(jù)處理復(fù)雜。知識(shí)融合是解決異構(gòu)問題的主要途徑,

對(duì)多源知識(shí)庫中的實(shí)體進(jìn)行比較和關(guān)系匹配,并將知識(shí)進(jìn)行有機(jī)結(jié)合,

將異構(gòu)的知識(shí)進(jìn)行消歧、對(duì)齊、整合等。通過知識(shí)融合進(jìn)一步提高數(shù)

據(jù)間的結(jié)構(gòu)性,減少數(shù)據(jù)的冗余。

4.數(shù)據(jù)質(zhì)量評(píng)估標(biāo)準(zhǔn)多樣。評(píng)估時(shí)選擇的維度更多,就更能全面

地評(píng)價(jià)數(shù)據(jù)的質(zhì)量,然而太多的標(biāo)準(zhǔn)會(huì)給實(shí)際操作帶來困難,比如合

理性、適用性等維度無法通過計(jì)算來客觀分析,缺乏可操作性。因此

應(yīng)當(dāng)將評(píng)估手段或方法類似的維度進(jìn)行合并,在滿足要求的前提下,

盡可能地減少非必要的評(píng)估維度。

5.缺乏知識(shí)圖譜生命周期管理功能。伴隨著互聯(lián)網(wǎng)資源以及教學(xué)

知識(shí)的復(fù)雜多變,流程化構(gòu)建后的知識(shí)圖譜需要不斷更新知識(shí)體系。

完備的知識(shí)圖譜生命周期管理方法可以實(shí)現(xiàn)知識(shí)動(dòng)態(tài)補(bǔ)全以及關(guān)系

動(dòng)態(tài)補(bǔ)全操作,達(dá)到知識(shí)圖譜對(duì)實(shí)時(shí)性的要求。

二)任務(wù)來源

為規(guī)范面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)的實(shí)施,西安電子科技

大學(xué)牽頭發(fā)起了《面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)規(guī)范》團(tuán)體標(biāo)準(zhǔn),

并邀請(qǐng)湖南大學(xué)共同參與編制。

1.3、主要起草單位

本標(biāo)準(zhǔn)主要起草單位:西安電子科技大學(xué)、湖南大學(xué)。

1.4、主要工作過程

2023年11月6日,西安電子科技大學(xué)組織團(tuán)體標(biāo)準(zhǔn)委員會(huì)召開

會(huì)議,確定《面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)規(guī)范》提案和立項(xiàng)。

2023年11月7日,西安電子科技大學(xué)標(biāo)準(zhǔn)編制組成立。

2023年11月8日,編制組集中召開編制會(huì)議,討論確定標(biāo)準(zhǔn)總

體框架和內(nèi)容,分工開展編制初稿工作,每周進(jìn)行編制內(nèi)容討論。

2023年12月8日,標(biāo)準(zhǔn)編制組在西安電子科技大學(xué)網(wǎng)安大樓

A614室組織標(biāo)準(zhǔn)討論會(huì)。

2023年12月15日,標(biāo)準(zhǔn)編制組根據(jù)討論會(huì)修改意見完成標(biāo)準(zhǔn)

初稿編制,提交安徽省人工智能協(xié)會(huì),協(xié)會(huì)組織相關(guān)專家評(píng)審。

2024年1月10日,協(xié)會(huì)在西安電子科技大學(xué)網(wǎng)安大樓A614室

組織召開標(biāo)準(zhǔn)編制組第一次會(huì)議,按專家意見進(jìn)一步修改。

2024年1月26日,在西安電子科技大學(xué)網(wǎng)安大樓A614室召開

標(biāo)準(zhǔn)編制組第二次會(huì)議,對(duì)標(biāo)準(zhǔn)評(píng)審修改稿進(jìn)行再次討論修改,并形

成征求意見稿。

二、標(biāo)準(zhǔn)編制原則和主要內(nèi)容的論據(jù)及解決的主要問題

2.1、編制原則

a)全面性原則:本標(biāo)準(zhǔn)在編制過程中充分考慮了標(biāo)準(zhǔn)的全面性,

保證能夠覆蓋到面向終身學(xué)習(xí)的知識(shí)圖譜構(gòu)建系統(tǒng)涉及的各個(gè)方面,

保證內(nèi)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論