《面向終身學習的知識圖譜構建系統(tǒng)規(guī)范》_第1頁
《面向終身學習的知識圖譜構建系統(tǒng)規(guī)范》_第2頁
《面向終身學習的知識圖譜構建系統(tǒng)規(guī)范》_第3頁
《面向終身學習的知識圖譜構建系統(tǒng)規(guī)范》_第4頁
《面向終身學習的知識圖譜構建系統(tǒng)規(guī)范》_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

T/XXXX—XXXX

面向終身學習的知識圖譜構建系統(tǒng)技術規(guī)范

1范圍

本文件規(guī)定了面向終身學習的知識圖譜構建系統(tǒng)的框架、技術要求、功能要求和非功能要求。

本文件適用于教育行業(yè)面向終身學習的知識圖譜系統(tǒng)設計、開發(fā)與測試。

2規(guī)范性引用文件

GB/T5271.17-2010信息技術詞匯第17部分數(shù)據(jù)庫;

GB/T42131-2022人工智能知識圖譜框架;

YD/T4044-2022基于人工智能的知識圖譜構建技術要求。

3術語和定義

GB/T5271.17-2010界定的以及以下術語和定義適用于本文件。

3.1

終身學習lifelonglearning

終身學習是一種持續(xù)不斷的學習過程,在人的整個生命周期中不斷獲取新知識、技能和經(jīng)驗,使個

體能夠持續(xù)提升能力、拓展視野,并保持競爭力。

3.2

實體entity

存在或者可能存在的任何具體或抽象的事務,包括這些事物間的關聯(lián)。

[來源:GB/T5271.17-2010,17.02.05]

3.3

實體類型entitytype

一組具有相同屬性的實體集合的抽象。

[來源:GB/T42131-20223.3]

3.4

關系relation

具有相同屬性的各實體值的集合以及這些屬性。

[來源:GB/T5271.17-2010,17.04.01]

1

T/XXXX—XXXX

3.5

知識圖譜knowledgegraph

一種以結構化的形式描述客觀世界中概念、實體及其關系的方式。它將互聯(lián)網(wǎng)的海量信息表達成更

接近人類認知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力。

[來源:YD/T4044-2022,3.1]

3.6

精確率precision

評價機器學習模型效果的參數(shù),反映的是在預測為正例的樣本中,預測正確的比例。

注:計算公式為準確率=正確預測的正例樣本數(shù)量/預測為正例的樣本數(shù)量。

3.7

召回率recallrate

評價機器學習模型效果的參數(shù),反映的是在所有正例樣本中,能夠正確地識別為正例的比例。

注:計算公式為召回率=正確預測的正例樣本數(shù)量/(正確預測的正例樣本數(shù)量+錯誤預測的負例樣本數(shù)量)。

3.8

F1值F1-score

綜合應用精確率和召回率,為二者的調(diào)和均值。

注:計算公式為F1值=2*精確率*召回率/(精確率+召回率)。

4縮略語

下列縮略語適用于本文件。

NLP自然語言處理(NaturalLanguageProcessing)

API應用編程接口(ApplicationProgrammingInterface)

RDF資源描述語言(ResourceDescriptionFramework)

OWL網(wǎng)絡本體語言(WebOntologyLanguage)

SPARQL數(shù)據(jù)獲取協(xié)議和查詢語言(SPARQLProtocolandRDFQueryLanguage)

5構建框架

面向終身學習的知識圖譜系統(tǒng)以底層技術基礎作為支撐,其構建需經(jīng)過數(shù)據(jù)獲取、數(shù)據(jù)清洗和去重、

知識抽取、知識表示、實體鏈接、知識存儲、知識更新等階段,各階段間的邏輯結構如圖1所示。

2

T/XXXX—XXXX

圖1面向終身學習的知識圖譜構建系統(tǒng)結構圖

標引序號說明:

1——數(shù)據(jù)獲取。通過數(shù)據(jù)庫、網(wǎng)絡爬蟲、API接口、第三方數(shù)據(jù)提供商等手段獲取所需的數(shù)據(jù)。

2——數(shù)據(jù)清洗與去重。針對獲取的數(shù)據(jù)集中的殘缺數(shù)據(jù)、錯誤數(shù)據(jù)和重復數(shù)據(jù)進行清洗。

3——知識抽取。知識抽取是使用識別、理解、過濾和歸納的方法從不同來源的結構化、半結構

化和非結構化數(shù)據(jù)中將信息提取出來

4——知識表示。將知識圖譜中的實體和它們之間的關系轉換為數(shù)學表示,從而使得計算機可以

更加方便地處理和分析這些信息,能夠將復雜的實體和關系映射到一個低維度向量空間中,從而能夠有

效處理大規(guī)模的知識圖譜。

5——實體鏈接。實體鏈接是一種確定兩個實體是否指向現(xiàn)實世界中同一對象的過程,用于判斷

不同數(shù)據(jù)集中的實體是否相同。

6——知識存儲。知識存儲是指將知識以某種結構化的形式存儲在計算機系統(tǒng)或其他媒體中,以

便于組織、管理和檢索,旨在有效地保存和利用知識資源。

7——知識更新。知識更新是指不斷對知識庫、知識圖譜或其他知識存儲結構中的信息進行修訂、

添加、刪除或修改,以確保其中所包含的知識與最新的實際情況和領域知識相符。

6技術要求

6.1知識獲取

終身學習過程中涉及到多種知識獲取途徑,知識獲取階段應明確知識圖譜構建的數(shù)據(jù)來源,針對不

同來源的數(shù)據(jù)定制不同的獲取規(guī)則。

知識獲取階段的技術要求如下:

a)應明確數(shù)據(jù)獲取的來源和途徑。應明確數(shù)據(jù)獲取的目標來源,包括但不限于數(shù)據(jù)庫、網(wǎng)絡爬蟲、

API接口、第三方數(shù)據(jù)提供商等。對于每個來源,需要了解數(shù)據(jù)的結構、格式、訪問方式等具

體信息;

b)應明確數(shù)據(jù)粒度和維度。應根據(jù)數(shù)據(jù)使用場景和需求,明確數(shù)據(jù)獲取輸出的粒度和維度,以滿

足后續(xù)知識圖譜構建的需求;

3

T/XXXX—XXXX

c)應確保數(shù)據(jù)輸出的規(guī)范化和標準化,包括字段命名、數(shù)據(jù)編碼、單位統(tǒng)一等,以便后續(xù)數(shù)據(jù)集

成和應用;

d)應確保數(shù)據(jù)獲取的合法性和可靠性,避免侵犯他人隱私或知識產(chǎn)權。特別是在涉及第三方數(shù)據(jù)

提供商時,需要明確數(shù)據(jù)授權方式和使用條款;

e)應設置異常處理和改進機制。確保對數(shù)據(jù)獲取過程中出現(xiàn)的問題和異常進行記錄和分析,及時

糾正和改進數(shù)據(jù)獲取的流程和方法;

f)應對采集到的數(shù)據(jù)進行存儲,以便后續(xù)分析。

6.2數(shù)據(jù)清洗與去重

面向終身學習的知識圖譜數(shù)據(jù)清洗與去重,應滿足數(shù)據(jù)來源與途徑明晰化、數(shù)據(jù)粒度和維度確認、

數(shù)據(jù)規(guī)范化與標準化以及合法性和可靠性保障等技術要求,以確保清洗與去重后的數(shù)據(jù)質量和可用性,

為知識圖譜的構建和應用奠定基礎。

數(shù)據(jù)清洗與去重階段的技術要求如下:

a)數(shù)據(jù)來源與途徑明晰化:應明確數(shù)據(jù)清洗與去重的目標數(shù)據(jù)來源,包括已有知識圖譜、自然語

言文本、結構化數(shù)據(jù)庫等。對于每個來源,需要了解數(shù)據(jù)的結構、格式、獲取方式和訪問權限

等具體信息。

b)數(shù)據(jù)粒度和維度確認:應根據(jù)知識圖譜的應用場景和需求,明確數(shù)據(jù)清洗與去重輸出的粒度(如

實體、關系等)和維度(如時間、地點、屬性等),以滿足后續(xù)知識圖譜構建的需求。

c)數(shù)據(jù)規(guī)范化與標準化:應確保清洗與去重后的數(shù)據(jù)輸出符合統(tǒng)一的規(guī)范和標準,包括字段命名

一致、數(shù)據(jù)編碼統(tǒng)一、單位規(guī)范等,以便后續(xù)數(shù)據(jù)集成和應用。

d)合法性和可靠性保障:應確保數(shù)據(jù)清洗與去重過程中的合法性和可靠性,避免侵犯他人隱私或

知識產(chǎn)權。特別是在涉及第三方數(shù)據(jù)提供商時,需要明確數(shù)據(jù)授權方式、使用條款和合規(guī)性,

以保證數(shù)據(jù)的合法獲取和使用。

e)缺失值填充:應對于存在缺失值的數(shù)據(jù),需要進行適當?shù)奶畛洳僮鳎员3謹?shù)據(jù)完整性。常見

的缺失值填充方法包括使用均值、中位數(shù)或眾數(shù)進行填充,或者根據(jù)數(shù)據(jù)的特點和背景知識進

行合理推測和插補。

f)異常值處理:異常值會對后續(xù)分析和應用造成不利影響,因此需要識別和處理異常值。常見的

異常值處理方法包括使用統(tǒng)計學方法(如3σ原則、箱線圖等)進行判斷和剔除,或者根據(jù)領

域知識和實際情況進行異常值的修正或標記。

6.3知識抽取

6.3.1實體抽取

實體抽取是自然語言處理中的一項重要任務,其主要目標是從文本中識別和提取出具有特定意義的

實體,如人名、地名、組織名、時間、數(shù)量等。

實體抽取的技術要求如下:

a)實體抽取的結構和形式輸出實體應包括類型、起始位置、結束位置等信息,以便于后續(xù)處理和

應用。實體抽取結果應采用統(tǒng)一的格式和標注規(guī)范,以支持不同系統(tǒng)間的交互和整合;

b)數(shù)據(jù)類型和規(guī)模。文本數(shù)據(jù)應涵蓋多個領域和主題,包括但不限于新聞、社交媒體、學術文獻

等,覆蓋范圍廣泛。數(shù)據(jù)規(guī)模應確保充分覆蓋各類實體,包括人物、地點、組織、時間等;

c)利用命名實體識別技術,從文本中識別出具體的實體,包括人名、地名、組織名等,以支持多

種實體類型的識別,滿足不同場景下的實體抽取需求;

4

T/XXXX—XXXX

d)實體分類。對抽取出的實體進行分類,確定實體的具體類型,如人物、地點、時間等,以便后

續(xù)處理和應用;

e)實體抽取的準確性評估。建立實體抽取的精確率、召回率和F1值等指標,對實體抽取結果進行

全面評估和比對。

6.3.2關系抽取

在終身學習過程中,面對海量多領域知識,實體間的關聯(lián)起到了重要的鏈接作用。關系抽取是自然

語言處理領域的重要任務之一,通過對應算法與模型自動識別和提取文本中的實體之間的關系,以構建

結構化的知識表示,進而支持信息檢索、問答系統(tǒng)、知識圖譜構建等應用。

關系抽取的技術要求如下:

a)關系抽取的結構和形式。輸出關系應包括關系類型、關系持有實體(實體對)、關系置信度等

信息,以便于后續(xù)處理和應用;

b)關系抽取結果應采用統(tǒng)一的格式和標注規(guī)范,以支持不同系統(tǒng)間的交互和整合;

c)關系類型的定義。定義一套完整的關系類型體系,涵蓋常見的關系類型,同時支持自定義擴展,

以應對不同領域和應用場景的需求;

d)上下文信息的利用。應利用關系在上下文中的語境和邏輯,通過利用句法結構、語義信息等,

提高關系抽取的準確性和連貫性;

e)應進行關系分類器設計。構建關系分類器,用于將抽取出的關系進行進一步分類和驗證。應關

注特征選擇、模型訓練和評估等環(huán)節(jié),確保分類器的準確性和泛化能力;

f)應進行可信度計算。對于抽取出的關系,應引入可信度計算模型,評估關系的真實性和可靠性,

排除噪聲和錯誤信息;

g)交叉驗證和測試。利用交叉驗證或者留出測試集的方式,對關系抽取系統(tǒng)進行全面的性能評估,

包括精確率、召回率、F1值等指標。

6.4知識表示

知識表示是指將自然語言中的信息、概念和關系以一種計算機可理解的形式進行表達和存儲的過程。

在NLP任務中,知識表示起著至關重要的作用,它直接影響到文本理解、推理和應用的效果。

知識表示階段的技術要求如下:

a)應明確知識表示的結構和形式。知識表示應采用統(tǒng)一的格式和結構,如圖譜、知識庫、向量空

間模型等,以便于計算機進行有效的理解和處理。應采用語義網(wǎng)絡、本體、三元組等形式對知

識進行表達,以支持語義推理和信息檢索;

b)應對多模態(tài)信息的整合。融合文本、圖像、語音等多模態(tài)信息,構建跨模態(tài)的知識表示,以滿

足不同應用場景下的需求。應關注多模態(tài)信息之間的關聯(lián)和交互,提高知識表示的豐富度和復

雜性;

c)應明確語義和關系的表達。確保知識表示能夠準確表達實體之間的語義關系和屬性,包括同義

關系、層次關系、關聯(lián)關系等,以支持語義推理和信息抽??;

d)知識表示建模。應利用自然語言處理技術對原始數(shù)據(jù)進行建模,形成結構化的知識表示;

e)應進行知識的補充和更新。不斷更新和補充知識表示,及時引入新的知識和信息,確保知識表

示的時效性和全面性。結合領域專家的知識和經(jīng)驗,對知識表示進行修正和完善,提高知識表

示的準確性和有效性;

f)確保對知識表示中出現(xiàn)的問題和異常進行記錄和分析,及時糾正和改進知識表示的方法和模型。

6.5實體鏈接

5

T/XXXX—XXXX

實體鏈接是自然語言處理中的一項任務,旨在將文本中提及的實體鏈接到知識庫中相應的實體。在

文本中,實體可以是具體的人、地點、組織、時間等事物的提及,而知識庫中存儲了這些實體的結構化

信息,如實體的屬性、關系、分類等。實體鏈接的目標是將文本中的實體與知識庫中的實體進行對應,

從而豐富文本的語義表達,幫助計算機理解和推理文本內(nèi)容。

實體鏈接的技術要求如下:

a)應了解系統(tǒng)是否需要額外的上下文信息,如句子級別的上下文、語義信息等,以提高實體鏈

接的準確性;

b)應確定實體鏈接系統(tǒng)的輸出格式,如實體標識符、實體類型、鏈接的知識庫實體等;

c)應關注到對未鏈接實體進行處理,系統(tǒng)對于無法鏈接的實體應當給出相應的處理方式,如標

記為未知實體、進行后續(xù)人工處理等;

d)候選實體生成模塊應確定實體鏈接系統(tǒng)如何生成候選實體集合,可以是基于文本上下文的實

體候選集合或者利用外部知識庫進行實體匹配;

e)系統(tǒng)應當包括實體消歧模塊,用于在候選實體集合中識別出正確的鏈接實體,應關注上下文

語境、實體描述信息等;

f)確保有合適的標注數(shù)據(jù)集用于對實體鏈接系統(tǒng)進行訓練和評估。

g)確定實體鏈接系統(tǒng)的評估指標,如精確率、召回率、F1值等,以及如何計算這些指標。

6.6知識存儲

知識存儲是支撐終身學習知識長久保存與維護的關鍵技術。知識圖譜是一種用于表示實體之間關系

的知識存儲結構,以三元組(subject,predicate,object)的形式來表示事實或關系,其中主語和賓

語表示實體,謂語表示它們之間的關系。知識圖譜中的實體和關系可以通過唯一的標識符鏈接到外部的

知識庫或數(shù)據(jù)源,從而構成了一個具有豐富語義信息的知識存儲結構。

知識存儲的技術要求如下:

a)采用圖結構和本體表示等合適的數(shù)據(jù)結構和語義模型,以清晰地表達實體之間的關系和語義信

息;

b)應滿足豐富的語義信息,如存儲實體的屬性、關系的類型、層次結構等,提供清晰的語義表示,

以支持多樣化的知識圖譜任務需求;

c)應支持多種查詢和推理操作。提供適當?shù)腁PI或查詢接口,支持復雜的語義查詢和推理操作,

例如基于SPARQL的查詢語言;

d)結構化數(shù)據(jù)。采用RDF或OWL等標準化格式,以便進行統(tǒng)一的存儲和查詢。

e)應關注到知識存儲的準確性。采用人工審核、自動校對等手段,確保知識圖譜中的信息準確無

誤;

f)應考慮到知識存儲的完整性。通過與已知領域知識庫對比、自動生成的知識驗證等方式,評估

知識圖譜的信息完整性;

g)應關注到知識存儲的一致性。建立嚴格的邏輯規(guī)則和一致性檢查機制,確保知識圖譜中的信息

不會相互矛盾或沖突;

h)應關注到知識存儲的更新性。建立自動化的更新機制,定期對知識圖譜進行更新和維護;

i)應關注到知識存儲的可信度。評估知識來源的可信度,并設立權威信息標識機制,以提高知識

圖譜的可信度和權威性。

6.7知識更新

6

T/XXXX—XXXX

在終身學習過程中,海量的領域知識具有一定的時效性,因此知識的增量更新對終身學習知識圖譜

的構建至關重要。知識更新是指不斷對知識庫、知識圖譜或其他知識存儲結構中的信息進行修訂、添加、

刪除或修改,以確保其中所包含的知識與最新的實際情況和領域知識相符。更新知識的目的是保持知識

庫的準確性、完整性和時效性,以滿足學習者的終身學習需求并反映最新的知識和信息。

知識更新技術要求如下:

a)采用人工審核、自動校對等手段,應確保知識圖譜中的信息準確無誤。人工審核可以通過專家

審查、領域知識驗證等手段進行,以確保添加到知識圖譜中的信息符合專業(yè)標準和事實真相。

自動校對技術如數(shù)據(jù)一致性檢查、邏輯推理等,以發(fā)現(xiàn)潛在的錯誤或沖突信息,并及時予以修

正。

b)評估知識圖譜的信息完整性,應采用知識補全技術,通過分析知識圖譜中的結構和內(nèi)容,發(fā)現(xiàn)

缺失的實體、關系或屬性,并利用各種技術手段從外部文本、數(shù)據(jù)庫等來源中提取相關信息,

使知識圖譜更加完備和全面。

c)應建立嚴格的邏輯規(guī)則和一致性檢查機制,定義實體之間的合法關系和屬性取值范圍,確保知

識圖譜在補全和更新中信息不會相互矛盾或沖突,保持數(shù)據(jù)一致性。

d)應建立自動化的更新機制,定期對知識圖譜進行更新和維護。通過自動化更新技術,以實現(xiàn)知

識的增量更新、錯誤修正、新知識的添加等操作,保證知識圖譜與實際領域知識的同步。

e)評估知識來源的可信度,并設立權威信息標識機制,標記來源于可靠渠道和權威機構的知識信

息,以提高知識圖譜的可信度和權威性。

7基本功能要求

面向終身學習的知識圖譜交互系統(tǒng)的基本功能如下:

a)應支持知識圖譜的可視化展示;

b)應支持對知識的管理功能,包括知識查詢、知識增添、知識更新、知識刪除等;

c)應支持模型訓練優(yōu)化,包括支持模型組合和調(diào)參,提高模型性能和泛化能力。在評測知識圖譜

模型時,可以結合精確值(Precision)、召回值(Recall)和F1值來進行綜合評估;

d)應保證模型的可用性,即無論輸入什么樣的數(shù)據(jù),模型都能返回一個結果,供系統(tǒng)進行決策處

理;

e)應支持對機器學習服務模塊的管理,保證據(jù)傳輸過程安全、開發(fā)框架安全,支持權限管理和服

務接口規(guī)范制定等。

8基本非功能要求

8.1可擴展性要求

8.1.1應具備良好的可擴展性,根據(jù)需求隨時進行擴展和收縮。

8.1.2應支持橫向擴展,用戶通過API可以直接接入。

8.2可靠性要求

8.2.1應確保數(shù)據(jù)只能按約定好的行為進行使用,避免數(shù)據(jù)濫用。

7

T/XXXX—XXXX

8.2.2應具備在出現(xiàn)故障(比如服務器故障、硬盤故障、網(wǎng)絡故障、關機、重啟等)后系統(tǒng)進行自動容災

恢復的能力,包括數(shù)據(jù)備份和恢復等。

8.3兼容性要求

8.3.1應能在業(yè)界主流硬件上正常運行。

8.3.2應支持多數(shù)據(jù)源的批量數(shù)據(jù)導入與更新。

8.3.3應兼容主流商業(yè)及開源社區(qū)版操作系統(tǒng)。

8.4性能要求

8.4.1應支持通過集群化方案解決在線服務的負載均衡、故障轉移、動態(tài)擴縮容等問題。

8.4.2可支持億級或者以上規(guī)模數(shù)據(jù)的秒級查詢。

8.5易用性要求

8.5.1可提供API及算法封裝,如知識查詢、知識增添、知識更新、知識刪除等。

8.5.2應提供應用運行時動態(tài)修改配置的服務,并提供圖形化的集中化管理界面。

8.5.3可支持數(shù)據(jù)并行加載及增量加載。

8.6安全性要求

8.6.1應支持將知識圖譜中數(shù)據(jù)的傳輸限制在特定授權實體間。

8.6.2應確保知識圖譜數(shù)據(jù)的完整性和可用性。

8.6.3應保證知識圖譜輸入數(shù)據(jù)及輸出返回結果的保密性和完整性,確保不被未授權用戶非法獲取。

8

團體標準《面向終身學習的知識圖譜構建系統(tǒng)規(guī)范》

編制說明

一、工作簡況

一)項目背景

知識圖譜作為機器認知智能實現(xiàn)的基礎之一,是人工智能的重要

組成部分,有助于實現(xiàn)知識的自動化和智能化獲取、挖掘和應用。知

識圖譜是以結構化的形式描述客觀世界中的概念、實體及其關系的大

型知識網(wǎng)絡,將信息表達成更接近人類認知的形式,提供了一種更好

地組織、管理和理解海量信息的能力。在教育信息化的時代,將知識

圖譜運用在教育領域顯得尤為重要。

2019年2月23日,中共中央國務院印發(fā)《中國教育現(xiàn)代化2035》,

提出了推進教育現(xiàn)代化的八大基本理念:更加注重以德為先,更加注

重全面發(fā)展,更加注重面向人人,更加注重終身學習,更加注重因材

施教,更加注重知行合一,更加注重融合發(fā)展,更加注重共建共享。

到2035年建成服務全民終身學習的現(xiàn)代教育體系、普及有質量的學

前教育、實現(xiàn)優(yōu)質均衡的義務教育、全面普及高中階段教育、職業(yè)教

育服務能力顯著提升、高等教育競爭力明顯提升、殘疾兒童少年享有

適合的教育、形成全社會共同參與的教育治理新格局。

2022年10月16日,習近平總書記在黨的二十大報告中提出,

推進教育數(shù)字化,建設全民終身學習的學習型社會、學習型大國。終

身學習理念是指讓學習貫穿于人的一生,在更好適應經(jīng)濟社會全面發(fā)

展的基礎上不斷學習。當前,我國已經(jīng)構建起完整的教育體系,包括

學前教育、義務教育、高中教育、高等教育、職業(yè)教育、繼續(xù)教育等,

對培養(yǎng)勞動者的勞動技能、全面素質、終身學習習慣等,具有重要作

用。

2019年9月11日,中國電子技術標準化研究院正式發(fā)布了《知

識圖譜標準化白皮書》(2019版),根據(jù)當前知識圖譜技術發(fā)展情況

及在多個領域的成功實踐,從哲學層面、政策層面、產(chǎn)業(yè)層面、行業(yè)

層面、技術層面、工具層面、支撐技術等多個層面對知識圖譜的實際

需求、關鍵技術、面臨的問題與挑戰(zhàn)、標準化需求、展望與建議等進

行了梳理,涉及智慧金融、智慧醫(yī)療、智能制造、智慧教育、智慧政

務、智慧司法、智慧交通等十五個領域,并初步提出了知識圖譜技術

架構和標準體系框架等,對未來知識圖譜在更多行業(yè)的推廣應用及標

準研制提供支撐。

2021年12月10日,中國電子技術標準化研究院依托全國信標

委人工智能分委會知識圖譜工作組聯(lián)合東軟集團股份有限公司、北京

華宇元典信息服務有限公司、華為云計算技術有限公司、浙商銀行股

份有限公司等49家企事業(yè)單位、高校和研究院所共同編制《知識圖

譜選型與實施指南》(2021年版)。緊密圍繞知識圖譜應用企業(yè)面臨

的概念模糊、基礎薄弱、需求不清、選型困難、評估缺失、管理困難

等問題,從知識圖譜應用現(xiàn)狀與可能存在的挑戰(zhàn)、知識圖譜應用系統(tǒng)

構建、建設基礎能力評估、選型準則與關鍵性能指標、建設與管理過

程、建設服務方選擇等方面進行了闡述。同時,從國家支持、行業(yè)部

署、產(chǎn)學研協(xié)同等層面給出了建議,對未來知識圖譜的產(chǎn)業(yè)化、工程

化和標準化提供支撐。

目前,面向終身學習的知識圖譜構建系統(tǒng)存在如下問題:

1.數(shù)據(jù)質量參差不齊。在數(shù)據(jù)采集、存儲、處理等環(huán)節(jié)存在不科

學、不規(guī)范等問題,導致錯誤數(shù)據(jù)、異常數(shù)據(jù)、缺失數(shù)據(jù)等臟數(shù)據(jù),

由于知識圖譜構建流程繁雜,數(shù)據(jù)存在準確性和一致性問題。

2.知識抽取技術多樣。知識抽取包括實體抽取和關系抽取兩個子

任務,現(xiàn)有的抽取技術路線繁多,但如何在深度學習時代與神經(jīng)網(wǎng)絡

模型優(yōu)勢相結合,有力拓展神經(jīng)網(wǎng)絡知識抽取模型的泛化能力,值得

更多深入探索。

3.多源異構數(shù)據(jù)處理復雜。知識融合是解決異構問題的主要途徑,

對多源知識庫中的實體進行比較和關系匹配,并將知識進行有機結合,

將異構的知識進行消歧、對齊、整合等。通過知識融合進一步提高數(shù)

據(jù)間的結構性,減少數(shù)據(jù)的冗余。

4.數(shù)據(jù)質量評估標準多樣。評估時選擇的維度更多,就更能全面

地評價數(shù)據(jù)的質量,然而太多的標準會給實際操作帶來困難,比如合

理性、適用性等維度無法通過計算來客觀分析,缺乏可操作性。因此

應當將評估手段或方法類似的維度進行合并,在滿足要求的前提下,

盡可能地減少非必要的評估維度。

5.缺乏知識圖譜生命周期管理功能。伴隨著互聯(lián)網(wǎng)資源以及教學

知識的復雜多變,流程化構建后的知識圖譜需要不斷更新知識體系。

完備的知識圖譜生命周期管理方法可以實現(xiàn)知識動態(tài)補全以及關系

動態(tài)補全操作,達到知識圖譜對實時性的要求。

二)任務來源

為規(guī)范面向終身學習的知識圖譜構建系統(tǒng)的實施,西安電子科技

大學牽頭發(fā)起了《面向終身學習的知識圖譜構建系統(tǒng)規(guī)范》團體標準,

并邀請湖南大學共同參與編制。

1.3、主要起草單位

本標準主要起草單位:西安電子科技大學、湖南大學。

1.4、主要工作過程

2023年11月6日,西安電子科技大學組織團體標準委員會召開

會議,確定《面向終身學習的知識圖譜構建系統(tǒng)規(guī)范》提案和立項。

2023年11月7日,西安電子科技大學標準編制組成立。

2023年11月8日,編制組集中召開編制會議,討論確定標準總

體框架和內(nèi)容,分工開展編制初稿工作,每周進行編制內(nèi)容討論。

2023年12月8日,標準編制組在西安電子科技大學網(wǎng)安大樓

A614室組織標準討論會。

2023年12月15日,標準編制組根據(jù)討論會修改意見完成標準

初稿編制,提交安徽省人工智能協(xié)會,協(xié)會組織相關專家評審。

2024年1月10日,協(xié)會在西安電子科技大學網(wǎng)安大樓A614室

組織召開標準編制組第一次會議,按專家意見進一步修改。

2024年1月26日,在西安電子科技大學網(wǎng)安大樓A614室召開

標準編制組第二次會議,對標準評審修改稿進行再次討論修改,并形

成征求意見稿。

二、標準編制原則和主要內(nèi)容的論據(jù)及解決的主要問題

2.1、編制原則

a)全面性原則:本標準在編制過程中充分考慮了標準的全面性,

保證能夠覆蓋到面向終身學習的知識圖譜構建系統(tǒng)涉及的各個方面,

保證內(nèi)容的完備性。

b)實用性原則:本標準充分考慮了面向終身學習的知識圖譜構

建系統(tǒng)的實際需求進行標準內(nèi)容編制,保證面向終身學習的知識圖譜

構建系統(tǒng)規(guī)范的實用性。

2.2、文檔結構

本標準提出了面向終身學習的知識圖譜構建系統(tǒng)規(guī)范中數(shù)據(jù)獲

取、知識抽取、知識表示、實體對齊、知識存儲等階段的通用要求。

2.3、整體格式

整體格式根據(jù)GB/T1.1-2020《標準化工作導則第1部分:標

準化文件的結構和起草規(guī)則》的相關要求,對本標準的各要素進行編

寫和排版。

2.4、標準名稱英文翻譯

TechnicalSpecificationofKnowledgeGraphConstruction

SystemforLifelongLearning

2.5、術語和定義

術語和定義中所列的術語的英文翻譯,根據(jù)團體標準編寫規(guī)范對

術語的要求,如有類似術語的標準,參考了其翻譯,沒有類似術語標

準翻譯的,通過百度翻譯和谷歌翻譯后進行對比,并參考網(wǎng)絡相關翻

譯后進行確定。

2.6、主要內(nèi)容

通過標準草案稿、討論稿的修改完善,本標準的主要技術內(nèi)容確

定為:

第一部分提出了本標準涵蓋的內(nèi)容和適用范圍。

第二部分提出了本標準所采用的規(guī)范性引用文件。

第三部分給出了本標準中用到的術語。

第四部分給出了本標準中用到的相關縮略語。

第五部分面向終身學習的知識圖譜構建框架,以底層技術基礎

作為支撐,包括數(shù)據(jù)獲取、知識抽取、知識表示、實體對齊、知識存

儲等階段。

第六部分面向終身學習的知識圖譜構建技術要求,包括數(shù)據(jù)獲

取、知識抽取、知識表示、實體對齊、知識存儲等。

第七部分面向終身學習的知識圖譜交互系統(tǒng)基本功能要求。

第八部分面向終身學習的知識圖譜交互系統(tǒng)基本非功能要求,

包括擴展性要求、可靠性要求、兼容性要求等。

2.7、解決問題

通過對本標準的制定,提出了面向終身學習的知識圖譜構建系統(tǒng)

規(guī)范。具體內(nèi)容包括:

(1)解決數(shù)據(jù)質量參差不齊問題;

(2)解決面向終身學習的知識抽取問題;

(3)解決多源異構數(shù)據(jù)處理問題;

(4)解決面向終身學習的知識圖譜生命周期管理功能的缺失。

三、知識產(chǎn)權情況說明

無。

四、采用國際標準和國外先進標準情況

無。

五、與現(xiàn)行相關法律、法規(guī)、規(guī)章及相關標準的協(xié)調(diào)性

符合我國有關的現(xiàn)行法律、法規(guī)。

六、重大分歧意見的處理經(jīng)過及依據(jù)

無重大分歧意見。

七、標準性質的建議

建議《面向終身學習的知識圖譜構建系統(tǒng)技術規(guī)范》作為推薦性

團體標準發(fā)布實施。

八、貫徹標準的要求和措施建議

鑒于本標準是面向終身學習的知識圖譜構建系統(tǒng)技術的標準,建

議在標準貫徹執(zhí)行過程中,各單位應當起到協(xié)調(diào)以及推廣的作用,召

開研討會、協(xié)調(diào)會,在建設本單位的面向終身學習的知識圖譜系統(tǒng)時

參照通用要求。

九、代替或廢止現(xiàn)行有關標準的建議

無。

十、其他應予以說明的事項

無。

《面向終身學習的知識圖譜構建系統(tǒng)規(guī)范》

團體標準編制組

2024年8月28日

ICS17.140.99

CCSL70

T/AHAI

安徽省人工智能協(xié)會團體標準

T/XXXX—XXXX

面向終身學習的知識圖譜構建系統(tǒng)

技術規(guī)范

Technicalspecificationforknowledgegraphconstructionsystemoflifelonglearning

(征求意見稿)

在提交反饋意見時,請將您知道的相關專利連同支持性文件一并附上。

XXXX-XX-XX發(fā)布XXXX-XX-XX實施

安徽省人工智能協(xié)會??發(fā)布

T/XXXX—XXXX

面向終身學習的知識圖譜構建系統(tǒng)技術規(guī)范

1范圍

本文件規(guī)定了面向終身學習的知識圖譜構建系統(tǒng)的框架、技術要求、功能要求和非功能要求。

本文件適用于教育行業(yè)面向終身學習的知識圖譜系統(tǒng)設計、開發(fā)與測試。

2規(guī)范性引用文件

GB/T5271.17-2010信息技術詞匯第17部分數(shù)據(jù)庫;

GB/T42131-2022人工智能知識圖譜框架;

YD/T4044-2022基于人工智能的知識圖譜構建技術要求。

3術語和定義

GB/T5271.17-2010界定的以及以下術語和定義適用于本文件。

3.1

終身學習lifelonglearning

終身學習是一種持續(xù)不斷的學習過程,在人的整個生命周期中不斷獲取新知識、技能和經(jīng)驗,使個

體能夠持續(xù)提升能力、拓展視野,并保持競爭力。

3.2

實體entity

存在或者可能存在的任何具體或抽象的事務,包括這些事物間的關聯(lián)。

[來源:GB/T5271.17-2010,17.02.05]

3.3

實體類型entitytype

一組具有相同屬性的實體集合的抽象。

[來源:GB/T42131-20223.3]

3.4

關系relation

具有相同屬性的各實體值的集合以及這些屬性。

[來源:GB/T5271.17-2010,17.04.01]

1

T/XXXX—XXXX

3.5

知識圖譜knowledgegraph

一種以結構化的形式描述客觀世界中概念、實體及其關系的方式。它將互聯(lián)網(wǎng)的海量信息表達成更

接近人類認知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力。

[來源:YD/T4044-2022,3.1]

3.6

精確率precision

評價機器學習模型效果的參數(shù),反映的是在預測為正例的樣本中,預測正確的比例。

注:計算公式為準確率=正確預測的正例樣本數(shù)量/預測為正例的樣本數(shù)量。

3.7

召回率recallrate

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論