《構(gòu)建文獻(xiàn)資源知識(shí)圖譜 技術(shù)要求》_第1頁(yè)
《構(gòu)建文獻(xiàn)資源知識(shí)圖譜 技術(shù)要求》_第2頁(yè)
《構(gòu)建文獻(xiàn)資源知識(shí)圖譜 技術(shù)要求》_第3頁(yè)
《構(gòu)建文獻(xiàn)資源知識(shí)圖譜 技術(shù)要求》_第4頁(yè)
《構(gòu)建文獻(xiàn)資源知識(shí)圖譜 技術(shù)要求》_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

ICS35.240.30

CCSL70

CCUA

中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)團(tuán)體標(biāo)準(zhǔn)

T/CCUAXXXX—2024

構(gòu)建文獻(xiàn)資源知識(shí)圖譜技術(shù)要求

Constructingknowledgegraphofliteratureresources-Technicalrequirement

(征求意見(jiàn)稿)

(本草案完成時(shí)間:2024年6月18日)

在提交反饋意見(jiàn)時(shí),請(qǐng)將您知道的相關(guān)專利連同支持性文件一并附上。

XXXX-XX-XX發(fā)布XXXX-XX-XX實(shí)施

中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)發(fā)布

T/CCUAXXXX—2024

目次

前言.................................................................................II

引言................................................................................III

1范圍...............................................................................1

2規(guī)范性引用文件.....................................................................1

3術(shù)語(yǔ)和定義.........................................................................1

4縮略語(yǔ).............................................................................2

5架構(gòu)與流程.........................................................................2

5.1構(gòu)建文獻(xiàn)資源知識(shí)圖譜技術(shù)架構(gòu)...................................................2

5.2文獻(xiàn)資源知識(shí)圖譜構(gòu)建流程.......................................................3

5.2.1構(gòu)建流程...................................................................3

5.2.2數(shù)據(jù)接入與清洗.............................................................4

5.2.3數(shù)據(jù)整合和處理.............................................................4

5.2.4知識(shí)模型構(gòu)建...............................................................4

5.2.5知識(shí)抽取...................................................................4

5.2.6知識(shí)融合...................................................................5

5.2.7知識(shí)存儲(chǔ)...................................................................5

5.2.8知識(shí)可視化.................................................................5

6技術(shù)要求...........................................................................5

6.1數(shù)據(jù)接入與清洗.................................................................5

6.2數(shù)據(jù)整合和處理.................................................................5

6.3知識(shí)模型構(gòu)建...................................................................5

6.4知識(shí)抽取.......................................................................6

6.5知識(shí)融合.......................................................................6

6.6知識(shí)計(jì)算推理...................................................................6

6.7知識(shí)可視化.....................................................................7

6.8質(zhì)量評(píng)估和維護(hù).................................................................7

6.9知識(shí)抽取模型訓(xùn)練...............................................................7

6.10大語(yǔ)言模型賦能知識(shí)圖譜........................................................8

參考文獻(xiàn)..............................................................................9

I

T/CCUAXXXX—2024

構(gòu)建文獻(xiàn)資源知識(shí)圖譜技術(shù)要求

1范圍

本文件確定了文獻(xiàn)資源知識(shí)圖譜架構(gòu)建流程,規(guī)定了相關(guān)技術(shù)要求。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T42131-2022人工智能知識(shí)圖譜技術(shù)框架

3術(shù)語(yǔ)和定義

下列術(shù)語(yǔ)和定義適用于本文件。

3.1

大語(yǔ)言模型largelanguagemodel

經(jīng)過(guò)預(yù)訓(xùn)練和微調(diào)的大規(guī)模人工智能模型,可以理解指令并基于大量數(shù)據(jù)生成人類語(yǔ)言。

[來(lái)源:WDTAAI-STR-02《大語(yǔ)言模型安全測(cè)試方法》]

3.2

文獻(xiàn)資源知識(shí)圖譜knowledgegraphofliteratureresources

以一種結(jié)構(gòu)化的形式描述特定文獻(xiàn)資源領(lǐng)域中概念、實(shí)體及其關(guān)系的方式。

注:文獻(xiàn)資源知識(shí)圖譜將文獻(xiàn)資源的海量信息表達(dá)成更接近人類認(rèn)知世界的形式,提供了一種更好地組織、管理和

理解文獻(xiàn)資源海量信息的能力。

3.3

本體ontology

本體模型ontology

表示實(shí)體類型以及實(shí)體類型之間關(guān)系、實(shí)體類型屬性類型及其之間關(guān)聯(lián)的一種模型。

[來(lái)源:GB/T42131-2022,3.8]

3.4

實(shí)體entity

獨(dú)立存在的對(duì)象。

[來(lái)源:GB/T42131-2022,3.2]

3.5

關(guān)系relation

實(shí)體、實(shí)體類型、實(shí)體組合或?qū)嶓w類型組合間的聯(lián)系。

注:關(guān)系用于描述實(shí)體類型和實(shí)體類型、實(shí)體類型和實(shí)體、實(shí)體和實(shí)體之間的關(guān)聯(lián)方式。

[來(lái)源:GB/T42131-2022,3.11]

3.6

實(shí)體識(shí)別entityidentification

從文本數(shù)據(jù)中獲取人名、地名等實(shí)體數(shù)據(jù)。

[來(lái)源:《計(jì)算機(jī)科學(xué)技術(shù)名詞(第三版)》]

3.7

實(shí)體鏈接entitylinking

指將文本中的表述鏈接到知識(shí)庫(kù)中相應(yīng)的實(shí)體來(lái)幫助人類和計(jì)算機(jī)理解文本具體含義。

[來(lái)源:《基于深度學(xué)習(xí)的實(shí)體鏈接研究綜述》]

3.8

關(guān)系抽取relationextraction

1

T/CCUAXXXX—2024

識(shí)別文本中提到的實(shí)體之間關(guān)系的任務(wù)。

[來(lái)源:GB/T41867-2022,3.3.4]

4縮略語(yǔ)

RESTful:一種基于REST(RepresentationalStateTransfer,表述性狀態(tài)轉(zhuǎn)移)架構(gòu)風(fēng)格的Web

服務(wù)設(shè)計(jì)方法。

API:應(yīng)用程序編程接口(ApplicationProgrammingInterface)

SQL:結(jié)構(gòu)化查詢語(yǔ)言(StructuredQueryLanguage)

CSV:逗號(hào)分隔值,有時(shí)也稱為字符分隔值,因?yàn)榉指糇址部梢圆皇嵌禾?hào)(Comma-SeparatedValues)

JSON:是一種輕量級(jí)的數(shù)據(jù)交換格式(JavaScriptObjectNotation,JS對(duì)象簡(jiǎn)譜)

XML:可擴(kuò)展標(biāo)記語(yǔ)言(ExtensibleMarkupLanguage,XML)

RDF:資源描述框架(ResourceDescriptionFramework)

5架構(gòu)與流程

5.1構(gòu)建文獻(xiàn)資源知識(shí)圖譜技術(shù)架構(gòu)

構(gòu)建文獻(xiàn)資源知識(shí)圖譜技術(shù)構(gòu)架見(jiàn)圖1。

圖1構(gòu)建文獻(xiàn)資源知識(shí)圖譜技術(shù)架構(gòu)

圖1中:

2

T/CCUAXXXX—2024

a)存儲(chǔ)層

提供分布式存儲(chǔ)管理,為文獻(xiàn)資源數(shù)據(jù)存儲(chǔ)提供高可用的存儲(chǔ)支撐,主要包括關(guān)系型數(shù)據(jù)庫(kù)、

圖數(shù)據(jù)庫(kù)等。

b)數(shù)據(jù)層

數(shù)據(jù)層支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的接入與清洗。

c)知識(shí)構(gòu)建層

知識(shí)構(gòu)建層基于統(tǒng)一的數(shù)據(jù)接入,通過(guò)可視化知識(shí)模型構(gòu)建的方式,提供配置化的模式實(shí)現(xiàn)

知識(shí)本體構(gòu)建、關(guān)系構(gòu)建、屬性構(gòu)建。

d)知識(shí)抽取層

知識(shí)抽取層實(shí)現(xiàn)從海量異構(gòu)文獻(xiàn)資源數(shù)據(jù)中抽取知識(shí),基于統(tǒng)一的可視化抽取任務(wù)管理頁(yè)面,

提供結(jié)構(gòu)化數(shù)據(jù)抽取、半結(jié)構(gòu)化數(shù)據(jù)抽取、非結(jié)構(gòu)化數(shù)據(jù)抽取,支持實(shí)體、關(guān)系、屬性等知

識(shí)抽取。

e)知識(shí)融合層

知識(shí)融合層提供知識(shí)本體融合、知識(shí)更新、實(shí)體鏈接等功能,為文獻(xiàn)知識(shí)融合提供工具支撐。

f)知識(shí)計(jì)算層

知識(shí)計(jì)算層集成通用的圖挖掘分析算法庫(kù),為各類圖分析應(yīng)用提供基礎(chǔ)算法支撐。同時(shí)提供

知識(shí)推理分析、關(guān)聯(lián)分析、統(tǒng)計(jì)分析等知識(shí)計(jì)算功能。

g)知識(shí)可視化層

知識(shí)展示層基于統(tǒng)一的2D/3D知識(shí)可視化展示框架,提供知識(shí)圖譜可視化表示、知識(shí)可視化

布局以及知識(shí)圖譜可視化分析等功能。

h)知識(shí)應(yīng)用層

知識(shí)應(yīng)用層提供統(tǒng)一的RESTFul接口,提供基于文獻(xiàn)知識(shí)的知識(shí)檢索、知識(shí)問(wèn)答、知識(shí)推薦

等知識(shí)服務(wù)。

5.2文獻(xiàn)資源知識(shí)圖譜構(gòu)建流程

5.2.1構(gòu)建流程

文獻(xiàn)資源知識(shí)圖譜構(gòu)建流程見(jiàn)圖2。

3

T/CCUAXXXX—2024

圖2文獻(xiàn)資源知識(shí)圖譜構(gòu)建流程

5.2.2數(shù)據(jù)接入與清洗

數(shù)據(jù)接入與清洗旨在明確數(shù)據(jù)源的選擇,確定合適的數(shù)據(jù)接入方式,以確保數(shù)據(jù)的完整性和準(zhǔn)確性。

隨后,通過(guò)數(shù)據(jù)清洗和預(yù)處理,進(jìn)一步提高數(shù)據(jù)的質(zhì)量和一致性。

5.2.3數(shù)據(jù)整合和處理

數(shù)據(jù)整合與處理通過(guò)數(shù)據(jù)格式轉(zhuǎn)換,將不同來(lái)源的數(shù)據(jù)統(tǒng)一格式,而后通過(guò)數(shù)據(jù)歸一化確保數(shù)據(jù)中

的實(shí)體和屬性具有統(tǒng)一的表示,消除歧義。最后,數(shù)據(jù)集成將處理后的數(shù)據(jù)融合為一個(gè)整體。

5.2.4知識(shí)模型構(gòu)建

知識(shí)模型構(gòu)建是指建立知識(shí)圖譜的概念模型,即采用什么樣的方式來(lái)表達(dá)知識(shí),構(gòu)建一個(gè)概念模型

對(duì)知識(shí)進(jìn)行描述。在模型中需要構(gòu)建本體、屬性以及本體之間的關(guān)系。

5.2.5知識(shí)抽取

4

T/CCUAXXXX—2024

在知識(shí)圖譜構(gòu)建過(guò)程中,知識(shí)抽取發(fā)揮著核心作用。它主要依賴于文獻(xiàn)資源中的信息,借助自然語(yǔ)

言處理技術(shù)進(jìn)行實(shí)體識(shí)別和關(guān)系抽取。

5.2.6知識(shí)融合

知識(shí)的產(chǎn)生是一個(gè)不斷更新、不斷完善、動(dòng)態(tài)產(chǎn)生的過(guò)程,知識(shí)的抽取后需要將抽取的知識(shí)與已有

知識(shí)進(jìn)行融合。

5.2.7知識(shí)存儲(chǔ)

選擇圖數(shù)據(jù)庫(kù)的存儲(chǔ)方式,已處理好的知識(shí)構(gòu)建知識(shí)庫(kù)。

5.2.8知識(shí)可視化

知識(shí)可視化是將知識(shí)轉(zhuǎn)化為一種人類的視覺(jué)形式,知識(shí)可視化包括知識(shí)可視化表示、知識(shí)可視化布

局、知識(shí)可視化分析等功能。通過(guò)知識(shí)可視化,用戶可直觀的對(duì)數(shù)據(jù)進(jìn)行全局感知說(shuō)。

6技術(shù)要求

6.1數(shù)據(jù)接入與清洗

數(shù)據(jù)接入與清洗是在選擇明確的文本數(shù)據(jù)源基礎(chǔ)上,通過(guò)數(shù)據(jù)清洗和其他預(yù)處理方法,消除數(shù)據(jù)中

的噪聲和異常值,進(jìn)一步提高數(shù)據(jù)的質(zhì)量和一致性。

a)應(yīng)優(yōu)先選擇權(quán)威性強(qiáng)、質(zhì)量高的數(shù)據(jù)源,如知名出版社、學(xué)術(shù)機(jī)構(gòu)等,以提高知識(shí)圖譜的可

信度;

b)為考慮數(shù)據(jù)的時(shí)效性,應(yīng)優(yōu)先選擇提供實(shí)時(shí)或定期更新的數(shù)據(jù)源。

c)應(yīng)確保數(shù)據(jù)源提供的API或數(shù)據(jù)導(dǎo)出格式與知識(shí)圖譜構(gòu)建系統(tǒng)兼容。

d)應(yīng)確保數(shù)據(jù)傳輸過(guò)程中遵循相關(guān)的安全標(biāo)準(zhǔn)和協(xié)議。

e)應(yīng)確保選擇的數(shù)據(jù)源符合法律法規(guī)和隱私政策要求,避免侵犯知識(shí)產(chǎn)權(quán)和個(gè)人隱私。

f)應(yīng)支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)接入。

g)應(yīng)對(duì)文獻(xiàn)資源進(jìn)行文本清洗,去除無(wú)關(guān)信息。

h)可實(shí)現(xiàn)數(shù)據(jù)源的自動(dòng)接入和整合。

i)應(yīng)支持?jǐn)?shù)據(jù)表、SQL語(yǔ)句、文件等接入方式。

j)對(duì)于大型數(shù)據(jù)集,應(yīng)提供批量導(dǎo)入功能,支持多種數(shù)據(jù)格式(如CSV、JSON、XML等)的導(dǎo)入。

k)可對(duì)文本進(jìn)行標(biāo)準(zhǔn)化處理,如統(tǒng)一大小寫(xiě)、去除標(biāo)點(diǎn)符號(hào)等。

l)可利用高效的去重算法和技術(shù),去除數(shù)據(jù)中的重復(fù)項(xiàng),確保知識(shí)的唯一性和準(zhǔn)確性。

6.2數(shù)據(jù)整合和處理

數(shù)據(jù)整合與管理包括數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)歸一化和數(shù)據(jù)集成等。首先將不同來(lái)源的數(shù)據(jù)統(tǒng)一為構(gòu)建

知識(shí)圖譜所需的格式。其次,數(shù)據(jù)歸一化確保數(shù)據(jù)中的實(shí)體和屬性具有統(tǒng)一的表示,消除歧義。最后,

數(shù)據(jù)集成將處理后的數(shù)據(jù)融合為一個(gè)整體,為后續(xù)的知識(shí)圖譜構(gòu)建和分析提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。

a)應(yīng)處理涉及信息安全保護(hù)的數(shù)據(jù)。

b)應(yīng)將所有數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的、標(biāo)準(zhǔn)化的格式,如JSON、XML或RDF,以便于后續(xù)的整

合和分析。

c)應(yīng)將來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行融合,消除數(shù)據(jù)之間的矛盾和沖突,形成一致的知識(shí)表示。

d)應(yīng)檢查數(shù)據(jù)的完整性和全面性,確保關(guān)鍵信息沒(méi)有遺漏。

e)應(yīng)利用領(lǐng)域知識(shí)和規(guī)則,驗(yàn)證數(shù)據(jù)的準(zhǔn)確性,確保知識(shí)的可靠性。

f)可將各種非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)(如PDF、Word文檔、網(wǎng)頁(yè)等),解析為結(jié)構(gòu)化數(shù)據(jù)。

g)可利用實(shí)體鏈接和實(shí)體消歧技術(shù),將不同數(shù)據(jù)源中的同名實(shí)體對(duì)齊到知識(shí)圖譜中的同一實(shí)體

上,確保實(shí)體的唯一性和一致性。

h)可對(duì)實(shí)體的屬性進(jìn)行歸一化處理,如將日期、數(shù)字、單位等轉(zhuǎn)換為統(tǒng)一的格式和標(biāo)準(zhǔn),以便

于后續(xù)的查詢和分析。

6.3知識(shí)模型構(gòu)建

5

T/CCUAXXXX—2024

知識(shí)模型構(gòu)建可建立知識(shí)圖譜的概念模型,即采用什么樣的方式來(lái)表達(dá)知識(shí),構(gòu)建一個(gè)概念模型對(duì)

知識(shí)進(jìn)行描述。知識(shí)模型構(gòu)建的過(guò)程是知識(shí)圖譜構(gòu)建的基礎(chǔ),高質(zhì)量的知識(shí)模型能避免許多不必要、重

復(fù)性的知識(shí)獲取工作,有效提高知識(shí)圖譜構(gòu)建的效率。

a)應(yīng)支持以可視化、拖拽等方式構(gòu)建知識(shí)模型。

b)應(yīng)清晰、明確地定義知識(shí)圖譜中的實(shí)體和關(guān)系,確保每個(gè)概念和實(shí)體都有唯一的定義和解釋。

c)應(yīng)保持實(shí)體和關(guān)系定義的連貫性和一致性,避免歧義和重復(fù)。

d)應(yīng)設(shè)計(jì)實(shí)體和關(guān)系時(shí)考慮未來(lái)可能的擴(kuò)展,確保知識(shí)圖譜可以隨著知識(shí)的發(fā)展而不斷擴(kuò)展。

e)應(yīng)為每個(gè)實(shí)體和關(guān)系定義清晰的屬性,包括屬性名稱、數(shù)據(jù)類型、取值范圍等,確保知識(shí)的

精確表示。

f)應(yīng)明確實(shí)體之間的關(guān)系類型和層次,包括父子關(guān)系、兄弟關(guān)系、屬性關(guān)系等,形成豐富的關(guān)

系網(wǎng)絡(luò)。

g)應(yīng)支持增量更新、全量更新兩種方式的圖譜構(gòu)建。

h)可導(dǎo)出已構(gòu)建完成的知識(shí)模型。

i)可從外部導(dǎo)入知識(shí)模型。

6.4知識(shí)抽取

知識(shí)抽取依賴于文獻(xiàn)資源中的信息,借助自然語(yǔ)言處理等技術(shù)進(jìn)行實(shí)體識(shí)別和關(guān)系抽取。實(shí)體抽取

旨在從文本中識(shí)別并提取出具有實(shí)際意義的實(shí)體,如人名、地名等。關(guān)系抽取則關(guān)注于揭示實(shí)體之間的

關(guān)系,如親屬關(guān)系、職業(yè)關(guān)系等,以此豐富和完善圖譜內(nèi)容。知識(shí)抽取包含以下要求:

a)應(yīng)抽取文獻(xiàn)資源中的所有相關(guān)關(guān)系,確保知識(shí)圖譜的完整性。

b)應(yīng)支持字典、規(guī)則、模板、模型等多種抽取策略。

c)應(yīng)支持通過(guò)界面自定義字典、規(guī)則、模板等配置。

d)應(yīng)支持單屬性多模型的抽取模型組合策略能力。

e)抽取策略應(yīng)易于適應(yīng)新的文獻(xiàn)資源或領(lǐng)域,支持知識(shí)的持續(xù)更新和擴(kuò)展。

f)可支持自動(dòng)化抽取,減少人工干預(yù),提高知識(shí)圖譜構(gòu)建效率。

g)可針對(duì)文獻(xiàn)資源領(lǐng)域的特殊性,對(duì)模型進(jìn)行領(lǐng)域適應(yīng)性訓(xùn)練,以提高實(shí)體識(shí)別的準(zhǔn)確性。

h)應(yīng)準(zhǔn)確識(shí)別文獻(xiàn)資源中的實(shí)體,包括人名、地名、組織機(jī)構(gòu)名、專業(yè)術(shù)語(yǔ)等,確保識(shí)別的實(shí)

體與知識(shí)圖譜中的實(shí)體相匹配。

i)應(yīng)支持查看知識(shí)抽取結(jié)果(包括當(dāng)前及歷史)

j)應(yīng)支持對(duì)抽取結(jié)果進(jìn)行修改審核。

k)應(yīng)支持查看知識(shí)抽取結(jié)果報(bào)表(包括當(dāng)前及歷史)及數(shù)據(jù)詳情。

6.5知識(shí)融合

知識(shí)的產(chǎn)生是一個(gè)不斷更新、不斷完善、動(dòng)態(tài)產(chǎn)生的過(guò)程,知識(shí)的抽取后需要將抽取的知識(shí)與已有

知識(shí)進(jìn)行融合。知識(shí)融合是通過(guò)對(duì)相關(guān)知識(shí)對(duì)齊、關(guān)聯(lián)、合并使其成為一個(gè)有機(jī)的整體,是一種提供更

全面知識(shí)共享的重要方法。知識(shí)融合包含以下要求:

a)應(yīng)支持從知識(shí)實(shí)體、本體、屬性、關(guān)系4個(gè)層次進(jìn)行融合。

b)可支持同義詞轉(zhuǎn)換、數(shù)據(jù)預(yù)處理(轉(zhuǎn)換、格式化,比如:大小寫(xiě)轉(zhuǎn)換、日期格式化)、數(shù)據(jù)

校驗(yàn)(過(guò)濾、正則等規(guī)則,比如:身份證,郵箱,手機(jī)校驗(yàn)等)等多種融合預(yù)處理策略。

c)可支持關(guān)鍵詞、多屬性相似度等多種實(shí)體沖突檢測(cè)策略。

d)可支持實(shí)體鏈接替換、保留、合并等多種沖突處理機(jī)制。

e)可實(shí)現(xiàn)文獻(xiàn)資源中識(shí)別出的實(shí)體與知識(shí)圖譜中實(shí)體的唯一性映射,確保每個(gè)實(shí)體在知識(shí)圖譜

中都有唯一的標(biāo)識(shí)。

f)可利用上下文信息和實(shí)體鏈接技術(shù),正確解析實(shí)體所指,避免歧義。

6.6知識(shí)計(jì)算推理

知識(shí)計(jì)算推理是在已有的知識(shí)庫(kù)基礎(chǔ)上進(jìn)一步挖掘隱含的知識(shí),從而豐富、擴(kuò)展知識(shí)庫(kù)。知識(shí)計(jì)算

推理包含以下要求:

a)應(yīng)確保推理的結(jié)果準(zhǔn)確無(wú)誤,確保生成的知識(shí)符合事實(shí)和定義。

6

T/CCUAXXXX—2024

b)應(yīng)確保推理過(guò)程保持邏輯一致性,避免產(chǎn)生矛盾的知識(shí)。

c)應(yīng)支持常用算法推演查詢,包括中心性算法、社區(qū)檢測(cè)算法、路徑尋找算法、相似度算法、

圖嵌入算法。

d)應(yīng)快速處理大量的數(shù)據(jù),保證推理過(guò)程的高效性。

e)宜支持添加、修改和刪除推理規(guī)則。

f)可利用定義明確的推理規(guī)則,從文獻(xiàn)資源中抽取的信息中推導(dǎo)出新的關(guān)系。

g)可利用圖模型進(jìn)行推理,通過(guò)圖結(jié)構(gòu)中的模式發(fā)現(xiàn)新的關(guān)系。

h)對(duì)于推理過(guò)程中可能存在的不確定性,應(yīng)使用概率模型或置信度評(píng)估來(lái)處理。

i)應(yīng)防止因過(guò)度推理導(dǎo)致知識(shí)圖譜中出現(xiàn)錯(cuò)誤或不準(zhǔn)確的信息。

j)可支持自動(dòng)化的推理過(guò)程,減少人工干預(yù)。

6.7知識(shí)可視化

知識(shí)可視化是將知識(shí)轉(zhuǎn)化為一種人類的視覺(jué)形式,直觀、形象地表現(xiàn)、解釋、分析、模擬、發(fā)現(xiàn)或

揭示隱藏在知識(shí)內(nèi)部的特征和規(guī)律。知識(shí)可視化包括知識(shí)可視化表示、知識(shí)可視化布局、知識(shí)可視化分

析等功能。通過(guò)知識(shí)可視化,根據(jù)業(yè)務(wù)需求設(shè)計(jì)合適的數(shù)據(jù)展示布局和交互形式,用戶可直觀的對(duì)數(shù)據(jù)

進(jìn)行全局感知,也能夠了解數(shù)據(jù)結(jié)構(gòu)背后的數(shù)據(jù)關(guān)系,對(duì)結(jié)果進(jìn)行追根溯源的分析。包含以下要求:

a)應(yīng)使用標(biāo)準(zhǔn)化圖元(如圓形、方形、箭頭等)來(lái)表示不同的元素,以減少認(rèn)知負(fù)擔(dān)。

b)應(yīng)合理使用顏色來(lái)區(qū)分不同實(shí)體、關(guān)系和屬性,同時(shí)確保顏色的對(duì)比度和可訪問(wèn)性。

c)宜采用合理的布局減少認(rèn)知復(fù)雜度,例如使用力引導(dǎo)布局來(lái)優(yōu)化節(jié)點(diǎn)之間的關(guān)系。

d)要提供放大、縮小、移動(dòng)、搜索、過(guò)濾等交互功能。

e)應(yīng)在有限的視覺(jué)空間內(nèi)展示盡可能多的相關(guān)信息,同時(shí)避免過(guò)載。

f)應(yīng)確??梢暬谐尸F(xiàn)的數(shù)據(jù)與知識(shí)圖譜中的數(shù)據(jù)精確對(duì)應(yīng),不丟失信息。

g)可提供有效的導(dǎo)航機(jī)制,使用戶能夠輕松地在圖中定位和跳轉(zhuǎn)。

h)可允許高級(jí)用戶根據(jù)需要定制可視化的某些方面,如顏色方案、圖元樣式等。

i)應(yīng)支持處理大規(guī)模的知識(shí)圖譜數(shù)據(jù),保持良好的性能和可擴(kuò)展性。

j)應(yīng)確保可視化系統(tǒng)中處理的數(shù)據(jù)符合隱私和數(shù)據(jù)保護(hù)法規(guī)。

6.8質(zhì)量評(píng)估和維護(hù)

知識(shí)圖譜質(zhì)量評(píng)估與維護(hù)是確保知識(shí)準(zhǔn)確性和時(shí)效性的關(guān)鍵環(huán)節(jié)??扇鏅z查數(shù)據(jù)的準(zhǔn)確性、一致

性、完整性和時(shí)效性,確保圖譜信息真實(shí)可靠。定期更新數(shù)據(jù),實(shí)施嚴(yán)格的版本控制,持續(xù)優(yōu)化圖譜質(zhì)

量。質(zhì)量評(píng)估和維護(hù)包含以下要求:

a)應(yīng)檢查關(guān)鍵實(shí)體和關(guān)系的完備性,確保沒(méi)有遺漏重要內(nèi)容。

b)應(yīng)確保圖譜中的實(shí)體、關(guān)系、屬性等定義統(tǒng)一,無(wú)歧義。

c)宜定期檢查圖譜中的信息是否過(guò)時(shí),及時(shí)更新和維護(hù)。

d)可設(shè)立定期的數(shù)據(jù)更新機(jī)制,確保圖譜內(nèi)容的實(shí)時(shí)性和準(zhǔn)確性。

e)可提供歷史版本查詢功能,便于追蹤和恢復(fù)。

f)應(yīng)制定嚴(yán)格的數(shù)據(jù)訪問(wèn)和修改權(quán)限控制,確保圖譜的安全性。

g)可整合新的文獻(xiàn)資源,對(duì)圖譜進(jìn)行增量更新。

h)可對(duì)圖譜執(zhí)行版本控制管理,記錄圖譜的變更和更新。

6.9知識(shí)抽取模型訓(xùn)練

知識(shí)抽取模型的訓(xùn)練包括數(shù)據(jù)收集、預(yù)處理、訓(xùn)練、評(píng)估和優(yōu)化等步驟。首先選用合適的通用大語(yǔ)

言模型,通過(guò)增量預(yù)訓(xùn)練注入領(lǐng)域知識(shí),再訓(xùn)練其抽取實(shí)體和關(guān)系的能力,形成文獻(xiàn)資源大語(yǔ)言模型。

使用驗(yàn)證集和測(cè)試集評(píng)估模型性能,并根據(jù)評(píng)估結(jié)果調(diào)整模型參數(shù)或訓(xùn)練策略,以提高模型質(zhì)量。

a)應(yīng)針對(duì)具有代表性、多樣性和高質(zhì)量的數(shù)據(jù)進(jìn)行抽取,涵蓋豐富的話題和語(yǔ)言風(fēng)格。

b)宜具備較強(qiáng)的并行計(jì)算能力,以支持大規(guī)模數(shù)據(jù)的訓(xùn)練。

c)宜具備較好的過(guò)擬合控制能力,以保證模型在未知數(shù)據(jù)上的泛化能力。

d)可支持模型剪枝和量化,以降低模型復(fù)雜度和計(jì)算資源消耗。

e)可支持多語(yǔ)言訓(xùn)練,以滿足不同國(guó)家和地區(qū)用戶的需求。

7

T/CCUAXXXX—2024

f)宜具備較好的可解釋性,以便用戶了解模型的工作原理和決策依據(jù)。

g)應(yīng)確保模型無(wú)偏見(jiàn)、符合道德標(biāo)準(zhǔn),并遵守相關(guān)法律法規(guī)。

6.10大語(yǔ)言模型賦能知識(shí)圖譜

利用大模型在語(yǔ)義理解、內(nèi)容生成等方面的技術(shù)優(yōu)勢(shì),實(shí)現(xiàn)大模型對(duì)知識(shí)圖譜構(gòu)建至應(yīng)用全生命周

期各環(huán)節(jié)的增強(qiáng),提升效率和質(zhì)量。

a)可支持知識(shí)圖譜大模型針對(duì)知識(shí)圖譜提供檢索增強(qiáng)生成等能力。

b)可具備知識(shí)圖譜的自動(dòng)構(gòu)建能力,從非結(jié)構(gòu)化數(shù)據(jù)中抽取實(shí)體、關(guān)系和屬性等信息。

c)可支持知識(shí)圖譜的動(dòng)態(tài)更新,以實(shí)時(shí)反映現(xiàn)實(shí)世界的變化。

d)可支持知識(shí)模型的構(gòu)建,以得到更準(zhǔn)確和全面的知識(shí)模型。

e)可具備知識(shí)圖譜的查詢和分析能力,為用戶提供高效的知識(shí)檢索服務(wù)。

f)可支持知識(shí)圖譜的分布式存儲(chǔ)和計(jì)算,以滿足大規(guī)模知識(shí)圖譜的需求。

g)可支持知識(shí)圖譜的語(yǔ)義理解能力,為用戶提供智能問(wèn)答、推薦等服務(wù)。

h)可支持知識(shí)圖譜多模態(tài)知識(shí)對(duì)齊,以實(shí)現(xiàn)不同模態(tài)知識(shí)的對(duì)齊和整合。

i)應(yīng)遵循相關(guān)法律法規(guī)和倫理標(biāo)準(zhǔn),確保知識(shí)圖譜的合法合規(guī)性。

8

T/CCUAXXXX—2024

參考文獻(xiàn)

[1]GB/T5271.14-2008信息技術(shù)詞匯第14部分:可靠性、可維護(hù)性與可用性

[2]GB/T35273-2020信息安全技術(shù)個(gè)人信息安全規(guī)范

[3]T/HNIT2-2021領(lǐng)域知識(shí)圖譜構(gòu)建技術(shù)規(guī)程

[4]YD/T4044-2022基于人工智能的知識(shí)圖譜構(gòu)建技術(shù)要求

[5]GB/T42131-2022人工智能知識(shí)圖譜技術(shù)框架

[6]ISO/IEC19510:2013關(guān)于語(yǔ)義網(wǎng)規(guī)范中的RDF語(yǔ)言的國(guó)際標(biāo)準(zhǔn)(Informationtechnology--

OpenDistributedProcessing--UnifiedModelingLanguage(UML)profileforRDFandOWL)

[7]ISO/IEC19763-10:2023關(guān)于概念建模的元模型規(guī)范(Informationtechnology--Metamodel

frameworkforinteroperability(MFI))

[8]ISO/IEC20000-1:2018Informationtechnology--Servicemanagement--Part1:Service

managementsystemrequirements信息技術(shù)服務(wù)管理的標(biāo)準(zhǔn),適用于知識(shí)圖譜服務(wù)的管理和交付

9

中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)團(tuán)體標(biāo)準(zhǔn)

《構(gòu)建文獻(xiàn)資源知識(shí)圖譜技術(shù)要求》

(征求意見(jiàn)稿)編制說(shuō)明

一、標(biāo)準(zhǔn)編制的背景

隨著信息技術(shù)的快速發(fā)展和互聯(lián)網(wǎng)的普及應(yīng)用,知識(shí)圖譜作為一種結(jié)構(gòu)化知

識(shí)表示和組織方法,在各個(gè)領(lǐng)域的知識(shí)管理和智能應(yīng)用中發(fā)揮著越來(lái)越重要的作

用。知識(shí)圖譜是實(shí)現(xiàn)文獻(xiàn)資源智能應(yīng)用的重要基礎(chǔ),同時(shí)利用大語(yǔ)言模型在語(yǔ)義

理解、內(nèi)容生成等方面的技術(shù)優(yōu)勢(shì),實(shí)現(xiàn)大語(yǔ)言模型對(duì)知識(shí)圖譜構(gòu)建至知識(shí)圖譜

應(yīng)用各環(huán)節(jié)的增強(qiáng),提升圖譜構(gòu)建效率和圖譜質(zhì)量。在實(shí)際應(yīng)用中,為了保證知

識(shí)圖譜的質(zhì)量和可用性,需要制定一套文獻(xiàn)資源知識(shí)圖譜構(gòu)建的標(biāo)準(zhǔn)流程。

知識(shí)圖譜的構(gòu)建是一個(gè)逐步迭代的過(guò)程,需要不斷地添加新的領(lǐng)域知識(shí)和實(shí)

體關(guān)系;同時(shí)知識(shí)圖譜的構(gòu)建也是一個(gè)持續(xù)的過(guò)程,需要不斷地更新和維護(hù),因

此需要一個(gè)統(tǒng)一的標(biāo)準(zhǔn),以保證知識(shí)圖譜構(gòu)建過(guò)程的一致性,從而提高知識(shí)圖譜

的質(zhì)量和可用性。而目前行業(yè)尚未有明確知識(shí)圖譜構(gòu)建過(guò)程標(biāo)準(zhǔn),因此本文件是

文獻(xiàn)資源知識(shí)圖譜構(gòu)建過(guò)程的重要指導(dǎo),也將為各行業(yè)知識(shí)圖譜的構(gòu)建過(guò)程提供

重要參考。

二、任務(wù)來(lái)源

根據(jù)中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)下達(dá)的2023年下半年第一批團(tuán)體標(biāo)準(zhǔn)制修訂計(jì)劃,

中南出版?zhèn)髅郊瘓F(tuán)作為主要牽頭單位籌建了標(biāo)準(zhǔn)起草組,承擔(dān)《構(gòu)建文獻(xiàn)資源知

識(shí)圖譜技術(shù)要求》標(biāo)準(zhǔn)的研制任務(wù)。該標(biāo)準(zhǔn)的立項(xiàng)計(jì)劃號(hào)為T(mén)/CCUALX012-2023,

技術(shù)歸口單位為中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)。

三、編制過(guò)程

2023年08月標(biāo)準(zhǔn)起草組開(kāi)始起草《構(gòu)建文獻(xiàn)資源知識(shí)圖譜技術(shù)要求》團(tuán)

體標(biāo)準(zhǔn)立項(xiàng)申報(bào)書(shū),經(jīng)過(guò)內(nèi)部多次討論,完成立項(xiàng)申報(bào)書(shū)。

2023年11月標(biāo)準(zhǔn)起草組參加了計(jì)算機(jī)用戶協(xié)會(huì)標(biāo)委會(huì)組織的《構(gòu)建文獻(xiàn)資

源知識(shí)圖譜技術(shù)要求》團(tuán)體標(biāo)準(zhǔn)立項(xiàng)申報(bào)項(xiàng)目的立項(xiàng)論證會(huì)議。聽(tīng)取了與會(huì)專

家的意見(jiàn)與建議,修改完善立項(xiàng)申報(bào)書(shū)。

2023年12月立項(xiàng)申報(bào)通過(guò),標(biāo)準(zhǔn)起草組開(kāi)始正式起早《構(gòu)建文獻(xiàn)資源知識(shí)

圖譜技術(shù)要求》團(tuán)體標(biāo)準(zhǔn),2024年03月,標(biāo)準(zhǔn)起草組完成了標(biāo)準(zhǔn)草案的初稿。

2024年04月開(kāi)始在起草組評(píng)審委員會(huì)內(nèi)進(jìn)行評(píng)審。共經(jīng)歷了1次組內(nèi)評(píng)審,

期間收到了9條意見(jiàn)。起草組根據(jù)評(píng)審意見(jiàn)討論修改后,形成內(nèi)部征求意見(jiàn)稿,

4月18日送交中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)標(biāo)準(zhǔn)化工作委員會(huì)審核。

2024年05月根據(jù)預(yù)審專家評(píng)審意見(jiàn)對(duì)《構(gòu)建文獻(xiàn)資源知識(shí)圖譜技術(shù)要求》

團(tuán)體標(biāo)準(zhǔn)征求意見(jiàn)稿進(jìn)行了修改,5月29日再次送交中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)標(biāo)準(zhǔn)

化工作委員會(huì)審核。

2024年06月根據(jù)計(jì)算機(jī)用戶協(xié)會(huì)標(biāo)委會(huì)反饋意見(jiàn)對(duì)《構(gòu)建文獻(xiàn)資源知識(shí)圖

譜技術(shù)要求》團(tuán)體標(biāo)準(zhǔn)征求意見(jiàn)稿進(jìn)行了修改,6月18日送交中國(guó)計(jì)算機(jī)用戶

協(xié)會(huì)標(biāo)準(zhǔn)化工作委員會(huì)審核。

四、編制原則

標(biāo)準(zhǔn)的用語(yǔ)、格式按照GB/T1.1-2020給出的規(guī)則起草。

標(biāo)準(zhǔn)內(nèi)容的編制堅(jiān)持以下原則:

1、科學(xué)性原則

2、規(guī)范性原則

3、實(shí)用性原則

4、前瞻性原則

5、持續(xù)改進(jìn)原則

6、符合知識(shí)圖譜行業(yè)發(fā)展需求

7、符合實(shí)際應(yīng)用需求

五、標(biāo)準(zhǔn)主要內(nèi)容

本標(biāo)準(zhǔn)規(guī)定了文獻(xiàn)資源領(lǐng)域的知識(shí)圖譜構(gòu)建要求。

本標(biāo)準(zhǔn)適用于對(duì)文獻(xiàn)資源知識(shí)圖譜構(gòu)建過(guò)程的全流程管理。

六、有關(guān)技術(shù)的說(shuō)明

有關(guān)本標(biāo)準(zhǔn)起草過(guò)程中的一些技術(shù)問(wèn)題說(shuō)明如下:

1、數(shù)據(jù)接入與清洗

數(shù)據(jù)接入與清洗是在選擇明確的文本數(shù)據(jù)源基礎(chǔ)上,通過(guò)數(shù)據(jù)清洗和其他預(yù)

處理方法,消除數(shù)據(jù)中的噪聲和異常值,進(jìn)一步提高數(shù)據(jù)的質(zhì)量和一致性。

2、數(shù)據(jù)整合和處理

數(shù)據(jù)整合與管理包括數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)歸一化和數(shù)據(jù)集成等。首先將不同

來(lái)源的數(shù)據(jù)統(tǒng)一為構(gòu)建知識(shí)圖譜所需的格式。其次,數(shù)據(jù)歸一化確保數(shù)據(jù)中的實(shí)

體和屬性具有統(tǒng)一的表示,消除歧義。最后,數(shù)據(jù)集成將處理后的數(shù)據(jù)融合為一

個(gè)整體,為后續(xù)的知識(shí)圖譜構(gòu)建和分析提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。

3、知識(shí)模型構(gòu)建

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論