版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
ICS35.240.30
CCSL70
CCUA
中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)團(tuán)體標(biāo)準(zhǔn)
T/CCUAXXXX—2024
構(gòu)建文獻(xiàn)資源知識(shí)圖譜技術(shù)要求
Constructingknowledgegraphofliteratureresources-Technicalrequirement
(征求意見(jiàn)稿)
(本草案完成時(shí)間:2024年6月18日)
在提交反饋意見(jiàn)時(shí),請(qǐng)將您知道的相關(guān)專利連同支持性文件一并附上。
XXXX-XX-XX發(fā)布XXXX-XX-XX實(shí)施
中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)發(fā)布
T/CCUAXXXX—2024
目次
前言.................................................................................II
引言................................................................................III
1范圍...............................................................................1
2規(guī)范性引用文件.....................................................................1
3術(shù)語(yǔ)和定義.........................................................................1
4縮略語(yǔ).............................................................................2
5架構(gòu)與流程.........................................................................2
5.1構(gòu)建文獻(xiàn)資源知識(shí)圖譜技術(shù)架構(gòu)...................................................2
5.2文獻(xiàn)資源知識(shí)圖譜構(gòu)建流程.......................................................3
5.2.1構(gòu)建流程...................................................................3
5.2.2數(shù)據(jù)接入與清洗.............................................................4
5.2.3數(shù)據(jù)整合和處理.............................................................4
5.2.4知識(shí)模型構(gòu)建...............................................................4
5.2.5知識(shí)抽取...................................................................4
5.2.6知識(shí)融合...................................................................5
5.2.7知識(shí)存儲(chǔ)...................................................................5
5.2.8知識(shí)可視化.................................................................5
6技術(shù)要求...........................................................................5
6.1數(shù)據(jù)接入與清洗.................................................................5
6.2數(shù)據(jù)整合和處理.................................................................5
6.3知識(shí)模型構(gòu)建...................................................................5
6.4知識(shí)抽取.......................................................................6
6.5知識(shí)融合.......................................................................6
6.6知識(shí)計(jì)算推理...................................................................6
6.7知識(shí)可視化.....................................................................7
6.8質(zhì)量評(píng)估和維護(hù).................................................................7
6.9知識(shí)抽取模型訓(xùn)練...............................................................7
6.10大語(yǔ)言模型賦能知識(shí)圖譜........................................................8
參考文獻(xiàn)..............................................................................9
I
T/CCUAXXXX—2024
構(gòu)建文獻(xiàn)資源知識(shí)圖譜技術(shù)要求
1范圍
本文件確定了文獻(xiàn)資源知識(shí)圖譜架構(gòu)建流程,規(guī)定了相關(guān)技術(shù)要求。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T42131-2022人工智能知識(shí)圖譜技術(shù)框架
3術(shù)語(yǔ)和定義
下列術(shù)語(yǔ)和定義適用于本文件。
3.1
大語(yǔ)言模型largelanguagemodel
經(jīng)過(guò)預(yù)訓(xùn)練和微調(diào)的大規(guī)模人工智能模型,可以理解指令并基于大量數(shù)據(jù)生成人類語(yǔ)言。
[來(lái)源:WDTAAI-STR-02《大語(yǔ)言模型安全測(cè)試方法》]
3.2
文獻(xiàn)資源知識(shí)圖譜knowledgegraphofliteratureresources
以一種結(jié)構(gòu)化的形式描述特定文獻(xiàn)資源領(lǐng)域中概念、實(shí)體及其關(guān)系的方式。
注:文獻(xiàn)資源知識(shí)圖譜將文獻(xiàn)資源的海量信息表達(dá)成更接近人類認(rèn)知世界的形式,提供了一種更好地組織、管理和
理解文獻(xiàn)資源海量信息的能力。
3.3
本體ontology
本體模型ontology
表示實(shí)體類型以及實(shí)體類型之間關(guān)系、實(shí)體類型屬性類型及其之間關(guān)聯(lián)的一種模型。
[來(lái)源:GB/T42131-2022,3.8]
3.4
實(shí)體entity
獨(dú)立存在的對(duì)象。
[來(lái)源:GB/T42131-2022,3.2]
3.5
關(guān)系relation
實(shí)體、實(shí)體類型、實(shí)體組合或?qū)嶓w類型組合間的聯(lián)系。
注:關(guān)系用于描述實(shí)體類型和實(shí)體類型、實(shí)體類型和實(shí)體、實(shí)體和實(shí)體之間的關(guān)聯(lián)方式。
[來(lái)源:GB/T42131-2022,3.11]
3.6
實(shí)體識(shí)別entityidentification
從文本數(shù)據(jù)中獲取人名、地名等實(shí)體數(shù)據(jù)。
[來(lái)源:《計(jì)算機(jī)科學(xué)技術(shù)名詞(第三版)》]
3.7
實(shí)體鏈接entitylinking
指將文本中的表述鏈接到知識(shí)庫(kù)中相應(yīng)的實(shí)體來(lái)幫助人類和計(jì)算機(jī)理解文本具體含義。
[來(lái)源:《基于深度學(xué)習(xí)的實(shí)體鏈接研究綜述》]
3.8
關(guān)系抽取relationextraction
1
T/CCUAXXXX—2024
識(shí)別文本中提到的實(shí)體之間關(guān)系的任務(wù)。
[來(lái)源:GB/T41867-2022,3.3.4]
4縮略語(yǔ)
RESTful:一種基于REST(RepresentationalStateTransfer,表述性狀態(tài)轉(zhuǎn)移)架構(gòu)風(fēng)格的Web
服務(wù)設(shè)計(jì)方法。
API:應(yīng)用程序編程接口(ApplicationProgrammingInterface)
SQL:結(jié)構(gòu)化查詢語(yǔ)言(StructuredQueryLanguage)
CSV:逗號(hào)分隔值,有時(shí)也稱為字符分隔值,因?yàn)榉指糇址部梢圆皇嵌禾?hào)(Comma-SeparatedValues)
JSON:是一種輕量級(jí)的數(shù)據(jù)交換格式(JavaScriptObjectNotation,JS對(duì)象簡(jiǎn)譜)
XML:可擴(kuò)展標(biāo)記語(yǔ)言(ExtensibleMarkupLanguage,XML)
RDF:資源描述框架(ResourceDescriptionFramework)
5架構(gòu)與流程
5.1構(gòu)建文獻(xiàn)資源知識(shí)圖譜技術(shù)架構(gòu)
構(gòu)建文獻(xiàn)資源知識(shí)圖譜技術(shù)構(gòu)架見(jiàn)圖1。
圖1構(gòu)建文獻(xiàn)資源知識(shí)圖譜技術(shù)架構(gòu)
圖1中:
2
T/CCUAXXXX—2024
a)存儲(chǔ)層
提供分布式存儲(chǔ)管理,為文獻(xiàn)資源數(shù)據(jù)存儲(chǔ)提供高可用的存儲(chǔ)支撐,主要包括關(guān)系型數(shù)據(jù)庫(kù)、
圖數(shù)據(jù)庫(kù)等。
b)數(shù)據(jù)層
數(shù)據(jù)層支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的接入與清洗。
c)知識(shí)構(gòu)建層
知識(shí)構(gòu)建層基于統(tǒng)一的數(shù)據(jù)接入,通過(guò)可視化知識(shí)模型構(gòu)建的方式,提供配置化的模式實(shí)現(xiàn)
知識(shí)本體構(gòu)建、關(guān)系構(gòu)建、屬性構(gòu)建。
d)知識(shí)抽取層
知識(shí)抽取層實(shí)現(xiàn)從海量異構(gòu)文獻(xiàn)資源數(shù)據(jù)中抽取知識(shí),基于統(tǒng)一的可視化抽取任務(wù)管理頁(yè)面,
提供結(jié)構(gòu)化數(shù)據(jù)抽取、半結(jié)構(gòu)化數(shù)據(jù)抽取、非結(jié)構(gòu)化數(shù)據(jù)抽取,支持實(shí)體、關(guān)系、屬性等知
識(shí)抽取。
e)知識(shí)融合層
知識(shí)融合層提供知識(shí)本體融合、知識(shí)更新、實(shí)體鏈接等功能,為文獻(xiàn)知識(shí)融合提供工具支撐。
f)知識(shí)計(jì)算層
知識(shí)計(jì)算層集成通用的圖挖掘分析算法庫(kù),為各類圖分析應(yīng)用提供基礎(chǔ)算法支撐。同時(shí)提供
知識(shí)推理分析、關(guān)聯(lián)分析、統(tǒng)計(jì)分析等知識(shí)計(jì)算功能。
g)知識(shí)可視化層
知識(shí)展示層基于統(tǒng)一的2D/3D知識(shí)可視化展示框架,提供知識(shí)圖譜可視化表示、知識(shí)可視化
布局以及知識(shí)圖譜可視化分析等功能。
h)知識(shí)應(yīng)用層
知識(shí)應(yīng)用層提供統(tǒng)一的RESTFul接口,提供基于文獻(xiàn)知識(shí)的知識(shí)檢索、知識(shí)問(wèn)答、知識(shí)推薦
等知識(shí)服務(wù)。
5.2文獻(xiàn)資源知識(shí)圖譜構(gòu)建流程
5.2.1構(gòu)建流程
文獻(xiàn)資源知識(shí)圖譜構(gòu)建流程見(jiàn)圖2。
3
T/CCUAXXXX—2024
圖2文獻(xiàn)資源知識(shí)圖譜構(gòu)建流程
5.2.2數(shù)據(jù)接入與清洗
數(shù)據(jù)接入與清洗旨在明確數(shù)據(jù)源的選擇,確定合適的數(shù)據(jù)接入方式,以確保數(shù)據(jù)的完整性和準(zhǔn)確性。
隨后,通過(guò)數(shù)據(jù)清洗和預(yù)處理,進(jìn)一步提高數(shù)據(jù)的質(zhì)量和一致性。
5.2.3數(shù)據(jù)整合和處理
數(shù)據(jù)整合與處理通過(guò)數(shù)據(jù)格式轉(zhuǎn)換,將不同來(lái)源的數(shù)據(jù)統(tǒng)一格式,而后通過(guò)數(shù)據(jù)歸一化確保數(shù)據(jù)中
的實(shí)體和屬性具有統(tǒng)一的表示,消除歧義。最后,數(shù)據(jù)集成將處理后的數(shù)據(jù)融合為一個(gè)整體。
5.2.4知識(shí)模型構(gòu)建
知識(shí)模型構(gòu)建是指建立知識(shí)圖譜的概念模型,即采用什么樣的方式來(lái)表達(dá)知識(shí),構(gòu)建一個(gè)概念模型
對(duì)知識(shí)進(jìn)行描述。在模型中需要構(gòu)建本體、屬性以及本體之間的關(guān)系。
5.2.5知識(shí)抽取
4
T/CCUAXXXX—2024
在知識(shí)圖譜構(gòu)建過(guò)程中,知識(shí)抽取發(fā)揮著核心作用。它主要依賴于文獻(xiàn)資源中的信息,借助自然語(yǔ)
言處理技術(shù)進(jìn)行實(shí)體識(shí)別和關(guān)系抽取。
5.2.6知識(shí)融合
知識(shí)的產(chǎn)生是一個(gè)不斷更新、不斷完善、動(dòng)態(tài)產(chǎn)生的過(guò)程,知識(shí)的抽取后需要將抽取的知識(shí)與已有
知識(shí)進(jìn)行融合。
5.2.7知識(shí)存儲(chǔ)
選擇圖數(shù)據(jù)庫(kù)的存儲(chǔ)方式,已處理好的知識(shí)構(gòu)建知識(shí)庫(kù)。
5.2.8知識(shí)可視化
知識(shí)可視化是將知識(shí)轉(zhuǎn)化為一種人類的視覺(jué)形式,知識(shí)可視化包括知識(shí)可視化表示、知識(shí)可視化布
局、知識(shí)可視化分析等功能。通過(guò)知識(shí)可視化,用戶可直觀的對(duì)數(shù)據(jù)進(jìn)行全局感知說(shuō)。
6技術(shù)要求
6.1數(shù)據(jù)接入與清洗
數(shù)據(jù)接入與清洗是在選擇明確的文本數(shù)據(jù)源基礎(chǔ)上,通過(guò)數(shù)據(jù)清洗和其他預(yù)處理方法,消除數(shù)據(jù)中
的噪聲和異常值,進(jìn)一步提高數(shù)據(jù)的質(zhì)量和一致性。
a)應(yīng)優(yōu)先選擇權(quán)威性強(qiáng)、質(zhì)量高的數(shù)據(jù)源,如知名出版社、學(xué)術(shù)機(jī)構(gòu)等,以提高知識(shí)圖譜的可
信度;
b)為考慮數(shù)據(jù)的時(shí)效性,應(yīng)優(yōu)先選擇提供實(shí)時(shí)或定期更新的數(shù)據(jù)源。
c)應(yīng)確保數(shù)據(jù)源提供的API或數(shù)據(jù)導(dǎo)出格式與知識(shí)圖譜構(gòu)建系統(tǒng)兼容。
d)應(yīng)確保數(shù)據(jù)傳輸過(guò)程中遵循相關(guān)的安全標(biāo)準(zhǔn)和協(xié)議。
e)應(yīng)確保選擇的數(shù)據(jù)源符合法律法規(guī)和隱私政策要求,避免侵犯知識(shí)產(chǎn)權(quán)和個(gè)人隱私。
f)應(yīng)支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)接入。
g)應(yīng)對(duì)文獻(xiàn)資源進(jìn)行文本清洗,去除無(wú)關(guān)信息。
h)可實(shí)現(xiàn)數(shù)據(jù)源的自動(dòng)接入和整合。
i)應(yīng)支持?jǐn)?shù)據(jù)表、SQL語(yǔ)句、文件等接入方式。
j)對(duì)于大型數(shù)據(jù)集,應(yīng)提供批量導(dǎo)入功能,支持多種數(shù)據(jù)格式(如CSV、JSON、XML等)的導(dǎo)入。
k)可對(duì)文本進(jìn)行標(biāo)準(zhǔn)化處理,如統(tǒng)一大小寫(xiě)、去除標(biāo)點(diǎn)符號(hào)等。
l)可利用高效的去重算法和技術(shù),去除數(shù)據(jù)中的重復(fù)項(xiàng),確保知識(shí)的唯一性和準(zhǔn)確性。
6.2數(shù)據(jù)整合和處理
數(shù)據(jù)整合與管理包括數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)歸一化和數(shù)據(jù)集成等。首先將不同來(lái)源的數(shù)據(jù)統(tǒng)一為構(gòu)建
知識(shí)圖譜所需的格式。其次,數(shù)據(jù)歸一化確保數(shù)據(jù)中的實(shí)體和屬性具有統(tǒng)一的表示,消除歧義。最后,
數(shù)據(jù)集成將處理后的數(shù)據(jù)融合為一個(gè)整體,為后續(xù)的知識(shí)圖譜構(gòu)建和分析提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。
a)應(yīng)處理涉及信息安全保護(hù)的數(shù)據(jù)。
b)應(yīng)將所有數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的、標(biāo)準(zhǔn)化的格式,如JSON、XML或RDF,以便于后續(xù)的整
合和分析。
c)應(yīng)將來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行融合,消除數(shù)據(jù)之間的矛盾和沖突,形成一致的知識(shí)表示。
d)應(yīng)檢查數(shù)據(jù)的完整性和全面性,確保關(guān)鍵信息沒(méi)有遺漏。
e)應(yīng)利用領(lǐng)域知識(shí)和規(guī)則,驗(yàn)證數(shù)據(jù)的準(zhǔn)確性,確保知識(shí)的可靠性。
f)可將各種非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)(如PDF、Word文檔、網(wǎng)頁(yè)等),解析為結(jié)構(gòu)化數(shù)據(jù)。
g)可利用實(shí)體鏈接和實(shí)體消歧技術(shù),將不同數(shù)據(jù)源中的同名實(shí)體對(duì)齊到知識(shí)圖譜中的同一實(shí)體
上,確保實(shí)體的唯一性和一致性。
h)可對(duì)實(shí)體的屬性進(jìn)行歸一化處理,如將日期、數(shù)字、單位等轉(zhuǎn)換為統(tǒng)一的格式和標(biāo)準(zhǔn),以便
于后續(xù)的查詢和分析。
6.3知識(shí)模型構(gòu)建
5
T/CCUAXXXX—2024
知識(shí)模型構(gòu)建可建立知識(shí)圖譜的概念模型,即采用什么樣的方式來(lái)表達(dá)知識(shí),構(gòu)建一個(gè)概念模型對(duì)
知識(shí)進(jìn)行描述。知識(shí)模型構(gòu)建的過(guò)程是知識(shí)圖譜構(gòu)建的基礎(chǔ),高質(zhì)量的知識(shí)模型能避免許多不必要、重
復(fù)性的知識(shí)獲取工作,有效提高知識(shí)圖譜構(gòu)建的效率。
a)應(yīng)支持以可視化、拖拽等方式構(gòu)建知識(shí)模型。
b)應(yīng)清晰、明確地定義知識(shí)圖譜中的實(shí)體和關(guān)系,確保每個(gè)概念和實(shí)體都有唯一的定義和解釋。
c)應(yīng)保持實(shí)體和關(guān)系定義的連貫性和一致性,避免歧義和重復(fù)。
d)應(yīng)設(shè)計(jì)實(shí)體和關(guān)系時(shí)考慮未來(lái)可能的擴(kuò)展,確保知識(shí)圖譜可以隨著知識(shí)的發(fā)展而不斷擴(kuò)展。
e)應(yīng)為每個(gè)實(shí)體和關(guān)系定義清晰的屬性,包括屬性名稱、數(shù)據(jù)類型、取值范圍等,確保知識(shí)的
精確表示。
f)應(yīng)明確實(shí)體之間的關(guān)系類型和層次,包括父子關(guān)系、兄弟關(guān)系、屬性關(guān)系等,形成豐富的關(guān)
系網(wǎng)絡(luò)。
g)應(yīng)支持增量更新、全量更新兩種方式的圖譜構(gòu)建。
h)可導(dǎo)出已構(gòu)建完成的知識(shí)模型。
i)可從外部導(dǎo)入知識(shí)模型。
6.4知識(shí)抽取
知識(shí)抽取依賴于文獻(xiàn)資源中的信息,借助自然語(yǔ)言處理等技術(shù)進(jìn)行實(shí)體識(shí)別和關(guān)系抽取。實(shí)體抽取
旨在從文本中識(shí)別并提取出具有實(shí)際意義的實(shí)體,如人名、地名等。關(guān)系抽取則關(guān)注于揭示實(shí)體之間的
關(guān)系,如親屬關(guān)系、職業(yè)關(guān)系等,以此豐富和完善圖譜內(nèi)容。知識(shí)抽取包含以下要求:
a)應(yīng)抽取文獻(xiàn)資源中的所有相關(guān)關(guān)系,確保知識(shí)圖譜的完整性。
b)應(yīng)支持字典、規(guī)則、模板、模型等多種抽取策略。
c)應(yīng)支持通過(guò)界面自定義字典、規(guī)則、模板等配置。
d)應(yīng)支持單屬性多模型的抽取模型組合策略能力。
e)抽取策略應(yīng)易于適應(yīng)新的文獻(xiàn)資源或領(lǐng)域,支持知識(shí)的持續(xù)更新和擴(kuò)展。
f)可支持自動(dòng)化抽取,減少人工干預(yù),提高知識(shí)圖譜構(gòu)建效率。
g)可針對(duì)文獻(xiàn)資源領(lǐng)域的特殊性,對(duì)模型進(jìn)行領(lǐng)域適應(yīng)性訓(xùn)練,以提高實(shí)體識(shí)別的準(zhǔn)確性。
h)應(yīng)準(zhǔn)確識(shí)別文獻(xiàn)資源中的實(shí)體,包括人名、地名、組織機(jī)構(gòu)名、專業(yè)術(shù)語(yǔ)等,確保識(shí)別的實(shí)
體與知識(shí)圖譜中的實(shí)體相匹配。
i)應(yīng)支持查看知識(shí)抽取結(jié)果(包括當(dāng)前及歷史)
j)應(yīng)支持對(duì)抽取結(jié)果進(jìn)行修改審核。
k)應(yīng)支持查看知識(shí)抽取結(jié)果報(bào)表(包括當(dāng)前及歷史)及數(shù)據(jù)詳情。
6.5知識(shí)融合
知識(shí)的產(chǎn)生是一個(gè)不斷更新、不斷完善、動(dòng)態(tài)產(chǎn)生的過(guò)程,知識(shí)的抽取后需要將抽取的知識(shí)與已有
知識(shí)進(jìn)行融合。知識(shí)融合是通過(guò)對(duì)相關(guān)知識(shí)對(duì)齊、關(guān)聯(lián)、合并使其成為一個(gè)有機(jī)的整體,是一種提供更
全面知識(shí)共享的重要方法。知識(shí)融合包含以下要求:
a)應(yīng)支持從知識(shí)實(shí)體、本體、屬性、關(guān)系4個(gè)層次進(jìn)行融合。
b)可支持同義詞轉(zhuǎn)換、數(shù)據(jù)預(yù)處理(轉(zhuǎn)換、格式化,比如:大小寫(xiě)轉(zhuǎn)換、日期格式化)、數(shù)據(jù)
校驗(yàn)(過(guò)濾、正則等規(guī)則,比如:身份證,郵箱,手機(jī)校驗(yàn)等)等多種融合預(yù)處理策略。
c)可支持關(guān)鍵詞、多屬性相似度等多種實(shí)體沖突檢測(cè)策略。
d)可支持實(shí)體鏈接替換、保留、合并等多種沖突處理機(jī)制。
e)可實(shí)現(xiàn)文獻(xiàn)資源中識(shí)別出的實(shí)體與知識(shí)圖譜中實(shí)體的唯一性映射,確保每個(gè)實(shí)體在知識(shí)圖譜
中都有唯一的標(biāo)識(shí)。
f)可利用上下文信息和實(shí)體鏈接技術(shù),正確解析實(shí)體所指,避免歧義。
6.6知識(shí)計(jì)算推理
知識(shí)計(jì)算推理是在已有的知識(shí)庫(kù)基礎(chǔ)上進(jìn)一步挖掘隱含的知識(shí),從而豐富、擴(kuò)展知識(shí)庫(kù)。知識(shí)計(jì)算
推理包含以下要求:
a)應(yīng)確保推理的結(jié)果準(zhǔn)確無(wú)誤,確保生成的知識(shí)符合事實(shí)和定義。
6
T/CCUAXXXX—2024
b)應(yīng)確保推理過(guò)程保持邏輯一致性,避免產(chǎn)生矛盾的知識(shí)。
c)應(yīng)支持常用算法推演查詢,包括中心性算法、社區(qū)檢測(cè)算法、路徑尋找算法、相似度算法、
圖嵌入算法。
d)應(yīng)快速處理大量的數(shù)據(jù),保證推理過(guò)程的高效性。
e)宜支持添加、修改和刪除推理規(guī)則。
f)可利用定義明確的推理規(guī)則,從文獻(xiàn)資源中抽取的信息中推導(dǎo)出新的關(guān)系。
g)可利用圖模型進(jìn)行推理,通過(guò)圖結(jié)構(gòu)中的模式發(fā)現(xiàn)新的關(guān)系。
h)對(duì)于推理過(guò)程中可能存在的不確定性,應(yīng)使用概率模型或置信度評(píng)估來(lái)處理。
i)應(yīng)防止因過(guò)度推理導(dǎo)致知識(shí)圖譜中出現(xiàn)錯(cuò)誤或不準(zhǔn)確的信息。
j)可支持自動(dòng)化的推理過(guò)程,減少人工干預(yù)。
6.7知識(shí)可視化
知識(shí)可視化是將知識(shí)轉(zhuǎn)化為一種人類的視覺(jué)形式,直觀、形象地表現(xiàn)、解釋、分析、模擬、發(fā)現(xiàn)或
揭示隱藏在知識(shí)內(nèi)部的特征和規(guī)律。知識(shí)可視化包括知識(shí)可視化表示、知識(shí)可視化布局、知識(shí)可視化分
析等功能。通過(guò)知識(shí)可視化,根據(jù)業(yè)務(wù)需求設(shè)計(jì)合適的數(shù)據(jù)展示布局和交互形式,用戶可直觀的對(duì)數(shù)據(jù)
進(jìn)行全局感知,也能夠了解數(shù)據(jù)結(jié)構(gòu)背后的數(shù)據(jù)關(guān)系,對(duì)結(jié)果進(jìn)行追根溯源的分析。包含以下要求:
a)應(yīng)使用標(biāo)準(zhǔn)化圖元(如圓形、方形、箭頭等)來(lái)表示不同的元素,以減少認(rèn)知負(fù)擔(dān)。
b)應(yīng)合理使用顏色來(lái)區(qū)分不同實(shí)體、關(guān)系和屬性,同時(shí)確保顏色的對(duì)比度和可訪問(wèn)性。
c)宜采用合理的布局減少認(rèn)知復(fù)雜度,例如使用力引導(dǎo)布局來(lái)優(yōu)化節(jié)點(diǎn)之間的關(guān)系。
d)要提供放大、縮小、移動(dòng)、搜索、過(guò)濾等交互功能。
e)應(yīng)在有限的視覺(jué)空間內(nèi)展示盡可能多的相關(guān)信息,同時(shí)避免過(guò)載。
f)應(yīng)確??梢暬谐尸F(xiàn)的數(shù)據(jù)與知識(shí)圖譜中的數(shù)據(jù)精確對(duì)應(yīng),不丟失信息。
g)可提供有效的導(dǎo)航機(jī)制,使用戶能夠輕松地在圖中定位和跳轉(zhuǎn)。
h)可允許高級(jí)用戶根據(jù)需要定制可視化的某些方面,如顏色方案、圖元樣式等。
i)應(yīng)支持處理大規(guī)模的知識(shí)圖譜數(shù)據(jù),保持良好的性能和可擴(kuò)展性。
j)應(yīng)確保可視化系統(tǒng)中處理的數(shù)據(jù)符合隱私和數(shù)據(jù)保護(hù)法規(guī)。
6.8質(zhì)量評(píng)估和維護(hù)
知識(shí)圖譜質(zhì)量評(píng)估與維護(hù)是確保知識(shí)準(zhǔn)確性和時(shí)效性的關(guān)鍵環(huán)節(jié)??扇鏅z查數(shù)據(jù)的準(zhǔn)確性、一致
性、完整性和時(shí)效性,確保圖譜信息真實(shí)可靠。定期更新數(shù)據(jù),實(shí)施嚴(yán)格的版本控制,持續(xù)優(yōu)化圖譜質(zhì)
量。質(zhì)量評(píng)估和維護(hù)包含以下要求:
a)應(yīng)檢查關(guān)鍵實(shí)體和關(guān)系的完備性,確保沒(méi)有遺漏重要內(nèi)容。
b)應(yīng)確保圖譜中的實(shí)體、關(guān)系、屬性等定義統(tǒng)一,無(wú)歧義。
c)宜定期檢查圖譜中的信息是否過(guò)時(shí),及時(shí)更新和維護(hù)。
d)可設(shè)立定期的數(shù)據(jù)更新機(jī)制,確保圖譜內(nèi)容的實(shí)時(shí)性和準(zhǔn)確性。
e)可提供歷史版本查詢功能,便于追蹤和恢復(fù)。
f)應(yīng)制定嚴(yán)格的數(shù)據(jù)訪問(wèn)和修改權(quán)限控制,確保圖譜的安全性。
g)可整合新的文獻(xiàn)資源,對(duì)圖譜進(jìn)行增量更新。
h)可對(duì)圖譜執(zhí)行版本控制管理,記錄圖譜的變更和更新。
6.9知識(shí)抽取模型訓(xùn)練
知識(shí)抽取模型的訓(xùn)練包括數(shù)據(jù)收集、預(yù)處理、訓(xùn)練、評(píng)估和優(yōu)化等步驟。首先選用合適的通用大語(yǔ)
言模型,通過(guò)增量預(yù)訓(xùn)練注入領(lǐng)域知識(shí),再訓(xùn)練其抽取實(shí)體和關(guān)系的能力,形成文獻(xiàn)資源大語(yǔ)言模型。
使用驗(yàn)證集和測(cè)試集評(píng)估模型性能,并根據(jù)評(píng)估結(jié)果調(diào)整模型參數(shù)或訓(xùn)練策略,以提高模型質(zhì)量。
a)應(yīng)針對(duì)具有代表性、多樣性和高質(zhì)量的數(shù)據(jù)進(jìn)行抽取,涵蓋豐富的話題和語(yǔ)言風(fēng)格。
b)宜具備較強(qiáng)的并行計(jì)算能力,以支持大規(guī)模數(shù)據(jù)的訓(xùn)練。
c)宜具備較好的過(guò)擬合控制能力,以保證模型在未知數(shù)據(jù)上的泛化能力。
d)可支持模型剪枝和量化,以降低模型復(fù)雜度和計(jì)算資源消耗。
e)可支持多語(yǔ)言訓(xùn)練,以滿足不同國(guó)家和地區(qū)用戶的需求。
7
T/CCUAXXXX—2024
f)宜具備較好的可解釋性,以便用戶了解模型的工作原理和決策依據(jù)。
g)應(yīng)確保模型無(wú)偏見(jiàn)、符合道德標(biāo)準(zhǔn),并遵守相關(guān)法律法規(guī)。
6.10大語(yǔ)言模型賦能知識(shí)圖譜
利用大模型在語(yǔ)義理解、內(nèi)容生成等方面的技術(shù)優(yōu)勢(shì),實(shí)現(xiàn)大模型對(duì)知識(shí)圖譜構(gòu)建至應(yīng)用全生命周
期各環(huán)節(jié)的增強(qiáng),提升效率和質(zhì)量。
a)可支持知識(shí)圖譜大模型針對(duì)知識(shí)圖譜提供檢索增強(qiáng)生成等能力。
b)可具備知識(shí)圖譜的自動(dòng)構(gòu)建能力,從非結(jié)構(gòu)化數(shù)據(jù)中抽取實(shí)體、關(guān)系和屬性等信息。
c)可支持知識(shí)圖譜的動(dòng)態(tài)更新,以實(shí)時(shí)反映現(xiàn)實(shí)世界的變化。
d)可支持知識(shí)模型的構(gòu)建,以得到更準(zhǔn)確和全面的知識(shí)模型。
e)可具備知識(shí)圖譜的查詢和分析能力,為用戶提供高效的知識(shí)檢索服務(wù)。
f)可支持知識(shí)圖譜的分布式存儲(chǔ)和計(jì)算,以滿足大規(guī)模知識(shí)圖譜的需求。
g)可支持知識(shí)圖譜的語(yǔ)義理解能力,為用戶提供智能問(wèn)答、推薦等服務(wù)。
h)可支持知識(shí)圖譜多模態(tài)知識(shí)對(duì)齊,以實(shí)現(xiàn)不同模態(tài)知識(shí)的對(duì)齊和整合。
i)應(yīng)遵循相關(guān)法律法規(guī)和倫理標(biāo)準(zhǔn),確保知識(shí)圖譜的合法合規(guī)性。
8
T/CCUAXXXX—2024
參考文獻(xiàn)
[1]GB/T5271.14-2008信息技術(shù)詞匯第14部分:可靠性、可維護(hù)性與可用性
[2]GB/T35273-2020信息安全技術(shù)個(gè)人信息安全規(guī)范
[3]T/HNIT2-2021領(lǐng)域知識(shí)圖譜構(gòu)建技術(shù)規(guī)程
[4]YD/T4044-2022基于人工智能的知識(shí)圖譜構(gòu)建技術(shù)要求
[5]GB/T42131-2022人工智能知識(shí)圖譜技術(shù)框架
[6]ISO/IEC19510:2013關(guān)于語(yǔ)義網(wǎng)規(guī)范中的RDF語(yǔ)言的國(guó)際標(biāo)準(zhǔn)(Informationtechnology--
OpenDistributedProcessing--UnifiedModelingLanguage(UML)profileforRDFandOWL)
[7]ISO/IEC19763-10:2023關(guān)于概念建模的元模型規(guī)范(Informationtechnology--Metamodel
frameworkforinteroperability(MFI))
[8]ISO/IEC20000-1:2018Informationtechnology--Servicemanagement--Part1:Service
managementsystemrequirements信息技術(shù)服務(wù)管理的標(biāo)準(zhǔn),適用于知識(shí)圖譜服務(wù)的管理和交付
9
中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)團(tuán)體標(biāo)準(zhǔn)
《構(gòu)建文獻(xiàn)資源知識(shí)圖譜技術(shù)要求》
(征求意見(jiàn)稿)編制說(shuō)明
一、標(biāo)準(zhǔn)編制的背景
隨著信息技術(shù)的快速發(fā)展和互聯(lián)網(wǎng)的普及應(yīng)用,知識(shí)圖譜作為一種結(jié)構(gòu)化知
識(shí)表示和組織方法,在各個(gè)領(lǐng)域的知識(shí)管理和智能應(yīng)用中發(fā)揮著越來(lái)越重要的作
用。知識(shí)圖譜是實(shí)現(xiàn)文獻(xiàn)資源智能應(yīng)用的重要基礎(chǔ),同時(shí)利用大語(yǔ)言模型在語(yǔ)義
理解、內(nèi)容生成等方面的技術(shù)優(yōu)勢(shì),實(shí)現(xiàn)大語(yǔ)言模型對(duì)知識(shí)圖譜構(gòu)建至知識(shí)圖譜
應(yīng)用各環(huán)節(jié)的增強(qiáng),提升圖譜構(gòu)建效率和圖譜質(zhì)量。在實(shí)際應(yīng)用中,為了保證知
識(shí)圖譜的質(zhì)量和可用性,需要制定一套文獻(xiàn)資源知識(shí)圖譜構(gòu)建的標(biāo)準(zhǔn)流程。
知識(shí)圖譜的構(gòu)建是一個(gè)逐步迭代的過(guò)程,需要不斷地添加新的領(lǐng)域知識(shí)和實(shí)
體關(guān)系;同時(shí)知識(shí)圖譜的構(gòu)建也是一個(gè)持續(xù)的過(guò)程,需要不斷地更新和維護(hù),因
此需要一個(gè)統(tǒng)一的標(biāo)準(zhǔn),以保證知識(shí)圖譜構(gòu)建過(guò)程的一致性,從而提高知識(shí)圖譜
的質(zhì)量和可用性。而目前行業(yè)尚未有明確知識(shí)圖譜構(gòu)建過(guò)程標(biāo)準(zhǔn),因此本文件是
文獻(xiàn)資源知識(shí)圖譜構(gòu)建過(guò)程的重要指導(dǎo),也將為各行業(yè)知識(shí)圖譜的構(gòu)建過(guò)程提供
重要參考。
二、任務(wù)來(lái)源
根據(jù)中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)下達(dá)的2023年下半年第一批團(tuán)體標(biāo)準(zhǔn)制修訂計(jì)劃,
中南出版?zhèn)髅郊瘓F(tuán)作為主要牽頭單位籌建了標(biāo)準(zhǔn)起草組,承擔(dān)《構(gòu)建文獻(xiàn)資源知
識(shí)圖譜技術(shù)要求》標(biāo)準(zhǔn)的研制任務(wù)。該標(biāo)準(zhǔn)的立項(xiàng)計(jì)劃號(hào)為T(mén)/CCUALX012-2023,
技術(shù)歸口單位為中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)。
三、編制過(guò)程
2023年08月標(biāo)準(zhǔn)起草組開(kāi)始起草《構(gòu)建文獻(xiàn)資源知識(shí)圖譜技術(shù)要求》團(tuán)
體標(biāo)準(zhǔn)立項(xiàng)申報(bào)書(shū),經(jīng)過(guò)內(nèi)部多次討論,完成立項(xiàng)申報(bào)書(shū)。
2023年11月標(biāo)準(zhǔn)起草組參加了計(jì)算機(jī)用戶協(xié)會(huì)標(biāo)委會(huì)組織的《構(gòu)建文獻(xiàn)資
源知識(shí)圖譜技術(shù)要求》團(tuán)體標(biāo)準(zhǔn)立項(xiàng)申報(bào)項(xiàng)目的立項(xiàng)論證會(huì)議。聽(tīng)取了與會(huì)專
家的意見(jiàn)與建議,修改完善立項(xiàng)申報(bào)書(shū)。
2023年12月立項(xiàng)申報(bào)通過(guò),標(biāo)準(zhǔn)起草組開(kāi)始正式起早《構(gòu)建文獻(xiàn)資源知識(shí)
圖譜技術(shù)要求》團(tuán)體標(biāo)準(zhǔn),2024年03月,標(biāo)準(zhǔn)起草組完成了標(biāo)準(zhǔn)草案的初稿。
2024年04月開(kāi)始在起草組評(píng)審委員會(huì)內(nèi)進(jìn)行評(píng)審。共經(jīng)歷了1次組內(nèi)評(píng)審,
期間收到了9條意見(jiàn)。起草組根據(jù)評(píng)審意見(jiàn)討論修改后,形成內(nèi)部征求意見(jiàn)稿,
4月18日送交中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)標(biāo)準(zhǔn)化工作委員會(huì)審核。
2024年05月根據(jù)預(yù)審專家評(píng)審意見(jiàn)對(duì)《構(gòu)建文獻(xiàn)資源知識(shí)圖譜技術(shù)要求》
團(tuán)體標(biāo)準(zhǔn)征求意見(jiàn)稿進(jìn)行了修改,5月29日再次送交中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)標(biāo)準(zhǔn)
化工作委員會(huì)審核。
2024年06月根據(jù)計(jì)算機(jī)用戶協(xié)會(huì)標(biāo)委會(huì)反饋意見(jiàn)對(duì)《構(gòu)建文獻(xiàn)資源知識(shí)圖
譜技術(shù)要求》團(tuán)體標(biāo)準(zhǔn)征求意見(jiàn)稿進(jìn)行了修改,6月18日送交中國(guó)計(jì)算機(jī)用戶
協(xié)會(huì)標(biāo)準(zhǔn)化工作委員會(huì)審核。
四、編制原則
標(biāo)準(zhǔn)的用語(yǔ)、格式按照GB/T1.1-2020給出的規(guī)則起草。
標(biāo)準(zhǔn)內(nèi)容的編制堅(jiān)持以下原則:
1、科學(xué)性原則
2、規(guī)范性原則
3、實(shí)用性原則
4、前瞻性原則
5、持續(xù)改進(jìn)原則
6、符合知識(shí)圖譜行業(yè)發(fā)展需求
7、符合實(shí)際應(yīng)用需求
五、標(biāo)準(zhǔn)主要內(nèi)容
本標(biāo)準(zhǔn)規(guī)定了文獻(xiàn)資源領(lǐng)域的知識(shí)圖譜構(gòu)建要求。
本標(biāo)準(zhǔn)適用于對(duì)文獻(xiàn)資源知識(shí)圖譜構(gòu)建過(guò)程的全流程管理。
六、有關(guān)技術(shù)的說(shuō)明
有關(guān)本標(biāo)準(zhǔn)起草過(guò)程中的一些技術(shù)問(wèn)題說(shuō)明如下:
1、數(shù)據(jù)接入與清洗
數(shù)據(jù)接入與清洗是在選擇明確的文本數(shù)據(jù)源基礎(chǔ)上,通過(guò)數(shù)據(jù)清洗和其他預(yù)
處理方法,消除數(shù)據(jù)中的噪聲和異常值,進(jìn)一步提高數(shù)據(jù)的質(zhì)量和一致性。
2、數(shù)據(jù)整合和處理
數(shù)據(jù)整合與管理包括數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)歸一化和數(shù)據(jù)集成等。首先將不同
來(lái)源的數(shù)據(jù)統(tǒng)一為構(gòu)建知識(shí)圖譜所需的格式。其次,數(shù)據(jù)歸一化確保數(shù)據(jù)中的實(shí)
體和屬性具有統(tǒng)一的表示,消除歧義。最后,數(shù)據(jù)集成將處理后的數(shù)據(jù)融合為一
個(gè)整體,為后續(xù)的知識(shí)圖譜構(gòu)建和分析提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。
3、知識(shí)模型構(gòu)建
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 雙擁協(xié)議書(shū)模板
- 局對(duì)口幫扶協(xié)議書(shū)
- 工人道路合同范本
- 對(duì)外培訓(xùn)協(xié)議合同
- 家具補(bǔ)充合同范本
- 廣告展位合同范本
- 店鋪成交合同范本
- 廢塑膠回收協(xié)議書(shū)
- 建筑路面合同范本
- 服裝廉政合同范本
- 產(chǎn)業(yè)園招商培訓(xùn)
- 2026年齊齊哈爾高等師范??茖W(xué)校單招綜合素質(zhì)考試題庫(kù)必考題
- 2018版公路工程質(zhì)量檢驗(yàn)評(píng)定標(biāo)準(zhǔn)分項(xiàng)工程質(zhì)量檢驗(yàn)評(píng)定表路基土石方工程
- 導(dǎo)尿管相關(guān)尿路感染(CAUTI)防控最佳護(hù)理實(shí)踐專家共識(shí)解讀
- 2025年廣東深圳高中中考自主招生數(shù)學(xué)試卷試題(含答案詳解)
- SMETA員工公平職業(yè)發(fā)展管理程序-SEDEX驗(yàn)廠專用文件(可編輯)
- 2024年湖南高速鐵路職業(yè)技術(shù)學(xué)院公開(kāi)招聘輔導(dǎo)員筆試題含答案
- 水泵購(gòu)買合同(標(biāo)準(zhǔn)版)
- ICU獲得性衰弱課件
- 數(shù)字智慧方案5912丨智慧軍營(yíng)建設(shè)方案
- 下巴整形課件
評(píng)論
0/150
提交評(píng)論