《構(gòu)建文獻資源知識圖譜 技術(shù)要求》編制說明_第1頁
《構(gòu)建文獻資源知識圖譜 技術(shù)要求》編制說明_第2頁
《構(gòu)建文獻資源知識圖譜 技術(shù)要求》編制說明_第3頁
《構(gòu)建文獻資源知識圖譜 技術(shù)要求》編制說明_第4頁
《構(gòu)建文獻資源知識圖譜 技術(shù)要求》編制說明_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

中國計算機用戶協(xié)會團體標準

《構(gòu)建文獻資源知識圖譜技術(shù)要求》

(征求意見稿)編制說明

一、標準編制的背景

隨著信息技術(shù)的快速發(fā)展和互聯(lián)網(wǎng)的普及應用,知識圖譜作為一種結(jié)構(gòu)化知

識表示和組織方法,在各個領(lǐng)域的知識管理和智能應用中發(fā)揮著越來越重要的作

用。知識圖譜是實現(xiàn)文獻資源智能應用的重要基礎(chǔ),同時利用大語言模型在語義

理解、內(nèi)容生成等方面的技術(shù)優(yōu)勢,實現(xiàn)大語言模型對知識圖譜構(gòu)建至知識圖譜

應用各環(huán)節(jié)的增強,提升圖譜構(gòu)建效率和圖譜質(zhì)量。在實際應用中,為了保證知

識圖譜的質(zhì)量和可用性,需要制定一套文獻資源知識圖譜構(gòu)建的標準流程。

知識圖譜的構(gòu)建是一個逐步迭代的過程,需要不斷地添加新的領(lǐng)域知識和實

體關(guān)系;同時知識圖譜的構(gòu)建也是一個持續(xù)的過程,需要不斷地更新和維護,因

此需要一個統(tǒng)一的標準,以保證知識圖譜構(gòu)建過程的一致性,從而提高知識圖譜

的質(zhì)量和可用性。而目前行業(yè)尚未有明確知識圖譜構(gòu)建過程標準,因此本文件是

文獻資源知識圖譜構(gòu)建過程的重要指導,也將為各行業(yè)知識圖譜的構(gòu)建過程提供

重要參考。

二、任務來源

根據(jù)中國計算機用戶協(xié)會下達的2023年下半年第一批團體標準制修訂計劃,

中南出版?zhèn)髅郊瘓F作為主要牽頭單位籌建了標準起草組,承擔《構(gòu)建文獻資源知

識圖譜技術(shù)要求》標準的研制任務。該標準的立項計劃號為T/CCUALX012-2023,

技術(shù)歸口單位為中國計算機用戶協(xié)會。

三、編制過程

2023年08月標準起草組開始起草《構(gòu)建文獻資源知識圖譜技術(shù)要求》團

體標準立項申報書,經(jīng)過內(nèi)部多次討論,完成立項申報書。

2023年11月標準起草組參加了計算機用戶協(xié)會標委會組織的《構(gòu)建文獻資

源知識圖譜技術(shù)要求》團體標準立項申報項目的立項論證會議。聽取了與會專

家的意見與建議,修改完善立項申報書。

2023年12月立項申報通過,標準起草組開始正式起早《構(gòu)建文獻資源知識

圖譜技術(shù)要求》團體標準,2024年03月,標準起草組完成了標準草案的初稿。

2024年04月開始在起草組評審委員會內(nèi)進行評審。共經(jīng)歷了1次組內(nèi)評審,

期間收到了9條意見。起草組根據(jù)評審意見討論修改后,形成內(nèi)部征求意見稿,

4月18日送交中國計算機用戶協(xié)會標準化工作委員會審核。

2024年05月根據(jù)預審專家評審意見對《構(gòu)建文獻資源知識圖譜技術(shù)要求》

團體標準征求意見稿進行了修改,5月29日再次送交中國計算機用戶協(xié)會標準

化工作委員會審核。

2024年06月根據(jù)計算機用戶協(xié)會標委會反饋意見對《構(gòu)建文獻資源知識圖

譜技術(shù)要求》團體標準征求意見稿進行了修改,6月18日送交中國計算機用戶

協(xié)會標準化工作委員會審核。

四、編制原則

標準的用語、格式按照GB/T1.1-2020給出的規(guī)則起草。

標準內(nèi)容的編制堅持以下原則:

1、科學性原則

2、規(guī)范性原則

3、實用性原則

4、前瞻性原則

5、持續(xù)改進原則

6、符合知識圖譜行業(yè)發(fā)展需求

7、符合實際應用需求

五、標準主要內(nèi)容

本標準規(guī)定了文獻資源領(lǐng)域的知識圖譜構(gòu)建要求。

本標準適用于對文獻資源知識圖譜構(gòu)建過程的全流程管理。

六、有關(guān)技術(shù)的說明

有關(guān)本標準起草過程中的一些技術(shù)問題說明如下:

1、數(shù)據(jù)接入與清洗

數(shù)據(jù)接入與清洗是在選擇明確的文本數(shù)據(jù)源基礎(chǔ)上,通過數(shù)據(jù)清洗和其他預

處理方法,消除數(shù)據(jù)中的噪聲和異常值,進一步提高數(shù)據(jù)的質(zhì)量和一致性。

2、數(shù)據(jù)整合和處理

數(shù)據(jù)整合與管理包括數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)歸一化和數(shù)據(jù)集成等。首先將不同

來源的數(shù)據(jù)統(tǒng)一為構(gòu)建知識圖譜所需的格式。其次,數(shù)據(jù)歸一化確保數(shù)據(jù)中的實

體和屬性具有統(tǒng)一的表示,消除歧義。最后,數(shù)據(jù)集成將處理后的數(shù)據(jù)融合為一

個整體,為后續(xù)的知識圖譜構(gòu)建和分析提供堅實的數(shù)據(jù)基礎(chǔ)。

3、知識模型構(gòu)建

知識模型構(gòu)建可建立知識圖譜的概念模型,即采用什么樣的方式來表達知識,

構(gòu)建一個概念模型對知識進行描述。知識模型構(gòu)建的過程是知識圖譜構(gòu)建的基礎(chǔ),

高質(zhì)量的知識模型能避免許多不必要、重復性的知識獲取工作,有效提高知識圖

譜構(gòu)建的效率。

4、知識抽取

知識抽取依賴于文獻資源中的信息,借助自然語言處理等技術(shù)進行實體識別

和關(guān)系抽取。實體抽取旨在從文本中識別并提取出具有實際意義的實體,如人名、

地名等。關(guān)系抽取則關(guān)注于揭示實體之間的關(guān)系,如親屬關(guān)系、職業(yè)關(guān)系等,以

此豐富和完善圖譜內(nèi)容。

5、知識融合

知識的產(chǎn)生是一個不斷更新、不斷完善、動態(tài)產(chǎn)生的過程,知識的抽取后需

要將抽取的知識與已有知識進行融合。知識融合是通過對相關(guān)知識對齊、關(guān)聯(lián)、

合并使其成為一個有機的整體,是一種提供更全面知識共享的重要方法。

6、知識計算推理

知識計算推理是在已有的知識庫基礎(chǔ)上進一步挖掘隱含的知識,從而豐富、

擴展知識庫。

7、知識可視化

知識可視化是將知識轉(zhuǎn)化為一種人類的視覺形式,直觀、形象地表現(xiàn)、解釋、

分析、模擬、發(fā)現(xiàn)或揭示隱藏在知識內(nèi)部的特征和規(guī)律。知識可視化包括知識可

視化表示、知識可視化布局、知識可視化分析等功能。通過知識可視化,根據(jù)業(yè)

務需求設(shè)計合適的數(shù)據(jù)展示布局和交互形式,用戶可直觀的對數(shù)據(jù)進行全局感知,

也能夠了解數(shù)據(jù)結(jié)構(gòu)背后的數(shù)據(jù)關(guān)系,對結(jié)果進行追根溯源的分析。

8、質(zhì)量評估和維護

知識圖譜質(zhì)量評估與維護是確保知識準確性和時效性的關(guān)鍵環(huán)節(jié)。可全面檢

查數(shù)據(jù)的準確性、一致性、完整性和時效性,確保圖譜信息真實可靠。定期更新

數(shù)據(jù),實施嚴格的版本控制,持續(xù)優(yōu)化圖譜質(zhì)量。

9、知識抽取模型訓練

知識抽取模型的訓練包括數(shù)據(jù)收集、預處理、訓練、評估和優(yōu)化等步驟。首

先選用合適的通用大語言模型,通過增量預訓練注入領(lǐng)域知識,再訓練其抽取實

體和關(guān)系的能力,形成文獻資源大語言模型。使用驗證集和測試集評估模型性能,

并根據(jù)評估結(jié)果調(diào)整模型參數(shù)或訓練策略,以提高模型質(zhì)量。

10、大語言模型賦能知識圖譜

利用大模型在語義理解、內(nèi)容生成等方面的技術(shù)優(yōu)勢,實現(xiàn)大模型對知識圖

譜構(gòu)建至應用全生命周期各環(huán)節(jié)的增強,提升效率和質(zhì)量。

參考的主要標準:

(標準號、標準名稱逐個羅列)

GB/T5271.14-2008信息技術(shù).詞匯.第14部分:可靠性、可維護性與可用性

GB/T35273-2020信息安全技術(shù)—個人信息安全規(guī)范

T/HNIT2-2021領(lǐng)域知識圖譜構(gòu)建技術(shù)規(guī)程

YD/T4044-2022基于人工智能的知識圖譜構(gòu)建技術(shù)要求

GB/T42131-2022人工智能知識圖譜技術(shù)框架

ISO/IEC19510:2013Informationtechnology--OpenDistributedProcessing

--UnifiedModelingLanguage(UML)profileforRDFandOWL

ISO/IEC20000-1:2018Informationtechnology--Servicemanagement--Part

1:Servicemanagementsystemrequirements

ISO/IEC19763-10:2023Informationtechnology--Metamodelframeworkfor

interoperability(MFI)

七、關(guān)于標準的性質(zhì)

鑒于本標準作為團體標準發(fā)布,屬于推薦性標準。由本團體成員約定采用或

者按照本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論