TCI196-2023醫(yī)療知識圖譜構建技術要求_第1頁
TCI196-2023醫(yī)療知識圖譜構建技術要求_第2頁
TCI196-2023醫(yī)療知識圖譜構建技術要求_第3頁
TCI196-2023醫(yī)療知識圖譜構建技術要求_第4頁
TCI196-2023醫(yī)療知識圖譜構建技術要求_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS35.080

CCSC07

團體標準

T/CI196—2023

醫(yī)療知識圖譜構建技術要求

Technicalrequirementsformedicalknowledgegraphconstruction

學兔兔標準下載

2023-11-27發(fā)布2023-12-01實施

中國國際科技促進會發(fā)布

T/CI196—2023

醫(yī)療知識圖譜構建技術要求

1范圍

本文件規(guī)定了醫(yī)療知識圖譜的整體架構、構建流程、系統(tǒng)要求。

本文件適用于科研院所、科技企業(yè)、醫(yī)療衛(wèi)生機構、第三方機構等,對醫(yī)療知識圖譜的設計、開發(fā)、

測試等。

2規(guī)范性引用文件

下列文件中的內容通過文中的規(guī)范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T5271.17信息技術詞匯第17部分:數(shù)據(jù)庫

GB/T22239信息安全技術網(wǎng)絡安全等級保護基本要求

GB/T35273信息安全技術個人信息安全規(guī)范

GB/T39725信息安全技術健康醫(yī)療數(shù)據(jù)安全指南

3術語和定義

GB/T5271.17界定的以及下列術語和定義適用于本文件。

知識圖譜knowledgegraph

一種以結構化的形式描述客觀世界中概念、實體及其關系的方式。它將互聯(lián)網(wǎng)的海量信息表達成更

接近人類認知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力。

[來源:YD/T4044—2022,3.1]

醫(yī)療知識圖譜medicalknowledgegraph

在人工構建的專業(yè)知識基礎上,通過算法不斷擴充實體及關系構建的,包括疾病、癥狀、藥品、手

術等醫(yī)學概念和多種醫(yī)學關系的知識圖譜。

4縮略語

下列縮略語適用于本文件。

學兔兔API:應用程序編程接口(ApplicationProgrammingInterface)標準下載

NLP:自然語言處理(NaturalLanguageProcessing)

5整體架構

概述

1

T/CI196—2023

醫(yī)療知識圖譜整體架構如圖1所示。

知識管理層圖數(shù)據(jù)存儲全文檢索引擎屬性數(shù)據(jù)存儲元數(shù)據(jù)配置管理

知識抽取與加工層知識抽取本體設計實例獲取知識融合

數(shù)據(jù)源層外部數(shù)據(jù)內部數(shù)據(jù)

基礎支撐層大數(shù)據(jù)平臺數(shù)據(jù)倉庫NLP

圖1醫(yī)療知識圖譜整體架構圖

基礎支撐層

基礎支撐層為醫(yī)療知識圖譜構建提供基礎技術支撐,主要包括大數(shù)據(jù)平臺、數(shù)據(jù)倉庫、NLP。

數(shù)據(jù)源層

數(shù)據(jù)源層為醫(yī)療知識圖譜構建提供數(shù)據(jù)的最初來源??煞譃獒t(yī)療機構內部數(shù)據(jù)源與外部數(shù)據(jù)源,其

中的數(shù)據(jù)形態(tài)包括結構化數(shù)據(jù)、半結構化數(shù)據(jù)及非結構化數(shù)據(jù)。

知識抽取與加工層

知識抽取與加工層將數(shù)據(jù)源層的各類型數(shù)據(jù)通過知識抽取、本體設計、實例獲取、知識融合,加工

形成滿足要求的數(shù)據(jù)。

知識管理層

知識管理層將知識抽取與加工層形成的數(shù)據(jù)作為輸入,通過圖數(shù)據(jù)存儲、全文檢索引擎、屬性數(shù)據(jù)

存儲和元數(shù)據(jù)配置管理等模塊化處理,實現(xiàn)知識圖譜展現(xiàn)結果的有效管理和高效訪問。

6構建流程

概述

醫(yī)療知識圖譜的構建流程如圖2所示。

學兔兔標準下載

開始知識抽取加工知識評估知識存儲結束

圖2醫(yī)療知識圖譜構建流程圖

知識抽取加工

2

T/CI196—2023

6.2.1知識抽取

抽取步驟

.1選擇結構化程度相對較高、質量較優(yōu)的數(shù)據(jù)源,根據(jù)數(shù)據(jù)來源選擇差異化的數(shù)據(jù)抽取及加

工方式。

.2知識抽取包括數(shù)據(jù)甄別、數(shù)據(jù)清洗、數(shù)據(jù)轉換和數(shù)據(jù)融合4個步驟:

a)數(shù)據(jù)甄別:明確知識圖譜的數(shù)據(jù)來源,數(shù)據(jù)來源主要為生物銀行數(shù)據(jù)庫、醫(yī)學指南;

b)數(shù)據(jù)清洗:對數(shù)據(jù)中的干擾項進行審查、檢驗和加工處理,糾正錯誤,對表示不規(guī)范的數(shù)據(jù)進

行統(tǒng)一與規(guī)范;

c)數(shù)據(jù)轉換:將不同形式、不同格式的數(shù)據(jù)轉換成統(tǒng)一的表達形式;

d)數(shù)據(jù)融合:針對不同來源的數(shù)據(jù)在字段、元組等層次的融合,不涉及實體、屬性、關系的融合。

標準接口對接

.1標準接口主要用于對接已完成抽取加工的各種數(shù)據(jù),包括實體數(shù)據(jù)和關系數(shù)據(jù)。通過實體

接口和關系接口的調用,將數(shù)據(jù)以實時或非實時的方式接入對應版本的存儲層。接口形式主要包括數(shù)據(jù)

文件和API。

.2接口格式采用JavaScript對象簡譜(JSON)、可擴展標記語言(XML)、另一種標記語言

(YAML)。

注1:JSON是一種輕量級的數(shù)據(jù)交換格式。

注2:XML是一種簡單的數(shù)據(jù)存儲語言。

注3:YAML是一個可讀性高,用來表達數(shù)據(jù)序列化的格式。

6.2.2知識加工

知識加工以知識抽取階段形成的高質量基礎數(shù)據(jù)作為輸入,輸出高質量的知識圖譜構建所依賴的

實體、關系數(shù)據(jù)并形成醫(yī)療知識庫。知識加工主要包括以下步驟:

a)本體設計:

1)概念層定義:明確醫(yī)療知識圖譜構建需要的實體類型與關系類型;

2)屬性定義:明確醫(yī)療知識圖譜構建的各類實體需要的屬性名稱;

3)約束/規(guī)則定義:明確需要約定的限定條件與規(guī)則;

4)模式精簡:對同樣范圍的實體、關系,宜選擇精簡的關聯(lián)與表達方式;

b)實體獲取:

1)實體識別:在完成知識抽取后的數(shù)據(jù)中識別a)已經(jīng)明確的實體類型對應數(shù)據(jù);

2)關系識別:在完成知識抽取后的數(shù)據(jù)中識別a)已經(jīng)明確的關系類型對應數(shù)據(jù);

3)實體鏈指:將完成文本解析后的事件關聯(lián)方鏈接至對應實體;

4)文本解析:利用NLP技術對文本進行分析,實現(xiàn)事件關聯(lián)方的提取、實體/關系屬性的槽

填充。

注:槽填充即從大規(guī)模的語料庫中抽取給定實體的被明確定義的屬性值的技術。

學兔兔c)知識融合:標準下載

1)共指消解:將具有相同標識的兩個實體合并為同一實體;

2)屬性融合:將同一標識實體下,相同名稱的屬性所對應的屬性值進行融合;

3)規(guī)范化一:將不同實體屬性值與不同關系屬性值的表達方式進行統(tǒng)一;

4)跨語言實體對齊:將不同語言的實體通過預訓練翻譯模型和字符串相似匹配算法進行對

齊。

3

T/CI196—2023

知識評估

知識評估階段首先利用遠程監(jiān)督學習篩選出可信度較低的知識,再交由人工核查,確認無誤后更新

到知識圖譜中。

知識存儲

6.4.1屬性知識存儲

屬性數(shù)據(jù)存儲內容宜包含實體屬性和關系屬性。

屬性數(shù)據(jù)存儲方式宜根據(jù)數(shù)據(jù)規(guī)模決定采用分布式存儲或單機存儲,主要包括單個和批量屬

性數(shù)據(jù)的增加、更新、刪除操作。

屬性數(shù)據(jù)存儲宜主要考慮下列因素:

a)高可用,主要包括:

1)雙機熱備;

2)雙機互備;

3)雙機雙工;

b)高并發(fā):可提供每秒查詢率大于10萬的讀寫請求;

c)高性能:數(shù)據(jù)實時寫入和實時讀取性能高,請求延遲小于100ms;

d)可擴展:可按需增加集群的計算能力。

6.4.2圖數(shù)據(jù)存儲

圖數(shù)據(jù)存儲內容宜包括實體數(shù)據(jù)和關系數(shù)據(jù),分別以實體表和關系表的形式體現(xiàn)。

圖數(shù)據(jù)存儲方式宜根據(jù)數(shù)據(jù)規(guī)模決定采用分布式存儲或單機存儲。

圖數(shù)據(jù)存儲宜考慮的因素主要包括:

a)數(shù)據(jù)庫維度與表維度均采用邏輯劃分和物理存儲隔離;

b)各數(shù)據(jù)分片有多份副本,保證安全、可容災、高可用等性能要求;

c)通過提高服務器硬件配置或服務器數(shù)量提升集群數(shù)據(jù)處理能力。

6.4.3全文檢索引擎

全文檢索引擎的主要功能包括:

a)實時全文檢索;

b)實時條件過濾查詢;

c)實時復合條件查詢;

d)實時聚合查詢。

檢索引擎宜根據(jù)數(shù)據(jù)規(guī)模決定采用分布式部署或單機部署。

6.4.4知識可視化

知識可視化提供圖形化的操作界面,主要功能包括:

學兔兔a)屬性展示:查看實體和關系的屬性詳細信息;標準下載

b)實體及關系過濾:篩選出關注的實體及關系,隱藏其他實體和關系;

c)前端效果配置:可對實體和關系展示的前端效果進行顏色、形狀、尺寸的配置;

d)自適用頁面的展示:可支持放大、拖拽、調整結構等操作;

e)爆炸節(jié)點的聚合:可防止因展示實體及關系過多而引起的前端崩潰、卡頓等問題。

6.4.5動態(tài)構圖

4

T/CI196—2023

動態(tài)構圖功能主要包括:

a)新增實體或關系類型;

b)新增實體或關系的屬性信息。

新增實體或關系信息宜根據(jù)后續(xù)應用的時效性決定采用實時或批量方式存儲,實現(xiàn)圖譜動態(tài)

更新。

6.4.6權限管理

權限管理功能主要包括:

a)實現(xiàn)不同應用分區(qū)的構建,各分區(qū)中實體、關系和屬性數(shù)據(jù)獨立管理;

b)支持多用戶管理,支持實體、關系和屬性數(shù)據(jù)增加、刪除、改動、查詢的授權和權限回收等。

7系統(tǒng)要求

功能要求

7.1.1構建的醫(yī)療知識圖譜系統(tǒng)基本功能要求如下:

a)應支持對知識的管理功能,包括知識抽取、知識加工、知識評估、知識存儲等;

b)應保證模型可用性,無論輸入什么樣的樣本數(shù)據(jù),模型都能返回一個結果,供系統(tǒng)進行決策處

理;

c)應支持對算法的管理,采用多種方式提高算法魯棒性,增強安全性;

注:魯棒性指在異常和危險情況下系統(tǒng)生存的能力。

d)宜支持機器學習主流算法;

e)宜支持機器學習模型訓練優(yōu)化,包括支持模型組合和調參,支持加快模型訓練和實驗調優(yōu);

f)宜支持產品化流程,提升模型訓練迭代效率,提高模型性能和泛化能力;

g)宜支持對機器學習服務模塊的管理,保證數(shù)據(jù)傳輸過程安全、開發(fā)框架安全,支持權限管理和

服務接口規(guī)范制定等。

7.1.2知識采集功能要求如下:

a)對于內部數(shù)據(jù),應對數(shù)據(jù)進行脫敏轉換后進行使用;

b)對于外部數(shù)據(jù),應通過接口采集或數(shù)據(jù)文件傳送采集數(shù)據(jù);

c)應將采集到的數(shù)據(jù)導入到數(shù)據(jù)庫或存儲中,用于后續(xù)分析。

7.1.3知識建模功能要求如下:

a)應支持通過圖譜的模式建模能力將醫(yī)療數(shù)據(jù)抽象成圖譜的源實體、關系、屬性、約束、目標實

體:

b)應支持針對模式的增加、刪除、改動、查詢等操作;

c)應支持自動化建模;

d)應支持針對文本、向量、空間等索引查詢召回能力的索引配置能力;

e)宜支持引用其他領域已有的關系、實體定義等;

學兔兔f)宜支持自上而下和自下而上的途徑進行知識構建;標準下載

g)宜支持流、批一體的構建鏈路,支持醫(yī)療知識變更后秒級通過圖譜構建鏈路更新到圖譜中;

h)宜支持多人在線協(xié)同編輯,且實時更新。

7.1.4知識獲取功能要求如下:

a)應支持通過NLP規(guī)則結合模型等方式從半結構化、非結構化的電子文檔等中獲取結構化實體,

更新或連接到圖譜中;

b)應支持通過圖譜的模式建模能力將知識抽象成圖譜的實體、關系、屬性、約束等;

5

T/CI196—2023

c)應支持使用NLP規(guī)則結合模型,結合觸發(fā)詞等策略獲取事件分類、事件主體、事件客體等;

d)應支持從不同信息源中采集特定實體的屬性信息;

e)宜支持通過有限配置構建事件獲取服務,并將獲取結果寫入圖譜。

7.1.5知識融合功能要求如下:

a)在同構環(huán)境下,應支持每個實體在全局有唯一實例,如通過實體相似度等能力實現(xiàn)開發(fā)少量代

碼即可快速發(fā)現(xiàn)、消除重復冗余實體;

b)應支持包括異構多源實體、不同圖譜下同質異構實體的融合,如通過提供可解釋、可回溯的規(guī)

則管理能力;

c)應支持為不同領域同實體共享、差異化迭代提供的實體繼承能力,宜支持選擇深度、淺度繼承

公共實體,新增或覆蓋已有屬性;

d)宜支持多源知識子圖的融合,如通過提供子圖約簡、圖嵌入、子圖相似度等能力,實現(xiàn)高效地

融合知識圖譜間的結構信息與語義信息;

e)宜支持關系分層繼承能力,方便概念管理;

f)宜支持多語言的知識融合;

g)宜支持新增知識的實時融合。

7.1.6知識評估功能應支持智能評估與人工審核結合,針對知識正確性等進行評估。

7.1.7知識存儲功能要求如下:

a)應滿足基礎的圖數(shù)據(jù)存儲需求,設計具備可伸縮性和靈活性的知識存儲結構,可滿足多種圖數(shù)

據(jù)模型的存儲;應具備可擴展性,可實現(xiàn)基于數(shù)據(jù)增長的彈性擴展;

b)應具備查詢、讀取、計算和應用需求的支持,可實現(xiàn)和不同存儲、計算組件的交互,可滿足上

層應用對于存儲組件進行增加、刪除、改動、查詢的功能和性能需求;

c)應具備對于安全性、可靠性、維護和管理的支持,可實現(xiàn)基于角色的訪問控制、加密、多用戶、

高可用性、備份和還原的功能。

性能要求

7.2.1可擴展性

對醫(yī)療知識圖譜系統(tǒng)的可擴展性要求如下:

a)應具備可擴展性,根據(jù)需求隨時進行擴展和收縮;

b)宜支持自動伸縮機制的可信通道管理方案,簡單高效管理可信計算通道;

c)應支持橫向擴展,用戶可通過API直接接入。

7.2.2可靠性

對醫(yī)療知識圖譜系統(tǒng)的可靠性要求如下:

a)應確保數(shù)據(jù)按約定好的行為進行使用,避免數(shù)據(jù)濫用;

b)宜支持通過多機房主從協(xié)調機制,解決可信執(zhí)行環(huán)境集群跨機房災備的問題,提升系統(tǒng)容災能

力;

學兔兔c)應具備出現(xiàn)故障后系統(tǒng)進行自動容災恢復的能力,包括數(shù)據(jù)備份和恢復等。標準下載

7.2.3兼容性

對醫(yī)療知識圖譜系統(tǒng)的兼容性要求如下:

a)應兼容主流圖查詢語言及圖分析工具;

b)應能在業(yè)界主流硬件上正常運行;

c)宜支持多數(shù)據(jù)源的批量數(shù)據(jù)導入與更新;

6

T/CI196—2023

d)宜兼容主流商業(yè)及開源社區(qū)版操作系統(tǒng)。

7.2.4易用性

對醫(yī)療知識圖譜系統(tǒng)的易用性要求如下:

a)可提供API及算法封裝,如中介中心性,寬度優(yōu)先搜索,最短路徑等;

b)宜提供應用運行時動態(tài)修改配置的服務,并提供圖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論