版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
ICS35.240.80CCSC07團體標準T/CI1125—2025基于區(qū)塊鏈技術的醫(yī)療健康知識圖譜構(gòu)建指南Guidefortheconstructionofmedicalandhealthknowledgegraphbasedonblockchaintechnology2025?08?01發(fā)布2025?08?01實施中國國際科技促進會中國標準出版社發(fā)布出版ⅠT/CI1125—2025前言 Ⅲ引言 Ⅳ1范圍 12規(guī)范性引用文件 13術語和定義 14縮略語 25總則 26數(shù)據(jù)采集與準備 37數(shù)據(jù)清洗與預處理 58知識抽取 69知識融合 810知識存儲與表示 911知識驗證與更新 10附錄A(資料性)區(qū)塊鏈功能性要求 13參考文獻 16ⅢT/CI1125—2025本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔識別專利的責任。本文件由中國科學院自動化研究所提出。本文件由中國國際科技促進會歸口。本文件起草單位:中國科學院自動化研究所、東軟集團股份有限公司、北京大學、中國醫(yī)科大學附屬第一醫(yī)院、中山大學、廣州大學。ⅣT/CI1125—2025引言本文件系統(tǒng)性地闡述了在區(qū)塊鏈技術支撐下,構(gòu)建醫(yī)療健康知識圖譜的全周期方法論、關鍵階段活動,以及相應的技術實現(xiàn)要求與最佳實踐。其流程覆蓋從嚴謹?shù)臄?shù)據(jù)源評估與可信接入、多元異構(gòu)數(shù)據(jù)的規(guī)范化采集與深度預處理、基于先進技術的知識抽取與語義化、復雜的知識融合與沖突消解策略、面向應用優(yōu)化的知識存儲與多維表示,直至貫穿始終的知識驗證、質(zhì)量保障,以及基于區(qū)塊鏈信任機制的圖譜版本控制、發(fā)布與持續(xù)更新等核心環(huán)節(jié)。核心目標是在追求圖譜知識準確性、完整性、一致性、時效性的同時,充分運用區(qū)塊鏈技術對構(gòu)建過程中的關鍵數(shù)字資產(chǎn)(如原始數(shù)據(jù)指紋、清洗規(guī)則、抽取模型、融合策略、審核記錄、知識單元等)的權(quán)屬、狀態(tài)變遷和操作行為進行精確、不可篡改的記錄與溯源,從而實現(xiàn)圖譜構(gòu)建過程的高度透明化、操作責任可追溯化,中間及最終成果的可信度增強。本文件提出的構(gòu)建方法視為與區(qū)塊鏈平臺要求緊密耦合、相互支撐的統(tǒng)一整體,共同構(gòu)成基于區(qū)塊鏈技術的醫(yī)療健康知識圖譜構(gòu)建的完整技術實施框架。必須強調(diào),醫(yī)學領域?qū)I(yè)知識的深度融合及數(shù)據(jù)隱私保護與倫理合規(guī)的嚴格遵守,是貫穿整個構(gòu)建過程的根本前提。1T/CI1125—2025基于區(qū)塊鏈技術的醫(yī)療健康知識圖譜構(gòu)建指南本文件提供了基于區(qū)塊鏈技術的醫(yī)療健康知識圖譜(以下簡稱“知識圖譜”)構(gòu)建的總則、數(shù)據(jù)采集與準備、數(shù)據(jù)清洗與預處理、知識抽取、知識融合、知識存儲與表示、知識驗證與更新的指導。本文件適用于科研院所、醫(yī)療機構(gòu)、第三方機構(gòu)基于區(qū)塊鏈技術對醫(yī)療健康知識圖譜進行設計、開發(fā)等。其他基于區(qū)塊鏈技術的知識圖譜構(gòu)建參照執(zhí)行。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T5271.17信息技術詞匯第17部分:數(shù)據(jù)庫GB/T15657中醫(yī)病證分類與代碼GB/T15843.1信息技術安全技術實體鑒別第1部分:總則GB/T16751(所有部分)中醫(yī)臨床診療術語GB/T17901.1信息技術安全技術密鑰管理第1部分:框架GB/T17901.3信息技術安全技術密鑰管理第3部分:采用非對稱技術的機制GB/T20520信息安全技術公鑰基礎設施時間戳規(guī)范GB/T22239信息安全技術網(wǎng)絡安全等級保護基本要求GB/T25069信息安全技術術語GB/T30272信息安全技術公鑰基礎設施標準符合性測評GB/T32905信息安全技術SM3密碼雜湊算法GB/T32907信息安全技術SM4分組密碼算法GB/T32915信息安全技術二元序列隨機性檢測方法GB/T32918(所有部分)信息安全技術SM2橢圓曲線公鑰密碼算法GB/T36344信息技術數(shù)據(jù)質(zhì)量評價指標GB/T36626信息安全技術信息系統(tǒng)安全運維管理指南GB/T37092信息安全技術密碼模塊安全要求GB/T38625信息安全技術密碼模塊安全檢測要求GB/T43572區(qū)塊鏈和分布式記賬技術術語3術語和定義GB/T5271.17、GB/T25069、GB/T43572界定的以及下列術語和定義適用于本文件。3.1醫(yī)療健康知識圖譜medicalandhealthknowledgegraph以醫(yī)療實體為節(jié)點,以實體間語義關系為邊,融合多源醫(yī)療數(shù)據(jù)構(gòu)建的語義網(wǎng)絡。2T/CI1125—20254縮略語下列縮略語適用于本文件。API:應用程序編程接口(ApplicationProgrammingInterface)ATC:解剖學治療學化學分類系統(tǒng)(AnatomicalTherapeuticChemical)CPT:當前醫(yī)療程序術語(CurrentProceduralTerminology)ChEBI:化學實體本體(ChemicalEntitiesofBiologicalInterest)DID:身份標識符(DecentralizedIdentifiers)FDA:食品與藥品管理局(FoodandDrugAdministration)GDPR:通用數(shù)據(jù)保護條例(GeneralDataProtectionRegulation)HGNC:人類基因命名委員會(HUGOGeneNomenclatureCommittee)HIPAA:健康保險流通與責任法案(HealthInsurancePortabilityandAccountabilityAct)ICD:國際疾病分類(InternationalClassificationofDiseases)ICD-PCS:國際手術分類編碼系統(tǒng)(InternationalClassificationofDiseases-ProcedureCodingSystem)ID:身份證標識號(Identity)LOINC:邏輯觀察標識符名稱和代碼(LogicalObservationIdentifiersNamesandCodes)MFA:多重要素驗證(MultiFactorAuthentication)MeSH:醫(yī)學主題詞表(MedicalSubjectHeadings)NER:命名實體識別(NamedEntityRecognition)NLP:自然語言處理(NaturalLanguageProcessing)OMIM:在線人類孟德爾遺傳(OnlineMendelianInheritanceinMan)OWL:網(wǎng)絡本體語言(WebOntologyLanguage)PMID:PubMed唯一標識碼(PubMedIdentifier)RDF:資源描述框架(ResourceDescriptionFramework)SNOMEDCT:醫(yī)學系統(tǒng)命名法臨床術語(SystematizedNomenclatureofMedicine—ClinicalTerms)UMLS:統(tǒng)一醫(yī)學語言系統(tǒng)(UnifiedMedicalLanguageSystem)VC:可驗證憑證(VerifiableCredentials)5總則5.1基礎保障5.1.1制度建設5.1.1.1建立區(qū)塊鏈醫(yī)療健康知識提供者的信息安全管理責任制,制定和公開管理規(guī)則和平臺公約,落實真實身份信息認證制度,規(guī)避區(qū)塊鏈信息安全風險。5.1.1.2定期開展合規(guī)性自查,留存審計報告上鏈。5.1.2技術保障5.1.2.1區(qū)塊鏈框架符合GB/T17901.1規(guī)定,運行環(huán)境符合GB/T22239三級及以上的規(guī)定。3T/CI1125—202532905、GB/T32907和GB/T32918(所有部分)執(zhí)行。技術鑰管理包括但不限于對稱密鑰、非對稱密鑰、群密鑰以及密鑰派生等,符合GB/T17901.3的規(guī)定。明確對稱密鑰更新頻率、非對稱密鑰備份策略。5.1.2.3密碼模塊符合GB/T37092二級及以上的規(guī)定,密碼模塊安全檢測按GB/T38625執(zhí)行,公鑰基礎設施的標準符合性測評按GB/T30272執(zhí)行。5.1.2.4實體鑒別按GB/T15843.1執(zhí)行。5.1.2.5區(qū)塊鏈中的可信時間源符合GB/T20520的規(guī)定。5.1.2.6隨機數(shù)生成和敏感安全參數(shù)生成按GB/T37092執(zhí)行,隨機序列生成符合GB/T32915的規(guī)定。5.1.2.7區(qū)塊鏈運維管理中的身份認證與權(quán)限管理、密鑰管理等工作的安全運維按GB/T22239、GB/T36626執(zhí)行。5.1.2.8區(qū)塊鏈功能性要求參見附錄A。5.2知識圖譜要求5.2.1知識圖譜技術框架可參照GB/T42131構(gòu)建。5.2.2知識圖譜的功能、性能、安全可參照T/CI196執(zhí)行。6數(shù)據(jù)采集與準備6.1數(shù)據(jù)源評估、許可、接入與注冊6.1.1數(shù)據(jù)源評估6.1.1.1接入數(shù)據(jù)源之前進行評估,評估內(nèi)容覆蓋:b)數(shù)據(jù)內(nèi)容:與知識圖譜主題的相關性、可用字段、數(shù)據(jù)字典/元數(shù)據(jù)文檔的可用性與質(zhì)量;c)數(shù)據(jù)來源的合規(guī)性:數(shù)據(jù)持有權(quán)/使用權(quán)證明、獲取數(shù)據(jù)的倫理審批文件、患者知情同意的范圍與方式、是否符合相關數(shù)據(jù)保護法規(guī);d)數(shù)據(jù)提供方的資質(zhì)與信譽;e)數(shù)據(jù)敏感性分級:明確數(shù)據(jù)隱私保護等級;f)技術可行性:數(shù)據(jù)格式、接口類型與穩(wěn)定性、更新頻率、傳輸協(xié)議支持;g)成本與可持續(xù)性:獲取成本、維護成本、長期合作可能性。6.1.1.2評估過程有文檔記錄,關鍵結(jié)論的摘要或哈希值可記錄在鏈上作為決策依據(jù)。6.1.2數(shù)據(jù)共享協(xié)議與鏈上存證6.1.2.1與數(shù)據(jù)提供方簽訂的數(shù)據(jù)共享協(xié)議或數(shù)據(jù)使用許可。協(xié)議宜明確規(guī)定數(shù)據(jù)的使用目的、范圍、期限、訪問權(quán)限、保密義務、知識產(chǎn)權(quán)歸屬、數(shù)據(jù)銷毀要求及違反約定的責任。6.1.2.2協(xié)議的關鍵條款摘要、全文哈希值、簽署方數(shù)字簽名、生效日期等信息在區(qū)塊鏈上進行登記存證,形成可公開驗證(對授權(quán)方)的法律約束基礎。6.1.2.3涉及個人健康信息時,證據(jù)鏈能關聯(lián)到有效的患者知情同意書或其哈希、授權(quán)憑證。6.1.3數(shù)據(jù)源鏈上注冊6.1.3.1每個經(jīng)過評估并獲準接入的數(shù)據(jù)源,在區(qū)塊鏈上完成一次注冊操作。注冊信息宜采用統(tǒng)一的數(shù)據(jù)模型,如預定義的智能合約結(jié)構(gòu)或鏈下數(shù)據(jù)模式,包括但不限于:4T/CI1125—2025a)全局唯一的數(shù)據(jù)源標識符;b)來源機構(gòu)的鏈上身份標識;c)數(shù)據(jù)類型與主題分類;d)數(shù)據(jù)格式描述;e)覆蓋的時間范圍與地理區(qū)域;f)6.1.1.1數(shù)據(jù)質(zhì)量指標;g)更新頻率與機制;h)數(shù)據(jù)負責人聯(lián)系信息;i)指向鏈上存證的協(xié)議/許可記錄的鏈接;j)技術接入點信息(如API端點描述,憑證不直接上鏈k)注冊時間戳。6.1.3.2注冊一經(jīng)確認,即為該數(shù)據(jù)源在知識圖譜生態(tài)中賦予了一個可信的數(shù)字身份和元數(shù)據(jù)檔案。6.1.4接口配置與訪問憑證管理6.1.4.1用于實際數(shù)據(jù)采集的API接口地址、認證憑證通過安全的帶外渠道進行分發(fā)和存儲,例如使用專門的密鑰管理系統(tǒng)。注:認證憑證如APIKey、Secret、Token、證書等。6.1.4.2不宜將明文憑證硬編碼在代碼或配置文件中及上鏈。對特定系統(tǒng)或用戶授予數(shù)據(jù)采集接口的訪問權(quán)限時,授權(quán)記錄的元數(shù)據(jù)可在鏈上進行登記,以便審計。授權(quán)記錄的元數(shù)據(jù)包括被授權(quán)者身份、權(quán)6.2數(shù)據(jù)采集、傳輸與完整性校驗6.2.1數(shù)據(jù)采集數(shù)據(jù)采集任務的執(zhí)行遵守已簽署的數(shù)據(jù)共享協(xié)議條款和所有適用的隱私保護法律法規(guī)。確保僅采集協(xié)議授權(quán)范圍內(nèi)且已獲得必要同意(若涉及個人信息)的數(shù)據(jù)。采集腳本或程序有版本控制,其標識符可在執(zhí)行日志中記錄。6.2.2安全傳輸保障數(shù)據(jù)從源系統(tǒng)傳輸?shù)街R圖譜構(gòu)建的數(shù)據(jù)處理環(huán)境的過程中,全程使用強加密傳輸協(xié)議來保障數(shù)據(jù)的機密性和完整性。對于批量傳輸?shù)拇笪募?,可考慮使用文件級加密。6.2.3原始數(shù)據(jù)批次化與哈希錨定6.2.3.1采集的原始數(shù)據(jù)根據(jù)業(yè)務邏輯或處理效率需要,劃分為有意義的批次或邏輯單元,如按天、按來源子系統(tǒng)、按數(shù)據(jù)類型等。6.2.3.2為批次原始數(shù)據(jù)或其壓縮包、文件集合計算一個確定性的、抗碰撞的加密哈希值,將哈希值連同批次唯一標識符、關聯(lián)的數(shù)據(jù)源鏈上ID、精確的采集時間戳、數(shù)據(jù)量統(tǒng)計、數(shù)據(jù)內(nèi)容的簡要描述等核心元數(shù)據(jù),作為一個原子交易記錄到區(qū)塊鏈上。6.2.4任務日志上鏈無論是定時調(diào)度還是手動觸發(fā),均為每次數(shù)據(jù)采集任務生成詳細的執(zhí)行日志,并將其關鍵信息記錄上鏈。日志內(nèi)容包括:5T/CI1125—2025a)任務唯一ID;b)計劃執(zhí)行時間與實際執(zhí)行時間;c)觸發(fā)者身份;d)目標數(shù)據(jù)源鏈上ID;e)嘗試采集的數(shù)據(jù)范圍描述,如時間段、特定表/主題;f)執(zhí)行狀態(tài):成功/部分成功/失??;g)錯誤信息摘要(若失敗h)成功采集到的數(shù)據(jù)批次的鏈上哈希引用列表;i)采集過程中使用的腳本/工具版本號。6.2.5數(shù)據(jù)質(zhì)量掃描與報告存證數(shù)據(jù)傳輸至處理環(huán)境后,宜立即進行一次數(shù)據(jù)質(zhì)量掃描,檢查數(shù)據(jù)的基本格式、完整性、一致性、分布特征等。掃描生成的質(zhì)量報告摘要或其哈希值,可與對應的原始數(shù)據(jù)批次哈希關聯(lián)并記錄上鏈,并在鏈上進行存證,為后續(xù)的數(shù)據(jù)清洗提供輸入。7數(shù)據(jù)清洗與預處理7.1處理操作數(shù)據(jù)清洗與預處理操作包括但不限于:a)缺失值處理:基于醫(yī)學知識、統(tǒng)計學方法或機器學習模型處理缺失數(shù)據(jù),需明確記錄所用策略及其依據(jù);b)錯誤值識別與糾正:利用預定義的業(yè)務規(guī)則、醫(yī)學常量范圍、邏輯約束、校驗碼等發(fā)現(xiàn)并修正明顯錯誤的數(shù)據(jù);c)格式統(tǒng)一化:將日期、時間、度量衡單位、行政區(qū)劃代碼、證件號碼等統(tǒng)一格式;d)醫(yī)學術語映射:對文本中提及的疾病、癥狀、藥品、檢查、手術等術語,嘗試映射到初步的內(nèi)部或詞典;e)數(shù)據(jù)類型轉(zhuǎn)換:確保數(shù)據(jù)類型符合目標模式要求;f)冗余信息消除:識別并處理重復記錄;g)異常值檢測與處理:識別統(tǒng)計上的離群點,并根據(jù)業(yè)務進行修正、刪除或標記;h)文本數(shù)據(jù)處理:對非結(jié)構(gòu)化文本進行分句、分詞、去除停用詞、詞干提取/詞形還原、特殊符號處理等,為后續(xù)NLP任務做準備。7.2過程控制7.2.1工具控制7.2.1.1對用于執(zhí)行清洗預處理任務的規(guī)則集、算法實現(xiàn)或可執(zhí)行腳本進行版本控制管理。每個版本有清晰的文檔說明其功能、參數(shù)、適用范圍和預期效果。在應用到生產(chǎn)數(shù)據(jù)前,在測試數(shù)據(jù)集上進行充分的單元測試、集成測試和效果驗證,確保其正確性和有效性。7.2.1.2經(jīng)過驗證的規(guī)則/腳本,或指向其在可信代碼庫中特定版本的唯一標識符、代碼文件哈希、版本號在區(qū)塊鏈上進行注冊登記,創(chuàng)建不可篡改的規(guī)則/腳本庫引用,后續(xù)執(zhí)行清洗任務時在鏈上日志中明確引用所使用的規(guī)則/腳本的鏈上標識符及版本號。6T/CI1125—20257.2.2任務日志上鏈對每個或每批次數(shù)據(jù)執(zhí)行清洗與預處理操作時,生成一條對應的原子性鏈上交易來記錄該任務的詳細信息,記錄至少包括:a)唯一任務執(zhí)行ID;b)執(zhí)行主體身份(發(fā)起操作的用戶或自動化服務的鏈上IDc)開始與結(jié)束時間戳;d)輸入數(shù)據(jù)引用(指向鏈上記錄的原始數(shù)據(jù)批次哈希e)輸出數(shù)據(jù)集標識符及輸出數(shù)據(jù)哈希;f)所使用的清洗規(guī)則/腳本的鏈上標識符及確切版本號;g)關鍵處理參數(shù);h)執(zhí)行環(huán)境信息摘要;i)執(zhí)行結(jié)果狀態(tài)(成功/失敗/部分成功)及相關的量化指標,量化指標如處理記錄數(shù)、改變字段數(shù)、刪除記錄數(shù)等。7.2.3過程記錄若在預處理階段實施了數(shù)據(jù)脫敏、假名化或匿名化,則清晰記錄所采用的具體技術方法、遵循的策略/規(guī)則集(其鏈上標識符)、操作范圍及執(zhí)行的操作。脫敏過程符合相關隱私法規(guī)要求且記錄內(nèi)容不泄露用于逆轉(zhuǎn)脫敏的信息。7.2.4哈希存證對經(jīng)過清洗預處理后生成的每個新的數(shù)據(jù)集批次,計算其加密哈希值,并將該哈希值與對應的清洗任務鏈上日志記錄進行強關聯(lián)后一同記錄上鏈。7.2.5數(shù)據(jù)質(zhì)量評價與結(jié)果存證清洗預處理步驟之后宜立即按GB/T36344進行一次數(shù)據(jù)質(zhì)量評價。使用預定義的質(zhì)量維度和指標進行量化評估。生成的數(shù)據(jù)質(zhì)量報告或其關鍵指標摘要、報告全文哈希與清洗后的數(shù)據(jù)批次哈希關聯(lián),并在鏈上進行存證。8知識抽取8.1抽取操作知識抽取包括:c)事件抽?。鹤R別文本中描述的特定事件及其參與者(實體)和屬性,如識別一個“不良藥物事件”,包括涉及的藥物、發(fā)生的癥狀、患者信息、時間等要素;d)屬性抽?。撼槿嶓w的具體屬性信息,如藥物的劑量、用法、頻次,疾病的分期、嚴重程度等;e)醫(yī)學概念映射:將從文本中抽取的非標準、表述多樣的實體映射到醫(yī)學本體或術語集中的唯一7T/CI1125—2025概念ID。注:醫(yī)學術語集如SNOMEDCT、ICD、MeSH。8.2過程控制8.2.1工具控制8.2.1.1對用于執(zhí)行知識抽取方法及所依賴的特征工程方法、詞典資源、預訓練模型、算法庫、軟件工具包進行版本控制。預訓練模型需記錄其訓練相關信息,包括:a)所用訓練數(shù)據(jù)集的描述,宜是數(shù)據(jù)集本身的哈希或鏈上引用;b)關鍵超參數(shù)配置;c)模型架構(gòu)描述;d)在測試集上的性能評估指標。8.2.1.2模型、算法、規(guī)則庫或指向其可信存儲位置的唯一標識符、代碼/模型文件哈希、確切版本號、以及上述相關的元數(shù)據(jù)和性能指標,宜在區(qū)塊鏈上進行注冊登記。8.2.2任務日志上鏈對特定的預處理后數(shù)據(jù)批次執(zhí)行知識抽取任務時,在區(qū)塊鏈上記錄詳細的任務執(zhí)行信息,至少包括:a)唯一任務執(zhí)行ID;b)執(zhí)行主體身份(用戶或服務c)開始與結(jié)束時間戳;d)輸入數(shù)據(jù)引用(指向鏈上記錄的預處理后數(shù)據(jù)批次哈希e)所使用的知識抽取模型/算法/規(guī)則庫的鏈上標識符及確切版本號;f)關鍵配置參數(shù),如NER識別的實體類型列表、抽取的關系類型、概念鏈接的目標本體版本、置信度閾值設定等;g)執(zhí)行結(jié)果狀態(tài)(成功/失?。┘罢y(tǒng)計,如抽取的各類實體數(shù)量、關系三元組數(shù)量、事件記錄數(shù)量;h)輸出的知識單元集合的標識符或哈希引用。8.2.3哈希存證抽取出的結(jié)構(gòu)化知識進行批處理,對每批次抽取出的知識單元集合計算其整體內(nèi)容的加密哈希值,并將該哈希值連同該批次的關鍵元數(shù)據(jù)一同記錄在區(qū)塊鏈上。8.2.4建立追溯鏈從任何一個或一批被抽取出的知識單元,能準確地鏈接回生成的具體抽取任務執(zhí)行記錄,進而鏈接到該任務所使用的模型/規(guī)則版本,再鏈接到被處理的預處理后的數(shù)據(jù)批次,最終能追溯到最原始的數(shù)據(jù)采集批次及其數(shù)據(jù)源信息。8.2.5置信度與證據(jù)來源記錄8.2.5.1為輸出的每個知識單元提供一個置信度分數(shù)或置信度等級,并與知識單元本身或其批次哈希一同記錄上鏈。8.2.5.2宜記錄該知識單元在原始文本中的具體來源證據(jù)或至少是證據(jù)位置的指針/摘要。注:來源證據(jù)如原文句子、段落、文檔ID、文獻PMID等。8T/CI1125—20259知識融合9.1融合操作融合操作包括:a)實體對齊/鏈接:識別并合并指向現(xiàn)實世界同一實體的不同表示,技術包括基于字符串相似度、屬性相似度、網(wǎng)絡結(jié)構(gòu)相似度或預訓練嵌入向量相似度的匹配算法等;b)關系融合/合并:處理關于同一對實體的相同或相似關系及處理相互矛盾的關系陳述;c)屬性值融合:對于同一實體的同一屬性,存在多個不同來源的值時,根據(jù)規(guī)則進行合并或選擇;d)本體映射與對齊:當不同來源的知識基于不同的本體或模式時,建立映射關系;e)沖突檢測與消解:主動識別知識庫中存在的邏輯矛盾,并應用預定義策略或人工判斷來解決。注:優(yōu)先級規(guī)則如權(quán)威指南>臨床路徑>文獻證據(jù)。9.2過程控制9.2.1工具控制對用于知識融合的具體策略、算法實現(xiàn)、規(guī)則集、本體映射文件、同義詞詞典、實體鏈接模型等進行版本控制。每個版本有明確的文檔、測試和驗證記錄,并在區(qū)9.2.2本體修改9.2.2.1對本體的任何修改,如新增類/屬性/關系、修改約束、廢棄元素,遵循變更管理流程,包括:a)變更提案;b)影響分析;c)專家評審;d)批準決策;e)實施部署。9.2.2.2每次本體的新版本及其變更日志進行版本標識,并將版本號、發(fā)布時間、變更摘要、本體文件哈希等信息記錄在區(qū)塊鏈上。9.2.3任務日志上鏈執(zhí)行每次或每階段知識融合任務時,在區(qū)塊鏈上記錄詳細的操作日志,包括:a)唯一任務執(zhí)行ID;b)執(zhí)行主體身份;c)開始與結(jié)束時間戳;d)輸入知識單元集合的引用(指向鏈上記錄的抽取知識批次哈?;蛑暗娜诤蠣顟B(tài)哈希e)輸出的融合后知識狀態(tài)的標識符或哈希引用;f)所采用的融合策略/規(guī)則/映射/本體版本的鏈上標識符;g)關鍵參數(shù)設置,如實體鏈接閾值、沖突解決策略選擇;h)執(zhí)行結(jié)果摘要,如處理的知識單元數(shù)量、新合并的實體數(shù)、解決的沖突數(shù)。9.2.4沖突及解決記錄融合過程中檢測到的每個重要沖突及其最終的解決方式記錄上鏈,包括:9T/CI1125—2025a)沖突標識符;b)沖突涉及的知識單元引用(指向鏈上記錄c)沖突類型的描述,如事實矛盾、約束違反;d)采用的沖突消解規(guī)則/策略的鏈上標識符;e)人工裁決時,記錄決策專家或委員會的鏈上身份標識、決策時間、決策結(jié)果及決策理由摘要或其哈希;f)最終被采納或修改后的知識單元的引用。9.2.5哈希存證在每次重要的融合操作完成后,對當前形成的知識圖譜的一個穩(wěn)定狀態(tài)或其增量變化部分計算一個數(shù)據(jù)快照的加密哈希值,并將該哈希值與對應的融合任務鏈上日志記錄進行強關聯(lián),并記錄上鏈。10知識存儲與表示10.1知識存儲10.1.1選用能高效處理復雜圖結(jié)構(gòu)查詢、支持大規(guī)模數(shù)據(jù)存儲、并具備良好擴展性的鏈下圖數(shù)據(jù)庫系統(tǒng)。選擇時考慮:a)圖模型支持:使用RDF/OWL模型(適用于強語義表達和邏輯推理)或?qū)傩詧D模型(對節(jié)點和邊的屬性支持更靈活,更貼近某些應用場景選擇的數(shù)據(jù)庫原生或高效支持所選模型;注:常見的RDF存儲有ApacheJenaFuseki、Virtuoso、GraphDB,常見的屬性圖數(shù)據(jù)庫有Neo4j、JanusGraph、Aran?goDB、NebulaGraph、TigerGraph等。b)查詢語言:支持常見的圖查詢語言的程度和性能;c)性能與可擴展性:在預期的數(shù)據(jù)規(guī)模和查詢負載下的讀寫性能、內(nèi)存消耗、水平/垂直擴展能力;d)數(shù)據(jù)一致性與事務支持:對ACID事務或最終一致性的支持程度,是否滿足應用需求;e)高可用與備份恢復:是否提供集群部署、自動故障轉(zhuǎn)移及可靠的數(shù)據(jù)備份與恢復機制;f)安全性:是否提供細粒度的訪問控制、加密存儲、審計日志等安全特性;g)生態(tài)系統(tǒng)與社區(qū)支持:工具鏈、客戶端庫、社區(qū)活躍度、商業(yè)支持等;h)醫(yī)療合規(guī)性:存儲系統(tǒng)及其部署環(huán)境滿足HIPAA、GDPR、網(wǎng)絡安全等級保護等對敏感數(shù)據(jù)存儲的要求。10.1.2存儲內(nèi)容包括:a)知識圖譜版本標識符與發(fā)布記錄:全局唯一的版本號、發(fā)布時間戳、發(fā)布者身份、版本說明摘要或哈希;b)知識圖譜快照完整性證明:對應鏈下存儲的知識圖譜數(shù)據(jù)在某個版本發(fā)布時的確定性哈希值;c)本體版本引用:該版本知識圖譜所遵循的本體的鏈上標識符及版本號;d)構(gòu)建過程溯源鏈錨點:指向構(gòu)成此版本知識圖譜的整個構(gòu)建歷史鏈條(從數(shù)據(jù)采集到最終融合驗證)在區(qū)塊鏈上記錄的頂層索引或最終狀態(tài)記錄的指針/哈希;e)核心訪問控制策略元數(shù)據(jù):如定義訪問權(quán)限的智能合約地址或策略版本哈希;f)關鍵統(tǒng)計與質(zhì)量指標:如該版本包含的節(jié)點/邊數(shù)量(按類型統(tǒng)計)、平均度數(shù)、關鍵質(zhì)量評估指標摘要等;g)知識單元級溯源索引:對于需要極高可信度或細粒度追溯的場景,可考慮為每個或重要類型的知識單元在鏈上存儲一個極簡的索引記錄,如其唯一ID、創(chuàng)建版本號、來源摘要哈希。10T/CI1125—202510.2知識表示10.2.1明確并記錄知識圖譜內(nèi)部采用的核心數(shù)據(jù)模型、選擇的依據(jù)、模型選擇的元數(shù)據(jù)信息,核心標識可在鏈上登記。10.2.2宜在知識圖譜中使用國際或國內(nèi)公認的醫(yī)學本體和術語集來表示實體(節(jié)點)和關系(邊)的類型以及屬性值,包括但不限于:b)藥品與物質(zhì):RxNorm(藥品標準化命名)、ATC、SNOMEDCT、MeSH、ChEBI;c)癥狀與體征:SNOMEDCT、MeSH、HumanPhenotypeOntology(人類表型組數(shù)據(jù)庫d)檢查與檢驗:LOINC、SNOMEDCT;e)手術與操作:CPT、ICD?PCS、SNOMEDCT;f)解剖學:FoundationalModelofAnatomy(解剖學基礎模型)、SNOMEDCT;g)基因與蛋白質(zhì):GeneOntology(基因本體)、HGNC、UniProt(蛋白質(zhì)數(shù)據(jù)庫h)中醫(yī)藥:GB/T15657、GB/T16751(所有部分i)綜合性本體/元知識庫:UMLS。10.3過程控制10.3.1對選擇和使用的標準/本體的名稱、確切的版本號及在知識圖譜中具體如何應用進行詳細的文檔化,其標識符和版本信息在區(qū)塊鏈上進行注冊登記。10.3.2遵循良好的知識圖譜設計原則,包括:a)定義清晰的實體和關系類型層次結(jié)構(gòu);b)合理設計屬性的粒度和數(shù)據(jù)類型;c)使用規(guī)范化的關系表達;d)考慮知識圖譜的可擴展性和未來的查詢需求。10.3.3建模決策過程和最終確定的本體/模式設計文檔進行版本控制和歸檔。11知識驗證與更新11.1知識驗證與可信記錄11.1.1知識質(zhì)量與驗證方法包含多種互補方法的綜合驗證方法,方法宜文檔化、版本化,且其標識符可在鏈上注冊。驗證方法包括:a)內(nèi)部邏輯一致性校驗:利用本體中定義的約束自動檢測知識庫中存在的邏輯矛盾,例如檢查是否有記錄顯示某藥物既能治療又能引起同一種過敏反應;b)與外部金標準數(shù)據(jù)集的比對:將知識圖譜中的部分知識與公認的、高質(zhì)量的外部數(shù)據(jù)庫或基準數(shù)據(jù)集進行比對,量化一致性;注:基準數(shù)據(jù)集如FDA藥品標簽、OMIM遺傳疾病庫、ClinVar變異數(shù)據(jù)庫。c)結(jié)構(gòu)化的領域?qū)<覍忛啠涸O計并實施由具備相關專業(yè)背景的醫(yī)學專家參與的人工審閱流程,審閱基于明確的任務指引、統(tǒng)一的評價指標和易用的審閱工具,詳細記錄專家對知識單元的確認、質(zhì)疑、修改建議或拒絕意見;d)基于文獻證據(jù)的核查:對于從文獻中抽取的知識,能追溯到原文出處,并由專家或自動化工具核11T/CI1125—2025對其是否準確反映了原文信息及原文本身的證據(jù)等級;e)基于應用反饋的迭代驗證:監(jiān)控知識圖譜在實際應用中的表現(xiàn),收集用戶反饋,特別是關于知識錯誤或不足的報告,將其作為持續(xù)驗證和改進的重要輸入。11.1.2任務日志上鏈執(zhí)行自動化驗證程序時,執(zhí)行記錄宜上鏈,包括:a)唯一任務執(zhí)行ID;b)執(zhí)行時間;c)所用驗證規(guī)則集/腳本的鏈上標識符;d)被驗證的知識范圍;e)驗證結(jié)果摘要。11.1.3專家審閱過程與鏈上存證11.1.3.1專家審閱過程如下。a)專家身份認證與資質(zhì)管理:參與審閱的專家關聯(lián)其鏈上身份,專業(yè)資質(zhì)和領域背景有記錄,可使用VC。b)任務分配與追蹤:記錄審閱任務的分配。c)審閱操作的原子性記錄上鏈:專家通過審閱工具提交的每一次審閱操作,都觸發(fā)一次鏈上交易。對該交易進行記錄,包括:1)審閱者鏈上ID,可假名化但能追溯;2)被審閱知識單元的鏈上標識符;3)審閱決策;4)給出的置信度評分(若適用5)審閱意見的文本摘要或其哈希,詳細意見存鏈下;6)審閱時間戳。11.1.3.2為增強不可否認性,專家的數(shù)字簽名與審閱記錄綁定。11.1.4知識處置決策記錄基于自動驗證發(fā)現(xiàn)的問題和根據(jù)專家審閱意見對知識單元進行的最終處置決策,連同決策依據(jù)、決策者身份、決策時間,都記錄在區(qū)塊鏈上,并與被處置的知識單元建立關聯(lián)。11.2版本管理與可信發(fā)布機制11.2.1版本控制11.2.1.1建立清晰、規(guī)范的知識圖譜版本控制機制,宜遵循語義化版本規(guī)范,即版本號格式為:a)MAJOR:當做出不兼容的API更改或重大的本體/結(jié)構(gòu)調(diào)整時遞增;b)MINOR:當以向后兼容的方式添加新功能、擴展知識覆蓋范圍或進行顯著的內(nèi)容更新時遞增;c)PATCH:當進行向后兼容的錯誤修復或小的知識修正時遞增。11.2.1.2為每個版本定義明確的生命周期狀態(tài),如開發(fā)中、測試中、候選發(fā)布、已發(fā)布、已歸檔、已廢棄。11.2.2版本發(fā)布鏈上登記每個計劃正式對外發(fā)布(供應用系統(tǒng)使用或公開)的知識圖譜版本,在區(qū)塊鏈上執(zhí)行一次“發(fā)布登記”12T/CI1125—2025交易。該交易是該版本知識圖譜的“數(shù)字出生證明”,包含以下不可篡改的核心信息:a)全局唯一的、符合語義化規(guī)范的版本號;b)發(fā)布時間戳;c)發(fā)布操作的發(fā)起者/授權(quán)者鏈上身份;d)版本說明/變更日志的摘要,或指向詳細文檔的鏈接/哈希;e)對應的鏈下知識圖譜數(shù)據(jù)快照的確定性哈希值;f)該版本所依賴的本體的鏈上標識符及版本號;g)指向構(gòu)建此版本全過程鏈上記錄鏈的最終錨點/頂層索引;h)適用時,關鍵質(zhì)量指標快照,如節(jié)點數(shù)、邊數(shù)、驗證通過率等。11.2.3持續(xù)更新與迭代的可追溯性對已發(fā)布知識圖譜的任何后續(xù)更新,包括但不限于添加新知識、修正錯誤、適應新的醫(yī)學進展等,都遵循第6章~第10章流程,形成新版本并在區(qū)塊鏈上進行發(fā)布登記。區(qū)塊鏈上的版本記錄鏈清晰記錄知識圖譜隨時間演化的路徑。11.2.4歷史版本查詢與狀態(tài)回溯區(qū)塊鏈上完整的版本發(fā)布記錄和構(gòu)建過程日志,支持授權(quán)用戶查詢?nèi)魏我粋€歷史發(fā)布版本的元數(shù)據(jù)、構(gòu)建過程細節(jié)、當時的質(zhì)量狀況及對應的且通過哈希驗證的鏈下數(shù)據(jù)快照。11.2.5知識棄用與撤回發(fā)現(xiàn)已發(fā)布的知識存在嚴重錯誤或已過時,宜有機制將其標記為“棄用”或“撤回”,狀態(tài)變更本身作為一種特殊的更新操作記錄在區(qū)塊鏈上,并關聯(lián)到相應的知識單元或知識圖譜版本。13T/CI1125—2025(資料性)區(qū)塊鏈功能性要求A.1一般要求A.1.1區(qū)塊鏈功能性包括身份管理與認證、訪問控制、數(shù)據(jù)溯源與完整性保障、審計與監(jiān)管支持。A.1.2身份管理與認證:建立全面、安全且適應醫(yī)療健康領域復雜參與方結(jié)構(gòu)的身份管理和認證體系。該體系能唯一、可信地標識、驗證并管理參與知識圖譜構(gòu)建、維護、治理和使用的所有實體身份。A.1.3訪問控制:實現(xiàn)靈活、動態(tài)、策略驅(qū)動且能被區(qū)塊鏈強制執(zhí)行的訪問控制模型,模型能基于已認證的身份及其關聯(lián)的角色、屬性,對知識圖譜構(gòu)建和應用全流程中的各類關鍵資源和操作實施精確到對象和動作級別的權(quán)限管理。A.1.4數(shù)據(jù)溯源與完整性保障:區(qū)塊鏈的核心功能之一是作為不可篡改的分布式賬本,為知識圖譜構(gòu)建過程中涉及的數(shù)據(jù)、元數(shù)據(jù)及操作活動提供可信的時間戳服務和持久化存證,構(gòu)建端到端的溯源鏈條。A.1.5審計與監(jiān)管支持:區(qū)塊鏈平臺設計為一個透明、高效且滿足合規(guī)要求的審計底層,有力支撐內(nèi)部質(zhì)量控制、第三方審計以及來自衛(wèi)生健康主管部門、數(shù)據(jù)保護機構(gòu)等的監(jiān)管活動。A.2身份管理與認證A.2.1身份類型與屬性支持A.2.1.1能明確區(qū)分并管理多元化的身份類型,如醫(yī)療機構(gòu)(數(shù)據(jù)提供方)、科研院所(算法提供方)、獨維方)、監(jiān)管機構(gòu)(審計方)以及代表這些實體的個人用戶或自動化服務/系統(tǒng)代理等。A.2.1.2支持為身份附加可驗證的屬性,如機構(gòu)資質(zhì)證書哈希、醫(yī)師執(zhí)業(yè)資格認證信息、專家領域標簽,可考慮采用W3CDID及其關聯(lián)的VC模型增強身份的可信度和互操作性。A.2.2標識符規(guī)范與生命周期管理為每個實體分配一個在區(qū)塊鏈網(wǎng)絡內(nèi)全局唯一、防篡改且生命周期內(nèi)穩(wěn)定的標識符,明確標識符的生成、注冊、解析、更新、恢復及在實體退出或失信時的吊銷/凍結(jié)機制。安全記錄身份生命周期管理過程中的關鍵操作,如注冊審批、信息變更、狀態(tài)轉(zhuǎn)換,操作日志具備不可篡改性,關鍵變更事件宜上鏈存證。A.2.3強認證機制與集成A.2.3.1若采用符合公私鑰密碼體系(如國密SM2、ECDSA)進行數(shù)字簽名驗證,提供基于強密碼學的認證方法。A.2.3.2宜采用MFA策略以提升安全性。A.2.3.3具備與現(xiàn)有可信身份認證基礎設施(如國家/行業(yè)PKI體系、OAuth/OpenIDConnect服務、機構(gòu)內(nèi)部身份管理系統(tǒng))安全集成的能力,實現(xiàn)身份的聯(lián)邦認證或映射。A.2.4角色與權(quán)限關聯(lián)身份管理系統(tǒng)與訪問控制模塊緊密集成,支持將具體的角色或權(quán)限精細化地綁定到已認證的身份上。14T/CI1125—2025A.3訪問控制A.3.1訪問控制模型以基于角色的訪問控制為基礎,同時結(jié)合基于屬性的訪問控制以應對醫(yī)療場景下復雜的權(quán)限決策邏輯。結(jié)合基于屬性的訪問控制策略可利用諸如用戶屬性(如角色、部門、資質(zhì)認證)、資源屬性(如數(shù)據(jù)敏感等級、知識領域、來源機構(gòu))、環(huán)境屬性(如訪問時間、地理位置、IP地址)以及操作類型等多種因素進行動態(tài)授權(quán)判斷。A.3.2策略定義、存儲與管理提供清晰的方式定義訪問控制策略,如使用策略語言或通過智能合約編碼。策略本身進行版本控制,記錄創(chuàng)建、修改、審批、激活、停用等管理操作,策略的關鍵版本或哈希值宜上鏈存儲或錨定,確保策略本身的完整性和可追溯性。A.3.3強制執(zhí)行與審計A.3.3.1訪問控制決策邏輯嵌入到區(qū)塊鏈的執(zhí)行層(如通過智能合約的修飾符或內(nèi)置訪問控制邏輯)或通過可信的鏈下強制執(zhí)行點(如API網(wǎng)關結(jié)合鏈上策略驗證)來保障。A.3.3.2可靠記錄所有對受控資源或操作的訪問嘗試,無論成功與否,記錄的關鍵信息包括請求者身份、目標資源標識、請求的操作類型、時間戳、訪問結(jié)果、執(zhí)行節(jié)點信息等。授權(quán)成功的操作記錄上鏈存儲,失敗訪問嘗試的日志記錄宜安全存儲并可供審計。A.3.4權(quán)限查詢與審計接口提供接口,允許授權(quán)管理員查詢?nèi)魏翁囟ㄉ矸莓斍暗挠行?quán)限集及查詢權(quán)限分配、變更的歷史記錄。審計人員能便捷地查詢和分析訪問控制日志。A.4數(shù)據(jù)溯源與完
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學校閱覽室衛(wèi)生制度
- 社區(qū)衛(wèi)生站管理制度
- 衛(wèi)生保健制度關規(guī)定
- 小學生連廊衛(wèi)生制度
- 幼兒園十個衛(wèi)生保健制度
- 衛(wèi)生網(wǎng)格化管理制度
- 鄉(xiāng)鎮(zhèn)衛(wèi)生院新冠管理制度
- 教育局衛(wèi)生檢查制度
- 衛(wèi)生服務計生制度
- 葡萄酒企業(yè)衛(wèi)生管理制度
- DZ/T 0150-1995銀礦地質(zhì)詳查規(guī)范
- 雜志分揀打包服務合同4篇
- 春節(jié)園林綠化安全應急預案
- 2025年舟山市專業(yè)技術人員公需課程-全面落實國家數(shù)字經(jīng)濟發(fā)展戰(zhàn)略
- 豐田的生產(chǎn)方式培訓
- 2023年福建省能源石化集團有限責任公司社會招聘筆試真題
- 交通安全不坐黑車
- 舞臺音響燈光工程投標書范本
- DZ∕T 0064.49-2021 地下水質(zhì)分析方法 第49部分:碳酸根、重碳酸根和氫氧根離子的測定 滴定法(正式版)
- 貨物供應方案及運輸方案
- 幼兒語言表達能力提高策略
評論
0/150
提交評論