版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
DBXX/TXXX—XXXX
江西省醫(yī)療大數(shù)據(jù)平臺技術(shù)規(guī)范第三部分:數(shù)據(jù)采集規(guī)范
1范圍
本規(guī)范規(guī)定了醫(yī)療大數(shù)據(jù)平臺數(shù)據(jù)采集接入的術(shù)語和定義以及相關(guān)技術(shù)要求,包含數(shù)據(jù)采集過程、
歷史數(shù)據(jù)采集規(guī)范、增量數(shù)據(jù)采集規(guī)范、數(shù)據(jù)采集質(zhì)控要求等內(nèi)容。
本規(guī)范適用于醫(yī)療大數(shù)據(jù)平臺數(shù)據(jù)采集過程的設(shè)計、開發(fā)、選型和實施,可作為醫(yī)療大數(shù)據(jù)平臺數(shù)
據(jù)采集接入時的評測依據(jù)。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T18391.1—2009信息技術(shù)元數(shù)據(jù)注冊系統(tǒng)(MDR)第1部分:框架
GB/T34960.5—2018信息技術(shù)服務(wù)治理第5部分:數(shù)據(jù)治理規(guī)范
GB/T36345信息技術(shù)通用數(shù)據(jù)導(dǎo)入接口
3術(shù)語和定義
GB/T18391.1—2009、GB/T34960.5—2018、GB/T36345界定的以及下列術(shù)語和定義適用于本文件。
3.1
數(shù)據(jù)模型
數(shù)據(jù)模型為數(shù)據(jù)采集提供參考依據(jù),由于不同醫(yī)院的廠商、系統(tǒng)都可能不一致,而且醫(yī)院也存在更
換系統(tǒng)的情況,統(tǒng)一的數(shù)據(jù)模型可以兼容醫(yī)院不同廠商的系統(tǒng),對外統(tǒng)一標(biāo)準(zhǔn)輸出。
3.2
源系統(tǒng)數(shù)據(jù)
源系統(tǒng)數(shù)據(jù)是指醫(yī)院臨床業(yè)務(wù)系統(tǒng)數(shù)據(jù),包括HIS業(yè)務(wù)、LIS業(yè)務(wù)、RIS業(yè)務(wù)、EMR業(yè)務(wù)、手麻、
病案等產(chǎn)生的數(shù)據(jù),可能存儲在不同類型的數(shù)據(jù)庫匯總。
3.3
歷史數(shù)據(jù)采集
歷史數(shù)據(jù)采集是指采集醫(yī)院過往的醫(yī)療數(shù)據(jù),一家醫(yī)院在源系統(tǒng)數(shù)據(jù)庫中基本上有近十年數(shù)據(jù),這
些數(shù)據(jù)量比較龐大,需要采取不一樣的方式一次性采集,和增量數(shù)據(jù)同步方案存在一定的差異性。
3.4
1
DBXX/TXXX—XXXX
增量數(shù)據(jù)采集
增量數(shù)據(jù)采集是指采集醫(yī)院每天新增或者變更數(shù)據(jù),由于醫(yī)院業(yè)務(wù)量比較大,住院患者數(shù)據(jù)變更比
較頻繁,根據(jù)醫(yī)院實際情況可以考慮T+1或者實時進行增量數(shù)據(jù)采集,不同數(shù)據(jù)采集模式采用的數(shù)據(jù)采
集方案存在一定差異性。
3.5
數(shù)據(jù)映射
數(shù)據(jù)映射是指將醫(yī)院不同廠商的不同系統(tǒng)的業(yè)務(wù)數(shù)據(jù)存儲的字段與標(biāo)準(zhǔn)模型進行對照,確保數(shù)據(jù)采
集到數(shù)據(jù)模型對應(yīng)的內(nèi)容是一致的,不存在數(shù)據(jù)與對應(yīng)字段不一致的情況。
3.6
數(shù)據(jù)標(biāo)準(zhǔn)化
數(shù)據(jù)標(biāo)準(zhǔn)化是指將不同醫(yī)院的數(shù)據(jù)形成統(tǒng)一的標(biāo)準(zhǔn),方便后續(xù)使用,目前不同廠商對數(shù)據(jù)標(biāo)準(zhǔn)都存
在差異,需要將源數(shù)據(jù)按照標(biāo)準(zhǔn)數(shù)據(jù)模型進行轉(zhuǎn)換,符合數(shù)據(jù)標(biāo)準(zhǔn)要求。
3.7
數(shù)據(jù)采集治理
數(shù)據(jù)治理是指將醫(yī)院臟、亂、差的數(shù)據(jù)按照標(biāo)準(zhǔn)數(shù)據(jù)模型進行數(shù)據(jù)治理,將質(zhì)量比較差的數(shù)據(jù)通過
數(shù)據(jù)治理后提高數(shù)據(jù)質(zhì)量,以滿足后續(xù)的臨床數(shù)據(jù)應(yīng)用。
3.8
數(shù)據(jù)采集質(zhì)控
數(shù)據(jù)采集質(zhì)控是指醫(yī)院不同業(yè)務(wù)廠商的數(shù)據(jù)按照標(biāo)準(zhǔn)數(shù)據(jù)模型進行采集后,對采集入庫的數(shù)據(jù)進行
數(shù)據(jù)質(zhì)量核查,對數(shù)據(jù)質(zhì)量存在問題的數(shù)據(jù)進行預(yù)警和糾錯,提高數(shù)據(jù)質(zhì)量。
4縮略語
下列縮略語適用于本文件:
——HIT衛(wèi)生信息技術(shù)HealthcareInformationTechnology;
——ESB企業(yè)服務(wù)總線EnterpriseServiceBus;
——ETL抽取-轉(zhuǎn)換-加載Extrat-Transform-Load;
——CDR臨床數(shù)據(jù)中心ClinicalDataRepository;
——ODR運營數(shù)據(jù)中心OperationDataRepository;
——RDR科研數(shù)據(jù)中心ResearchDataRepository;
——BI運營數(shù)據(jù)中心的可視化BusinessIntelligence;
——AI人工智能ArtificialIntelligence;
——NLP自然語言處理;
——NER命名實體識別NamedEntityRecognition);
——SaaS軟件即服務(wù)Software-as-a-service;
——PaaS平臺即服務(wù)Platform-as-a-Service;
——IaaS基礎(chǔ)設(shè)施即服務(wù)Infrastructure-as-a-Service;
2
DBXX/TXXX—XXXX
——SOA面向服務(wù)的體系結(jié)構(gòu)Service-OrientedArchitecture。
——HL7衛(wèi)生信息交換標(biāo)準(zhǔn)HealthLevelSeven;
——DICOM醫(yī)學(xué)數(shù)字成像和通信DigitalImagingandCommunicationsinMedicine;
——LOINC觀測指標(biāo)標(biāo)識符邏輯命名與編碼系統(tǒng);
——SNOMEDCT醫(yī)學(xué)系統(tǒng)命名法-臨床術(shù)語SystematizedNomenclatureofMedicine--Clinical
Terms);
——ICD國際疾病分類InternationalClassificationofDisease);
——EMR電子病歷ElectronicMedicalRecord;
——HIS醫(yī)院信息系統(tǒng)HospitalInformationSystem;
——CIS臨床信息系統(tǒng)ClinicalInformationSystem;
——LIS實驗室信息系統(tǒng)LaboratoryInformationSystem;
——RIS放射學(xué)信息系統(tǒng)RadiologyInformationSystem;
——PACS影像歸檔和通信系統(tǒng)PictureArchivingandCommunicationSystem;
——CRF臨床研究表CaseReportForm;
——CDSS臨床決策支持系統(tǒng)ClinicalDecisionSupportSystem。
5數(shù)據(jù)接入要求
5.1數(shù)據(jù)采集范圍
醫(yī)療大數(shù)據(jù)平臺接入數(shù)據(jù)源應(yīng)包括但不限于:HIS、EMR、護理、手術(shù)麻醉、LIS、PACS、RIS、病理、
心電圖、超聲、體檢、隨訪EDC、生物樣本庫等院內(nèi)臨床業(yè)務(wù)系統(tǒng),以及基因數(shù)據(jù)庫、物聯(lián)設(shè)備監(jiān)測數(shù)
據(jù)庫、公共衛(wèi)生數(shù)據(jù)庫等特殊衛(wèi)生健康數(shù)據(jù)。
數(shù)據(jù)采集范圍包含但不限于:
——HIS:患者基本信息(含門急診、住院)、就診記錄、診斷、醫(yī)囑、用藥、耗材、手術(shù)、輸血、
檢查、檢驗等臨床信息,人員、醫(yī)療組、科室、診斷編碼、手術(shù)編碼、項目編碼等主數(shù)據(jù)信息;
——EMR:門診患者的門診病歷,住院患者的入院病歷、病程、術(shù)前討論、術(shù)后情況、出院小結(jié)、
會診記錄等全部文書;
——病案首頁:就診主索引、臨床首頁信息和編目首頁信息
——護理:就診主索引、護理首頁、護理評估、護理記錄、護理措施、危重記錄、體征、PICC、
置管等;
——手術(shù)麻醉:就診主索引、麻醉記錄單、手術(shù)記錄單、監(jiān)控儀器數(shù)據(jù);
——LIS:就診主索引、檢查項目、檢查細(xì)項、細(xì)項結(jié)果及正常值范圍;
——RIS:就診主索引、檢查報告、CT/MRI/PET等各類文字報告原始文件;
——病理:就診主索引、檢查報告、涂片圖像原始文件;
——心電圖:就診主索引、檢查報告、心電圖原始文件或pdf文件;
——超聲:就診主索引、檢查報告、超聲圖像原始文件;
——體檢:患者基本信息(體檢)、體檢項目清單、各項檢查結(jié)果及正常值范圍、各科室檢查結(jié)
論、終檢結(jié)論、相關(guān)影像原始文件等;
——隨訪:患者基本信息(隨訪)、臨床隨訪和病案隨訪數(shù)據(jù)及院外隨訪數(shù)據(jù);
——生物樣本:醫(yī)療機構(gòu)生物樣本中心采集并留存的生物信息、存儲信息;
——基因:患者基本信息、患者基因檢查結(jié)果記錄、基因原始數(shù)據(jù);
——物聯(lián)網(wǎng)設(shè)備健康監(jiān)測數(shù)據(jù):患者基本信息,通過物聯(lián)網(wǎng)可穿戴健康監(jiān)測設(shè)備采集的實時監(jiān)測
數(shù)據(jù)、健康監(jiān)測報告數(shù)據(jù);
3
DBXX/TXXX—XXXX
——公共衛(wèi)生數(shù)據(jù):涉及公共衛(wèi)生應(yīng)急、疾病預(yù)防控制、婦幼保健、精神衛(wèi)生、衛(wèi)生監(jiān)督、健康
教育、120、血液等眾多衛(wèi)生健康數(shù)據(jù)。
5.2采集方式及頻率
5.2.1采集方式
醫(yī)療采集方式主要分為:
——在線采集
——離線采集
5.2.2采集頻率
醫(yī)療數(shù)據(jù)采集應(yīng)根據(jù)業(yè)務(wù)需求選擇不同的采集頻率,應(yīng)分為:
——秒級實時數(shù)據(jù)同步;
——不同時間單位的間隔數(shù)據(jù)采集,包括15分鐘、小時、日、月等頻率。
5.3采集作業(yè)要求
大數(shù)據(jù)平臺數(shù)據(jù)采集作業(yè)管理應(yīng)包含作業(yè)策略、作業(yè)調(diào)度、作業(yè)監(jiān)控等基本功能,以保障采集作業(yè)
高效穩(wěn)定。采集作業(yè)要求應(yīng)完成如下目標(biāo):
——作業(yè)策略應(yīng)包括前期處理、執(zhí)行、任務(wù)日志、異常處理;
——作業(yè)異常處理應(yīng)支持自動重試、調(diào)用備用任務(wù)、手工重試等方式;
——作業(yè)調(diào)度應(yīng)對數(shù)據(jù)采集任務(wù)進行全局調(diào)用;
——作業(yè)調(diào)度應(yīng)在滿足業(yè)務(wù)需求的前提下,最大限度減少數(shù)據(jù)采集頻率,降低數(shù)據(jù)源負(fù)擔(dān);
——作業(yè)監(jiān)控應(yīng)充分考慮各采集任務(wù)存在的風(fēng)險點,制定監(jiān)控任務(wù),留存任務(wù)監(jiān)控記錄;
——作業(yè)管理應(yīng)能夠通過短信、郵件等方式進行異常告警,協(xié)助運維人員及時準(zhǔn)確發(fā)現(xiàn)問題;
——作業(yè)管理者應(yīng)定期對數(shù)據(jù)采集作業(yè)監(jiān)控記錄進行分析,制定作業(yè)優(yōu)化方法。
5.4采集技術(shù)要求
5.4.1綜述
醫(yī)療大數(shù)據(jù)平臺數(shù)據(jù)接入方式針對不同業(yè)務(wù)需求、數(shù)據(jù)源適配情況常見技術(shù)包括業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫備
份恢復(fù)、數(shù)據(jù)同步(如OGG、CDC等)、數(shù)據(jù)并行接入工具(Sqoop、DataX)、物化視圖、ETL(抽取工
具)、集成平臺等。
5.4.2備份恢復(fù)
備份恢復(fù)是通過數(shù)據(jù)庫備份技術(shù)對生產(chǎn)庫進行實時\定期備份后,建立備份數(shù)據(jù)后通過數(shù)據(jù)恢復(fù)技
術(shù)將數(shù)據(jù)恢復(fù)至大數(shù)據(jù)平臺,其應(yīng)滿足如下要求:
——備份恢復(fù)方式應(yīng)被應(yīng)用于大批量數(shù)據(jù)采集且對時效性要求不高的采集任務(wù);
——備份數(shù)據(jù)庫應(yīng)在提交給平臺前做好數(shù)據(jù)脫敏、加密處理等必要前期處理后,備份生產(chǎn)庫;
——數(shù)據(jù)源備份恢復(fù)時間應(yīng)避免在業(yè)務(wù)高峰時期,減少數(shù)據(jù)源負(fù)擔(dān)。
5.4.3數(shù)據(jù)同步
數(shù)據(jù)同步是通過傳統(tǒng)關(guān)系型數(shù)據(jù)庫自帶的數(shù)據(jù)同步技術(shù)進行實時數(shù)據(jù)同步,其應(yīng)滿足如下要求:
——數(shù)據(jù)同步應(yīng)被應(yīng)用于要求實時數(shù)據(jù)采集、吞吐量不大的采集任務(wù);
——數(shù)據(jù)同步應(yīng)支持OracleGoldenGate、MysqlBinlog、SqlserverCDC等數(shù)據(jù)同步技術(shù);
4
DBXX/TXXX—XXXX
——數(shù)據(jù)同步任務(wù)應(yīng)配置數(shù)據(jù)量效驗規(guī)則,防止數(shù)據(jù)同步過程中的數(shù)據(jù)丟失;
——數(shù)據(jù)同步應(yīng)提供秒級的數(shù)據(jù)延時。
5.4.4物化視圖
物化視圖是包括一個查詢結(jié)果的數(shù)據(jù)庫對象,它是遠程數(shù)據(jù)的的本地副本,通過物化視圖可以實現(xiàn)
數(shù)據(jù)從數(shù)據(jù)源復(fù)制到大數(shù)據(jù)平臺,其應(yīng)滿足如下要求:
——物化視圖復(fù)制應(yīng)包含只讀物化視圖復(fù)制、可更新物化視圖復(fù)制和可寫物化視圖復(fù)制;
——物化視圖對數(shù)據(jù)源侵入性較大、數(shù)據(jù)源負(fù)擔(dān)大、安全性差,應(yīng)在其他方式均無法滿足需求時
使用。
5.4.5ETL采集
ETL(ExtractTransformLoad)是一種流式數(shù)據(jù)采集,是一種高效的實時數(shù)據(jù)加工工具,可以實
現(xiàn)流式數(shù)據(jù)的抽取、數(shù)據(jù)轉(zhuǎn)換和加工、數(shù)據(jù)裝載,其應(yīng)該滿足如下要求:
——ETL工具應(yīng)包括數(shù)據(jù)抽取、轉(zhuǎn)換、加載功能;
——ETL工具應(yīng)提供圖形化界面,支持拖拽方式配置ETL任務(wù)節(jié)點;
——ETL工具transformation應(yīng)包含輸入、輸出、查詢、轉(zhuǎn)化、連接、腳本環(huán)節(jié);
——ETL工具應(yīng)支持自定義數(shù)據(jù)轉(zhuǎn)換方法,腳本環(huán)節(jié)應(yīng)支持javaScropt、python腳本編寫的數(shù)據(jù)
處理程序;
——ETL工具應(yīng)支持主流數(shù)據(jù)源對接;
——ETL工具應(yīng)支持向HIVE、Hbase、Greenplum等主流大數(shù)據(jù)平臺數(shù)據(jù)庫組件導(dǎo)入數(shù)據(jù)。
5.4.6集成平臺數(shù)據(jù)提取
醫(yī)院有集成平臺可以采用醫(yī)療大數(shù)據(jù)平臺從醫(yī)院集成平臺訂閱消息,獲取實時數(shù)據(jù)。
——集成平臺應(yīng)符合醫(yī)療行業(yè)標(biāo)準(zhǔn)接口定義規(guī)范;
——集成平臺消息傳輸應(yīng)該具備應(yīng)答機制,形成消息閉環(huán);
——消息通過接口傳輸需要進行加密,提高消息傳輸安全性;
——消息需要支持續(xù)傳,保證大數(shù)據(jù)平臺數(shù)據(jù)的準(zhǔn)確性及完整性。
5.5采集質(zhì)控要求
5.5.1為了保障數(shù)據(jù)采集接入時的數(shù)據(jù)質(zhì)量,應(yīng)在數(shù)據(jù)接入時完成數(shù)據(jù)質(zhì)量基礎(chǔ)檢查、字段級檢查、
表級檢查以保障數(shù)據(jù)的完整性、連續(xù)性、時效性,并進行數(shù)據(jù)采集質(zhì)檢實時告警及定期報告生成。
5.5.2基礎(chǔ)檢查包括:
——檢查數(shù)據(jù)采集范圍是否符合要求;
——檢查數(shù)據(jù)采集實時性是否滿足要求;
——檢查數(shù)據(jù)采集作業(yè)是否連續(xù);
——檢查數(shù)據(jù)采集作業(yè)是否存在異常;
5.5.3字段級檢查包括:
——針對數(shù)值型字段可通過計算檢查是否存在異常;
——針對業(yè)務(wù)關(guān)鍵字段可通過業(yè)務(wù)邏輯判斷檢查是否存在異常;
——針對主鍵、外鍵等關(guān)鍵字段可通過字段關(guān)聯(lián)檢查是否存在異常;
5.5.4表級檢查包括:
——表級采集可通過數(shù)據(jù)量檢查是否存在異常;
——
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年醫(yī)務(wù)室服務(wù)合同
- 2025年智能溫控家居設(shè)備項目可行性研究報告
- 2025年綠色建筑設(shè)計與實施可行性研究報告
- 2025年產(chǎn)業(yè)園區(qū)綜合服務(wù)平臺項目可行性研究報告
- 2025年電商供應(yīng)鏈優(yōu)化系統(tǒng)可行性研究報告
- 消費券發(fā)放協(xié)議書
- 純電車保價協(xié)議書
- 交房結(jié)算協(xié)議書
- 中韓薩德協(xié)議書
- 醫(yī)療器械注冊專員面試題及答案解析
- (2025年)養(yǎng)老護理員(初級)職業(yè)技能考核試題及答案
- 2026中國人民銀行直屬事業(yè)單位招聘60人筆試備考題庫帶答案解析
- 湖北省十一校2025-2026學(xué)年高三上學(xué)期12月質(zhì)量檢測語文試題及答案
- 疾控中心學(xué)校流感防控培訓(xùn)
- 【 數(shù)學(xué)】平行線的證明(第1課時)課件 2025-2026學(xué)年北師大版八年級數(shù)學(xué)上冊
- 2025年及未來5年市場數(shù)據(jù)中國焦化行業(yè)市場前景預(yù)測及投資方向研究報告
- 中長導(dǎo)管的維護和護理
- 兒科門診規(guī)章制度
- 頂管施工井模板施工方案
- 新能源汽車檢測與維修中級工培訓(xùn)大綱
- 2025年初級煤礦綜采安裝拆除作業(yè)人員《理論知識》考試真題(新版解析)
評論
0/150
提交評論