付費下載
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
ohdsi通用數(shù)據(jù)模型在腫瘤大數(shù)據(jù)中的應(yīng)用
1大規(guī)?;颊邤?shù)據(jù)分析的標準化與互聯(lián)互通隨著計算機化的發(fā)展,醫(yī)療機構(gòu)擁有大量的醫(yī)療數(shù)據(jù)。電子醫(yī)療記錄是醫(yī)療領(lǐng)域信息技術(shù)的典型產(chǎn)物,已成為醫(yī)療數(shù)據(jù)的主要來源,具有重要的分析價值。自中國國家癌癥中心成立至今,逐步匯集了中國各級腫瘤醫(yī)院的健康信息系統(tǒng)的數(shù)據(jù),并逐步開展數(shù)據(jù)規(guī)范化治理以支持數(shù)據(jù)間的互聯(lián)互通和臨床大數(shù)據(jù)的分析與應(yīng)用。多中心、多來源患者數(shù)據(jù)聯(lián)合分析是開展大規(guī)?;颊邤?shù)據(jù)分析的重要方式,傳統(tǒng)的多中心臨床研究是由多個獨立的研究中心、多個研究者按照統(tǒng)一實驗方法在不同的地點和單位同步進行、同步結(jié)束的臨床試驗。當前大規(guī)?;颊邤?shù)據(jù)分析則建立在回顧性研究的基礎(chǔ)上,依托自動化技術(shù)智能采集、獲取、處理、整合、分析和呈現(xiàn)來自多家醫(yī)院異構(gòu)信息系統(tǒng)的數(shù)據(jù)。因此,大規(guī)?;颊邤?shù)據(jù)的規(guī)范化、一致性,標準化和互聯(lián)互通問題成為數(shù)據(jù)分析的重要基礎(chǔ),只有標準化的數(shù)據(jù)表示和量化指標,多來源數(shù)據(jù)采集、分析才更精準,研究結(jié)果才具有客觀性、準確性和普遍性。采用標準化的數(shù)據(jù)聯(lián)合研究,可促進研究者制定合理的科研分析策略,產(chǎn)生的成果價值更高。然而,電子化的患者數(shù)據(jù)存在規(guī)模大、結(jié)構(gòu)差異性大、術(shù)語不統(tǒng)一等特點,導致數(shù)據(jù)利用率較低“觀察性健康醫(yī)療數(shù)據(jù)研究”項目(ObservationalHealthDataandInformatics,OHDSI)是多方參與者進行跨學科合作研究的全球性非盈利科研組織2數(shù)據(jù)和方法2.1變化的準化數(shù)據(jù)庫OHDSICDM是一套具有統(tǒng)一標準的數(shù)據(jù)模型,可規(guī)范觀察性數(shù)據(jù)的格式和內(nèi)容,目的是將不同的觀察性數(shù)據(jù)庫包含的數(shù)據(jù)轉(zhuǎn)換為通用格式以及統(tǒng)一的術(shù)語,然后使用同一個標準化數(shù)據(jù)庫進行系統(tǒng)分析。遵循OHDSICDM標準模型的約束和規(guī)則,本研究將來自于4家醫(yī)院的8202例前列腺癌患者數(shù)據(jù)轉(zhuǎn)換為OHDSICDM所支持的標準化存儲結(jié)構(gòu)和標準化術(shù)語編碼。多種類型的患者數(shù)據(jù)被轉(zhuǎn)化到統(tǒng)一的CDM結(jié)構(gòu)中,且與OHDSI推薦的編碼標準體系的標準術(shù)語建立映射。自然語言處理技術(shù)(NaturalLanguageProcessing,NLP)實現(xiàn)了電子病歷內(nèi)容的自動識別和提取,NLP提取的內(nèi)容和結(jié)構(gòu)化的人口統(tǒng)計學、診斷與治療方案等信息共同整合,用于研究分析。2.2學習方法2.2.1醫(yī)學術(shù)語臨床術(shù)語OHDSICDM目前已經(jīng)發(fā)展到第六版,包含了標準化詞匯表、標準化元數(shù)據(jù)、標準化臨床數(shù)據(jù)表、標準化健康系統(tǒng)數(shù)據(jù)表、標準化健康經(jīng)濟表和標準化派生元素等6大類,共39張表,見圖1。CDM中包含大量的醫(yī)學術(shù)語標準并支持開放獲取,可供各參與機構(gòu)使用,其中包含世界衛(wèi)生組織(WHO)制定的“國際疾病分類與代碼(ICD-10/ICD-9)”;由國際醫(yī)學術(shù)語標準化與研發(fā)組織制定的“系統(tǒng)化醫(yī)學術(shù)語集——臨床術(shù)語版(SNOMEDCT)”;由美國國立醫(yī)學圖書館制定的“醫(yī)學主題詞表(MeSH)”“觀測指標標識符邏輯命名與編碼系統(tǒng)(LOINC)”人類表型本體(HPO);美國國立醫(yī)學圖書館(NLM)編制的臨床藥品規(guī)范化命名表(RxNorm)等100余個醫(yī)學術(shù)語表,為患者數(shù)據(jù)的分析和利用提供標準化映射的術(shù)語支持,患者數(shù)據(jù)依據(jù)統(tǒng)一的編碼體系和轉(zhuǎn)化規(guī)則被標準化為一致的概念,這些概念之間由OHDSI的研發(fā)人員基于當前可開放獲取的術(shù)語知識體系匯聚構(gòu)建了概念之間復雜的語義關(guān)系,基于OHDSI統(tǒng)一的術(shù)語表達和豐富的語義關(guān)系,后續(xù)可開展數(shù)據(jù)的互聯(lián)互通,檢索獲取大規(guī)模的數(shù)據(jù)分析與利用。2.2.2數(shù)據(jù)采集及預處理本研究涉及不同來源的前列腺癌患者數(shù)據(jù),包含HIS、EMR、LIS、PACS、病理和隨訪在內(nèi)的醫(yī)療數(shù)據(jù),通過與多來源的原始數(shù)據(jù)分別建立數(shù)據(jù)接口,實現(xiàn)自動采集,在數(shù)據(jù)采集后進行內(nèi)容校驗,對不符合CDM預設(shè)的數(shù)據(jù)類型進行預處理,對診斷名稱、診斷類型、用藥名稱、用藥單位、手術(shù)名稱、檢驗名稱、檢驗單位、就診類型等需要轉(zhuǎn)換的醫(yī)學術(shù)語進行清洗、拆分、大小寫合并等預處理,生成數(shù)據(jù)表。2.2.3elt的在線映射數(shù)據(jù)的抽取、轉(zhuǎn)換和加載(Extraction-TransformationLoading,ELT)是實現(xiàn)來源數(shù)據(jù)表向標準化數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換的過程,基于預處理后的數(shù)據(jù),將來源字段與CDM字段進行映射,本實驗開發(fā)自動ETL的實施工具,支持將來源數(shù)據(jù)導入OHDSICDM中,且支持數(shù)據(jù)后續(xù)的更新。此外,CDM定義了多種級別的數(shù)據(jù)字典,對應(yīng)每個數(shù)據(jù)表都有詳細的約束和限定2.2.4映射術(shù)語體系在來源數(shù)據(jù)ETL到標準化數(shù)據(jù)庫結(jié)構(gòu)的基礎(chǔ)上,我們的實踐還包括將所有腫瘤來源術(shù)語(如ICD-10診斷編碼、手術(shù)、醫(yī)囑、疾病史等)映射轉(zhuǎn)換成CDM術(shù)語表中支持的標準化概念。在映射的過程中,為確保多人協(xié)同映射的一致性,我們分別針對不同類型的映射術(shù)語制定了映射操作指南,以確保多人遵循一致的映射原則、映射操作方式、映射結(jié)果記錄方式等。在選取映射術(shù)語體系方面,我們針對OHDSI為不同的臨床數(shù)據(jù)類型預設(shè)概念Domain和Class(Domain代表臨床術(shù)語本質(zhì)含義所對應(yīng)的臨床領(lǐng)域,Class可用來區(qū)分不同的術(shù)語表版本,也可以用來區(qū)分概念的臨床類別),選取了概念域分別推薦的標準術(shù)語表:SNOMEDCT、RxNorm和UCUM。SNOMEDCT,即醫(yī)學系統(tǒng)命名法——臨床術(shù)語,是應(yīng)用最廣泛的術(shù)語體系,它提供了一套全面統(tǒng)一的醫(yī)學術(shù)語系統(tǒng),涵蓋大多數(shù)的臨床信息,如疾病診斷、檢驗、操作等,包含但不限于腫瘤領(lǐng)域;RxNorm是藥物的主要標準詞匯,RxNorm提供的是臨床藥物(活性成分+強度+劑型)以及劑型的標準名稱,它不限于腫瘤化療藥物,也不包含成套的治療方案。在本研究中,我們通過選取單一的化療藥物進行組合的方式獲得化療方案。統(tǒng)一計量單位代碼(TheUnifiedCodeforUnitsofMeasure,UCUM)是一種編碼系統(tǒng),在本研究中被用于檢驗結(jié)果單位的統(tǒng)一,UCUM旨在統(tǒng)一包括科學、工程和商業(yè)中使用的所有計量單位,目的是為了便于對數(shù)量及其單位進行明確的互通。前列腺癌數(shù)據(jù)標準化映射采用的術(shù)語見表1。3cdm標準化數(shù)據(jù)庫本研究開發(fā)了自動轉(zhuǎn)換的數(shù)據(jù)庫腳本支持ETL的自動實施。實驗環(huán)境為:OHDSICDM數(shù)據(jù)庫6.0版(發(fā)布于2018年10月)和ORACLE相關(guān)數(shù)據(jù)庫環(huán)境。通過ETL設(shè)計建立字段映射表,從數(shù)據(jù)源提取所需數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗將源數(shù)據(jù)集內(nèi)容轉(zhuǎn)換成符合CDM表結(jié)構(gòu)的格式。非結(jié)構(gòu)化數(shù)據(jù)經(jīng)過NLP處理也完成了向結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)化。由醫(yī)學人員創(chuàng)建來源術(shù)語到標準術(shù)語的映射,映射過程見表2。經(jīng)人工審核校對后的映射關(guān)系被加載到CDM中形成標準化數(shù)據(jù)庫。目前,前列腺癌數(shù)據(jù)轉(zhuǎn)化的結(jié)果見表3。4其他腫瘤領(lǐng)域的應(yīng)用本研究以前列腺癌患者數(shù)據(jù)為例,開展了腫瘤數(shù)據(jù)向OHDSICDM轉(zhuǎn)化的可行性研究與實踐,探索結(jié)論為我們研究其他癌種以及腫瘤通用的CDM奠定了應(yīng)用基礎(chǔ)。在實踐過程中,我們發(fā)現(xiàn)因為橫跨不同的觀測數(shù)據(jù)庫進行多中心聯(lián)合研究是一項從技術(shù)層到組織層都面臨的挑戰(zhàn),OHDSICDM作為一種標準化機制來規(guī)范觀察性數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和語義,使得一致的術(shù)語表達和統(tǒng)一的數(shù)據(jù)分析、跨機構(gòu)數(shù)據(jù)互操作、遠程協(xié)作和高效率計算成為可能。通過本研究,我們探索了一種腫瘤數(shù)據(jù)向通用數(shù)據(jù)模型轉(zhuǎn)化的模式,后續(xù)會將其推廣至其他腫瘤或疾病領(lǐng)域?;贠HDSICDM開展的數(shù)據(jù)研究層出不窮,例如通過觀察多樣化的人群實現(xiàn)大規(guī)模表征治療途徑研究,一線抗高血壓藥物功效和安全性的綜合比較,2型糖尿病患者中血紅蛋白A1c水平與不同藥物的關(guān)聯(lián)研究在實踐過程中,我們也發(fā)現(xiàn)OHDSICDM和通用術(shù)語表在腫瘤領(lǐng)域的應(yīng)用仍有局限,特別是數(shù)據(jù)結(jié)構(gòu)不全面和中文標準術(shù)語匱乏的問題,特定的腫瘤診療流程和術(shù)語仍有不能完全存儲和準確映射的情況,醫(yī)學人員進行術(shù)語映射時存在耗時長、成本高、語義理解不一致的問題。因此,在標準化數(shù)據(jù)建模方面,我們下一步將針對腫瘤數(shù)據(jù),專門探索OHDSI的CDMOncolo
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 汽車維修與保養(yǎng)知識考試題2026年版
- 2026年人力資源管理師職稱評審人才測評與選聘能力測試題
- 2026年廣東南華工商職業(yè)學院單招職業(yè)傾向性測試模擬測試卷附答案
- 2026年廣西國際商務(wù)職業(yè)技術(shù)學院單招職業(yè)適應(yīng)性考試題庫及答案1套
- 2026年語言學習基礎(chǔ)知識點題庫如英語法語等
- 2026年智慧城市交通規(guī)劃題庫城市交通建設(shè)與安全保障
- 2026年天然氣泄漏緊急處理程序考試題
- 2026年商業(yè)策劃師認證題庫企業(yè)戰(zhàn)略規(guī)劃與執(zhí)行
- 2026年軟件工程師中級職稱考試軟件設(shè)計模式方向
- 2026年化工生產(chǎn)設(shè)備電氣控制系統(tǒng)練習題
- 長護險人員管理培訓制度
- 2026河南大學附屬中學招聘77人備考題庫附答案
- 網(wǎng)絡(luò)安全運維與管理規(guī)范(標準版)
- 2026年包頭職業(yè)技術(shù)學院高職單招職業(yè)適應(yīng)性考試模擬試題含答案解析
- 2026年XX醫(yī)院兒科護理工作計劃
- 2025-2026學年貴州省安順市多校高一(上)期末物理試卷(含答案)
- 呼吸機相關(guān)肺炎預防策略指南2026
- 妊娠期缺鐵性貧血中西醫(yī)結(jié)合診療指南-公示稿
- 北京市2025年七年級上學期期末考試數(shù)學試卷三套及答案
- 2026年上海理工大學單招職業(yè)適應(yīng)性測試題庫附答案
- TCEC電力行業(yè)數(shù)據(jù)分類分級規(guī)范-2024
評論
0/150
提交評論