版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
DBXX/TXXX—XXXX
江西省醫(yī)療大數(shù)據(jù)平臺技術(shù)規(guī)范第八部分:人工智能臨床預(yù)測模型
構(gòu)建規(guī)范
1范圍
本標準規(guī)定了基于人工智能的臨床預(yù)測模型構(gòu)建的相關(guān)要求,包括臨床預(yù)測模型構(gòu)建的總則、框架、
規(guī)定了臨床預(yù)測模型構(gòu)建的目標定義、數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理和數(shù)據(jù)理解,特征工程、模型訓(xùn)練、效
果評價、以及模型的擴展與驗證等內(nèi)容。本標準適用于基于人工智能臨床預(yù)測模型體系的構(gòu)建。
本規(guī)范適用于人工智能臨床預(yù)測模型的建立;人工智能臨床預(yù)測模型建立過程的明確,人工智能臨
床預(yù)測模型實施落地的指導(dǎo);人工智能臨床預(yù)測模型的研發(fā)和評價。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T5271.31-2006信息技術(shù)詞匯第31部分:人工智能機器學習
GZBC/T37-2020醫(yī)療機構(gòu)數(shù)據(jù)治理規(guī)范
YD/T3762-2020大數(shù)據(jù)數(shù)據(jù)挖掘平臺技術(shù)要求與測試方法《國家健康醫(yī)療大數(shù)據(jù)標準、安全和服務(wù)
管理辦法(試行)》(國衛(wèi)規(guī)劃發(fā)〔2018〕23號)
3術(shù)語和定義
下列術(shù)語和定義適用于本文件。
3.1
醫(yī)療大數(shù)據(jù)medicalbigdata
在疾病防治過程中產(chǎn)生的與醫(yī)療相關(guān)的海量數(shù)據(jù)的集合。
3.2
結(jié)構(gòu)化數(shù)據(jù)structureddata
一種數(shù)據(jù)表示形式,按此種形式,由數(shù)據(jù)元素匯集而成的每個記錄的結(jié)構(gòu)都是一致的并且可以使用
關(guān)系模型予以有效描述。
[GB/T35295-2017,定義2.2.13]
3.3
人工智能arificialInteligence
1
DBXX/TXXX—XXXX
研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學。
人工智能是計算機科學的一個分支,它企圖了解智能的實質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方
式做出反應(yīng)的智能機器,該領(lǐng)域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。
3.4
自然語言處理naturallanguageprocessing
人工智能的分支學科,研究用計算機模擬人的語言交際過程,實現(xiàn)人與計算機之間用自然語言進行
有效通信的各種理論和方法。
3.5
機器學習machinelearning
功能單元通過獲取新知識或技能,或通過整理已有的知識或技能來改進其性能的過程。
[GB/T5271.31-2006定義,31.1.2]
3.6
深度學習deeplearning
機器學習中一種基于對數(shù)據(jù)進行表征學習的方法,通過組合低層特征形成更加抽象的高層表示屬
性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。
[GB/TCESA1119-2020定義,3.6]
3.7
有監(jiān)督學習supervisedlearning
指已有的樣本(數(shù)據(jù))已經(jīng)包含自身的特征變量(自變量)及正確的響應(yīng)變量(因變量)。
3.8
無監(jiān)督學習unsupervisedlearning
指已有的樣本(數(shù)據(jù))不包含因變量。
3.9
通用數(shù)據(jù)模型commondatamodel)
一種從多種來源的電子信息數(shù)據(jù)庫中提取特定信息的結(jié)構(gòu)和框架,它通過建立標準化的變量表單,
從海量數(shù)據(jù)中準確、快速、有效地提取科學研究或管理所需要的關(guān)鍵信息。
4縮略語
下列縮略語適用于本標準:
——AI人工智能ArificialIntelligence;
——NLP自然語言處理NaturalLanguageProcessing;
——AUC曲線下面積AreaUnderCurve;
——SPE特異度specificity;
2
DBXX/TXXX—XXXX
——SEN靈敏度Sensitivity;
——CNN卷積神經(jīng)網(wǎng)絡(luò)ConvolutionalNeuralNetworks;
——RNN循環(huán)神經(jīng)網(wǎng)絡(luò)RecurrentNeuralNetwork;
——GAN生成式對抗網(wǎng)絡(luò)GenerativeAdversarialNetworks;
——SVM支持向量機SupportVectorMachine;
——RF隨機森林RandomForest;
——XGBoost極端梯度提升樹eXtremeGradientBoosting;
——MAE平均絕對誤差MeanAbsoluteDeviation;
——MSE均方誤差MeanSquaredError;
——RSR方RSquared;
——CDM通用數(shù)據(jù)模型CommonDataModel。
5總則
5.1概述
臨床預(yù)測模型主要源于醫(yī)療大數(shù)據(jù)管理及應(yīng)用、疾病預(yù)防的需求,主要包括:
——醫(yī)療機構(gòu)數(shù)據(jù)產(chǎn)品化、資產(chǎn)化和價值化的要求;
——疾病三級預(yù)防的要求,主要為:
疾病預(yù)測模型給某病量化風險值(概率),為健康教育和行為干預(yù)提供更直觀、有力的科
學工具;
疾病診斷,借助無創(chuàng)的、低成本、易采集的指標,給出高靈敏度和特異度的診斷方案;
疾病預(yù)后預(yù)測,可對疾病的復(fù)發(fā)、死亡,傷殘以及出現(xiàn)并發(fā)癥的概率給出量化的估算。
5.2目標
5.2.1醫(yī)療數(shù)據(jù)的臨床預(yù)測模型的目標是保障應(yīng)用過程中的共同決策、精準篩選、質(zhì)量管理:
5.2.2共同決策:醫(yī)生和患者借助臨床預(yù)測模型可以更好的做出共同決策。
5.2.3精準篩選:臨床研究者可以更精準的篩選合適的研究對象。
5.2.4質(zhì)量管理:衛(wèi)生管理者更好的進行醫(yī)療質(zhì)量管理,合理的配置醫(yī)療資源。
5.3任務(wù)
醫(yī)療機構(gòu)應(yīng)通過目標定義、數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理和數(shù)據(jù)理解,特征工程、模型訓(xùn)練、效果評價、
以及模型的擴展與驗證的過程,實施臨床預(yù)測模型構(gòu)建的任務(wù),主要包括:
——通過將醫(yī)療過程中的問題轉(zhuǎn)化為適合人工智能項目的問題定義,并制定初步計劃;
——通過不同數(shù)據(jù)源采集模型構(gòu)建所需數(shù)據(jù);
——處理數(shù)據(jù)噪聲、數(shù)據(jù)冗余、數(shù)據(jù)丟失等問題,對數(shù)據(jù)進行初步分析與探索;
——通過特征工程獲取可解釋的優(yōu)質(zhì)特征;
——通過模型訓(xùn)練,并進行優(yōu)化;
——通過評價指標評估模型的性能;
——通過外部驗證集對模型驗證,并對模型進行不斷改進。
5.4原則
醫(yī)療臨床預(yù)測模型應(yīng)以數(shù)據(jù)質(zhì)量為核心、以數(shù)據(jù)安全為原則,實現(xiàn)應(yīng)用過程中的共同決策、精準篩
選和質(zhì)量管理的目標。
3
DBXX/TXXX—XXXX
6構(gòu)建框架
6.1醫(yī)學臨床預(yù)測模型構(gòu)建框架主要包括目標定義、數(shù)據(jù)的采集、臨床模型構(gòu)建、模型效果評價、模
型的驗證與更新。
圖1XXX
6.2目標定義:分析所需解決的實際問題,并制定相應(yīng)的計劃。
6.3數(shù)據(jù)采集:主要采集醫(yī)療業(yè)務(wù)數(shù)據(jù)、醫(yī)療影像數(shù)據(jù)、具有時序特征的生理信號數(shù)據(jù)。
6.4臨床預(yù)測模型構(gòu)建。
6.5數(shù)據(jù)理解:主要審查數(shù)據(jù)的維度、類型、屬性、分布情況、相關(guān)性等。
6.6數(shù)據(jù)預(yù)處理:主要包括數(shù)據(jù)的清洗、數(shù)據(jù)的變換。
6.7特征工程:主要包括特征提取、特征選擇。
6.8模型訓(xùn)練:主要包括機器學習模型、深度學習模型、統(tǒng)計學模型訓(xùn)練。
6.9模型效果評價:借助or值、P值、AUC、SPE、SEN等指標評估模型的性能。
6.10模型的驗證與更新:通過對模型的驗證,實現(xiàn)模型的更新。
7過程
7.1目標定義
目標定義應(yīng)該保持和業(yè)務(wù)規(guī)劃、信息技術(shù)規(guī)劃一致,并明確目標,并指定實施的策略:
——調(diào)研目前疾病預(yù)防的業(yè)務(wù)現(xiàn)狀和后續(xù)改進方向。
——將疾病預(yù)防問題轉(zhuǎn)化成臨床預(yù)測問題,明確臨床預(yù)測模型的類型,對于診斷類問題,其預(yù)測
因子與結(jié)局均在同一時點或很短的時間內(nèi),適合采用橫斷面研究數(shù)據(jù)構(gòu)建診斷模型;對于預(yù)后
類問題,其預(yù)測因子與結(jié)局有縱向的時間邏輯,適合采用隊列研究數(shù)據(jù)擬合預(yù)后模型。診斷模
型研究中,需要有“金標準”來單獨診斷疾病,且“金標準”的診斷應(yīng)該在“盲法”狀態(tài)下進
行,即“金標準”的診斷不能借助預(yù)測模型中的預(yù)測因子信息,以避免診斷評估偏倚(diagnostic
reviewbias)。預(yù)后模型研究中,預(yù)測因子與結(jié)局的本質(zhì)就是縱向關(guān)系,且研究者通常希望
獲得在自然狀態(tài)下疾病的轉(zhuǎn)歸,因此前瞻性隊列研究是預(yù)后模型最常見,也是最佳的研究設(shè)計
類型。
——制定臨床預(yù)測模型各期任務(wù)目標責任、實現(xiàn)內(nèi)容、實施方案等,設(shè)計實施中,若為新的研究,
應(yīng)從研究方案、研究者操作手冊、病例報告表、倫理批件等相關(guān)文件的準備開始,并進行數(shù)據(jù)
質(zhì)控與管理;若為基于既往數(shù)據(jù)的回顧性研究,也應(yīng)對數(shù)據(jù)質(zhì)量進行評估;
4
DBXX/TXXX—XXXX
——制定技術(shù)方案,并明確各階段的任務(wù)、責任和完成時間。
7.2數(shù)據(jù)的采集
數(shù)據(jù)的采集應(yīng)對數(shù)據(jù)進行治理,保證數(shù)據(jù)的完整性、唯一性、規(guī)范性、準確性、一致性:
——應(yīng)對采集的數(shù)據(jù)進行質(zhì)量控制、數(shù)據(jù)字典標準化工作。
——應(yīng)通過自然語言處理對文本數(shù)據(jù)進行處理,將病歷文書內(nèi)容、影像學報告等非結(jié)構(gòu)化文本進
行批量結(jié)構(gòu)化處理工作。
7.3構(gòu)建流程
構(gòu)建流程主要包括數(shù)據(jù)理解、數(shù)據(jù)預(yù)處理、特征工程、模型選擇、模型訓(xùn)練、模型部署,其中主
要為:
——要求對數(shù)據(jù)缺失情況、數(shù)據(jù)量、數(shù)據(jù)類型、數(shù)據(jù)屬性、數(shù)據(jù)分布、數(shù)據(jù)類別的平衡性、數(shù)據(jù)
之間的相關(guān)性進行初步了解,并在分析結(jié)束后生成數(shù)據(jù)分析文檔。
——主要進行數(shù)據(jù)清洗和數(shù)據(jù)變換,數(shù)據(jù)清洗要求處理數(shù)據(jù)中的錯誤點、冗余點、噪聲,缺失值,
并盡可能的符合原始數(shù)據(jù)的分布,數(shù)據(jù)變換要求根據(jù)實際業(yè)務(wù)情況,對數(shù)據(jù)進行規(guī)范化、離散
化、特征編碼等操作,確保能消除量綱和取值范圍差異的影響,反應(yīng)真實數(shù)據(jù)關(guān)系,增強模型
的穩(wěn)定性,降低過擬合風險。
——主要對特征進行提取和特征選擇,數(shù)據(jù)特征提取和特征選擇均要求降低模型訓(xùn)練的時間復(fù)雜
度、以較少的特征進行解釋模型解釋,不同的是,特征提取要求用新的特征去解釋原有的理論,
比較適合于醫(yī)學圖像特征提取。而特征選擇而是要求用原有的部分特征去解釋原有的理論,適
用于各種源數(shù)據(jù)的篩選。對于特征選擇,要有工具可以自動篩選出合適的候選特征,供科研人
員參考。
——模型選擇用于從多個備選模型中選擇預(yù)測準確且表現(xiàn)穩(wěn)定的模型。對于模型選擇,所使用的
建模工具需要包含豐富的深度學習模型、機器學習模型、統(tǒng)計學模型,同時要能根據(jù)所選擇的
模型自動生成建模過程文檔,讓科研人員能夠能夠直觀的判斷模型是否符合醫(yī)學認知。
——模型訓(xùn)練適合用于各種模型,包括深度學習模型、機器學習模型、統(tǒng)計學模型。其中深度學
習和機器學習要求對超參數(shù)進行優(yōu)化,直到訓(xùn)練成一個效果較好的模型;統(tǒng)計學模型要求參數(shù)
估計,深度學習模型使用的算法包括但不限于CNN、RNN、GAN;機器學習模型使用的算法包括
但不限于:SVM、RF、XGBoost;統(tǒng)計學模型使用的算法包括但不限于Logistic模型、Cox模
型。對于超參數(shù)優(yōu)化,需要有豐富的超參數(shù)調(diào)優(yōu)工具來輔助科研人員。
——模型部署后,才能真正讓人工智能模型應(yīng)用于臨床實踐中。由于并非所有醫(yī)院都能夠提供非
常強大的硬件資源,被部署模型要能提供相應(yīng)的功能適應(yīng)硬件配置較低的服務(wù)器。需要提供針
對較低配置服務(wù)器的訓(xùn)練和部署方案,通過適當犧牲一定的模型效果,完成模型訓(xùn)練和部署工
作。
7.4模型效果評價
不同的模型要求的評價指標不一致,其中:
——如果為機器學習、深度學習分類問題,常用的模型評價指標為準確率、AUC、SPE、SEN、F1-score
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年教育心理學考試學生心理輔導(dǎo)與教育策略
- 2026年電子商務(wù)電子商務(wù)運營與策略考試題庫
- 2026年IT行業(yè)技能水平測試模擬題集及答案
- 2026年國際健康管理技術(shù)與方法創(chuàng)新比較研究試題
- 2026年市場營銷策略與客戶關(guān)系管理試題
- 2026年審計專業(yè)筆試試題及答案解析
- 2026年環(huán)境工程學高級專業(yè)技能試題集
- 2026年體育賽事突發(fā)狀況的應(yīng)急處理考試題
- 2026年食品包裝安全標準模擬測試題
- 2026年環(huán)保工程師環(huán)境污染治理與預(yù)防試題
- 水電暖通消防工程施工組織設(shè)計方案
- 風電場高效風機選型方案
- 衛(wèi)生院消防安全教育
- 基于人工智能的腦卒中預(yù)后預(yù)測方案
- 食藥環(huán)民警個人工作總結(jié)
- 機械設(shè)計作業(yè)指導(dǎo)書
- 2025高二英語讀后續(xù)寫專項訓(xùn)練20篇
- 地理可持續(xù)發(fā)展學習教案(2025-2026學年)
- GB/T 31439.2-2025波形梁鋼護欄第2部分:三波形梁鋼護欄
- 2025組織生活會問題清單及整改措施
- 中遠海運 筆試題庫 2025
評論
0/150
提交評論