醫(yī)學(xué)圖像診斷報告智能生成方法_第1頁
醫(yī)學(xué)圖像診斷報告智能生成方法_第2頁
醫(yī)學(xué)圖像診斷報告智能生成方法_第3頁
醫(yī)學(xué)圖像診斷報告智能生成方法_第4頁
醫(yī)學(xué)圖像診斷報告智能生成方法_第5頁
已閱讀5頁,還剩31頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

醫(yī)學(xué)圖像診斷報告生成智能方法第1章緒論1.1背景及意義隨著醫(yī)學(xué)影像技術(shù)迅速進步,計算機斷層掃描(CT)、磁共振成像(MRI)、X光等技術(shù)在臨床診斷中的應(yīng)用日漸普及,形成了巨量的醫(yī)學(xué)影像數(shù)據(jù),全球醫(yī)療影像數(shù)據(jù)量正以每年30%的速率呈上升趨勢,單單胸部X光片每年的新增數(shù)量就達(dá)數(shù)十億例以上。這些數(shù)據(jù)不只是疾病診斷的核心依據(jù),還是醫(yī)療信息化建設(shè)的核心內(nèi)容,我國于《中共中央關(guān)于制定國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和二〇三五年遠(yuǎn)景目標(biāo)的建議》文件里,指明了在醫(yī)療健康大數(shù)據(jù)背景形勢下,普遍布局智慧醫(yī)療場景的發(fā)展計劃。在國家五年規(guī)劃的“大數(shù)據(jù)驅(qū)動的管理與決策研究”重大項目里,醫(yī)療健康大數(shù)據(jù)的理論及方法研究被列為重點范疇,尤其留意借助數(shù)據(jù)分析、人工智能、深度學(xué)習(xí)等前沿技術(shù)來進行醫(yī)療診斷和醫(yī)學(xué)影像報告的自動生成,目標(biāo)為實現(xiàn)理論和方法的創(chuàng)新型突破REF_Ref32140\r\h[1]。放射科醫(yī)生面對海量影像的處理工作時挑戰(zhàn)巨大,傳統(tǒng)影像報告生成需醫(yī)生手動對圖像進行分析并撰寫文本說明,這一程序耗時又耗力——一份復(fù)雜的CT報告平均需要15-20分鐘才能完成撰寫,而且還易受醫(yī)生經(jīng)驗、疲勞這類主觀因素的干擾,引起報告質(zhì)量參差不齊,伴隨分級診療政策的推行,基層醫(yī)院對標(biāo)準(zhǔn)化、高質(zhì)量影像報告的需求正變得十分迫切,但專業(yè)放射科醫(yī)生短缺使供需矛盾進一步加劇。圖1.1醫(yī)學(xué)報告生成過程現(xiàn)有的自動化報告生成模式大多采用“編碼器-解碼器”框架,采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取圖像特征,再借助循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)或Transformer去生成文本,這類方法大多面臨跨模態(tài)對齊不足的難題:圖像區(qū)域跟文本描述的語義對應(yīng)關(guān)系不易顯式建模,引發(fā)生成報告中存在“特征遺漏”。深度學(xué)習(xí)和跨模態(tài)表征學(xué)習(xí)的發(fā)展為解決這個問題找到了新路徑,跨模態(tài)記憶網(wǎng)絡(luò),CMN借助引入共享記憶矩陣,可顯式記錄圖像區(qū)域跟文本詞匯的匹配情形,在編碼及解碼操作時動態(tài)查詢跨模態(tài)資訊,由此增強報告的準(zhǔn)確性與臨床相符性,設(shè)立基于跨模態(tài)記憶網(wǎng)絡(luò)的放射科報告生成系統(tǒng)具有重要的臨床價值及社會意義:提升診斷效率:自動生成結(jié)構(gòu)化報告能把醫(yī)生報告撰寫的時間縮短,使醫(yī)生更加專心投入復(fù)雜病例分析,化解基層醫(yī)院放射科資源緊張的矛盾;保障報告質(zhì)量:依靠顯式塑造圖像-文本的對齊關(guān)系,降低人為出錯概率,讓結(jié)節(jié)、積液等關(guān)鍵病癥的識別檢出率升高,減小誤診的幾率;面對醫(yī)學(xué)影像數(shù)據(jù)迅猛增長與臨床報告生成的效率、質(zhì)量方面的需求,研究跨模態(tài)記憶網(wǎng)絡(luò)在放射科報告生成當(dāng)中的應(yīng)用具備迫切的現(xiàn)實意義,采用融合深度學(xué)習(xí)與跨模態(tài)表征技術(shù)的手段,此研究有望攻克傳統(tǒng)方法的瓶頸,為智能醫(yī)療系統(tǒng)提供核心技術(shù)后盾,引導(dǎo)醫(yī)學(xué)影像診斷向自動化、精準(zhǔn)化方向拓展。1.2國內(nèi)外研究現(xiàn)狀1.2.1放射科報告生成技術(shù)發(fā)展歷程放射科報告生成作為醫(yī)學(xué)影像分析跟自然語言生成的交叉性領(lǐng)域,其研究從對圖像captioning技術(shù)進行醫(yī)學(xué)場景的適配開始,早期的研究主要采用傳統(tǒng)圖像描述的編碼器-解碼器(Encoder-Decoder)架構(gòu),把卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取的視覺特征輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN/LSTM)之中生成文本報告。Vinyals等人提出的ShowandTell模型,首次把此范式運用到醫(yī)學(xué)影像范疇,依靠CNN提取胸部X光片的全部特征,隨后用LSTM逐詞生成影像報告REF_Ref32255\r\h[2],此類方法僅僅可以捕捉圖像的整體語義含義,不容易定位局部病變區(qū)域跟文本描述的對應(yīng)關(guān)聯(lián),引發(fā)生成報告中關(guān)鍵病癥(像肺結(jié)節(jié)、胸腔積液)出現(xiàn)較高漏診率。伴隨注意力機制的興起,研究者開始關(guān)心圖像區(qū)域跟文本詞匯的對齊問題,Anderson等人打造的Top-Down注意力模型引入分層注意力機制,允許解碼器動態(tài)把焦點放在圖像的特定區(qū)域,顯著增強了局部特征的利用效能REF_Ref32323\r\h[3],在醫(yī)學(xué)范疇,Jing等人(2018)首次把協(xié)同注意力(Co-attention)機制運用到放射科報告生成里,運用多任務(wù)學(xué)習(xí)同步優(yōu)化視覺與語義這兩種注意力,做到了圖像斑塊與報告短語的清晰對齊,該方法在IUX-Ray數(shù)據(jù)集上的BLEU-4分?jǐn)?shù)比早期模型提高了12.3%,但仍舊存在跨模態(tài)映射稀疏的問題——當(dāng)圖像包含多個病變區(qū)域時,協(xié)同注意力不易精準(zhǔn)建立復(fù)雜的模態(tài)間依賴關(guān)系REF_Ref32392\r\h[4]。記憶網(wǎng)絡(luò)(MemoryNetworks)的成長為跨模態(tài)對齊開拓了新路徑,傳統(tǒng)記憶網(wǎng)絡(luò)(Weston等人提出)借助外部記憶矩陣保存知識,在自然語言處理任務(wù)中顯示出強大的長距離依賴建模能力REF_Ref32447\r\h[5],Chen等人開發(fā)了R2GEN模型,把記憶模塊融入解碼器,通過動態(tài)查詢歷史生成的文本記憶讓報告連貫性提升REF_Ref32493\r\h[6],此模型僅在文本的那一端引入記憶,未顯式對圖像與文本的跨模態(tài)共享信息做建模處理,導(dǎo)致圖像特征跟文本生成的交互依然不充分。就這一挑戰(zhàn)而言,本文所提出的跨模態(tài)記憶網(wǎng)絡(luò)(CMN)首次設(shè)計出共享記憶矩陣,用以記錄圖像區(qū)域跟文本詞匯的對齊情況,跟傳統(tǒng)的做法不一樣,CMN在編碼和解碼環(huán)節(jié)同步開展記憶查詢與響應(yīng)工作:編碼器借助視覺特征查詢記憶矩陣,拿到和圖像區(qū)域?qū)?yīng)的文本語義先驗;解碼器憑借生成的文本詞匯反向進行記憶查詢,提取相應(yīng)匹配的視覺上下文,實現(xiàn)跨模態(tài)信息的雙向交互。領(lǐng)域里的研究呈現(xiàn)出兩大走向:一是通過預(yù)訓(xùn)練語言模型(如BioBERT)增強對醫(yī)學(xué)術(shù)語的認(rèn)知REF_Ref32549\r\h[7];二是探究使用圖神經(jīng)網(wǎng)絡(luò)(GNN)來建模影像特征和疾病知識之間的圖結(jié)構(gòu)關(guān)系REF_Ref32634\r\h[8]?,F(xiàn)用的方法仍面臨三個難題:(1)長報告生成過程中的語義漂移狀況;(2)罕見病況的跨模態(tài)對齊稀疏狀況;(3)臨床術(shù)語標(biāo)準(zhǔn)化與生成靈活性的均衡把控,本文所提出的CMN依靠共享記憶機制,有效減輕了前兩大問題,為后續(xù)的研究開辟了新的技術(shù)路線。1.2.2基于深度學(xué)習(xí)的醫(yī)學(xué)影像報告生成方法伴隨深度學(xué)習(xí)在計算機視覺與自然語言處理領(lǐng)域?qū)崿F(xiàn)突破,以深度學(xué)習(xí)為基礎(chǔ)的醫(yī)學(xué)影像報告生成方法慢慢成為主流,其核心之處在于通過端到端訓(xùn)練達(dá)成影像特征跟文本語義的跨模態(tài)映射,按照技術(shù)路徑的差異,可以歸成以下三類:(1)采用編碼器-解碼器(Encoder-Decoder)的基礎(chǔ)框架早期的深度學(xué)習(xí)方法普遍采用“CNN和RNN”組合,就如Vinyals等人推出的ShowandTell模型,采用ResNet提取影像的全局特征,隨后用LSTM逐詞生成報告內(nèi)容REF_Ref32255\r\h[2],該類手段在胸部X射線等結(jié)構(gòu)相對單純的影像中初步體現(xiàn)出有效性,但存在兩個主要缺陷:全局特征表征不足:僅搜集影像的整體語義含義,難以明確肺結(jié)節(jié)、骨折等局部病變區(qū)域跟文本描述的對應(yīng)關(guān)聯(lián),造成關(guān)鍵病癥漏診的概率較高;序列生成能力有限:RNN的循環(huán)結(jié)構(gòu)造成長距離依賴建模能力較差,生成的報告往往出現(xiàn)語法錯誤或者邏輯斷層現(xiàn)象。為優(yōu)化序列生成的水平,研究人員引入Transformer以替換RNN,利用自注意力機制把握全局依賴,Chen等人構(gòu)建的R2GEN模型采用三層Transformer解碼器,采用記憶模塊動態(tài)查找歷史生成文段,讓報告的連貫性上升了15%,影像與文本的跨模態(tài)對齊難題依舊沒解決REF_Ref32493\r\h[6]。(2)注意力機制驅(qū)動的跨模態(tài)對齊優(yōu)化注意力機制的采用標(biāo)志著跨模態(tài)對齊技術(shù)的重大突破,Anderson等人的Top-Down注意力模型第一次實現(xiàn)圖像區(qū)域跟文本詞匯的動態(tài)聚焦,準(zhǔn)許解碼器按照生成詞查詢相應(yīng)的影像斑塊,讓局部病變描述的準(zhǔn)確率攀升22%REF_Ref32323\r\h[3]。在醫(yī)學(xué)范疇,Jing等人提出協(xié)同注意力(Co-attention)此種機制,以多任務(wù)學(xué)習(xí)的方式同步優(yōu)化視覺與語義注意力,在IUX-Ray數(shù)據(jù)集達(dá)成圖像斑塊與報告短語的顯式對應(yīng),與早期模型相比,BLEU-4分?jǐn)?shù)提高了12.3%REF_Ref32392\r\h[4]。傳統(tǒng)注意力機制存在“對齊稀疏性”這一棘手問題:若影像中存在多個病變區(qū)域,注意力權(quán)重易聚焦在單一明顯區(qū)域,造成次要病變檢測出現(xiàn)漏檢,研究者們提出分層注意力,就如同Liu等人憑借多級注意力逐步細(xì)化病變的定位,把復(fù)雜病例關(guān)鍵特征的召回率提升至85%,然而模型復(fù)雜度呈現(xiàn)明顯增長,計算方面的成本頗高REF_Ref32634\r\h[8]。(3)記憶網(wǎng)絡(luò)跟跨模態(tài)表征學(xué)習(xí)實現(xiàn)深度融合記憶網(wǎng)絡(luò)(MemoryNetworks)的崛起為跨模態(tài)信息存儲與交互給出了新范式,Weston等人提出的端到端記憶網(wǎng)絡(luò)借助外部記憶矩陣來存儲知識,在自然語言推理時展現(xiàn)長距離依賴建模能力REF_Ref32447\r\h[5],醫(yī)學(xué)影像報告生成領(lǐng)域誕生了兩類創(chuàng)新事物:文本端記憶增強:諸如R2GEN模型在解碼器當(dāng)中嵌入記憶模塊,保存歷史時期生成的文本語義,增強報告上下文的連貫性,但并未顯式地將影像和文本的跨模態(tài)共享信息進行建模REF_Ref32493\r\h[6]??缒B(tài)記憶建模:本文提出的CMN模型首次著手設(shè)計共享記憶矩陣,一同記錄影像區(qū)域特征跟文本詞匯的對齊聯(lián)系,編碼器憑借視覺特征查詢記憶矩陣,拿到對應(yīng)的文本語義先驗;解碼器按照生成的詞匯反向開展對記憶的查詢,采集對應(yīng)的視覺背景資料,造就跨模態(tài)信息的雙向流轉(zhuǎn)。(4)預(yù)訓(xùn)練模型與領(lǐng)域知識融合趨勢諸如BioBERT、MedBERT這類預(yù)訓(xùn)練語言模型,在醫(yī)學(xué)文本理解中彰顯強大能力,Lee等人把BioBERT與視覺編碼器組合在一起,經(jīng)由掩碼語言模型預(yù)訓(xùn)練強化醫(yī)學(xué)術(shù)語的理解,使生成報告中臨床術(shù)語的準(zhǔn)確率從72%提至85%REF_Ref32549\r\h[7]。圖神經(jīng)網(wǎng)絡(luò)(GNN)開始把應(yīng)用拓展到影像特征和疾病知識的圖結(jié)構(gòu)建模,Liu等人搭建了“影像斑塊-疾病-術(shù)語”知識圖譜,憑借圖卷積網(wǎng)絡(luò)捕捉病變特征跟臨床診斷的關(guān)聯(lián)關(guān)系,在進行罕見病癥(如間質(zhì)性肺炎)報告生成時,F(xiàn)1值提升18%REF_Ref32634\r\h[8]。1.3臨床醫(yī)學(xué)影像報告生成任務(wù)存在的主要問題雖然現(xiàn)有的方法獲得顯著進展,但面對臨床方面的復(fù)雜場景,依舊存在四個核心挑戰(zhàn):(1)跨模態(tài)對齊的精確性不足傳統(tǒng)注意力機制與協(xié)同對齊方法依靠隱式映射,難以對“影像紋理特征-病理機制-臨床術(shù)語”多層級關(guān)聯(lián)進行有效建模,“肺部網(wǎng)格狀陰影”大概對應(yīng)“特發(fā)性肺纖維化”或者“慢性炎癥”,現(xiàn)有模型常因跨模態(tài)語義方面的鴻溝引起診斷混淆,在存在多種病變的病例中易診斷錯誤。(2)長報告生成的語義漂移問題醫(yī)學(xué)影像報告平均的字?jǐn)?shù)超過了50詞,傳統(tǒng)Transformer解碼器在生成過程里容易出現(xiàn)語義上的偏離,顯示為前期所描述的“胸腔積液”在后續(xù)段落中被錯誤聯(lián)系為“心臟肥大”,引發(fā)報告邏輯出現(xiàn)斷層現(xiàn)象,現(xiàn)有的記憶模塊僅僅聚焦短期上下文,對長序列全局語義一致性維護的能力不達(dá)標(biāo)。(3)罕見病癥的跨模態(tài)數(shù)據(jù)稀疏性就發(fā)病率低于1%的罕見病,公開數(shù)據(jù)集中對應(yīng)的樣本數(shù)量不到200例,造成跨模態(tài)記憶矩陣訓(xùn)練的充分性不足,模型不易捕捉它的特異性影像-文本映射關(guān)系。(4)臨床術(shù)語標(biāo)準(zhǔn)化與生成靈活性的平衡臨床報告需按照DICOM等國際標(biāo)準(zhǔn)術(shù)語,就像“effusion”應(yīng)統(tǒng)一翻譯作“積液”,但現(xiàn)存的模型往往生成口語化的用詞,各醫(yī)院對報告格式(比如“findings”與“印象”的順序關(guān)系)和詳略程度的需求呈現(xiàn)差異,要求模型在標(biāo)準(zhǔn)化與個性化兩者間實現(xiàn)動態(tài)平衡。1.4本文研究內(nèi)容1.設(shè)計一套跨模態(tài)記憶網(wǎng)絡(luò)架構(gòu):提出一種全新的跨模態(tài)記憶網(wǎng)絡(luò)架構(gòu),此架構(gòu)囊括視覺特征提取模塊、共享記憶矩陣構(gòu)建模塊、多線程查詢響應(yīng)機制以及Transformer編解碼器的記憶融合策略,視覺特征提取模塊借助預(yù)訓(xùn)練的CNN模型,好比ResNet-101,把醫(yī)學(xué)影像分割成空間局部特征序列,為后續(xù)的跨模態(tài)交互提供多樣的視覺基礎(chǔ)特征。共享記憶矩陣清晰記錄影像區(qū)域跟文本詞匯的對應(yīng)關(guān)系,突破傳統(tǒng)方法跨模態(tài)映射稀疏的瓶頸,多線程查詢響應(yīng)機制可實現(xiàn)并行處理方式,提高影像與文本特征在記憶矩陣?yán)锏慕换バ屎蛯R精準(zhǔn)度,Transformer編解碼器采用獨特的記憶融合手段,在編碼器當(dāng)中強化視覺特征能力,融入文本語義相關(guān)的先驗,在解碼器把編碼器輸出跟記憶響應(yīng)中的視覺上下文信息組合起來,產(chǎn)出高質(zhì)量的醫(yī)學(xué)影像報告。2.求解跨模態(tài)記憶網(wǎng)絡(luò)數(shù)學(xué)模型:對跨模態(tài)記憶網(wǎng)絡(luò)的記憶查詢、響應(yīng)以及編解碼融合環(huán)節(jié)開展數(shù)學(xué)建模,在記憶檢索階段,把視覺特征跟文本特征映射到相同特征空間,依靠縮放點積相似度計算跟記憶向量的關(guān)聯(lián)度,并依靠Softmax函數(shù)生成關(guān)注權(quán)重。記憶反饋階段,依照查詢權(quán)重對記憶向量進行線性的組合操作,達(dá)成“影像→記憶→文本”與“文本→記憶→影像”的雙向映射,編解碼融合公式采用殘差連接及位置編碼,讓記憶信息和序列時序特征實現(xiàn)有效融合,讓模型可生成邏輯連貫、與影像內(nèi)容相契合的報告。3.優(yōu)化模型的參數(shù)跟訓(xùn)練流程:全面深入研究模型參數(shù)與復(fù)雜度,諸如記憶矩陣參數(shù)的設(shè)定情形對模型性能的影響,觀察到當(dāng)記憶矩陣維度N設(shè)定為2048且記憶向量維度d設(shè)定為512時,模型在性能跟計算復(fù)雜度上達(dá)到了比較好的平衡狀態(tài)。設(shè)定以最大化對數(shù)似然函數(shù)為訓(xùn)練目標(biāo),采用Adam優(yōu)化器開展工作,且設(shè)定了不同的學(xué)習(xí)率與衰減策略,同時在訓(xùn)練進程中交替實施影像特征編碼與文本生成,實時更新記憶矩陣,增強模型理解跨模態(tài)關(guān)系的水平,還點明了模型雙向跨模態(tài)交互的創(chuàng)新點,含有共享記憶工具、雙向信息傳播以及多粒度對齊效能,這些創(chuàng)新之處增強了模型在醫(yī)學(xué)影像報告生成中的準(zhǔn)確性與靈活性。4.實驗驗證模型有效性:采用IUX-Ray數(shù)據(jù)集開展實驗,對數(shù)據(jù)集中的圖像和文本做預(yù)處理方面的操作,保障數(shù)據(jù)符合模型輸入的規(guī)格,采選多個具有代表性的基線模型,諸如BASE、BASE+MEM、COATT之類,與CMN模型做對照,借助多項自然語言生成指標(biāo)(如BLEU、METEOR、ROUGE-L)實施評估,CMN模型在詞匯匹配、語義相似性和語義連貫性方面都顯著優(yōu)于基線模型,做消融實驗以,探究記憶矩陣規(guī)模與查詢記憶向量數(shù)對模型性能的影響,敲定恰當(dāng)?shù)膮?shù)設(shè)置,采用案例分析加可視化,隨機從生成的醫(yī)療記錄中抽取樣本和真實報告對比,驗證CMN模型在醫(yī)學(xué)報告生成中的有效性與精確性。1.5本文組織結(jié)構(gòu)文章全篇有四章,圍繞“問題分析-理論支撐-方法設(shè)計-實驗驗證”的邏輯順序展開,具體章節(jié)的安排如下所示:第1章緒論解析研究背景及意義,探究醫(yī)學(xué)影像報告生成的臨床需求及技術(shù)瓶頸,歸攏國內(nèi)外研究的當(dāng)下現(xiàn)狀,界定跨模態(tài)記憶網(wǎng)絡(luò)的研究目標(biāo)及核心內(nèi)容,安排全文的結(jié)構(gòu)。第2章相關(guān)理論與技術(shù)基礎(chǔ)全面介紹深度學(xué)習(xí)的核心技術(shù),含有卷積神經(jīng)網(wǎng)絡(luò)(CNN)、Transformer架構(gòu)、記憶網(wǎng)絡(luò)相關(guān)原理;說明跨模態(tài)表征學(xué)習(xí)理論,探究影像-文本對齊的核心挑戰(zhàn);給自然語言生成和臨床效能評估指標(biāo)下定義,搭建技術(shù)研究的理論架構(gòu)。第3章跨模態(tài)記憶網(wǎng)絡(luò)的架構(gòu)設(shè)計全面描述CMN的整體架構(gòu),包含視覺特征提取模塊、共享記憶矩陣創(chuàng)建、多線程查詢響應(yīng)機制以及Transformer編碼器-解碼器融合策略;得出記憶查詢與響應(yīng)的數(shù)學(xué)模型推導(dǎo),說明參數(shù)優(yōu)化跟訓(xùn)練的流程,突出雙向跨模態(tài)交互的創(chuàng)新閃光點。第4章實驗設(shè)計與結(jié)果分析說明IUX-Ray數(shù)據(jù)集的預(yù)處理及實驗配置詳情,比較CMN跟基線模型的性能表現(xiàn)差異;經(jīng)由消融實驗分析記憶矩陣規(guī)模、查詢線程數(shù)等參數(shù)的相關(guān)影響,采用可視化案例展示影像態(tài)勢,證實模型的有效性。第2章相關(guān)理論及技術(shù)基礎(chǔ)2.1深度學(xué)習(xí)核心技術(shù)2.1.1卷積神經(jīng)網(wǎng)絡(luò)(CNN)基于卷積的神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)為深度學(xué)習(xí)當(dāng)中極具代表性的前饋神經(jīng)網(wǎng)絡(luò),靠局部連接、權(quán)重共享等特性,成為醫(yī)學(xué)影像特征提取的核心技藝,它由卷積層、池化層、激活函數(shù)與全連接層共同構(gòu)成,能捕獲圖像局部特征并保存空間結(jié)構(gòu)資訊,同時借助池化層降低運算量,利用激活函數(shù)添加非線性,最后由全連接層整合特征去執(zhí)行相應(yīng)任務(wù),這種層級結(jié)構(gòu)令其在醫(yī)學(xué)影像領(lǐng)域展現(xiàn)風(fēng)采,普遍應(yīng)用于病變檢測、分割以及分類等任務(wù),為精準(zhǔn)分析醫(yī)學(xué)影像起到了關(guān)鍵作用。以ResNet舉例說明,其殘差連接的設(shè)計成功攻克了深度網(wǎng)絡(luò)的梯度消失問題,而且強化了訓(xùn)練穩(wěn)定性,還在對胸部X光片全局特征的提取里表現(xiàn)杰出,這種對網(wǎng)絡(luò)結(jié)構(gòu)的創(chuàng)新式改良,讓CNN更高效地挖掘醫(yī)學(xué)影像中的復(fù)雜特性,進一步增進了其在醫(yī)學(xué)影像分析當(dāng)中的應(yīng)用價值,為后續(xù)的診斷任務(wù)奠定了穩(wěn)定基礎(chǔ)[9]。在完成醫(yī)學(xué)影像報告生成時,CNN一般作為編碼器發(fā)揮著關(guān)鍵作用,諸如預(yù)訓(xùn)練的CNN架構(gòu)(諸如ResNet、VGG、DenseNet等)被用作視覺特征提取的工具,把胸部X光片切割成大小相同的斑塊,依靠ResNet最后卷積層生成特征序列x(2.1)這些序列充當(dāng)解碼器的輸入,給報告的生成提供豐富的視覺資料,該模式對生物視覺系統(tǒng)層次結(jié)構(gòu)加以模擬,利用逐層抽象特征達(dá)成對影像內(nèi)容的深度把握,極大提升了醫(yī)學(xué)影像分析的精確性,成為臨床診斷的有力輔助工具。2.1.2

Transformer架構(gòu)TransformerREF_Ref486\r\h[10]模型是一種依托自注意力機制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最開始作為用于機器翻譯的序列到序列模型(SequencetoSequence)REF_Ref542\r\h[11]予以提出,它把傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)替換成了自注意力機制,這一創(chuàng)新性改動讓模型能高效捕捉長距離依賴關(guān)系,進而沖破了傳統(tǒng)的RNN和卷積神經(jīng)網(wǎng)絡(luò)(CNN)處理長序列數(shù)據(jù)時的局限,在自然語言處理領(lǐng)域?qū)崿F(xiàn)了令人矚目的突破。Transformer模型由編碼器(Encoder)、解碼器(Decoder)組合而成,編碼器承擔(dān)將輸入序列轉(zhuǎn)換為一系列特征表征的工作,由多個一樣的層堆疊構(gòu)成,每層包含自注意力機制以及前饋神經(jīng)網(wǎng)絡(luò)兩個子層級,自注意力機制可讓模型在處理序列時顧及序列里其他位置的信息,經(jīng)由計算輸入序列里每個位置和其余位置之間的相似度生成注意力權(quán)重矩陣,之后對輸入序列加權(quán)求和,得到新的特征表達(dá),前饋神經(jīng)網(wǎng)絡(luò)針對自注意力層的輸出做進一步的加工轉(zhuǎn)換,解碼器的結(jié)構(gòu)跟編碼器稍有差別,除了自注意力機制以及前饋神經(jīng)網(wǎng)絡(luò)外,還存有編碼器-解碼器注意力機制,用于實現(xiàn)編碼器的輸出與解碼器的中間表示的交互,讓在生成輸出序列時能顧及輸入序列的信息。自注意力機制作為Transformer的核心組成部分,它賦予模型捕獲序列里面全局依賴關(guān)系的能力,跟CNN相比較,Transformer模型呈現(xiàn)多方面的優(yōu)勢,靠注意力機制得以,Transformer具備并行處理輸入序列的能力,有著較高的運算效率;依靠注意力機制,Transformer模型可更恰當(dāng)?shù)夭蹲捷斎胄蛄械纳舷挛男畔ⅲ辛徑饬薘NN里面存在的長距離依賴問題REF_Ref594\r\h[12],Transformer模型可依照不同任務(wù)和環(huán)境進行修改及擴展,衍生出了如BERT、GPT、Transformer-XL等多個預(yù)訓(xùn)練模型,廣泛應(yīng)用到人工智能的各個范疇。2.1.3記憶網(wǎng)絡(luò)記憶網(wǎng)絡(luò)身為一種創(chuàng)新型的神經(jīng)網(wǎng)絡(luò)架構(gòu),借助引入外部記憶矩陣,做到了知識的高效存儲及靈活檢索能力,這一特性使其在自然語言處理任務(wù)里脫穎而出,呈現(xiàn)出十分強大的長距離依賴建模能力,以往的神經(jīng)網(wǎng)絡(luò)在處理長序列數(shù)據(jù)之際,經(jīng)常陷入信息丟失和難以捕捉長距離依賴關(guān)系的麻煩,而記憶網(wǎng)絡(luò)通過開辟專門的記憶存放空間,破除了這一局限,可高效整合并利用上下文信息,為復(fù)雜任務(wù)的處理給予了有力支撐。在醫(yī)學(xué)影像報告生成這一挑戰(zhàn)重重的領(lǐng)域,記憶網(wǎng)絡(luò)的應(yīng)用正持續(xù)擴大,進而展現(xiàn)獨特價值,其應(yīng)用形式大體能歸納成以下兩類:1.文本端記憶增強:處于醫(yī)學(xué)影像報告生成期間,文本的連貫狀況意義重大,R2GEN模型在此范疇進行了卓越的嘗試,它創(chuàng)新性地在解碼器里面嵌入記憶模塊,該記憶模塊恰似一個智能的信息存儲庫,可以動態(tài)存儲歷史生成的文本語義內(nèi)容,若模型一直生成報告內(nèi)容時,記憶模塊可馬上調(diào)用先前存儲的語義,讓新產(chǎn)生的文本與已有的報告內(nèi)容在語義和邏輯上緊密相連,在描繪一系列醫(yī)學(xué)影像特征的時候,后續(xù)句子對病癥的進一步闡釋能以記憶模塊中存有的前文特征描述為基礎(chǔ),防止表述呈現(xiàn)重復(fù)狀態(tài)的同時,保障整個報告上下文連貫自然,顯著提高了醫(yī)學(xué)影像報告文本的質(zhì)量與可讀性。2.跨模態(tài)記憶建模:醫(yī)學(xué)影像報告的生成涉及到影像數(shù)據(jù)跟文本數(shù)據(jù)兩種不同模態(tài)信息的交互和轉(zhuǎn)化,CMN模型在此范疇邁出了關(guān)鍵一步,第一次設(shè)計出共享記憶矩陣這一精妙結(jié)構(gòu),這個共享記憶矩陣恰似一座跨模態(tài)的橋梁,可同步記錄影像區(qū)域特征跟文本詞匯之間的對齊聯(lián)系。當(dāng)處于編碼階段,編碼器憑借視覺特征對記憶矩陣實施精準(zhǔn)搜索,進而拿到與之對應(yīng)的文本語義先前知識,為后續(xù)文本生成這一過程提供關(guān)鍵線索,當(dāng)進入解碼階段,解碼器借助生成的詞匯反向查考記憶矩陣,從中提取與之對應(yīng)的視覺上下文信息,此種雙向的信息流通模式,撕開了影像與文本之間的模態(tài)隔閡,使模型在生成醫(yī)學(xué)影像報告的階段中,可以把兩種模態(tài)信息充分融合起來,生成更準(zhǔn)確、全面且跟影像內(nèi)容緊密相關(guān)聯(lián)的報告文本,若影像中出現(xiàn)特定的病變區(qū)域,模型借助跨模態(tài)記憶實施建模,可以準(zhǔn)確關(guān)聯(lián)到對應(yīng)的醫(yī)學(xué)術(shù)語跟描述性詞匯,同時按照生成的文本詞匯,進一步剖析該區(qū)域在影像中的更多細(xì)節(jié)特征,實現(xiàn)影像與文本的深度融匯與彼此補充。2.2跨模態(tài)表征學(xué)習(xí)理論2.2.1跨模態(tài)對齊的挑戰(zhàn)跨模態(tài)表征學(xué)習(xí)的核心目標(biāo)是將圖像特征與文本特征映射到同一語義空間,解決模態(tài)間的語義鴻溝。傳統(tǒng)方法(如協(xié)同注意力)依賴隱式映射,難以建模“影像紋理特征-病理機制-臨床術(shù)語”的多層級關(guān)聯(lián)。例如,“肺部網(wǎng)格狀陰影”可能對應(yīng)“特發(fā)性肺纖維化”或“慢性炎癥”,現(xiàn)有模型常因跨模態(tài)語義鴻溝導(dǎo)致診斷混淆。2.3醫(yī)學(xué)影像報告生成的評估指標(biāo)體系2.3.1自然語言生成指標(biāo)自然語言生成(NLG)指標(biāo)可對生成報告的語言質(zhì)量進行評估,評判其跟人工報告在語義、語法及結(jié)構(gòu)上的一致情況,在放射學(xué)報告生成的任務(wù)當(dāng)中,常用的指標(biāo)有BLEUREF_Ref669\r\h[14]、METEORREF_Ref695\r\h[15]以及ROUGE-LREF_Ref711\r\h[16],各自從不同層面量化生成文本的準(zhǔn)確性、語義的相似程度和連貫性:(1)BLEU(BilingualEvaluationUnderstudy)BLEU是最廣泛使用的NLG指標(biāo)之一,通過計算生成文本與參考文本的n-gram(1-4元組)重疊比例評估語言質(zhì)量。具體而言,其核心思想是統(tǒng)計生成文本中連續(xù)k個詞(k=1到4)在參考文本中出現(xiàn)的頻率,并通過幾何平均加權(quán)不同長度的n-gram分?jǐn)?shù),公式為:BLEU(2.2)式中:pk——k-gram的匹配精度wk——n-gram的權(quán)重(通常取等權(quán))BP——長度懲罰因子(避免生成過短文本)。在放射學(xué)報告中,BLEU可有效檢測生成文本的語法正確性和術(shù)語使用一致性,例如評估“胸腔積液”“肺結(jié)節(jié)”等關(guān)鍵術(shù)語是否準(zhǔn)確出現(xiàn)及語序是否合理。

(2)METEOR(MetricforEvaluationofTranslationwithExplicitORdering)METEOR通過結(jié)合單字匹配(unigramprecision)、同義詞替換(基于WordNet等詞典)和基于最長公共子序列的懲罰項,更注重語義相似性而非嚴(yán)格詞序匹配。與BLEU相比,其優(yōu)勢在于允許生成文本使用同義詞(如“心臟擴大”與“cardiomegaly”)或靈活語序,更貼合醫(yī)學(xué)報告中多樣化的表述方式。具體步驟包括:匹配生成詞與參考詞:支持精確匹配、同義詞匹配和派生形式匹配(如“effusion”與“積液”);計算匹配分?jǐn)?shù):通過調(diào)和平均融合精確率和召回率,公式為:METEOR(2.3)式中:P

,

R——LCS——最長公共子序列長度;GM——生成文本與參考文本長度的幾何平均;γ,α——超參數(shù)(通常設(shè)為0.9和0.5)。(3)ROUGE-L(Recall-OrientedUnderstudyforGistingEvaluation)ROUGE-L基于最長公共子序列(LCS)評估生成文本與參考文本的語義連貫性,強調(diào)長距離依賴和句子級匹配。LCS是指兩個序列都包含的最長子序列(不要求連續(xù)),其長度反映了文本在內(nèi)容和邏輯上的一致性。ROUGE-L的核心指標(biāo)包括LCS召回率(RL)R(2.4)式中:RL——參考文本長度。LCS精確率(PL)P(2.5)式中:GL——參考文本長度。F1值(FL)F(2.6)式中:RL——LCS召回率PL——LCS精確率在放射學(xué)報告中,ROUGE-L可檢測復(fù)雜病變描述的邏輯連貫性,例如“肺部紋理紊亂”與“慢性支氣管炎”的因果關(guān)系是否在生成文本中合理呈現(xiàn)。CMN通過跨模態(tài)記憶機制增強語義一致性,有效減少了長報告中的語義漂移問題。2.4本章小結(jié)本章針對醫(yī)學(xué)影像報告生成的相關(guān)理論和技術(shù)基礎(chǔ)展開系統(tǒng)說明,為后續(xù)進行跨模態(tài)記憶網(wǎng)絡(luò)的研究與設(shè)計筑牢根基。就深度學(xué)習(xí)核心技術(shù)而言,詳細(xì)說明了卷積神經(jīng)網(wǎng)絡(luò)(CNN)、Transformer架構(gòu)和記憶網(wǎng)絡(luò),CNN靠著局部連接、權(quán)重共享等特性,成為醫(yī)學(xué)影像特征提取的關(guān)鍵手段,像ResNet采用殘差連接優(yōu)化訓(xùn)練的穩(wěn)定性,可高效挖掘出影像復(fù)雜特征;Transformer架構(gòu)憑借自注意力機制跨越傳統(tǒng)序列模型的局限,在醫(yī)學(xué)影像報告生成時可高效捕捉上下文相關(guān)信息,其解碼器在生成文本序列時優(yōu)勢十分顯著;記憶網(wǎng)絡(luò)借助引入外部記憶矩陣,實現(xiàn)知識的高效保存與靈活檢索,在醫(yī)學(xué)影像報告生成過程里,不管是文本端的記憶增強,還是跨模態(tài)的記憶建模,均起到了顯著作用??缒B(tài)表征學(xué)習(xí)的理論板塊,深入探究了跨模態(tài)對齊面臨的挑戰(zhàn),就好比傳統(tǒng)方法難以實現(xiàn)多層級關(guān)聯(lián)的建模,引起診斷的混淆,說明了多種跨模態(tài)對齊的技術(shù)方式,涉及注意力機制、記憶網(wǎng)絡(luò)以及預(yù)訓(xùn)練多模態(tài)模型,為解決跨模態(tài)對齊的問題給出了多種解決方法。醫(yī)學(xué)影像報告生成的評估指標(biāo)框架里面,采用了自然語言生成指標(biāo),就如BLEU用于評估詞匯及語法的準(zhǔn)確性,METEOR聚焦于語義相似性方面,ROUGE-L可衡量語義的連貫性,這些指標(biāo)按不同維度對生成文本質(zhì)量予以量化,為進行模型性能評估給出了客觀依據(jù)。本章呈現(xiàn)的理論與技術(shù),為第三章跨模態(tài)記憶網(wǎng)絡(luò)的架構(gòu)設(shè)定、數(shù)學(xué)模型推導(dǎo)以及后續(xù)的實驗驗證打下了堅實的理論和技術(shù)基礎(chǔ),使研究具有穩(wěn)固的學(xué)術(shù)支撐和實際實施的可行性。第3章跨模態(tài)記憶網(wǎng)絡(luò)的架構(gòu)設(shè)計3.1整體架構(gòu)設(shè)計CMN的核心思想是利用一個可學(xué)習(xí)的共享記憶矩陣,動態(tài)記錄影像區(qū)域跟文本詞匯的匹配關(guān)系,并在編碼和解碼階段同步開展記憶查詢與響應(yīng)操作,造就跨模態(tài)信息的雙向流動,如圖3.1呈現(xiàn)的是整體架構(gòu),由視覺特征提取模塊、跨模態(tài)記憶網(wǎng)絡(luò)模塊以及記憶增強的Transformer編解碼器這三大組件構(gòu)成。圖3.1CMN整體架構(gòu)3.1.1視覺特征提取模塊輸入的醫(yī)學(xué)影像I(如胸部X光片)首先利用視覺提取器分解成空間局部特征序列,此過程作為整個跨模態(tài)記憶網(wǎng)絡(luò)處理醫(yī)學(xué)影像信息的起始關(guān)鍵步驟,對后續(xù)生成報告起著極為關(guān)鍵的功效,接下來對其具體步驟及意義進行詳細(xì)說明:1.圖像分塊:把圖像劃成S個同等尺寸的補丁,形成空間點陣網(wǎng)格:p(3.1)之所以抉擇把圖像進行分塊處理,是由于醫(yī)學(xué)影像一般包含豐富又龐雜的信息,整體處理所面臨的難度大,分塊操作可把圖像切割成相對較小、容易處理的單元,對模型更細(xì)致地抓取圖像中的局部特征有益處,以胸部X光片舉例說明,各個區(qū)域的病變表現(xiàn)或許具備獨特特征,諸如肺部結(jié)節(jié)、胸腔積液之類的,利用分塊可精準(zhǔn)鎖定這些潛在的病變區(qū)域,避免整體處理時把重要信息遺漏掉,這種等大小的分塊手段同樣便于后續(xù)特征提取及處理的標(biāo)準(zhǔn)化,使得模型能以一致的模式對各個補丁實施操作,增進處理效率與準(zhǔn)確水平。2.特征提取:采用預(yù)訓(xùn)練完畢的ResNet-101等CNN模型,從最后一層卷積層把每個補丁的視覺特征提取出來xs∈Rd(d=512)3.序列生成:按行對補丁特征加以拼接,得到一套視覺特征序列X(3.3)作為記憶網(wǎng)絡(luò)跟編碼器的輸入,用按行拼接的方式能夠把圖像的空間結(jié)構(gòu)信息保留,使模型在后續(xù)處理當(dāng)中可利用這些信息來進行空間位置推理與上下文理解,這種空間結(jié)構(gòu)信息在醫(yī)學(xué)影像分析中尤為關(guān)鍵,好比在判斷胸腔積液處于何處時,不僅要掌握積液的特性,還得搞清楚它在胸腔內(nèi)的具體位置情形,而按行拼接起來的特征所形成的序列能提供這種空間線索。把全部補丁的特征聯(lián)合成一個序列,利于模型把圖像作為一個整體開展處理,同時也契合后續(xù)記憶網(wǎng)絡(luò)和編碼器所要求的輸入數(shù)據(jù)格式,記憶網(wǎng)絡(luò)可借助這個特征序列在它的記憶矩陣?yán)锊樵儗?yīng)的跨模態(tài)信息,而編碼器則可依靠這些特征做進一步的編碼與特征融合,為生成精準(zhǔn)的醫(yī)學(xué)影像報告打下基礎(chǔ)4.整體作用:此模塊采用層級化卷積操作獲取影像的局部紋理與全局結(jié)構(gòu)信息,為后續(xù)跨模態(tài)交互供給視覺上的基礎(chǔ)特征。層次化卷積操作是CNN模型的核心優(yōu)勢之一,依靠不同卷積層的聯(lián)合,能逐步從圖像中把從低級到高級、從局部到全局的特征提取出來,進行胸部X光片處理時,淺層卷積層可采集圖像中的邊緣、線條等基礎(chǔ)紋理信息,中層卷積層則可進一步辨認(rèn)出一些局部的結(jié)構(gòu)特性,諸如肺紋理的走勢方向、心臟的大概輪廓形狀等,而深層卷積層可把這些信息進行整合,造就對整個胸部結(jié)構(gòu)的全局領(lǐng)會,涵蓋各個器官彼此的相對位置關(guān)系等。這些豐富的視覺基礎(chǔ)特征是實現(xiàn)跨模態(tài)互動的要點,它們給記憶網(wǎng)絡(luò)提供了和文本進行對齊、交互的視覺依據(jù)內(nèi)容,促使記憶網(wǎng)絡(luò)能夠準(zhǔn)確無誤地找出與影像特征對應(yīng)的文本語義信息,進而在產(chǎn)出醫(yī)學(xué)影像報告時,可以把影像里的信息精準(zhǔn)地轉(zhuǎn)換為專業(yè)的文本表述,增強報告的準(zhǔn)確性與可靠水平。3.1.2共享記憶矩陣構(gòu)建共享記憶矩陣M∈RN×d在CMN中占據(jù)著核心要點,此處N所取的值是2048,是經(jīng)過權(quán)衡確定的,記憶矩陣所容納的跨模態(tài)關(guān)聯(lián)知識欠缺,處理復(fù)雜醫(yī)學(xué)影像報告時就會覺得力有不逮;計算負(fù)擔(dān)進一步加重,且容易出現(xiàn)過擬合狀況,而每一個mi∈Rd都含有特有的跨模態(tài)關(guān)聯(lián)知識。矩陣采用隨機初始化的模式開始訓(xùn)練,在起步的這個階段,鑒于模型對影像與文本的對齊關(guān)系完全沒概念,隨機初始化能給模型帶去多樣的初始狀態(tài),在后續(xù)的訓(xùn)練階段中,模型借助海量醫(yī)學(xué)影像與報告數(shù)據(jù),采用反向傳播算法不斷調(diào)整矩陣元素,慢慢改善影像跟文本的映射關(guān)聯(lián)。傳統(tǒng)的單向注意力機制在應(yīng)對跨模態(tài)任務(wù)時,僅僅隱式地關(guān)注部分影像與文本內(nèi)容,這引發(fā)了建立兩者對應(yīng)關(guān)系時精準(zhǔn)度的不足,語義鴻溝問題頻頻發(fā)作,就像處于生成醫(yī)學(xué)影像報告的階段時,說不定會忽視某些關(guān)鍵影像特征跟文本描述的聯(lián)系,造成報告內(nèi)容存在偏差或缺失。共享記憶矩陣借助顯式存儲跨模態(tài)對應(yīng)關(guān)系,把影像特征與文本語義融合到同一個表征空間里,模型可參照記憶矩陣,迅速精準(zhǔn)地找到影像特征所對應(yīng)的文本語義,或者按照生成的文本詞匯去定位相關(guān)影像特征,大幅提高了醫(yī)學(xué)影像報告生成的精準(zhǔn)度。3.1.3多線程查詢響應(yīng)機制CMN由“記憶查詢(MemoryQuerying)”和“記憶響應(yīng)(MemoryResponding)”這兩個核心操作,實現(xiàn)了記憶矩陣中影像與文本特征的高效交互,為了進一步增強交互效率以及對齊精度,該過程贊同多線程并行開展,默認(rèn)采用8線程設(shè)置,多線程設(shè)計恰似多條平行的信息高速公路,各個線程都能從不同的子空間里提取跨模態(tài)關(guān)聯(lián)信息,促使模型能更全面、更透徹地挖掘影像與文本的潛在關(guān)聯(lián)。(1)記憶查詢:跨模態(tài)關(guān)聯(lián)檢索在記憶查詢階段,對于輸入的視覺特征xs或文本嵌入k(3.4)q=(3.5)式中:Wk,Wki——記憶鍵向量q——查詢向量。接下來,通過點積相似度計算特征與記憶向量的關(guān)聯(lián)度,公式為D(3.5)f——表示視覺或文本特征這種計算方式能夠衡量輸入特征與記憶向量之間的相似程度,數(shù)值越大,表明兩者的關(guān)聯(lián)越緊密。然后,從眾多記憶向量中選取相似度最高的K個記憶向量(默認(rèn)設(shè)定為32個),再通過Softmax函數(shù)進行歸一化處理,從而得到權(quán)重w(3.6)這一系列操作實現(xiàn)了對記憶矩陣的“軟查詢”,它的優(yōu)勢在于能夠動態(tài)聚焦與當(dāng)前輸入最相關(guān)的跨模態(tài)知識。打個比方,在醫(yī)學(xué)影像報告生成過程中,如果輸入的視覺特征顯示肺部有陰影,通過“軟查詢”,模型可以精準(zhǔn)地從記憶矩陣中找到與“肺部陰影”相關(guān)的各種跨模態(tài)知識,比如可能對應(yīng)的疾病名稱、相關(guān)癥狀描述等,為后續(xù)的文本生成提供有力支持。(2)記憶響應(yīng):跨模態(tài)信息融合在完成記憶查詢后,進入記憶響應(yīng)階段。此階段會對查詢到的記憶向量進行線性變換,公式為v(3.6)Wv∈這一步就像是對找到的知識進行“翻譯”和“整理”,使其更符合模型后續(xù)處理的需求。隨后,根據(jù)查詢權(quán)重生成響應(yīng)向量,公式為rf(3.7)就視覺特征xs和文本嵌入yt而言,各按照上述過程生成記憶響應(yīng)rxs和ryt,該過程實現(xiàn)了影像特征跟文本先驗、文本詞匯跟視覺上下文的雙向映射3.1.4Transformer編解碼器的記憶融合策略在跨模態(tài)記憶網(wǎng)絡(luò)(CMN)當(dāng)中,Transformer編解碼器發(fā)揮著十分關(guān)鍵的功效,它采用精妙的記憶融合方式,對視覺特征跟文本信息做深度整合,由此實現(xiàn)高品質(zhì)的醫(yī)學(xué)影像報告生成。(1)編碼器:視覺特征增強在這一環(huán)節(jié),視覺特征的記憶響應(yīng)r(3.8)被輸入到Transformer編碼器中,即Z(3.9)Transformer編碼器憑借其強大的多頭自注意力機制聞名,這種機制恰似多個從不同角度看的觀察者,能夠同時顧及輸入特征的不同區(qū)域與層面,當(dāng)處理醫(yī)學(xué)影像的視覺特征之際,多頭自注意力機制可高效地對跨區(qū)域視覺信息進行整合,好比將肺部不同位置的紋理、形狀等特征做綜合分析。尤為關(guān)鍵的是,編碼器在處理的時候還把記憶響應(yīng)中的文本語義先驗融合了,舉“結(jié)節(jié)”實例為證,處于醫(yī)學(xué)影像范疇中,結(jié)節(jié)呈現(xiàn)特定的影像特征樣式,像邊界、密度這類,而在記憶響應(yīng)的階段,已存放了與“結(jié)節(jié)”相關(guān)的文本語義資料,這些信息恰似引導(dǎo)編碼器的脈絡(luò)。編碼器在執(zhí)行視覺信息整合的時候,可利用這些文本語義方面的先驗,更有效地把握影像中的結(jié)節(jié)特征,進而生成帶有跨模態(tài)關(guān)聯(lián)的中間表征Z,此種跨模態(tài)的融合使編碼器輸出的表示包含大量視覺信息,還融入了與之匹配的文本語義,為后續(xù)的文本生成鋪就了更具語義理解的基礎(chǔ)。(2)解碼器:文本生成增強進入解碼階段,歷史生成文本的記憶響應(yīng)r(3.9)與編碼器輸出的Zy(3.10)解碼器運用交叉注意力機制來動態(tài)聚焦編碼器輸出。這一機制使得解碼器能夠根據(jù)當(dāng)前生成文本的需求,靈活地從編碼器輸出的Z中獲取最相關(guān)的信息。例如,當(dāng)生成關(guān)于肺部疾病的描述時,解碼器會重點關(guān)注Z中與肺部相關(guān)的視覺特征表示。同時,解碼器還充分利用記憶響應(yīng)中的視覺上下文信息。當(dāng)生成“胸腔積液”這一術(shù)語時,記憶響應(yīng)里視覺上下文會提供影像中與胸腔積液對應(yīng)區(qū)域的特征情況,若如積液的所占范圍、密度情形等,解碼器把這些信息進行結(jié)合,可更恰當(dāng)?shù)厣膳c影像內(nèi)容語義相符的文本描述,杜絕出現(xiàn)跟影像實際狀況不匹配的報告內(nèi)容,采用這種辦法,解碼器促使生成的醫(yī)學(xué)影像報告在語義上跟影像內(nèi)容緊密相連,增進了報告的精準(zhǔn)性與可靠水平。3.2數(shù)學(xué)模型推導(dǎo)在跨模態(tài)記憶網(wǎng)絡(luò)(CMN)進行運行的時段里,要弄懂其工作機制,關(guān)鍵得推導(dǎo)數(shù)學(xué)模型,采用嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)公式,CMN完成了從視覺特征以及文本序列中提取關(guān)鍵信息,并把它們開展有效融合,進而為醫(yī)學(xué)影像報告的生成提供堅實的理論后盾。3.2.1記憶查詢數(shù)學(xué)建模在給定視覺特征序列X(3.11)和文本嵌入序列Y(3.12)的情況下,記憶查詢過程被精確地形式化。首先是特征空間對齊步驟,通過k(3.13)q(3.14)(3.15)三個公式,將記憶向量mi、視覺特征xs和文本特征yt都映射到相同的特征空間。其中,W接下來進行關(guān)聯(lián)度計算,公式Score(3.16)通過縮放點積相似度來衡量特征與記憶向量的相關(guān)性。除以d是為了防止點積結(jié)果過大,保證相似度計算的穩(wěn)定性。這種計算方式可以直觀地反映出當(dāng)前輸入特征與記憶向量之間的相似程度,得分越高,說明兩者的關(guān)聯(lián)性越強。最后是權(quán)重生成,利用Softmax函數(shù)對關(guān)聯(lián)度得分進行歸一化處理,得到α(3.17)α(3.18)Softmax函數(shù)將得分轉(zhuǎn)換為概率分布,使得所有關(guān)注權(quán)重之和為1。這些權(quán)重表示了視覺特征xs和文本詞匯y3.2.2記憶響應(yīng)數(shù)學(xué)建?;谏鲜龅玫降牟樵儥?quán)重,記憶響應(yīng)階段開始生成跨模態(tài)響應(yīng)。通過公式r(3.18)r(3.19)把加權(quán)后的記憶向量予以線性組合,這里的Wv在這個實施過程內(nèi),rxs對跟視覺區(qū)域相關(guān)聯(lián)的文本語義加以編碼,就好像從影像的某一區(qū)域特征起步,找出了與之對應(yīng)的文本表述;而r3.2.3編解碼融合公式在編碼器端,輸入的是記憶增強的視覺特征,即z(3.20)這里的位置編碼PositionalEncoding(s)解碼器在生成第t個詞時,會聯(lián)合處理編碼器輸出Z和文本記憶響應(yīng)RyContext(3.21)生成上下文信息,其中交叉注意力機制CrossAttention根據(jù)前一個生成的詞yt?1從編碼器輸出Z中獲取相關(guān)信息,并與文本記憶響應(yīng)r最后,通過p(3.21)計算生成第t個詞的概率分布。其中,DecoderLayer對上下文信息進行進一步處理,線性變換Linear調(diào)整特征維度,Softmax函數(shù)將結(jié)果轉(zhuǎn)換為概率,從而得到在給定當(dāng)前所有信息下生成每個詞的可能性。通過這種殘差連接與位置編碼的方式,確保了記憶信息與序列時序特征的有效融合,使得模型能夠生成邏輯連貫、與影像內(nèi)容匹配的醫(yī)學(xué)影像報告。3.3參數(shù)優(yōu)化與訓(xùn)練流程在跨模態(tài)記憶網(wǎng)絡(luò)(CMN)的設(shè)計工作里,參數(shù)優(yōu)化及訓(xùn)練流程是保障模型性能與效率的關(guān)鍵環(huán)節(jié),合適的參數(shù)布置和高效的訓(xùn)練策略不僅能讓模型充分弄懂影像與文本之間的復(fù)雜關(guān)系,還可提升模型泛化能力以及穩(wěn)定性。3.3.1模型參數(shù)與復(fù)雜度在模型參數(shù)方面,記憶矩陣作為CMN的核心組件之一,其參數(shù)占用情況值得關(guān)注。當(dāng)N=2048且d=512時,記憶矩陣新增參數(shù)約為2048×512×3=3.15MB,僅占模型總參數(shù)的3.34多線程設(shè)計是CMN增進效率的又一大亮點,默認(rèn)采用8線程進行并行式查詢,此設(shè)計好似多個工人于不同區(qū)域同步工作,各線程要從不同子空間提取跨模態(tài)關(guān)聯(lián)信息,依靠分離子空間達(dá)成,模型可以規(guī)避單一空間也許出現(xiàn)的信息瓶頸問題,在對醫(yī)學(xué)影像做處理的時候,不同線程可分別聚焦影像的不同片段,像肺部、心臟、肋骨這些區(qū)域的跨模態(tài)信息,從而更全面、更高效地挖掘影像跟文本之間的聯(lián)系,增進記憶運用效率,提升模型的處理效率。3.3.2訓(xùn)練目標(biāo)與優(yōu)化CMN的訓(xùn)練目標(biāo)是通過最大化對數(shù)似然函數(shù)來優(yōu)化參數(shù)θ。其公式為?(3.21)這個公式衡量了在給定影像和之前生成的文本序列的條件下,模型生成正確文本yt在優(yōu)化過程中,模型采用Adam優(yōu)化器,這是一種自適應(yīng)學(xué)習(xí)率的優(yōu)化算法,能夠根據(jù)參數(shù)的更新情況動態(tài)調(diào)整學(xué)習(xí)率,使得訓(xùn)練過程更加穩(wěn)定和高效。對于視覺提取器,設(shè)置學(xué)習(xí)率為5×10?5。其他參數(shù)的學(xué)習(xí)率為1×10?4在訓(xùn)練階段里,影像特征編碼跟文本生成交替實施,在影像特征編碼的階段,模型把影像變成特征矢量,并跟記憶矩陣開展交互;在文本生成的這個階段,模型依照之前生成的文本以及記憶信息生成下一個字詞,在這個進程里,記憶矩陣在雙向溝通里不斷動態(tài)更新,逐漸校準(zhǔn)影像與文本的對齊樣式,讓模型對跨模態(tài)關(guān)系的理解愈發(fā)精準(zhǔn)。3.3.3雙向跨模態(tài)交互創(chuàng)新點1.共享記憶媒介:和傳統(tǒng)方法只依靠注意力機制做隱式對齊不一樣,CMN確切地借助記憶矩陣來存儲跨模態(tài)對應(yīng)關(guān)系,用“肺紋理紊亂”當(dāng)作例子,在醫(yī)學(xué)影像當(dāng)中,肺紋理紊亂呈現(xiàn)為特定區(qū)域灰度改變的樣式,CMN的記憶矩陣能夠把這種視覺特征對應(yīng)到“肺紋理紊亂”的抽象語義上,并以能學(xué)習(xí)的形式存儲在矩陣,這讓模型對抽象語義跟視覺特征間的映射理解不再模糊不明,而是展現(xiàn)出明確的可講解性,方便研究人員對模型的決策過程進行深入分析。2.雙向信息流動:當(dāng)處于編碼階段,視覺特征索求記憶,于是獲得文本語義的先驗要素,當(dāng)模型捕捉到“毛玻璃影”這一視覺特征時,可以喚起記憶里“間質(zhì)性肺炎”的相關(guān)描述,為后續(xù)開展文本生成提供語義指引,處于解碼的這個階段,生成的詞匯會逆向檢索記憶,提取對應(yīng)的視覺情境上下文。當(dāng)模型生成“心力衰竭”這一詞匯時,會把記憶中心臟擴大的影像特征關(guān)聯(lián)上,保障生成的文本和影像內(nèi)容緊密契合,該閉環(huán)交互機制打破了傳統(tǒng)編碼器-解碼器單向映射的禁錮,讓影像與文本之間達(dá)成深度的語義聯(lián)系,使生成的醫(yī)學(xué)影像報告變得更準(zhǔn)確和充實。3.多粒度對齊能力:經(jīng)過控制查詢向量數(shù)量K(默認(rèn)設(shè)置為32),CMN獲得了靈活處理多樣場景的能力,若出現(xiàn)單個病變的情況,模型可聚焦于少量的記憶向量,精準(zhǔn)地勾勒病變特征;而在存在多個病變的場景里,模型可激活多個記憶向量組合,完整反映影像中的多樣病變情形。3.4本章小結(jié)本章圍繞跨模態(tài)記憶網(wǎng)絡(luò)(CMN)架構(gòu)設(shè)計開展了深度研討,圓滿搭建起一套完整高效的醫(yī)學(xué)影像報告生成架構(gòu),為處理醫(yī)學(xué)影像與文本跨模態(tài)對齊難題給出了創(chuàng)新思路。在整體架構(gòu)設(shè)計這個范疇內(nèi),CMN含有視覺特征提取模塊、共享記憶矩陣的組建、多線程查詢響應(yīng)機制以及Transformer編解碼器的記憶融合策略,視覺特征提取模塊借助預(yù)訓(xùn)練的CNN模型,把醫(yī)學(xué)影像破開成空間局部特征序列,為后續(xù)的跨模態(tài)交互提供豐富的視覺基礎(chǔ)特征量;共享記憶矩陣明白記錄影像區(qū)域與文本詞匯的對應(yīng)聯(lián)系,應(yīng)對傳統(tǒng)方法跨模態(tài)映射稀疏的問題;多線程查詢響應(yīng)機制可實現(xiàn)并行處理,增強影像及文本特征在記憶矩陣當(dāng)中的交互速率和對齊精準(zhǔn)水平;Transformer編解碼器采用獨特的記憶融合手段,在編碼器中增強視覺方面的特征,融入文本語義方面的先驗,解碼器中把編碼器輸出與記憶響應(yīng)里的視覺上下文信息進行結(jié)合,產(chǎn)出高質(zhì)量的醫(yī)學(xué)影像報告。數(shù)學(xué)模型推導(dǎo)階段,就記憶查詢、記憶響應(yīng)以及編解碼融合過程進行了精準(zhǔn)的數(shù)學(xué)建模處理,采用嚴(yán)謹(jǐn)?shù)墓?,實現(xiàn)了視覺特征跟文本序列關(guān)鍵信息的提取與高效整合,為模型的運行提供了扎實的理論后盾。就參數(shù)優(yōu)化與訓(xùn)練流程而言,詳細(xì)研究了模型參數(shù)及其復(fù)雜度,選定了記憶矩陣的最優(yōu)參數(shù)安排,在提升模型性能的階段,減少了運算開支,把最大化對數(shù)似然函數(shù)當(dāng)作訓(xùn)練目標(biāo),結(jié)合上Adam優(yōu)化器和合理的學(xué)習(xí)率衰減手段,在影像特征編碼跟文本生成的交替訓(xùn)練當(dāng)中動態(tài)更新記憶矩陣,增加了模型對跨模態(tài)關(guān)系的理解本事,雙向跨模態(tài)交互呈現(xiàn)的創(chuàng)新點,囊括共享記憶渠道、雙向信息交互以及多粒度對齊功能,增強了模型生成醫(yī)學(xué)影像報告的準(zhǔn)確性與靈活性。第4章實驗設(shè)計與結(jié)果分析4.1IUX-Ray數(shù)據(jù)集預(yù)處理4.1.1數(shù)據(jù)收集與整理為驗證臨床醫(yī)學(xué)影像報告自動生成模型有無有效性,本章對可用的真實數(shù)據(jù)集IUX-Ray進行了全面實驗以及相關(guān)分析。由美國印第安納大學(xué)(IndianaUniversity)收集和發(fā)布的IUX-Ray數(shù)據(jù)集,是公共的放射學(xué)醫(yī)學(xué)影像數(shù)據(jù)集,此數(shù)據(jù)集中存有豐富的醫(yī)學(xué)數(shù)據(jù)資源,存有7470張放射學(xué)醫(yī)學(xué)圖像以及相應(yīng)的3955份放射學(xué)醫(yī)學(xué)報告。各個病人都有一組包含正向和側(cè)向視圖的醫(yī)學(xué)影像,每張醫(yī)學(xué)圖像含有各類疾病的類別與對應(yīng)信息,譬如肺炎、肺結(jié)核、氣腫等肺部異常疾病特征詳情,每份醫(yī)學(xué)報告中存有針對醫(yī)學(xué)影像的詳細(xì)發(fā)現(xiàn),一般是由多個部分組合而成,涵蓋診斷結(jié)果、發(fā)現(xiàn)情況和印象等相關(guān)細(xì)節(jié),以數(shù)據(jù)集中的發(fā)現(xiàn)部分作為真實醫(yī)學(xué)報告去參考,因為它直接說明了對放射學(xué)醫(yī)學(xué)圖像的觀察結(jié)論。為了確保實驗的公平性和一致性把整個IUX-Ray數(shù)據(jù)集隨機劃分為訓(xùn)練集、測試集和驗證集,分別占70%、20%和10%,并確保每個集合之間沒有公共重疊部分,以確保實驗的可靠性和準(zhǔn)確性。該數(shù)據(jù)集的詳細(xì)信息如表4.1所示。表4.1IUX-Ray詳細(xì)實驗數(shù)據(jù)數(shù)據(jù)集訓(xùn)練集測試集驗證集圖像數(shù)52267481496報告數(shù)2770395790病人數(shù)2770395790評價報告長度37.5636.7833.624.1.2圖像預(yù)處理為讓圖像數(shù)據(jù)更契合模型輸入要求,對其做一系列預(yù)處理方面的操作,把全部胸部X光圖像的尺寸統(tǒng)一調(diào)成固定大小,本次實驗把圖像統(tǒng)一調(diào)整成512×512像素,防止因圖像尺寸有差異造成模型訓(xùn)練不穩(wěn)定,對圖像做歸一化處理,讓像素值映射到[0,1]這個區(qū)間,以此加快模型收斂的速度,為增強模型的泛化實力,對訓(xùn)練集圖像采用如隨機翻轉(zhuǎn)、旋轉(zhuǎn)之類的數(shù)據(jù)增強技術(shù),增添數(shù)據(jù)的多樣性。4.1.3文本預(yù)處理以醫(yī)學(xué)診斷報告文本為對象,實施多步驟的預(yù)處理操作,憑借正則表達(dá)式去掉文本里的特殊字符和標(biāo)點符號,同時把文本里的醫(yī)學(xué)術(shù)語統(tǒng)一成標(biāo)準(zhǔn)格式,就像把“積水”統(tǒng)一替換成“積液”,提升文本規(guī)范水平,依靠自然語言處理工具開展分詞操作,把文本離散成單個詞匯,繼而對每個詞匯開展編碼事宜,變換為模型可處理的向量格局,采用詞袋模型(BagofWords)做法,把文本轉(zhuǎn)化成數(shù)值向量,便于模型開展文本特征學(xué)習(xí)。4.2實驗配置4.2.1對比模型選擇為全面評估CMN模型的性能,選定多個具有代表性的基線模型做對照,BASE模型采用傳統(tǒng)樣式的“編碼器-解碼器”框架,即采用“CNN與RNN”結(jié)構(gòu),依靠卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取圖像的特征,再由循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)完成文本報告的生成,作為基礎(chǔ)的對照參照模型,BASE+MEM模型以BASE為基礎(chǔ),把記憶模塊嵌入解碼器里,用來存儲歷史生成文本的語義內(nèi)容,以增進報告的連貫性。4.2.2實驗環(huán)境設(shè)置為了確保實驗結(jié)果的可重復(fù)性和可靠性,本小節(jié)詳細(xì)描述了所使用的環(huán)境配置。表4.1列出了所有實驗運行時所依賴的操作系統(tǒng)、編程語言、框架和庫,以及GPU和CPU配置。表4.2環(huán)境配置名稱配置信息操作系統(tǒng)Window10編程語言python3.8框架pytorch1.7.0+CUDA11.0虛擬環(huán)境Anaconda24.3.0主要編程庫torchvision1.5.2pandas1.1.0numpy1.18.2GPUvGPU-32GB(32GB)*1CPU配置信息4.2.3訓(xùn)練參數(shù)設(shè)置在訓(xùn)練過程中,對CMN模型及基線模型的訓(xùn)練參數(shù)進行精心調(diào)整。對于所有模型,采用Adam優(yōu)化器進行參數(shù)更新,學(xué)習(xí)率設(shè)置為1×10?4,權(quán)重衰減系數(shù)設(shè)為5×10?54.3性能對比結(jié)果4.3.1自然語言生成指標(biāo)對比在醫(yī)學(xué)影像報告生成領(lǐng)域,自然語言生成(NLG)指標(biāo)是評估模型生成文本質(zhì)量的關(guān)鍵依據(jù)。為全面衡量CMN模型在該任務(wù)上的性能,我們選取了IUX-Ray數(shù)據(jù)集,并將CMN模型與BASE、BASE+MEM等基線模型在多項NLG指標(biāo)上進行了對比分析。對比結(jié)果如表所示:表4.3不同模型生成指標(biāo)對比表數(shù)據(jù)集模型BL-1BL-2BL-3BL-4MTRRG-LBL-1IUX-Ray0.3960.2540.1790.1350.1640.3420.3960.2540.4430.2700.1910.1440.1720.3510.4430.2700.4950.3250.2360.1810.2080.3810.4950.325從BLEU系列指標(biāo)這個維度看,BLEU是用來計算生成文本與參照文本的n-gram重疊比例,體現(xiàn)生成文本在詞匯和語法維度跟參考文本的相似情形,BASE模型的BLEU-1至BLEU-4分值相對偏低,顯示出其生成文本在詞匯及語法準(zhǔn)確性方面存在一定缺陷。BASE+MEM模型借助引入記憶模塊,各項BLEU分?jǐn)?shù)均呈現(xiàn)上升趨勢,呈現(xiàn)出記憶模塊對模型捕捉文本信息起到積極功效,而CMN模型的BLEU分?jǐn)?shù)提升更為顯著,BLEU-1達(dá)到0.495,BLEU-2為0.325,BLEU-3為0.236,BLEU-4為0.181。與BASE模型相比,BLEU-4分?jǐn)?shù)提升了約34.1%,,這意味著CMN模型在生成醫(yī)學(xué)影像報告時,能更準(zhǔn)確地使用醫(yī)學(xué)術(shù)語,且在語法結(jié)構(gòu)上更接近專業(yè)報告。衡量語義相似性的METEOR指標(biāo)方面,BASE模型的評分結(jié)果為0.164,BASE+MEM模型的得分上漲到0.172,CMN模型實現(xiàn)了0.208的得分,跟BASE模型相比,提升了26.8%,這表明CMN模型在處理醫(yī)學(xué)文本語義的多樣復(fù)雜情形時表現(xiàn)更勝一籌,有能力理解與生成語義相符的醫(yī)學(xué)說法,更能適應(yīng)醫(yī)學(xué)報告中紛繁多樣的表達(dá)形式。ROUGE-L指標(biāo)主要是對文本的語義連貫性予以評估,按照最長公共子序列,衡量生成文本和參考文本在內(nèi)容及邏輯上的一致性,BASE模型所獲得的ROUGE-L分?jǐn)?shù)為0.342,BASE+MEM模型得出分?jǐn)?shù)0.351,CMN模型提升到了0.381這個分?jǐn)?shù),跟BASE模型相比,提升11.4%,這體現(xiàn)出CMN模型生成的報告在語義連貫性方面表現(xiàn)更優(yōu),可以更流暢地表達(dá)醫(yī)學(xué)影像相關(guān)內(nèi)容,緩解語義漂移現(xiàn)象,讓報告的邏輯更為明晰。統(tǒng)合上述各項NLG指標(biāo)的對比結(jié)論,CMN模型在詞匯匹配、語義相似性以及語義連貫性等方面,顯著勝過BASE和BASE+MEM模型,這表明了CMN模型在自然語言生成能力方面的優(yōu)勢,能夠生成更準(zhǔn)確、語義更豐富且邏輯更連貫的醫(yī)學(xué)影像報告,為臨床診斷提供更可靠的文本支持,在醫(yī)學(xué)影像報告生成任務(wù)中展現(xiàn)出較好的性能。4.4消融實驗分析4.4.1記憶矩陣規(guī)模影響在探究記憶矩陣規(guī)模對CMN(跨模態(tài)記憶網(wǎng)絡(luò),Cross-ModalMemoryNetwork)模型性能的影響時,開展了消融實驗。該實驗通過分別調(diào)整記憶矩陣的維度N(即記憶向量的數(shù)量)和記憶向量維度d,來細(xì)致觀察模型在測試集上的性能變化情況。圖4.1不同記憶矩陣規(guī)模下CMN模型性能表現(xiàn)圖圖4.2所示,當(dāng)記憶矩陣維度N減小至1024,而記憶向量維度d保持為512時,模型在IUX-Ray數(shù)據(jù)集上的BLEU-4分?jǐn)?shù)下降至0.178。這一現(xiàn)象揭示了記憶矩陣容納的跨模態(tài)關(guān)聯(lián)知識不足,表明明記憶矩陣容納的跨模態(tài)關(guān)聯(lián)知識不足,導(dǎo)致模型對復(fù)雜影像的處理能力下降,關(guān)鍵病癥的漏診率增加。反之,當(dāng)將N增大至4096,d依舊保持512時,模型在部分性能指標(biāo)上確實有一定程度的提升。然而,這種提升伴隨著明顯的弊端。一方面,計算時間顯著增加,這意味著模型的運行效率大幅降低,在實際應(yīng)用中會耗費更多的計算資源和時間成本。另一方面,模型出現(xiàn)了過擬合現(xiàn)象,在驗證集上的性能開始下降。過擬合表明模型在訓(xùn)練集上表現(xiàn)良好,但在面對新數(shù)據(jù)(驗證集)時,泛化能力不足,無法準(zhǔn)確地對新的影像數(shù)據(jù)進行診斷。綜合多方面因素進行考量,發(fā)現(xiàn)當(dāng)N=2048且d=512時,模型取得了一個較為理想的平衡狀態(tài)。此時,模型不僅能夠保持較高的生成質(zhì)量,在生成診斷報告時能夠準(zhǔn)確地反映影像中的關(guān)鍵信息。這說明在提升模型性能的同時,并沒有大幅增加模型的復(fù)雜度,在性能和計算復(fù)雜度之間實現(xiàn)了較好的平衡,為模型在實際臨床影像診斷中的應(yīng)用提供了更具可行性的參數(shù)設(shè)置方案。4.4.2查詢記憶向量數(shù)影響為分析查詢操作對報告生成的影響,對CMN模型采用不同數(shù)量的查詢向量進行實驗,其中查詢向量數(shù)量為分析查詢操作對報告生成的影響,我們對CMN模型采用不同數(shù)量的查詢向量進行實驗,其中查詢向量數(shù)量K取值范圍從1到512,實驗結(jié)果如圖4.2所示。圖4.2不同查詢記憶向量數(shù)下CMN模型BL-4性能表現(xiàn)圖實驗結(jié)果得出,查詢向量的數(shù)量既不宜過小,也不宜過大。當(dāng)K≤32時,增大K背后的原因是記憶更新過程中的過擬合問題。當(dāng)K較小時,每次迭代中記憶矩陣的更新較為稀疏,在這種情況下模型不易出現(xiàn)過擬合。而當(dāng)查詢向量數(shù)量增多時,會引發(fā)記憶矩陣的頻繁更新,部分關(guān)鍵向量可能會被過度更新。因此,我們得出最佳的查詢向量數(shù)量為32,這一結(jié)果對于通過控制查詢過程來進一步提升報告生成質(zhì)量具有重要指導(dǎo)意義。具體而言,當(dāng)查詢向量數(shù)量設(shè)x為16時,模型在挖掘影像與文本潛在聯(lián)系方面的能力受限。在IUX-Ray數(shù)據(jù)集上,其ROUGE-L分?jǐn)?shù)較默認(rèn)設(shè)置(32)降低了6%,臨床效能指標(biāo)中的精度和召回率也有所下降。這表明跨模態(tài)交互效率降低,影響了模型對病變特征的捕捉以及報告生成的準(zhǔn)確性。當(dāng)查詢向量數(shù)量增加至64時,盡管模型在部分指標(biāo)上有微弱提升,但由于過多的查詢向量導(dǎo)致資源競爭加劇,計算資源利用率下降。這使得模型訓(xùn)練時間大幅增加,并且出現(xiàn)不穩(wěn)定現(xiàn)象。綜合考量,默認(rèn)設(shè)置為32個查詢向量時,模型在效率和性能之間取得了最佳折衷,為實際應(yīng)用中優(yōu)化模型性能提供了關(guān)鍵參數(shù)依據(jù)。4.5案例分析及可視化為驗證CMN模型的有效性,從生成的醫(yī)療記錄中隨機選取三份展開分析。如圖4.6所示,將真實報告與CMN模型生成的醫(yī)學(xué)報告進行了細(xì)致比對。其中,紅色字體用于標(biāo)識觀察到的器官,藍(lán)色字體呈現(xiàn)基本事實及疾病描述信息,相同顏色的標(biāo)注突出了癥狀描述的相似性。圖4.6真實報告與CMN模型對比在第一行相關(guān)的內(nèi)容里,CMN模型精準(zhǔn)地針對“pleuraleffusion(胸腔積液)”“mediastinalcontour(縱隔輪廓)”以及“bonestructure(骨骼結(jié)構(gòu))”等疾病癥狀做了描述,清楚體現(xiàn)了模型在識別、表述這類病癥上的水平。CMN模型生成的醫(yī)學(xué)報告在文本的長度以及內(nèi)容豐富度上,更貼合真實的醫(yī)學(xué)報告,它有能力有效抓取并描述放射學(xué)醫(yī)學(xué)圖像中顯示的異常情形,在對影像信息做解讀以及轉(zhuǎn)化成醫(yī)學(xué)報告的過程中,展示出較高的契合水平與準(zhǔn)確水平,進一步證明了模型處理復(fù)雜醫(yī)學(xué)影像信息時的實際有效性。從第三行可看出,CMN模型能夠正確描述“cardiodiastinalsilhouette(心胸輪廓)”“focalconsolidation(局灶性實變)”“pneumothorax(氣胸)”“pleuraleffusion(胸腔積液)”等病癥現(xiàn)象,對相關(guān)病癥有無的判斷結(jié)果和真實報告一樣,還說到“Granulomasexist(存在肉芽腫)”,在關(guān)鍵疾病信息的呈現(xiàn)上同真實報告相符,說明CMN模型在處理這類醫(yī)學(xué)影像并生成對應(yīng)報告時,其準(zhǔn)確性和有效性表現(xiàn)良好。跟真實的醫(yī)學(xué)報告對比,我們的模型未對“rightlowerslopescaling”癥狀信息開展預(yù)測與描述。對隨機挑選的三份醫(yī)療記錄展開分析,CMN模型在醫(yī)學(xué)報告生成這件事上展現(xiàn)出較高的有效性與準(zhǔn)確性,在多數(shù)關(guān)鍵病癥的鑒別與描述層面,模型跟真實報告有著高度契合,不管是胸腔積液、縱隔輪廓等一般常見癥狀,或是心胸輪廓、局灶性實變這類復(fù)雜病癥,均能精準(zhǔn)展示,在文本生成的豐富性以及對影像信息的解讀轉(zhuǎn)化能力上,同樣表現(xiàn)得十分出色。4.6本章小結(jié)本章是圍繞跨模態(tài)記憶網(wǎng)絡(luò)(CMN)模型的實驗驗證與分析而展開的,采用一系列嚴(yán)格的實驗設(shè)計及深入的結(jié)果分析,充分證實了CMN模型在醫(yī)學(xué)影像報告生成任務(wù)里的有效性與優(yōu)越性。在實驗數(shù)據(jù)處理這個階段,采用IUX-Ray數(shù)據(jù)集做實驗,對數(shù)據(jù)集中的圖像和文本實施了全面的預(yù)處理流程,處于圖像預(yù)處理期間,統(tǒng)一調(diào)整圖像的尺寸大小、將像素值做歸一化處理并采用數(shù)據(jù)增強方式,讓圖像數(shù)據(jù)更契合模型輸入需求,提高了模型的泛化水平;文本預(yù)處理借助去除特殊符號、規(guī)范醫(yī)學(xué)術(shù)語、分詞以及編碼等操作,把文本改造為模型可處理的向量樣式,為后續(xù)實驗搭建了良好的數(shù)據(jù)根基。就實驗配置而言,選多個代表性的基線模型(像BASE、BASE+MEM)跟CMN模型對比,在統(tǒng)一的實驗環(huán)境設(shè)置(Windows10系統(tǒng)、Python3.8編程工具、PyTorch1.7.0框架等)下,校準(zhǔn)訓(xùn)練參數(shù),保障實驗結(jié)果既可靠又可進行對比。性能對比的結(jié)果說明,從自然語言生成指標(biāo)方面看,CMN模型在BLEU、METEOR、ROUGE-L等指標(biāo)上遠(yuǎn)遠(yuǎn)超過基線模型,這說明CMN模型在生成醫(yī)學(xué)影像報告的時候,在詞匯匹配、語義的相近程度和連貫程度上表現(xiàn)更勝一籌,能產(chǎn)出更合適、語義更充實且邏輯更連貫的報告。消融實驗進一步深入剖析了記憶矩陣規(guī)模與查詢記憶向量數(shù)對模型性能造成的影響,當(dāng)記憶矩陣的維度N設(shè)定為2048且記憶向量維度d設(shè)定為512時,模型在性能跟計算復(fù)雜度上達(dá)到較為理想的平衡;若查詢記憶向量數(shù)K達(dá)到32時,模型在效率跟性能上實現(xiàn)了最佳的折衷狀態(tài),為模型的實際應(yīng)用提供了關(guān)鍵的參數(shù)支撐。案例分析及可視化經(jīng)隨機抽取樣本與真實報告相對比,直觀展現(xiàn)出CMN模型在多數(shù)關(guān)鍵病癥識別及描述上的準(zhǔn)確性,以及在文本生成豐富度和影像信息解讀與轉(zhuǎn)化能力上的出色成效,即便存在少量信息丟失,但整體的有效與準(zhǔn)確程度相對較高。整合本章所做的實驗,清晰驗證了CMN模型在醫(yī)學(xué)影像報告生成任務(wù)中的超凡性能,為該模型在臨床診斷里的實際運用提供了有力支持,同樣為醫(yī)學(xué)影像智能診斷技術(shù)的發(fā)展提供了新的思路和參考借鑒。結(jié)論與展望本文圍繞醫(yī)學(xué)影像診斷報告智能生成方法實施深入研究,采用引入跨模態(tài)記憶網(wǎng)絡(luò)的辦法優(yōu)化編碼器-解碼器框架,成功做到了更高效、精準(zhǔn)的放射學(xué)報告產(chǎn)出,取得了一系列有意義的成效,主要所做的工作如下:(1)在理論跟技術(shù)維度,系統(tǒng)地對深度學(xué)習(xí)核心技術(shù)(卷積神經(jīng)網(wǎng)絡(luò)、Transformer架構(gòu)、記憶網(wǎng)絡(luò))、跨模態(tài)表征學(xué)習(xí)理論以及醫(yī)學(xué)影像報告生成的評估指標(biāo)體系進行了梳理,為研究打下了穩(wěn)固的根基,詳細(xì)分析現(xiàn)有方法所存在的跨模態(tài)對齊精準(zhǔn)度不夠、長報告語義偏移、罕見病癥數(shù)據(jù)稀少以及臨床術(shù)語標(biāo)準(zhǔn)化和靈活性平衡等問題,明確了后續(xù)研究方向。(2)就模型設(shè)計而言,用心組建跨模態(tài)記憶網(wǎng)絡(luò)架構(gòu),視覺特征提取模塊借助預(yù)訓(xùn)練好的CNN模型,高效提取醫(yī)學(xué)影像的空間局部特征序列;共享記憶矩陣明白無誤地記錄影像與文本的對齊關(guān)系,應(yīng)對傳統(tǒng)方法跨模態(tài)映射稀疏的難題;多線程查詢響應(yīng)機制增強了影像與文本特征的交互效率以及對齊精度;Transformer編解碼器的記憶融合途徑,讓編碼器提升視覺特征的力度并融入文本語義先驗,解碼器把編碼器輸出跟記憶響應(yīng)中的視覺上下文信息融合起來,打造高質(zhì)量的影像分析報告,對記憶查詢、記憶響應(yīng)以及編解碼融合過程進行縝密的數(shù)學(xué)建模,為模型運行打造了堅實的理論后盾。(3)在實驗驗證這個階段,采用IUX-Ray數(shù)據(jù)集實施全面實驗工作,對數(shù)據(jù)集中的圖像與文本實施細(xì)致預(yù)處理,選用多個基線模型開展對照,在統(tǒng)一實驗環(huán)境中用心調(diào)整訓(xùn)練參數(shù),實驗結(jié)果說明,在BLEU、METEOR、ROUGE-L等自然語言生成指標(biāo)上,CMN模型顯著領(lǐng)先于基線模型,在詞匯匹配、語義的相似性以及語義連貫性上表現(xiàn)突出。消融實驗找到了記憶矩陣維度N=2048、記憶向量維度d=512、查詢記憶向量數(shù)K=32時模型性能與效率的最優(yōu)平衡,案例分析及可視化直觀呈現(xiàn)出模型在多數(shù)關(guān)鍵病癥識別與描述方面的準(zhǔn)確性,以及在影像信息解讀轉(zhuǎn)換、文本生成豐富度呈現(xiàn)上的良好成效。本文所提出的跨模態(tài)記憶網(wǎng)絡(luò)模型在放射學(xué)報告生成任務(wù)里體現(xiàn)出不錯的有效性與優(yōu)越性,能夠更優(yōu)地實現(xiàn)影像與文本信息的匹配對齊,生成精準(zhǔn)度更高的報告,為臨床診斷增添了有力支持。雖然本研究取得了既定成果,但依舊存在一些需改進和拓展之處,就模型性能優(yōu)化而言,即便CMN模型在現(xiàn)有的實驗中展現(xiàn)出色,但遭遇復(fù)雜的臨床場景的時候,依舊存在提升余地,今后可進一步摸索更高效的跨模態(tài)交互機制,若結(jié)合最新的注意力機制變體或圖神經(jīng)網(wǎng)絡(luò)技術(shù),增強模型抓取復(fù)雜影像特征與文本語義關(guān)系的能力,進而提高模型在罕見病癥診斷及長報告生成上的性能。優(yōu)化模型訓(xùn)練所采用的算法,探索自適應(yīng)學(xué)習(xí)率的調(diào)整方案或更高效的梯度計算手段,縮短訓(xùn)練時長,提升模型收斂的速度與穩(wěn)定性,就模型應(yīng)用拓展而言,目前僅在IUX-Ray數(shù)據(jù)集上實施了實驗驗證,未來要針對更多大規(guī)模、多中心的臨床數(shù)據(jù)集做測試,證實模型的泛化效果。嘗試把模型運用到別的醫(yī)學(xué)影像模態(tài),諸如CT、MRI這類的,增大模型的應(yīng)用覆蓋面,探索與別的臨床輔助診斷系統(tǒng)的集成途徑,諸如電子病歷系統(tǒng)、臨床決策支持系統(tǒng)之類,實現(xiàn)數(shù)據(jù)的共享及互補,為醫(yī)生提供更全面、無誤的診斷素材。從實際應(yīng)用考慮角度,本模型對臨床應(yīng)用里的一些實際問題考慮得還不夠充分,后續(xù)研究可實施模型的臨床實用性評估工作,跟臨床醫(yī)生密切配合,收集醫(yī)生針對模型生成報告給出的反饋,再對報告生成內(nèi)容和格式做進一步優(yōu)化,讓其更符合臨床大夫的使用習(xí)慣,關(guān)注模型在不一樣醫(yī)療環(huán)境里的適用性,諸如不同地區(qū)、不同等級醫(yī)院網(wǎng)絡(luò)狀況與設(shè)備性能的差異等,保證模型在實際臨床工作當(dāng)中穩(wěn)定開展。論文對非技術(shù)因素的考慮:隨著模型逐步邁向臨床應(yīng)用階段,數(shù)據(jù)隱私

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論