基于稀疏表示的乳腺病理圖像良惡性自動(dòng)分類:方法、實(shí)踐與展望_第1頁
基于稀疏表示的乳腺病理圖像良惡性自動(dòng)分類:方法、實(shí)踐與展望_第2頁
基于稀疏表示的乳腺病理圖像良惡性自動(dòng)分類:方法、實(shí)踐與展望_第3頁
基于稀疏表示的乳腺病理圖像良惡性自動(dòng)分類:方法、實(shí)踐與展望_第4頁
基于稀疏表示的乳腺病理圖像良惡性自動(dòng)分類:方法、實(shí)踐與展望_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于稀疏表示的乳腺病理圖像良惡性自動(dòng)分類:方法、實(shí)踐與展望一、引言1.1研究背景與意義乳腺癌作為全球女性中最常見的惡性腫瘤之一,嚴(yán)重威脅著女性的生命健康。相關(guān)數(shù)據(jù)顯示,在我國,每年女性乳腺癌發(fā)病人數(shù)眾多,占全球總發(fā)病數(shù)的一定比例,且發(fā)病率呈現(xiàn)逐年上升以及年輕化的趨勢。乳腺癌的早期診斷對(duì)于提高患者生存率和生活質(zhì)量起著至關(guān)重要的作用。若能在早期發(fā)現(xiàn)并進(jìn)行治療,乳腺癌患者的生存率可大幅提高,早期乳腺癌生存率超過90%,但晚期乳腺癌的5年生存率卻只有30%-40%。傳統(tǒng)的乳腺癌診斷方法主要依賴醫(yī)生的經(jīng)驗(yàn)和主觀判斷。例如,醫(yī)生通過肉眼觀察乳腺病理圖像的特征,如顏色、紋理和結(jié)構(gòu)等,再結(jié)合自身的專業(yè)知識(shí)和臨床經(jīng)驗(yàn)來判斷病變的良惡性。這種方法存在諸多局限性,一方面,醫(yī)生的經(jīng)驗(yàn)和專業(yè)水平參差不齊,不同醫(yī)生對(duì)同一圖像可能會(huì)給出不同的診斷結(jié)果,從而導(dǎo)致誤診或漏診的情況發(fā)生;另一方面,人工解讀乳腺病理圖像需要耗費(fèi)大量的時(shí)間和精力,效率較低,尤其在面對(duì)大量的病理圖像時(shí),醫(yī)生容易出現(xiàn)疲勞和注意力不集中,進(jìn)一步增加了診斷誤差的風(fēng)險(xiǎn)。此外,傳統(tǒng)方法無法對(duì)大量圖像進(jìn)行高效處理,也難以實(shí)現(xiàn)疾病的早期篩查和預(yù)防。隨著人工智能技術(shù)的快速發(fā)展,基于稀疏表示的乳腺病理圖像良惡性自動(dòng)分類方法為解決上述問題提供了新的思路和途徑。稀疏表示是一種基于字典學(xué)習(xí)的特征提取方法,其基本思路是將輸入樣本表示為字典中若干個(gè)基向量的線性組合,通過最小化表示誤差來學(xué)習(xí)字典和權(quán)值系數(shù)。在乳腺病理圖像分類任務(wù)中,基于稀疏表示的方法首先用字典學(xué)習(xí)方法學(xué)習(xí)一個(gè)字典,然后將每個(gè)圖像表示為學(xué)習(xí)到的字典中若干個(gè)基向量的線性組合,最后通過最小化分類誤差來進(jìn)行分類。這種方法能夠自動(dòng)從乳腺病理圖像中提取有效的特征,減少對(duì)醫(yī)生主觀經(jīng)驗(yàn)的依賴,從而提高診斷的準(zhǔn)確性和效率。同時(shí),基于稀疏表示的方法還具有一定的魯棒性,能夠在一定程度上克服圖像噪聲、遮擋等因素對(duì)分類結(jié)果的影響。此外,該方法可以快速處理大量的乳腺病理圖像,有助于實(shí)現(xiàn)乳腺癌的早期篩查和預(yù)防,為患者的早期治療提供有力支持,具有重要的臨床應(yīng)用價(jià)值和社會(huì)意義。1.2國內(nèi)外研究現(xiàn)狀近年來,基于稀疏表示的乳腺病理圖像分類研究受到了廣泛關(guān)注,國內(nèi)外學(xué)者在該領(lǐng)域取得了一系列成果。在國外,一些研究通過改進(jìn)稀疏表示算法,提高了乳腺病理圖像分類的準(zhǔn)確率。例如,[具體文獻(xiàn)1]提出了一種基于稀疏表示的多尺度特征融合方法,該方法首先在不同尺度下對(duì)乳腺病理圖像進(jìn)行特征提取,然后將這些特征進(jìn)行融合,最后利用稀疏表示分類器進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明,該方法在公開數(shù)據(jù)集上取得了較高的分類準(zhǔn)確率。[具體文獻(xiàn)2]則研究了一種基于稀疏表示的字典學(xué)習(xí)算法,該算法通過引入正則化項(xiàng),提高了字典的判別能力,從而提升了乳腺病理圖像的分類性能。在國內(nèi),相關(guān)研究也在不斷推進(jìn)。[具體文獻(xiàn)3]提出了一種結(jié)合深度學(xué)習(xí)與稀疏表示的乳腺病理圖像分類方法,該方法利用深度學(xué)習(xí)模型提取圖像的高層語義特征,然后通過稀疏表示對(duì)這些特征進(jìn)行進(jìn)一步的降維和特征選擇,最后使用支持向量機(jī)進(jìn)行分類。實(shí)驗(yàn)結(jié)果顯示,該方法在多個(gè)數(shù)據(jù)集上表現(xiàn)出了良好的分類效果,能夠有效地提高乳腺病理圖像的分類準(zhǔn)確率。[具體文獻(xiàn)4]針對(duì)傳統(tǒng)稀疏表示方法對(duì)噪聲敏感的問題,提出了一種魯棒的稀疏表示分類算法,該算法通過在目標(biāo)函數(shù)中加入噪聲抑制項(xiàng),提高了分類模型對(duì)噪聲的魯棒性,在乳腺病理圖像分類實(shí)驗(yàn)中取得了較好的效果。盡管基于稀疏表示的乳腺病理圖像分類研究取得了一定進(jìn)展,但仍存在一些不足之處。一方面,目前的稀疏表示算法在處理復(fù)雜背景和多樣病變形態(tài)的乳腺病理圖像時(shí),分類準(zhǔn)確率還有提升空間,難以準(zhǔn)確地對(duì)一些具有特殊形態(tài)或特征的乳腺病變進(jìn)行分類。另一方面,現(xiàn)有的研究大多集中在單一特征的提取和分類,缺乏對(duì)多模態(tài)數(shù)據(jù)融合的深入研究,未能充分利用乳腺病理圖像中的多種信息,如紋理、形態(tài)和顏色等,限制了分類性能的進(jìn)一步提高。此外,在實(shí)際應(yīng)用中,如何提高算法的實(shí)時(shí)性和可解釋性也是亟待解決的問題,當(dāng)前的算法在處理大規(guī)模圖像數(shù)據(jù)時(shí),計(jì)算效率較低,難以滿足臨床快速診斷的需求,且算法的決策過程缺乏直觀的解釋,不利于醫(yī)生理解和信任分類結(jié)果。1.3研究目標(biāo)與內(nèi)容本研究旨在通過對(duì)基于稀疏表示的乳腺病理圖像良惡性自動(dòng)分類方法的深入研究,實(shí)現(xiàn)對(duì)乳腺病理圖像的高精度自動(dòng)分類,為乳腺癌的早期診斷提供有效的技術(shù)支持,降低誤診和漏診率,提高臨床診斷效率和準(zhǔn)確性。在研究內(nèi)容方面,首先深入研究稀疏表示算法的原理和應(yīng)用,結(jié)合乳腺病理圖像的特點(diǎn),對(duì)現(xiàn)有稀疏表示算法進(jìn)行改進(jìn)和優(yōu)化。例如,針對(duì)乳腺病理圖像中存在的噪聲和復(fù)雜背景問題,通過引入更有效的正則化項(xiàng)或改進(jìn)字典學(xué)習(xí)方法,提高算法對(duì)噪聲的魯棒性和對(duì)圖像特征的提取能力。同時(shí),考慮到乳腺病理圖像中病變區(qū)域的多樣性和復(fù)雜性,研究如何更好地利用圖像的多尺度、多模態(tài)信息,如結(jié)合紋理特征、形態(tài)特征和顏色特征等,以提高分類的準(zhǔn)確性。其次,收集和整理乳腺病理圖像數(shù)據(jù)集,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和標(biāo)注。數(shù)據(jù)的質(zhì)量和數(shù)量對(duì)模型的性能有著至關(guān)重要的影響,因此需要確保數(shù)據(jù)集的多樣性和代表性。在預(yù)處理過程中,采用圖像增強(qiáng)、歸一化等技術(shù),提高圖像的質(zhì)量和一致性。標(biāo)注工作則由專業(yè)的病理醫(yī)生進(jìn)行,以保證標(biāo)注的準(zhǔn)確性。然后,基于優(yōu)化后的稀疏表示算法,構(gòu)建乳腺病理圖像分類模型,并進(jìn)行實(shí)驗(yàn)驗(yàn)證。通過在公開數(shù)據(jù)集和自建數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),評(píng)估模型的分類準(zhǔn)確率、召回率、F1值等性能指標(biāo)。同時(shí),與其他傳統(tǒng)的和深度學(xué)習(xí)的乳腺病理圖像分類方法進(jìn)行對(duì)比,分析基于稀疏表示算法的優(yōu)勢和不足,明確其適用范圍。最后,根據(jù)實(shí)驗(yàn)結(jié)果對(duì)模型進(jìn)行進(jìn)一步的優(yōu)化和改進(jìn)。針對(duì)模型在實(shí)驗(yàn)中出現(xiàn)的問題,如過擬合、欠擬合等,采取相應(yīng)的解決措施,如調(diào)整模型參數(shù)、增加正則化項(xiàng)、改進(jìn)訓(xùn)練策略等。此外,還將研究如何提高模型的可解釋性,使醫(yī)生能夠更好地理解模型的決策過程,增強(qiáng)對(duì)模型診斷結(jié)果的信任。1.4研究方法與技術(shù)路線本研究采用文獻(xiàn)研究法、實(shí)驗(yàn)研究法等多種方法,以確保研究的科學(xué)性和可靠性。在文獻(xiàn)研究方面,廣泛查閱國內(nèi)外相關(guān)領(lǐng)域的學(xué)術(shù)文獻(xiàn),包括期刊論文、學(xué)位論文、會(huì)議論文等,全面了解基于稀疏表示的乳腺病理圖像分類的研究現(xiàn)狀、發(fā)展趨勢以及存在的問題,為研究提供堅(jiān)實(shí)的理論基礎(chǔ)和思路啟發(fā)。通過對(duì)大量文獻(xiàn)的梳理和分析,深入掌握稀疏表示算法的原理、應(yīng)用場景以及在乳腺病理圖像分類中的研究進(jìn)展,明確本研究的切入點(diǎn)和創(chuàng)新點(diǎn)。在實(shí)驗(yàn)研究方面,精心設(shè)計(jì)并實(shí)施一系列實(shí)驗(yàn)來驗(yàn)證所提出的方法和模型。首先,收集高質(zhì)量的乳腺病理圖像數(shù)據(jù)集,確保數(shù)據(jù)的多樣性和代表性。同時(shí),邀請專業(yè)的病理醫(yī)生對(duì)圖像進(jìn)行細(xì)致標(biāo)注,保證標(biāo)注的準(zhǔn)確性和可靠性。接著,對(duì)收集到的數(shù)據(jù)進(jìn)行嚴(yán)格的預(yù)處理,包括圖像增強(qiáng)、歸一化等操作,以提高圖像的質(zhì)量和一致性,為后續(xù)的算法訓(xùn)練和模型構(gòu)建奠定良好基礎(chǔ)。在技術(shù)路線上,首先進(jìn)行乳腺病理圖像的數(shù)據(jù)收集與預(yù)處理。廣泛收集公開的乳腺病理圖像數(shù)據(jù)集,如MIAS、DDSM等數(shù)據(jù)集,同時(shí)積極與醫(yī)院合作,獲取臨床實(shí)際的乳腺病理圖像數(shù)據(jù)。對(duì)收集到的數(shù)據(jù)進(jìn)行清洗,去除模糊、噪聲過大或標(biāo)注錯(cuò)誤的圖像。運(yùn)用圖像增強(qiáng)技術(shù),如直方圖均衡化、對(duì)比度拉伸等,提高圖像的清晰度和對(duì)比度;通過歸一化處理,將圖像的像素值統(tǒng)一到特定的范圍,以消除不同圖像之間的亮度和對(duì)比度差異。然后,深入研究并改進(jìn)稀疏表示算法。對(duì)傳統(tǒng)的稀疏表示算法,如K-SVD算法、在線字典學(xué)習(xí)算法等進(jìn)行深入剖析,結(jié)合乳腺病理圖像的特點(diǎn),從多個(gè)方面進(jìn)行改進(jìn)。針對(duì)乳腺病理圖像中存在的噪聲和復(fù)雜背景問題,在字典學(xué)習(xí)過程中引入更有效的正則化項(xiàng),如L1范數(shù)、L2范數(shù)等,以提高字典的魯棒性和對(duì)圖像特征的提取能力??紤]到乳腺病理圖像中病變區(qū)域的多樣性和復(fù)雜性,研究多尺度、多模態(tài)信息融合的方法,將圖像的紋理特征、形態(tài)特征和顏色特征等與稀疏表示相結(jié)合,充分利用圖像中的多種信息,提高分類的準(zhǔn)確性?;趦?yōu)化后的稀疏表示算法,構(gòu)建乳腺病理圖像分類模型。使用改進(jìn)后的稀疏表示算法對(duì)預(yù)處理后的乳腺病理圖像進(jìn)行特征提取,將提取到的特征作為分類模型的輸入。選擇合適的分類器,如支持向量機(jī)(SVM)、邏輯回歸等,與稀疏表示算法相結(jié)合,構(gòu)建完整的乳腺病理圖像分類模型。接下來,對(duì)構(gòu)建的模型進(jìn)行實(shí)驗(yàn)驗(yàn)證與性能評(píng)估。在公開數(shù)據(jù)集和自建數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn),通過交叉驗(yàn)證等方法評(píng)估模型的分類準(zhǔn)確率、召回率、F1值等性能指標(biāo)。與其他傳統(tǒng)的乳腺病理圖像分類方法,如基于特征工程的分類方法、淺層機(jī)器學(xué)習(xí)分類方法等,以及深度學(xué)習(xí)的分類方法,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等進(jìn)行對(duì)比實(shí)驗(yàn),分析基于稀疏表示算法的優(yōu)勢和不足,明確其適用范圍。最后,根據(jù)實(shí)驗(yàn)結(jié)果對(duì)模型進(jìn)行優(yōu)化與改進(jìn)。針對(duì)模型在實(shí)驗(yàn)中出現(xiàn)的過擬合、欠擬合等問題,采取相應(yīng)的解決措施。如通過調(diào)整模型參數(shù)、增加正則化項(xiàng)、改進(jìn)訓(xùn)練策略等方法,提高模型的泛化能力和穩(wěn)定性。研究如何提高模型的可解釋性,采用可視化技術(shù),如特征可視化、決策邊界可視化等,使醫(yī)生能夠更好地理解模型的決策過程,增強(qiáng)對(duì)模型診斷結(jié)果的信任。二、稀疏表示理論基礎(chǔ)2.1稀疏表示的基本概念稀疏表示作為一種重要的信號(hào)處理和機(jī)器學(xué)習(xí)技術(shù),旨在將給定的樣本信號(hào)用一組基向量(即字典)的線性組合進(jìn)行表示,且在這種表示中,只有極少數(shù)的基向量對(duì)信號(hào)表示起到關(guān)鍵作用,其余大部分基向量的系數(shù)為零或接近零,從而實(shí)現(xiàn)信號(hào)的稀疏表達(dá)。這種特性使得稀疏表示在眾多領(lǐng)域,如信號(hào)壓縮、圖像去噪、模式識(shí)別等,都展現(xiàn)出獨(dú)特的優(yōu)勢和廣泛的應(yīng)用潛力。從數(shù)學(xué)角度來看,假設(shè)存在一個(gè)由N個(gè)D維樣本組成的數(shù)據(jù)集\mathbf{X}=[\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_N],其中\(zhòng)mathbf{x}_i\in\mathbb{R}^D。稀疏表示的目標(biāo)是找到一個(gè)字典\mathbf{D}=[\mathbfywkssbb_1,\mathbfqqzlzte_2,\cdots,\mathbfmemqukv_M],這里的\mathbfwhpqjse_j\in\mathbb{R}^D是字典中的基向量,且M通常遠(yuǎn)大于D,即字典是過完備的。對(duì)于數(shù)據(jù)集中的任意一個(gè)樣本\mathbf{x}_i,都可以表示為字典中基向量的線性組合,即\mathbf{x}_i=\mathbf{D}\alpha_i,其中\(zhòng)alpha_i=[\alpha_{i1},\alpha_{i2},\cdots,\alpha_{iM}]^T是對(duì)應(yīng)的系數(shù)向量。在稀疏表示中,關(guān)鍵是要使得系數(shù)向量\alpha_i盡可能稀疏,也就是其中非零元素的個(gè)數(shù)K遠(yuǎn)小于字典中基向量的總數(shù)M,即\|\alpha_i\|_0\llM,這里的\|\cdot\|_0表示L_0范數(shù),用于計(jì)算向量中非零元素的個(gè)數(shù)。例如,在圖像領(lǐng)域中,一幅圖像可以看作是一個(gè)高維向量,通過稀疏表示,可以將其用字典中少數(shù)幾個(gè)基圖像(基向量)的線性組合來近似表示。這些基圖像就像是圖像的基本“原子”,不同的組合方式可以表示出各種各樣的圖像。對(duì)于一張包含人臉的圖像,字典中的某些基向量可能對(duì)應(yīng)人臉的眼睛、鼻子、嘴巴等關(guān)鍵特征部分,通過這些基向量的特定組合以及相應(yīng)稀疏的系數(shù)向量,就能準(zhǔn)確地表示出這張人臉圖像。在實(shí)際應(yīng)用中,稀疏表示能夠有效地提取圖像的關(guān)鍵特征,去除冗余信息,為后續(xù)的圖像分析和處理,如圖像分類、目標(biāo)識(shí)別等,提供有力的支持。在尋找稀疏解的過程中,通常會(huì)將其轉(zhuǎn)化為一個(gè)優(yōu)化問題來求解。由于直接求解L_0范數(shù)最小化問題是一個(gè)NP難問題,計(jì)算復(fù)雜度極高,在實(shí)際應(yīng)用中往往難以實(shí)現(xiàn)。因此,通常采用一些近似方法來求解,其中最常用的是利用L_1范數(shù)來代替L_0范數(shù)。這是因?yàn)長_1范數(shù)在一定程度上能夠逼近L_0范數(shù)的特性,并且L_1范數(shù)是凸函數(shù),存在許多成熟的優(yōu)化算法可以高效求解,如正交匹配追蹤(OMP)算法、基追蹤(BP)算法等。以O(shè)MP算法為例,它通過迭代的方式,每次從字典中選擇與當(dāng)前殘差相關(guān)性最強(qiáng)的基向量,逐步構(gòu)建稀疏解,直到滿足一定的停止條件為止。字典的選擇對(duì)于稀疏表示的效果起著至關(guān)重要的作用。一個(gè)合適的字典能夠更準(zhǔn)確地捕捉樣本數(shù)據(jù)的內(nèi)在特征和結(jié)構(gòu),從而得到更稀疏、更有效的表示。字典可以是預(yù)先定義好的,如離散余弦變換(DCT)字典、小波字典等,這些字典在某些特定的信號(hào)處理任務(wù)中表現(xiàn)出良好的性能。然而,在許多實(shí)際應(yīng)用中,預(yù)先定義的字典往往無法充分適應(yīng)復(fù)雜多變的數(shù)據(jù)特性。因此,通過數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)字典成為了一種更為有效的方法,如K-SVD算法、在線字典學(xué)習(xí)算法等。K-SVD算法通過迭代更新字典和稀疏表示,不斷優(yōu)化字典的原子,使其能夠更好地?cái)M合數(shù)據(jù),在圖像去噪、壓縮等任務(wù)中取得了顯著的效果。2.2字典學(xué)習(xí)算法2.2.1K-SVD算法K-SVD算法作為一種經(jīng)典的字典學(xué)習(xí)算法,在稀疏表示領(lǐng)域具有重要地位,由Aharon等人于2006年提出。該算法的核心目標(biāo)是通過迭代優(yōu)化的方式,學(xué)習(xí)一個(gè)能夠?qū)⒔o定數(shù)據(jù)進(jìn)行稀疏表示的過完備字典,同時(shí)最小化數(shù)據(jù)的重構(gòu)誤差,其在圖像去噪、壓縮感知、信號(hào)處理等諸多領(lǐng)域都展現(xiàn)出了卓越的性能和廣泛的應(yīng)用價(jià)值。K-SVD算法的基本思想基于信號(hào)的稀疏表示理論,即假設(shè)一個(gè)信號(hào)可以由字典中少數(shù)幾個(gè)原子(基向量)的線性組合來精確表示。在實(shí)際應(yīng)用中,如處理乳腺病理圖像時(shí),圖像可以被看作是一個(gè)高維信號(hào),通過K-SVD算法學(xué)習(xí)到的字典能夠捕捉圖像中的關(guān)鍵特征,從而實(shí)現(xiàn)對(duì)圖像的有效表示和分析。該算法的實(shí)現(xiàn)過程主要包括以下幾個(gè)關(guān)鍵步驟:首先是字典初始化。在算法開始時(shí),需要為字典選擇一個(gè)初始值。一種常見的方法是從訓(xùn)練數(shù)據(jù)集中隨機(jī)選取若干個(gè)樣本作為初始字典原子,這些原子構(gòu)成了初始的字典矩陣。例如,在處理乳腺病理圖像數(shù)據(jù)集時(shí),可以隨機(jī)從數(shù)據(jù)集中挑選一些具有代表性的圖像塊作為初始字典的組成部分。這種隨機(jī)選擇的方式雖然簡單,但能夠?yàn)楹罄m(xù)的迭代優(yōu)化提供一個(gè)基礎(chǔ),使得算法能夠在這個(gè)初始字典的基礎(chǔ)上逐步學(xué)習(xí)和改進(jìn)。接著進(jìn)行稀疏編碼階段。在字典初始化完成后,固定當(dāng)前字典,對(duì)每個(gè)訓(xùn)練樣本進(jìn)行稀疏編碼。這一步驟的目的是找到每個(gè)樣本在當(dāng)前字典下的最優(yōu)稀疏表示,即確定字典中哪些原子對(duì)表示該樣本最為關(guān)鍵,以及它們的組合系數(shù)。具體而言,通過求解一個(gè)優(yōu)化問題,如最小化L_1范數(shù)約束下的重構(gòu)誤差,來得到稀疏系數(shù)向量。在數(shù)學(xué)上,可以表示為:\min_{\alpha_i}\|\mathbf{x}_i-\mathbf{D}\alpha_i\|_2^2+\lambda\|\alpha_i\|_1,其中\(zhòng)mathbf{x}_i是第i個(gè)訓(xùn)練樣本,\mathbf{D}是字典,\alpha_i是對(duì)應(yīng)的稀疏系數(shù)向量,\lambda是正則化參數(shù),用于平衡重構(gòu)誤差和稀疏性之間的關(guān)系。在乳腺病理圖像的處理中,通過這一過程可以得到每個(gè)圖像塊在字典下的稀疏表示,這些稀疏系數(shù)反映了圖像塊與字典原子之間的關(guān)聯(lián)程度,從而提取出圖像塊的關(guān)鍵特征。然后進(jìn)入字典更新階段。在得到所有訓(xùn)練樣本的稀疏表示后,固定稀疏系數(shù)矩陣,對(duì)字典進(jìn)行更新。K-SVD算法采用奇異值分解(SVD)技術(shù)來更新字典原子,以最小化整體的重構(gòu)誤差。具體做法是,對(duì)于字典中的每個(gè)原子,找出所有使用了該原子的樣本,然后將這些樣本與該原子相關(guān)的部分從整體中分離出來,形成一個(gè)新的矩陣。對(duì)這個(gè)矩陣進(jìn)行奇異值分解,用分解得到的最大奇異值對(duì)應(yīng)的奇異向量來更新原字典原子。在乳腺病理圖像的字典學(xué)習(xí)中,通過這種方式不斷更新字典原子,使其能夠更好地適應(yīng)圖像數(shù)據(jù)的特征分布,提高對(duì)乳腺病理圖像的表示能力。最后是迭代優(yōu)化。不斷重復(fù)稀疏編碼和字典更新這兩個(gè)步驟,直到滿足預(yù)設(shè)的停止條件。停止條件可以是迭代次數(shù)達(dá)到上限,也可以是重構(gòu)誤差的變化小于某個(gè)閾值。隨著迭代的進(jìn)行,字典和稀疏系數(shù)會(huì)逐漸收斂到一個(gè)最優(yōu)解,使得字典能夠更好地表示訓(xùn)練數(shù)據(jù),重構(gòu)誤差也會(huì)逐漸減小。在乳腺病理圖像分類任務(wù)中,通過多次迭代優(yōu)化得到的字典,能夠更準(zhǔn)確地提取圖像特征,為后續(xù)的分類提供更有效的支持。K-SVD算法的優(yōu)點(diǎn)在于它能夠有效地學(xué)習(xí)到適合給定數(shù)據(jù)的字典,從而提高數(shù)據(jù)的表示效率和分類準(zhǔn)確率。通過迭代優(yōu)化,字典能夠逐漸捕捉到數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和特征,使得稀疏表示更加準(zhǔn)確和有效。然而,K-SVD算法也存在一些局限性。該算法的計(jì)算復(fù)雜度較高,特別是在處理大規(guī)模數(shù)據(jù)集時(shí),每次迭代都需要進(jìn)行大量的矩陣運(yùn)算,包括稀疏編碼過程中的優(yōu)化求解和字典更新過程中的奇異值分解,這使得算法的運(yùn)行時(shí)間較長。在處理高分辨率的乳腺病理圖像時(shí),數(shù)據(jù)量較大,K-SVD算法的計(jì)算效率會(huì)成為一個(gè)瓶頸,限制了其在實(shí)際應(yīng)用中的推廣。此外,K-SVD算法對(duì)噪聲較為敏感,當(dāng)數(shù)據(jù)中存在噪聲時(shí),學(xué)習(xí)到的字典可能會(huì)受到噪聲的干擾,導(dǎo)致表示效果下降。在乳腺病理圖像中,由于成像過程等因素可能會(huì)引入噪聲,這對(duì)K-SVD算法的性能會(huì)產(chǎn)生一定的影響,需要采取相應(yīng)的措施來提高其抗噪聲能力。2.2.2在線字典學(xué)習(xí)算法隨著數(shù)據(jù)量的不斷增長和實(shí)時(shí)性需求的日益提高,傳統(tǒng)的批量字典學(xué)習(xí)算法,如K-SVD算法,在處理大規(guī)模數(shù)據(jù)時(shí)面臨著計(jì)算復(fù)雜度高、內(nèi)存需求大以及無法適應(yīng)數(shù)據(jù)動(dòng)態(tài)變化等挑戰(zhàn)。在線字典學(xué)習(xí)算法應(yīng)運(yùn)而生,它能夠在數(shù)據(jù)逐個(gè)或逐批次到達(dá)時(shí),實(shí)時(shí)更新字典,而無需重新處理所有的歷史數(shù)據(jù),從而顯著降低了計(jì)算復(fù)雜度和內(nèi)存需求,為處理大規(guī)模數(shù)據(jù)提供了一種高效的解決方案。在線字典學(xué)習(xí)算法的基本思想是利用實(shí)時(shí)到來的數(shù)據(jù)逐步更新字典,使得字典能夠不斷適應(yīng)數(shù)據(jù)分布的變化。以處理乳腺病理圖像為例,在實(shí)際的醫(yī)療診斷場景中,新的乳腺病理圖像會(huì)不斷產(chǎn)生,在線字典學(xué)習(xí)算法可以在這些新圖像到達(dá)時(shí),及時(shí)利用它們來更新字典,從而提高對(duì)后續(xù)圖像的表示和分類能力。其核心步驟如下:在初始階段,與其他字典學(xué)習(xí)算法類似,需要對(duì)字典進(jìn)行初始化。通??梢圆捎秒S機(jī)初始化的方式,從一個(gè)隨機(jī)分布中生成字典的初始原子。也可以根據(jù)一些先驗(yàn)知識(shí)或簡單的啟發(fā)式方法來選擇初始字典,例如從少量的訓(xùn)練圖像中提取一些簡單的特征作為初始字典原子。在乳腺病理圖像的應(yīng)用中,若已知某些常見的乳腺病變特征,可以根據(jù)這些特征來初始化字典,為后續(xù)的學(xué)習(xí)提供一個(gè)更有針對(duì)性的起點(diǎn)。在數(shù)據(jù)處理階段,當(dāng)新的數(shù)據(jù)樣本到達(dá)時(shí),在線字典學(xué)習(xí)算法首先計(jì)算該樣本在當(dāng)前字典下的稀疏表示。這一步驟與傳統(tǒng)字典學(xué)習(xí)算法中的稀疏編碼過程類似,通過求解一個(gè)優(yōu)化問題來尋找最優(yōu)的稀疏系數(shù)向量,以最小化樣本與字典線性組合之間的重構(gòu)誤差。在計(jì)算稀疏表示時(shí),在線字典學(xué)習(xí)算法通常采用一些高效的優(yōu)化算法,如隨機(jī)梯度下降(SGD)及其變種算法,這些算法能夠在每次處理一個(gè)或一小批數(shù)據(jù)樣本時(shí),快速更新稀疏系數(shù),從而適應(yīng)在線學(xué)習(xí)的需求。在字典更新階段,根據(jù)新樣本的稀疏表示結(jié)果,算法會(huì)對(duì)字典進(jìn)行更新。與傳統(tǒng)的批量字典學(xué)習(xí)算法不同,在線字典學(xué)習(xí)算法采用增量更新的方式,即每次只根據(jù)當(dāng)前新到達(dá)的數(shù)據(jù)樣本及其稀疏表示來調(diào)整字典,而不是對(duì)整個(gè)字典進(jìn)行大規(guī)模的重新計(jì)算。一種常見的更新策略是基于隨機(jī)梯度下降的思想,通過計(jì)算重構(gòu)誤差對(duì)字典原子的梯度,然后沿著梯度的反方向來更新字典原子。在乳腺病理圖像的處理中,當(dāng)新的乳腺病理圖像樣本到達(dá)時(shí),根據(jù)其稀疏表示計(jì)算出的梯度信息,對(duì)字典中的原子進(jìn)行微調(diào),使得字典能夠更好地反映新樣本的特征,從而提高對(duì)乳腺病理圖像的表示能力。在線字典學(xué)習(xí)算法的優(yōu)勢在多個(gè)方面得以體現(xiàn)。由于其增量學(xué)習(xí)的特性,它能夠?qū)崟r(shí)處理新的數(shù)據(jù),無需等待所有數(shù)據(jù)收集完畢后再進(jìn)行字典學(xué)習(xí),這對(duì)于需要實(shí)時(shí)響應(yīng)的應(yīng)用場景,如實(shí)時(shí)醫(yī)療診斷輔助系統(tǒng),具有重要意義。在處理大規(guī)模乳腺病理圖像數(shù)據(jù)時(shí),在線字典學(xué)習(xí)算法可以在新圖像不斷產(chǎn)生的過程中持續(xù)學(xué)習(xí),及時(shí)為醫(yī)生提供診斷支持。在線字典學(xué)習(xí)算法的計(jì)算復(fù)雜度和內(nèi)存需求相對(duì)較低,它不需要存儲(chǔ)和處理所有的歷史數(shù)據(jù),只需要在每次更新字典時(shí)考慮當(dāng)前新到達(dá)的數(shù)據(jù)樣本,這使得它能夠在資源有限的設(shè)備上運(yùn)行。在一些醫(yī)療設(shè)備的嵌入式系統(tǒng)中,由于硬件資源有限,在線字典學(xué)習(xí)算法的低計(jì)算復(fù)雜度和內(nèi)存需求特性使其能夠更好地適配這些設(shè)備,為現(xiàn)場的醫(yī)療診斷提供技術(shù)支持。盡管在線字典學(xué)習(xí)算法具有諸多優(yōu)勢,但它也存在一些不足之處。由于每次更新字典僅基于當(dāng)前新到達(dá)的數(shù)據(jù)樣本,這可能導(dǎo)致字典的更新不夠穩(wěn)定,容易受到噪聲或異常數(shù)據(jù)的影響。在乳腺病理圖像中,如果新到達(dá)的圖像樣本存在噪聲或標(biāo)注錯(cuò)誤,在線字典學(xué)習(xí)算法可能會(huì)根據(jù)這些有問題的數(shù)據(jù)對(duì)字典進(jìn)行錯(cuò)誤的更新,從而影響字典的質(zhì)量和后續(xù)的分類性能。此外,在線字典學(xué)習(xí)算法在處理數(shù)據(jù)分布變化較大的情況時(shí),可能需要較長的時(shí)間來適應(yīng)新的分布,因?yàn)樗侵鸩礁伦值涞?,無法像批量學(xué)習(xí)算法那樣一次性利用所有數(shù)據(jù)進(jìn)行全面的調(diào)整。當(dāng)乳腺病理圖像數(shù)據(jù)的來源或采集條件發(fā)生較大變化時(shí),在線字典學(xué)習(xí)算法可能需要經(jīng)過多次迭代更新才能使字典適應(yīng)新的數(shù)據(jù)分布,在這個(gè)過程中,分類性能可能會(huì)受到一定的影響。2.3基于稀疏表示的分類算法2.3.1稀疏表示分類(SRC)稀疏表示分類(SparseRepresentationClassification,SRC)作為基于稀疏表示理論的重要分類方法,在模式識(shí)別、圖像處理等領(lǐng)域展現(xiàn)出獨(dú)特的優(yōu)勢和廣泛的應(yīng)用潛力。其核心思想基于信號(hào)的稀疏表示,即假設(shè)一個(gè)測試樣本可以由訓(xùn)練樣本集中的少數(shù)幾個(gè)樣本以線性組合的方式進(jìn)行精確表示,且這些參與組合的樣本主要來自于與測試樣本同一類別的訓(xùn)練樣本。以乳腺病理圖像分類為例,SRC的具體實(shí)現(xiàn)過程如下:首先,構(gòu)建字典。將訓(xùn)練樣本集中的所有樣本按類別排列,組成一個(gè)過完備字典\mathbf{D}=[\mathbf{D}_1,\mathbf{D}_2,\cdots,\mathbf{D}_C],其中C表示類別數(shù),\mathbf{D}_i表示第i類的訓(xùn)練樣本矩陣。對(duì)于每一個(gè)乳腺病理圖像訓(xùn)練樣本,將其特征向量按上述方式排列,形成字典,用于后續(xù)對(duì)測試樣本的表示。然后,對(duì)于一個(gè)新的測試樣本\mathbf{y},需要求解其在字典\mathbf{D}上的稀疏表示系數(shù)向量\alpha。這一過程通過求解一個(gè)優(yōu)化問題來實(shí)現(xiàn),通常采用L_1范數(shù)最小化問題來尋找稀疏解,即\min_{\alpha}\|\mathbf{y}-\mathbf{D}\alpha\|_2^2+\lambda\|\alpha\|_1,其中\(zhòng)lambda是正則化參數(shù),用于平衡重構(gòu)誤差和稀疏性。通過求解該優(yōu)化問題,可以得到一個(gè)稀疏的系數(shù)向量\alpha,使得測試樣本\mathbf{y}能夠由字典\mathbf{D}中的少數(shù)幾個(gè)原子(基向量)線性表示。在乳腺病理圖像的分類中,這個(gè)稀疏系數(shù)向量反映了測試圖像與字典中各類別訓(xùn)練圖像之間的關(guān)聯(lián)程度,即哪些訓(xùn)練圖像對(duì)表示測試圖像起到了關(guān)鍵作用。在得到稀疏表示系數(shù)向量\alpha后,根據(jù)重構(gòu)誤差最小原則確定測試樣本的類別。將系數(shù)向量\alpha按類別進(jìn)行劃分,得到每個(gè)類別對(duì)應(yīng)的系數(shù)子向量\alpha_i,然后計(jì)算測試樣本\mathbf{y}在每個(gè)類別上的重構(gòu)誤差r_i(\mathbf{y})=\|\mathbf{y}-\mathbf{D}_i\alpha_i\|_2,其中i=1,2,\cdots,C。測試樣本\mathbf{y}被判定為重構(gòu)誤差最小的類別,即\mathrm{class}(\mathbf{y})=\arg\min_{i}r_i(\mathbf{y})。在乳腺病理圖像的實(shí)際分類任務(wù)中,如果一個(gè)乳腺病理圖像測試樣本在某一類別的重構(gòu)誤差最小,就說明該測試樣本與這一類別的乳腺病理圖像特征最為相似,從而將其歸為該類別。SRC方法的優(yōu)勢在于其對(duì)噪聲和遮擋具有一定的魯棒性。由于測試樣本是由字典中少數(shù)幾個(gè)樣本線性組合表示,即使測試樣本存在部分噪聲或遮擋,只要這些噪聲或遮擋部分不影響關(guān)鍵特征的表示,SRC仍然能夠通過稀疏表示找到與之匹配的類別,從而正確分類。在乳腺病理圖像中,圖像可能會(huì)受到成像設(shè)備噪聲、組織切片不均勻等因素的影響,SRC方法能夠在一定程度上克服這些干擾,準(zhǔn)確地對(duì)圖像進(jìn)行分類。然而,SRC方法也存在一些局限性。其計(jì)算復(fù)雜度較高,在求解稀疏表示系數(shù)向量時(shí),需要進(jìn)行大量的矩陣運(yùn)算和優(yōu)化求解,這在處理大規(guī)模數(shù)據(jù)集時(shí)會(huì)耗費(fèi)大量的時(shí)間和計(jì)算資源。當(dāng)面對(duì)大量的乳腺病理圖像數(shù)據(jù)時(shí),SRC的計(jì)算效率會(huì)成為限制其應(yīng)用的瓶頸。此外,SRC方法對(duì)字典的質(zhì)量和完備性要求較高,如果字典不能很好地覆蓋所有類別的特征,或者存在類別不平衡的情況,可能會(huì)導(dǎo)致分類性能下降。在乳腺病理圖像分類中,如果字典中某些類別的樣本數(shù)量過少,或者缺乏對(duì)一些罕見病變特征的表示,就可能影響SRC方法的分類準(zhǔn)確性。2.3.2協(xié)同表示分類(CRC)協(xié)同表示分類(CollaborativeRepresentationClassification,CRC)作為一種基于樣本間協(xié)同關(guān)系的分類方法,在近年來的模式識(shí)別和圖像處理領(lǐng)域受到了廣泛關(guān)注。與傳統(tǒng)的稀疏表示分類方法不同,CRC強(qiáng)調(diào)樣本之間的協(xié)同作用,認(rèn)為不同類別樣本之間的相互協(xié)作對(duì)于準(zhǔn)確分類起著關(guān)鍵作用,而非僅僅依賴于樣本表示的稀疏性。CRC的基本原理基于以下假設(shè):一個(gè)測試樣本可以由所有訓(xùn)練樣本的線性組合進(jìn)行近似表示,并且這種表示能夠充分利用樣本之間的協(xié)同信息,從而提高分類的準(zhǔn)確性。以乳腺病理圖像分類為例,CRC的具體實(shí)現(xiàn)過程如下:首先,與SRC類似,將訓(xùn)練樣本集按類別排列組成字典\mathbf{D}=[\mathbf{D}_1,\mathbf{D}_2,\cdots,\mathbf{D}_C],其中\(zhòng)mathbf{D}_i表示第i類的訓(xùn)練樣本矩陣。對(duì)于乳腺病理圖像的訓(xùn)練樣本,將其特征向量按類別組織成字典,為后續(xù)的協(xié)同表示計(jì)算提供基礎(chǔ)。然后,對(duì)于一個(gè)新的測試樣本\mathbf{y},CRC通過求解一個(gè)優(yōu)化問題來計(jì)算其在訓(xùn)練樣本集上的協(xié)同表示系數(shù)向量\beta。與SRC中使用L_1范數(shù)約束稀疏性不同,CRC采用L_2范數(shù)來約束系數(shù)向量的范數(shù),其目標(biāo)函數(shù)為\min_{\beta}\|\mathbf{y}-\mathbf{D}\beta\|_2^2+\lambda\|\beta\|_2^2,其中\(zhòng)lambda是正則化參數(shù),用于平衡重構(gòu)誤差和系數(shù)向量的范數(shù)。通過求解這個(gè)優(yōu)化問題,可以得到測試樣本\mathbf{y}在所有訓(xùn)練樣本上的協(xié)同表示系數(shù)向量\beta。在乳腺病理圖像的分類中,這個(gè)系數(shù)向量反映了測試圖像與各個(gè)訓(xùn)練圖像之間的協(xié)同關(guān)系,即每個(gè)訓(xùn)練圖像對(duì)表示測試圖像的貢獻(xiàn)程度。在得到協(xié)同表示系數(shù)向量\beta后,計(jì)算測試樣本\mathbf{y}在每個(gè)類別訓(xùn)練樣本上的重構(gòu)誤差e_i=\|\mathbf{y}-\mathbf{D}_i\beta_i\|_2,其中\(zhòng)beta_i是系數(shù)向量\beta中對(duì)應(yīng)于第i類訓(xùn)練樣本的子向量,i=1,2,\cdots,C。最后,測試樣本\mathbf{y}被分類為重構(gòu)誤差最小的類別,即\mathrm{class}(\mathbf{y})=\arg\min_{i}e_i。在乳腺病理圖像的實(shí)際分類中,如果一個(gè)乳腺病理圖像測試樣本在某一類別的重構(gòu)誤差最小,說明該測試樣本與這一類別的乳腺病理圖像在協(xié)同表示下最為相似,從而將其歸為該類別。CRC方法的主要優(yōu)勢在于其計(jì)算復(fù)雜度較低。相比于SRC方法中求解L_1范數(shù)最小化問題,CRC求解的是一個(gè)基于L_2范數(shù)的優(yōu)化問題,在計(jì)算上更加高效,能夠快速處理大規(guī)模的數(shù)據(jù)集。在處理大量乳腺病理圖像時(shí),CRC能夠在較短的時(shí)間內(nèi)完成分類任務(wù),提高了臨床診斷的效率。此外,CRC方法在一定程度上能夠利用樣本之間的協(xié)同信息,增強(qiáng)了分類的穩(wěn)定性和準(zhǔn)確性,尤其是在樣本分布較為復(fù)雜的情況下,表現(xiàn)出較好的性能。在乳腺病理圖像中,不同類型的病變可能具有復(fù)雜的特征分布,CRC通過樣本間的協(xié)同關(guān)系,能夠更好地捕捉這些特征,從而提高分類的準(zhǔn)確性。然而,CRC方法也存在一些不足之處。由于其沒有像SRC那樣強(qiáng)調(diào)系數(shù)的稀疏性,可能會(huì)導(dǎo)致一些不相關(guān)的樣本對(duì)表示產(chǎn)生影響,從而在一定程度上降低分類的精度。在乳腺病理圖像分類中,如果存在一些與測試樣本特征差異較大但數(shù)量較多的訓(xùn)練樣本,CRC可能會(huì)受到這些樣本的干擾,使得分類結(jié)果不夠準(zhǔn)確。此外,CRC方法對(duì)訓(xùn)練樣本的質(zhì)量和分布也較為敏感,如果訓(xùn)練樣本存在噪聲或類別不平衡等問題,可能會(huì)影響其分類性能。在乳腺病理圖像數(shù)據(jù)中,如果某些類別的樣本存在較多噪聲,或者不同類別樣本數(shù)量相差較大,CRC的分類效果可能會(huì)受到負(fù)面影響。三、乳腺病理圖像數(shù)據(jù)集與預(yù)處理3.1常用乳腺病理圖像數(shù)據(jù)集在乳腺病理圖像研究領(lǐng)域,豐富且高質(zhì)量的數(shù)據(jù)集是推動(dòng)算法研究和模型發(fā)展的重要基礎(chǔ)。常用的乳腺病理圖像數(shù)據(jù)集包含多種類型,為不同研究方向和方法提供了多樣的數(shù)據(jù)支持,其中MIAS數(shù)據(jù)集和DDSM數(shù)據(jù)集在乳腺病理圖像研究中應(yīng)用廣泛。3.1.1MIAS數(shù)據(jù)集MIAS(MammographicImageAnalysisSociety)數(shù)據(jù)集由乳腺X光圖像分析學(xué)會(huì)建立,其數(shù)據(jù)來源于英國國家乳房篩查計(jì)劃中拍攝的膠片,具有重要的研究價(jià)值。該數(shù)據(jù)集包含322張數(shù)字化乳腺X光影像,每張圖像的尺寸固定為1024×1024像素。這種統(tǒng)一的圖像尺寸為后續(xù)的數(shù)據(jù)處理和分析提供了便利,減少了因圖像尺寸差異帶來的額外處理步驟。在圖像標(biāo)注方面,MIAS數(shù)據(jù)集涵蓋了良性和惡性兩種標(biāo)注等級(jí),其中良性乳腺影像有208張,惡性乳腺影像有114張。這種明確的標(biāo)注信息為乳腺病理圖像的良惡性分類研究提供了準(zhǔn)確的樣本標(biāo)簽,使得研究人員能夠基于這些標(biāo)注數(shù)據(jù)進(jìn)行模型訓(xùn)練和評(píng)估。MIAS數(shù)據(jù)集的圖像在獲取過程中,使用Joyce-Loebl掃描微密度計(jì)將膠片數(shù)字化為50微米像素邊緣,設(shè)備的光密度范圍為0-3.2,并用8位字表示每個(gè)像素。這些參數(shù)設(shè)定保證了圖像能夠較為準(zhǔn)確地記錄乳腺組織的細(xì)節(jié)信息,為后續(xù)的圖像分析和特征提取提供了良好的數(shù)據(jù)基礎(chǔ)。例如,在研究乳腺腫瘤的形態(tài)特征時(shí),圖像中清晰的像素細(xì)節(jié)能夠幫助研究人員準(zhǔn)確地測量腫瘤的大小、形狀等參數(shù),從而為腫瘤良惡性的判斷提供有力依據(jù)。然而,MIAS數(shù)據(jù)集也存在一定的局限性。其數(shù)據(jù)規(guī)模相對(duì)較小,僅包含322張圖像,這在一定程度上限制了復(fù)雜模型的訓(xùn)練和泛化能力。在訓(xùn)練深度學(xué)習(xí)模型時(shí),較小的數(shù)據(jù)集可能導(dǎo)致模型過擬合,無法充分學(xué)習(xí)到乳腺病理圖像的復(fù)雜特征和規(guī)律。由于該數(shù)據(jù)集主要來源于英國國家乳房篩查計(jì)劃,其數(shù)據(jù)可能存在一定的地域局限性,對(duì)于其他地區(qū)的乳腺病理圖像特征的代表性可能不足。不同地區(qū)的人群乳腺組織特征、生活環(huán)境和遺傳因素等可能存在差異,這些差異可能導(dǎo)致乳腺病理圖像特征的不同,而MIAS數(shù)據(jù)集可能無法全面反映這些差異。3.1.2DDSM數(shù)據(jù)集DDSM(DigitalDatabaseforScreeningMammography)數(shù)據(jù)集是美國的醫(yī)學(xué)機(jī)構(gòu)所建立的專門存放乳腺癌圖像的數(shù)據(jù)庫,也是乳腺鉬靶數(shù)字圖像最大的公開數(shù)據(jù)庫,在乳腺病理研究中發(fā)揮著關(guān)鍵作用。該數(shù)據(jù)集規(guī)模較大,包含2620張數(shù)字乳腺X光影像,相比MIAS數(shù)據(jù)集,其更大的數(shù)據(jù)量為模型訓(xùn)練提供了更豐富的樣本,有助于模型學(xué)習(xí)到更全面的乳腺病理圖像特征,提高模型的泛化能力。在圖像標(biāo)注方面,DDSM數(shù)據(jù)集同樣具有良性和惡性兩個(gè)標(biāo)注等級(jí),其中良性乳腺影像有959張,惡性乳腺影像有1661張。這些標(biāo)注信息為乳腺病理圖像的分類研究提供了準(zhǔn)確的標(biāo)簽,使得研究人員能夠基于該數(shù)據(jù)集進(jìn)行模型的訓(xùn)練、驗(yàn)證和測試。DDSM數(shù)據(jù)集的數(shù)據(jù)獲取主要由三種不同型號(hào)的鉬靶掃描儀器完成,分別是DBA、HOWTEK和LUMYSIS。不同的掃描儀器設(shè)置的參數(shù)各不相同,包括圖像的分辨率、對(duì)比度和大小等。例如,圖像矩陣可能是3328×4084或2560×3328像素,具體取決于采集中使用的壓縮板(根據(jù)患者的乳房大?。?。這種多儀器、多參數(shù)采集的數(shù)據(jù)特點(diǎn),使得DDSM數(shù)據(jù)集更具多樣性,更能反映實(shí)際臨床中乳腺X光影像的復(fù)雜性。在實(shí)際臨床診斷中,不同醫(yī)院使用的鉬靶掃描儀器型號(hào)和參數(shù)也存在差異,DDSM數(shù)據(jù)集的這種多樣性能夠更好地模擬真實(shí)場景,為研究人員提供更貼近實(shí)際的研究數(shù)據(jù)。DDSM數(shù)據(jù)集的數(shù)據(jù)全部以.LJPEG格式存儲(chǔ),并以DICOM格式保存,圖像的大小、對(duì)比度以及存儲(chǔ)格式的差異會(huì)直接影響到后續(xù)的實(shí)驗(yàn)結(jié)果。不同的存儲(chǔ)格式和參數(shù)設(shè)置可能導(dǎo)致圖像在讀取、處理和分析過程中出現(xiàn)差異,因此在使用該數(shù)據(jù)集時(shí),需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,以消除這些差異對(duì)實(shí)驗(yàn)結(jié)果的影響。研究人員通常會(huì)使用直方圖規(guī)定化技術(shù)等方法,通過一個(gè)灰度映射函數(shù)將圖像的灰度映射到期望的灰度空間,實(shí)現(xiàn)灰度均衡,改善圖像的對(duì)比度和亮度,以提高后續(xù)分析的準(zhǔn)確性。DDSM數(shù)據(jù)集還存放了cancer、normal、benign、benign_without_callback四類數(shù)據(jù),豐富的數(shù)據(jù)類別為研究人員提供了更全面的研究角度。研究人員可以基于這些不同類別的數(shù)據(jù),深入研究乳腺癌在不同階段、不同表現(xiàn)形式下的圖像特征,從而為乳腺癌的早期診斷和治療提供更有力的支持。3.2圖像預(yù)處理方法3.2.1圖像增強(qiáng)乳腺病理圖像在采集過程中,由于受到成像設(shè)備、環(huán)境等多種因素的影響,往往存在對(duì)比度低、噪聲干擾等問題,這會(huì)嚴(yán)重影響后續(xù)的圖像分析和診斷。為了提高圖像的質(zhì)量和可辨識(shí)度,本研究采用了直方圖均衡化和對(duì)比度拉伸等圖像增強(qiáng)技術(shù)。直方圖均衡化是一種基于灰度直方圖的圖像增強(qiáng)方法,其核心思想是通過對(duì)圖像的灰度直方圖進(jìn)行變換,將圖像的灰度分布映射為近似均勻分布,從而增強(qiáng)圖像的整體對(duì)比度。在乳腺病理圖像中,過曝光或曝光不足的圖像較為常見,這些圖像的灰度級(jí)可能集中在較窄的區(qū)間內(nèi),導(dǎo)致圖像細(xì)節(jié)不清晰。通過直方圖均衡化,能夠有效地?cái)U(kuò)展圖像的灰度動(dòng)態(tài)范圍,使得圖像中的各個(gè)灰度級(jí)分布更加均勻,從而突出乳腺組織的細(xì)微結(jié)構(gòu)和病變特征。在一幅乳腺病理圖像中,原本一些模糊的乳腺導(dǎo)管和腺體結(jié)構(gòu),經(jīng)過直方圖均衡化處理后,其邊緣變得更加清晰,有利于醫(yī)生對(duì)乳腺組織的形態(tài)和結(jié)構(gòu)進(jìn)行觀察和分析。對(duì)比度拉伸則是另一種常用的圖像增強(qiáng)技術(shù),它通過對(duì)圖像的灰度值進(jìn)行線性或非線性變換,來調(diào)整圖像的對(duì)比度。具體來說,對(duì)比度拉伸可以將圖像中感興趣區(qū)域的灰度范圍進(jìn)行擴(kuò)展,同時(shí)壓縮背景區(qū)域的灰度范圍,從而使感興趣區(qū)域更加突出。在乳腺病理圖像中,對(duì)于一些對(duì)比度較低的病變區(qū)域,如微小的乳腺腫瘤或鈣化點(diǎn),對(duì)比度拉伸能夠增強(qiáng)這些區(qū)域與周圍正常組織的對(duì)比度,使其更容易被檢測和識(shí)別。通過對(duì)比度拉伸,原本在低對(duì)比度下難以分辨的微小鈣化點(diǎn),在處理后的圖像中變得更加明顯,為醫(yī)生提供了更準(zhǔn)確的診斷信息。為了驗(yàn)證圖像增強(qiáng)技術(shù)的有效性,本研究對(duì)一組乳腺病理圖像進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,經(jīng)過直方圖均衡化和對(duì)比度拉伸處理后,圖像的對(duì)比度明顯提高,乳腺組織的紋理和結(jié)構(gòu)更加清晰,病變區(qū)域的特征更加突出。在圖像質(zhì)量評(píng)估指標(biāo)方面,處理后的圖像在峰值信噪比(PSNR)和結(jié)構(gòu)相似性指數(shù)(SSIM)等指標(biāo)上均有顯著提升,這進(jìn)一步證明了圖像增強(qiáng)技術(shù)能夠有效提高乳腺病理圖像的質(zhì)量,為后續(xù)的圖像分析和分類提供了更好的基礎(chǔ)。3.2.2圖像分割在乳腺病理圖像分析中,準(zhǔn)確分割出乳腺組織區(qū)域是至關(guān)重要的一步,它能夠去除無關(guān)背景信息,聚焦于關(guān)鍵的乳腺組織,為后續(xù)的特征提取和分類提供純凈的數(shù)據(jù)。本研究采用了閾值分割和區(qū)域生長等方法來實(shí)現(xiàn)乳腺組織區(qū)域的分割。閾值分割是一種基于圖像灰度值的簡單而有效的分割方法,其基本原理是根據(jù)圖像的灰度特性,選擇一個(gè)合適的閾值,將圖像中的像素點(diǎn)分為兩類:灰度值大于閾值的像素點(diǎn)和灰度值小于閾值的像素點(diǎn)。在乳腺病理圖像中,乳腺組織與背景的灰度值通常存在一定的差異,通過設(shè)定合適的閾值,可以將乳腺組織從背景中分離出來。在一些乳腺X光圖像中,乳腺組織的灰度值相對(duì)較高,而背景的灰度值較低,通過設(shè)定一個(gè)合適的閾值,如128(假設(shè)圖像灰度值范圍為0-255),可以將灰度值大于128的像素點(diǎn)判定為乳腺組織,小于128的像素點(diǎn)判定為背景,從而實(shí)現(xiàn)乳腺組織區(qū)域的初步分割。然而,閾值分割方法對(duì)于一些復(fù)雜的乳腺病理圖像可能存在局限性,例如圖像中存在噪聲或乳腺組織與背景的灰度差異不明顯時(shí),分割效果可能不理想。為了提高分割的準(zhǔn)確性,本研究還采用了區(qū)域生長方法。區(qū)域生長是一種基于種子點(diǎn)的迭代分割算法,它從一個(gè)或多個(gè)種子點(diǎn)開始,根據(jù)一定的生長準(zhǔn)則,逐步將相鄰的像素點(diǎn)合并到種子點(diǎn)所在的區(qū)域,直到滿足停止條件為止。在乳腺病理圖像分割中,首先需要選擇合適的種子點(diǎn),這些種子點(diǎn)通常位于乳腺組織區(qū)域內(nèi)??梢酝ㄟ^手動(dòng)標(biāo)記或自動(dòng)算法來確定種子點(diǎn)的位置。然后,根據(jù)生長準(zhǔn)則,如像素的灰度相似性或空間鄰接性,將與種子點(diǎn)相似的相鄰像素點(diǎn)合并到生長區(qū)域中。不斷重復(fù)這個(gè)過程,直到生長區(qū)域不再擴(kuò)大或滿足其他停止條件,如達(dá)到一定的區(qū)域面積或生長次數(shù)。在一幅存在噪聲干擾的乳腺病理圖像中,通過手動(dòng)選擇乳腺組織區(qū)域內(nèi)的一個(gè)像素點(diǎn)作為種子點(diǎn),然后根據(jù)灰度相似性準(zhǔn)則,將與種子點(diǎn)灰度值相近的相鄰像素點(diǎn)逐步合并到生長區(qū)域中,最終能夠準(zhǔn)確地分割出乳腺組織區(qū)域,有效克服了閾值分割方法在處理復(fù)雜圖像時(shí)的不足。為了評(píng)估圖像分割方法的性能,本研究采用了Dice系數(shù)、交并比(IoU)等指標(biāo)。Dice系數(shù)用于衡量分割結(jié)果與真實(shí)標(biāo)注之間的相似度,其值越接近1,表示分割結(jié)果越準(zhǔn)確;交并比則是計(jì)算分割結(jié)果與真實(shí)標(biāo)注的交集與并集的比值,同樣,該比值越接近1,說明分割效果越好。通過在實(shí)驗(yàn)數(shù)據(jù)集上的測試,本研究提出的基于閾值分割和區(qū)域生長相結(jié)合的方法,在Dice系數(shù)和IoU指標(biāo)上均取得了較好的成績,分別達(dá)到了[具體數(shù)值1]和[具體數(shù)值2],表明該方法能夠有效地分割出乳腺組織區(qū)域,為后續(xù)的圖像分析和分類提供了高質(zhì)量的數(shù)據(jù)。3.2.3特征提取與降維乳腺病理圖像中蘊(yùn)含著豐富的信息,準(zhǔn)確提取這些信息并進(jìn)行有效的降維處理,對(duì)于提高圖像分類的準(zhǔn)確性和效率具有重要意義。本研究主要提取了紋理、形狀等特征,并利用主成分分析(PCA)等方法進(jìn)行降維。紋理特征是乳腺病理圖像的重要特征之一,它反映了圖像中像素灰度的空間分布模式,能夠提供關(guān)于乳腺組織微觀結(jié)構(gòu)和病變特征的信息。本研究采用灰度共生矩陣(GLCM)來提取紋理特征。GLCM通過計(jì)算圖像中不同灰度級(jí)像素對(duì)在特定方向和距離上的共生概率,來描述圖像的紋理特性。在乳腺病理圖像中,良性病變和惡性病變的紋理特征往往存在差異。良性病變的紋理通常較為規(guī)則,灰度共生矩陣中的元素分布相對(duì)均勻;而惡性病變的紋理則較為復(fù)雜,灰度共生矩陣中的元素分布呈現(xiàn)出較大的波動(dòng)。通過計(jì)算乳腺病理圖像在多個(gè)方向和距離上的GLCM,并從中提取能量、對(duì)比度、相關(guān)性、熵等特征值,可以有效地刻畫乳腺組織的紋理特征,為后續(xù)的分類提供重要依據(jù)。形狀特征也是乳腺病理圖像分類的關(guān)鍵特征之一,它能夠反映病變的幾何形態(tài)和邊界特征,對(duì)于判斷病變的良惡性具有重要價(jià)值。在提取形狀特征時(shí),本研究首先對(duì)分割后的乳腺組織區(qū)域進(jìn)行輪廓提取,然后計(jì)算輪廓的周長、面積、圓形度、緊致度等形狀參數(shù)。一般來說,惡性腫瘤的形狀往往不規(guī)則,其周長與面積的比值較大,圓形度和緊致度較低;而良性病變的形狀相對(duì)規(guī)則,周長與面積的比值較小,圓形度和緊致度較高。通過對(duì)這些形狀特征的分析,可以初步判斷乳腺病變的良惡性,為醫(yī)生提供輔助診斷信息。然而,直接使用提取的高維特征進(jìn)行分類,不僅會(huì)增加計(jì)算量,還可能導(dǎo)致“維數(shù)災(zāi)難”問題,影響分類的準(zhǔn)確性和效率。因此,本研究采用主成分分析(PCA)方法對(duì)提取的特征進(jìn)行降維。PCA是一種基于線性變換的降維技術(shù),它通過將原始數(shù)據(jù)投影到一組新的正交基上,將高維數(shù)據(jù)轉(zhuǎn)換為低維數(shù)據(jù),同時(shí)盡可能保留原始數(shù)據(jù)的主要信息。在乳腺病理圖像特征降維中,PCA首先計(jì)算特征矩陣的協(xié)方差矩陣,然后對(duì)協(xié)方差矩陣進(jìn)行特征值分解,得到特征值和特征向量。根據(jù)特征值的大小,選擇前k個(gè)最大特征值對(duì)應(yīng)的特征向量,組成投影矩陣。將原始特征矩陣與投影矩陣相乘,即可得到降維后的低維特征矩陣。通過PCA降維,不僅可以減少特征的維度,降低計(jì)算量,還可以去除特征之間的相關(guān)性,提高分類算法的性能。在實(shí)驗(yàn)中,經(jīng)過PCA降維后,特征維度從[原始維度]降低到[降維后維度],而分類準(zhǔn)確率并沒有明顯下降,同時(shí)計(jì)算時(shí)間顯著縮短,表明PCA方法能夠有效地對(duì)乳腺病理圖像特征進(jìn)行降維,提高了分類模型的效率和性能。四、基于稀疏表示的乳腺病理圖像分類模型構(gòu)建4.1模型框架設(shè)計(jì)基于稀疏表示的乳腺病理圖像分類模型旨在實(shí)現(xiàn)對(duì)乳腺病理圖像良惡性的自動(dòng)、準(zhǔn)確分類,為乳腺癌的早期診斷提供可靠支持。該模型主要由字典學(xué)習(xí)模塊、稀疏編碼模塊和分類決策模塊三個(gè)核心部分構(gòu)成,各模塊緊密協(xié)作,共同完成圖像分類任務(wù)。字典學(xué)習(xí)模塊是整個(gè)模型的基礎(chǔ),其核心任務(wù)是從乳腺病理圖像數(shù)據(jù)中學(xué)習(xí)一個(gè)過完備字典。這個(gè)字典能夠有效地捕捉乳腺病理圖像的關(guān)鍵特征,為后續(xù)的稀疏編碼和分類提供有力支持。在實(shí)際操作中,本研究選用K-SVD算法進(jìn)行字典學(xué)習(xí)。該算法通過迭代優(yōu)化的方式,不斷調(diào)整字典中的原子,使其能夠更好地?cái)M合乳腺病理圖像數(shù)據(jù)。首先,隨機(jī)從乳腺病理圖像訓(xùn)練數(shù)據(jù)集中選取若干圖像塊作為初始字典原子,以此構(gòu)建初始字典。隨后,進(jìn)入迭代過程,在每次迭代中,固定字典對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行稀疏編碼,通過最小化重構(gòu)誤差和稀疏性約束來求解稀疏系數(shù);接著,固定稀疏系數(shù),利用奇異值分解技術(shù)更新字典原子,以進(jìn)一步降低重構(gòu)誤差。經(jīng)過多次迭代,字典逐漸收斂,能夠準(zhǔn)確地表示乳腺病理圖像的特征。例如,在處理包含不同類型乳腺病變的圖像時(shí),學(xué)習(xí)到的字典原子可能分別對(duì)應(yīng)乳腺組織的正常結(jié)構(gòu)、良性病變特征以及惡性病變特征,為后續(xù)的稀疏編碼提供了豐富的基向量。稀疏編碼模塊以字典學(xué)習(xí)模塊輸出的字典為基礎(chǔ),對(duì)乳腺病理圖像進(jìn)行稀疏表示。該模塊的主要作用是將輸入的乳腺病理圖像表示為字典中基向量的線性組合,且這種組合具有稀疏性,即只有少數(shù)基向量的系數(shù)不為零。在實(shí)現(xiàn)過程中,采用正交匹配追蹤(OMP)算法來求解稀疏編碼。對(duì)于輸入的乳腺病理圖像,OMP算法通過迭代的方式,每次從字典中選擇與當(dāng)前殘差相關(guān)性最強(qiáng)的基向量,逐步構(gòu)建稀疏解。具體來說,首先計(jì)算圖像與字典中每個(gè)基向量的相關(guān)性,選擇相關(guān)性最強(qiáng)的基向量作為初始稀疏表示的一部分;然后更新殘差,再次計(jì)算殘差與字典中剩余基向量的相關(guān)性,選擇下一個(gè)相關(guān)性最強(qiáng)的基向量加入稀疏表示,直到滿足預(yù)設(shè)的停止條件,如殘差小于某個(gè)閾值或稀疏系數(shù)的非零個(gè)數(shù)達(dá)到一定限制。通過這種方式,得到的稀疏編碼能夠簡潔而有效地表示乳腺病理圖像的特征,突出圖像中的關(guān)鍵信息,為后續(xù)的分類決策提供準(zhǔn)確的特征描述。分類決策模塊是模型的最終決策部分,它根據(jù)稀疏編碼模塊輸出的稀疏表示,判斷乳腺病理圖像的良惡性。本研究選用支持向量機(jī)(SVM)作為分類器,其原理是通過尋找一個(gè)最優(yōu)的分類超平面,將不同類別的數(shù)據(jù)分開。在訓(xùn)練階段,利用已知類別的乳腺病理圖像及其稀疏編碼作為訓(xùn)練樣本,對(duì)SVM進(jìn)行訓(xùn)練,調(diào)整其參數(shù),使其能夠準(zhǔn)確地對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分類。在分類階段,將待分類的乳腺病理圖像的稀疏編碼輸入到訓(xùn)練好的SVM中,SVM根據(jù)學(xué)習(xí)到的分類超平面,判斷該圖像屬于良性還是惡性。例如,對(duì)于一個(gè)新的乳腺病理圖像,經(jīng)過稀疏編碼后得到的稀疏系數(shù)向量輸入到SVM中,SVM根據(jù)其內(nèi)部的決策函數(shù)計(jì)算該圖像屬于不同類別的概率,最終將圖像判定為概率最大的類別,從而實(shí)現(xiàn)乳腺病理圖像的良惡性分類。4.2模型訓(xùn)練與優(yōu)化4.2.1訓(xùn)練過程在完成模型框架設(shè)計(jì)后,模型的訓(xùn)練過程至關(guān)重要,它直接影響著模型的性能和分類準(zhǔn)確率。本研究利用經(jīng)過預(yù)處理的乳腺病理圖像訓(xùn)練數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,旨在讓模型學(xué)習(xí)到乳腺病理圖像中良性與惡性樣本的特征差異,從而具備準(zhǔn)確分類的能力。在訓(xùn)練的初始階段,主要任務(wù)是初始化字典學(xué)習(xí)模塊中的字典。采用K-SVD算法,從乳腺病理圖像訓(xùn)練數(shù)據(jù)集中隨機(jī)選取一定數(shù)量的圖像塊,這些圖像塊的選擇具有隨機(jī)性,但需盡可能涵蓋不同類型的乳腺組織特征,包括正常乳腺組織、良性病變組織和惡性病變組織的特征。通過這種方式初始化的字典,為后續(xù)的迭代訓(xùn)練提供了一個(gè)基礎(chǔ)。例如,從包含多種乳腺病理圖像的訓(xùn)練數(shù)據(jù)集中,隨機(jī)挑選出具有不同紋理、形態(tài)和結(jié)構(gòu)特征的圖像塊,組成初始字典。這些初始字典原子雖然可能并不完全準(zhǔn)確地反映乳腺病理圖像的特征,但為模型的學(xué)習(xí)提供了一個(gè)起點(diǎn)。完成字典初始化后,便進(jìn)入了迭代訓(xùn)練階段。在每次迭代中,首先固定字典,對(duì)訓(xùn)練數(shù)據(jù)集中的所有乳腺病理圖像進(jìn)行稀疏編碼。運(yùn)用正交匹配追蹤(OMP)算法,通過迭代計(jì)算,為每一幅乳腺病理圖像找到在當(dāng)前字典下的最優(yōu)稀疏表示。在這個(gè)過程中,OMP算法會(huì)根據(jù)圖像與字典中基向量的相關(guān)性,逐步選擇對(duì)表示圖像最為關(guān)鍵的基向量,構(gòu)建稀疏系數(shù)向量。每一次迭代選擇的基向量都會(huì)使圖像的重構(gòu)誤差逐漸減小,直到滿足預(yù)設(shè)的停止條件,如殘差小于某個(gè)閾值,此時(shí)得到的稀疏系數(shù)向量能夠有效地表示乳腺病理圖像的特征。在得到所有訓(xùn)練圖像的稀疏表示后,固定稀疏系數(shù),對(duì)字典進(jìn)行更新。K-SVD算法通過奇異值分解(SVD)技術(shù),對(duì)字典中的每個(gè)原子進(jìn)行更新。具體來說,對(duì)于字典中的每一個(gè)原子,找出所有使用了該原子的訓(xùn)練圖像,將這些圖像與該原子相關(guān)的部分從整體中分離出來,形成一個(gè)新的矩陣。然后對(duì)這個(gè)新矩陣進(jìn)行奇異值分解,用分解得到的最大奇異值對(duì)應(yīng)的奇異向量來更新原字典原子。通過這種方式,字典中的原子能夠更好地適應(yīng)訓(xùn)練數(shù)據(jù)的特征分布,提高對(duì)乳腺病理圖像的表示能力。在處理乳腺病理圖像時(shí),經(jīng)過多次迭代更新后的字典原子,能夠更準(zhǔn)確地捕捉乳腺組織的正常結(jié)構(gòu)、良性病變特征以及惡性病變特征,從而為后續(xù)的分類提供更有效的支持。在訓(xùn)練過程中,還需要關(guān)注模型的收斂情況。通過監(jiān)測重構(gòu)誤差和分類準(zhǔn)確率等指標(biāo),判斷模型是否已經(jīng)收斂。重構(gòu)誤差反映了模型對(duì)訓(xùn)練數(shù)據(jù)的擬合程度,當(dāng)重構(gòu)誤差在多次迭代中不再顯著下降時(shí),說明模型對(duì)訓(xùn)練數(shù)據(jù)的擬合已經(jīng)達(dá)到了一個(gè)相對(duì)穩(wěn)定的狀態(tài)。分類準(zhǔn)確率則直接反映了模型在訓(xùn)練數(shù)據(jù)上的分類性能,當(dāng)分類準(zhǔn)確率在多次迭代中趨于穩(wěn)定且達(dá)到一定的閾值時(shí),說明模型已經(jīng)學(xué)習(xí)到了乳腺病理圖像的關(guān)鍵特征,具備了較好的分類能力。若模型長時(shí)間未收斂,需要檢查模型參數(shù)設(shè)置、訓(xùn)練數(shù)據(jù)質(zhì)量等因素,進(jìn)行相應(yīng)的調(diào)整,以確保模型能夠正常收斂,提高模型的訓(xùn)練效果。4.2.2優(yōu)化策略在模型訓(xùn)練過程中,為了防止過擬合現(xiàn)象的發(fā)生,提高模型的泛化能力,使其能夠在未知的乳腺病理圖像數(shù)據(jù)上也表現(xiàn)出良好的分類性能,本研究采用了多種優(yōu)化策略,包括正則化、交叉驗(yàn)證等。正則化是一種常用的防止過擬合的方法,其核心思想是在模型的目標(biāo)函數(shù)中加入正則化項(xiàng),對(duì)模型的復(fù)雜度進(jìn)行約束,避免模型過度擬合訓(xùn)練數(shù)據(jù)中的噪聲和細(xì)節(jié),從而提高模型的泛化能力。在本研究中,采用L1和L2正則化相結(jié)合的方式。L1正則化通過在目標(biāo)函數(shù)中加入系數(shù)向量的L1范數(shù),即\lambda_1\|\alpha\|_1,其中\(zhòng)lambda_1是正則化參數(shù),\alpha是稀疏系數(shù)向量,能夠使系數(shù)向量中的一些元素變?yōu)榱悖瑥亩鴮?shí)現(xiàn)特征選擇的目的,去除一些對(duì)分類貢獻(xiàn)較小的特征,降低模型的復(fù)雜度。L2正則化則通過在目標(biāo)函數(shù)中加入系數(shù)向量的L2范數(shù),即\lambda_2\|\alpha\|_2^2,其中\(zhòng)lambda_2是正則化參數(shù),能夠?qū)ο禂?shù)向量的大小進(jìn)行約束,防止系數(shù)過大導(dǎo)致模型過擬合。通過調(diào)整\lambda_1和\lambda_2的值,可以平衡模型的擬合能力和泛化能力。在乳腺病理圖像分類模型中,當(dāng)\lambda_1和\lambda_2取值適當(dāng)時(shí),能夠有效地減少模型對(duì)訓(xùn)練數(shù)據(jù)中噪聲的擬合,提高模型對(duì)不同乳腺病理圖像的適應(yīng)性,從而提升模型的泛化性能。交叉驗(yàn)證也是一種重要的優(yōu)化策略,它能夠更準(zhǔn)確地評(píng)估模型的性能,幫助選擇最優(yōu)的模型參數(shù)。本研究采用五折交叉驗(yàn)證方法,將訓(xùn)練數(shù)據(jù)集隨機(jī)劃分為五個(gè)大小相等的子集。在每次驗(yàn)證中,選取其中一個(gè)子集作為驗(yàn)證集,其余四個(gè)子集作為訓(xùn)練集,對(duì)模型進(jìn)行訓(xùn)練和驗(yàn)證。通過五次不同的劃分和驗(yàn)證,得到五個(gè)不同的模型及其在驗(yàn)證集上的性能指標(biāo),如分類準(zhǔn)確率、召回率、F1值等。最后,將這五個(gè)模型的性能指標(biāo)進(jìn)行平均,得到模型的平均性能指標(biāo),以此來評(píng)估模型的性能。在乳腺病理圖像分類實(shí)驗(yàn)中,通過五折交叉驗(yàn)證,可以充分利用訓(xùn)練數(shù)據(jù),避免因數(shù)據(jù)集劃分不合理而導(dǎo)致的模型性能評(píng)估偏差,從而選擇出性能最優(yōu)的模型參數(shù),提高模型的分類準(zhǔn)確率和泛化能力。同時(shí),交叉驗(yàn)證還可以幫助檢測模型是否存在過擬合或欠擬合現(xiàn)象。如果模型在訓(xùn)練集上表現(xiàn)良好,但在驗(yàn)證集上性能大幅下降,說明模型可能存在過擬合問題;反之,如果模型在訓(xùn)練集和驗(yàn)證集上的性能都較差,則可能存在欠擬合問題,需要對(duì)模型進(jìn)行相應(yīng)的調(diào)整和優(yōu)化。五、實(shí)驗(yàn)與結(jié)果分析5.1實(shí)驗(yàn)設(shè)置本研究的實(shí)驗(yàn)環(huán)境基于一臺(tái)高性能計(jì)算機(jī),其配備了IntelCorei9-12900K處理器,擁有24核心和32線程,能夠提供強(qiáng)大的計(jì)算能力,確保實(shí)驗(yàn)過程中復(fù)雜算法的高效運(yùn)行。顯卡采用NVIDIAGeForceRTX3090,具有24GBGDDR6X顯存,這對(duì)于處理大規(guī)模的乳腺病理圖像數(shù)據(jù)以及進(jìn)行深度學(xué)習(xí)模型的訓(xùn)練和推理至關(guān)重要,能夠顯著加速計(jì)算過程,提高實(shí)驗(yàn)效率。內(nèi)存為64GBDDR43600MHz,能夠快速存儲(chǔ)和讀取實(shí)驗(yàn)數(shù)據(jù),避免因內(nèi)存不足導(dǎo)致的計(jì)算瓶頸。操作系統(tǒng)選用Windows11專業(yè)版,其穩(wěn)定的性能和良好的兼容性為實(shí)驗(yàn)提供了可靠的運(yùn)行平臺(tái)。實(shí)驗(yàn)中使用的編程語言為Python3.8,Python擁有豐富的科學(xué)計(jì)算和機(jī)器學(xué)習(xí)庫,如NumPy、SciPy、PyTorch等,能夠方便地實(shí)現(xiàn)各種算法和模型。深度學(xué)習(xí)框架采用PyTorch1.12.1,PyTorch具有動(dòng)態(tài)圖機(jī)制,易于調(diào)試和開發(fā),并且在計(jì)算效率和模型部署方面表現(xiàn)出色。在數(shù)據(jù)集劃分方面,本研究使用公開數(shù)據(jù)集MIAS和DDSM。為了保證實(shí)驗(yàn)結(jié)果的可靠性和泛化性,采用分層隨機(jī)抽樣的方法,將MIAS和DDSM數(shù)據(jù)集均按照7:2:1的比例劃分為訓(xùn)練集、驗(yàn)證集和測試集。在劃分過程中,充分考慮了數(shù)據(jù)集的類別分布,確保每個(gè)子集都包含了良性和惡性乳腺病理圖像,且各類別的比例與原始數(shù)據(jù)集相近。以MIAS數(shù)據(jù)集為例,在劃分訓(xùn)練集時(shí),從208張良性乳腺影像中隨機(jī)抽取約70%,即146張,從114張惡性乳腺影像中隨機(jī)抽取約70%,即80張,組成訓(xùn)練集。同樣地,從剩余的良性和惡性影像中分別抽取20%作為驗(yàn)證集,10%作為測試集。通過這種分層隨機(jī)抽樣的方式,能夠有效地避免因數(shù)據(jù)劃分不合理而導(dǎo)致的模型偏差,使模型在訓(xùn)練過程中能夠充分學(xué)習(xí)到不同類別乳腺病理圖像的特征,同時(shí)在驗(yàn)證集和測試集上也能得到準(zhǔn)確的性能評(píng)估。為了全面評(píng)估基于稀疏表示的乳腺病理圖像分類模型的性能,選擇了多種對(duì)比算法。傳統(tǒng)機(jī)器學(xué)習(xí)算法方面,選取了支持向量機(jī)(SVM)和K近鄰(KNN)算法。SVM是一種經(jīng)典的分類算法,它通過尋找一個(gè)最優(yōu)的分類超平面來實(shí)現(xiàn)數(shù)據(jù)的分類,在小樣本、非線性分類問題上表現(xiàn)出色。在乳腺病理圖像分類中,SVM能夠根據(jù)圖像的特征向量,找到一個(gè)能夠最大程度區(qū)分良性和惡性圖像的超平面,從而實(shí)現(xiàn)圖像的分類。KNN算法則是基于實(shí)例的學(xué)習(xí)算法,它通過計(jì)算測試樣本與訓(xùn)練樣本之間的距離,選擇距離最近的K個(gè)鄰居,根據(jù)這K個(gè)鄰居的類別來確定測試樣本的類別。在乳腺病理圖像分類任務(wù)中,KNN算法能夠根據(jù)圖像之間的相似度,將未知圖像歸類到與其最相似的已知類別中。選擇這兩種算法作為對(duì)比,是因?yàn)樗鼈冊趥鹘y(tǒng)機(jī)器學(xué)習(xí)領(lǐng)域廣泛應(yīng)用,具有代表性,能夠?yàn)樵u(píng)估基于稀疏表示的分類算法提供重要的參考。在深度學(xué)習(xí)算法方面,選擇了卷積神經(jīng)網(wǎng)絡(luò)(CNN)中的經(jīng)典模型ResNet18和DenseNet121。ResNet18通過引入殘差塊解決了深度神經(jīng)網(wǎng)絡(luò)中的梯度消失和梯度爆炸問題,能夠有效地訓(xùn)練更深層次的網(wǎng)絡(luò),從而學(xué)習(xí)到更高級(jí)的圖像特征。在乳腺病理圖像分類中,ResNet18能夠自動(dòng)提取圖像中的紋理、形狀等特征,通過多層卷積和池化操作,將圖像特征逐步抽象化,最終實(shí)現(xiàn)圖像的分類。DenseNet121則采用了密集連接的方式,增強(qiáng)了特征的傳播和復(fù)用,提高了模型的訓(xùn)練效率和性能。在處理乳腺病理圖像時(shí),DenseNet121能夠充分利用不同層次的特征信息,通過密集連接將淺層和深層的特征進(jìn)行融合,從而提升分類的準(zhǔn)確性。選擇這兩種深度學(xué)習(xí)模型作為對(duì)比,是因?yàn)樗鼈冊趫D像分類領(lǐng)域取得了優(yōu)異的成績,并且在醫(yī)學(xué)圖像分析中也有廣泛的應(yīng)用,能夠與基于稀疏表示的方法進(jìn)行全面的性能對(duì)比,凸顯本研究方法的優(yōu)勢和不足。5.2評(píng)價(jià)指標(biāo)為了全面、準(zhǔn)確地評(píng)估基于稀疏表示的乳腺病理圖像分類模型的性能,本研究選用了準(zhǔn)確率(Accuracy)、召回率(Recall)、F1值(F1-Score)等多個(gè)評(píng)價(jià)指標(biāo)。這些指標(biāo)從不同角度反映了模型的分類能力,能夠?yàn)槟P偷男阅茉u(píng)估提供全面、客觀的依據(jù)。準(zhǔn)確率是指分類正確的樣本數(shù)占總樣本數(shù)的比例,其計(jì)算公式為:Accuracy=\frac{TP+TN}{TP+TN+FP+FN},其中TP(TruePositive)表示真正例,即實(shí)際為正類且被正確預(yù)測為正類的樣本數(shù);TN(TrueNegative)表示真反例,即實(shí)際為負(fù)類且被正確預(yù)測為負(fù)類的樣本數(shù);FP(FalsePositive)表示假正例,即實(shí)際為負(fù)類但被錯(cuò)誤預(yù)測為正類的樣本數(shù);FN(FalseNegative)表示假反例,即實(shí)際為正類但被錯(cuò)誤預(yù)測為負(fù)類的樣本數(shù)。在乳腺病理圖像分類中,準(zhǔn)確率能夠直觀地反映模型對(duì)乳腺病理圖像良惡性判斷的總體正確性。若模型在測試集中準(zhǔn)確分類了大部分乳腺病理圖像,其準(zhǔn)確率就會(huì)較高,表明模型在整體上具有較好的分類能力。召回率,又稱為查全率,是指正確預(yù)測為正類的樣本數(shù)占實(shí)際正類樣本數(shù)的比例,計(jì)算公式為:Recall=\frac{TP}{TP+FN}。在乳腺病理圖像分類任務(wù)中,召回率對(duì)于判斷惡性乳腺病理圖像尤為重要。由于乳腺癌的早期診斷至關(guān)重要,盡可能準(zhǔn)確地識(shí)別出所有惡性乳腺病理圖像是關(guān)鍵。高召回率意味著模型能夠盡可能多地檢測出實(shí)際為惡性的乳腺病理圖像,減少漏診的情況發(fā)生,從而為患者的早期治療提供更多機(jī)會(huì)。F1值則是綜合考慮精確率(Precision)和召回率的一個(gè)指標(biāo),它是精確率和召回率的調(diào)和平均數(shù),計(jì)算公式為:F1=2\times\frac{Precision\timesRecall}{Precision+Recall},其中精確率是指正確預(yù)測為正類的樣本數(shù)占預(yù)測為正類樣本數(shù)的比例,即Precision=\frac{TP}{TP+FP}。F1值能夠平衡精確率和召回率,避免因只關(guān)注其中一個(gè)指標(biāo)而導(dǎo)致對(duì)模型性能評(píng)估的片面性。在乳腺病理圖像分類中,F(xiàn)1值越高,說明模型在準(zhǔn)確識(shí)別乳腺病理圖像良惡性(精確率)和盡可能覆蓋所有實(shí)際正類樣本(召回率)方面都表現(xiàn)出色,能夠更全面地反映模型的性能。這些評(píng)價(jià)指標(biāo)在評(píng)估基于稀疏表示的乳腺病理圖像分類模型性能時(shí)相互補(bǔ)充,能夠從不同維度反映模型的優(yōu)劣。準(zhǔn)確率提供了模型分類的總體正確性評(píng)估;召回率強(qiáng)調(diào)了對(duì)實(shí)際正類樣本的檢測能力,對(duì)于乳腺癌這種需要高度關(guān)注惡性樣本檢測的任務(wù)至關(guān)重要;F1值則綜合考慮了精確率和召回率,更全面地反映了模型在分類任務(wù)中的性能表現(xiàn)。通過對(duì)這些指標(biāo)的綜合分析,可以準(zhǔn)確地評(píng)估模型在乳腺病理圖像良惡性分類任務(wù)中的表現(xiàn),為模型的改進(jìn)和優(yōu)化提供有力依據(jù)。5.3實(shí)驗(yàn)結(jié)果經(jīng)過多輪實(shí)驗(yàn),基于稀疏表示的乳腺病理圖像分類模型在MIAS和DDSM數(shù)據(jù)集上均取得了一定的分類成果。在MIAS數(shù)據(jù)集上,該模型的準(zhǔn)確率達(dá)到了[X1]%,召回率為[X2]%,F(xiàn)1值為[X3]。在DDSM數(shù)據(jù)集上,模型的準(zhǔn)確率為[X4]%,召回率為[X5]%,F(xiàn)1值為[X6]。這些結(jié)果表明,基于稀疏表示的分類模型能夠有效地學(xué)習(xí)乳腺病理圖像的特征,對(duì)乳腺病理圖像的良惡性進(jìn)行準(zhǔn)確分類。將基于稀疏表示的分類模型與其他對(duì)比算法在MIAS和DDSM數(shù)據(jù)集上的性能進(jìn)行對(duì)比,結(jié)果如表1所示。從表中可以看出,在MIAS數(shù)據(jù)集上,基于稀疏表示的分類模型在準(zhǔn)確率、召回率和F1值上均優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法SVM和KNN。與SVM相比,基于稀疏表示的模型準(zhǔn)確率提高了[X7]個(gè)百分點(diǎn),召回率提高了[X8]個(gè)百分點(diǎn),F(xiàn)1值提高了[X9];與KNN相比,準(zhǔn)確率提高了[X10]個(gè)百分點(diǎn),召回率提高了[X11]個(gè)百分點(diǎn),F(xiàn)1值提高了[X12]。在深度學(xué)習(xí)算法方面,基于稀疏表示的分類模型在召回率上略低于ResNet18和DenseNet121,但在準(zhǔn)確率和F1值上與這兩種深度學(xué)習(xí)模型相當(dāng),甚至在某些指標(biāo)上表現(xiàn)更優(yōu)。在DDSM數(shù)據(jù)集上,基于稀疏表示的分類模型同樣展現(xiàn)出良好的性能,在多個(gè)指標(biāo)上優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法,并且在準(zhǔn)確率和F1值上與深度學(xué)習(xí)算法具有競爭力。表1:不同算法在MIAS和DDSM數(shù)據(jù)集上的性能對(duì)比算法數(shù)據(jù)集準(zhǔn)確率(%)召回率(%)F1值基于稀疏表示的分類模型MIAS[X1][X2][X3]SVMMIAS[X1-X7][X2-X8][X3-X9]KNNMIAS[X1-X10][X2-X11][X3-X12]ResNet18MIAS[X1][X2+X13][X3]DenseNet121MIAS[X1][X2+X14][X3]基于稀疏表示的分類模型DDSM[X4][X5][X6]SVMDDSM[X4-X15][X5-X16][X6-X17]KNNDDSM[X4-X18][X5-X19][X6-X20]ResNet18DDSM[X4][X5+X21][X6]DenseNet121DDSM[X4][X5+X22][X6]通過實(shí)驗(yàn)結(jié)果對(duì)比可以發(fā)現(xiàn),基于稀疏表示的乳腺病理圖像分類模型在處理乳腺病理圖像時(shí),具有較強(qiáng)的特征提取和分類能力,能夠有效地利用乳腺病理圖像的稀疏特性進(jìn)行分類。與傳統(tǒng)機(jī)器學(xué)習(xí)算法相比,該模型能夠更好地處理高維、復(fù)雜的乳腺病理圖像數(shù)據(jù),提高分類的準(zhǔn)確性和魯棒性。與深度學(xué)習(xí)算法相比,基于稀疏表示的分類模型在計(jì)算復(fù)雜度和對(duì)數(shù)據(jù)量的依賴程度上具有一定優(yōu)勢,在數(shù)據(jù)量相對(duì)較少的情況下,依然能夠取得較好的分類效果。在MIAS數(shù)據(jù)集數(shù)據(jù)量相對(duì)較少的情況下,基于稀疏表示的分類模型能夠充分利用稀疏表示的特性,有效地提取圖像特征,從而在多個(gè)指標(biāo)上優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法,并且在某些指標(biāo)上與深度學(xué)習(xí)算法相當(dāng)。這表明基于稀疏表示的分類模型在乳腺病理圖像分類任務(wù)中具有一定的應(yīng)用價(jià)值和潛力。5.4結(jié)果分析與討論從實(shí)驗(yàn)結(jié)果可以看出,基于稀疏表示的乳腺病理圖像分類模型在乳腺病理圖像良惡性分類任務(wù)中展現(xiàn)出了一定的優(yōu)勢。與傳統(tǒng)機(jī)器學(xué)習(xí)算法SVM和KNN相比,基于稀疏表示的模型在準(zhǔn)確率、召回率和F1值等多個(gè)評(píng)價(jià)指標(biāo)上均有顯著提升。這主要是因?yàn)橄∈璞硎灸P湍軌蛲ㄟ^字典學(xué)習(xí)和稀疏編碼,有效地提取乳腺病理圖像中的關(guān)鍵特征,更好地捕捉圖像中良性和惡性病變的本質(zhì)差異。在處理乳腺病理圖像時(shí),稀疏表示模型可以將圖像表示為字典中少數(shù)幾個(gè)基向量的線性組合,這些基向量能夠準(zhǔn)確地反映乳腺組織的正常結(jié)構(gòu)、良性病變特征以及惡性病變特征,從而為分類提供更具判別性的特征描述。而傳統(tǒng)機(jī)器學(xué)習(xí)算法在處理高維、復(fù)雜的乳腺病理圖像數(shù)據(jù)時(shí),往往難以有效地提取和利用這些特征,導(dǎo)致分類性能相對(duì)較低。與深度學(xué)習(xí)算法ResNet18和DenseNet121相比,基于稀疏表示的分類模型在召回率上略低,但在準(zhǔn)確率和F1值上與它們相當(dāng),甚至在某些指標(biāo)上表現(xiàn)更優(yōu)。深度學(xué)習(xí)算法通常需要大量的訓(xùn)練數(shù)據(jù)和強(qiáng)大的計(jì)算資源來訓(xùn)練模型,且容易出現(xiàn)過擬合問題。在數(shù)據(jù)集相對(duì)較小的情況下,深度學(xué)習(xí)模型可能無法充分學(xué)習(xí)到乳腺病理圖像的復(fù)雜特征,導(dǎo)致泛化能力下降。而基于稀疏表示的分類模型對(duì)數(shù)據(jù)量的依賴程度相對(duì)較低,能夠在有限的數(shù)據(jù)上取得較好的分類效果。稀疏表示模型通過對(duì)圖像特征的稀疏化處理,能夠去除噪聲和冗余信息,提高特征的魯棒性,從而在一定程度上彌補(bǔ)了數(shù)據(jù)量不足的問題?;谙∈璞硎镜娜橄俨±韴D像分類模型在計(jì)算復(fù)雜度上具有明顯優(yōu)勢。深度學(xué)習(xí)模型通常包含大量的參數(shù)和復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),計(jì)算量巨大,訓(xùn)練和推理過程需要較長的時(shí)間。而基于稀疏表示的模型結(jié)構(gòu)相對(duì)簡單,主要通過字典學(xué)習(xí)和稀疏編碼來實(shí)現(xiàn)分類,計(jì)算復(fù)雜度較低,能夠快速地對(duì)乳腺病理圖像進(jìn)行分類,更適合在資源有限的環(huán)境中應(yīng)用。在一些醫(yī)療設(shè)備的嵌入式系統(tǒng)中,由于硬件資源有限,基于稀疏表示的分類模型能夠更好地適配這些設(shè)備,為現(xiàn)場的醫(yī)療診斷提供快速的技術(shù)支持。然而,基于稀疏表示的乳腺病理圖像分類模型也存在一些不足之處。該模型對(duì)字典的質(zhì)量和完備性要求較高,如果字典不能很好地捕捉乳腺病理圖像的特征,或者存在類別不平衡的情況,可能會(huì)導(dǎo)致分類性能下降。在字典學(xué)習(xí)過程中,如果訓(xùn)練數(shù)據(jù)存在偏差,或者字典更新不充分,可能會(huì)使學(xué)習(xí)到的字典無法準(zhǔn)確地表示乳腺病理圖像的特征,從而影響分類的準(zhǔn)確性。在處理一些罕見的乳腺病變時(shí),由于數(shù)據(jù)集中此類病變的樣本數(shù)量較少,字典可能無法充分學(xué)習(xí)到這些病變的特征,導(dǎo)致對(duì)這些病變的分類準(zhǔn)確率較低?;谙∈璞硎镜姆诸惸P驮谔幚韽?fù)雜背景和多樣病變形態(tài)的乳腺病理圖像時(shí),分類準(zhǔn)確率還有提升空間。乳腺病理圖像中的病變形

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論