CN120216406A 一種存儲芯片的數(shù)據(jù)丟失檢測方法及系統(tǒng)_第1頁
CN120216406A 一種存儲芯片的數(shù)據(jù)丟失檢測方法及系統(tǒng)_第2頁
CN120216406A 一種存儲芯片的數(shù)據(jù)丟失檢測方法及系統(tǒng)_第3頁
CN120216406A 一種存儲芯片的數(shù)據(jù)丟失檢測方法及系統(tǒng)_第4頁
CN120216406A 一種存儲芯片的數(shù)據(jù)丟失檢測方法及系統(tǒng)_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

(19)國家知識產(chǎn)權(quán)局(71)申請人深圳超盈智能科技有限公司地址518000廣東省深圳市龍崗區(qū)坂田街道象角塘社區(qū)中浩路1號美竹巷潤昌工業(yè)園廠區(qū)廠房A棟五層(74)專利代理機構(gòu)深圳卓正專利代理事務(wù)所(普通合伙)44388專利代理師吳思瑩G11C29/44(2006.01)(54)發(fā)明名稱一種存儲芯片的數(shù)據(jù)丟失檢測方法及系統(tǒng)本發(fā)明提供了一種存儲芯片的數(shù)據(jù)丟失檢測方法及系統(tǒng),涉及存儲芯片技術(shù)領(lǐng)域,方法包括:獲取存儲芯片的地址映射表;結(jié)合地址映射表,確定存儲芯片中兩兩存儲單元之間的故障耦合強度;結(jié)合故障耦合強度,建立與存儲單元故障概率相關(guān)的不同存儲單元之間的故障傳播模型;計算故障傳播模型的穩(wěn)態(tài)解,并結(jié)合信息熵確定存儲芯片的潛在故障區(qū)域;生成潛在故障區(qū)域的差異化檢測路徑;按差異化檢測路徑對存儲芯片進行檢測;按檢測到的故障存儲單元的檢測先后順序進行依次修復;根據(jù)修復失敗的故障存儲單元數(shù)量輸出存儲芯片的數(shù)據(jù)丟失檢測結(jié)果。獲取所述存儲芯片的地址映射表結(jié)合所述地址映射表,確定所述存儲芯片中兩兩存儲單元之間的故障耦合強度結(jié)合所述故障耦合強度,建立與存儲單元故障概率相關(guān)的不同存儲單元之間的故障傳播模型計算所述故障傳指模型的穩(wěn)態(tài)解,并結(jié)合信息熵確定所述存儲芯片的潛在故障區(qū)域生成所述潛在故障區(qū)域的差異化檢測路徑按所述差異化檢測路徑對所述存儲芯片進行檢測按檢測到的故障存儲單元的檢測先后順序進行依次修復根據(jù)修復失敗的故障存儲單元數(shù)量輸出所述存儲芯片的數(shù)據(jù)丟失檢測結(jié)果2S1:獲取所述存儲芯片的地址映射表;S2:結(jié)合所述地址映射表,確定所述存儲芯片中兩兩存儲單元之間的故障耦合強度;S3:結(jié)合所述故障耦合強度,建立與存儲單元故障概率相關(guān)的不同存儲單元之間的故障傳播模型;S4:計算所述故障傳播模型的穩(wěn)態(tài)解,并結(jié)合信息熵確定所述存儲芯片的潛在故障區(qū)S5:生成所述潛在故障區(qū)域的差異化檢測路徑;S6:按所述差異化檢測路徑對所述存儲芯片進行檢測;S7:按檢測到的故障存儲單元的檢測先后順序進行依次修復;S8:根據(jù)修復失敗的故障存儲單元數(shù)量,輸出所述存儲芯片的數(shù)據(jù)丟失檢測結(jié)果。2.根據(jù)權(quán)利要求1所述的存儲芯片的數(shù)據(jù)丟失檢測方法,其特征在于,所述S2具體包S201:獲取所述存儲芯片的物理架構(gòu)信息,其中,所述物理架構(gòu)信息包括描述單個存儲單元中的單位電荷影響范圍的物理擴散尺度;S202:基于所述物理架構(gòu)信息,確定所述存儲芯片中各個存儲單元的物理三維坐標;S203:基于所述地址映射表建立所述存儲芯片的有向無環(huán)圖,其中,所述有向無環(huán)圖的節(jié)點為地址映射表反映出的存儲單元邏輯地址,所述有向無環(huán)圖的邊為在所述地址映射表中不同存儲單元之間的映射關(guān)系,邊屬性為兩個存儲單元之間的歷史交互次數(shù);S204:根據(jù)所述存儲芯片的物理擴散尺度和所述有向無環(huán)圖,計算所述故障耦合強度。3.根據(jù)權(quán)利要求1所述的存儲芯片的數(shù)據(jù)丟失檢測方法,其特征在于,所述S3具體包S301:計算存儲單元故障在物理空間中的三維拉普拉斯算子,以描述存儲單元故障在物理空間中的物理層擴散強度;S302:基于所述故障耦合強度確定存儲單元故障在邏輯空間即邏輯映射表中的邏輯層擴散強度;S303:結(jié)合存儲芯片糾錯能力,確定所述存儲芯片的自我修復強度;S304:結(jié)合所述物理層擴散強度、所述邏輯層擴散強度和所述自我修復強度,建立所述故障傳播模型。4.根據(jù)權(quán)利要求1所述的存儲芯片的數(shù)據(jù)丟失檢測方法,其特征在于,所述S4具體包S401:獲取所述存儲芯片中的故障存儲單元;S402:分別將所述故障存儲單元的存儲單元故障概率設(shè)置為1,并代入所述故障傳播模S403:令更新后的故障傳播模型等于零,得到所述故障存儲單元相對應(yīng)的穩(wěn)態(tài)解,其S404:結(jié)合所述穩(wěn)態(tài)解,通過信息熵確定所述存儲芯片的故障區(qū)域判別閾值;S405:保留大于所述故障區(qū)域判別閾值的目標穩(wěn)態(tài)解,并將所述目標穩(wěn)態(tài)解對應(yīng)的存儲單元所形成的連通域作為所述潛在故障區(qū)域。3徑集合Ω,tlast(p,q)表示潛在故障區(qū)域中存儲單元p至存儲單元q的檢測時間戳距當前時利用檢測數(shù)據(jù)按所述差異化檢測路徑對所述存儲芯片進行通過所述存儲芯片的ECC按所述檢測先后順序?qū)z測到的故障存儲單元依次進行修8.根據(jù)權(quán)利要求1所述的存儲芯片的數(shù)據(jù)丟失檢測方法,其特征在于,所述S8具體包S801:在所述故障存儲單元數(shù)量超出預設(shè)故障存儲單元數(shù)量的情況下,確定存儲芯片S802:將所述存儲芯片數(shù)據(jù)丟失和所述存儲芯片正常作為所述數(shù)據(jù)丟失檢測結(jié)果輸所述存儲器存儲可在所述處理器上運行的程序或指令,所述或指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至8中任一項所述的存儲芯片的數(shù)據(jù)丟失檢測方4一種存儲芯片的數(shù)據(jù)丟失檢測方法及系統(tǒng)技術(shù)領(lǐng)域[0001]本發(fā)明涉及存儲芯片技術(shù)領(lǐng)域,特別涉及一種存儲芯片的數(shù)據(jù)丟失檢測方法及系統(tǒng)。背景技術(shù)[0002]存儲芯片是用于在電子設(shè)備中保存數(shù)據(jù)的硬件組件,廣泛應(yīng)用于計算機、手機、服務(wù)器等設(shè)備中。它主要分為易失性存儲芯片和非易失性存儲芯片。非易失性存儲芯片,如NANDFlash、EEPROM和FRAM,在斷電后仍能保留存儲的數(shù)據(jù),常用于固態(tài)硬盤(SSD)、USB閃存盤和移動設(shè)備中。這些芯片通過電荷存儲或其他物理機制保存信息,不需要電源來維[0003]非易失性存儲芯片是現(xiàn)代電子設(shè)備的核心組成部分,承擔著關(guān)鍵數(shù)據(jù)的長期存障,導致數(shù)據(jù)丟失或損壞。對于這種存儲芯片,及時檢測其故障至關(guān)重要。通過數(shù)據(jù)丟失檢測,可以發(fā)現(xiàn)潛在的存儲單元錯誤、識別故障區(qū)域并進行修復,從而避免重要數(shù)據(jù)的丟失,保證系統(tǒng)的可靠性和數(shù)據(jù)安全,尤其是在高可靠性要求的領(lǐng)域如數(shù)據(jù)中心和醫(yī)療設(shè)備中。[0004]然而,現(xiàn)有數(shù)據(jù)丟失檢測方案通常采用全局遍歷的方式進行故障檢測,存儲芯片損傷大、檢測時間長且往往忽視了存儲芯片中各存儲單元之間的故障傳播效應(yīng),導致無法準確識別故障鏈條和耦合影響,從而錯失一些潛在的故障區(qū)域,降低檢測的準確性和效率。發(fā)明內(nèi)容[0005]鑒于以上現(xiàn)有技術(shù)的不足,本發(fā)明實施例的目的在于提供一種存儲芯片的數(shù)據(jù)丟失檢測方法,能夠解決現(xiàn)有技術(shù)存在的通常采用全局遍歷的方式進行故障檢測,存儲芯片損傷大、檢測時間長且往往忽視了存儲芯片中各存儲單元之間的故障傳播效應(yīng),導致無法準確識別故障鏈條和耦合影響,從而錯失一些潛在的故障區(qū)域,降低檢測的準確性和效率的技術(shù)問題。S1:獲取存儲芯片的地址映射表;S2:結(jié)合地址映射表,確定存儲芯片中兩兩存儲單元之間的故障耦合強度;S3:結(jié)合故障耦合強度,建立與存儲單元故障概率相關(guān)的不同存儲單元之間的故障傳播模型;S4:計算故障傳播模型的穩(wěn)態(tài)解,并結(jié)合信息熵確定存儲芯片的潛在故障區(qū)域;S5:生成潛在故障區(qū)域的差異化檢測路徑;S6:按差異化檢測路徑對存儲芯片進行檢測;S7:按檢測到的故障存儲單元的檢測先后順序進行依次修復;S8:根據(jù)修復失敗的故障存儲單元數(shù)量,輸出存儲芯片的數(shù)據(jù)丟失檢測結(jié)果。[0007]本發(fā)明實施例的第二方面,提出了一種存儲芯片的數(shù)據(jù)丟失檢測系統(tǒng),包括:處理5器和存儲器;[0008]存儲器存儲可在處理器上運行的程序或指令,程序或指令被處理器執(zhí)行時實現(xiàn)如第一方面的存儲芯片的數(shù)據(jù)丟失檢測方法的步驟。[0009]本發(fā)明實施例的第三方面,提出了一種可讀存儲介質(zhì),可讀存儲介質(zhì)上存儲程序或指令,程序或指令被處理器執(zhí)行時實現(xiàn)如第一方面的存儲芯片的數(shù)據(jù)丟失檢測方法的步驟。[0010]本發(fā)明實施例提供的技術(shù)方案帶來的有益效果至少包括:在本發(fā)明實施例中,通過引入故障耦合強度和故障傳播模型,解決了現(xiàn)有技術(shù)中僅依靠全局遍歷的傳統(tǒng)故障檢測方式,避免了因掃描范圍過廣和檢測時間過長導致的低效問題。首先,通過獲取存儲芯片的地址映射表并確定存儲單元之間的故障耦合強度,能夠準確識別單元間的潛在影響,為后續(xù)的故障傳播建模提供基礎(chǔ)。其次,通過結(jié)合故障傳播模型計算穩(wěn)態(tài)解并利用信息熵確定故障區(qū)域,能夠精確識別高風險區(qū)域,從而有針對性地生成差異化檢測路徑,避免盲目全面掃描。最后,按檢測到的故障存儲單元順序進行修復,結(jié)合檢測結(jié)果輸出故障修復的效果,這種方法不僅提高了檢測準確性,還大幅度提高了檢測效率,解決了容易漏檢故障鏈條和耦合效應(yīng)的問題,確保了更高效、更少損傷和更精確的存儲芯片數(shù)據(jù)丟失檢測。附圖說明[0011]附圖僅用于示出具體實施例的目的,而并不認為是對本發(fā)明的限制,在整個附圖中,相同的參考符號表示相同的部件。顯而易見地,下面描述中的附圖僅僅是本發(fā)明實施例中記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。[0012]圖1是本發(fā)明實施例提供的一種存儲芯片的數(shù)據(jù)丟失檢測方法的流程示意圖;[0013]圖2是本發(fā)明實施例提供的一種存儲芯片的數(shù)據(jù)丟失檢測系統(tǒng)的結(jié)構(gòu)示意圖。具體實施方式[0014]為了使本領(lǐng)域的人員更好地理解本發(fā)明實施例中的技術(shù)方案,下面將結(jié)合附圖對本發(fā)明的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。應(yīng)該理解,這些描述只是示例性的,并非用于限定本發(fā)明的范圍?;诒景l(fā)明的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當屬于本發(fā)明保護的范圍。[0015]下面結(jié)合附圖,通過具體的實施例及其應(yīng)用場景對本發(fā)明實施例提供的存儲芯片的數(shù)據(jù)丟失檢測方法進行詳細地說明。[0016]參考說明書附圖1,示出了本發(fā)明實施例提供的一種存儲芯片的數(shù)據(jù)丟失檢測方法的流程示意圖。[0017]本發(fā)明實施例提供了一種存儲芯片的數(shù)據(jù)丟失檢測方法,可以包括如下的步驟:S1:獲取存儲芯片的地址映射表。[0018]其中,地址映射表是存儲芯片中用來描述邏輯地址與物理地址之間關(guān)系的表格結(jié)構(gòu)。在非易失性存儲芯片中,邏輯地址是用戶或操作系統(tǒng)訪問數(shù)據(jù)時所使用的地址,而物理6地址則是存儲單元實際存儲數(shù)據(jù)的物理位置。地址映射表通常由存儲芯片的控制器維護,通過將邏輯地址映射到物理地址,確保數(shù)據(jù)能夠正確存儲和檢索。通過獲取該映射表,可以準確地識別出存儲單元的布局和數(shù)據(jù)分布情況,為后續(xù)故障檢測和故障傳播模型的建立提供必要的基礎(chǔ)數(shù)據(jù)。[0019]S2:結(jié)合地址映射表,確定存儲芯片中兩兩存儲單元之間的故障耦合強度。[0020]其中,故障耦合強度是指存儲芯片中兩個存儲單元之間因物理相鄰或邏輯依賴而產(chǎn)生的故障關(guān)聯(lián)程度,即一個存儲單元發(fā)生故障時,影響另一個單元發(fā)生故障的可能性有多大。[0021]需要說明的是,結(jié)合地址映射表確定存儲芯片中存儲單元之間的故障耦合強度,能夠準確識別不同存儲單元間的相互影響。這一方法避免了傳統(tǒng)全局掃描的低效問題,有助于精確定位故障傳播路徑,提高故障檢測的準確性和效率,特別是在復雜故障場景中有效降低漏檢率。S201:獲取存儲芯片的物理架構(gòu)信息,其中,物理架構(gòu)信息包括描述單個存儲單元中的單位電荷影響范圍的物理擴散尺度。[0023]其中,物理擴散尺度與存儲芯片生產(chǎn)工藝類型相關(guān),即基于生產(chǎn)工藝提前測定得到的單位電荷能夠影響到多少個存儲單元。[0024]可選地,物理擴散尺度還可以實時的直接根據(jù)公式進行計算,具體計算方式為:其中,kB表示玻爾茲曼常數(shù),T表示存儲芯片當前溫度,dcel表示相鄰存儲單元物理擴散尺度。[0025]需要說明的是,材料粘度系數(shù)具體表示描述存儲單元絕緣層(如SiO?、SiN等)對電荷擴散的阻力特性。絕緣層(如SiO?、HfO?)是隔離存儲單元的核心結(jié)構(gòu),其厚度直接影響電荷隧穿概率。[0026]S202:基于物理架構(gòu)信息,確定存儲芯片中各個存儲單元的物理三維坐標。[0027]其中,物理架構(gòu)信息是指描述存儲芯片內(nèi)部結(jié)構(gòu)和特性的數(shù)據(jù),主要包括存儲單元的布局、存儲單元之間的間距、隔離層厚度、電氣特性等。它幫助我們了解存儲芯片的物理特性及其在芯片內(nèi)部的分布情況。存儲單元是存儲芯片中用于存儲數(shù)據(jù)的基本單元。每個存儲單元都有一個唯一的物理地址,指示它在芯片中的實際位置。物理三維坐標是用來表示存儲單元在存儲芯片中的空間位置的坐標系統(tǒng),通常由x、y、z三個維度表示。這些坐標定義了每個存儲單元在芯片內(nèi)部的物理位置,從而幫助識別單元之間的相對距離及其可能的相互影響。通過獲取存儲芯片的物理架構(gòu)信息,準確確定存儲單元的物理三維坐標。這一信息有助于了解每個存儲單元在芯片內(nèi)部的空間布局,提供有關(guān)存儲單元之間的相對位置和可能的電氣干擾等重要數(shù)據(jù),為后續(xù)的故障傳播模型和檢測路徑提供基礎(chǔ)。[0028]S203:基于地址映射表建立存儲芯片的有向無環(huán)圖,其中,有向無環(huán)圖的節(jié)點為地址映射表反映出的存儲單元邏輯地址,有向無環(huán)圖的邊為在地址映射表中不同存儲單元之7間的映射關(guān)系,邊屬性為兩個存儲單元之間的歷史交互次數(shù)。[0029]其中,歷史交互次數(shù)是通過存儲芯片控制器的地址映射表和訪問日志系統(tǒng)記錄[0030]S204:根據(jù)存儲芯片的物理擴散尺度和有向無環(huán)圖,計算故障耦合強度。[0031]故障耦合強度的計算方式具體為:其中,Cij表示第i個存儲單元與第j個存儲單元之間的故障耦合強度,e表示自然常數(shù),Pi和Pj分別表示第i個存儲單元與第j個存儲單元的物理三維坐標,Op表示物理擴散尺度,Nmap(i,j)表示第i個存儲單元與第j個存儲單元的歷史映射次數(shù)即歷史交互次數(shù),[0032]需要說明的是,該故障耦合強度的計算公式考慮了兩個存儲單元之間的物理距離、歷史交互次數(shù)及邏輯跳變長度對故障傳播的影響。公式中的第一項通過計算存儲單元之間物理距離的平方,考慮物理相鄰性對故障耦合的影響,距離越近,耦合強度越大。第二項則根據(jù)存儲單元之間的歷史交互頻率,反映邏輯依賴和訪問次數(shù)對故障傳播的增強作用,交互頻率越高,耦合強度越大。整體計算通過這兩項的結(jié)合,量化了故障在存儲單元之間傳播的潛力。[0033]具體地,通過獲取存儲芯片的物理架構(gòu)信息,詳細描述了存儲單元之間的相互影響。首先,計算物理擴散尺度,這一尺度決定了單位電荷對相鄰存儲單元的影響范圍,基于芯片的生產(chǎn)工藝、溫度和絕緣層厚度等因素進行實時計算。接著,通過獲取每個存儲單元的物理三維坐標,并基于地址映射表構(gòu)建有向無環(huán)圖(DAG),該圖展示了存儲單元之間的邏輯關(guān)系以及它們之間的歷史交互次數(shù),反映了邏輯單元之間的訪問頻率。通過結(jié)合物理擴散尺度和有向無環(huán)圖,計算故障耦合強度,這一參數(shù)量化了兩個存儲單元之間故障傳播的潛力。最終,系統(tǒng)能夠精確地識別存儲單元之間的相互影響和故障傳播路徑,提升故障檢測的精度和效率。[0034]S3:結(jié)合故障耦合強度,建立與存儲單元故障概率相關(guān)的不同存儲單元之間的故障傳播模型。[0035]其中,存儲單元故障概率是指在特定條件下,某個存儲單元發(fā)生故障的可能性。它通?;诖鎯卧臍v史行為、使用壽命、環(huán)境因素(如溫度、濕度)以及與其他單元的相互影響來計算。在此上下文中,存儲單元故障概率與故障耦合強度密切相關(guān)。通過計算存儲單元故障概率,可以為故障傳播模型提供量化的輸入,有助于更精確地預測哪些區(qū)域可能出現(xiàn)故障,從而優(yōu)化檢測和修復策略。通過結(jié)合故障耦合強度建立故障傳播模型,可以精準地描述不同存儲單元之間故障的傳播路徑和概率。該方法能動態(tài)反映故障的級聯(lián)效應(yīng)和多層次影響,避免傳統(tǒng)方法的過度簡化。通過將故障傳播模型與單元故障概率相結(jié)合,系統(tǒng)能夠識別潛在故障區(qū)域并優(yōu)先檢測高風險區(qū)域,從而提升檢測精度,降低漏檢率,并提高整體檢8S301:計算存儲單元故障在物理空間中的三維拉普拉斯算子,以描述存儲單元故[0037]其中,三維拉普拉斯算子描述了存儲單元故障在物理空間中的曲率(即擴散速率),物理層擴散強度的計算方式具體為:元物理三維坐標,0表示求偏導數(shù),F(xiàn)i表示存儲芯片中第i個存儲單元的存儲單元故障概[0039]S302:基于故障耦合強度確定存儲單元故障在邏輯空間即邏輯映射表中的邏輯層擴散強度。βFi;9[0044]需要說明的是,通過結(jié)合存儲芯片的ECC糾錯能力、冗余塊數(shù)量和修復延遲,計算存儲芯片的自我修復強度。自我修復強度反映了芯片在發(fā)生故障時,依賴ECC糾錯和冗余資源進行修復的能力。通過評估芯片自我修復的有效性,從而優(yōu)化故障修復策略。[0045]S304:結(jié)合物理層擴散強度、邏輯層擴散強度和自我修復強度,建立故障傳播模[0046]具體地,通過結(jié)合物理層、邏輯層和自我修復強度等多種因素,能夠更精確地模擬存儲單元故障的傳播過程。通過計算物理層的擴散強度和邏輯層的擴散強度,系統(tǒng)能夠捕捉故障在物理空間和邏輯空間中的傳遞規(guī)律。而自我修復強度的引入則進一步考慮了存儲芯片的糾錯能力和冗余資源的影響,提升了故障修復的可行性。整體模型通過綜合這些因素,不僅提高了故障傳播模型的準確性,還能有效預測和識別高風險區(qū)域,優(yōu)化檢測路徑,從而實現(xiàn)更加精準、高效的故障檢測和修復,避免傳統(tǒng)方法中的誤判和漏檢問題。[0047]S4:計算故障傳播模型的穩(wěn)態(tài)解,并結(jié)合信息熵確定存儲芯片的潛在故障區(qū)域。[0048]其中,穩(wěn)態(tài)解是指在動態(tài)系統(tǒng)中,隨著時間的推移,系統(tǒng)最終達到的穩(wěn)定狀態(tài)。在故障傳播模型中,穩(wěn)態(tài)解代表著系統(tǒng)在故障傳播過程中,所有存儲單元的故障概率最終穩(wěn)定的值。穩(wěn)態(tài)解不再隨時間變化,反映了存儲單元在長期運行或多次故障傳播后的最終狀態(tài)。信息熵是衡量信息不確定性的一種度量,表示系統(tǒng)中的隨機性或混亂程度。在故障傳播模型中,信息熵用于量化存儲芯片中各存儲單元故障概率的不確定性。熵值越高,表示系統(tǒng)故障區(qū)域是指在存儲芯片中,可能發(fā)生故障的區(qū)域。這些區(qū)域的故障概率較高,或者由于故障傳播模型和信息熵的計算,被識別為具有較大風險的區(qū)域。潛在故障區(qū)域通常是基于穩(wěn)態(tài)解和信息熵判斷出的高風險區(qū)域,可能在后續(xù)的檢測中進行重點監(jiān)測和修復。[0049]需要說明的是,通過計算故障傳播模型的穩(wěn)態(tài)解,并結(jié)合信息熵,能夠準確識別存儲芯片中的潛在故障區(qū)域。通過穩(wěn)態(tài)解,系統(tǒng)可以預測各存儲單元的故障最終狀態(tài),而信息熵則幫助評估故障區(qū)域的不確定性和集中度,從而提高故障區(qū)域的識別精度。此方法能夠更有針對性地聚焦高風險區(qū)域,減少盲目檢測,提升檢測效率和準確性。S401:獲取存儲芯片中的故障存儲單元。[0051]S402:分別將故障存儲單元的存儲單元故障概率設(shè)置為1,并代入故障傳播模型,更新故障傳播模型。[0052]S403:令更新后的故障傳播模型等于零,得到故障存儲單元相對應(yīng)的穩(wěn)態(tài)解,其[0053]S404:結(jié)合穩(wěn)態(tài)解,通過信息熵確定存儲芯片的故障區(qū)域判別閾值,故障區(qū)域判別閾值的計算方式具體為:[0055]S405:保留大于故障區(qū)域判別閾值的目標穩(wěn)態(tài)解,并將目標穩(wěn)態(tài)解對應(yīng)的存儲單檢測路徑集合Ω,tlast(p,q)表示潛在故障區(qū)域中存儲單元p至存儲單元q的檢測時間戳距11故障擴散快的高溫/高負載場景,則時間衰減因子可以設(shè)置為1s-1,若為長期穩(wěn)定性要求高的冷存儲環(huán)境,則時間衰減因子可以設(shè)置為0.01s-1。[0063]S6:按差異化檢測路徑對存儲芯片進行檢測。[0064]可以理解的是,通過按照差異化檢測路徑對存儲芯片進行檢測,確保優(yōu)先覆蓋故障概率較高、風險較大的區(qū)域。與傳統(tǒng)的全盤掃描方式相比,該方法更精準高效,能夠及時識別和定位潛在故障,減少不必要的重復掃描,提升故障檢測的速度和準確性,從而有效節(jié)約檢測時間和資源。利用檢測數(shù)據(jù)按差異化檢測路徑對存儲芯片進行檢測,其中,檢測數(shù)據(jù)包括:交錯位模式數(shù)據(jù)、零一數(shù)據(jù)、反交錯位模式數(shù)據(jù)、逐行[0066]其中,交錯位模式數(shù)據(jù)為在每行或每列中,0和1交替排列的固定模式,用于檢測位耦合、編程擾動、bit線干擾等結(jié)構(gòu)性故障,如01010101和10101010.零一數(shù)據(jù)為全部填入0或1的靜態(tài)模式,用于檢測stuck-at(固定為0或1)類故障,如00000000或者11111111.反交錯位模式數(shù)據(jù)為在相鄰行之間交錯排列交錯位模式,奇偶行反相,形成類棋第一行開始,每一行的數(shù)據(jù)相對于前一行按位取反,即0變1,1變0,如00000000和11111111。偽隨機填充數(shù)據(jù)為使用偽隨機數(shù)發(fā)生器(如LFSR)生成的數(shù)據(jù),數(shù)據(jù)模式逼近真實工作負[0067]可以理解的是,通過按照差異化檢測路徑使用不同類型的檢測數(shù)據(jù)(如交錯位模式、零一數(shù)據(jù)等),可以更全面地覆蓋存儲芯片的各種故障類型。這種方法能夠根據(jù)故障區(qū)域的特點選擇合適的檢測模式,提高了故障檢測的精準性,避免了無效掃描,并有效減少了檢測時間和資源消耗,從而提升了整體檢測效率和故障定位準確性。[0068]S7:按檢測到的故障存儲單元的檢測先后順序進行依次修復。[0069]需要說明的是,通過按照檢測順序修復,能夠最大限度地減少故障蔓延的可能性,并根據(jù)故障的嚴重程度和修復的優(yōu)先級,逐步恢復存儲芯片的正常功能,從而提高修復效率并確保數(shù)據(jù)的完整性和系統(tǒng)的穩(wěn)定性。通過存儲芯片的ECC按檢測先后順序?qū)z測到的故障存儲單元依次進行修復。[0071]其中,ECC(ErrorCorrectionCode,糾錯碼)是一種用于檢測和修復存儲數(shù)據(jù)中的錯誤的編碼技術(shù)。在存儲芯片中,ECC通過在數(shù)據(jù)中加入冗余位來檢測和糾正位錯誤。它可以自動修復一些可糾錯的錯誤,確保存儲的數(shù)據(jù)準確無誤。常見的ECC技術(shù)包括BCH碼、[0072]通過在修復過程中使用ECC按檢測順序依次修復故障存儲單元,可以最大限度減少故障擴展的風險,優(yōu)先修復高優(yōu)先級的故障區(qū)域。ECC能夠有效修復較小的錯誤,避免數(shù)據(jù)丟失,同時減少對系統(tǒng)其他部分的影響,提高了存儲芯片的可靠性和修復效率。[0073]S8:根據(jù)修復失敗的故障存儲單元數(shù)量,輸出存儲芯片的數(shù)據(jù)丟失檢測結(jié)果。[0074]需要說明的是,通過根據(jù)修復失敗的故障存儲單元數(shù)量來判斷存儲芯片的健康狀態(tài)。如果修復失敗的單元超過預設(shè)閾值,系統(tǒng)會判定為數(shù)據(jù)丟失,反之則表示存儲芯片正常。有助于快速判斷存儲芯片是否發(fā)生嚴重故障或數(shù)據(jù)丟失,確保系統(tǒng)的可靠性和數(shù)據(jù)安S801:在故障存儲單元數(shù)量超出預設(shè)故障存儲單元數(shù)量的情況下,確定存儲芯片[0076]需要說明的是,本領(lǐng)域技術(shù)人員可以根據(jù)實際需要設(shè)置預設(shè)故障存儲單元數(shù)量的[0077]具體地,預設(shè)故障存儲單元數(shù)量可以設(shè)置為存儲芯片控制器允許的最大壞塊數(shù)即最大故障存儲單元數(shù)量。[0078]S802:將存儲芯片數(shù)據(jù)丟失和存儲芯片正常作為數(shù)據(jù)丟失檢測結(jié)果輸出。[0079]需要說明的是,通過設(shè)定一個預設(shè)故障存儲單元數(shù)量的閾值,能夠有效判斷存儲芯片是否發(fā)生嚴重故障或數(shù)據(jù)丟失。當故障單元數(shù)量超出預設(shè)閾值時,系統(tǒng)自動判定為數(shù)據(jù)丟失,從而確保及時發(fā)現(xiàn)不可恢復的故障。此方法通過合理設(shè)定閾值,避免了因個別小故障導致的誤判,提高了判斷的準確性和可靠性,有助于快速處理故障,保證系統(tǒng)穩(wěn)定運行。[0080]在實際應(yīng)用過程中,首先,通過獲取存儲芯片的地址映射表,確定存儲單元之間的存儲單元的故障概率。通過計算故障傳播模型的穩(wěn)態(tài)解并結(jié)合信息熵,識別出潛在的故障區(qū)域。生成差異化檢測路徑后,按此路徑進行優(yōu)先檢測,高風險區(qū)域得到重點關(guān)注。在檢測到故障存儲單元后,按照故障的檢測先后順序依次進行修復。最后,根據(jù)修復失敗的存儲單元數(shù)量判斷存儲芯片的健康狀況,若修復失敗的單元數(shù)量超過預設(shè)閾值,則判斷為數(shù)據(jù)丟失。這一過程確保了故障區(qū)域的精確識別,優(yōu)化了檢測效率并最大程度上避免了數(shù)據(jù)丟失。[0081]在本發(fā)明實施例中,通過引入故障耦合強度和故障傳播模型,解決了現(xiàn)有技術(shù)中僅依靠全局遍歷的傳統(tǒng)故障檢測方式,避免了因掃描范圍過廣和檢測時間過長導致的低效問題。首先,通過獲取存儲芯片的地址映射表并確定存儲單元之間的故障耦合強度,能夠準確識別單元間的潛在影響,為后續(xù)的故障傳播建模提供基礎(chǔ)。其次,通過結(jié)合故障傳播模型計算穩(wěn)態(tài)解并利用信息熵確定故障區(qū)域,能夠精確識別高風險區(qū)域,從而有針對性地生成差異化檢測路徑,避免盲目全面掃描。最后,按檢測到的故障存儲單元順序進行修復,結(jié)合檢測結(jié)果輸出故障修復的效果,這種方法不僅提高了檢測準確性,還大幅度提高了檢測效率,解決了容易漏檢故障鏈條和耦合效應(yīng)的問題,確保了更高效、更少損傷和更精確的存儲芯片數(shù)據(jù)丟失檢測。[0082]參考說明書附圖2,示出了本發(fā)明實施例提供的一種存儲芯片的數(shù)據(jù)丟失檢測系統(tǒng)的結(jié)構(gòu)示意圖。[0083]本發(fā)明實施例提供了一種存儲芯片的數(shù)據(jù)丟失檢測系統(tǒng)20,包括:處理器201和存儲器202;所述存儲器202存儲可在所述處理器201上運行的程序或指令,所述程序或指令被所述處理器201執(zhí)行時實現(xiàn)上述的存儲芯片的數(shù)據(jù)丟失檢測方法的步驟,且能達到相同的技術(shù)效果,為避免重復,本發(fā)明不再贅述本發(fā)[0084]應(yīng)理解,在本發(fā)明實施例中的處理器201可以是中央處理單元(CentralProcessingUnit,CPU),該處理器還可以是其他通用處理器、數(shù)字信號處理器(DigitalSignalProcessorASIC)、現(xiàn)成可編程門陣列(FieldProgrammableGateArray,FPGA)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件等。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。[0085]還應(yīng)理解,本發(fā)明實施例中的存儲器202可以是易失性存儲器或非易失性存儲器,或可包括易失性和非易失性存儲器兩者。其中,非易失性存儲器可以是只讀存儲器(Read-器(ErasablePROM,EPROM)、電可擦除可編程只讀存儲器(Electrical閃存。易失性存儲器可以是隨機存取存儲器(RandomAccessMemory,RAM),其用作外部高速緩存。通過示例性但不是限制性說明,許多形式的隨機存取存儲器可用,例如靜態(tài)隨機存取存儲器(SynchronousDRAM,SDRAM)、雙倍數(shù)據(jù)速率同步動態(tài)隨機存取存儲器(DoubleDataRateSDRAM,DDRSDRAM)、增強型同步動態(tài)隨機存取存儲器(EnhancedSDRAM,ESDRAM)、同步連接動態(tài)隨機存取存儲器(SynchLinkDRAM,SLDRAM)和直接內(nèi)存總線隨機存取存儲器(DirectRambusRAM,DRRAM)。[0086]上述實施例,可以全部或部分地通過軟件、硬件(如電路)、固件或其他任意組合來實現(xiàn)。當使用軟件實現(xiàn)時,上述實施例可以全部或部分地以計算機程序產(chǎn)品的形式實現(xiàn)。所述計算機程序產(chǎn)品包括一個或多個計算機指令或計算機程序。在計算機上加載或執(zhí)行所述計算機指令或計算機程序時,全部或部分地產(chǎn)生按照本發(fā)明實施例所述的流程或功能。所述計算機可以為通用計算機、專用計算機、計算機網(wǎng)絡(luò)、或者其他可編程裝置。所述計算機指令可以存儲在計算機可讀存儲介質(zhì)中,或者從一個計算機可讀存儲介質(zhì)向另一個計算機可讀存儲介質(zhì)傳輸,例如,所述計算機指令可以從一個網(wǎng)站站點、計算機、服務(wù)器或數(shù)據(jù)中心通過有線(例如紅外、無線、微波等)方式向另一個網(wǎng)站站點、計算機、服務(wù)器或數(shù)據(jù)中心進行傳輸。所述計算機可讀存儲介質(zhì)可以是計算機能夠存取的任何可用介質(zhì)或者是包含一個或多個可用介質(zhì)集合的服務(wù)器、數(shù)據(jù)中心等數(shù)據(jù)存儲設(shè)備。所述可用介質(zhì)可以是磁性介硬盤。[0087]應(yīng)理解,在本發(fā)明的各種實施例中,上述各過程的序號的大小并不意味著執(zhí)行順序的先后,各過程的執(zhí)行順序應(yīng)以其功能和內(nèi)在邏輯確定,而不應(yīng)對本發(fā)明實施例的實施過程構(gòu)成任何限定。[0088]本領(lǐng)域普通技術(shù)人員可以意識到,結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計算機軟件和電子硬件的結(jié)合來實現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應(yīng)認為超出本發(fā)明的范圍。[0089]所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的設(shè)備、裝置和單元的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論