重復(fù)數(shù)據(jù)刪除技術(shù)_第1頁
重復(fù)數(shù)據(jù)刪除技術(shù)_第2頁
重復(fù)數(shù)據(jù)刪除技術(shù)_第3頁
重復(fù)數(shù)據(jù)刪除技術(shù)_第4頁
重復(fù)數(shù)據(jù)刪除技術(shù)_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

重復(fù)數(shù)據(jù)刪除技術(shù)一、本文概述隨著信息技術(shù)的飛速發(fā)展,數(shù)據(jù)量的增長呈現(xiàn)出爆炸性的趨勢。在大數(shù)據(jù)環(huán)境下,如何有效地管理和存儲這些數(shù)據(jù)成為了一個重要的挑戰(zhàn)。重復(fù)數(shù)據(jù)刪除技術(shù)(DataDeduplication)作為一種高效的數(shù)據(jù)存儲優(yōu)化技術(shù),受到了廣泛的關(guān)注和應(yīng)用。本文將對重復(fù)數(shù)據(jù)刪除技術(shù)進(jìn)行深入探討,旨在為讀者提供一個全面的了解和應(yīng)用指南。本文將簡要介紹重復(fù)數(shù)據(jù)刪除技術(shù)的基本概念和工作原理,幫助讀者理解其核心思想和應(yīng)用場景。我們將詳細(xì)分析重復(fù)數(shù)據(jù)刪除技術(shù)的不同類型和實現(xiàn)方式,包括基于塊的刪除、基于文件的刪除和基于內(nèi)容的刪除等,以便讀者能夠根據(jù)實際需求選擇合適的方案。我們還將探討重復(fù)數(shù)據(jù)刪除技術(shù)在不同領(lǐng)域的應(yīng)用實例,如備份和歸檔、云計算和虛擬化等,以展示其廣泛的實際應(yīng)用價值。本文還將對重復(fù)數(shù)據(jù)刪除技術(shù)的未來發(fā)展趨勢和挑戰(zhàn)進(jìn)行討論,以期為讀者提供一個前瞻性的視角。通過本文的閱讀,讀者將能夠?qū)χ貜?fù)數(shù)據(jù)刪除技術(shù)有一個全面而深入的了解,為實際應(yīng)用和研發(fā)工作提供有益的參考。二、重復(fù)數(shù)據(jù)刪除技術(shù)的基本原理重復(fù)數(shù)據(jù)刪除技術(shù)(DataDeduplication)的基本原理是在數(shù)據(jù)存儲或傳輸過程中,通過識別并消除冗余的、重復(fù)的數(shù)據(jù)塊,以達(dá)到減少存儲空間占用、提高數(shù)據(jù)傳輸效率以及降低存儲成本的目的。這種技術(shù)主要依賴于高級算法和數(shù)據(jù)處理技術(shù),包括內(nèi)容尋址存儲(CAS)、數(shù)據(jù)分塊、指紋計算以及索引管理等。內(nèi)容尋址存儲(CAS)技術(shù)允許存儲系統(tǒng)根據(jù)數(shù)據(jù)內(nèi)容而不是文件名或位置來識別和存儲數(shù)據(jù)。這意味著,即使兩個文件具有相同的內(nèi)容但文件名或存儲位置不同,CAS也能識別出它們的相似性。數(shù)據(jù)分塊是將大文件或數(shù)據(jù)流分割成固定大小或可變大小的數(shù)據(jù)塊。每個數(shù)據(jù)塊都會被單獨(dú)處理,這有助于更精確地識別重復(fù)數(shù)據(jù)。指紋計算是對每個數(shù)據(jù)塊生成唯一的數(shù)字簽名或“指紋”。這個過程通過一種散列函數(shù)實現(xiàn),如SHA-1或MD5等。生成的指紋用于快速、準(zhǔn)確地比較數(shù)據(jù)塊是否相同。索引管理是一個關(guān)鍵過程,用于跟蹤和存儲每個數(shù)據(jù)塊的指紋及其存儲位置。當(dāng)新數(shù)據(jù)進(jìn)入存儲系統(tǒng)時,系統(tǒng)會檢查其指紋是否已存在于索引中。如果存在,則表明該數(shù)據(jù)塊是重復(fù)的,可以被替換為指向原始數(shù)據(jù)塊的引用,從而節(jié)省存儲空間。通過這些原理,重復(fù)數(shù)據(jù)刪除技術(shù)能夠在不影響數(shù)據(jù)完整性和可用性的情況下,顯著降低存儲需求和傳輸成本。這對于現(xiàn)代數(shù)據(jù)存儲和備份系統(tǒng)來說至關(guān)重要,因為它們經(jīng)常面臨不斷增長的數(shù)據(jù)量和不斷下降的存儲成本要求。三、重復(fù)數(shù)據(jù)刪除技術(shù)的應(yīng)用場景重復(fù)數(shù)據(jù)刪除技術(shù)以其高效的數(shù)據(jù)存儲和管理能力,在眾多領(lǐng)域得到了廣泛的應(yīng)用。以下是重復(fù)數(shù)據(jù)刪除技術(shù)的主要應(yīng)用場景:備份和歸檔:在數(shù)據(jù)備份和歸檔領(lǐng)域,重復(fù)數(shù)據(jù)刪除技術(shù)發(fā)揮著至關(guān)重要的作用。傳統(tǒng)的備份方式會消耗大量的存儲空間,并導(dǎo)致備份速度緩慢。通過應(yīng)用重復(fù)數(shù)據(jù)刪除技術(shù),可以在保證數(shù)據(jù)完整性的同時,大幅減少備份數(shù)據(jù)的存儲空間需求,提高備份速度。例如,在企業(yè)級備份解決方案中,該技術(shù)能夠顯著減少備份數(shù)據(jù)的冗余,降低存儲成本,同時提高備份和恢復(fù)的效率。數(shù)據(jù)中心和云存儲:隨著數(shù)據(jù)中心的規(guī)模不斷擴(kuò)大和云存儲的普及,數(shù)據(jù)量的增長呈現(xiàn)出爆炸性的趨勢。重復(fù)數(shù)據(jù)刪除技術(shù)能夠幫助數(shù)據(jù)中心和云存儲服務(wù)提供商有效管理龐大的數(shù)據(jù)資源,減少存儲空間占用,提高存儲效率。通過消除重復(fù)數(shù)據(jù),可以降低存儲設(shè)備的能耗和維護(hù)成本,同時提升數(shù)據(jù)訪問性能。容災(zāi)和備份中心:在容災(zāi)和備份中心,數(shù)據(jù)的完整性和可靠性至關(guān)重要。重復(fù)數(shù)據(jù)刪除技術(shù)可以在保證數(shù)據(jù)完整性的基礎(chǔ)上,降低存儲空間的消耗,提高備份數(shù)據(jù)的可靠性。該技術(shù)還可以幫助容災(zāi)和備份中心實現(xiàn)更快速的數(shù)據(jù)恢復(fù),減少因數(shù)據(jù)丟失或損壞帶來的業(yè)務(wù)風(fēng)險。視頻監(jiān)控和安防領(lǐng)域:在視頻監(jiān)控和安防領(lǐng)域,每天都會產(chǎn)生大量的視頻和圖像數(shù)據(jù)。這些數(shù)據(jù)中往往存在大量的重復(fù)內(nèi)容,如相似的場景、重復(fù)的動作等。通過應(yīng)用重復(fù)數(shù)據(jù)刪除技術(shù),可以在保證視頻質(zhì)量的同時,大幅減少存儲空間的占用,降低存儲成本。該技術(shù)還可以提高視頻數(shù)據(jù)的檢索效率,提升安防管理的效率。醫(yī)療影像存儲:醫(yī)療影像數(shù)據(jù)通常具有體積大、增長快的特點(diǎn),且對數(shù)據(jù)的完整性和可靠性要求較高。重復(fù)數(shù)據(jù)刪除技術(shù)可以幫助醫(yī)療機(jī)構(gòu)有效管理龐大的影像數(shù)據(jù)資源,減少存儲空間占用,提高存儲效率。同時,該技術(shù)還可以保證影像數(shù)據(jù)的質(zhì)量和安全性,為醫(yī)療診斷和治療提供有力支持。重復(fù)數(shù)據(jù)刪除技術(shù)在多個領(lǐng)域都有廣泛的應(yīng)用前景。隨著技術(shù)的不斷發(fā)展和優(yōu)化,相信未來會有更多的領(lǐng)域能夠受益于重復(fù)數(shù)據(jù)刪除技術(shù)所帶來的優(yōu)勢。四、重復(fù)數(shù)據(jù)刪除技術(shù)的優(yōu)勢與挑戰(zhàn)存儲空間優(yōu)化:重復(fù)數(shù)據(jù)刪除技術(shù)可以顯著減少存儲需求,因為只存儲唯一的數(shù)據(jù)塊。這對于備份和歸檔應(yīng)用來說特別有用,因為經(jīng)常會有大量重復(fù)的數(shù)據(jù)。降低備份時間:由于要傳輸和存儲的數(shù)據(jù)量減少了,備份時間可以大大縮短。這不僅可以提高備份效率,還可以減少網(wǎng)絡(luò)帶寬的占用。提高恢復(fù)速度:由于只存儲了唯一的數(shù)據(jù)塊,當(dāng)需要從備份中恢復(fù)數(shù)據(jù)時,恢復(fù)過程通常也會更快。增強(qiáng)數(shù)據(jù)安全性:通過定期掃描和刪除重復(fù)數(shù)據(jù),可以提高數(shù)據(jù)的整體安全性,減少數(shù)據(jù)泄露的風(fēng)險。成本效益:隨著存儲空間的減少,相關(guān)的存儲和管理成本也會相應(yīng)下降。減少的電力和網(wǎng)絡(luò)帶寬消耗也有助于節(jié)省運(yùn)營成本。計算復(fù)雜性:識別重復(fù)數(shù)據(jù)并進(jìn)行刪除需要強(qiáng)大的計算能力和高效的算法。對于大型數(shù)據(jù)集,這可能會成為一個挑戰(zhàn)。數(shù)據(jù)完整性:如果刪除錯誤的數(shù)據(jù)塊,可能會導(dǎo)致數(shù)據(jù)損壞或丟失。需要確保刪除過程的高度準(zhǔn)確性和可靠性。管理復(fù)雜性:隨著數(shù)據(jù)塊的合并和刪除,數(shù)據(jù)管理可能會變得更加復(fù)雜。需要確保有一個健全的數(shù)據(jù)管理策略來跟蹤和管理這些變化。兼容性問題:并非所有的應(yīng)用程序和系統(tǒng)都支持重復(fù)數(shù)據(jù)刪除技術(shù)。這可能會限制其在某些環(huán)境中的使用。法規(guī)遵從性:在某些情況下,法規(guī)可能要求保留特定的數(shù)據(jù)副本,即使它們是重復(fù)的。這可能會與重復(fù)數(shù)據(jù)刪除的目標(biāo)產(chǎn)生沖突。重復(fù)數(shù)據(jù)刪除技術(shù)為存儲和管理數(shù)據(jù)帶來了顯著的優(yōu)勢,但同時也面臨一些挑戰(zhàn)。在決定是否采用這項技術(shù)時,需要綜合考慮這些因素。五、重復(fù)數(shù)據(jù)刪除技術(shù)的實現(xiàn)方式基于塊的刪除(Block-BasedDeduplication):這是最常見的重復(fù)數(shù)據(jù)刪除方法。在這種方法中,數(shù)據(jù)被分割成固定大小的塊(例如4KB、8KB等),然后這些塊會被哈希算法(如SHA-MD5等)轉(zhuǎn)化為哈希值。系統(tǒng)將這些哈希值與已知的哈希值進(jìn)行比較,如果發(fā)現(xiàn)相同的哈希值,那么就可以刪除重復(fù)的塊,只保留一個副本。這種方法對于大量無結(jié)構(gòu)數(shù)據(jù)(如視頻、音頻、圖像等)的刪除效率很高。基于文件的刪除(File-BasedDeduplication):這種方法主要針對文件級別的重復(fù)數(shù)據(jù)。它會計算整個文件的哈希值,然后與已知的文件哈希值進(jìn)行比較。如果兩個文件的哈希值相同,那么這兩個文件就被認(rèn)為是重復(fù)的,可以刪除其中一個。這種方法對于大量的小文件或者結(jié)構(gòu)化的數(shù)據(jù)(如數(shù)據(jù)庫、文檔等)效果較好。單實例存儲(SingleInstanceStorage,SIS):這是一種更高級的重復(fù)數(shù)據(jù)刪除技術(shù),它結(jié)合了基于塊和基于文件的刪除方法。SIS不僅比較文件的哈希值,還比較文件內(nèi)容的塊。如果文件的一部分(塊)與另一個文件的部分相同,那么這部分就可以被刪除,只保留一個副本。這種方法可以進(jìn)一步提高存儲效率,減少存儲空間的需求。實時刪除(Real-TimeDeduplication):這種方法是在數(shù)據(jù)寫入存儲系統(tǒng)時就進(jìn)行刪除。它會在數(shù)據(jù)被寫入的同時計算哈希值,并與已有的哈希值進(jìn)行比較,如果發(fā)現(xiàn)重復(fù),就會立即刪除重復(fù)的部分。這種方法可以最大限度地減少存儲空間的占用,但是也可能增加寫入操作的延遲。后處理刪除(Post-ProcessingDeduplication):與實時刪除相反,后處理刪除是在數(shù)據(jù)寫入存儲系統(tǒng)后再進(jìn)行刪除。它會定期掃描存儲系統(tǒng)中的數(shù)據(jù),計算哈希值并進(jìn)行比較,發(fā)現(xiàn)重復(fù)數(shù)據(jù)后進(jìn)行刪除。這種方法對存儲系統(tǒng)的影響較小,但是可能會浪費(fèi)一些存儲空間。以上這些實現(xiàn)方式各有優(yōu)缺點(diǎn),實際應(yīng)用中需要根據(jù)具體的場景和需求進(jìn)行選擇。隨著技術(shù)的發(fā)展,未來還可能出現(xiàn)更多新的重復(fù)數(shù)據(jù)刪除方法。六、重復(fù)數(shù)據(jù)刪除技術(shù)的未來發(fā)展趨勢隨著大數(shù)據(jù)時代的來臨,數(shù)據(jù)量的爆炸性增長對存儲和管理帶來了巨大的挑戰(zhàn)。在這樣的背景下,重復(fù)數(shù)據(jù)刪除技術(shù)以其高效的數(shù)據(jù)壓縮和存儲優(yōu)化能力,日益受到業(yè)界的重視。展望未來,重復(fù)數(shù)據(jù)刪除技術(shù)將迎來以下幾個發(fā)展趨勢:智能化和自動化:隨著人工智能和機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,重復(fù)數(shù)據(jù)刪除技術(shù)將越來越智能化和自動化。通過智能分析數(shù)據(jù)特征,自動識別重復(fù)和冗余數(shù)據(jù),實現(xiàn)更高效的數(shù)據(jù)刪除和存儲優(yōu)化。云端集成:隨著云計算的普及,越來越多的數(shù)據(jù)被存儲在云端。重復(fù)數(shù)據(jù)刪除技術(shù)將與云計算緊密結(jié)合,實現(xiàn)在云端的高效數(shù)據(jù)去重和存儲管理,降低存儲成本,提高數(shù)據(jù)訪問效率??缙脚_兼容性:隨著數(shù)據(jù)來源的多樣化,重復(fù)數(shù)據(jù)刪除技術(shù)將需要更好地支持跨平臺、跨設(shè)備的數(shù)據(jù)去重。無論是結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù),無論是本地存儲還是遠(yuǎn)程存儲,都能夠?qū)崿F(xiàn)高效的數(shù)據(jù)去重和管理。安全性強(qiáng)化:在數(shù)據(jù)安全日益受到關(guān)注的今天,重復(fù)數(shù)據(jù)刪除技術(shù)將更加注重數(shù)據(jù)的安全性和隱私保護(hù)。通過加強(qiáng)數(shù)據(jù)加密、數(shù)據(jù)備份和恢復(fù)機(jī)制,確保數(shù)據(jù)在去重過程中的安全性和完整性。性能優(yōu)化:隨著數(shù)據(jù)量的不斷增長,重復(fù)數(shù)據(jù)刪除技術(shù)需要不斷提高其處理性能。通過優(yōu)化算法、提升硬件性能、利用并行處理等技術(shù)手段,實現(xiàn)更高效的數(shù)據(jù)去重和存儲管理。重復(fù)數(shù)據(jù)刪除技術(shù)將在未來繼續(xù)發(fā)揮其在數(shù)據(jù)存儲和管理領(lǐng)域的重要作用,并與新技術(shù)相結(jié)合,不斷創(chuàng)新和發(fā)展,為大數(shù)據(jù)時代的數(shù)據(jù)管理提供更好的解決方案。七、結(jié)論隨著信息技術(shù)的飛速發(fā)展和數(shù)據(jù)量的爆炸式增長,重復(fù)數(shù)據(jù)刪除技術(shù)已經(jīng)成為了存儲和管理海量數(shù)據(jù)的關(guān)鍵技術(shù)之一。通過減少冗余數(shù)據(jù),它極大地提高了存儲空間的利用率,降低了企業(yè)的存儲成本。通過減少數(shù)據(jù)的傳輸量,它還提升了網(wǎng)絡(luò)傳輸效率,優(yōu)化了數(shù)據(jù)存儲和備份的過程。盡管重復(fù)數(shù)據(jù)刪除技術(shù)在實際應(yīng)用中已經(jīng)取得了顯著的成效,但我們也必須意識到,這一技術(shù)仍然存在一些挑戰(zhàn)和需要改進(jìn)的地方。例如,對于高速增長的動態(tài)數(shù)據(jù),如何實現(xiàn)高效的重復(fù)數(shù)據(jù)檢測和刪除,仍是一個待解決的問題。隨著數(shù)據(jù)量的增長和數(shù)據(jù)類型的多樣化,如何保證刪除重復(fù)數(shù)據(jù)的同時不損失數(shù)據(jù)的完整性和準(zhǔn)確性,也是我們需要持續(xù)關(guān)注和研究的問題。重復(fù)數(shù)據(jù)刪除技術(shù)是一項非常重要的技術(shù),對于提升數(shù)據(jù)存儲和管理的效率有著不可忽視的作用。隨著技術(shù)的不斷發(fā)展和優(yōu)化,我們有理由相信,它將在未來的數(shù)據(jù)存儲領(lǐng)域發(fā)揮更加重要的作用,為企業(yè)和個人的數(shù)據(jù)管理帶來更多的便利和效益。參考資料:一種數(shù)據(jù)縮減技術(shù),通常用于基于磁盤的備份系統(tǒng),旨在減少存儲系統(tǒng)中使用的存儲容量。它的工作方式是在某個時間周期內(nèi)查找不同文件中不同位置的重復(fù)可變大小數(shù)據(jù)塊。重復(fù)的數(shù)據(jù)塊用指示符取代。高度冗余的數(shù)據(jù)集(例如備份數(shù)據(jù))從數(shù)據(jù)重復(fù)刪除技術(shù)的獲益極大;用戶可以實現(xiàn)10比1至50比1的縮減比。而且,重復(fù)數(shù)據(jù)刪除技術(shù)可以允許用戶的不同站點(diǎn)之間進(jìn)行高效,經(jīng)濟(jì)的備份數(shù)據(jù)復(fù)制。備份設(shè)備中總是充斥著大量的冗余數(shù)據(jù)。為了解決這個問題,節(jié)省更多空間,“重復(fù)刪除”技術(shù)便順理成章地成了人們關(guān)注的焦點(diǎn)。采用“重復(fù)刪除”技術(shù)可以將存儲的數(shù)據(jù)縮減為原來的1/20,從而讓出更多的備份空間,不僅可以使磁盤上的備份數(shù)據(jù)保存更長的時間,而且還可以節(jié)約離線存儲時所需的大量的帶寬。就在幾年前,D2D備份似乎還好得令人難以置信。受價格低廉的ATA(以及稍后的SATA)硬盤的影響,很多人會選擇用D2D取代虛擬磁帶庫或做備份到磁盤的工作,使備份速度變得更快,不必再擔(dān)心在磁帶驅(qū)動器和磁帶庫上產(chǎn)生的機(jī)械故障,并且使文件恢復(fù)變得更加輕松。但是今天,我們的磁盤備份設(shè)備的容量已經(jīng)趨于飽和,在數(shù)據(jù)中心已經(jīng)沒有足夠的空間來備份PT級的數(shù)據(jù),在這種情況下,當(dāng)我們希望將備份數(shù)據(jù)保存一個月時,卻只能保存兩到三天。問題是在我們的備份設(shè)備中有太多的重復(fù)數(shù)據(jù)?,F(xiàn)在終于有了解決這個問題的辦法,善于抓住機(jī)會賺錢的廠商們聲稱他們的新一代“刪除重復(fù)數(shù)據(jù)”產(chǎn)品可以按20:1,甚至300:1的比例縮減我們需要存儲的數(shù)據(jù)量。果真如此嗎?讓我們仔細(xì)看看。重復(fù)數(shù)據(jù)刪除技術(shù)支持在已有的磁盤設(shè)備上存儲更多的備份數(shù)據(jù)。因此采用“重復(fù)數(shù)據(jù)刪除”技術(shù)可以增加您保存?zhèn)浞輸?shù)據(jù)的時間,減少數(shù)據(jù)中心的消耗,降低成本。如果您刪除重復(fù)數(shù)據(jù)后再通過WAN發(fā)送,那么您就能夠節(jié)省大量的帶寬,并且可以取代磁帶實現(xiàn)網(wǎng)上離線備份。重復(fù)數(shù)據(jù)刪除技術(shù)唯一的缺點(diǎn)是備份速度變慢。Inline在線重復(fù)數(shù)據(jù)刪除的方式會使用備份服務(wù)器的資源,導(dǎo)致備份速度變慢,備份窗口變大。Post-processing后處理的方式,備份數(shù)據(jù)流寫入到重刪設(shè)備后重刪開始進(jìn)行,不會影響到備份速度。當(dāng)您的備份程序在網(wǎng)絡(luò)中多次從同一目錄下備份相同的文件,或者從多個地址處備份相同的文件時,重復(fù)的數(shù)據(jù)在臨時區(qū)域進(jìn)行備份。大部分網(wǎng)絡(luò)上的重復(fù)數(shù)據(jù)量令人吃驚,這些數(shù)據(jù)從56個用戶保存在他們本地目錄下的假日聚會的PDF格式邀請函,到每個服務(wù)器的系統(tǒng)驅(qū)動器上3GBWindows文件,真是包羅萬象,應(yīng)有盡有。解決臨時區(qū)域內(nèi)文件重復(fù)的方案是增量備份。盡管我們很喜歡這樣做,尤其是喜歡選擇TivoliStorageManager采用的永久增量備份的方法,但當(dāng)我們考慮到RAID災(zāi)難恢復(fù)時,我們想到的是重復(fù)數(shù)據(jù)刪除,而不是增量備份。增量備份主要是避免重復(fù)。重復(fù)數(shù)據(jù)刪除最基本的形式是出現(xiàn)在CAS(內(nèi)容尋址存儲)設(shè)備中的單一實例存儲(single-instancestore),例如,EMC的Centera。當(dāng)每個文件存儲到CAS系統(tǒng)上時,CAS系統(tǒng)會為存儲的文件內(nèi)容生成一個散列(hash);如果系統(tǒng)中已經(jīng)存在具有相同散列(hash)的文件,系統(tǒng)就會再創(chuàng)建一個表示副本的指針指向已存在的文件,而不是保存另一個副本。微軟WindowsStorageServer的最新版本,Windows服務(wù)器的OEMNAS(網(wǎng)絡(luò)附加存儲)版本,采用了與刪除重復(fù)文件略微不同的方法。當(dāng)寫入數(shù)據(jù)時,WSS不識別重復(fù)文件,而是運(yùn)行一個后臺程序SIS(單一實例存儲)Groveler,該程序通過部分文件散列函數(shù)(采用二進(jìn)制比較法)識別重復(fù)文件,將重復(fù)文件移到公用存儲區(qū),原始位置上的文件用連接到公用存儲區(qū)文件的鏈接代替。盡管文件級SIS能夠節(jié)省一些空間,但是如果我們不只消除重復(fù)文件而且還消除了文件內(nèi)存儲的重復(fù)數(shù)據(jù),那事情可就變得讓人有興趣了。想想Outlook的.PST文件。例如一個典型的Outlook用戶可以擁有300-MB或更大的.PST文件,文件上保存著他過去所有的電子郵件;每天他都會收到一個或更多新的郵件,就因為那天他的.PST文件改變了,你的備份程序就把這個.PST文件包括在增量備份里了,即使這個300MB的文件只有25KB的改變。重復(fù)數(shù)據(jù)刪除產(chǎn)品能夠識別這個25KB的新數(shù)據(jù),并且剔除其余沒有改變的舊的數(shù)據(jù),只保存25KB的新數(shù)據(jù),從而節(jié)省大量磁盤空間。再進(jìn)一步設(shè)想一下,550KB的附件在20個用戶的.PST文件內(nèi),如果它們能夠被消除,您就可以縮減大量的數(shù)據(jù)。象下述這樣的一組解決方案是DataDomain倡導(dǎo)的采用“重復(fù)數(shù)據(jù)刪除”技術(shù)進(jìn)行備份的目標(biāo)。即這些采用“重復(fù)刪除”技術(shù)的設(shè)備管理VTL(虛擬磁帶庫)或NAS等備份設(shè)備,它們從這些備份應(yīng)用設(shè)備(VTL或NAS設(shè)備等)中獲取數(shù)據(jù),透明地執(zhí)行“重復(fù)刪除”處理。廠商采納的執(zhí)行重復(fù)數(shù)據(jù)刪除的基本方法有三種。第一種是基于散列(hash)的方法,DataDomain、飛康、昆騰的Di系列設(shè)備都是采用SHA-1,MD-5等類似的算法將這些進(jìn)行備份的數(shù)據(jù)流斷成塊并且為每個數(shù)據(jù)塊生成一個散列(hash)。如果新數(shù)據(jù)塊的散列(hash)與備份設(shè)備上散列索引中的一個散列匹配,表明該數(shù)據(jù)已經(jīng)被備份,設(shè)備只更新它的表,以說明在這個新位置上也存在該數(shù)據(jù)。基于散列(hash)的方法存在內(nèi)置的可擴(kuò)展性問題。為了快速識別一個數(shù)據(jù)塊是否已經(jīng)被備份,這種基于散列(hash)的方法會在內(nèi)存中擁有散列(hash)索引。當(dāng)被備份的數(shù)據(jù)塊數(shù)量增加時,該索引也隨之增長。一旦索引增長超過了設(shè)備在內(nèi)存中保存它所支持的容量,性能會急速下降,同時磁盤搜索會比內(nèi)存搜索更慢。目前大部分基于散列(hash)的系統(tǒng)都是獨(dú)立的,可以保持存儲數(shù)據(jù)所需的內(nèi)存量與磁盤空間量的平衡,散列(hash)表就永遠(yuǎn)不會變得太大。第二種方法是基于內(nèi)容識別的重復(fù)刪除,這種方法主要是識別記錄的數(shù)據(jù)格式。它采用內(nèi)嵌在備份數(shù)據(jù)中的文件系統(tǒng)的元數(shù)據(jù)識別文件;然后與其數(shù)據(jù)存儲庫中的其它版本進(jìn)行逐字節(jié)地比較,找到該版本與第一個已存儲的版本的不同之處并為這些不同的數(shù)據(jù)創(chuàng)建一個增量文件。這種方法可以避免散列(hash)沖突(請參閱下面的“不要懼怕沖突”),但是需要使用支持的備份應(yīng)用設(shè)備以便設(shè)備可以提取元數(shù)據(jù)。ExaGridSystems的InfiniteFiler就是一個基于內(nèi)容識別的重復(fù)刪除設(shè)備,當(dāng)備份數(shù)據(jù)時,它采用CommVaultGalaxy和SymantecBackupExec等通用的備份應(yīng)用技術(shù)從源系統(tǒng)中識別文件。完成備份后,它找出已經(jīng)被多次備份的文件,生成增量文件(deltas)。多個InfiniteFilers合成一個網(wǎng)格,支持高達(dá)30TB的備份數(shù)據(jù)。采用重復(fù)刪除方法的ExaGrid在存儲一個1GB的.PST文件類的新信息時表現(xiàn)優(yōu)異,但它不能為多個不同的文件消除重復(fù)的數(shù)據(jù),例如在四個.PST文件具有相同的附件的情況下。Sepaton的用于它的VTL的DeltaStor也采用內(nèi)容識別方法,但是它將新文件既與相同位置上的以前的文件版本進(jìn)行比較,同時也與從其它位置上備份的文件版本進(jìn)行比較,因此它能夠消除所有位置上的重復(fù)數(shù)據(jù)。第三種方法是DiligentTechnologies用于其ProtecTierVTL的技術(shù),它像基于散列(hash)的產(chǎn)品那樣將數(shù)據(jù)分成塊,并且采用自有的算法決定給定的數(shù)據(jù)塊是否與其它的相似。然后與相似塊中的數(shù)據(jù)進(jìn)行逐字節(jié)的比較,以判斷該數(shù)據(jù)塊是否已經(jīng)被備份。重復(fù)數(shù)據(jù)刪除一般和其他的數(shù)據(jù)刪除技術(shù)一起使用,例如壓縮和差分delta。數(shù)據(jù)壓縮技術(shù)已經(jīng)問世約三十年之久,它將數(shù)學(xué)算法應(yīng)用到數(shù)據(jù)中,以簡化大容量或重復(fù)的文件部分。差分delta通過只存儲相對于原始備份文件被修改的部分,來減小存儲總量。例如:一個大約包含200G數(shù)據(jù)的文件組,與原始備份相比可能只有50M的數(shù)據(jù)是被修改過的,那么也只有這50M的數(shù)據(jù)會被存儲起來。差分Delta一般用于基于廣域網(wǎng)的備份系統(tǒng),它可以最大程度地利用帶寬,從而減少備份窗口的工作時間。各大廠商除了采用的方法不同外,他們物理架構(gòu)的備份目標(biāo)也不同。DataDomain、ExaGrid和昆騰是包含磁盤陣列的monolithicappliances(單塊集成電路設(shè)備)。DataDomain和昆騰有NAS或VTL接口,而ExaGrid就是一個NAS設(shè)備。Diligent和FalconStor銷售的是軟件產(chǎn)品,運(yùn)行在Intel或Opteron服務(wù)器上。盡管帶有VTL接口的備份設(shè)備看起來更高級并且更易于與現(xiàn)存的基于磁帶的備份環(huán)境集成,但是采用NAS接口,會為您的備份應(yīng)用提供更多的控制。當(dāng)備份文件過了保存期時,一些像賽門鐵克的NetBackup之類的備份產(chǎn)品能夠從它們的磁盤存儲庫中刪除這些過了保存期的備份文件。當(dāng)重復(fù)刪除的NAS設(shè)備發(fā)現(xiàn)這個刪除行為時,它可以重新分配它的自由空間和散列(hash)索引。而對于VTL接口的設(shè)備來說,因為您沒有刪除磁帶,所以無法在VTL上釋放出空間,直到虛擬磁帶被復(fù)寫,空間才能得以釋放。在1TB的空間內(nèi)容納25TB的數(shù)據(jù)是要付出一些代價的,不只是在金錢方面。將數(shù)據(jù)切成塊并進(jìn)行索引來消除重復(fù)數(shù)據(jù)的所有工作會使備份速度減慢。OverlandREO9000等中級VTL的數(shù)據(jù)備份速度是300MBps甚至更快些。Diligent在其ProtecTier上已經(jīng)具有200-MBps的備份速度,但是需要一個四核Opteron服務(wù)器來實現(xiàn),該服務(wù)器前端是裝有100多個磁盤驅(qū)動器的陣列。其它廠商解決該問題的辦法是把重復(fù)數(shù)據(jù)刪除當(dāng)做一個獨(dú)立的過程在備份后運(yùn)行。在一個系統(tǒng)上運(yùn)行FalconStor的VTL軟件,進(jìn)行備份的數(shù)據(jù)被寫到一個壓縮的虛擬磁帶文件而不是一個刪除重復(fù)的虛擬磁帶文件上。然后在后臺將數(shù)據(jù)流切成塊,消除重復(fù)數(shù)據(jù)并且創(chuàng)建虛擬磁帶,該虛擬磁帶是執(zhí)行刪除重復(fù)數(shù)據(jù)塊在原虛擬磁帶上的索引。一旦虛擬磁帶的數(shù)據(jù)執(zhí)行了刪除重復(fù)處理,它所占有的空間就返回到可用的空間池。Sepaton的DeltaStor和ExaGrid也把它們的重復(fù)刪除當(dāng)成一個后備份過程來執(zhí)行。盡管后處理能夠提高備份速度,但同樣也要消耗成本。執(zhí)行后處理重復(fù)刪除的系統(tǒng)必須有足夠的磁盤空間,因為除了刪除重復(fù)的數(shù)據(jù)外,它還需要保存全部標(biāo)準(zhǔn)的備份。如果您希望繼續(xù)執(zhí)行每周的全天增量備份的計劃,那么一個在后臺進(jìn)行重復(fù)刪除處理的系統(tǒng)上,你可能需要雙倍多的磁盤空間來保存全部的備份直到處理完成為止。正因為重復(fù)刪除在后臺運(yùn)行,所以千萬不要忽視重復(fù)刪除的性能。例如,如果到星期一的晚上您開始再次備份您的服務(wù)器時,您的VTL還沒有完成對周末備份的處理,這時您會遇到您不想看到的情況,如磁盤空間不可用或重復(fù)刪除處理使您的備份速度變慢等。子文件重復(fù)刪除技術(shù)不僅用于在備份應(yīng)用中節(jié)省磁盤空間。新一代的備份應(yīng)用,包括Asigra的Televaulting,EMC的AvamarAxion和賽門鐵克的NetBackupPureDisk都采用基于散列(hash)的重復(fù)數(shù)據(jù)刪除技術(shù)來減少通過WAN發(fā)送備份所需要的帶寬。像生成增量備份的傳統(tǒng)備份應(yīng)用技術(shù)一樣,新一代的備份應(yīng)用技術(shù)也采用常用的辦法如歸檔位,最后修改的日期,并且文件系統(tǒng)更改從最后一次備份起已經(jīng)發(fā)生改變的文件ID日志。然后它們將文件切成更小的塊并且為每個塊生成散列(hash)。將這些散列(hash)與已經(jīng)備份在本地的數(shù)據(jù)塊的散列(hash)對象進(jìn)行比較。沒有出現(xiàn)在本地緩存和文件系統(tǒng)元數(shù)據(jù)中的散列(hash)被發(fā)送到中央備份服務(wù)器,再將數(shù)據(jù)與散列(hash)表進(jìn)行比較。如果沒有發(fā)現(xiàn)相同的散列,備份服務(wù)器發(fā)回一個散列表;然后被備份的服務(wù)器發(fā)送那些散列代表的數(shù)據(jù)塊到中央服務(wù)器進(jìn)行保存。與對被備份到多個目標(biāo)的服務(wù)器數(shù)據(jù)(它們甚至被備份到整個企業(yè)的各個目標(biāo))進(jìn)行“重復(fù)刪除”的備份方案相比,上述這些備份方案縮減數(shù)據(jù)的程度更高。例如,如果CEO發(fā)送100MB的PowerPoint文件到500個分支機(jī)構(gòu),只有第一個會被備份,所有其它的只會發(fā)送散列到總部并且告知“我們已經(jīng)收到,謝謝?!边@種方法幾乎避免了影響基于散列的系統(tǒng)的可擴(kuò)展性問題。因為每個遠(yuǎn)程服務(wù)器只保存其本地數(shù)據(jù)的散列(hash),散列表不會增長到超出可用的空間,中心位置的磁盤I/O系統(tǒng)比傳送備份的WAN的速度快得多,在磁盤上搜索一個巨大的散列索引也比發(fā)送數(shù)據(jù)快得多。盡管Televaulting,AvamarAxion和NetBackupPureDisk共享一個相似的架構(gòu),并且都是根據(jù)重復(fù)數(shù)據(jù)刪除存儲的大小進(jìn)行定價,但是還是存在一些不同的地方。NetBackupPureDisk采用固定的128KB的數(shù)據(jù)塊,而elevaulting和AvamarAxion采用可改變大小的數(shù)據(jù)塊,這會使重復(fù)刪除技術(shù)性能更好。PureDisk支持NetBackup,賽門鐵克承諾未來進(jìn)行更好的整合,即提供我們希望的可以將重復(fù)刪除與數(shù)據(jù)中心備份工作整合的設(shè)備。Asigra也向服務(wù)提供商銷售Televaulting產(chǎn)品,以便不想建立自己架構(gòu)的小企業(yè)也可以利用重復(fù)刪除技術(shù)。有幾個客戶的報告中都寫到,他們在不對備份流程做大改動的情況下,的確獲得了20:1的縮減比例。小企業(yè)可以采用Asigra,EMC和賽門鐵克的新一代備份軟件取代傳統(tǒng)的備份方案。中型企業(yè)可以采用面向數(shù)據(jù)中心的備份設(shè)備。需要很高備份性能的大型企業(yè)可能不得不等待下一代產(chǎn)品了。按照部署位置的不同,重復(fù)數(shù)據(jù)刪除可分為源端重復(fù)數(shù)據(jù)刪除和目標(biāo)端重復(fù)數(shù)據(jù)刪除。源端重復(fù)數(shù)據(jù)刪除是先刪除重復(fù)數(shù)據(jù),再將數(shù)據(jù)傳到備份設(shè)備。目標(biāo)端重復(fù)數(shù)據(jù)刪除是先將數(shù)據(jù)傳到備份設(shè)備,存儲時再刪除重復(fù)數(shù)據(jù)。按照檢查重復(fù)數(shù)據(jù)的算法不同,重復(fù)數(shù)據(jù)刪除可以分為對象/文件級和塊級的重復(fù)數(shù)據(jù)刪除。對象級的重復(fù)數(shù)據(jù)刪除保證文件不重復(fù)。塊級重復(fù)數(shù)據(jù)刪除則將文件分成數(shù)據(jù)塊進(jìn)行比較。根據(jù)切分?jǐn)?shù)據(jù)塊方法的不同,又可分為定長塊和變長塊的重復(fù)數(shù)據(jù)刪除技術(shù)。變長塊的重復(fù)數(shù)據(jù)刪除,數(shù)據(jù)塊的長度是變動的。定長塊的重復(fù)數(shù)據(jù)刪除,數(shù)據(jù)塊的長度是固定的。根據(jù)應(yīng)用場合的不同,可以分為通用型重復(fù)數(shù)據(jù)刪除系統(tǒng)和專用型重復(fù)數(shù)據(jù)刪除系統(tǒng)。通用型重復(fù)數(shù)據(jù)刪除系統(tǒng)是指廠商提供通用的重復(fù)數(shù)據(jù)刪除產(chǎn)品,而不是和特定虛擬磁帶庫或備份設(shè)備相聯(lián)系。專用型重復(fù)數(shù)據(jù)刪除系統(tǒng)是和特定虛擬磁帶或備份設(shè)備相聯(lián)系,一般采取目標(biāo)端重復(fù)數(shù)刪除方式。重復(fù)數(shù)據(jù)刪除能夠在硬件層面或軟件層面上來實現(xiàn),或者兩者結(jié)合實現(xiàn)。同樣,重復(fù)數(shù)據(jù)刪除可以在數(shù)據(jù)源端進(jìn)行,在備份目標(biāo)端進(jìn)行或者兩者兼而有之。源端重復(fù)數(shù)據(jù)刪除在數(shù)據(jù)傳輸鏈路較慢的應(yīng)用場景中會有幫助。在源端進(jìn)行重復(fù)數(shù)據(jù)刪除的數(shù)據(jù)使得數(shù)據(jù)可以在傳輸之前被壓縮,從而能夠更快速地傳輸數(shù)據(jù)。目標(biāo)重復(fù)數(shù)據(jù)刪除是在備份目標(biāo)或遠(yuǎn)程存儲設(shè)備上進(jìn)行操作的。它的主要目的是降低存儲成本。目標(biāo)重復(fù)數(shù)據(jù)刪除通過刪除重復(fù)數(shù)據(jù),使實際使用的存儲空間遠(yuǎn)低于原本的使用情況?;謴?fù)過程中,你所需的數(shù)據(jù)可能不是存儲在連續(xù)的磁盤塊中,甚至存儲在未經(jīng)重復(fù)刪除的備份中。當(dāng)備份數(shù)據(jù)過期、存儲空間釋放時,就會產(chǎn)生存儲碎片,延長恢復(fù)時間。由于數(shù)據(jù)及其指針可能是無序存儲,被刪除的重復(fù)數(shù)據(jù)也會產(chǎn)生碎片,從而降低恢復(fù)性能。一些提供重復(fù)數(shù)據(jù)刪除功能的備份和存儲系統(tǒng)供應(yīng)商預(yù)料到了恢復(fù)過程的性能問題,并將產(chǎn)品優(yōu)化,解決磁盤碎片問題。ExaGridSystems、Sepaton等供應(yīng)商的解決方案可以完整地保存最近一次的備份副本,最近一次備份的數(shù)據(jù)能迅速恢復(fù);而其它的解決方案則需要幾天、幾星期甚至幾個月才能重構(gòu)數(shù)據(jù)。其它解決方案在備份期間分散重復(fù)數(shù)據(jù)刪除的負(fù)荷,而在恢復(fù)期就集中負(fù)荷,以加快恢復(fù)速度。這種情況同時使用了軟件和硬件方法。如果供應(yīng)商能加快多個節(jié)點(diǎn)的重復(fù)數(shù)據(jù)刪除速度,并允許添加節(jié)點(diǎn),那么其性能擴(kuò)展能力就優(yōu)于那些只有一個攝取點(diǎn)/處理點(diǎn)的產(chǎn)品。性能由多方面的因素決定,包括備份軟件、網(wǎng)絡(luò)帶寬、磁盤種類等。單個文件的恢復(fù)時間與完全恢復(fù)截然不同。你應(yīng)該測試重復(fù)數(shù)據(jù)刪除技術(shù)在各種恢復(fù)場景下的運(yùn)行情況,尤其是當(dāng)數(shù)據(jù)恢復(fù)需要較長時間時更應(yīng)如此,從而判斷重復(fù)數(shù)據(jù)刪除技術(shù)對你的環(huán)境有什么影響,這一點(diǎn)非常重要。設(shè)備vs.軟件:需要了解將重復(fù)數(shù)據(jù)刪除解決方案作為專用設(shè)備來部署,以及使用運(yùn)行在服務(wù)器上的重復(fù)數(shù)據(jù)刪除軟件這兩種方法各自的利弊。一些軟件解決方案相對價格低廉,但是可能無法很好地擴(kuò)展,以滿足日益增長的容量需求,其性能取決于它所在的服務(wù)器。軟件方案似乎在靈活性方面差一些,但是對那些有資源來承擔(dān)集成、管理和監(jiān)控重任的客戶來說可能是有效的。如果你選擇軟件方法,一定要了解運(yùn)行上述“清理”任務(wù)所需的處理能力,及其對服務(wù)器的影響。硬件設(shè)備有自己的空間和功耗要求,有時耗電量很大。它們通常是自我管理的,提供更大的靈活性和簡潔性,并得益于硬件優(yōu)化。對于那些尋求快速部署并輕松集成到當(dāng)前環(huán)境的客戶來說,硬件解決方案非常受歡迎??捎萌萘縱s.原始容量:可使用容量是終端用戶最直接、最適用的規(guī)格。它指的是進(jìn)行任何重復(fù)數(shù)據(jù)刪除之前的容量,并不包含用于元數(shù)據(jù)、數(shù)據(jù)保護(hù)和系統(tǒng)管理的任何存儲。一些廠商規(guī)定“原始”容量,它比“可用”容量稍微高一點(diǎn),但是這一規(guī)格會產(chǎn)生誤導(dǎo),因為不同廠商和數(shù)據(jù)保護(hù)方案將會有不同程度的開銷。重復(fù)數(shù)據(jù)刪除將需要一些原始磁盤容量來存儲元數(shù)據(jù),這些容量并不供終端用戶使用。在這兩種情況下,這些容量都被歸為“重復(fù)數(shù)據(jù)刪除前容量”——如果用戶擁有10:1的重復(fù)數(shù)據(jù)刪除率,那么他們可以存儲“可用容量”10倍的數(shù)據(jù)。如果他們擁有20:1的重復(fù)數(shù)據(jù)刪除率,那么他們可以存儲“可用容量”20倍的數(shù)據(jù)。性能:確保不僅要了解“寫入”和“讀取”速度——通常被注明為TB/小時,而且還要詢問“讀取”或“恢復(fù)”速度,以了解這是否滿足貴公司的服務(wù)水平目標(biāo)(SLO)。要了解在必須進(jìn)行一些后臺“清理”任務(wù)的“穩(wěn)定狀態(tài)”期間,系統(tǒng)性能會受到哪些影響。重復(fù)數(shù)據(jù)刪除方案的性能可決定IT部門如何能夠在任務(wù)分配的時間段很好地完成其備份。硬盤密度:硬盤的密度繼續(xù)增加,而重復(fù)數(shù)據(jù)刪除設(shè)備可能適用1TB到3TB的硬盤。甚至4TB的硬盤現(xiàn)在也可用于消費(fèi)類設(shè)備,并開始用在一些主存儲陣列中。在一般情況下,密度更高的硬盤將轉(zhuǎn)化為“節(jié)省數(shù)據(jù)中心占地面積以及省電”的優(yōu)勢。隨著硬盤密度的增加,當(dāng)硬盤出現(xiàn)故障時,數(shù)據(jù)重建的時間也會同比增加。這會給系統(tǒng)帶來新的不穩(wěn)定因素。因此有無高效的硬盤(數(shù)據(jù))重建技術(shù),對于系統(tǒng)的穩(wěn)定運(yùn)行至關(guān)重要。可擴(kuò)展性:每家公司都有不斷增長的數(shù)據(jù)。對于任何重復(fù)數(shù)據(jù)刪除解決方案來說,這不再是“是否需要部署更多容量的問題”,而是“何時部署”的問題。無論是基于設(shè)備的方案還是基于軟件的方案,最重要的是要了解它如何隨著時間推移而擴(kuò)展。如果一個解決方案能夠在未來3-5年隨著預(yù)期數(shù)據(jù)增長而擴(kuò)展,它在目前可能就是更好的投資。如果它能隨著數(shù)據(jù)增長而細(xì)化擴(kuò)展,那就更好了。加密:一些系統(tǒng)提供磁盤存儲加密,以防止在磁盤丟失或被盜情況下數(shù)據(jù)泄露。通常這種加密會影響系統(tǒng)性能,因此重要的是要了解這種重復(fù)刪除數(shù)據(jù)加密解決方案,以及它對系統(tǒng)性能會產(chǎn)生哪些影響。系統(tǒng)和數(shù)據(jù)可用性:不同廠商擁有不同的解決方案來應(yīng)對其設(shè)備中的磁盤故障,以確保被刪除的重復(fù)數(shù)據(jù)能夠在需要時被找回并恢復(fù)。了解確保系統(tǒng)和數(shù)據(jù)隨時間推移一直可用的不同方法。云:重復(fù)數(shù)據(jù)刪除能夠支持的關(guān)鍵一點(diǎn)就是:在廣域網(wǎng)上,可能是在站點(diǎn)之間,復(fù)制這些數(shù)據(jù)之前,有效大幅降低數(shù)據(jù)規(guī)模,以提供災(zāi)難恢復(fù),或作為將數(shù)據(jù)復(fù)制到云中的一種手段。計劃利用云存儲的IT部門必須了解重復(fù)數(shù)據(jù)刪除技術(shù)如何適應(yīng)不同的云選項。數(shù)據(jù)重復(fù)數(shù)據(jù)刪除技術(shù)降低了備份所需的存儲空間,而這實現(xiàn)了更快和更頻繁的備份,從而有利于數(shù)據(jù)保護(hù)。還實現(xiàn)了更快的修復(fù),在符合監(jiān)管合規(guī)要求和公司政策的限制范圍內(nèi)盡可能延長數(shù)據(jù)保留時間。重復(fù)數(shù)據(jù)刪除技術(shù)可以影響實際的備份應(yīng)用程序。例如,由于重復(fù)數(shù)據(jù)刪除數(shù)據(jù)保存在目標(biāo)存儲設(shè)備上,因此需要使用處理塊存儲的備份工具。相比之下,基于文件存儲的備份工具通??梢浴俺蜂N”所需的重復(fù)數(shù)據(jù)刪除——導(dǎo)致目標(biāo)存儲設(shè)備上存放更多存儲——除非備份工具只支持WindowsServer2012R2數(shù)據(jù)重復(fù)數(shù)據(jù)刪除。例如,像Windows服務(wù)器備份這樣的工具完全支持重復(fù)數(shù)據(jù)刪除,IT管理員可以從備份恢復(fù)一個完整的卷或個人文件夾。記住,重復(fù)數(shù)據(jù)刪除對系統(tǒng)、引導(dǎo)卷、遠(yuǎn)程驅(qū)動器、加密的文件或小于32KB的文件不起作用。其目的是備份和恢復(fù)任何常規(guī)文件。重復(fù)數(shù)據(jù)刪除定期運(yùn)行所謂的垃圾回收來恢復(fù)不再使用的存儲塊。運(yùn)行垃圾回收之后最好進(jìn)行備份,確保捕獲空閑存儲器在備份過程中的任何變化。數(shù)據(jù)重復(fù)數(shù)據(jù)刪除技術(shù)改提高了存儲效率,降低了存儲成本并加快了數(shù)據(jù)保護(hù)的過程。但重復(fù)數(shù)據(jù)刪除技術(shù)的有效性和性能取決于工作負(fù)載和重復(fù)數(shù)據(jù)刪除的設(shè)置。IT管理員應(yīng)該在應(yīng)用重復(fù)數(shù)據(jù)刪除之前和之后基準(zhǔn)每個存儲卷,以便衡量任何性能損失,因此應(yīng)該調(diào)整調(diào)度和其他選項來優(yōu)化服務(wù)器和工作負(fù)載性能。備份和恢復(fù)過程也應(yīng)提前進(jìn)行測試以了解重復(fù)數(shù)據(jù)刪除的數(shù)據(jù)的存儲需求,并允許更新或補(bǔ)丁數(shù)據(jù)保護(hù)工具來提高用于數(shù)據(jù)備份的存儲使用。重復(fù)數(shù)據(jù)刪除首先開始于創(chuàng)建數(shù)據(jù)。接著是所有其他業(yè)務(wù)——備份、復(fù)制、歸檔以及任何網(wǎng)絡(luò)傳輸——都可以受益于規(guī)模縮小后的數(shù)據(jù)。但把重復(fù)數(shù)據(jù)刪除應(yīng)用在主數(shù)據(jù)這一場景很難被用戶接收,因為這樣做是在篡改主數(shù)據(jù)集,做好備份,就算沒有重復(fù)數(shù)據(jù)刪除技術(shù),也不會因為搞砸生產(chǎn)環(huán)境的數(shù)據(jù)而出大亂子,但是如果動到主存儲,問題就很大了,而且需要了解這項技術(shù)會如何影響性能、可靠性與數(shù)據(jù)完整性。目前只有少數(shù)主存儲陣列提供重復(fù)數(shù)據(jù)刪除作為產(chǎn)品的附加功能。只有不到5%的磁盤陣列真正支持在線重復(fù)數(shù)據(jù)刪除與壓縮。通過重復(fù)數(shù)據(jù)刪除技術(shù)去重節(jié)約的空間十分可觀,這取決于數(shù)據(jù)類型以及所使用的數(shù)據(jù)去重引擎的組塊大小。以文文件與虛擬桌面架構(gòu)環(huán)境為例,受益于高刪除率,壓縮比可達(dá)到40:1。而視頻可以壓縮的,但沒法去重。存儲廠商認(rèn)為6:1是重復(fù)數(shù)據(jù)刪除率的最佳平均值。加上相同的塊壓縮,數(shù)據(jù)中心可以通過這些技術(shù)輕松實現(xiàn)10:1的存儲空間節(jié)約。重復(fù)數(shù)據(jù)刪除能夠節(jié)約空間,十分具有,但重復(fù)數(shù)據(jù)刪除屬于計算密集型技術(shù)。在相對不重要的二級存儲中,一般不會出現(xiàn)問題,但可能給主存儲環(huán)境出現(xiàn)短暫擁塞現(xiàn)象。重復(fù)數(shù)據(jù)刪除不僅可以在實時刪除重復(fù)數(shù)據(jù),還可以讓供應(yīng)商通過算法最大化潛在的數(shù)據(jù)壓縮率。以Quantum的Di系列備份設(shè)備為例,使用可改變塊大小的重復(fù)數(shù)據(jù)刪除算法,該算法是固定塊大小方法效率的三倍以上。重復(fù)數(shù)據(jù)刪除技術(shù)不僅能夠更好地利用昂貴的閃存資源,而且重復(fù)數(shù)據(jù)刪除也比較容易實現(xiàn)。重復(fù)數(shù)據(jù)刪除與大多數(shù)存儲供應(yīng)商相比。無法讓重復(fù)數(shù)據(jù)刪除技術(shù)去支持現(xiàn)有的存儲陣列。理論上,推廣重復(fù)數(shù)據(jù)刪除技術(shù)可以延長已經(jīng)在用的存儲的服務(wù)周期。重復(fù)數(shù)據(jù)刪除閃存產(chǎn)商正在從這些傳統(tǒng)存儲大戶手里爭搶市場份額。要解決這個問題,只靠贈送重復(fù)數(shù)據(jù)刪除存儲是遠(yuǎn)遠(yuǎn)不夠的。重復(fù)數(shù)據(jù)刪除首先開始于創(chuàng)建數(shù)據(jù)。重復(fù)數(shù)據(jù)刪除接著是所有其他業(yè)務(wù)——備份、復(fù)制、歸檔以及任何網(wǎng)絡(luò)傳輸——都可以受益于規(guī)??s小后的數(shù)據(jù),重復(fù)數(shù)據(jù)刪除位于Hopkinton。但把重復(fù)數(shù)據(jù)刪除應(yīng)用在主數(shù)據(jù)這一場景很難被用戶接收,因為這樣做是在篡改主數(shù)據(jù)集,做好備份,就算沒有重復(fù)數(shù)據(jù)刪除技術(shù),重復(fù)數(shù)據(jù)刪除也不會因為搞砸生產(chǎn)環(huán)境的數(shù)據(jù)而出大亂子,但是重復(fù)數(shù)據(jù)刪除如果動到主存儲,問題就很大了,而且需要了解這項技術(shù)會如何影響性能、可靠性與數(shù)據(jù)完整性。通過數(shù)據(jù)去重節(jié)約的空間十分可觀,這取決于數(shù)據(jù)類型以及所使用的數(shù)據(jù)去重引擎的組塊大小。重復(fù)數(shù)據(jù)刪除以文本文件與虛擬桌面架構(gòu)環(huán)境為例,受益于高刪除率,壓縮比可達(dá)到40:1。而視頻可以壓縮的,但沒法去重。重復(fù)數(shù)據(jù)刪除存儲廠商認(rèn)為6:1是重復(fù)數(shù)據(jù)刪除率的最佳平均值。加上相同的塊壓縮,數(shù)據(jù)中心可以通過這些技術(shù)輕松實現(xiàn)10:1的存儲空間節(jié)約。這些重復(fù)數(shù)據(jù)刪除技術(shù)能夠節(jié)約空間,十分具有,但重復(fù)數(shù)據(jù)刪除屬于計算密集型技術(shù)。重復(fù)數(shù)據(jù)刪除在相對不重要的二級存儲中,一般不會出現(xiàn)問題,但可能重復(fù)數(shù)據(jù)刪除給主存儲環(huán)境出現(xiàn)短暫擁塞現(xiàn)象。重復(fù)數(shù)據(jù)刪除不僅可以在實時刪除重復(fù)數(shù)據(jù),重復(fù)數(shù)據(jù)刪除還可以讓供應(yīng)商通過算法最大化潛在的數(shù)據(jù)壓縮率。重復(fù)數(shù)據(jù)刪除使用可改變塊大小的重復(fù)數(shù)據(jù)刪除算法,重復(fù)數(shù)據(jù)刪除算法是固定塊大小方法效率的三倍以上。在財務(wù)管理和資產(chǎn)管理的領(lǐng)域中,資產(chǎn)評估學(xué)和會計學(xué)是兩個緊密相連的學(xué)科。盡管它們在某些方面有著共同的目標(biāo),但在評估資產(chǎn)和價值方面,它們有著不同的方法和觀點(diǎn)。本文將對這兩門學(xué)科進(jìn)行比較研究,以更好地理解它們的差異和相似之處。會計學(xué)是一門對財務(wù)交易和數(shù)據(jù)進(jìn)行記錄、分類、匯總和解釋的學(xué)科,以提供關(guān)于企業(yè)經(jīng)營狀況的信息,幫助決策者做出經(jīng)濟(jì)決策。其目標(biāo)是確保財務(wù)信息的準(zhǔn)確性和完整性,通過財務(wù)報表的形式向企業(yè)內(nèi)外部的信息使用者提供有關(guān)企業(yè)經(jīng)營、投資、籌資等經(jīng)濟(jì)活動的信息。資產(chǎn)評估學(xué)則是對特定資產(chǎn)價值的評估和判斷,通常涉及到房地產(chǎn)、機(jī)器設(shè)備、知識產(chǎn)權(quán)等各類資產(chǎn)。評估師需要基于市場條件、資產(chǎn)的使用狀況、替代成本等因素,對資產(chǎn)的價值進(jìn)行合理的估算。其目標(biāo)是提供資產(chǎn)的公平市場價值,為產(chǎn)權(quán)交易、企業(yè)并購、稅收等領(lǐng)域提供決策依據(jù)。會計學(xué)的方法主要是以歷史成本為基礎(chǔ),遵循公認(rèn)的會計準(zhǔn)則(GAAP)或國際會計準(zhǔn)則(IFRS),通過記賬、核算、編制財務(wù)報表等方式,反映企業(yè)的財務(wù)狀況和經(jīng)營成果。資產(chǎn)評估學(xué)的方法則更加靈活多樣,包括市場法、收益法、成本法等。評估師需要基于資產(chǎn)的實際狀況和市場環(huán)境,選擇合適的方法進(jìn)行價值估算。在進(jìn)行價值評估時,需要遵循公平、公正的原則,以盡可能反映資產(chǎn)的真正價值。會計學(xué)在財務(wù)管理中發(fā)揮著核心作用,是企業(yè)經(jīng)營管理的必備工具。通過會計記錄和財務(wù)報表,企業(yè)可以監(jiān)控經(jīng)營狀況、預(yù)測未來趨勢,并做出相應(yīng)的經(jīng)濟(jì)決策。會計學(xué)還在審計、稅務(wù)等領(lǐng)域得到廣泛應(yīng)用。資產(chǎn)評估學(xué)的應(yīng)用領(lǐng)域相對更為廣泛。除了在企業(yè)并購、產(chǎn)權(quán)交易等領(lǐng)域發(fā)揮著重要作用外,還涉及到房地產(chǎn)估價、機(jī)器設(shè)備評估、知識產(chǎn)權(quán)評估等領(lǐng)域。在保險、稅務(wù)等領(lǐng)域,也需要對特定資產(chǎn)的價值進(jìn)行評估。資產(chǎn)評估學(xué)和會計學(xué)在定義、方法和應(yīng)用領(lǐng)域等方面存在顯著差異。會計學(xué)更側(cè)重于對企業(yè)經(jīng)濟(jì)活動的記錄和反映,而資產(chǎn)評估學(xué)則更側(cè)重于對特定資產(chǎn)價值的評估和判斷。盡管它們的方法和原則有所不同,但它們的目標(biāo)都是為了提供有關(guān)資產(chǎn)或經(jīng)濟(jì)活動的準(zhǔn)確信息,以支持決策者的決策過程。在實際應(yīng)用中,兩者相互補(bǔ)充,共同構(gòu)成了財務(wù)管理和資產(chǎn)管理的基礎(chǔ)。在信息化社會中,數(shù)據(jù)存儲的規(guī)模正在以前所未有的速度增長。隨著數(shù)據(jù)的不斷增加,存儲空間的壓力也越來越大。為了解決這個問題,重復(fù)數(shù)據(jù)刪除技術(shù)應(yīng)運(yùn)而生,為存儲介質(zhì)的高效利用提供了一種有效的解決方案。重復(fù)數(shù)據(jù)刪除技術(shù)是一種先進(jìn)的存儲技術(shù),其核心思想是消除冗余數(shù)據(jù),只保留唯一的數(shù)據(jù)副本。通過刪除重復(fù)的數(shù)據(jù),可以大大減少存儲介質(zhì)上占用的空間,從而提高了存儲空間的利用率。這種技術(shù)在存儲空間需求不斷增長的今天,具有非常重要的意義。重復(fù)數(shù)據(jù)刪除技術(shù)有多種實現(xiàn)方式,包括前重復(fù)數(shù)據(jù)刪除和后重復(fù)數(shù)據(jù)刪除。前重復(fù)數(shù)據(jù)刪除在數(shù)據(jù)寫入存儲介質(zhì)之前就消除冗余數(shù)據(jù),而后重復(fù)數(shù)據(jù)刪除則在數(shù)據(jù)寫入后再進(jìn)行冗余數(shù)據(jù)的消除。兩者各有優(yōu)劣,需要根據(jù)實際需求進(jìn)行選擇。雖然重復(fù)數(shù)據(jù)刪除技術(shù)能夠有效地減少存儲空間的使用,但也存在一些問題。例如,由于數(shù)據(jù)被壓縮或刪除,恢復(fù)數(shù)據(jù)可能會比原始數(shù)據(jù)更困難。由于數(shù)據(jù)的動態(tài)變化,如何準(zhǔn)確地檢測和刪除重復(fù)數(shù)據(jù)也是一個技術(shù)挑戰(zhàn)。隨著技術(shù)的不斷發(fā)展,這些問題正在逐步得到解決。例如,通過引入增量備份和全備份的策略,可以有效地降低恢復(fù)數(shù)據(jù)的難度。通過改進(jìn)數(shù)據(jù)指紋算法和相似性檢測算法,可以更準(zhǔn)確地檢測和刪除重復(fù)數(shù)據(jù)。重復(fù)數(shù)據(jù)刪除技術(shù)是解決存儲空間壓力的有效手段。盡管仍存在一些問題需要解決,但隨著技術(shù)的不斷進(jìn)步,相信這些問題將得到妥善的處理。在未來,我們期待看到更多關(guān)于重復(fù)數(shù)據(jù)刪除技術(shù)的創(chuàng)新和突破,以滿足日益增長的存儲需求。刪除文件指將文件從操作系統(tǒng)中刪除,一般不對硬盤數(shù)據(jù)改寫。而要徹底刪除文件,可使用軟件的粉碎功能。很多殺軟都有粉碎文件的功能,比如360,卡卡等。以360為例,打開360,在高級工具中,選擇“文件粉碎機(jī)”,添加你要刪除的文件,【記得要打上√】執(zhí)行“粉碎選中文件”即可。文件的刪除(此處刪除指操作系統(tǒng)自帶的刪除功能)僅僅是將FAT表中的文件頭處加上代碼E5,緊接著文件所占簇在FAT表中的登記清除(而實際硬盤數(shù)據(jù)區(qū)數(shù)據(jù)并未修改)。這樣系統(tǒng)就認(rèn)為文件已不占用空間,達(dá)到釋放空間的目的。而以后如果將文件寫入,則會覆蓋之前的數(shù)據(jù)。一旦數(shù)據(jù)被覆蓋就可認(rèn)為是徹底刪除,無法恢復(fù),值得一提的是,文件在硬盤中是鏈?zhǔn)酱鎯Φ?,(采用鏈?zhǔn)酱鎯Y(jié)構(gòu))即一個文件被分散在空間上不連續(xù)的簇中。這種分散可以近似認(rèn)為是隨機(jī)的,所以有時數(shù)據(jù)覆蓋可能導(dǎo)致被刪除的文件破損而不是徹底刪除。更多信息亦可參照刪除一詞。對于頑固的文件,可以在它旁邊新建一個文本文檔,把以下內(nèi)容復(fù)制進(jìn)去:同上,優(yōu)點(diǎn)是可以把想要刪除的文件拖入這個文件當(dāng)中,最后再刪除這個文件即可(此方法適用于一些無法讀源文件的文件)以上方法如果文件在C盤非桌面文件夾下,需獲得管理員權(quán)限。右鍵單擊此Bat,以管理員身份運(yùn)行。Del(文件夾則是Rd)路徑文件名/f/q(文件夾則是/s/q)詳見cmd命令詳細(xì)說明。要獲取某一說明除百度外還可以在win+r,cmd中輸入想查詢的命令名,加/?如Del/?可以Ctrl+Alt+Del組合鍵結(jié)束目標(biāo)所有進(jìn)程,然后再刪除。方法1:重新啟動Windows操作系統(tǒng)后,再按常規(guī)方式刪除文件。方法2:在DOS(或命令提示符)界面中用Del、Deltree之類的命令刪除。方法3:利用非Windows資源管理器的第三方工具刪除,例如具有瀏覽文件夾功能的TotalCommander、acdsee、FlashFP、nero等軟件。方法4:如果你安裝了兩個以上的操作系統(tǒng),那么就可以在當(dāng)前系統(tǒng)中刪除其它操作系統(tǒng)的文件。WindowsP系統(tǒng)中,準(zhǔn)備刪除一個大容量的AVI格式文件,但系統(tǒng)卻總是提示無法執(zhí)行刪除操作,有別的程序在使用,即使剛開機(jī)進(jìn)入Windows系統(tǒng)時也是如此。方法1:打開記事本,點(diǎn)擊菜單欄“文件”→“另存為”,命名文件和你想刪除的那個文件名一致(包括擴(kuò)展名),而后進(jìn)行替換,會發(fā)現(xiàn)容量變?yōu)?KB了。此時,執(zhí)行刪除命令即可。方法2:在那個AVI文件同目錄中新建一個文件夾,然后重新啟動。不要選那個AVI文件,先選擇剛才新建的文件夾,然后再同時按Ctrl鍵+那個AVI文件,執(zhí)行刪除操作。方法3:把AVI文件的擴(kuò)展名改為其它任意無效的文件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論