基于數(shù)字檔案長期保存的元數(shù)據(jù)需求及建設(shè)策略研究_第1頁
基于數(shù)字檔案長期保存的元數(shù)據(jù)需求及建設(shè)策略研究_第2頁
基于數(shù)字檔案長期保存的元數(shù)據(jù)需求及建設(shè)策略研究_第3頁
基于數(shù)字檔案長期保存的元數(shù)據(jù)需求及建設(shè)策略研究_第4頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于數(shù)字檔案長期保存的元數(shù)據(jù)需求及建設(shè)策略研究基于數(shù)字檔案長期保留的元數(shù)據(jù)需求及建設(shè)策略研究

Abstract:Meta-dataandlong-termpreservationofdigitalarchivesresourceshasacloserelationship.Itisconvenienttofindthegapbetweenmeta-dataresearchanddigitalresourceslong-termpreservationoftheconstructionprojectthroughintroducingthefunctionofmeta-datainthelong-termpreservationofdigitalarchivesresourcesandhowthoseprogramdemand.Thusweputforwardthevalueofmeta-datadescriptionfunction,sensitiveinformationandsoon.

Keywords:meta-datadigitalarchivesresourceslong-termpreservation

引言

數(shù)字檔案資源的長期保留既要求確保數(shù)字檔案資源的長期存儲,也要求保證數(shù)字檔案資源的永久獲取。元數(shù)據(jù)作為描述數(shù)據(jù)的數(shù)據(jù),其本身以及與其相關(guān)的技術(shù)是數(shù)字檔案資源長期保留的關(guān)鍵,因此基于數(shù)字檔案資源長期保留的元數(shù)據(jù)研究就顯得尤為必要。為了更好地利用元數(shù)據(jù)滿足數(shù)字檔案資源的長期保留需求,相關(guān)學者提出了保留元數(shù)據(jù)這一概念并發(fā)展了以保留元數(shù)據(jù)為核心的工程研究,比方PREMIS和METS等,這些工程的發(fā)展可以推動元數(shù)據(jù)更好地解決數(shù)字資源長期保留過程中波及的管理、技術(shù)問題等,為本文探討數(shù)字資源長期保留的元數(shù)據(jù)建設(shè)策略提供了借鑒。

1元數(shù)據(jù)在數(shù)字檔案資源長期保留中的作用

1.1維護數(shù)字檔案資源的真實性。檔案是真實的歷史記錄,因此維護數(shù)字檔案資源的真實可靠是數(shù)字檔案資源長期保留過程中的重中之重。元數(shù)據(jù)可以通過建立與數(shù)字檔案資源真實性相關(guān)的元數(shù)據(jù)結(jié)構(gòu)來保證數(shù)字檔案資源的真實性[1],即在數(shù)字資源形成和使用階段描述與記錄數(shù)字資源及與之相關(guān)的責任者、業(yè)務過程、法規(guī)、時間、人員使用行為等信息,并在描述與記錄這些相關(guān)信息的同時通過數(shù)字簽名將其與數(shù)字檔案資源固化為一體,進行封裝保留,從而起到表明與保證數(shù)字檔案資源真實性的憑證作用。

1.2維護數(shù)字檔案資源的完整性。元數(shù)據(jù)對數(shù)字檔案資源的監(jiān)管貫通了數(shù)字檔案資源的整個生命周期。因此,為了保證數(shù)字檔案資源的內(nèi)容、結(jié)構(gòu)和背景信息均沒有缺損,它可以持續(xù)動態(tài)地記錄和保留用戶對數(shù)字檔案資源的使用行為,包括對數(shù)字檔案資源的編輯、復制、刪除等[2]。形成的這些元數(shù)據(jù)記錄不可更改和刪除,與數(shù)字檔案資源綁定在一起,因此數(shù)字資源保管單位可以通過這些元數(shù)據(jù)記錄表明所收集、長期保留的數(shù)字對象完整性及其變化情況,特別是在接受保留、提供利用前后的完整性變化。

1.3維護數(shù)字檔案資源的平安性。元數(shù)據(jù)可以通過對權(quán)限、版權(quán)、使用過程等方面信息的保留和描述來限制和監(jiān)管相關(guān)人員對數(shù)字檔案資源的傳輸和使用行為,從而實現(xiàn)維護數(shù)字檔案資源平安性的目的。比方,通過權(quán)限的控制可以防止數(shù)字檔案資源內(nèi)容的泄露和損壞、通過版權(quán)的控制可以促進數(shù)字檔案資源標準化的運轉(zhuǎn)、對與使用過程有關(guān)的信息的記錄和保留便于有效追責,形成對相關(guān)人員的約束等。

1.4維護數(shù)字檔案資源的可獲取性。為了維護數(shù)字檔案資源的可獲取性,一方面,元數(shù)據(jù)可以通過不斷完善元數(shù)據(jù)元素盡可能到達對數(shù)字檔案資源的全方位描述,保證數(shù)字檔案資源的準確性。比方,隨著社會維權(quán)意識的增強,與權(quán)利信息、技術(shù)信息有關(guān)的元數(shù)據(jù)元素被不斷參加到元數(shù)據(jù)保留框架中[3]。另一方面,通過建立元數(shù)據(jù)框架抽取數(shù)字檔案資源中有關(guān)于數(shù)字檔案資源標示符、創(chuàng)立日期、結(jié)構(gòu)類型、復雜對象技術(shù)結(jié)構(gòu)、文件描述、已知系統(tǒng)要求、安裝要求、存儲信息、查找搜尋工具和提取辦法、存取類型等方面的元數(shù)據(jù)單元并將其封裝在一個數(shù)據(jù)包中,示例,OAIS就將數(shù)字資源對象和與它們相關(guān)的元數(shù)據(jù)納入到AIP之中,這些元數(shù)據(jù)不是直接和數(shù)據(jù)束縛在一起,就是和系統(tǒng)有邏輯聯(lián)系。通過類似于AIP這樣的封裝數(shù)據(jù)包,與數(shù)字資源有關(guān)的寄存在存儲介質(zhì)中的物理數(shù)字信息,數(shù)字資源的保留數(shù)字格式與處理信息,數(shù)字資源的生成處理、利用環(huán)境,數(shù)字資源的內(nèi)容校驗、身份驗證、版本演變、知識產(chǎn)權(quán)管理機制等都能得到完整的保留及再現(xiàn),從而實現(xiàn)數(shù)字檔案資源的長期存取。

2數(shù)字檔案資源長期保留對元數(shù)據(jù)的要求

2.1規(guī)范化。統(tǒng)一標準和統(tǒng)一規(guī)范主要是指在數(shù)字檔案資源長期保留過程中,元數(shù)據(jù)元素的選取、元數(shù)據(jù)保留框架的建立等必須規(guī)范化、標準化。元數(shù)據(jù)規(guī)范化是數(shù)字檔案資源進行長期保留的必然要求,能夠保證數(shù)字檔案資源在環(huán)境頻繁變化的情況下保持其真實性、完整性、可用和平安。示例,檔案信息包唯一標識符的構(gòu)成規(guī)那么假設(shè)是沒有標準的規(guī)范,則與唯一標識符相關(guān)聯(lián)的檔號、題名、編碼、檔案信息包等要素就很難去定位、辨認和解析,從而增加了數(shù)字檔案對象的長期保留的難度。因此,數(shù)字檔案資源對元數(shù)據(jù)的規(guī)范化要求很有必要。

2.2易于捕獲。易于捕獲是指元數(shù)據(jù)要便于獲取,即數(shù)字檔案資源長期保留所需要的元數(shù)據(jù)不依賴于人工添加,可以較大程度以自動捕獲的方式從系統(tǒng)、數(shù)字資源本身、其他描述記錄等目《碩韻蠡袢U庵腫遠《生成的元數(shù)據(jù)一方面可以有效保證數(shù)字檔案資源的真實可靠,另一方面也可以提高數(shù)字檔案資源長期保留工程的效率水平。2.3較強的辨認能力。較強的辨認能力是指數(shù)字檔案對象能夠被元數(shù)據(jù)發(fā)現(xiàn)和辨認,這體現(xiàn)在兩個方面。一方面,元數(shù)據(jù)有能力對不同層次的數(shù)字檔案對象進行綜合描述,保證從單個文件到全宗的時間、唯一標識符、關(guān)鍵詞、存儲格式等都能被有效描述。另一方面,元數(shù)據(jù)需要有能力辨認和檢索出用戶需要的數(shù)字檔案對象,這就要求考慮到用戶查詢所需要的最小的元數(shù)據(jù)需求,即用戶多使用描述元數(shù)據(jù)來進行查詢,如標題、檔號等。

2.4靈活性。筆者認為,元數(shù)據(jù)的易操作性體現(xiàn)在三個方面。首先,元數(shù)據(jù)需要具有可擴展性。元數(shù)據(jù)并不是一成不變的,需要依據(jù)隨著數(shù)字檔案資源長期保留研究的不斷深入、實踐活動的發(fā)展、不同機構(gòu)的需要等在元數(shù)據(jù)元素的數(shù)量、元數(shù)據(jù)語義化敘述等方面進行擴展,示例,保留元數(shù)據(jù)在權(quán)利元數(shù)據(jù)、重要屬性元數(shù)據(jù)、特殊類型數(shù)字資源及學科化特色的保留元數(shù)據(jù)[4]等方面需要有所擴展,因此元數(shù)據(jù)的可擴展性就顯得尤為必要。其次,元數(shù)據(jù)需要具有可更改性。元數(shù)據(jù)的可更改性主要是指當元數(shù)據(jù)對數(shù)字檔案對象的描述出現(xiàn)錯誤或是不能滿足用戶的要求時,再或者元數(shù)據(jù)的格式需要進行調(diào)整和轉(zhuǎn)換時,我們可通過人工修改使得元數(shù)據(jù)對數(shù)字檔案對象的描述更為完善,更能滿足數(shù)字檔案資源長期保留的要求。最后,元數(shù)據(jù)應該具有可封裝性。元數(shù)據(jù)的可封裝性是指數(shù)字檔案對象保管機構(gòu)可以通過一定的封裝方式將元數(shù)據(jù)與數(shù)字檔案原文進行打包形成提交信息包進行移交,在封裝的過程中,元數(shù)據(jù)不能損壞和遺失并且可再獲取。從而保證元數(shù)據(jù)與其描述的數(shù)字檔案對象進行一對一綁定,實現(xiàn)數(shù)字檔案對象資源長期保留的需要。

3基于數(shù)字檔案資源長期保留的元數(shù)據(jù)建設(shè)策略

3.1元數(shù)據(jù)規(guī)范標準化。數(shù)字檔案資源長期保留會波及不同方面的元數(shù)據(jù)規(guī)范,不論是元數(shù)據(jù)封裝規(guī)范METS、VERS,還是數(shù)字技術(shù)保留規(guī)范PREMIS,文件管理描述元數(shù)據(jù)規(guī)范ISAD、EAD,等等,都需要數(shù)字檔案對象保管機構(gòu)依據(jù)自身的建設(shè)需要和國內(nèi)外大環(huán)境等因素選擇適宜的元數(shù)據(jù)規(guī)范,明確可接受的元數(shù)據(jù)的范圍以及必不可少的元數(shù)據(jù)類型。以描述元數(shù)據(jù)規(guī)范、技術(shù)元數(shù)據(jù)規(guī)范、元數(shù)據(jù)封裝規(guī)范等為代表的各種元數(shù)據(jù)規(guī)范的標準化是數(shù)字檔案對象長期保留的必然要求,沒有標準化的元數(shù)據(jù)規(guī)范,數(shù)字檔案資源的長遠保留和長久存取將會遭遇困難,因此做好元數(shù)據(jù)規(guī)范的標準化是數(shù)字檔案資源長期保留的根底。

3.2增強元數(shù)據(jù)對數(shù)字檔案對象的辨認能力和捕獲能力

3.2.1重視元數(shù)據(jù)的《C合描述能力和分級描述能力。筆者認為,元數(shù)據(jù)的描述功能是元數(shù)據(jù)幫忙數(shù)字檔案資源長期保留中的關(guān)鍵。一方面,數(shù)字檔案對象保管機構(gòu)要具備足夠的元數(shù)據(jù)來對數(shù)字對象進行綜合描述,應涵蓋數(shù)字對象的主題、形成時間、流水順序號或唯一標識符等根底管理和定位要素;存儲格式、存儲載體、保留技術(shù)條件等長期保留要素;關(guān)鍵詞、讀取軟件等檢索利用要素等。只有綜合考慮到不同的描述角度,大量的元數(shù)據(jù)元素才能從各個方面保證數(shù)字檔案資源真實性不受質(zhì)疑以及長期存取的可行性。另一方面,數(shù)字檔案對象保管機構(gòu)應采用元數(shù)據(jù)對數(shù)字對象的不同級次進行描述,示例全宗、類別、案卷、文件組合、文件等。不同層級的數(shù)字檔案對象所要求的描述角度有所差別。示例,對單個文件的描述傾向于題名、關(guān)鍵詞、責任者、時間等比擬低層次類型的元數(shù)據(jù),而元數(shù)據(jù)對于全宗的描述那么傾向于對全宗的歷史開展過程和管理歷程等高層次的元數(shù)據(jù)。

3.2.2重視敏感信息的辨認。數(shù)字檔案資源包含大量敏感信息,波及個人隱私、國家平安、版權(quán)信息,等等,因此數(shù)字檔案資源長期保留中如何使用元數(shù)據(jù)辨認敏感信息也應該受到重視。筆者認為,通過將語義技術(shù)與元數(shù)據(jù)相融合可以充沛提高元數(shù)據(jù)的交互性。目前,已有少數(shù)組織在保留元數(shù)據(jù)工程中融入語義技術(shù),其中在圖書館、檔案館、博物館領(lǐng)域,CIDOC概念參考模型成為廣為推崇的交互性的本體規(guī)范。在元數(shù)據(jù)保留框架中應用CIDOC等語義技術(shù)模型,可以增強對本體和關(guān)聯(lián)數(shù)據(jù)的描述效果,拓展了保留元數(shù)據(jù)可描述資源類型,從而實現(xiàn)對數(shù)字資源內(nèi)容的深入挖掘,發(fā)現(xiàn)數(shù)字檔案資源中的敏感信息。

3.3重視元數(shù)據(jù)的捕獲能力

3.3.1針對不同數(shù)字檔案對象有選擇地捕獲元數(shù)據(jù)元素。元數(shù)據(jù)元素并不是越多越好,我們要針對不同描述對象捕獲最適宜的元數(shù)據(jù)元素。以圖像資源和視頻資源為例,圖像資源需要捕獲與分辨率、顏色相關(guān)的元素[5],視頻資源需要捕獲與播放格式、字幕信息、音頻背景相關(guān)的元素,而這些元數(shù)據(jù)元素對單純的文本資源是不需要的。因此為了防止數(shù)據(jù)冗余,提高數(shù)字資源管理的效率,針對不同對象捕獲適合的元數(shù)據(jù)元素就顯得尤為必要。

3.3.2針對不同元數(shù)據(jù)元素選擇不同的捕獲方式。以題名、關(guān)鍵詞、責任者、時間等為代表的低層次類型的元數(shù)據(jù),通??梢酝ㄟ^電子文件管理系統(tǒng)自動捕獲。數(shù)字檔案資源保管單位只需要按照自己的需求在系統(tǒng)中設(shè)定好需要捕捉的元數(shù)據(jù)類型和格式等就可以輕易實現(xiàn)元數(shù)據(jù)的自動捕獲。而對于一些高層次類型的元數(shù)據(jù),示例上文提到的對全宗的歷史開展過程和管理歷程進行描述的元數(shù)據(jù),經(jīng)常會需要自動捕獲和人工創(chuàng)立相結(jié)合,因為系統(tǒng)很難捕捉到能概述數(shù)字檔案對象管理過程的元數(shù)據(jù),故而一些高層次類型的元數(shù)據(jù)元素就需要人工進行修改和補充。

3.4實現(xiàn)對元數(shù)據(jù)的靈活管理。目前業(yè)界廣泛施行的OAIS元數(shù)據(jù)參考模型可以很好地實現(xiàn)元數(shù)據(jù)的靈活管理。OAIS作為一種能夠為數(shù)字檔案資源的長期保留提供概念框架、功能框架、信息模型和一定擴展根底的開放檔案信息系統(tǒng)[6],對元數(shù)據(jù)的更改、封裝、擴展等管理行為都可以通過AIP、SIP、DIP等不同類型的信息包實現(xiàn)。即OAIS模型支持檔案保管機構(gòu)在數(shù)字檔案資源的接收、存取等過程中通過對信息包的處理來實現(xiàn)對元數(shù)據(jù)的靈活管理。

4結(jié)語

總體而言,元數(shù)據(jù)是數(shù)字檔案資源長期保留的重要局部,有效維護數(shù)字檔案資源真實性、完整性、平安性和可獲取性。同時,以保留元數(shù)據(jù)為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論