數(shù)字圖書(shū)館數(shù)字化信息管理的研究與實(shí)現(xiàn)_第1頁(yè)
數(shù)字圖書(shū)館數(shù)字化信息管理的研究與實(shí)現(xiàn)_第2頁(yè)
數(shù)字圖書(shū)館數(shù)字化信息管理的研究與實(shí)現(xiàn)_第3頁(yè)
數(shù)字圖書(shū)館數(shù)字化信息管理的研究與實(shí)現(xiàn)_第4頁(yè)
數(shù)字圖書(shū)館數(shù)字化信息管理的研究與實(shí)現(xiàn)_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)字圖書(shū)館數(shù)字化信息管理的研究與實(shí)現(xiàn)

1系統(tǒng)平穩(wěn)運(yùn)行的原則數(shù)字圖書(shū)館已經(jīng)成為國(guó)家信息基礎(chǔ)設(shè)施的重要組成部分。目標(biāo)是“所有能夠在任何時(shí)間和地點(diǎn)之間使用數(shù)字設(shè)備的人都可以訪問(wèn)人類所有的知識(shí)。”。如何將海量的數(shù)字化信息變成可便捷網(wǎng)絡(luò)訪問(wèn)的知識(shí),將是當(dāng)前和未來(lái)數(shù)字圖書(shū)館研究的熱點(diǎn)和重點(diǎn)。在過(guò)去的幾年中,本文作者和所在的實(shí)驗(yàn)室承擔(dān)了“中美百萬(wàn)冊(cè)數(shù)字圖書(shū)館”項(xiàng)目、科技部國(guó)際合作計(jì)劃項(xiàng)目《中美百萬(wàn)冊(cè)數(shù)字圖書(shū)館支撐軟件平臺(tái)》和“211工程”《CADAL北方技術(shù)中心技術(shù)支撐環(huán)境建設(shè)》等一系列課題。在這些項(xiàng)目的研發(fā)中逐漸認(rèn)識(shí)到:若要推動(dòng)Web數(shù)字圖書(shū)館由海量的“信息庫(kù)”向真正意義上的“知識(shí)庫(kù)”轉(zhuǎn)變,必須存在一個(gè)高效的圖書(shū)資源管理系統(tǒng),以支持整個(gè)數(shù)字圖書(shū)館系統(tǒng)的平穩(wěn)運(yùn)行。CADAL項(xiàng)目采用了一批當(dāng)前數(shù)字圖書(shū)館和情報(bào)學(xué)流行的技術(shù)標(biāo)準(zhǔn),如電子書(shū)制作中采用的都柏林元數(shù)據(jù)(DublinCoreMetadata)、開(kāi)放式電子書(shū)(OpenElectronicBook,簡(jiǎn)稱OEB)OEB1.0標(biāo)準(zhǔn)以及XML語(yǔ)言技術(shù)等,從設(shè)計(jì)原理上保證了數(shù)字圖書(shū)資源管理的可行性,并在系統(tǒng)設(shè)計(jì)中加以應(yīng)用。2標(biāo)準(zhǔn)的林元數(shù)據(jù)參考參數(shù)和oeb1.0商業(yè)基準(zhǔn)2.1信息集的利用1995年3月,該標(biāo)準(zhǔn)是由聯(lián)機(jī)計(jì)算機(jī)圖書(shū)館中心OCLC(OnlineComputerLibraryCenter,簡(jiǎn)稱OCLC)與國(guó)家超級(jí)計(jì)算應(yīng)用中心(NCSA)聯(lián)合發(fā)起,52位來(lái)自圖書(shū)館界、電腦網(wǎng)絡(luò)界專家共同研究產(chǎn)生的,用于描述圖書(shū)基本檢索信息的信息集。DC元數(shù)據(jù)擴(kuò)展性好、語(yǔ)法簡(jiǎn)單、能描述較為復(fù)雜的語(yǔ)義,并能與XML充分結(jié)合,非常適合計(jì)算機(jī)的處理。DC含有15項(xiàng)元素:題名(Title)、主題(Subject)、說(shuō)明(Description)、語(yǔ)種(Language)、來(lái)源(Source)、關(guān)聯(lián)(Relation)、覆蓋范圍(Coverage)、創(chuàng)建者(Creator)、出版者(Publisher)、其他責(zé)任者(Contributors)、權(quán)限(Rights)、日期(Date)、類型(Type)、標(biāo)識(shí)(Identifier)和格式(Format)。2.2cadal圖書(shū)資源管理系統(tǒng)的組織模式OEB1.0綜合采用HTML和XML作為電子書(shū)文件格式,一本電子書(shū)的元數(shù)據(jù)及內(nèi)容按照OEB標(biāo)準(zhǔn)制作成OEB文檔。應(yīng)用程序可以通過(guò)每個(gè)數(shù)字對(duì)象的OEB文檔獲得元數(shù)據(jù)和內(nèi)容。OEB包文件的主要組成部分包括:Packageidentity(包標(biāo)識(shí)):將OEB視作一個(gè)整體的唯一標(biāo)識(shí)符;Metadata(元數(shù)據(jù)):有關(guān)出版物的元數(shù)據(jù)(標(biāo)題、作者、出版商等);Manifest(文件清單):組成某個(gè)出版物的所有文件(包括文檔、圖形、樣式表等);Spine(書(shū)脊):可提供線性閱讀次序的一種文檔排列;Tours(導(dǎo)讀):出版物的一組閱讀序列,如適于各種讀者閱讀技巧水平的可選擇性視圖;Guide(指南):有關(guān)出版物基本結(jié)構(gòu)的一系列指引信息,比如版權(quán)、前言以及目錄等。據(jù)此,CADAL電子書(shū)的組織模式的設(shè)計(jì)如圖1所示。每?jī)?cè)電子書(shū)中OTIFF存放原始掃描的TIFF格式圖片文件,PTIFF存放去噪去污后可供讀者直接閱讀的圖片文件;MARC存放下載的USMARC格式的元數(shù)據(jù)記錄;HTML存放與圖像內(nèi)容一致的網(wǎng)頁(yè)格式的文本,用于讀者粘貼復(fù)制圖書(shū)信息;TOC中存放電子書(shū)的閱讀目錄文件;META存放都柏林格式的圖書(shū)元數(shù)據(jù)信息,以XML文件記載,該元數(shù)據(jù)用于導(dǎo)入CADAL圖書(shū)館數(shù)據(jù)庫(kù)中。OEB存放與電子圖書(shū)閱讀有關(guān)的文件。OEBbrowser.html是自動(dòng)生成的電子圖書(shū)閱讀器的啟動(dòng)文件。CADAL圖書(shū)資源管理系統(tǒng)解決了圖書(shū)重復(fù)加工,實(shí)現(xiàn)了電子書(shū)的精確管理以及備份容災(zāi)系統(tǒng)的建立等一系列任務(wù),順利銜接了CADAL加工系統(tǒng)和CADAL發(fā)布系統(tǒng)的運(yùn)行(如圖2所示,深色部分是本文研究?jī)?nèi)容,淺色部分非本文研究部分)。圖2展示了CADAL圖書(shū)資源管理系統(tǒng)的在整個(gè)CADAL圖書(shū)館中的功能:紙質(zhì)圖書(shū)經(jīng)過(guò)電子書(shū)查重的信息篩選,進(jìn)入CADAL加工系統(tǒng)進(jìn)行數(shù)字化;元數(shù)據(jù)入庫(kù)軟件將電子書(shū)的元數(shù)據(jù)信息和存儲(chǔ)地址信息提取到CADAL發(fā)布系統(tǒng)數(shù)據(jù)庫(kù),實(shí)現(xiàn)CADAL電子書(shū)的精確信息管理;在發(fā)布系統(tǒng)電子書(shū)更新擴(kuò)充的同時(shí),完成電子書(shū)的數(shù)據(jù)鏡像和數(shù)據(jù)備份,利用備份映射工具,建立精確定位電子書(shū)的備份系統(tǒng),從而保障CADAL發(fā)布系統(tǒng)的安全運(yùn)行。本文中,將CADAL圖書(shū)資源管理系統(tǒng)整體構(gòu)架拆開(kāi)成若干子功能模塊:設(shè)計(jì)了有針對(duì)性的電子書(shū)查重工具;利用DC元數(shù)據(jù)信息表述規(guī)則和XML在網(wǎng)絡(luò)信息交互的便捷,設(shè)計(jì)了元數(shù)據(jù)入庫(kù)軟件和CADAL數(shù)據(jù)庫(kù);參照OEB1.0中Packageidentity(包標(biāo)識(shí))的詮釋,利用電子書(shū)存儲(chǔ)地址與標(biāo)識(shí)符之間的映射關(guān)系搭建起CADAL備份系統(tǒng),設(shè)計(jì)電子書(shū)備份映射軟件。從而建立其圖書(shū)信息到元數(shù)據(jù)描述、關(guān)系模型之間的映射和實(shí)現(xiàn)海量信息的精確管理。3cd在c/s訪問(wèn)模式查重模式CADAL是一個(gè)大型圖書(shū)數(shù)字化工程,同名的圖書(shū)如何避免重復(fù)加工?不同的申請(qǐng)加工單位對(duì)于同一本圖書(shū)的加工申請(qǐng),如何確認(rèn)加工優(yōu)先權(quán)?結(jié)合CADAL工程實(shí)際情況,本文認(rèn)為電子書(shū)查重的難度是:(1)加工源的多樣:加工圖書(shū)來(lái)源于美國(guó)大學(xué)圖書(shū)館和國(guó)內(nèi)數(shù)十個(gè)高校圖書(shū)館。(2)加工量的龐大:在CADAL項(xiàng)目中,光英文圖書(shū)就總計(jì)達(dá)20萬(wàn)冊(cè)。CADAL英文圖書(shū)來(lái)源于美國(guó)方面和中國(guó)高校的自有英文資源。美國(guó)方面的圖書(shū)約17萬(wàn)冊(cè);國(guó)內(nèi)十幾家大學(xué)的館藏圖書(shū),量小且館間擁有圖書(shū)的重復(fù)率高。故查重工作的開(kāi)始要判斷圖書(shū)來(lái)源,如果屬于美方,宜采用高效快捷C/S訪問(wèn)模式查重;如否,則采用實(shí)時(shí)性強(qiáng)的B/S訪問(wèn)模式進(jìn)行查重,查重后的圖書(shū)統(tǒng)一進(jìn)入加工系統(tǒng),其流程如圖3所示。兩種查重模式結(jié)合,使CADAL項(xiàng)目避免資源和人力的巨大浪費(fèi)。圖書(shū)經(jīng)查重工具過(guò)濾后,加工重復(fù)率不超過(guò)0.01%。在C/S模式的查重工具中,信息篩選的SQL語(yǔ)句是“delete*fromCwhereC.titlein(selectC.titlefromC,SwhereC.title=S.title)”,C是申請(qǐng)加工圖書(shū)的數(shù)據(jù)庫(kù)書(shū)名表,S是CADAL發(fā)布系統(tǒng)數(shù)據(jù)庫(kù)的書(shū)名表,title是書(shū)名字段。該SQL語(yǔ)句的作用是在申請(qǐng)加工的圖書(shū)書(shū)名表中刪除已加工的圖書(shū)信息,則產(chǎn)生的新表是可以加工的圖書(shū)信息。同時(shí),查重還支持按作者名的信息查重:“delete*fromCwhereC.creatorin(selectC.creatorfromC,SwhereC.creator=S.creator)”。由于按作者名查重可能刪除很多作者相同、書(shū)名不同的圖書(shū)信息,故此查重語(yǔ)言只在影印版重復(fù)率較高的書(shū)源中才得以采用,圖4是C/S模式的查重工具的界面。4模型構(gòu)建功能元數(shù)據(jù)入數(shù)據(jù)庫(kù)是CADAL數(shù)字圖書(shū)館管理系統(tǒng)中最重要的部分,它利用都柏林元數(shù)據(jù)信息描述準(zhǔn)確,簡(jiǎn)練的特點(diǎn),以及XML強(qiáng)大的網(wǎng)絡(luò)信息交互能力,從而建立了CADAL電子書(shū)信息模型、CADAL元數(shù)據(jù)描述、數(shù)據(jù)庫(kù)關(guān)系模型之間的信息映射,達(dá)到了海量數(shù)字化信息精確管理的目的。4.1cadal元數(shù)據(jù)的入庫(kù)XML是一個(gè)精簡(jiǎn)的SGML,在網(wǎng)絡(luò)信息交互與存儲(chǔ)中發(fā)揮越來(lái)越大的作用,它具有網(wǎng)絡(luò)信息交換便捷、準(zhǔn)確的特點(diǎn)。在CADAL電子書(shū)的META目錄中,元數(shù)據(jù)的保存格式采用了基于XML1.0規(guī)范的Schema。CADAL元數(shù)據(jù)入庫(kù)設(shè)計(jì)的實(shí)質(zhì)是用可讀性良好的XML解析器,將元數(shù)據(jù)信息轉(zhuǎn)換成信息樹(shù),利用DOM(DocumentObjectModel,簡(jiǎn)稱DOM)將信息移交CADAL數(shù)據(jù)庫(kù)。元數(shù)據(jù)入庫(kù)軟件的原理如圖5所示。4.2海量數(shù)字圖書(shū)編碼模塊設(shè)計(jì)元數(shù)據(jù)是一種有效的信息資源組織和管理編碼體系,是數(shù)字圖書(shū)館重要的技術(shù)標(biāo)準(zhǔn),離開(kāi)元數(shù)據(jù)的數(shù)字圖書(shū)館將是一盤散沙,將無(wú)法提供有效的檢索和處理。元數(shù)據(jù)信息是如何通過(guò)元數(shù)據(jù)入庫(kù)軟件載入數(shù)據(jù)庫(kù),從而實(shí)現(xiàn)海量數(shù)字圖書(shū)信息的精確管理的呢?該軟件的算法模塊按功能分為解析器、適配器、事務(wù)管理和存儲(chǔ)管理四個(gè)部分(如圖6所示):XML解析器的服務(wù)接口模塊提供元數(shù)據(jù)入庫(kù)的API;適配器管理負(fù)責(zé)電子書(shū)的XML數(shù)據(jù)源和數(shù)據(jù)表信息之間的轉(zhuǎn)換;事務(wù)管理負(fù)責(zé)處理多個(gè)XML文件對(duì)元數(shù)據(jù)入庫(kù)工具的并發(fā)訪問(wèn);存儲(chǔ)管理是該入庫(kù)工具的核心,合理有效地組織XML對(duì)象管理和操作,實(shí)現(xiàn)元數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)。雜亂無(wú)章的電子書(shū)成品,通過(guò)對(duì)每?jī)?cè)電子書(shū)META目錄下的dc.xml元數(shù)據(jù)信息提取,導(dǎo)入相同信息項(xiàng)的數(shù)據(jù)庫(kù)中,實(shí)現(xiàn)了電子書(shū)的精確管理。5數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì)5.1數(shù)據(jù)庫(kù)的實(shí)現(xiàn)XML盡管具有諸多優(yōu)點(diǎn),但依然存在不足,比如XML遠(yuǎn)不如SQL操縱數(shù)據(jù)庫(kù)那么簡(jiǎn)單。我們做一測(cè)試,一個(gè)實(shí)驗(yàn)環(huán)境是Oracle運(yùn)行于SunSPARCStation20臺(tái)式機(jī)上;另一環(huán)境是MicrosoftJava虛擬機(jī)運(yùn)行于Pentium4臺(tái)式機(jī)。比較兩個(gè)數(shù)據(jù)庫(kù)完成查詢、插入、修改等操作的耗時(shí)情況。從表1可以看出,XML在處理規(guī)模稍大的數(shù)據(jù)時(shí)比SQL數(shù)據(jù)庫(kù)要慢很多。在大型網(wǎng)站,XML數(shù)據(jù)庫(kù)的查詢響應(yīng)速度是無(wú)法接受的。故SQL關(guān)系型數(shù)據(jù)庫(kù)為CADAL發(fā)布系統(tǒng)的選擇。5.2數(shù)據(jù)庫(kù)多表設(shè)計(jì)CADAL發(fā)布系統(tǒng)的信息檢索以圖書(shū)元數(shù)據(jù)作為檢索項(xiàng)。為了最大可能地節(jié)省查詢時(shí)間,數(shù)據(jù)表的設(shè)計(jì)采用了“多表+表內(nèi)單字段+表表間相同字段關(guān)聯(lián)”的理念。即每張數(shù)據(jù)表,只設(shè)計(jì)與該表有關(guān)的信息,多余信息不加設(shè)計(jì),利用identifier的唯一性,作為表表之間的關(guān)聯(lián)字段。CADAL數(shù)據(jù)表的設(shè)計(jì)情況如圖7所示。(1)Creator表含有創(chuàng)建者(Creator)、標(biāo)識(shí)(Identifier)兩個(gè)字段。(2)Date表含有日期(Date)、標(biāo)識(shí)(Identifier)兩個(gè)字段。(3)Description表含有說(shuō)明(Description)、標(biāo)識(shí)(Identifier)兩個(gè)字段。(4)Publisher表含有出版者(Publisher)、標(biāo)識(shí)(Identifier)兩個(gè)字段。(5)Subject表含有主題(Subject)、標(biāo)識(shí)(Identifier)兩個(gè)字段。(6)Book表做為總表,包含都柏林元數(shù)據(jù)的15項(xiàng)。數(shù)據(jù)庫(kù)多表設(shè)計(jì)的優(yōu)點(diǎn)是,避免了在一個(gè)數(shù)據(jù)表里響應(yīng)客戶端的查詢請(qǐng)求,多表分散查詢能減輕主數(shù)據(jù)表的壓力。尤其在大型網(wǎng)站的訪問(wèn)高峰期,大數(shù)據(jù)量的訪問(wèn)請(qǐng)求常常會(huì)造成服務(wù)器死機(jī)。網(wǎng)站運(yùn)行的結(jié)果證明,CADAL數(shù)據(jù)庫(kù)多表關(guān)聯(lián)的設(shè)計(jì)是十分必要的。CADAL數(shù)據(jù)庫(kù)的E-R圖如圖8所示。5.3retor字段內(nèi)的作者身份每?jī)?cè)電子書(shū)中,都有如下的XML記錄:元數(shù)據(jù)入庫(kù)軟件會(huì)根據(jù)都柏林標(biāo)準(zhǔn),將<Title>表述的信息載入數(shù)據(jù)庫(kù)Book表中Title字段內(nèi),將<Creator>表述的信息載入數(shù)據(jù)庫(kù)Creator表中Creator字段內(nèi),以此類推。當(dāng)讀者發(fā)出作者是“E.BRETSCHNEIDER”的圖書(shū)查詢時(shí),數(shù)據(jù)庫(kù)會(huì)首先在Creator表中確認(rèn)作者是“E.BRETSCHNEIDER”的identifer是31007024;然后于Book表中找到identifier31007024信息項(xiàng)中的Path字段(Book表的Path字段記錄了電子書(shū)的物理存儲(chǔ)地址信息)內(nèi)容是“CMU\99è07024”,于是數(shù)據(jù)庫(kù)將“Path=CMU\99è07024”的信息在CADAL發(fā)布系統(tǒng)中建立起的完整網(wǎng)絡(luò)訪問(wèn)地址,作為查詢響應(yīng)返回給讀者。6電子書(shū)預(yù)備6.1cadal備份系統(tǒng)CADAL是總數(shù)據(jù)量達(dá)150TB的大型數(shù)字圖書(shū)館,分建南北兩個(gè)數(shù)據(jù)中心,北方中心架設(shè)在中科院研究生院,南方中心座落于浙江大學(xué)。兩個(gè)中心的海量數(shù)據(jù)鏡像、中美數(shù)據(jù)遷移以及電子書(shū)檢查后處理,都經(jīng)過(guò)CADAL的電子書(shū)數(shù)據(jù)管理的數(shù)據(jù)傳輸通道,如圖9所示。中美數(shù)據(jù)遷移利用中科院網(wǎng)絡(luò)中心的超級(jí)數(shù)據(jù)服務(wù)器(SDB6800),建立了中美數(shù)據(jù)傳輸通道。專門開(kāi)辟2TB的儲(chǔ)存空間用于中美之間數(shù)據(jù)交換的緩沖區(qū),日均數(shù)據(jù)交換量約30GB,其中國(guó)際(美國(guó)下載數(shù)據(jù))網(wǎng)絡(luò)流量日均15G字節(jié),國(guó)內(nèi)網(wǎng)絡(luò)流量(數(shù)據(jù)上載)日均14GB,月數(shù)據(jù)流量800GB,保證了項(xiàng)目數(shù)據(jù)交換的需要。CADAL備份系統(tǒng),選取光盤和硬盤做為備份媒介,保證了CADAL信息備份的完整性。硬盤攜帶信息量最大,讀取速度快。光盤便于長(zhǎng)久保存信息,攜帶方便。對(duì)于數(shù)據(jù)崩潰的極端情況,可以直接在備份系統(tǒng)的光盤或硬盤中找到損失的電子書(shū),補(bǔ)充CADAL發(fā)布系統(tǒng)中丟失的電子書(shū)數(shù)據(jù),恢復(fù)發(fā)布系統(tǒng)的知識(shí)服務(wù)。那么,如何在備份系統(tǒng)中找到丟失數(shù)據(jù)的存儲(chǔ)地址呢?CADAL有20萬(wàn)冊(cè)英文電子書(shū),需要的存儲(chǔ)空間是28TByte,數(shù)據(jù)備份在260多塊硬盤和7000余張DVD中。假設(shè)沒(méi)有任何備份索引工具,則電子書(shū)備份的搜索會(huì)象大海撈針一樣的困難。因此,備份不但要求全面性,更要考慮備份檢索的快捷,沒(méi)有一個(gè)備份存儲(chǔ)映射工具,CADAL備份系統(tǒng)是毫無(wú)用處的。6.2備份存儲(chǔ)信息的分析電子書(shū)的標(biāo)識(shí)Identifier是唯一的,建立起圖書(shū)標(biāo)識(shí)符—圖書(shū)光盤存儲(chǔ)地址—圖書(shū)硬盤存儲(chǔ)地址的映射關(guān)系,通過(guò)備份映射工具實(shí)現(xiàn)電子書(shū)的備份快速查找。如圖10所示,Batch是圖書(shū)加工的批次,HardDisk錄入電子書(shū)備份存儲(chǔ)的硬盤編號(hào),DVD

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論