信息與文獻 網(wǎng)絡存檔的統(tǒng)計和質(zhì)量問題_第1頁
信息與文獻 網(wǎng)絡存檔的統(tǒng)計和質(zhì)量問題_第2頁
信息與文獻 網(wǎng)絡存檔的統(tǒng)計和質(zhì)量問題_第3頁
信息與文獻 網(wǎng)絡存檔的統(tǒng)計和質(zhì)量問題_第4頁
信息與文獻 網(wǎng)絡存檔的統(tǒng)計和質(zhì)量問題_第5頁
已閱讀5頁,還剩52頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

ICS01.140.20

CCSA14

GB/Z××××—××××/ISO/TR14873:2013(E)

信息與文獻網(wǎng)絡存檔的統(tǒng)計和質(zhì)量問題

Informationanddocumentation—Statisticsandqualityissues

forwebarchiving

(ISO/TR14873:2013(E),IDT)

(征求意見稿)

(本稿完成日期:2023年7月11日)

××××-××-××發(fā)布

××××-××-××實施

GB/Z××××—××××/ISO/TR14873:2013(E)

前言

本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定

起草。

本文件使用翻譯法等同采用ISO14873:2013(E)《信息與文獻——網(wǎng)絡存檔的統(tǒng)計和質(zhì)量問題》。

本文件由全國信息與文獻標準化技術(shù)委員會(SAC/TC4)提出并歸口。

本文件起草單位:中國科學院文獻情報中心、國家圖書館、中國科學院檔案館、北京大學圖書館。

本文件主要起草人:吳振新、張冬榮、潘亞男、敦文杰、朱佳麗、曲云鵬、孫超、謝靖、付鴻鵠、

單嵩巖、薛杰、吳欣雨、孔貝貝、胡吉穎、陳子俊。

III

GB/Z××××—××××/ISO/TR14873:2013(E)

引言

本文件是為了指導我國Web存檔活動與產(chǎn)品的管理和評估而制定。

Web存檔指隨著時間推移,對互聯(lián)網(wǎng)資源的快照進行選擇、抓取、存儲、保存和訪問管理的活動。

20世紀90年代末,人們預見到互聯(lián)網(wǎng)資源存檔將成為未來研究、商業(yè)和政府的重要記錄,開始實施

Web存檔活動?;ヂ?lián)網(wǎng)資源被視為文化遺產(chǎn)的一部分,應該像印本那樣得到保存。許多參與Web存檔

的機構(gòu)將此視為保護國家文化遺產(chǎn)這一長期使命的延伸,且受到許多國家立法框架如法定呈繳制度的認

可和支持。

互聯(lián)網(wǎng)上提供多種類型的資源,包括文本、圖片、電影、音頻及其他多媒體格式的資源。除了相互

鏈接的Web頁面外,還有通過使用各種傳輸與通信協(xié)議提供的新聞組、時事通訊、博客和交互式服務

(如游戲)。Web存檔通過采集軟件對互聯(lián)網(wǎng)資源副本進行自動采集(通常是定期執(zhí)行)。Web存檔的

目標是實現(xiàn)資源的回放,包括內(nèi)在關(guān)聯(lián),例如通過超文本鏈接,盡可能呈現(xiàn)出與原始環(huán)境中一樣的效果。

Web存檔的主要目標是盡可能地按原始狀態(tài)永久保存Web記錄,以滿足各種學術(shù)、專業(yè)和私人用途。

Web存檔是一項新興但不斷擴展的活動,需要持續(xù)引入新方法和工具以與快速發(fā)展的Web技術(shù)保持

同步。由于存檔機構(gòu)對戰(zhàn)略重要性的認識、可采用方式以及法律要求的不同,導致出現(xiàn)了多種互聯(lián)網(wǎng)資

源的存檔方法,存檔范圍涉及單個Web頁面抓取到全部頂級域抓取。不同組織的Web存檔成熟度等級

也不同,對于某些組織來說,Web存檔已成為其常規(guī)業(yè)務活動,而有些組織則針對這項挑戰(zhàn)剛剛啟動

試驗計劃。

根據(jù)采集的規(guī)模和目的,Web存檔策略可以分為兩大類:批量采集和選擇性采集。大規(guī)模的批量采

集,如國家域采集,旨在抓取整個域(或其子集)的快照。選擇性采集的規(guī)模則小得多,采集更集中且

更頻繁,經(jīng)常是依據(jù)某項規(guī)則執(zhí)行,例如,主題、事件、格式(如音頻或視頻文件)或與內(nèi)容所有者之

間的協(xié)議。這兩種策略的關(guān)鍵區(qū)別在于質(zhì)量控制程度,即對所采集網(wǎng)站進行評估以確定是否達到預定義

的質(zhì)量標準。域采集的規(guī)模(如此之大)使得無法通過人工對所采集的資源和該資源的實時版本進行任

何人工比對,而該方式在選擇性采集中則是一種常用的質(zhì)量保證方法。

本文件旨在證明Web存檔作為廣義文化遺產(chǎn)資源集合的一部分,可以基于傳統(tǒng)的圖書館工作流,用

類似的和兼容的方式進行評估和管理。本文件闡述了資源集合建設、表征、描述、保存、使用和組織結(jié)

構(gòu),同時表明,盡管在實踐中需要做出調(diào)整,但傳統(tǒng)資源集合管理工作流的大多數(shù)方面原則上仍然適用

于Web存檔。

本文件概述了Web存檔的現(xiàn)狀,重點給出了Web存檔統(tǒng)計數(shù)據(jù)和質(zhì)量指標的定義和使用。一些統(tǒng)

計數(shù)據(jù)的產(chǎn)生依賴于所使用的采集、索引或瀏覽軟件,選擇不同的軟件可能會導致結(jié)果的差異。但是本

文件并沒有給定特別認可或推薦的軟件,而是提供一組指標來幫助評估Web存檔的總體性能和質(zhì)量。

IVGB/Z××××—××××/ISO/TR14873:2013(E)

信息與文獻網(wǎng)絡存檔的統(tǒng)計和質(zhì)量問題

1范圍

本文件為Web存檔定義了統(tǒng)計數(shù)據(jù)、術(shù)語和質(zhì)量標準。本文件考慮了圖書館、檔案館、博物館、

研究中心和文化遺產(chǎn)基金會等眾多機構(gòu)組織的需求和實踐。所提及的事例來自于圖書館行業(yè),因為在法

定呈繳的情況下圖書館(尤其是國家圖書館)承擔了Web存檔的任務。但這不能消除非圖書館機構(gòu)的重

要貢獻,也不會降低本文件對文化遺產(chǎn)保存機構(gòu)和存檔專業(yè)人員的主要適用性。

本文件面向直接參與Web存檔的專家,通常是由圖書館和檔案館的館長、工程師和管理人員組成

的團隊。對Web存檔機構(gòu)的資助機構(gòu)和利益相關(guān)方也同樣有用。本文件使用的專業(yè)術(shù)語試圖能夠表達

受眾所擁有的廣泛興趣和專業(yè)知識,并在計算機科學、管理和圖書館學之間達到平衡。

本文件不考慮學術(shù)和商業(yè)電子資源的管理,如電子期刊、電子報紙或電子書,這些資源通常使用不

同的管理系統(tǒng)單獨存儲和處理。它們雖然被視為互聯(lián)網(wǎng)資源,但在本文件中不作為Web存檔的特定內(nèi)

容流進行闡述。一些組織還采集通過Web分發(fā)的電子文檔,即通過出版商的電子存儲庫和倉儲系統(tǒng),這

些內(nèi)容也不在本文件的闡述范圍。這類采集使用的原理和技術(shù)與Web存檔有很大不同;適用于前者的

統(tǒng)計數(shù)據(jù)和質(zhì)量指標不一定適用于后者。

最后,本文件專注于Web存檔的原理和方法,不包括其他采集互聯(lián)網(wǎng)資源的方式。事實上,一些

互聯(lián)網(wǎng)資源,尤其是那些不在Web上傳播的資源(如以電子郵件形式傳播的通訊),不是通過Web存

檔技術(shù)采集的,而是通過本文件未描述或分析的其他方式采集的。

2術(shù)語和定義

以下術(shù)語與定義適用于本文件。

2.1

訪問access

圖書館提供的在線服務的成功請求。

注1:一次訪問是用戶活動的一個周期,通常從用戶連接到圖書館提供的在線服務時開始,并以顯式(通過注銷或

退出離開數(shù)據(jù)庫)或隱式(由于用戶不活動而導致超時)的終止活動結(jié)束。

注2:對圖書館網(wǎng)站的訪問被視為虛擬訪問。

注3:不包括通用入口或網(wǎng)關(guān)頁面的請求。

注4:盡可能地不包括搜索引擎發(fā)起的請求。

[來源:ISO2789:2013,2.2.1]

2.2

訪問工具accesstool

用于查找、檢索和回放存檔互聯(lián)網(wǎng)資源的專業(yè)軟件。

注1:該工具可通過組合運行多個獨立軟件包實現(xiàn)。

2.3

管理元數(shù)據(jù)administrativemetadata

1

GB/Z××××—××××/ISO/TR14873:2013(E)

妥善管理存儲庫中數(shù)字對象所必需的信息。

注1:管理元數(shù)據(jù)可分為以下幾類:

——上下文或溯源元數(shù)據(jù):描述資源截止到某一時間點的生命周期,包括相關(guān)的實體和過程,如配置和日志文件;

——技術(shù)元數(shù)據(jù):描述數(shù)字對象的技術(shù)特征,例如其格式;

——權(quán)限元數(shù)據(jù):定義對象的所有權(quán)和合法使用權(quán)限。

2.4

存檔archive

Web存檔。

隨著時間的推移,從Web上抓取到的全部資源,包括一個或多個集合。

2.5

比特流bitstream

構(gòu)成數(shù)字文件的由0和1組成的序列。

2.6

預設(抓?。゜udget(crawl)

與一次抓取或單個種子相關(guān)的限制,能用如文件數(shù)量、數(shù)據(jù)體量或爬蟲設置中定義的每次抓取所花

費的時間來表示。

2.7

批量抓取bulkcrawl

批量采集。

旨在采集單個或多個頂級域或子集的全部內(nèi)容的抓取行為。

注1:與選擇性抓取相比,批量抓取的范圍更廣,通常執(zhí)行的頻率更低。

注2:批量抓取通常會產(chǎn)生大規(guī)模的Web存檔,導致無法進行細致的質(zhì)量檢驗,通常通過抽樣的方式進行質(zhì)量檢驗。

2.8

抓取實例capture

實例。

在某個時間點抓取的資源的副本。

注1:如果同一資源在不同日期被抓取了三次,就會有三個抓取實例。

2.9

資源集合collection

Web存檔資源集合。

一組緊密關(guān)聯(lián)的資源。

注1:一個資源集合可以在采集前專門選定(例如按照事件或主題),也可以從存檔的可用資源中回溯匯集。

注2:Web存檔可由一個或多個資源集合組成。

2.10

抓取crawl

采集。

使用爬蟲瀏覽和復制資源的過程。

注1:抓取可分為批量抓取或選擇性抓取。

2.11

抓取設置crawlsettings

抓取參數(shù)。

界定應采集哪些資源以及每組種子所需的頻率和深度。

注1:抓取設置還包括爬蟲禮儀(每秒或每分鐘發(fā)送到資源所在主機服務器的請求數(shù))、遵守robots.txt及用于

排除爬蟲陷阱的過濾器。

2GB/Z××××—××××/ISO/TR14873:2013(E)

2.12

爬蟲crawler

采集器。

存檔爬蟲。

已棄用:蜘蛛程序。

一種可以連續(xù)請求URL并解析結(jié)果資源以獲取更多URL的軟件。

注1:資源的存儲和URI的丟棄都需要遵循一套預定義的規(guī)則[參見抓取設置(2.11)和范圍(抓?。?.40)]。

2.13

爬蟲陷阱crawlertrap

可導致爬蟲崩潰或無休止跟蹤指向其他低價值或無價值資源的Web頁面(或其系列)。

注1:爬蟲陷阱可能是為了防止爬蟲采集資源故意設置的。爬蟲陷阱也可能在不經(jīng)意間發(fā)生,例如,當爬蟲無休止

跟蹤日歷的日期時。

2.14

保存管理工具curatortool

運行在Web爬蟲上并支持采集過程的應用程序。

注1:核心功能是管理目標對象以及相關(guān)的描述性元數(shù)據(jù)和管理元數(shù)據(jù),還可包括用于調(diào)度和質(zhì)量控制的組件。

2.15

數(shù)據(jù)挖掘datamining

通過從不同的角度和維度分析定量數(shù)據(jù)、對其進行分類以及總結(jié)潛在關(guān)系和影響來提取模式的計算

過程。

[來源:ISO16439:—,3.13]

2.16

深度萬維網(wǎng)deepWeb

已棄用:隱蔽網(wǎng)。

已棄用:不可見網(wǎng)。

不能被搜索引擎抓取和索引的部分Web,特指由動態(tài)生成的資源或受密碼保護的資源組成的Web。

2.17

描述性元數(shù)據(jù)descriptivemetadata

描述數(shù)字對象知識性內(nèi)容的信息。

2.18

域名domainname

由域名系統(tǒng)(DNS)的規(guī)則和程序定義的標識字符串,該標識字符串規(guī)定了在互聯(lián)網(wǎng)上的管理自治、

授權(quán)或控制領(lǐng)域。

2.19

域名系統(tǒng)domainnamesystem,DNS

用于標識連接到互聯(lián)網(wǎng)的實體的分層分布式全局命名系統(tǒng)。

注1:頂級域(TLD)是層次結(jié)構(gòu)中最高的。

2.20

仿真emulation

利用當前計算機系統(tǒng)上的軟件(稱為仿真器)再現(xiàn)過時系統(tǒng)的功能和行為。

注1:仿真是一種主要的數(shù)字保存策略。

2.21

主機host

3

GB/Z××××—××××/ISO/TR14873:2013(E)

URI中用來命名內(nèi)容的網(wǎng)絡來源部分。

注1:主機通常是如的域名,或如的子域。

2.22

超文本標記語言HypertextMarkupLanguage,HTML

Web頁面的主要標記語言,由用于向原始文本添加結(jié)構(gòu)和語義信息的元素組成。

2.23

超文本傳輸協(xié)議HypertextTransferProtocol,HTTP

用于在Web上傳輸信息的客戶端/服務端通信協(xié)議。

2.24

超鏈接hyperlink

鏈接。

用于在互聯(lián)網(wǎng)上鏈接信息的關(guān)系結(jié)構(gòu)。

2.25

垃圾信息junk

被視為無關(guān)的或無長期價值的未被要求保存的內(nèi)容。

注1:有意的垃圾信息通常用于操縱搜索引擎索引。當爬蟲掉入爬蟲陷阱時,也會無意地生成垃圾信息。

注2:一般來說,采集機構(gòu)會盡量避免采集垃圾信息,以便資源能用于采集“好”資源。然而,有些機構(gòu)會保留一小部

分樣本作為Web記錄的一部分。

2.26

鏈接挖掘linkmining

側(cè)重于從超鏈接中提取模式和啟發(fā)式方法的處理和分析,如繪制網(wǎng)絡圖。

2.27

實時Web泄漏liveWebleakage

呈現(xiàn)存檔資源時的常見問題,當存檔資源中的鏈接解析為實時站點上的當前資源而不是Web存檔

中的存檔版本時,會出現(xiàn)此問題。

注1:當存檔Web頁面上的腳本繼續(xù)引用并成功請求存檔呈現(xiàn)中的實時Web資源時,也會發(fā)生實時Web泄漏。例

如,這可能會導致實時Web社交媒體源或視頻流顯示在存檔的Web頁面中。

2.28

日志文件logfile

由維護其活動記錄的服務器自動創(chuàng)建的文件。

2.29

元數(shù)據(jù)metadata

描述數(shù)字對象的上下文、內(nèi)容和結(jié)構(gòu)及其隨時間推移的管理信息的數(shù)據(jù)。

注1:元數(shù)據(jù)可以分為描述性元數(shù)據(jù)、結(jié)構(gòu)性元數(shù)據(jù)和管理元數(shù)據(jù)。

[來源:ISO15489-1:2001,2.12]

2.30

遷移migration

為了保持數(shù)字對象的可訪問性,將舊的或過時的文件格式轉(zhuǎn)換為較新的或當前的文件格式。

注1:遷移是一種主要的保存策略。

[來源:ISO15489-1:2001,3.13]

2.31

MIME類型MIMEtype

互聯(lián)網(wǎng)媒體類型。

內(nèi)容類型。

4GB/Z××××—××××/ISO/TR14873:2013(E)

互聯(lián)網(wǎng)文件格式的兩部分標識符。

注1:MIME(MultipurposeInternetMailExtensions,多用途互聯(lián)網(wǎng)郵件擴展)使用由類型和子類型組成的內(nèi)容

類型頭來指示資源的格式,如image/jpeg。

2.32

備選資源nomination

被考慮包含在Web存檔中的候選資源。

2.33

頁面page

Web頁面。

結(jié)構(gòu)化資源,除人類可讀的內(nèi)容之外,還包含與其他資源的零個或多個關(guān)系,通過URL來標識。

2.34

許可permission

授權(quán)抓取實時網(wǎng)站和/或在Web存檔上公開顯示其內(nèi)容。

注1:許可可以通過權(quán)利持有者的正式許可證來表示,也可以通過法定呈繳制度獲得豁免。

2.35

注冊用戶registereduser

為在圖書館內(nèi)或圖書館外使用其資源集合和/或服務而在圖書館注冊的個人或組織。

注1:用戶注冊可基于用戶請求,或用戶在該機構(gòu)注冊時即自動注冊。

注2:定期監(jiān)控注冊情況,至少每三年一次,以便將非活躍用戶從注冊中刪除。

[來源:ISO2789:2013,2.2.28]

2.36

請求request

由請求系統(tǒng)(如瀏覽器或爬蟲)發(fā)送到遠程服務器的HTTP格式消息,以獲取由URL標識的特定

資源。

2.37

響應response

遠程服務器對資源的HTTP請求的應答,包含請求的資源、到另一個URL的重定向,或指示無法

返回請求資源原因的拒絕(錯誤)響應。

2.38

響應碼responsecode

狀態(tài)碼。

向請求服務器說明請求資源狀態(tài)的三位數(shù)字。

注1:例如,以4(4xx)開頭的代碼表示請求的資源不可用。

2.39

robots.txt

機器人排除標準。

用于防止Web爬蟲訪問全部或部分網(wǎng)站的協(xié)議。

注1:robots.txt不具有法律約束力。

注2:它還可用于要求連續(xù)請求之間的最小延遲,甚至提供指向站點地圖的鏈接,以便更好地抓取站點。

2.40

范圍(抓取)scope(crawl)

定義抓取范圍的參數(shù)集,如爬蟲應遵循的最大躍點數(shù)或最大路徑深度。

注1:抓取的范圍可以大到整個頂級域(如.cn),也可以小到單個文件。

5

GB/Z××××—××××/ISO/TR14873:2013(E)

2.41

范圍(Web存檔)scope(Webarchive)

Web存檔或資源集合的范圍,由機構(gòu)法律授權(quán)或資源集合政策決定。

2.42

二級域secondleveldomain

特定類別的組織或感興趣領(lǐng)域的頂級域內(nèi)的細分(如政府網(wǎng)站、科研機構(gòu)網(wǎng)站)。

2.43

種子seed

目標URL。

與要抓取的特定資源的位置對應的URL,Web爬蟲將其作為(采集)起點。

2.44

遴選selection

制定保存管理決策的過程,根據(jù)資源集合建設政策判斷一組有意義的資源是否在Web存檔的范圍

內(nèi)。

2.45

選擇性抓取selectivecrawl

選擇性采集。

根據(jù)特定遴選標準采集并抓取資源。

注1:與批量抓取相比,選擇性抓取的范圍更窄,通常執(zhí)行的頻率更高。

注2:選擇性連續(xù)抓取是根據(jù)特定遴選標準(如學術(shù)重要性、主題相關(guān)性或資源更新頻率)采集并抓取資源。

注3:選擇性事件抓取是有時間限制的抓取,在特定日期結(jié)束,旨在采集與特定事件相關(guān)的資源,如選舉、體育賽

事和災難。

2.46

結(jié)構(gòu)性元數(shù)據(jù)structuralmetadata

描述如何將復合對象組建在一起形成邏輯單元的信息。

2.47

目標target

要采集的有意義的資源集,由一個或多個種子以及相關(guān)的抓取設置所定義。

2.48

頂級域topleveldomain,TLD

域名系統(tǒng)(DNS)中的最高級別的域,包括國家/地區(qū)代碼頂級域(如.cn、.de),它基于ISO3166

國家/地區(qū)縮寫的雙字符區(qū)域代碼,以及通用頂級域(如.com、.net、.org、.paris)。

注1:除非特別說明,本術(shù)語在本文件中用于表示國家/地區(qū)代碼頂級域。

2.49

統(tǒng)一資源標識符UniformResourceIdentifier,URI

用于標識或命名互聯(lián)網(wǎng)資源的可擴展字符串。

2.50

統(tǒng)一資源定位符UniformResourceLocator,URL

統(tǒng)一資源標識符(URI)的子集,用于指定資源的位置和檢索資源的協(xié)議。

2.51

WARC格式WARCformat

該文件格式定義了一種將多個數(shù)字資源及相關(guān)信息整合到一個集合性存檔文件的方法。

注1:WARC(WebARChive)格式自2009年成為ISO標準(ISO28500:2009)。

2.52

6GB/Z××××—××××/ISO/TR14873:2013(E)

網(wǎng)站website

一組合法和/或編輯上相互關(guān)聯(lián)的Web頁面。

注1:網(wǎng)站通常代表官方機構(gòu)、組織、私人公司和私人主頁。

2.53

Web

互聯(lián)網(wǎng)的主要發(fā)布應用程序,由三個重要標準支持:URI、HTTP和HTML。

3Web存檔的方法和目的

Web存檔的形式和內(nèi)容由機構(gòu)政策及技術(shù)可能性決定。高層政策主要通過國家立法來制定,機構(gòu)則

根據(jù)各自的業(yè)務目標和遴選標準設定一系列的采集策略。然而,由于技術(shù)方面的限制,有時候某些范圍

內(nèi)的資源無法歸入到Web存檔內(nèi)。例如,抓取和回放多媒體資源和交互式資源給Web存檔社區(qū)帶來了巨大

挑戰(zhàn),通常需要昂貴的定制化解決方案。

3.1采集方法

3.1.1技術(shù)基準

復制或采集是收集在線資源的主要方法。采集需要使用機器人,機器人會依次請求URL、復制并存

儲資源,然后解析所得到的資源以獲得深層URL。爬蟲通常以網(wǎng)站的主頁(即種子)作為起點開始采集

工作。爬蟲的行為類似于一個自動的Web用戶,除非通過抓取參數(shù)或設置限制它的抓取范圍,否則它會

沿著相互鏈接的互聯(lián)網(wǎng)資源進行無窮無盡的抓取。在采集過程中遇到阻礙也會導致爬蟲意外停止。

Web存檔資源集合的覆蓋范圍、深度和整體質(zhì)量由一套被稱為“采集規(guī)則”的技術(shù)設置決定。被采集

的資源通過它們的位置(URL,即種子列表)和采集范圍來描述。采集范圍主要由采集的頻次和深度決

定,這些設置會影響Web存檔的全面性。

3.1.2局限性

大量的信息以驚人的速度發(fā)布到Web上。機構(gòu)通常會根據(jù)資源所需的人力、計算能力及存儲能力來

決定Web存檔的范圍。此外,在資源遴選和采集階段所作的選擇使機構(gòu)能夠?qū)W⒂诓杉袃r值的“好”資

源,而不是自動生成的無價值內(nèi)容,如垃圾信息。Web存檔需要規(guī)避大量的噪音資源,這就需要對抓取

過程進行積極有效的管理和優(yōu)化。

由于存在許多限制,使得全面采集互聯(lián)網(wǎng)資源面臨挑戰(zhàn)。有些限制與技術(shù)相關(guān),有些限制與互聯(lián)網(wǎng)

的規(guī)模和性質(zhì)有關(guān),也有些限制與立法有關(guān)。

a)當前Web架構(gòu)和抓取技術(shù)導致的問題

存檔爬蟲能夠通過請求URL來抓取足夠的靜態(tài)內(nèi)容。當URL不是明確地在HTML中引用而是嵌入其中,

如JavaScript、Flash或通過與用戶交互自動產(chǎn)生時,存檔爬蟲常常會無法抓取相關(guān)的內(nèi)容。提取和解

析URL不是一項簡單的任務,因為URL的語法能容納幾乎所有類型的網(wǎng)絡資源,并且可以動態(tài)生成。復雜

的URL結(jié)構(gòu)包括多個變量,這些變量可以通過“&”符號、等號、會話或用戶ID以及推薦碼進行標識。在某

些情況下,多媒體文件由嵌入式Web應用程序提供或啟動,這些應用程序從后臺服務器檢索數(shù)據(jù),但在

HTML中并沒有明確定位這些文件。

當前的采集技術(shù)還不足以應對全部的Web資源,無法采集到某些特定的Web內(nèi)容類型。當前基于URL

的遞歸抓取方法無法采集某些不斷擴大的Web資源,包括隱藏在Web表單和查詢接口之后的資源,常見的

有“深度萬維網(wǎng)或隱蔽網(wǎng)”、流媒體、通過非HTTP協(xié)議傳輸?shù)膬?nèi)容和社交媒體資源。

然而,Web存檔社區(qū)面臨的最根本的挑戰(zhàn)是Web在新格式、協(xié)議和平臺方面的快速變化,存檔組織需

7

GB/Z××××—××××/ISO/TR14873:2013(E)

要對Web的持續(xù)發(fā)展作出響應,并提高對新出現(xiàn)的內(nèi)容類型的存檔能力。

b)Web資源的頻繁更新導致的問題

另一個與抓取相關(guān)的常見技術(shù)問題是時間的不連貫性。如果一個網(wǎng)站在被抓取期間進行了更新,就

會導致產(chǎn)生失真的快照,即有不同時期的Web頁面共同存在于快照中。

立法可能會對目前實施的Web存檔方式增加更多地限制。受立法影響的一個關(guān)鍵決策是是否尊重還

是忽略robots.txt排除標準,它對于是否抓取或放棄某些內(nèi)容會產(chǎn)生重大的影響。

上述的局限性為使用可比較的方法來評估Web存檔活動帶來許多挑戰(zhàn)。本文件采用的通用方法是承

認局限性并關(guān)注已知和可比較的內(nèi)容。

3.1.3采集策略

采集策略分為兩大類,它們涉及的自動化水平及所生成的Web存檔的范圍和規(guī)模各不相同。

——批量采集,如國家域采集,指在一個給定的時間點抓取整個域(或子域,如國家域)的快照,

這會產(chǎn)生大規(guī)模的Web存檔資源集合。最知名的批量存檔是InternetArchive的Wayback

Machine,其目標是保存全球Web。批量采集是個高度自動化的過程,但也會受到執(zhí)行規(guī)模的

限制。批量采集不會很頻繁,通常是每年執(zhí)行一到兩次。其質(zhì)量保證方法通常為通過檢查HTTP

的狀態(tài)碼來自動核查丟失的內(nèi)容。

——選擇性存檔,以較小規(guī)模、有重點地開展,執(zhí)行也更為頻繁。會根據(jù)主題、事件、格式(如

音頻或視頻文件)或與內(nèi)容所有者的協(xié)議等標準,遴選和識別相關(guān)網(wǎng)站。質(zhì)量保證是選擇性

存檔的常規(guī)元素,目前主要依賴于視覺比較、審查以前采集的內(nèi)容及抓取日志。選擇性Web存

檔往往具有更多的描述性元數(shù)據(jù),通常由保存管理員在遴選階段或在采集后添加,可用于在

Web存檔的用戶界面中構(gòu)建更豐富的搜索和瀏覽功能。

——許多機構(gòu)會將上述兩種策略混合使用。有些網(wǎng)站更新頻繁,僅依賴不頻繁的批量或域采集方

式無法抓取網(wǎng)站的變化內(nèi)容。單一存檔組織制定混合策略的情況并不少見,即頻繁抓取高優(yōu)

先級網(wǎng)站,而僅使用批量或域采集的方式抓取低優(yōu)先級網(wǎng)站。

3.1.4遴選標準

遴選標準通常依據(jù)立法以及機構(gòu)的資源集合建設政策制定,且應符合采集機構(gòu)的核心使命。人力、

資源和專業(yè)知識等運營考慮或限制通常會影響策略的實施。遴選標準定義了Web存檔的范圍,并可以用

多種方式表示:

——根據(jù)用于托管資源的域名,例如,國家域或頂級域(如.cn或.de),保留給某些出版商的二

級域(如用于政府出版物的.gov)。然而,域名無法嚴格地確定或定義國家內(nèi)容,因為互聯(lián)

網(wǎng)是個全球系統(tǒng),資源是跨物理或地理邊界分布的。

——根據(jù)資源的特征,例如,通過網(wǎng)站內(nèi)容的主題、標題,通過受用戶歡迎程度或使用的語言,

通過用于傳輸資源的通訊協(xié)議(如HTTP)或格式(如文本或視頻)。

——根據(jù)資源的訪問條件或版權(quán)狀態(tài),例如,資源是免費提供,還是需要購買或訂閱。

——根據(jù)組織能夠負擔的存檔能力。組織財政可能只能支持有限采集頻率或負擔一個高選擇性的

采樣方法。

——根據(jù)與內(nèi)容相關(guān)的明確限制或例外規(guī)則,例如,遴選標準可以是排除含有個人、敏感數(shù)據(jù)或

非法內(nèi)容的資源。

是否包含或排除某些特定類型的資源并不總是很明確。當一個組織決定存檔社交網(wǎng)絡、博客和相似

的互動平臺時,其他組織可能會認為這些內(nèi)容已經(jīng)超出了他們的采集范圍。這實質(zhì)上就是一項政策決定,

同樣適用于在線廣告、色情文字和含有或受計算機病毒影響的資源。抽樣是存檔這些資源時所使用到的

常用方法,這可能對某些研究人員有價值,但當前難以預見其未來的價值。

8GB/Z××××—××××/ISO/TR14873:2013(E)

3.2訪問和描述的方法

3.2.1技術(shù)基準:描述方法

概述

一種常見的做法是匯集存檔資源,并提供獨立的Web存檔訪問,就像實時Web一樣提供專門的用戶界

面,允許用戶在存檔資源范圍內(nèi)檢索并瀏覽資源。在設計用戶界面時,需要特別注意的是考慮時間維度,

允許用戶能夠找到在不同時間節(jié)點抓取的同一資源的不同版本,并能很容易地在這些資源之間進行切換

以查看資源隨著時間的演變情況。最常用的瀏覽Web存檔的方法是通過URL來查看,這可以與抓取時間結(jié)

合使用。

按URL進行索引(強制)

索引提供了Web存檔的入口,加快了搜索和排序的操作,并能夠提供更好的用戶體驗。最基本的索

引是URL或?qū)υ糢RL的修改變體,以指向托管存檔的Web服務器。抓取資源時的日期可以并入URL中,以

區(qū)分同一資源的不同版本。另一個可替代的方法是對每個資源都采用一個永久標識符,可以使用URL的

形式,但是關(guān)鍵在于資源采集機構(gòu)需要保證該標識符能無限期地提供對資源的引用和訪問方法。

其他種類的索引(可選)

全文搜索是Web存檔越來越多采用的一種訪問方法,該方法需要全文索引和搜索引擎,雖然全文搜

索是一種更具擴展性的訪問解決方案,但其實施充滿著技術(shù)挑戰(zhàn)。關(guān)鍵詞和元數(shù)據(jù)能從存檔資源中自動

抽取,并能用于提供訪問。研究社區(qū)對于Web存檔數(shù)據(jù)及鏈接挖掘的需求不斷增加。新的發(fā)展趨勢表明

了Web存檔中關(guān)注點的轉(zhuǎn)變,即從單個資源或網(wǎng)站層面轉(zhuǎn)移到整個Web存檔。通過采用可視化和數(shù)據(jù)分析

技術(shù),使得從不同視角來訪問同一Web存檔,揭示潛在的模式與趨勢、關(guān)系和上下文信息成為可能。在

上述提及的發(fā)展趨勢廣泛應用于實踐之前,對單個互聯(lián)網(wǎng)資源提供訪問依然是現(xiàn)階段Web存檔的主要訪

問機制,這也是本文件的重點。

編目(可選)

傳統(tǒng)的書目管理方法可以用于Web存檔,如同處理印本書籍和期刊文章那樣對網(wǎng)絡資源進行編目。

這可以把Web存檔和現(xiàn)有的圖書館資源集合整合在一起,以便這些網(wǎng)絡資源能夠通過目錄檢索被發(fā)現(xiàn)。

然而,這種方法是資源密集型的,難以擴展應用到Web存檔中,因為Web存檔包含大量的對象,且定義要

編目的資源對象也存在挑戰(zhàn)。編目可用于更高層次粒度的資源,例如,用于特殊資源集合的層次而不是

單個網(wǎng)站的層次。

使用元數(shù)據(jù)的資源發(fā)現(xiàn)工具(可選)

可以通過添加與資源有關(guān)的元數(shù)據(jù)來提供對資源的訪問。網(wǎng)站可以由保存管理員或通過自動化方法

劃分成主題層次結(jié)構(gòu),或者分類為圍繞事件或基于主題的資源集合。保存管理員或公眾所添加的標簽(關(guān)

鍵詞)也可以整合到用戶界面中。

3.2.2技術(shù)基準:訪問方法

概述

可以通過使用專門的軟件來對存檔的Web資源進行查找、檢索和回放。可以同時使用多個軟件包協(xié)

同工作來實現(xiàn)這個過程。整個軟件系統(tǒng)通常稱為訪問工具。

不論訪問工具如何設計和實施,它都有一組共同的屬性。這些屬性有些是強制性的,有些是可選的。

9

GB/Z××××—××××/ISO/TR14873:2013(E)

呈現(xiàn)(強制)

訪問工具軟件應能夠唯一標識資源(即使同一資源已被多次采集),并能從存檔倉儲中檢索對象。

URL重寫(強制)

通過訪問軟件獲得的HTML頁面應對其原始顯示進行修改。嵌入的鏈接(絕對或相對)應該指向數(shù)字

存檔中的資源位置,而不是原始資源的位置,可以通過多種方式實現(xiàn):

——在采集時進行重寫(可以采取保存管理決策來立即重寫內(nèi)容中的URL,并將修改后的內(nèi)容攝入

到存檔倉儲中);

——可以在后期對存檔資源采取能達到上述相同目標的保存活動。因此,資源應該隱含地指向它

們新位置的鏈接;

——對URL進行實時重寫可以基于資源請求通過在服務器上執(zhí)行代碼來實現(xiàn),也可以通過向客戶端

提供一個原始資源的副本以及在客戶端上執(zhí)行的代碼來動態(tài)地重寫URL。

3.2.3局限性

存檔互聯(lián)網(wǎng)資源的采集和處理過程涉及轉(zhuǎn)換,因此在訪問過程被回放時,可能會影響原始資源的呈

現(xiàn)、行為和用戶體驗。這時候,存檔資源的副本應該被視為某個時間點的靜態(tài)快照,不具備實時版本的

互動性。相關(guān)例子包括留言板、論壇、Web表單和搜索。也有可能資源采集是正確的,但是受限于呈現(xiàn)

軟件的能力,而無法為終端用戶提供訪問。

在回放存檔資源時,一個普遍的問題是所謂的“實時Web泄露”,指存檔資源中的鏈接能指向?qū)崟r站

點的資源版本,而不是指向Web存檔中的資源版本。這個問題通常是由于錯誤的URL重寫造成,常常是訪

問工具檢測不到嵌入在JavaScript中鏈接的結(jié)果。

3.2.4訪問策略

盡管許多互聯(lián)網(wǎng)資源能夠免費獲取,但是通常會受到版權(quán)保護?;谙嚓P(guān)立法(詳見4.4)以及法

律允許采集的內(nèi)容,采集機構(gòu)會使用一系列的訪問策略:

——暗存檔:任何人都無法訪問資源集合(除了工作人員偶爾出于保存管理的目的進行訪問);

——灰色存檔:只有得到許可的終端用戶(如研究人員)能查看資源集合,并且/或僅限于現(xiàn)場查

閱(如圖書館閱覽室);

——在線存檔:所有用戶都能訪問,通常通過采集機構(gòu)的網(wǎng)站訪問。

或者,存檔也可以采用一種混合模式,即存檔資源的不同部分分別采用上述某種策略。同樣值得注

意的是,對于采集資源的訪問是建立在“主動選擇退出”基礎(chǔ)上的,這種情況下許可是假定的或隱含的,

并沒有明確給出,當權(quán)利持有者提出請求時,資源訪問權(quán)限可以被取消。

3.3保存方法

3.3.1技術(shù)基準

對書籍或記錄等模擬材料的保存專注于保存原始條目,而數(shù)字保存則處理非常不同的問題。原始的

數(shù)字資源由一系列的“1”和“0”(比特流)組成,不依賴于存儲它們的數(shù)據(jù)載體或媒體??梢栽诓粊G失任

何信息的情況下把這些比特復制到其他的載體上,創(chuàng)建與源或原件相同的副本。由于數(shù)據(jù)載體的損壞和

過時,有必要把比特遷移到新載體上以保證它們的安全。如果定期進行復制,就可以合理的假定比特流

能得到永久地保存而不會出現(xiàn)丟失的情況。

除了確保比特的安全,數(shù)字保存的實質(zhì)性挑戰(zhàn)還存在于保持比特的可用性。如果沒有原始呈現(xiàn)軟件

和硬件環(huán)境,比特流就無法被人類理解。隨著技術(shù)的快速發(fā)展,新系統(tǒng)常常無法和老系統(tǒng)兼容,新的呈

現(xiàn)軟件可能無法顯示老的文件格式。盡管有可能在當前的系統(tǒng)中呈現(xiàn)舊軟件,當前用戶可能仍然無法使

10GB/Z××××—××××/ISO/TR14873:2013(E)

用它,因為用戶可能會以完全不同的方式與它進行交互。

在Web存檔工作流的各個階段都應該考慮數(shù)字保存。與其他的數(shù)字資源相比,保存Web存檔的特殊挑

戰(zhàn)在于數(shù)據(jù)的龐大規(guī)模以及文件格式和媒體類型的多樣性。Web頁面可能包含圖片、視頻、音樂、游戲、

數(shù)據(jù)庫和多種應用。Web的一個關(guān)鍵特征是Web頁面之間的鏈接,由于鏈接引起的依賴性為數(shù)字保存帶

來了挑戰(zhàn)。

3.3.2局限性

Web存檔中包含的仍然是近期的資源,而且缺乏令人信服的結(jié)果或有信心的行之有效的策略以證明

社區(qū)對存檔互聯(lián)網(wǎng)資源的長期保存能力。本文件不會提供實踐解決方案,但是會重點說明當前的實踐、

標準和問題。

3.3.3保存策略

最低水平的數(shù)字保存目標是通過維護原始比特流的完整性來防止數(shù)據(jù)丟失。比特流保存或物理保存

的主要策略是復制和備份,包括在不同物理位置的并行數(shù)據(jù)存儲、定期備份及讀取錯誤檢查等操作。也

需要保持數(shù)據(jù)的安全以避免未授權(quán)的訪問。比特流保存是所有數(shù)字資源保存的最低要求。然而,實施比

特流保存時需要考慮Web存檔的規(guī)模。

遷移和仿真是更復雜的保存策略,旨在保留資源的功能、行為和用戶體驗。它們相當于“邏輯保存”,

需要實施定期的數(shù)據(jù)、格式和風險分析。由于Web存檔規(guī)模龐大且文件格式多樣,邏輯保存極具挑戰(zhàn)性。

a)遷移。文件格式遷移指的是把文件在當前技術(shù)環(huán)境中無法使用之前轉(zhuǎn)換為新格式。每次轉(zhuǎn)換為

新文件格式都會更改內(nèi)容并可能造成損壞。因此,需要提前進行風險分析以評估信息丟失的可

能性和影響。遷移可以在文件格式存在過時的風險時執(zhí)行,也可以在訪問時執(zhí)行(動態(tài)遷移)。

遷移的成本與遷移的文件數(shù)量直接相關(guān)。對于大規(guī)模的Web存檔來說,遷移的費用非常昂貴。

資源間的復雜性和依賴性同樣增加了挑戰(zhàn)性,并難以對遷移結(jié)果進行驗證。

b)仿真。仿真是指使用仿真器這樣的專業(yè)軟件在當前的系統(tǒng)中重現(xiàn)過時系統(tǒng)環(huán)境的功能和行為。

仿真器能模擬過時的系統(tǒng),并有可能在不改變資源的情況下訪問過時的資源。然而,仿真無法

達到完美的程度而只能達到一個近似的程度。仿真器自身也依賴于某種系統(tǒng)環(huán)境,且存在保存

風險。開發(fā)仿真器成本昂貴,但是無需單獨處理組件資源。在Web存檔中,仿真器需要重現(xiàn)Web

頁面被采集時的通用瀏覽器和媒體播放器的功能。

遷移和仿真應被視為數(shù)字存檔系統(tǒng)保存規(guī)劃的一部分。

3.3.4保存元數(shù)據(jù)

長期保存也包括保存與Web存檔資源相關(guān)的元數(shù)據(jù)的安全,這些元數(shù)據(jù)對于支持資源集合管理、訪

問和保存活動至關(guān)重要。有許多不同類型的元數(shù)據(jù),這些元數(shù)據(jù)有些是嵌在資源中,有些在存檔過程中

自動生成,有些則是通過保存管理員手動添加。元數(shù)據(jù)編碼和傳輸標準(METS)定義了適用于Web存檔

的五種不同類型的元數(shù)據(jù),如下所示:

a)描述性元數(shù)據(jù)。對Web存檔編目或手動添加元數(shù)據(jù)的機構(gòu)一般擁有更多的描述性元數(shù)據(jù)。那些

執(zhí)行大規(guī)模(自動)Web存檔的機構(gòu)只能依賴抽取嵌在資源中的元數(shù)據(jù),或使用自動聚類或分

類來獲取此類元數(shù)據(jù)。

b)結(jié)構(gòu)性元數(shù)據(jù)?;ヂ?lián)網(wǎng)資源常常是復合型的數(shù)字對象,這些數(shù)字對象由結(jié)構(gòu)化的、相互鏈接的

元素組成。可以通過元數(shù)據(jù)方案,如METS,來清晰地表達和記錄這種結(jié)構(gòu)關(guān)系。此類元數(shù)據(jù)在

文件遷移的情況下非常有用,其中超鏈接也需要相應地遷移以保持存檔資源導航的有效性。有

些機構(gòu)決定不再額外或明確記錄這些關(guān)系,是因為這些關(guān)系實質(zhì)上已經(jīng)存在于資源內(nèi)部。

c)溯源元數(shù)據(jù)。溯源元數(shù)據(jù)描述了資源產(chǎn)生的原因和方式以及在其生命周期內(nèi)發(fā)生的一系列事件。

11

GB/Z××××—××××/ISO/TR14873:2013(E)

一些描述性元數(shù)據(jù)如記錄Web存檔中一個特殊資源集合的基本原理,也可以視為溯源元數(shù)據(jù)。

在較低層面上,也能發(fā)現(xiàn)溯源元數(shù)據(jù),包括一個存檔爬蟲的文件記錄活動,如配置文件、抓取

報告和日志文件,以及描述Web服務器和爬蟲之間交互的信息,包括URL、抓取日期、服務器的

IP地址。

d)技術(shù)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)描述了數(shù)字對象的技術(shù)特征,特別是數(shù)字對象如何被訪問、修改或保

存。這相當于開放存檔信息系統(tǒng)參考模型中的呈現(xiàn)信息。由MIME類型指定的文件格式是與Web

存檔相關(guān)的技術(shù)元數(shù)據(jù)的例子,也是資源集合表征的核心統(tǒng)計數(shù)據(jù)之一(詳見)。

e)權(quán)限元數(shù)據(jù)。權(quán)限元數(shù)據(jù)定義了資源的所有權(quán)和合法使用權(quán)限。條件可能適用到未來的某個時

間。此種信息需要與資源一起保存,以防止未授權(quán)的訪問行為。

溯源元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和權(quán)限元數(shù)據(jù)統(tǒng)稱為管理性數(shù)據(jù)。

3.4Web存檔的法律基礎(chǔ)

3.4.1概述

Web存檔活動面臨著許多法律風險,那些重要的風險都與知識產(chǎn)權(quán)相關(guān),特別是著作權(quán)、隱私及個

人數(shù)據(jù)保護。采集機構(gòu)還要對傳播誹謗言論以及持有和散布非法內(nèi)容承擔責任。國家立法通過為采集機

構(gòu)提供一定的法律保護來有效應對這些風險。

國家立法是實現(xiàn)和支持大規(guī)模Web存檔最有效的架構(gòu)。Web存檔可以引入有關(guān)版權(quán)和/或法定呈繳的

立法、或任何明確規(guī)定采集機構(gòu)的使命和地位的法案。這些立法與公共組織密切相關(guān),這些公共組織的

地位和行為通常由法律確定,如國家圖書館、國家檔案館、專門的法定呈繳機構(gòu)(如那些致力于廣播或

電影保存的機構(gòu))、公共檔案館或博物館。沒有法定權(quán)力的機構(gòu)也能進行Web存檔,它們要么與權(quán)力持

有者談判協(xié)商特定協(xié)議,要么通過限制訪問存檔資源來規(guī)避法律風險。一些機構(gòu)愿意承擔基于隱含的許

可抓取互聯(lián)網(wǎng)資源并提供訪問帶來的某些風險。

有些國家還沒有明確的Web存檔法律基礎(chǔ),有些國家只有一個總體框架,需要二級立法來解釋和規(guī)

范其實施。有些國家的采集機構(gòu)在出版商自愿繳存的基礎(chǔ)上制定了Web存檔計劃。即使在已有國家立法

的國家,常見的做法是立法往往是開放的,有解釋的余地。采集機構(gòu)需要明確自己的方法,包括風險評

估和實施層面的試驗。

3.4.2采集范圍和方法

Web存檔的立法會明確地包括或排除一些特定的內(nèi)容,它們定義了國家域的采集邊界或范圍,也會

指定允許采集的頻率和深度。

立法的一個關(guān)鍵要素是是否應在資源采集前從權(quán)利持有者那里獲得許可。這對于機構(gòu)的采集策略會

有重大影響。批量采集只有在不需要許可的情況下才是可行的,否則選擇性采集將是更合適的模式。許

可管理的替代方法包括所謂的“主動選擇退出”或“通知并撤銷”的模式。在這種模式下,資源的采集和獲

取基于假定的或隱含的許可,只有當權(quán)利持有者發(fā)出請求時,才會停止采集或提供訪問。來自單個出版

商、覆蓋多種資源的“一攬子許可”是另一種降低管理多個出版商協(xié)議成本的方法。

立法可以授權(quán)采集機構(gòu)獲得受保護的信息以幫助改善采集的質(zhì)量和完整性,有關(guān)事例包括國家域名

或識別碼清單以及定價出版物的數(shù)字許可管理信息。立法可以明確要求出版商提供信息并對違規(guī)行為進

行處罰。

立法可以推薦或指定一種特定的采集技術(shù),例如,一些法規(guī)明確允許或鼓勵在機構(gòu)和出版商之間達

成采集協(xié)議之前“自動”采集互聯(lián)網(wǎng)資源。

立法可能會對未來的Web存檔采取進一步的限制。受到立法影響的一個關(guān)鍵決定是應該遵守還是忽

略robots.txt排除標準,它對于是否抓取或放棄某些內(nèi)容產(chǎn)生重大影響。

在那些已有立法授權(quán)國家互聯(lián)網(wǎng)資源采集的國家,該工作通常由某一個機構(gòu)負責,也可以是多個組

織之間的共同責任,例如:

12GB/Z××××—××××/ISO/TR14873:2013(E)

——國家或聯(lián)邦機構(gòu)與地方或地區(qū)機構(gòu)之間;

——國家圖書館與國家檔案館之間;

——專門機構(gòu)網(wǎng)絡或聯(lián)盟內(nèi)部。

3.4.3Web存檔的訪問

可訪問性定義了可以使用Web存檔的條件,這是立法的一個重要方面。訪問條件通常與采集規(guī)則保

持一致:如果獲得了權(quán)利持有者的許可,相應地就可以允許在線訪問;如果在沒有許可的情況下進行批

量采集,那么訪問就有可能受到限制。

版權(quán)限制,如打印、抽取、數(shù)字拷貝或下載,可適用于Web存檔。

在Web存檔作為法定呈繳形式實施的情況下,立法可能會要求發(fā)布Web存檔的國家書目,事實證明這

對于大規(guī)模的資源集合來說是一個極大的挑戰(zhàn)。Web存檔通常為終端用戶提供搜索界面,而不是發(fā)布描

述性元數(shù)據(jù)。

3.4.4Web存檔的保存

長期保存是采集文化遺產(chǎn)資料的重要理由和要求,因此,立法可能會包括確保Web存檔壽命的指示

或義務。它可能會特別指定是否允許刪除資源或是應該永久保存這些資源。大多數(shù)國家圖書館以法定呈

繳方式采集互聯(lián)網(wǎng)資源,它們被要求為后代保存這些資源。而對于研究型圖書館或其他機構(gòu),如果采集

目標是為短期或中期研究提供數(shù)據(jù)集,則不會要求它們無限期地保存這些資源。

3.5Web存檔的其他原因

3.5.1概述

存檔Web資源的其他動機通常是由政策驅(qū)動的。它們體現(xiàn)了一個機構(gòu)的戰(zhàn)略愿景以及對于技術(shù)和文

化創(chuàng)新的傳統(tǒng)和態(tài)度。

Web承載了各種各樣的原生數(shù)字資源和數(shù)字化資源。后者在數(shù)字化之前是印本資源(書籍、期刊、

政府出版物等)或是以其他物理介質(zhì)(電影、音樂和游戲光盤或磁帶)傳播的出版物,其中許多已經(jīng)進

行了各種格式遷移。Web發(fā)展速度快且壽命短暫,有價值的資源經(jīng)常會消失。對于致力于保存文化遺產(chǎn)

資源的機構(gòu)來說,保存Web資源是其自然且重要的職責。

Web存檔保證了數(shù)字資源的延續(xù)性,是避免國家知識和記憶出現(xiàn)數(shù)字黑洞的必要措施,它還有助于

保持對被引用資源的訪問。這種動機對于國家圖書館和檔案館尤為強烈。

3.5.2促進學術(shù)研究

互聯(lián)網(wǎng)是一個高度參與和創(chuàng)新的空間,人們在這里交流和合作??梢哉f,Web創(chuàng)造了與國家文化遺

產(chǎn)相關(guān)的新的社會知識和新的具有研究價值的文化資源。人們已經(jīng)觀察到出現(xiàn)了新的研究實踐和社區(qū),

這些新的研究實踐和社區(qū)致力于研究實時Web及其可能的存檔。

對于互聯(lián)網(wǎng)研究人員和科學家,Web存檔提供了獨特的研究可能性,他們不僅能夠參閱單個網(wǎng)站的

歷史版本,還能夠進行大規(guī)模數(shù)據(jù)或鏈接挖掘以幫助抽取模式和趨勢并提煉出嵌入的知識。盡管數(shù)據(jù)挖

掘或分析尚處于起步階段并且絕大部分工作由社會科學家進行,但是卻能擴展到其他的學術(shù)領(lǐng)域,而且

在許多學科中都非常有用。

在機構(gòu)層面,Web存檔可以成為推廣或突出特定數(shù)字資源的方法,這種方法尤其適用于大學等機構(gòu),

它們會存檔自己學者和學生制作的出版物。Web存檔是一項有價值的采集在線資源的工作,這些資源包

含且具有研究價值,這是吸引許多Web存檔機構(gòu)的原因。

3.5.3支持公眾的多種使用方式

13

GB/Z××××—××××/ISO/TR14873:2013(E)

互聯(lián)網(wǎng)承載了來自各行各業(yè)的資源。與印本媒體不同,任何人都能在Web上發(fā)布信息。盡管每個個

人貢獻的價值可能會有所不同,但是這種聚合形成了一組獨特的資源集合,它反映了個人以及社區(qū)的記

憶和交互。

可以在Web存檔上構(gòu)建各種專業(yè)或個性服務,Web存檔能夠作為版權(quán)糾紛時的證據(jù)或用于個人或家族

研究以及數(shù)字家譜。允許免費、長期訪問互聯(lián)網(wǎng)資源,特別是對內(nèi)容創(chuàng)造者在現(xiàn)在及其后代在將來的訪

問,是將Web存檔作為公共服務提供的有力論據(jù)。

4統(tǒng)計數(shù)據(jù)

4.1概述

統(tǒng)計數(shù)據(jù)是客觀的數(shù)據(jù),它是未來分析和解讀的基礎(chǔ)。質(zhì)量指標表示價值判斷的程度,即不符合標

準是表示負面評價。在本文件中,統(tǒng)計數(shù)據(jù)以絕對數(shù)量評估,質(zhì)量指標以相對數(shù)量和百分比評估。

統(tǒng)計數(shù)據(jù)和質(zhì)量指標應可靠、信息豐富且具有可比性,獲得這些數(shù)值和指標的方法應實用、靈活。

Web存檔的當前技術(shù)水平意味著某些統(tǒng)計數(shù)據(jù)的生成必須依賴于所使用的采集、索引或瀏覽軟件,并且

選擇不同的軟件可能會導致結(jié)果的不同。因此,若以基準測試為評估目的,建議使用相同的軟件來生成

統(tǒng)計數(shù)據(jù)。大規(guī)模的Web存檔一般還要求以實用且具有成本效益的方法來獲得統(tǒng)計數(shù)據(jù)和評估質(zhì)量。本

文給出的質(zhì)量指標和統(tǒng)計數(shù)據(jù)基于Web存檔的常見活動,隨著時間的推移,它們?nèi)钥商峁eb存檔的可

靠描述,并允許對它們進行比較。

本文件提出了通用的統(tǒng)計數(shù)據(jù)和質(zhì)量指標,并非所有的指標和數(shù)據(jù)都適用于不同類型的Web存檔。

此外,隨著技術(shù)的進步和Web存檔實踐的發(fā)展,有些數(shù)據(jù)和指標需要進行更新。

本章在每節(jié)都提出并描述了若干相關(guān)的統(tǒng)計數(shù)據(jù)。然而,只有少量的核心統(tǒng)計數(shù)據(jù)被認為是必備數(shù)

據(jù)。這些統(tǒng)計數(shù)據(jù)會在每節(jié)的末尾列出并附有示例。

4.2資源集合建設的統(tǒng)計數(shù)據(jù)

4.2.1概述

下列統(tǒng)計數(shù)據(jù)通過追蹤Web存檔的定量輸出來評估它的增長狀況。這些數(shù)據(jù)有助于規(guī)劃和監(jiān)測資源

集合建設并進行詳細的成本分析。

與模擬文檔不同,Web存檔包括了非線性、相互鏈接的資源,有些資源可以為用戶回放,另外一些

資源是不可分割的文件和元數(shù)據(jù),它們是資源的一部分,但對用戶不可見。因此,評估Web存檔體量的

統(tǒng)計數(shù)據(jù)不能和用于物理資源的統(tǒng)計數(shù)據(jù)進行比較。

這些統(tǒng)計數(shù)據(jù)中的絕大多數(shù)僅適用于存檔的Web資源,而不適用于實時Web內(nèi)容。

4.2.2評估采集目標:統(tǒng)計目標和抓取實例的數(shù)量

目的

采集機構(gòu)應該能夠根據(jù)自身政策來表達和評估Web存檔的目標,以便對照目標來評估由此產(chǎn)生的Web

存檔資源集合,展示采集過程的效率和取得的效果。

沒有直接或統(tǒng)一的方法來表示資源采集的目標,這需要由不同的機構(gòu)在實際中根據(jù)機構(gòu)政策和目標

來定義。建議采用一個通用的框架,統(tǒng)一使用“目標”和“目標抓取實例”的概念,這樣有助于評估參與選

擇和管理“目標”的工作人員的行為。這是一個關(guān)于遴選工作的指標,即確定Web存檔中應包含哪些網(wǎng)站

所花費的時間。

方法

每個目標包含一個或多個種子,且每個種子都有一系列的抓取設置來定義抓取的范圍。這是關(guān)于被

14GB/Z××××—××××/ISO/TR14873:2013(E)

采集資源的一組重要設置,其范圍可以從托管在同一域中(表示為一個網(wǎng)站)相互鏈接的資源到由URL

標識的單個資源(如一個PDF、一個視頻)或者整個頂級域。一個目標可以被多次抓取,每次抓取都形

成一個抓取實例。

以對《紐約時報》網(wǎng)站主頁的每日抓取為例:

——種子是/和/;

——范圍是抓取主頁以及所有通過主頁進行一次點擊的資源;

——頻率是每天;

——目標是以上所有;

——被抓取和存檔的資源的獨立集合作為一個抓取實例。

這種通用方法允許機構(gòu)設置運營目標并評估結(jié)果。在上述示例中,目標可以是每年采集365個抓取

實例。然后,機構(gòu)可以按年度比較實際的目標抓取實例數(shù)量,以評估目標是否已經(jīng)實現(xiàn)。

局限性

只有在機構(gòu)都采用相同的遴選政策和實踐時,比較機構(gòu)間的目標數(shù)量和目標抓取實例數(shù)量才有意義。

4.2.3評估Web存檔規(guī)模:統(tǒng)計URL的數(shù)量

目的

統(tǒng)計URL的數(shù)量是評估Web存檔規(guī)模的一種方法。URL對應于要抓取資源的位置,并被存檔爬蟲用于

識別和請求Web服務器上的資源。Web服務器會返回一系列由狀態(tài)碼標識的標準響應,以此來指示所請求

資源的狀態(tài),可能是確認請求的資源已成功交付的響應,或是指示請求的資源已轉(zhuǎn)移(重定向)到其他

位置的響應;還可能是帶著錯誤信息的響應,指示無法返回請求的資源。有些響應會提供元數(shù)據(jù)和內(nèi)容,

有些只提供元數(shù)據(jù),有些響應僅僅提供一個錯誤代碼。

需要特別注意的是,不是所有的URL都能對應到有意義的、人類可讀的資源,相當于圖書館傳統(tǒng)印

本資源集合中的物理“文檔”和“條目”。即使在Web服務器無法滿足請求時,它依然會發(fā)送響應,指示該

請求的發(fā)送狀態(tài),如重定向和錯誤。這些信息提供了采集流程的審計跟蹤和Web存檔資源集合的溯源信

息,并對訪問或保存目的非常有用。因此,本文件建議所有的響應應視為Web存檔的一部分均要進行保

留。

在Web和HTTP消息系統(tǒng)中,URL被作為資源的標識符。URL還代表Web存檔中自包含內(nèi)容的最小單位,

通常用于web資源的存儲和訪問系統(tǒng)中。因此,我們建議將URL用于標識資源以及Web服務器返回的相應

響應,然后使用不同類型的狀態(tài)碼對Web存檔資源進行排序或分組。

方法

表1包含了各種狀態(tài)碼,每個狀態(tài)碼由三位數(shù)字組成,第一位數(shù)字定義了響應的類別。每個狀態(tài)碼

有一個原因短語,供人類用戶使用,并給出了狀態(tài)碼的簡短文字描述。有關(guān)狀態(tài)碼的更多詳細信息參見

RFC2616(參見“參考文獻”)。

15

GB/Z××××—××××/ISO/TR14873:2013(E)

表1Http狀態(tài)碼列表

狀態(tài)碼原因短語

1xxInformational(通知的)

100Coninue(繼續(xù))

101SwitchingProtocols(切換協(xié)議)

2xxSuccessful(成功)

200OK(OK)

201Contentwascreated(已創(chuàng)建)

202Acceptedbutnotacteduponnow(已接受但尚未響應)

203Non-authoritativeinformation(非授權(quán)信息)

204Nocontent(無內(nèi)容)

205Resetcontentalreadysent(重置已發(fā)送內(nèi)容)

206Partialcontent(部分內(nèi)容)

3xxRedirection(重定向)

300MultipleChoices(多種選擇)

301MovedPermanently(永久移除)

302Found(發(fā)現(xiàn))

303Seeother(見其他)

304Notmodified(沒有改變)

305Useproxy(使用代理)

307TemporaryRedirect(臨時重定向)

4xxClienterror(客戶端錯誤)

400BadRequest(壞請求)

401Unauthorized(未授權(quán)的)

402PaymentRequired(要求支付)

403Forbidden(禁用)

404NotFound(沒有找到)

405MethodNotAllowed(方法不被允許)

406NotAcceptable(不可接受的)

407ProxyAuthenticationRequired(需要代理驗證)

408RequestTime-out(請求超時)

409Conflict(沖突)

410Gone(不存在)

411LengthRequired(長度要求)

412PreconditionFailed(先決條件失?。?/p>

413RequestEntityTooLarge(請求實體太大)

414Request-URITooLarge(請求URI太長)

415UnsupportedMediaType(不被支持的媒體類型)

416Requestedrangenotsatisfiable(請求范圍不滿足)

417ExpectationFailed(期望失?。?/p>

5xxServererror(服務器錯誤)

500InternalServerError(服務器內(nèi)部錯誤)

501NotImplemented(不能實現(xiàn))

502BadGateway(壞網(wǎng)關(guān))

503ServiceUnavailable(服務不能提供)

504GatewayTime-out(網(wǎng)關(guān)超時)

505HTTPVersionnotsupported(HTTP版本不支持)

16GB/Z××××—××××/ISO/TR14873:2013(E)

本文件建議:在計算Web存檔中采集資源的總數(shù)時應包括所有的URL,不考慮響應狀態(tài)碼。

然而,理解狀態(tài)碼的性質(zhì)和含義很重要,在分析Web存檔的特殊片段時可以使用這些狀態(tài)碼來對資

源進行分組和過濾。例如,2XX系列狀態(tài)碼表示請求的資源成功傳輸,3XX系列的響應通常只返回元數(shù)據(jù)

而沒有請求的資源,5XX系列用于技術(shù)用途。如果機構(gòu)希望保持其物理資源集合和Web存檔的相似性,2XX

系列則特別有助于此,建議專門統(tǒng)計狀態(tài)碼為200、201、203、205的URL。

如果有去重的過程,URL數(shù)量可以在去重前和去重后分別計算。在抓取過程中,當機器人識別出將

要抓取的URL已經(jīng)被采集并在存檔中可用時,就會進行去重,所以機器人不會再次抓取該資源。機器人

會生成信息來標識這次去重處理,這在WARC中稱為“重訪”記錄。下面的兩個數(shù)字很有用:

——去重后的URL數(shù)量代表了存檔資源的總量,它是用于存儲以及長期保存的參考數(shù)量。

——去重前的URL數(shù)量適用于人類用戶,從知識或內(nèi)容的角度來看非常重要。僅當去重后的信息仍

然可用時才有意義(如WARC文件中的“重訪”記錄),即使機器人實際上沒有對其進行抓取,

但是這些信息確實表明去重后的URL在某個日期仍然在線。

應始終標明計算的方法(即去重前或去重后),特別是存檔資源間進行比較時。

局限性

早期的Web主要由具有明確引用資源的靜態(tài)HTML頁面組成。然而,Web的迅速發(fā)展使得Web上交互式

和動態(tài)生成的內(nèi)容越來越多,這要求我們超越傳統(tǒng)的Web模型,將其視為一個自包含HTML“文檔”或“出版

物”的資源集合。Web存檔中URL的數(shù)量不等同于圖書館環(huán)境下傳統(tǒng)的“文檔”和“出版物”的數(shù)量。在計算

Web存檔的統(tǒng)計數(shù)據(jù)時,重要的是要考慮Web的性質(zhì),并將其作為網(wǎng)絡化和相互鏈接的在線資源。統(tǒng)計數(shù)

據(jù)不僅應包括為人類用戶使用的資源,還應包括作為Web存檔組成部分的相關(guān)元數(shù)據(jù)和程序。

同樣需要注意的是,并非所有Web服務器返回的狀態(tài)碼都是可靠或可信的,示例如下:

a)404缺失

許多Web服務器在請求的資源無法訪問時不會返回正確的404狀態(tài)碼,而是發(fā)送一個“200OK”的響應,

其中包含一個內(nèi)容塊,說明所請求資源不存在,存檔爬蟲無法將這種情況作為“404沒發(fā)現(xiàn)”,因此該響

應會被視為“良好”或成功響應。

b)具有不同會話ID的副本

許多Web服務器會自動產(chǎn)生URL,從而導致Web存檔中資源重復。當向用戶代理返回資源時,Web服務

器有時會給每個URL附加一個唯一標識符以追蹤會話,例如:

用戶代理1得到了一個URL:/id=12345/picture.jpg;

用戶代理2得到了一個含有不同ID的URL:/id=67890/picture.jpg。

這兩個URL提供相同的資源,在本例中為jpeg圖像,但是使用了不同的ID來識別用戶。存檔爬蟲

可能會多次采集URL不同但內(nèi)容相同的資源,這些副本會被當作唯一的資源。

c)狀態(tài)碼缺失

在Web的早期,服務器通常只返回請求資源而不返回任何狀態(tài)碼和元數(shù)據(jù),有時候稱之為HTTP0.9。

有些服務器可能依舊使用過時的協(xié)議。缺少狀態(tài)碼和元數(shù)據(jù),對于那些持有長期Web歷史性資源集合的

機構(gòu)尤其是個問題。

4.2.4評估Web存檔規(guī)模:統(tǒng)計域或主機的數(shù)量

目的

統(tǒng)計域或主機的數(shù)量是另外一個評估Web存檔規(guī)模的指示性方法。在實踐中這種方法常被采集機構(gòu)

17

GB/Z××××—××××/ISO/TR14873:2013(E)

用作表示網(wǎng)站數(shù)量的替代品。相反,網(wǎng)站是一個概念性知識單元,由一組代表個人、社區(qū)、組織的相互

關(guān)聯(lián)的Web頁面組成。然而,它不是可以從技術(shù)上定義的東西,也無法進行實際或系統(tǒng)性的評估。

域和主機可以進行系統(tǒng)性評估,但是不能等同于網(wǎng)站本身,因為它們只是用于對網(wǎng)站進行命名和定

位。這些統(tǒng)計數(shù)據(jù)可能有助于詳細的資源集合表征或技術(shù)分析,以確定Web存檔中資源類型(如.com

或.org)或爬蟲是否已經(jīng)采集到目標內(nèi)容范圍。

方法

域或主機的數(shù)量能通過抓取報告自動計算出來,或者通過其他分析存儲文件的自動化方法來計算。

局限性

統(tǒng)計域或主機的數(shù)量存在局限性。與統(tǒng)計URL的數(shù)量一樣,在Web存檔中統(tǒng)計域或主機的數(shù)量會比實

際可見及人類可讀的資源的數(shù)量更多。不是所有域都是活躍的或是有意義的資源,同樣存在別名或副本。

a)未使用域

域名被購買但處于未使用狀態(tài),不能解析到任何資源。還有一種??坑?,可以解析到資源,但是通

常只有單個Web頁面提供域名出售信息。前者通過狀態(tài)碼204標識;后者嚴格來說不是未使用的,在統(tǒng)

計域數(shù)量時應包含在內(nèi)。然而,從保存管理的角度看,這些資源被認為是不具有任何重要價值的資源。

在選擇性采集的情況下,它們在遴選階段就會被主動剔除,也不會進行采集。然而,在批量采集中,除

非對很小規(guī)模的資源進行手工檢查,否則沒有簡單的方法能夠自動識別并過濾掉它們。

在可能的情況下,建議通過抽樣跟蹤Web存檔中的未使用域,來幫助表征資源集合并評估質(zhì)量保證

的有效性。

b)別名

別名是一種替代性域名。域別名允許使用者將多個域名指向同一網(wǎng)站?;ヂ?lián)網(wǎng)上有很多別名,可能

是因為域所有者希望使用多個域名來增加用戶可見度。別名主要是通過重定向?qū)崿F(xiàn)的。

在存檔爬蟲生成的報告中,盡管指向同一資源,別名依然被作為唯一的域。檢測別名需要對來自同

一服務器的頁面進行視覺比較或校驗和比較。別名在選擇性存檔中更容易檢測或相關(guān)性較低,更有可能

包含在批量采集中,并且會導致Web存檔中的資源重復。

在可能的情況下,建議跟蹤Web存檔中檢測到的別名,以幫助表征資源集合和資源去重。

4.2.5評估Web存檔規(guī)模:統(tǒng)計字節(jié)數(shù)

目的

Web存檔規(guī)模也可以以字節(jié)為單位來評估。字節(jié)數(shù)是一個有用的統(tǒng)計數(shù)據(jù),能夠幫助制定存儲及其

他資源的規(guī)劃。它相當于圖書館書架管理使用的延米或里。

方法

以字節(jié)為單位的存檔規(guī)??梢酝ㄟ^將抓取報告中被抓取資源的規(guī)模相加或通過檢查存檔的磁盤占

用情況等其他自動化方法自動生成。

Web存檔的規(guī)模一般都很大,規(guī)模范圍從幾百Gb的小型資源集合到幾百Tb的國家資源集合。對于那

些采集全球Web資源并進行長期保存的機構(gòu),存檔規(guī)模甚至達到了Pb級。存儲Web存檔的通用方法是進行

數(shù)據(jù)壓縮。例如,ISO28500WARC文件格式規(guī)范的附錄D(Web存檔的標準存檔格式)解釋了如何使用GZIP

壓縮WARC文檔。

Web存檔規(guī)??梢酝ㄟ^測量未壓縮和壓縮后兩種方式來評估。但是在對存檔進行基準測評時,使用

同樣的標準很重要,即不能將壓縮后的Web存檔規(guī)模與未經(jīng)壓縮的Web存檔規(guī)模進行比較。

18GB/Z××××—××××/ISO/TR14873:2013(E)

——壓縮后的規(guī)模代表著資源的磁盤占有情況,它是用于提供存儲及長期保存的參考規(guī)模。

——未壓縮的規(guī)模代表在實時Web上的資源體量,它的目標是人類用戶,從知識或內(nèi)容角度來看這

很重要。

Web存檔規(guī)模還可以在去重前、后進行評估,原因在中已列舉。應再次明確表示計算方法。

使用容器文件來存儲文件也是一種常用的方法,如ARC或WARC文件。容器化方法把文件集成起來,

使得存儲和處理幾個較大的文件比存儲和處理大量小文件更容易。容器文件通常允許元數(shù)據(jù)與采集的資

源一起存儲。容器文件的數(shù)量對于Web存檔也是一個有用的統(tǒng)計數(shù)據(jù),因為它們通常用作存儲、數(shù)據(jù)交

換的基本管理單元,有時還用于長期保存的目的。

4.2.6資源集合建設的核心統(tǒng)計數(shù)據(jù)

表2資源集合建設的核心統(tǒng)計數(shù)據(jù)

統(tǒng)計數(shù)據(jù)目的例子

目標數(shù)采集目標/量化產(chǎn)出8000個目標

目標抓取實例數(shù)采集目標/量化產(chǎn)出14000個目標抓取實例

URL數(shù)(去重前后)量化產(chǎn)出采集了140億個URL,去重后為100億

按狀態(tài)碼分布的URL數(shù)各類型資源數(shù)量成功抓取200萬個資源(狀態(tài)碼“200”)

域或主機數(shù)量化產(chǎn)出300萬個域名

按字節(jié)計算的規(guī)模(未壓縮及壓縮后,去重之前有200TB未壓縮資源,去重之后有

量化產(chǎn)出

去重前后)160TB壓縮資源

WARC或任何其他容器文件數(shù)量化產(chǎn)出18000個WARC文件

4.3資源集合表征

4.3.1概述

本節(jié)中提出的統(tǒng)計數(shù)據(jù)描述了Web存檔的特征,有助于確定Web存檔的范圍和做出明智的保存管

理決策。雖然有些統(tǒng)計數(shù)據(jù)只適用于選擇性采集或批量采集,但其他統(tǒng)計數(shù)據(jù)是通用的,適用于使用這

兩種策略建立的Web存檔。

Web存檔的規(guī)模通常避免由人工進行統(tǒng)計。有些統(tǒng)計數(shù)據(jù)只能通過抽樣采集,特別是那些與批量采

集有關(guān)的數(shù)據(jù)。選擇性采集可以通過人工采集統(tǒng)計數(shù)據(jù),但只應在無需耗費不必要資源的情況下進行。

4.3.2通用統(tǒng)計數(shù)據(jù)

按頂級域和二級域分布

.1目的

頂級域(TLDs)標示W(wǎng)eb存檔中資源的地理分布。國家圖書館和檔案館有權(quán)保存國家的全部知識

產(chǎn)出,他們對這一統(tǒng)計數(shù)據(jù)特別感興趣。用于特定領(lǐng)域、特定類別的機構(gòu)的二級域也很有用,它揭示了

存檔資源的廣泛性質(zhì)。例如,域名下的資源由中國政府機構(gòu)發(fā)布。

.2方法

頂級域和二級域的分布可以從存檔爬蟲或其他分析域的自動化方法生成的報告中自動計算出來。域

的分布情況可以用絕對數(shù)量或者百分比來評估。列出Web存檔中出現(xiàn)頻率最高的前5個或前10個頂級

域也很有用。

——采集的國家頂級域的數(shù)量或百分比:法國國家圖書館最近抓取的域中,70%的URL為.fr域

19

GB/Z××××—××××/ISO/TR14873:2013(E)

名,3%的URL為.de域名。

——采集的二級域的數(shù)量或百分比:法國國家圖書館最近抓取的域中,1.5%的URL為.gouv.fr域

名,這些域名是由法國政府機構(gòu)發(fā)布的。

如果一個Web存檔中國家頂級域的比例大于其他域,則可視其為國家范圍存檔。

.3局限性

有些機構(gòu)會將托管在它們國家頂級域之外的資源納入考慮范圍。例如,(丹麥公司)

雖然使用非.dk域名,但被視為丹麥網(wǎng)站。這表明國家頂級域并不總是足以界定國家域的范圍或邊界。

按每個域(和/或主機)的資源體量分布

.1目的

分析和報告每個域和/或主機下托管的資源規(guī)模以及這些資源在Web存檔中的分布情況,不僅可以深

入了解資源集合的特征,還有助于管理抓取進程。

按Web存檔中域和/或主機的規(guī)模分布可以揭示托管在某些特定類型域中的資源特征。同時也是存檔

采集各種規(guī)模資源的能力標志,尤其是那些技術(shù)上難以抓取的大型網(wǎng)站。

對不同規(guī)模的資源按照域和/或主機進行分組也有助于配置和組織抓取進程。常見的做法是將相似

規(guī)模的域分組并作為獨立的進程或“作業(yè)”進行抓取,因為它們需要相似的設置以及相似的時間來完成。

這種做法可以充分利用機器資源并簡化監(jiān)控和管理的任務。

.2方法

每個域和/或主機的資源體量可以用MB/GB/TB來評估:

·<10MB;

·<100MB;

·101-999MB;

·1GB;

·>1GB。

或者,也可以計算每個域中URL的數(shù)量:

·<10000URL;

·50000-100000URL;

·>100000URL。

確定實時Web上每個域的資源體量的唯一方法是使用搜索引擎提供的數(shù)據(jù)。對于Web存檔,上述

統(tǒng)計數(shù)據(jù)可以從抓取報告中自動計算出來,或者通過其他分析存儲文件的自動化方法來獲得。

.3局限性

與前面章節(jié)中提出的一些其他統(tǒng)計數(shù)據(jù)一樣,該統(tǒng)計數(shù)據(jù)在某種程度上是近似值。這些數(shù)據(jù)可以做

比較,在進行長期評估時會更有用。

按格式類型分布

.1目的

分析和報告Web存檔中文件格式的分布是一項關(guān)鍵的數(shù)字保存活動,也是存檔表征的一個元素。

為了管控與格式過時有關(guān)的保存風險,了解存檔中存在的文件類型是非常必要的。

格式信息相當于圖書館傳統(tǒng)上用于出版物目錄的高級分類,如圖片、電影和錄音。長期采集這些信

息還可以揭示技術(shù)趨勢,幫助我們了解Web的演變。

20GB/Z××××—××××/ISO/TR14873:2013(E)

.2方法

格式統(tǒng)計數(shù)據(jù)可以從抓取報告中自動計算出來,或者通過其他分析存儲文件的自動化方法來獲得。

格式類型的分布可以用不同的方式來計算和組織,例如:

——按資源類型:70%的文件是文本(如html),15%是圖片(如jpeg和gif),3%是音頻(如

mpeg);

——按最常見的文件格式(前50或前100):例如,html是最常見的文件格式;

——通過跟蹤某些特定格式,從該格式在存檔中首次出現(xiàn)開始,跟蹤其隨時間推移增加或減少的

情況;

——按最少使用的格式類型:例如,如果給定Web存檔中的視頻格式?jīng)]有實時Web上的重要,這

表明它們可能不是存檔中的典型格式。

.3局限性

分析Web存檔

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論