圖書館關聯(lián)數(shù)據(jù)機會與挑戰(zhàn)_第1頁
圖書館關聯(lián)數(shù)據(jù)機會與挑戰(zhàn)_第2頁
圖書館關聯(lián)數(shù)據(jù)機會與挑戰(zhàn)_第3頁
圖書館關聯(lián)數(shù)據(jù)機會與挑戰(zhàn)_第4頁
圖書館關聯(lián)數(shù)據(jù)機會與挑戰(zhàn)_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

圖書館關聯(lián)數(shù)據(jù)機會與挑戰(zhàn)

關聯(lián)數(shù)據(jù)是一種旨在提高網(wǎng)絡數(shù)據(jù)機器可讀性的技術框架,它通過構建網(wǎng)絡環(huán)境下數(shù)據(jù)的引用和解引(reference/dereference)機制來建立數(shù)據(jù)之間的關聯(lián),從而實現(xiàn)數(shù)據(jù)在Web平臺上的分享與重用。關聯(lián)數(shù)據(jù)的核心是將數(shù)據(jù)和網(wǎng)絡融合起來,一旦數(shù)據(jù)用關聯(lián)數(shù)據(jù)的原理發(fā)布,數(shù)據(jù)就成為網(wǎng)絡的一部分,實現(xiàn)網(wǎng)絡即數(shù)據(jù)這個偉大的理想。圖書館一方面作為數(shù)據(jù)的發(fā)布者,另一方面又作為數(shù)據(jù)的消費者,顯然不能游離于關聯(lián)數(shù)據(jù)運動之外,那么關聯(lián)數(shù)據(jù)會給圖書館帶來什么?圖書館如何應用關聯(lián)數(shù)據(jù)?圖書館應用關聯(lián)數(shù)據(jù)有哪些挑戰(zhàn)?本文試圖探討這些基本問題。1圖書館關聯(lián)數(shù)據(jù)應用現(xiàn)狀從宏觀上說,關聯(lián)數(shù)據(jù)給圖書館帶來了機會,讓圖書館有可能遵循一種泛在的技術規(guī)范提供服務,從而真正地將自己融入到整個信息世界中去。近年來圖書館關聯(lián)數(shù)據(jù)應用有了長足發(fā)展,但總體上說目前還處于起步階段。2010年9月在英國召開了國際知識組織協(xié)會大會,這次大會的主題是“關聯(lián)數(shù)據(jù):Web知識組織的未來”(LinkedData:TheFutureofKnowledgeOrganisationontheWeb)。一位作者在報道這次大會時,用的標題是“關聯(lián)數(shù)據(jù)還處在早期階段,但文化變化得很快”[1]。這個標題非常確切地概括了圖書館關聯(lián)數(shù)據(jù)發(fā)展現(xiàn)狀。自2006年TimBerners-Lee提出關聯(lián)數(shù)據(jù)概念不久,圖書館界很快就對關聯(lián)數(shù)據(jù)的應用作了有益探索。2008年美國國會圖書館的Ed.Summers建立了lcsh.Info網(wǎng)站,將國會圖書館主題詞表(LCSH)以關聯(lián)數(shù)據(jù)的形式通過這個網(wǎng)站發(fā)布;同年瑞典國家圖書館也將瑞典全國聯(lián)合目錄LIBRIS采用了關聯(lián)數(shù)據(jù)框架,成為首家關聯(lián)編目數(shù)據(jù)提供者。更為重要的是,這兩個項目不是孤立進行,而是相互連接起來的。LIBRIS的瑞典語主題詞通過Summers的I提供的URI,和美國國會圖書館主題詞關聯(lián)起來,完成了一個完整的關聯(lián)圖書館數(shù)據(jù)的開拓性實驗。隨后有大量的圖書館關聯(lián)數(shù)據(jù)項目涌現(xiàn)出來,從開放知識基金會網(wǎng)站登記的關聯(lián)數(shù)據(jù)項目情況來看,圖書館關聯(lián)數(shù)據(jù)項目已達到51個(截止到2011年9月)[2],這些關聯(lián)數(shù)據(jù)項目總共提供了4,576,472,613個RDF三元組,平均每個項目包含89,734,757.12個三元組。這51個項目中有33家提供了SPARQLEndpoint服務,占64.7%。這些項目包括了圖書館書目數(shù)據(jù)、圖書館規(guī)范主題詞數(shù)據(jù)、規(guī)范人名數(shù)據(jù)等,還包括MARC、DDC等圖書館標準、工具的關聯(lián)數(shù)據(jù)形式。其中有20個書目數(shù)據(jù),約占39%左右;13個是規(guī)范控制數(shù)據(jù),其中6個數(shù)據(jù)集是主題詞服務,其余是人名控制和其他規(guī)范控制服務。還有6個關聯(lián)數(shù)據(jù)集是專門的術語服務。由此可見,目前圖書館關聯(lián)數(shù)據(jù)主要集中在書目數(shù)據(jù)、規(guī)范數(shù)據(jù)和術語服務三個主要領域。關聯(lián)數(shù)據(jù)的核心之一就是和其他數(shù)據(jù)集實現(xiàn)數(shù)據(jù)共享和相互關聯(lián)。在圖書館關聯(lián)數(shù)據(jù)的51個實例中,共關聯(lián)了56個外部數(shù)據(jù)集,在數(shù)據(jù)集之間構建了116個關聯(lián)關系,平均每一個圖書館關聯(lián)數(shù)據(jù)項目和2個以上的外部數(shù)據(jù)集實現(xiàn)數(shù)據(jù)共享和重用。這116個關聯(lián)關系中,總共包含了大約381,238,848個數(shù)據(jù)層面的連接。平均每個關聯(lián)數(shù)據(jù)項目中有7,475,272條數(shù)據(jù)和外部數(shù)據(jù)相關聯(lián)。其中DBpedia,LCSH等關聯(lián)數(shù)據(jù)集是圖書館關聯(lián)數(shù)據(jù)主要的關聯(lián)對象,DBpedia被關聯(lián)了12次,獨占鰲頭。表1展示了51個圖書館關聯(lián)數(shù)據(jù)項目和外部數(shù)據(jù)相關聯(lián)的基本數(shù)據(jù)。分析圖書館關聯(lián)數(shù)據(jù)外聯(lián)資源分布情況,發(fā)現(xiàn)外聯(lián)資源主要是規(guī)范數(shù)據(jù)服務,尤其是規(guī)范主題詞服務,特別是國會圖書館主題詞表以關聯(lián)數(shù)據(jù)形式開放后,成為圖書館關聯(lián)數(shù)據(jù)的一個鏈接中心。OCLC的VIAF也是圖書館關聯(lián)數(shù)據(jù)外聯(lián)的重要數(shù)據(jù)源。和以往不同的是,圖書館關聯(lián)數(shù)據(jù)的發(fā)展得到了外界的重視和推動。由于圖書館保存了大量的書目數(shù)據(jù),這些數(shù)據(jù)構建了一幅完整的人類知識地圖。當人們試圖將Web構建成一個大規(guī)模的數(shù)據(jù)空間時,沒有書目數(shù)據(jù)將是不完整的。2010年5月W3C成立了一個圖書館關聯(lián)數(shù)據(jù)孵化小組,專門探討圖書館如何應用關聯(lián)數(shù)據(jù)技術來增進現(xiàn)有的各種圖書館技術,如元數(shù)據(jù)、元數(shù)據(jù)標準和其他技術協(xié)議在網(wǎng)絡環(huán)境下的互操作性,鼓勵和促進圖書館將他們的數(shù)據(jù)在網(wǎng)絡環(huán)境下實現(xiàn)互操作并向其他領域開放。2關聯(lián)數(shù)據(jù),圖書館的機遇W3C的圖書館關聯(lián)數(shù)據(jù)孵化小組于2011年8月活動結束時,發(fā)表了一份研究報告。這份報告建議,圖書館應該從兩個方面來擁抱信息網(wǎng)絡:利用關聯(lián)數(shù)據(jù)將圖書館的數(shù)據(jù)變成可利用的;將數(shù)據(jù)網(wǎng)絡融入到圖書館服務中去。報告認為,圖書館數(shù)據(jù)應該完全整合到其他網(wǎng)絡資源中去,為信息搜尋者創(chuàng)建顯著的圖書館數(shù)據(jù)可見度,并把圖書館服務直接帶給他們。報告提出了一個讓圖書館人振奮的觀點,那就是圖書館能夠在數(shù)據(jù)網(wǎng)絡運動中擔當領導者的角色[3]。類似的觀點還見諸EricMiller的一次演講,Eric提出,圖書館面臨獨一無二的機遇,那就是他們不僅能為關聯(lián)數(shù)據(jù)世界貢獻數(shù)據(jù),而且能夠引領多種關聯(lián)數(shù)據(jù)建設的實踐[4]。關聯(lián)數(shù)據(jù)不僅為圖書館奠定了一個新的活動舞臺,同時也需要圖書館存這個舞臺上扮演主要角色。如果沒有圖書館的參與,關聯(lián)數(shù)據(jù)的發(fā)展是不完備的,甚至是不可能實現(xiàn)的,這也是為什么W3C報告會認為圖書館將在關聯(lián)數(shù)據(jù)運動中擔當領導者的角色。關聯(lián)數(shù)據(jù)不是一個封閉孤立的數(shù)據(jù)空間,而是一個社會性的數(shù)據(jù)環(huán)境,Heath提出了一個關聯(lián)數(shù)據(jù)的基本架構[5](見圖1)。圖1關聯(lián)數(shù)據(jù)框架[5]從圖1看出,關聯(lián)數(shù)據(jù)應用有三個功能層:數(shù)據(jù)發(fā)布層、數(shù)據(jù)存取整合和保存層、數(shù)據(jù)應用層。數(shù)據(jù)發(fā)布層主要由數(shù)據(jù)發(fā)布者構成,它們是關聯(lián)數(shù)據(jù)網(wǎng)的數(shù)據(jù)提供者,數(shù)據(jù)應用層由關聯(lián)數(shù)據(jù)消費者構成,它們主要是應用關聯(lián)數(shù)據(jù)來滿足自身的數(shù)據(jù)需求。中間一層,即數(shù)據(jù)存取、整合和保存層是由關聯(lián)數(shù)據(jù)的第三方參與者構成,它提供了一系列基礎服務,如本體詞匯的維護、不同本體詞匯之間的相互映射、數(shù)據(jù)標識的規(guī)范控制等。這一層其實是關聯(lián)數(shù)據(jù)網(wǎng)的基礎設施,它構建了關聯(lián)數(shù)據(jù)發(fā)布者和消費者之間的橋梁。圖書館顯然可以存在于這三個功能層中,它可以作為數(shù)據(jù)的發(fā)布者,而成為發(fā)布層的主要組成部分;它又可以成為關聯(lián)數(shù)據(jù)的消費者;更重要的是,圖書館以其得天獨厚的優(yōu)勢可以擔當?shù)谌降慕巧蔀閿?shù)據(jù)存取整合和保存層的主力軍。尤其在構建關聯(lián)數(shù)據(jù)網(wǎng)的信任機制方面,圖書館可以作出重要貢獻。語義網(wǎng)層次結構的頂層是信任層,它確保語義網(wǎng)數(shù)據(jù)是可靠的。關聯(lián)數(shù)據(jù)作為語義網(wǎng)的具體實現(xiàn),是一個開放的數(shù)據(jù)環(huán)境,如何確保這個開放環(huán)境的有序性,建立有效的機制來確保數(shù)據(jù)的可信度,辨別“好”的關聯(lián)數(shù)據(jù)和“壞”的關聯(lián)數(shù)據(jù),成為數(shù)據(jù)網(wǎng)絡發(fā)展的關鍵。圖書館數(shù)據(jù)是高質(zhì)量的,由訓練有素的專業(yè)人員搜集、修訂和維護,正因為如此,圖書館數(shù)據(jù)有可能成為關聯(lián)數(shù)據(jù)信任機制中迫切需要的支柱[6]。關聯(lián)數(shù)據(jù)信任機制的重要組成部分是確定數(shù)據(jù)的來源(dataprovenance),追溯數(shù)據(jù)的來源是確定數(shù)據(jù)可靠性的主要手段,數(shù)據(jù)的內(nèi)容由誰提供?這些數(shù)據(jù)通過哪些過程處理過?誰保存這些數(shù)據(jù)?這一切都是判斷數(shù)據(jù)可靠性的依據(jù)。Hartig[7]2009年曾經(jīng)提出了一個關聯(lián)數(shù)據(jù)來源的概念模型,這個模型定義了數(shù)據(jù)來源的基本組件:行為者(actors)、實施(executions)和制成品(artifacts)。一個數(shù)據(jù)來源信息可以表述為一個判斷:行為者實施一個過程形成或施用一個制成品。行為者主要是數(shù)據(jù)創(chuàng)建者,包括數(shù)據(jù)創(chuàng)建實體,數(shù)據(jù)創(chuàng)建服務和數(shù)據(jù)創(chuàng)建設備。行為者還包括數(shù)據(jù)發(fā)布者、數(shù)據(jù)服務提供者等。如何表述和保存這些信息,是數(shù)據(jù)來源機制的核心,同時也是挑戰(zhàn)。圖書館擁有獨特的信息資源,尤其是維護了海量的人名和機構、規(guī)范、數(shù)據(jù),這些數(shù)據(jù)經(jīng)過訓練有素的圖書館員搜集規(guī)范查驗整理,記錄了大量人名與機構名稱變遷的歷史,成為具有很高可靠性的數(shù)據(jù)源,完全可以成為追蹤數(shù)據(jù)來源的基礎資源。同時,機器雖然可以完成一部分數(shù)據(jù)來源的追蹤工作,但是很多情況下還需要人工干預。尤其是數(shù)據(jù)來源表述的一個重要手段是注釋方法(Annotationmethod)[8],這種方法和圖書館界的信息組織方法非常相似。圖書館界擁有一大批經(jīng)過專門訓練,信息整理組織經(jīng)驗豐富的專業(yè)人員,他們完全可以承擔關聯(lián)數(shù)據(jù)的整理組織和來源追蹤確認的工作。在長期的全球性書目控制工作中,圖書館界還形成了一個全球合作分享數(shù)據(jù)的機制與模式,這種機制同樣可以運用到數(shù)據(jù)網(wǎng)絡的規(guī)范組織中去。3關聯(lián)數(shù)據(jù)在圖書館領域的應用模式自2008年以來已有很多圖書館關聯(lián)數(shù)據(jù)應用項目出現(xiàn),這些應用項目覆蓋了圖書館服務領域的許多方面,書目數(shù)據(jù)和規(guī)范數(shù)據(jù)是圖書館關聯(lián)數(shù)據(jù)應用的主要對象??v觀現(xiàn)有的關聯(lián)數(shù)據(jù)應用,我們可以將圖書館關聯(lián)數(shù)據(jù)應用歸納為四種模式:發(fā)布、消費、服務和平臺。3.1發(fā)布將圖書館數(shù)據(jù)以關聯(lián)數(shù)據(jù)的形式發(fā)布出來,以便其他網(wǎng)絡可以利用這些數(shù)據(jù),這是圖書館關聯(lián)數(shù)據(jù)應用的主要模式。圖書館書目數(shù)據(jù)關聯(lián)數(shù)據(jù)化已經(jīng)成為一個熱點,根據(jù)開放知識基金會網(wǎng)站圖書館關聯(lián)數(shù)據(jù)組的數(shù)據(jù)統(tǒng)計,共有九個國家級圖書館發(fā)布了18個關聯(lián)數(shù)據(jù)集,這些數(shù)據(jù)包括書目數(shù)據(jù)、主體規(guī)范數(shù)據(jù)和名稱規(guī)范數(shù)據(jù)(見表2)。書目數(shù)據(jù)和規(guī)范數(shù)據(jù)是圖書館界原生的數(shù)據(jù)。首先,關聯(lián)書目/規(guī)范數(shù)據(jù)實現(xiàn)了真正意義上的數(shù)據(jù)開放,圖書館數(shù)據(jù)因此成為一種通過網(wǎng)絡向其他應用提供的數(shù)據(jù)服務。其次,關聯(lián)數(shù)據(jù)技術也可以將書目數(shù)據(jù)和其他數(shù)據(jù)融合起來,使書目信息更加豐富和完整,在書目數(shù)據(jù)多元化的環(huán)境下,圖書館面臨的挑戰(zhàn)不在于是否需要發(fā)布關聯(lián)書目數(shù)據(jù),也不在于如何發(fā)布關聯(lián)書目數(shù)據(jù),核心問題在于如何界定關聯(lián)數(shù)據(jù)的主要功能需求。用戶是否能夠從圖書館發(fā)布的關聯(lián)書目數(shù)據(jù)和規(guī)范數(shù)據(jù)中獲得更多、更可靠、更準確的信息,并在此基礎上提供增值服務。第三,從圖書館界內(nèi)部業(yè)務過程看,關聯(lián)數(shù)據(jù)的應用確保了數(shù)據(jù)的重用和分享,使得圖書館數(shù)據(jù)流程更加清晰。圖書館的原創(chuàng)性數(shù)據(jù)不只是書目數(shù)據(jù)和規(guī)范數(shù)據(jù),圖書館,特別是學術圖書館還能提供更多的數(shù)據(jù)增值服務,比如資源導航數(shù)據(jù)、研究信息等。這些數(shù)據(jù)增值服務也可以通過關聯(lián)數(shù)據(jù)的形式開放出來,其他系統(tǒng)通過消費圖書館提供的增值性數(shù)據(jù),在系統(tǒng)中嵌入圖書館的服務。3.2消費從消費關聯(lián)數(shù)據(jù)的角度看,關聯(lián)數(shù)據(jù)具有很強的數(shù)據(jù)整合和重用功能。圖書館系統(tǒng)可以通過消費關聯(lián)數(shù)據(jù)的方式來整合外部數(shù)據(jù),通過關聯(lián)數(shù)據(jù)將各種數(shù)據(jù)源無縫地關聯(lián)起來,將圖書館資源建成一個廣域分布的數(shù)據(jù)庫。尤其重要的是,關聯(lián)數(shù)據(jù)不僅是裸數(shù)據(jù),也描述了數(shù)據(jù)之間的相關關系,關聯(lián)數(shù)據(jù)對關系形式化描述,形成一張關系地圖,使得機器可以通過理解和處理數(shù)據(jù)之間的各種關系,發(fā)現(xiàn)新的數(shù)據(jù)。通過關聯(lián)數(shù)據(jù)圖書館系統(tǒng)可以按圖索驥,集成更多的信息與功能。我們可以通過一個具體實例,來展示圖書館系統(tǒng)如何通過應用關聯(lián)數(shù)據(jù)來整合不同來源的數(shù)據(jù)與功能,以豐富圖書館數(shù)據(jù)服務的內(nèi)容,向讀者提供完整的信息資源。圖2關聯(lián)數(shù)據(jù)消費樣例圖2是關聯(lián)數(shù)據(jù)消費的一個試驗網(wǎng)站的網(wǎng)頁截圖,這個網(wǎng)站列出了將近50個國家圖書館的名稱和簡介,同時將圖書館的地理位置標注在地圖上。所有國家圖書館的簡介來自DBpedia,Wikipedia的關聯(lián)數(shù)據(jù)版本。通過DBpedia提供的圖書館位置的經(jīng)緯度,再調(diào)用Google的地圖API,將圖書館的位置標注在地圖上。為實現(xiàn)這個功能,系統(tǒng)先運行一個SPARQL查詢:從這個實例我們看出:①關聯(lián)數(shù)據(jù)的消費是通過機器完成的,換句話說,關聯(lián)數(shù)據(jù)是為程序設計準備的,它提出了一系列共同遵守的規(guī)范,確保系統(tǒng)開發(fā)者能夠準確理解數(shù)據(jù)的含義,并使用這些數(shù)據(jù)。這些含義就是語義網(wǎng)所說的語義。在本例中,語義體現(xiàn)在dcterms:subject,geo:long,geo:lat,dbpedia-owl:abstract和rdfs:label。這些語義描述保證了應用系統(tǒng)能夠準確地使用從DBpedia中獲取的數(shù)據(jù)。②SPAHQL,包括SPARQL語句和SPARQLEndpoint,是消費關聯(lián)數(shù)據(jù)的重要組件。SPARQL語句具有非常強大的表達能力,幾乎可以表達所有的對RDF數(shù)據(jù)的查詢需求。消費關聯(lián)數(shù)據(jù)的核心是構建SPARQL語句,并通過SPARQLEndPoint運行這個語句,從而獲得所需要的數(shù)據(jù)。3.3服務雖然關聯(lián)數(shù)據(jù)本身是一種數(shù)據(jù)服務,但是圖書館數(shù)據(jù)僅僅以關聯(lián)數(shù)據(jù)的形式發(fā)布出來是不夠的,用戶來消費這些關聯(lián)數(shù)據(jù)不僅僅是要連接幾個數(shù)據(jù)點,而是需要更多的功能和服務。所以圖書館關聯(lián)數(shù)據(jù)需要提供各種增值服務,將數(shù)據(jù)和功能綁定在一起,這樣才能充分發(fā)揮圖書館的數(shù)據(jù)優(yōu)勢。比如圖書館在提供關聯(lián)規(guī)范數(shù)據(jù)的同時,是否能夠提供抽詞服務、規(guī)范控制詞映射服務等。目前,圖書館基于關聯(lián)數(shù)據(jù)的服務還是一個空白,不僅沒有開展這樣的先導性服務,即便研究課題也鮮有涉及。然而,放眼圖書館界以外的關聯(lián)數(shù)據(jù)世界,還是可以看到很多有寶貴借鑒價值的應用,湯森路透公司的OpenCalais就是一個很好的服務模式[9]。OpenCalais是一個集合自然語言處理、機器學習等技術來實現(xiàn)自動生成基于文本內(nèi)容的語義元數(shù)據(jù)的網(wǎng)絡服務,它可以分析文本的內(nèi)容,在文本中發(fā)現(xiàn)各種實體,如人物、機構、事件等,并將這些實體提取出來并以關聯(lián)數(shù)據(jù)形式發(fā)布,便于搜索引擎發(fā)現(xiàn)和索引(見圖3)。圖3Calais功能結構[9]為了實現(xiàn)這個功能,OpenCalais提供了四種服務模式:內(nèi)容管理系統(tǒng)工具、開發(fā)工具和庫、瀏覽器擴展和應用系統(tǒng)。這四種模式基本上體現(xiàn)了基于功能的網(wǎng)絡服務的主要模式。尤其是內(nèi)容管理工具將OpenCalais的功能嵌入內(nèi)容管理系統(tǒng)中去。圖書館界關聯(lián)數(shù)據(jù)服務可以借鑒OpenCalais的服務模式,不僅開放數(shù)據(jù),同時開放功能,這樣才能將圖書館數(shù)據(jù)真正嵌入到社會信息基礎結構中去,使圖書館數(shù)據(jù)不僅存在于網(wǎng)絡,而且成為網(wǎng)絡的一部分。3.4平臺平臺其實是一種開放環(huán)境,用戶可以利用平臺提供的基礎資源和功能來實現(xiàn)自己的應用。提供應用平臺,是圖書館尤其是大型圖書館應用關聯(lián)數(shù)據(jù)的有效途徑。關聯(lián)數(shù)據(jù)應用平臺化的一個有效嘗試是美國國會圖書館的Recollection項目。Recollection是國會圖書館全國數(shù)字化信息基礎設施和長期保存項目(NationalDigitalInformationInfrastructureandPreservationProgram)的一部分。2009年,國會圖書館和Zepheira公司合作,開發(fā)一個用于收集和發(fā)現(xiàn)數(shù)字化資源的平臺環(huán)境,Recollection就是這個項目的成果。Recollection允許學者、圖書館或其他機構上傳各種數(shù)字化資源,生成各種顯示界面,包括交互式地圖、時間列表等,并且可以讓這些數(shù)字資源嵌入各種應用中。Recollection采用了關聯(lián)數(shù)據(jù)框架,其關聯(lián)數(shù)據(jù)特征體現(xiàn)在三個方面[10]:①用URI來揭示資源,這是關聯(lián)數(shù)據(jù)四原則中的第一個原則,即采用URI作為資源的唯一標識符,這樣任何網(wǎng)絡資源都有一個唯一的名稱。各種資源從幕后走向前臺,成為網(wǎng)絡結構的一部分,易于被發(fā)現(xiàn)和指證。②利用HTTP協(xié)議來存取資源,這滿足了關聯(lián)數(shù)據(jù)的第二個原則,HTTP協(xié)議是萬維網(wǎng)的基礎協(xié)議,被廣泛支持。幾乎所有系統(tǒng)和開發(fā)工具都支持HTTP協(xié)議,從而使得資源的存取方法具有廣泛的適用性和便利性。③利用通用的數(shù)據(jù)格式最大限度地促進數(shù)據(jù)的重用和分享。Recollection可以提供RDF/XML,HTML,Semanticwikitext,JSON等多種機器可讀的數(shù)據(jù)格式,這些數(shù)據(jù)攜帶各種語義信息,以便各種應用系統(tǒng)理解數(shù)據(jù)的含義,準確地使用這些數(shù)據(jù)。這是關聯(lián)數(shù)據(jù)第三原則所要求的。雖然根據(jù)TimBerners-Lee[11]關聯(lián)數(shù)據(jù)應用的五星級標準,Recollection目前只是四星級的關聯(lián)數(shù)據(jù)應用,但是這個嘗試卻是圖書館提供關聯(lián)數(shù)據(jù)應用平臺的先導,值得關注和研究。4關聯(lián)數(shù)據(jù)與圖書館服務的轉型圖書館顯然能夠從關聯(lián)數(shù)據(jù)應用中獲益,有學者總結了圖書館會在以下方面從關聯(lián)數(shù)據(jù)應用中獲得好處[12]:①關聯(lián)數(shù)據(jù)能夠讓圖書館以通用的格式(RDF)來發(fā)布各種事實性調(diào)查數(shù)據(jù),這些數(shù)據(jù)能夠容易被其他系統(tǒng)匯聚和利用,從而使圖書館能夠有效地支持“基于證據(jù)的決策”(evidence-baseddecision-making);②通過采用關聯(lián)數(shù)據(jù)技術,圖書館能夠成為一個關聯(lián)樞紐,這個樞紐可以連接各種圖書館相關者,將其整合在一起,形成一個真正的集成圖書館系統(tǒng)。③關聯(lián)數(shù)據(jù)有助于圖書館實現(xiàn)“智能聯(lián)合檢索”(smartfederatedsearch)。如果各種數(shù)據(jù)都以標準的數(shù)據(jù)格式發(fā)布出來,那么很多智能聯(lián)合檢索的問題都可以迎刃而解。④關聯(lián)數(shù)據(jù)還有助于實現(xiàn)基于語義的搜索引擎。圖書館利用關聯(lián)數(shù)據(jù)最為重要的價值不在于具體的技術改善,而是關聯(lián)數(shù)據(jù)將從根基上改變圖書館在整個社會信息基礎結構中的地位。關聯(lián)數(shù)據(jù)本質(zhì)上是一種Web數(shù)據(jù)服務,是面向機器的。關聯(lián)數(shù)據(jù)在圖書館界的應用必然帶來圖書館用戶概念的變化,圖書館不僅要為活生生的人服務,同時也要為機器服務。當機器成為圖書館的主要服務對象后,圖書館的性質(zhì)就會發(fā)生質(zhì)的轉變,圖書館可能會從前臺服務轉為后臺服務,成為整個社會信息系統(tǒng)的一個基礎設施。圖書館員的角色也會發(fā)生變化,他們通過控制資源的源頭來確保數(shù)據(jù)整合的可靠性,其他事情就可以交給機器依據(jù)關聯(lián)數(shù)據(jù)原則去整合,這樣既體現(xiàn)了圖書館員的智力貢獻,又借助了機器的高效率,使得圖書館能夠應付瞬息萬變的信息世界。國會圖書館的DanielChudnov[13]在一篇文章中描繪了圖書館為機器服務的一個例子,他在討論關聯(lián)數(shù)據(jù)對圖書館OPAC會產(chǎn)生什么影響時,提出在移動終端日益普及的今天,圖書館可以將現(xiàn)有的指代性元數(shù)據(jù)(Surrogatemetadata)和對象結合起來,使圖書館的OPAC不只是圖書館館藏的描述,而是通過關聯(lián)數(shù)據(jù)提供更多的信息,這樣用戶可以通過移動終端訪問OPAC來獲取和具體館藏相關聯(lián)的整個知識對象。關聯(lián)數(shù)據(jù)的應用還將加強圖書館目錄服務的功能,文獻[14]報道了挪威奧斯陸公共圖書館采用關聯(lián)數(shù)據(jù)提升圖書館編目系統(tǒng)的實踐,這個稱作Pode的項目旨在通過各種Mashup技術,如Z39.50、SRU和FRBR、關聯(lián)數(shù)據(jù)技術等為用戶提供更強的檢索功能來獲取各種公共數(shù)據(jù)。這個項目連接了OCLC提供的杜威十進制分類系統(tǒng)關聯(lián)數(shù)據(jù)服務,同時由于采用了RDF格式,提供了更強大的智能化的查詢功能,因為RDF提供了對關系的描述,這就使用戶可以基于關系查詢。5關聯(lián)數(shù)據(jù)應用的技術性挑戰(zhàn)關聯(lián)數(shù)據(jù)在圖書館應用的挑戰(zhàn)首先在于總體架構的設計方面。關聯(lián)數(shù)據(jù)不是一種具體的技術,而是一種模式,一種數(shù)據(jù)組織和共享的框架結構。其中數(shù)據(jù)的發(fā)現(xiàn)和檢索機制是決定關聯(lián)數(shù)據(jù)應用成功與否的關鍵。關聯(lián)數(shù)據(jù)的檢索與提取可以有多種模式,同題的關鍵在于如何構造動態(tài)的關聯(lián)數(shù)據(jù)查詢和提取模式。目前比較定型的關聯(lián)數(shù)據(jù)檢索機制應該是SPARQL,SPARQL可以和關系數(shù)據(jù)庫的SQL相提并論,它提供了一套完備的檢索描述機制。從目前現(xiàn)有的圖書館關聯(lián)數(shù)據(jù)的應用看,越來越多的圖書館在發(fā)布關聯(lián)數(shù)據(jù)的同時也提供SPARQLEndpoint服務,但總體上,發(fā)現(xiàn)機制和檢索機制方面的探索還非常薄弱。其次,關聯(lián)數(shù)據(jù)是一種語義數(shù)據(jù),從道理上說,數(shù)據(jù)的語義都被很好地描述出來。由于語義描述系統(tǒng)的多樣性,如何將不同語義系統(tǒng)的數(shù)據(jù)無縫地整合在一起,換句話說,如何實現(xiàn)不同語義描述系統(tǒng),即本體之間的互操作,包括映射和匹配,也是一個根本性的問題。消費關聯(lián)數(shù)據(jù)的關鍵之處在于整合和轉換不同的語義系統(tǒng),將其合并到本地語義系統(tǒng)中去,確保本地語義系統(tǒng)的一致性。另一方面,由于語義描述體系的多樣性,在本體整合過程中不可避免地會帶來本體冗余,即同樣的信息被不同的本體系統(tǒng)描述著,給本地系統(tǒng)消費關聯(lián)數(shù)據(jù)帶來不便,甚至有時每個本體描述系統(tǒng)的一致性和完整性都沒有很好地得到保障,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論