2024元數(shù)據(jù)應(yīng)用據(jù)管理_第1頁
2024元數(shù)據(jù)應(yīng)用據(jù)管理_第2頁
2024元數(shù)據(jù)應(yīng)用據(jù)管理_第3頁
2024元數(shù)據(jù)應(yīng)用據(jù)管理_第4頁
2024元數(shù)據(jù)應(yīng)用據(jù)管理_第5頁
已閱讀5頁,還剩126頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

目錄TOC\o"1-1"\h\u25292 11507第?章 46443第?章定義 1527377第三章 51第?章處可?的電?設(shè)備,不是依靠元數(shù)據(jù)來運?,就是?于產(chǎn)?元數(shù)默?聞,就像根本不存在?樣。?定程度上來說,這也讓元數(shù)據(jù)在2013年5?,美國國家安全局前外聘員?愛德華·斯諾登(Edward關(guān)美國國家安全局在本?進?監(jiān)聽活動的機密?件。這些監(jiān)聽?——“棱鏡”(PRISM),涉及直接向電信公司搜集電話呼叫的數(shù)美國媒體對斯諾登泄密事件反應(yīng)不?,隨著事態(tài)的發(fā)展,這些反應(yīng)的變化耐?尋味。對于美國國家安全局暗中搜集美國公?數(shù)據(jù)的?為,公眾當(dāng)時最直接的反應(yīng)就是群情激憤。然?隨著事件?趨明朗,讓?們?nèi)玑屩刎摰氖?,美國國家安全局搜集的僅僅是與電話呼叫有關(guān)的元數(shù)據(jù),?不是電話呼叫本?的內(nèi)容。換句話說,美國國家安全局沒有進?竊聽活動。這很快緩和了公眾的怒?。事態(tài)隨后急轉(zhuǎn)直下,媒體通過調(diào)查才發(fā)現(xiàn),憑借“區(qū)區(qū)”元數(shù)據(jù)居然能推斷出如此多的個?信息。在此之后,對這?事件的權(quán)威解讀才終于公之于眾。MetaPhone項?是斯坦福?學(xué)法學(xué)院互聯(lián)?與社會研究中?(Stanford?的?項研究,旨在重現(xiàn)美國國家安全局搜集電話呼叫元數(shù)據(jù)?法。他們發(fā)現(xiàn),?“區(qū)區(qū)”元數(shù)據(jù)居然能推斷出如此令?難以置信的信息量。MetaPhone的研究?員在報告中提到了這樣?個案例:?位研究對象分別打電話聯(lián)系了“家庭裝修?品店、鎖匠、?培植物經(jīng)銷商還有煙草???具店”。也許,打這些電話是出于?常單純、合理的原因,也許它們之間完全沒有關(guān)系……但是這可能并不是我們?多數(shù)?會得出的結(jié)論。許多元數(shù)據(jù)都與電話呼叫有關(guān),尤其是?機呼叫。?在與電話呼叫有關(guān)的元數(shù)據(jù)?段中,最顯?易?的就是撥打與接聽雙?的電話號碼,其次就是電話呼叫的時間與通話時?。如果使?具備GPS(全球定位系統(tǒng))功能的智能?機撥打電話,還可搜集到撥打與接聽雙?的地理位置信息,?少可以精確到通話雙??機所在地區(qū)?機信號塔的信號范圍。與?機呼叫關(guān)聯(lián)的元數(shù)據(jù)還有很多,但是如此少量的信息也?以讓倡導(dǎo)保護隱私的??再三思忖。因為即使你沒有在打電話,你的?機也會與本地?機信號塔之間交換數(shù)據(jù)。這樣?來,移動運營商就能隨時搜集你的位置信息以及?段時間內(nèi)的活動軌跡——根據(jù)斯諾登披露的機密?件顯?,移動運營商實際也在這樣做。當(dāng)然,前提是你?直帶著??的?機。元數(shù)據(jù)這個詞就這樣成了?個公眾話題。鑒于元數(shù)據(jù)如此?泛地存在,?們理應(yīng)更好地去了解它,?公眾也早應(yīng)該進?這樣的討論。在當(dāng)代世界中,計算活動?處不在,因此元數(shù)據(jù)像電?和?速公路??樣成了?種基礎(chǔ)設(shè)施。這些當(dāng)代基礎(chǔ)設(shè)施的構(gòu)成部分???發(fā)揮著不可或缺的作?,另???它們展現(xiàn)在我們?前的?只是冰???。?如,當(dāng)你觸動照明開關(guān)時,你就變成了?量技術(shù)與策略的最終?戶。分開來看,這些技術(shù)或策略也許微不?道、?關(guān)緊要……但是聚?起,就能帶來深遠的?化與經(jīng)濟影響。元數(shù)據(jù)亦是如此。就像電?和?速公路??樣,元數(shù)據(jù)不知不覺地融??常?活的背景之中,理所當(dāng)然地成為當(dāng)代社會得以穩(wěn)步前進的動?之?。作為?活在現(xiàn)代世界的公?,我們熟悉電?、?速公路?以及其他現(xiàn)代的基礎(chǔ)設(shè)施,也對其有著合理(盡管可能并不完整)的了解。但是除?你是?位信息技術(shù)科學(xué)家,或者是為美國國家安全局?作的情報分析師,否則可能?法對元數(shù)據(jù)形成這樣的認識。這就是我寫作本書的?的——向你介紹元數(shù)據(jù),以及元數(shù)據(jù)涉及的諸多主題與問題。我將探討什么是元數(shù)據(jù)及其存在的原因、適?于不同?戶與?例的各類元數(shù)據(jù)以及使現(xiàn)代元數(shù)據(jù)成為可能的?些技術(shù)這是?個元數(shù)據(jù)的世界,?你就?處其中隱形的元數(shù)當(dāng)你?進書店、從書架上拿起這本書的時候,你就已經(jīng)?到了元數(shù)據(jù)。什么吸引你來選擇或拿起這本書?是書名、出版社還是封?設(shè)計??論怎樣,毫?疑問不會是本書的內(nèi)容。當(dāng)然,現(xiàn)在你正在讀這本書,所以對其中的內(nèi)容已經(jīng)有了?些了解,但是在你拿起這本書之前沒有這樣的認識。這樣?來,你就不得不依賴有關(guān)這本書的其他提?或信息?段才能做出這樣的選擇。?這些所謂的“其他信息?段”就是元數(shù)據(jù),也就是“有關(guān)這本書的數(shù)據(jù)”。元數(shù)據(jù)真正發(fā)揮作?時,會隱于幕后、默默?聞,就像根本不存在?樣。你對書名、出版社和封?設(shè)計等要素已經(jīng)習(xí)以為常,甚?不會注意這本書是否有這些部分。但是如果這本書沒有書名、出版社或封?設(shè)計,你反?會意識到這些部分的缺失。我們對有關(guān)書籍的元數(shù)據(jù)已經(jīng)如此習(xí)慣,以?認為這是購書環(huán)境的?部分,不會對此多加思考。同樣,我們對許多事物的元數(shù)據(jù)也已經(jīng)習(xí)以為常,把它們作為?常環(huán)境的?部分,因此也不會去多加思考。為什么會這樣呢?元數(shù)英語中的元數(shù)據(jù)?詞最早出現(xiàn)于1968年,但是其概念可以追溯到世界上第?座圖書館。這是根據(jù)亞??多德的著作集《形?上學(xué)》(Metaphysics)特別創(chuàng)造的?個詞。盡管亞??多德從未?“形?上品集之中,以?它們是《物理學(xué)》(Physics)的延續(xù)或討論超脫于?主題的內(nèi)容。元數(shù)據(jù)?詞與此類似,它是指超脫于數(shù)據(jù)的事物,即有關(guān)于數(shù)據(jù)的?條或多條陳述。從語?學(xué)?度來看,這個詞雖是對希臘語前綴“meta-”的粗略翻譯,卻能與“meta”的?常?法保持?致,?盡管元數(shù)據(jù)?詞只有??年的歷史,然??千年來圖書館管理員們?直在?作中使?著元數(shù)據(jù),只不過我們現(xiàn)在所謂的“元數(shù)據(jù)”在歷史上被稱為“圖書館?錄信息”(informationinthelibrarycatalog)。館的館藏書籍中找到具體的資料。歷史學(xué)家們認為,卡利?科(Callimachus)在公元前245年前后為亞歷??圖書館制作的“卷錄”(Pinakes)是世界上第?套圖書?錄。雖然接下來的?千年中只有部分“卷錄”得以保存,但是?們?nèi)匀豢梢詮闹辛私獾揭韵?點:按體裁、書名以及作者姓名排列著作,并且對每位作者的?平進??定的介紹。卷錄除了收錄著作摘要,還列出了每本著作共有多少??字。回到2000多年后的今天,圖書?錄中仍然采?了許多相同的信息?段:作者、主題、簡介和篇幅等。然?公平地說,與卡利?科斯的卷錄相?,如今的圖書?錄采?了更多信息?段。每本著作都有唯?的編?號碼——根據(jù)某種編碼?案(例如,杜威?進制分類法)設(shè)計純數(shù)字或字?數(shù)字混編字符串——來幫助圖書館?戶在書架上找到作。對于藏書量巨?的圖書館來說,圖書編?號碼尤為關(guān)鍵,因為讀者必須?先找到相應(yīng)的較?藏書區(qū),然后才能進?步尋找單本書籍。很難想象卡利?科斯如何在沒有發(fā)明圖書編?號碼的情況下構(gòu)思出了卷錄——據(jù)說亞歷??圖書館藏書有50萬冊之多,?當(dāng)代的標(biāo)準來看,這個級別的藏書量也相當(dāng)之?。卷錄是?套卷軸。如果你曾經(jīng)在猶太教會堂?讀過《妥拉》,就會知道卷軸的“?戶界?”并不是那么友好——在不同章節(jié)之間切換簡直就是?種挑戰(zhàn)。實際上,猶太歷(Simchatorah)的節(jié)假?都為了慶?!锻桌氛b經(jīng)即將結(jié)束、?切要重新來過。如果你從來沒有讀過《妥拉》,也可以?較其他類似卷軸的技術(shù),?如錄?磁帶或VHS(家?錄像系統(tǒng))磁帶,過去,磁帶上?往往有即時貼來提們“聽后倒帶、舉?之勞”。簡??之,從實?性的?度來看,編寫卷錄絕?易事。從很多??來看,我們這些現(xiàn)代?直接稱之為“書”的?抄本采?的“?戶界?”要?卷軸先進得多。因此,?抄本?然?然在發(fā)明后就被?作圖書館?錄。以圖書形式呈現(xiàn)的圖書館?錄往往被名副其實地稱為“排架表”(shelflist)。物如其名,它是排架上的書籍列表,列表上的書?往往按圖書的采購順序先后排列。這種排序?法的優(yōu)點在于?便添加新條?——只需在列表末尾增加即可,但是當(dāng)?們想要從列表上查找某條書?的時候仍然不太?便。法國?在??命前后發(fā)明了卡?式?錄(cardcatalog)后,圖書館?的發(fā)展向前邁了??步。這種創(chuàng)新的?法分解了排架表,讓添加、刪除條?以及查找單獨條?變得更加?便。卷軸或?抄本式的?錄在完成后不便編輯,但是向卡?式?錄中增加條?時,你只需把新的卡?插到正確的位置即可。卡?式?錄分解了圖書館?錄,讓每條記錄(即為某本書建?的每個條?)成為可以獨?操控的對象。每條記錄中的數(shù)據(jù)?段(書名、作者等等)早在卷錄時代就已經(jīng)被分離了出來。即使?錄卡沒有采?書名、作者等?式來標(biāo)記單獨數(shù)據(jù)條?,每個數(shù)據(jù)?段所表達的類別仍然??了然。因此,我們可以將?錄卡分離為兩個維度:單獨項?的記錄以及所有項?共?的數(shù)據(jù)類別。如果我們按照這兩個維度分解?錄卡,那么就能形成多個數(shù)據(jù)庫以及現(xiàn)代化的元數(shù)據(jù)管理法(?圖1–1)。圖如果把?個數(shù)據(jù)集分解為記錄,那么每條記錄可以表達?個單獨數(shù)據(jù)項,記錄所包含的數(shù)據(jù)類別,其中多個數(shù)據(jù)項共??個類別,這實際上就是在創(chuàng)建電?表格。想?想電?表格的布局:每?是單個對象的?條記錄,?每列是這些對象的單獨特性?,F(xiàn)在,假設(shè)你要繪制?張電?表格,其中包含關(guān)于書籍的數(shù)據(jù),各列的表頭標(biāo)題應(yīng)該寫什么?書名、作者、出版社、出版數(shù)據(jù)、主題、編?號碼、?數(shù)、格式、維度等任何你可以想到的元素。接下來,每?則是單獨?本書的記錄,包含有關(guān)這本書的所有數(shù)據(jù)?段。這樣的表格就可以作為圖書館?錄(?表1–1)。表既然你已經(jīng)擁有了對象本?,為什么還要保存有關(guān)對象的數(shù)科學(xué)家、哲學(xué)家阿爾弗雷德·科?布斯基(AlfredKorzybski)最為膾??的名?也許就是“地圖?疆域”(Themapisnottheterritory),但?們往往認為這是?歇爾·?克盧漢的名?。近百年以來,?數(shù)科學(xué)界與藝術(shù)界??(甚?包括?克盧漢)都曾評析過這句名????布斯基最早在?篇有關(guān)語?的?章中寫下了這句話,?我們在這?部分中討論的恰巧也是語?。在科?布斯基看來,語?是?張地圖。語?是?種?段,讓?復(fù)雜的世界轉(zhuǎn)化成為?種更加通俗易懂的形式。指代某?事物的詞語并不是事物本?,杰弗?這個名字也并不是我本?,但是在某些情況下,這個名字代表了我。語?能讓?類理解世界萬物,即使這種理解僅僅是對事物的簡化表達?已。地圖分為許多類型:公路交通圖、地形圖、航海圖、星圖等等,這樣的例?還有很多。不同類型的地圖發(fā)揮著不同的作?,?且不可相互替代。舉例來說,計劃駕?出游時,航海圖可以說?點?都沒有。那么所有這些被稱為“地圖”的不同事物有什么共同之處呢?只有?點——將現(xiàn)實世界中的豐富性與復(fù)雜性歸結(jié)為?們在具體情形下需要的詳細信息。你在開?時,需要了解道路通向哪些地?,哪?有交叉路?,哪些路是單?道,如何進??速公路,等等。在這種情況下,你恐怕?不到地形或深度探測的數(shù)據(jù)。地圖?疆域,因為地圖不僅僅是獨?于疆域的對象,?且更加易于理解。同樣,元數(shù)據(jù)也是?張地圖。元數(shù)據(jù)是?種能?更為通俗易懂的形式表達對象復(fù)雜性的?法。?說《?鯨》(MobyDick)的作者是赫爾曼·?爾維爾(HermanMelville),其內(nèi)容與捕鯨有關(guān),初版于1851年雖然這句話?常簡潔地表達了?本冗?、復(fù)雜的書籍,但卻?以讓你在需要時找到這本書。?間擺滿了書的屋?并不能被稱為圖書館。如果要在圖書館中找某本書,不能只是在圖書館中?來?去,單靠運?去找。即使?座?型圖書館構(gòu)成的信息空間也會如此巨?,以?根本不可能將這種?法付諸實施。圖書館利?圖書?錄,這種類似地圖的?具來解決這個問題。圖書?錄能以簡化的?式向圖書館?戶表達圖書館藏書的信息。有了圖書?錄,圖書館?戶能找到與??需要的書相對應(yīng)的記錄。?錄還能向?戶提供最為關(guān)鍵的?條元數(shù)據(jù):圖書編?號碼。圖書編?號碼與圖書館信息空間中的定位??對應(yīng),?戶能根據(jù)記錄找到記錄描述的實體對象。為什么已經(jīng)擁有了對象本?還要去保存有關(guān)對象的數(shù)據(jù)呢?因為如果沒有與存在于空間中的對象有關(guān)的數(shù)據(jù),任何充分復(fù)雜的空間都與混亂沒有什么分別。即使某個對象存在于空間之中,只要想再次及時找到這個對象,就要?到有關(guān)這個對象的元數(shù)據(jù)。如果你丟失過家門鑰匙,那就?定會明?為什么區(qū)區(qū)?條元數(shù)據(jù)也能發(fā)揮很?的作?。元數(shù)據(jù),不再僅僅?于圖書2000多年來,圖書管理員?直以描述事物為?,必然從中學(xué)到了不少本事。圖書館學(xué)領(lǐng)域讓世界得以深?了解如何有效地描述事物。感謝圖書管理員對描述原則(principlesofdescription)的研究,使得如據(jù)庫的發(fā)明使保存結(jié)構(gòu)化數(shù)據(jù)成為可能,任何?都能以電?形式創(chuàng)盡管圖書館很早就開始采?計算機和數(shù)據(jù)庫技術(shù),但卻絕不是唯?的采納者。在微型計算機起步之前,圖書館元數(shù)據(jù)保存在定制的資源庫中,例如排架表和卡?式?錄。在微型計算機開始發(fā)展后,圖書館元數(shù)據(jù)存儲采?了與其他領(lǐng)域相同的技術(shù)。隨著數(shù)據(jù)庫的出現(xiàn),?們可以創(chuàng)建、保存有關(guān)任何事物的結(jié)構(gòu)化數(shù)據(jù),?不僅僅是有關(guān)圖書館藏書資源的描述性元數(shù)據(jù)。當(dāng)然,尤其是對于企業(yè)和政府來說,搜集、保存結(jié)構(gòu)化數(shù)據(jù)?直以來不僅僅是為了描述事物,例如損益總賬、庫存、稅務(wù)?件、??統(tǒng)計數(shù)據(jù)以及其他類似信息等。?千年來,這些數(shù)據(jù)?直以紙質(zhì)資料的形式存在,甚?采?的是更原始的技術(shù)形式。然?,?們從來沒有把它們當(dāng)作是元數(shù)據(jù),只被認為是企業(yè)、政府以及其他組織在?常運營中產(chǎn)?并?來?持運營的?件?已。隨著計算機逐漸被?來進?這些操作,?們不僅可以引?某個?件中的某個對象(當(dāng)然,也可以?紙質(zhì)?件,甚?楔形?字模板),還能在?件系統(tǒng)中提供指向該對象的實際鏈接。?絡(luò)已經(jīng)完全滲透到了現(xiàn)代社會的????,?數(shù)據(jù)的這種功能在現(xiàn)代?活中如此根深蒂固,以?難以表述計算機到底如何改變了?們管理?檔的?式。形形??的元數(shù)你已經(jīng)習(xí)慣把元數(shù)據(jù)作為???常?活環(huán)境中的?部分,甚?都不會對它多加考慮。地圖、標(biāo)識、儀表盤、?絡(luò)搜索、?動取款機、雜貨鋪、電話呼叫等等,這樣的例?數(shù)不勝數(shù)。對于這?切如何運?、如何與?們進?交互來說,元數(shù)據(jù)是最核?的要素。我們中的?多數(shù)?并不愿意去接觸紛繁復(fù)雜的銀?業(yè)務(wù)系統(tǒng)或電話?絡(luò)。與現(xiàn)代?活中的復(fù)雜系統(tǒng)交互需要在系統(tǒng)與?戶之間建??種簡化的界?,?這往往依賴元數(shù)據(jù)。對于信息系統(tǒng)來說尤為如此。在互聯(lián)?出現(xiàn)之前,如果?們對赫爾曼?爾維爾的?平感興趣,?如,我聽說他曾經(jīng)在捕鯨船上航海,是否屬實尚不知,那么我就需要?本他的傳記,或者去圖書館找?本這樣的書。對于任何信息對象來說?乎都是如此。只不過,如今只要簡單地上?搜索就能了解信息對象。?絡(luò)搜索能為?們帶來遠遠超出預(yù)期的信息對象。在?上搜索“赫爾曼·?爾維爾傳記”能找到上千條搜索結(jié)果,我???的時間也許都?法處理如此之多的信息。在信息科學(xué)中,這?術(shù)語被稱為“資源發(fā)掘”。也許你能想到,資源發(fā)掘是識別與當(dāng)前信息需求相關(guān)信息資源的過程——在這個例?中,是指有關(guān)赫爾曼·?爾維爾?平的信息。相關(guān)性(relevance)是?個極為主觀的概念,因此難以捉摸。即使我們要明確表達的問題相同,但是什么與你相關(guān)、什么信息能滿?你的信息需求也許完全不同于與我相關(guān)的信息。?如說,我也許關(guān)注的是?爾維爾是否曾經(jīng)在捕鯨船上航海,你關(guān)注的也許是他是否有任何在世的繼承?,但是我們兩個?都會在?上搜索“赫爾曼·?爾維爾傳記”。具體的信息資源是否相關(guān)是?種主觀判斷,因此只有在個?處理了相應(yīng)的信息資源后才能做出判斷。然?,總的來說,元數(shù)據(jù)不是被?于獲得對資源的主觀解讀,例如相關(guān)性等,?是被?于了解資源的客觀特性,例如資源的描述。資源發(fā)掘有賴于這樣有?的元數(shù)據(jù)。如果你要到圖書館找?本赫爾曼·?爾維爾的傳記,搜索到的成功概率(假設(shè)你當(dāng)?shù)氐膱D書館?有這樣?本書)取決于主題領(lǐng)域是否有記錄標(biāo)識出包含“赫爾曼·?爾維爾”?字的?種或多種資源,以及是否對這本書屬于傳記進?了?些說明。就像我們之前給出的地圖的?喻?樣,?錄中對信息對象的簡化表達必須包括能幫助你發(fā)現(xiàn)相關(guān)資源的數(shù)據(jù)。這種元數(shù)據(jù)被稱為描述性元數(shù)據(jù)。正如其名,這種數(shù)據(jù)是指對某?對象進?描述的元數(shù)據(jù)。本書迄今為?只討論了?種元數(shù)據(jù),即描述性元數(shù)據(jù),但是這并不是唯?的元數(shù)據(jù)類型。實際上,還有多種元數(shù)據(jù)。管理性元數(shù)據(jù)可以提供有關(guān)對象來源與維護的信息。例如,采??種特定類型的掃描儀,以特定的分辨率將某張照?轉(zhuǎn)換為數(shù)字格式,其中會產(chǎn)?某些與其相關(guān)的版權(quán)限制。結(jié)構(gòu)性元數(shù)據(jù)提供的信息介紹了某個對象是如何組織的。例如,?本書由多個章節(jié)組成,其中每?章都是由多?內(nèi)容組成,這些章節(jié)和各?內(nèi)容必須要以特定的順序組合到?起才?。保存性元數(shù)據(jù)則提供了?持某?對象的保存流程所必需的信息。例如,某些時候必須模擬某種具體應(yīng)?程序和操作系統(tǒng)環(huán)境來實現(xiàn)與數(shù)字?件的交互。結(jié)構(gòu)性元數(shù)據(jù)與保存性元數(shù)據(jù)有時被稱為管理性元數(shù)據(jù)的?類別,因為對象結(jié)構(gòu)和如何保存對象的數(shù)據(jù)對于對象的管理來說都必不可少。最后,使?性元數(shù)據(jù)可以提供如何使?某?對象的信息。例如,?本電?書的出版商可能會追蹤這本書的下載量、下載的?期以及下載?戶的個?資料。接下來的章節(jié)將對這些形形??的元數(shù)據(jù)進?深?討論,但是第?步是定義本書中將使?的術(shù)語。第?章定義信息科學(xué)與任何其他學(xué)科?樣,也采?了許多術(shù)語。元數(shù)據(jù)也是其中之?,只不過在過去?年中才常常被?提及。本書對元數(shù)據(jù)的探討難元數(shù)據(jù)最為常?、也許是最不實?的?個定義是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”。雖然這個定義聽起來朗朗上?,但是卻?分模糊。?先,什么是數(shù)據(jù)?其次,“關(guān)于”是什么意思?數(shù)據(jù)中讓我們先來試著理解什么是數(shù)據(jù)。不幸的是,這好?投?于重重迷霧之中。因為數(shù)據(jù)是?個?分模糊的概念,即使是畢?研究這?現(xiàn)象的信息學(xué)家對數(shù)據(jù)也沒有統(tǒng)?的定義。T.S.艾略特(T.S.Eliot)的詩作《巖?》(TheRock)備受情報信息學(xué)知識中流失的智慧在哪?(Whereisthewisdomwehavelostinknowledge?)(Whereistheknowledgewehavelostin艾略特看似提出了?種層級結(jié)構(gòu),按照需求性從?到低依次排列為智慧、知識與信息。信息學(xué)家對信息的看法往往沒有這么消極。不過我們往往也會運?同樣的層級結(jié)構(gòu),?且會在信息層下再增加數(shù)據(jù)層。這種層級結(jié)構(gòu)——數(shù)據(jù)、信息、知識和智慧——能?于說明信息的各種層次,或者?類認知領(lǐng)域中的各個信息階段。在這種觀點下,數(shù)據(jù)是通過?具或機器搜集的原始資料。?如說,?星探測器發(fā)回地球的信息流就是數(shù)據(jù)。你的?機和本地?機信號塔之間的?線電頻率所承載的信號也是數(shù)據(jù)。由此說來,信息就是經(jīng)過某種處理并供?使?的數(shù)據(jù)。例如,?特流被轉(zhuǎn)換為圖像,信號被調(diào)制成?頻。然?,這也是?個需要被謹慎對待的概念。曾經(jīng)就有過這樣?場哲學(xué)辯論,探討究竟事物成為信息是因為其有可能為?提供信息還是實際上提供了信息。(如果?棵?樹在森林中倒下,卻沒有?在場,那么這是否產(chǎn)?了信息?)當(dāng)然這并不是我們要在本書中深究的問題,讀者們可以在“延伸閱讀”中找到?些專門討論相關(guān)內(nèi)容的?章。知識指的是你知道的事情,也就是經(jīng)過內(nèi)化的信息,?智慧則是指了解如何運?知識。數(shù)據(jù)是?種資料。確切地說,數(shù)據(jù)是原始、未經(jīng)處理的資料,甚?從未有?接觸過、看過或者思考過它。我們并不習(xí)慣以這種?式思考信息對象,?是習(xí)慣把信息對象看作是書籍、電腦上的?件或者是?類有意創(chuàng)造的事物,?類的理解?是這些創(chuàng)造物不可分割的?部分。然?,對于?星探測器發(fā)回地球的信息流或者?本?盧紹錫德語(Lushootseed)寫成的書(或者是以其他任何你既不會說也不會讀的語?寫成的書……如果你的確懂盧紹錫德語,那真的?分抱歉)來說,你知道的也許僅僅是信息流或這本盧紹錫德語書具有某些含義?已,但是如果不經(jīng)過某些處理,你就?法了解這些含義。數(shù)據(jù)是“潛在”信息,類似于潛在能量?樣,兩者都需要付出努?才能釋放出來。這本書?直以圖書為例,因為這個例?更加淺顯易懂。如果你正在讀這本書,那么很有可能對常?的圖書上的信息?較熟悉。以圖書為例的問題在于,嚴格上來講圖書并不是數(shù)據(jù)——圖書只是數(shù)據(jù)的容?不是數(shù)據(jù)本?。本質(zhì)上來說,圖書只是?堆加?過的?材,數(shù)據(jù)則是書中包含的?字。?字就像美酒,?圖書只是酒瓶。(你甚?還能更進?步地這樣認為,?字也是酒瓶,?思想才是真正的美酒。)這個容器的?喻在這??分恰當(dāng),因為這本書?乎從頭?尾都在討論“酒瓶”?不是“美酒”。元數(shù)據(jù)屬于數(shù)據(jù),但是?法存在于容器之外:?條元數(shù)據(jù)記錄必須以某種格式存在,物理形式或數(shù)字形式皆可。同樣,?條元數(shù)據(jù)記錄本?就是容器,容納了有關(guān)某個對象的數(shù)據(jù)。?如這個對象是?本書或信息對象,那么其本?就是數(shù)據(jù)容器。這樣?來我們會再次?臨區(qū)分數(shù)據(jù)與信息的難題……但是這個復(fù)雜的問題并不是我們要在這本書中探討的內(nèi)容。只要認識到元數(shù)據(jù)記錄是數(shù)據(jù)容器,就?以實現(xiàn)本書探討元數(shù)據(jù)的?的了。描述現(xiàn)在讓我們來了解“相關(guān)性”(aboutness)的概念。關(guān)于(about)這詞極為常?,以?花時間來定義這個詞都看起來有些吹?求疵,就像爭論“是”(is)這個詞究竟是什么意思?樣。但是,的確有許多就“于”這個詞進?的探討?!瓣P(guān)于”指的是進?描述,但是這?引出了另?個難以避免的問題:不是去問“關(guān)于”意味著什么,?是問“描述”意味著什么。不幸的是,如果不繞圈?,就很難去定義“描述”,甚?有些字典對“描述”?詞本?的定義就是“描述某些事物”。?幸運的是,我們可以借助?個常識性的定義:描述能讓你了解被描述的事物。描述是有關(guān)某?事物的陳述,提供有關(guān)這個事物的?些信息。描述將被描述事物與存在于宇宙中的所有其他事物分離開來,幫助你隨后識別被描述的事物。例如,這本書名為《元數(shù)據(jù)》,作者名叫波梅蘭茨,書中共有23張圖表,等等。作者名、書名或?碼等數(shù)據(jù)相對來說不會引起爭議。確切地說,書名雖然可以隨意選擇,但是?旦取了某個書名后,?般不?可能會更名。更有可能引起爭議的是“主題”。這本書(或其他創(chuàng)造性?作)的主題往往是闡述問題。例如,這本書是關(guān)于什么的?我想?家都同意這是?本關(guān)于元數(shù)據(jù)的書。因此,元數(shù)據(jù)是可以?來描述本書主題的術(shù)語之?。但是這本書還關(guān)于其他什么內(nèi)容呢?關(guān)于語義?嗎?本書中有?章討論這個主題,但這是否?以?這個術(shù)語來描述整本書的主題呢??絡(luò)的主題貫穿本書?部分內(nèi)容,但是書中卻沒有?多少篇幅來明確地討論?絡(luò)。那么,這個術(shù)語是否?以?來描述本書的主題?這種問答過程被稱為主題分析。如同其字?意思,主題分析就是通過分析某個對象(例如?本書)來識別主題是什么,以及對象與什么有關(guān)。顯?易?,不是任何事物都能作為主題,例如,天然存在的事物實際上并不能稱為主題。雷尼爾?(MountRainier)是關(guān)于什么的是?個沒有意義的問題。同樣,有些藝術(shù)作品也沒有主題。然?,公平地說,有些的確有主題。?多芬《第九交響曲》第四樂章(?們常常稱之為“歡樂頌”)是關(guān)于全?類友誼與情誼的作品,但是前三篇樂章是關(guān)于什么的呢?這?是?個沒有意義的問題。此外,即使當(dāng)對象被稱為“關(guān)于某些事物”,主題分析往往就是闡釋問題?!?鯨記》是關(guān)于什么的????來說,這本?說是關(guān)于?條鯨?與捕鯨的故事,另???來說,則是關(guān)于復(fù)仇與執(zhí)著的。那么在這些解讀中,哪個可以提供充分的理由來?持主題術(shù)語的選擇呢?不出所料,問題的答案會是“視情況?定”。這取決于你希望借助主題術(shù)語來達到什么?標(biāo)。?本書的結(jié)尾部分,常常會有??索引。索引列出了本書?字中能找到的詞語、名稱、概念以及與其對應(yīng)的?碼。這些索引術(shù)語由專業(yè)的索引員挑選編制?成,?的在于幫助讀者輕松地翻閱這本書,找到相應(yīng)的概念?,F(xiàn)在翻到本書開頭扉?后的??內(nèi)容,你會看到不少有關(guān)版權(quán)和出版社的信息,還會看到?些帶有編號的術(shù)語。?圖書館學(xué)術(shù)語來說,這些被稱為“主題標(biāo)?”的詞所描述的就是這本書是關(guān)于什么的。(主題標(biāo)?必須是?種極具概括性的描述,因為?論?本書有多厚,可供分配的主題標(biāo)?也是有限的。)這些主題標(biāo)?由專業(yè)的編?員挑選編制?成,?的在于幫助那些對這類書籍感興趣的潛在讀者能找到這本特定的書。索引術(shù)語和主題標(biāo)?都由??挑選編制,旨在幫助其他?完成具體類型的任務(wù)。但是考慮到這些任務(wù)類型之間的差別,術(shù)語的有?性也會因此不同。主題標(biāo)?與索引所使?術(shù)語之間的不同之處引出了?個問題:這些描述性術(shù)語來源于哪??是索引員和編?員憑空構(gòu)思,還是從術(shù)語列表?挑選?出?你也許已經(jīng)猜到了答案:???,雖然索引員是從作者使?的詞語和概念中選取術(shù)語,但是也會構(gòu)思術(shù)語;?,編?員從?個規(guī)模龐?但依舊有限的可?術(shù)語集中選擇術(shù)語。我們將在接下來的內(nèi)容中進?步討論可?術(shù)語集的性質(zhì)。元數(shù)現(xiàn)在,你應(yīng)該已經(jīng)認識到了為什么“關(guān)于數(shù)據(jù)的數(shù)據(jù)”并不是?個實?的元數(shù)據(jù)定義。在沒有實際上為任何?提供信息之前,數(shù)據(jù)僅僅是潛在信息,原始且未經(jīng)處理。判定某些事物關(guān)于什么,這是?個主觀性的判斷,取決于對相應(yīng)事物的理解,同時也取決于可?術(shù)語。因此,這種元數(shù)據(jù)的定義不僅不實?,?且基本上沒有任何意義。只有我們理解了上?中討論的數(shù)據(jù)?詞是指“潛在信息”,才能得出正確的定義。?們必須認識到,數(shù)據(jù)不是?個抽象的概念,?是有可能提供信息的對象。這樣?來,我們就能將元數(shù)據(jù)定義為“描述另?個潛在信息性對象的潛在信息性對象”。這個定義雖然更好,但卻有些拗據(jù)定義為對某個潛在信息性對象做出的陳述。雖然這個定義并不完元數(shù)據(jù)是對某個潛在信息性對象做出的你會發(fā)現(xiàn)這個貫穿著整本書的定義能在以下?個??發(fā)揮作?。具體來說,?先是對于對象的性質(zhì)的理解,然后,是對于陳述的性質(zhì)以及如何進?陳述的理解,這個定義從多個維度進?陳述,對接下來的討論將?有幫助。資做出陳述就可以間接表明,我們能:(1)關(guān)于某些事物做出陳述;(2)關(guān)于某些事物有話可說?!皾撛谛畔⑿詫ο蟆笔侵概c所做陳述的事物。這種對象在?多數(shù)情形下被稱為資源,那么,“描述”就是我們關(guān)于資源所說的內(nèi)容。?條陳述包含三個部分。?先,我們需要有描述內(nèi)容的主語,即資建?起?種關(guān)系類別(稱之為“謂語”)。例如,資源有創(chuàng)造者。最圖請注意,讓?感到迷惑的?點是,主語和賓語這兩個術(shù)語在元數(shù)據(jù)的討論中的?法與其在語法中的運??式完全相反。從語法?度來說,?個句?的賓語指接受主語所采取動作的實體。例如,在“列奧納多··芬奇創(chuàng)作了《蒙娜麗莎》”這句話中,列奧納多·達·芬奇是主語,《蒙娜麗莎》是賓語。在描述性元數(shù)據(jù)的陳述中,這些術(shù)語很難定義:主語是被描述的實體,?賓語則是?于描述主語的另?個實體。當(dāng)我們在第六章中討論“描述資源的框架”(即?前?多數(shù)元數(shù)據(jù)構(gòu)建時所依據(jù)的數(shù)據(jù)模型)時會再次談到這個話題。模式、元素與元數(shù)據(jù)的模式(schema)指?個規(guī)則集,規(guī)定允許進?哪些類型的主謂賓陳述(稱之為“三元組”)以及如何做出這樣的陳述。想象?下,你正在填寫?張表格,?如求職申請表或者醫(yī)院就診表。這張表格中有待填的空?處,你需要在這些空?處填寫具體的信息:?期、姓名、電話號碼等。有時,表格甚?會明確要求按照特定的格式來提供具體信息,例如?期的形式必須為“年/?/?”。也就是說,這張表格規(guī)定了你應(yīng)當(dāng)提供什么數(shù)據(jù)以及應(yīng)當(dāng)以什么樣的形式提供數(shù)據(jù)。填空表格不屬于元數(shù)據(jù)模式,但卻是?個?常恰當(dāng)?shù)?喻:我們可以把元數(shù)據(jù)模式想象為對表格填空處進?定義。在下?章中,我們將討論都柏林核?元數(shù)據(jù)元素集(DublinCore),這是為?持對任何資源進?描述?設(shè)計的元數(shù)據(jù)模式。?度簡化的《蒙娜麗莎》畫像的都柏林核?元數(shù)據(jù)元素集看來是這個樣?:作品名稱:蒙娜麗在這個例?中,作品名稱、創(chuàng)作者以及?期都是尚未填寫的空?處。這些空?處是主謂賓三元組中的謂語部分,例如,列奧納多·達·芬奇(賓語)是《蒙娜麗莎》(主語)的創(chuàng)作者(謂語)。?的謂語集時,都柏林核?元數(shù)據(jù)元素集限制了關(guān)于某種資源所允許進?的陳述。然?,在元數(shù)據(jù)模式的范疇中,這些謂語往往被稱為元素(elements)。在元數(shù)據(jù)模式中,?個元素是關(guān)于某種資源做出的陳述,?來命名資源的某種屬性。接下來,值(value)是分配給某個元素的數(shù)據(jù):例如,列奧納多·達·芬奇是這個資源的創(chuàng)作者,或者“1503——1506年”是創(chuàng)作這個資源的?期。整體來看,元素–值配對(element-valuepair)構(gòu)成了關(guān)于某?相關(guān)資源所做的唯?陳述的全部。如果元如果我們將元數(shù)據(jù)定義為陳述,那么就可以借助語?來??了??喻。雖然這種?喻并不完美,并且只運?了?種具體的語?基本原理(即語?是?種正式的符號系統(tǒng)),但是這?以幫助我們達到討論的?的。在這種?喻之下,元數(shù)據(jù)模式是根據(jù)某種語?運?的機制所建?起的規(guī)則集。為此,也可以說元數(shù)據(jù)模式是?種具有少量規(guī)則、?常簡單的語?。?種語?的規(guī)則,?論多么簡單,都能適?于可以傳情達意的符號集上。從這?開始,我們轉(zhuǎn)?從符號學(xué)的?度來進?討論,其中我們?指?符(sign)來代替符號(symbol)這個詞。指?符通過指?或引?所指(signified)來傳情達意。例如,杰弗?這個詞指我本?,但杰弗元數(shù)據(jù)模式?配著可以做出的各類陳述。元數(shù)據(jù)編碼體系(encodingschemes)則?配著在可構(gòu)建的陳述中運?“能指”的?法。但是編碼體系并未明確可以指?哪些類型的事物。編碼體系所做的是規(guī)定如何構(gòu)建能指。兩種編碼體系——?種?于具體說明語法,另?種?于具體說明詞能指類型1:語語法編碼體系是?種規(guī)則集,規(guī)定了如何表達或編制某種具體數(shù)據(jù)類型。重要的是,單獨的元數(shù)據(jù)元素有??特定的語法編碼體系(?表2–1)。表例如,許多元數(shù)據(jù)模式都建議,具體說明?期時應(yīng)根據(jù)國際標(biāo)準ISO8601(《數(shù)據(jù)存儲和交換形式·信息交換·?期和時間的表??法》)的規(guī)定對數(shù)值進?編碼。ISO8601標(biāo)準是國際標(biāo)準化組織為表間所推出的標(biāo)準。舉例來說,假設(shè)?期為2015年3?14?(美國?期格式是將這個?期寫為3/14),這?天也是國際圓周率?。就在這?天在某?秒時,?期和時間的數(shù)值與圓周率的前10位相同,即“3/14/15,9:26:53”。?這??期和時間根據(jù)ISO8601標(biāo)準進?編碼后可寫為:創(chuàng)作?期ISO8601標(biāo)準是?種語法編碼體系,換句話說,這種體系就如何表達體類型的數(shù)據(jù)提出了?種標(biāo)準。在這種標(biāo)準下,?期可以作為某種資源的?個屬性(例如,創(chuàng)作?期),也就是說,這種編碼體系可?來提出?種標(biāo)準來規(guī)范如何表達元數(shù)據(jù)記錄中的?期。語法編碼體系可以建??個規(guī)則集,規(guī)定如何構(gòu)建能指來說明某種具體類型的所指。能指類型2:受控詞匯受控詞匯表類似于語法編碼體系,同樣是?個規(guī)則集,?于規(guī)定如何表達具體類型的數(shù)據(jù),也同樣特定于單獨的元數(shù)據(jù)元素。然?,兩者之間的不同之處在于,語法編碼體系規(guī)定了必須采取怎樣的?式來格式化描述某種資源的字符串,?受控詞匯表則提供了可最終付諸應(yīng)?的?個有限字符串集?;氐街耙哉Z?為例的討論,如果說元數(shù)據(jù)模式?配所做的各類陳述,那么受控詞匯表則?于?配這些陳述中會?到的單詞和短語。例如,都柏林核?元數(shù)據(jù)元素集推薦的主題元素就是從受控詞匯表中挑選出的數(shù)值。最為?泛使?的受控詞匯表之?就是LSCH(《會圖書館主題標(biāo)?表》)——國會圖書館理所當(dāng)然地負責(zé)維護這個?表。從20世紀70年代起,美國出版的每本書都會?到LSCH標(biāo)?。實際上,這本書的英?版權(quán)?上也采?了LSCH的主題標(biāo)?。本書采?的LCSH術(shù)語之?是元數(shù)據(jù)。在受控詞匯表中發(fā)揮“?配”作?的是:本書中的術(shù)語為元數(shù)據(jù),不是其他任何術(shù)語。為了遵守LCSH的要求,你不能把這本書描述為關(guān)于“元–數(shù)據(jù)”、“關(guān)于數(shù)據(jù)的數(shù)據(jù)”或任何其他同義詞的書籍。所指定的術(shù)語是元數(shù)據(jù),因此也是唯?可被接受的術(shù)語。受控詞匯表在某種意義上就像新話(?說《1984》中虛構(gòu)的?種?)。新話是?種??語?,其中可?的詞語極為有限,不僅去除了所有同義詞與反義詞,?且保留下來的詞語的含義范圍也經(jīng)過了闡述與簡化。如果把“新話”換成“受控詞匯表”,那么上?這句話的表述依舊準確?誤。當(dāng)然,雖然使?LCSH以外的術(shù)語來描述某種資源并不是違反國會圖書館規(guī)定的思想犯罪,但是這?先已經(jīng)違反了遵守標(biāo)準的實踐?法。當(dāng)然,LCSH只是眾多受控詞匯表之?,但可謂是受控詞匯表——歷史最為悠久、仍被?泛使?、由美國國會圖書館于1898年編然?,嘗試覆蓋全部?類知識會引出?個極為嚴峻的本體論問題。宇宙深不可測,其中可能包含的主題是?窮?盡的。然?受控詞匯表從定義上來看同樣是?個有限的術(shù)語集,怎么可能?來表達所有可能出現(xiàn)的主題呢?版,分6卷出版,共有6845?內(nèi)容,包括30萬條主題標(biāo)?。(順便補?句,第35版將是最后?次以印刷版的形式出版,美國國會圖書館正在過渡到僅提供在線出版物的平臺。)實際上,如果說LCSH只有300000條主題標(biāo)?的話會讓?產(chǎn)?誤解。LCSH中的規(guī)則能將主題標(biāo)?串聯(lián)起來,形成所謂的細分。例如,你可以運?地理與時間順序細分來分析下?的主題標(biāo)?,借此確定以下作品是關(guān)于?雅圖??期間當(dāng)?shù)剌喍傻?。Ferries—Washington—Seattle—1889(輪渡華盛頓州?雅規(guī)范?規(guī)范?檔與受控詞匯表息息相關(guān)。與受控詞匯表類似,規(guī)范?檔提供了?個有限的字符串集合,?于描述某種資源。名稱規(guī)范?檔特定于各種名稱。美國國會圖書館負責(zé)維護著應(yīng)?最為?泛的規(guī)范?檔之?——(美國國會圖書館名稱規(guī)范數(shù)據(jù)?檔),?于提供?、地點以及事物的權(quán)威名稱的數(shù)據(jù)。舉例來說,LCNAF中?克·吐溫的條?如下:采?受控詞匯表時,這個字符串是引?“?克·吐溫”時唯?可接受的術(shù)語。?克·吐溫的原名是薩繆爾·蘭霍恩·克萊門茨(SamuelLanghorneClemens),他曾?過多個筆名,但是如果你把LCNAF作為元數(shù)據(jù)元的數(shù)值來源,引?它時只有唯??種有效的?法。實際上LCNAF的條?“薩繆爾·蘭霍恩·克萊門茨,1835—1910年”中包含了這樣?條備注:本標(biāo)?不可?作主題。有關(guān)本?的作品可參?條?“?克·吐1910年”。規(guī)范?件就像?位?情的情?:對你可以使?的術(shù)語?分挑剔,甚?你只是想?想要?錯誤的術(shù)語,“她”就會嚴厲地要求你糾正。雖然LCNAF是應(yīng)?最為?泛的規(guī)范?檔,但是它絕不僅僅是唯?的?檔。蓋蒂研究所(J.PaulGettyResearchInstitute)建?了兩個名稱規(guī)關(guān)于藝術(shù)對象的名稱以及其他信息;藝術(shù)家?名規(guī)范(UnionListofArtistNames?),提供了關(guān)于藝術(shù)家和藝術(shù)家組織的信息。藝術(shù)家?名規(guī)范中關(guān)于?克·吐溫的條?與LCNAF的條?略有不同:Twain,(pseudonym)[?克·吐溫(筆名)]?前已經(jīng)有許多其他規(guī)范?檔。規(guī)范?檔往往由國家圖書館負責(zé)創(chuàng)建,因為?般來說所有發(fā)表的資料以及與本國相關(guān)的內(nèi)容都是國家圖書館的責(zé)任范圍。(順便提?句,美國國會圖書館并不是美國國家圖書館,?是美國國會的圖書館,但是實質(zhì)上發(fā)揮著國家圖書館的作?。)當(dāng)然,涵蓋范圍如此之?的圖書館難以避免地會與其他國家圖書館有所交疊。舉例來說,美國國會圖書館如何能在搜集美國歷史資料的同時避免重復(fù)搜集歐洲各國國家圖書館已經(jīng)搜集的資料呢?我們?yōu)榱?泛擴散?作成果以盡量減少這種?謂的重復(fù),并減少維護規(guī)?檔的成本,美國國會圖書館、德國國家圖書館、法國國家圖書館以及聯(lián)機計算機圖書館中?(onlinecomputerlibrarycenter)已經(jīng)發(fā)起了?個名為VIAF(虛擬國際規(guī)范?檔)的項?。在本書出版時,VIAF已經(jīng)在世界各地的22個機構(gòu)之間建?起了合作伙伴關(guān)系(其中包括蓋蒂研究所,這也是唯??個?國家圖書館合作?)。VIAF是?種優(yōu)步式的規(guī)范?檔,換句話說,它將所有參與者的記錄搜集到同?種服務(wù)中,以供全球分享。現(xiàn)在讓我們稍稍退后?步,回到受控詞匯表。受控詞匯表——例話——是?個匯集了可?術(shù)語的有限集合。但是,這樣的數(shù)據(jù)集合可能只是?個列表?已。敘詞表在列表簡潔性上為術(shù)語集合增加結(jié)構(gòu)與層級。然?,這種結(jié)構(gòu)并不是語法。語?是詞語和語法規(guī)則的集合,?后者?配著如何串聯(lián)這些詞語來形成條理分明的句?。(當(dāng)然,?種語?的詞語和語法規(guī)則集合隨著時間的逝去在不斷演變,但是這與本書的討論并不相?。)語?的語法規(guī)則是?種結(jié)構(gòu),但是確切地說,與敘詞表的結(jié)構(gòu)并不相同。敘詞表規(guī)定的不是能否以某種?式來使?詞語,?是詞語之間的關(guān)系。術(shù)語集合來引?美國的地名,也許是美國2010年??普查中認可的敘詞表包含使?這些術(shù)語命名的實體之間的關(guān)系?!?雅圖”是“華盛頓州”的?條?,同樣,“奧林匹亞”“斯波坎”“?拉?拉”(皆位于華盛頓州)以及所有在華盛頓州內(nèi)可識別的地區(qū)都是如此。美國的50個州中,每個都擁有這樣?個?條?列表。雖然這個假想的敘詞表只有兩層結(jié)構(gòu),但是我們也能輕松地想象到擁有多層結(jié)構(gòu)的敘詞表是什么樣?的。街區(qū)是城市的?條?,?街道則是街區(qū)的?條?。城市必須以縣為?條?,?不是州,縣的?條?為省,然后依次為國家和?陸。實際上,這正是蓋蒂研究所蓋蒂地理名稱敘詞表(ThesaurusGeographicNames?)采?的組織?式。“華盛頓”是證明敘詞表有所?途的典型案例。美國各地有多個華盛頓,包括華盛頓州、美國?都華盛頓市,聯(lián)邦中?少30個州有以“華盛頓”命名的縣以及?少25個州有以“華盛頓”命名的市或鎮(zhèn),此外還有其他以“華盛頓”命名的地區(qū)。但是在敘詞表中表達華盛頓?詞紛繁復(fù)雜的?法卻?分簡單,因為每個地區(qū)在各?的層級中都處于唯?的位置:北卡羅來納州的華盛頓不會與緬因州的華盛頓混淆,因為每個華盛頓的?條?都不同(?圖2–2)。圖本書討論的這類敘詞表與普通意義上的“同義詞詞典”(其拼寫同樣為Thesaurus)有所不同?!读_格同義詞詞典》(RogetsThesaurus)是英語中最受歡迎的同義詞詞典之?,這本詞典(如今已經(jīng)推出了在線版本)列出了詞語,并給出了每個詞的同義詞和反義詞。舉例來說,如果我們要在《羅格同義詞詞典》中搜索“控制”(control)?詞,會找到“管制”(regulation)與“抑制”(restraint)等同義詞,以及“混亂”(chaos)和“?法?天”(lawlessness)等反義詞?!读_格同義詞詞典》(就像其他語?中的同義詞詞典?樣)提供了?個詞語集合并給出了詞語之間的關(guān)系。然?,這種關(guān)系?分簡單,僅僅是同義詞和反義詞?已。如果你認真思考,就會發(fā)現(xiàn)?多數(shù)詞語都擁有多重含義(“管制”與“抑制”兩者本?并不是同義詞,但是它們都是“控制”的同義詞),這讓關(guān)系變得更加復(fù)雜。因此,?個單詞的每?個含義都可以作為?個獨?的實體來對待,每個都有??的同義詞與反義詞。(例如,藍?這個單詞?少有兩層含義,分別?來形容顏?與?情。)這實際上就是ordNet的組織?式。ordNet是?個英語詞匯數(shù)據(jù)庫,?泛?于信息科學(xué)與計算機科學(xué)領(lǐng)域。拋開這些不談,在同義詞詞典中,?論如何定義某個詞,其中只有僅僅兩種關(guān)系(同義詞與反義詞)。但是從信息科學(xué)的?度來看,敘詞表為元數(shù)據(jù)元素提供數(shù)值,可能會在術(shù)語之間形成不同、有時更為復(fù)雜的關(guān)系。再次回到輪渡的例?,LSCH通過?義術(shù)語(broaderterm)和狹義術(shù)語(narrowerterm)明層級關(guān)系。例如,客輪(passengership)與輪渡(ferry)相?是更加?義的術(shù)語,??上出租?(watertaxi)則是更加狹義的術(shù)語。因此,輪渡是客輪的?類,??上出租?是輪渡的?類。術(shù)語之間是“ISA”關(guān)系(繼承關(guān)系)。?數(shù)學(xué)術(shù)語來說,這屬于?對稱傳遞性關(guān)系:如果?上出租?屬于輪渡,那么輪渡就不會屬于?上出租?(即,Y是X,但X不是Y);如果輪渡屬于客輪,那么?上出租?也屬于客輪(即,Z是Y,Y是X,因此Z是X)這種層級結(jié)構(gòu)?分常?,與家譜的結(jié)構(gòu)完全相同(??可以??個或多個孩?,?這些孩?分別也會??個或多個孩?,以此類推)。與家譜如出?轍的是,如果?條?有多個字條?,那么實體也可以有同級條?。輪渡、貨輪和遠洋客輪都是客輪的?條?,因此屬于同級條?(?圖2–3)圖敘詞表中另外?種常?的關(guān)系是“USEFOR”關(guān)系(代?關(guān)系)?!癠SE它?不是任何其他具體的備選術(shù)語。在上??克·吐溫的例?中LCNAF條?“薩繆爾·蘭霍恩·克萊門茨,1835—1910年”指向了?選術(shù)語“?克·吐溫,1835—1910年”。我們再來舉?個例?,TGN列出了卡薩布蘭卡(Casablanca)的?個名稱,包括“DarelBeida”“Ad-DārAl-Baydā”和“Anfa”,但是“Casablanca”被列為?選術(shù)語。這些實體之間存在的是“USEFOR”關(guān)系:如果你使?TGN,“Casablanca”應(yīng)當(dāng)是?選術(shù)語,?不是“DarelBeida”或任何其他名稱。?層級架構(gòu)是?絡(luò)拓撲結(jié)構(gòu)的?種。在數(shù)學(xué)術(shù)語中,?絡(luò)就是圖表,由關(guān)系連接的?個實體集合。許多領(lǐng)域都會涉及構(gòu)成?絡(luò)的種種現(xiàn)象,例如計算機?絡(luò)、?物?絡(luò)、電信?絡(luò)、社交?絡(luò)等諸如此類的現(xiàn)象。不同的領(lǐng)域采?不同的術(shù)語來表??絡(luò)中的對象與鏈接;我們將運?圖形理論中的術(shù)語,把這些實體稱為“節(jié)點”(node),將連接稱為“邊”(edge)。拓撲學(xué)作為數(shù)學(xué)的?個分?,研究的對象是形狀與空間,以及什么形狀實際上為等價圖形,也就是說某個形狀可以變換為另?個形狀(例如,?個咖啡杯可以變形為?個圓環(huán))。從結(jié)構(gòu)由節(jié)點之間的邊構(gòu)成這?意義來說,?絡(luò)的拓撲結(jié)構(gòu)是?絡(luò)“形狀”。環(huán)形結(jié)構(gòu)(其中,?個節(jié)點連接著下?個節(jié)點,節(jié)點之間依次相連,直到環(huán)形結(jié)構(gòu)中的最后?個節(jié)點連接到第?個節(jié)點上)和星形結(jié)構(gòu)(其中所有節(jié)點都連接到中?節(jié)點上)都屬于簡單的?絡(luò)拓撲結(jié)構(gòu)。節(jié)點層級或家譜樹排列被稱為樹形拓撲結(jié)構(gòu)。從某種程度上來說,由于?絡(luò)可以?于形形??的領(lǐng)域之中,?絡(luò)分析是?個未準確定義的術(shù)語。然?,為了進?我們的討論,暫且將?絡(luò)分析定義為“運??絡(luò)來研究?起其組成部分更加復(fù)雜的現(xiàn)象”。例如,萬維?不僅僅是存在于世界上的服務(wù)器聚合,因為它可以展現(xiàn)出任何單獨服務(wù)器?法實現(xiàn)的?為。同樣,社交?絡(luò)不僅僅是?群相互熟識的?聚集到?起?已。感謝Facebook(臉譜?)、witter(推特)和其他社交媒體?絡(luò)服務(wù),當(dāng)然還有美國國家安全局搜集電話記錄的新聞報道,社交?絡(luò)分析在過去?年中得以聲名?噪。但是社交?絡(luò)分析是?絡(luò)分析的?種,只分析?與?之間的聯(lián)系,?不是分析計算機、神經(jīng)細胞或構(gòu)成?絡(luò)的眾多其他實體之間的聯(lián)系。例如,對于以Facebook為代表的社交?絡(luò)來說,節(jié)點是?、地點和組織,其間唯?的關(guān)系是“好友”和“贊”。Facebook的社交?絡(luò)是?種?分扁平化的結(jié)構(gòu):?、地點與組織都是?分?義的類別,?且你的Facebook好友并不真的是你的朋友。此外,我們可以?許多名詞來形容?與?之間存在的關(guān)系:朋友、熟?、鄰居、同事、兄弟姐妹、配偶、雇主、敵?、亦敵亦友……的例?數(shù)不勝數(shù)。除此之外,并不是?絡(luò)中的每個實體都需要以?、地點或組織的形式存在,即使在社交?絡(luò)中也是如此。例如,美國國家安全局對社交?絡(luò)的分析應(yīng)該包括電話號碼和電?郵件地址這樣的實體。?絡(luò)分析本?是?個?常龐?、有趣的研究領(lǐng)域,我們?法在本書中充分地進?討論。由?條邊連接兩個節(jié)點是?絡(luò)最為基本的單位,上?中稱這種三段式關(guān)系為“主謂賓三元組”。這樣看來,?條元數(shù)據(jù)描述的主語和賓語都是節(jié)點,?謂語是邊。在?絡(luò)的這個例?中,我們能很快將《蒙娜麗莎》關(guān)聯(lián)到賓?法尼亞州的阿倫敦——蒙娜麗莎時裝公司(MonalisaFashions)所在地,?這兩個實體之間往往沒有什么關(guān)聯(lián)。隨著加?的實體和關(guān)系越來越多,?絡(luò)會快速發(fā)展。實際上,隨著聚集的實體和關(guān)系越來越多,這種擴張的趨勢根本沒有停?的可能,最終導(dǎo)致根本?法映射整個宇宙中所有事物之間的關(guān)系?絡(luò)。在?多數(shù)情況下,這樣的映射并不可?(?圖2–4)。我們在第六章介紹關(guān)聯(lián)數(shù)據(jù)時,將回到有關(guān)映射的討論上。圖簡??之,?絡(luò)中的節(jié)點可以是任何類型的實體,邊則是實體之間任何類型的關(guān)系。當(dāng)然,(計算機、社交、神經(jīng)等)?絡(luò)的本質(zhì)?配著?絡(luò)中存在的實體類型、主語創(chuàng)作者和關(guān)系類型??紤]到邊可以是任何類型的關(guān)系,我們必須先來探討本體論的問題。在哲學(xué)中,本體論研究的是現(xiàn)實的本質(zhì)以及所存在事物的類型。?在信息科學(xué)中,本體論則是對在某?具體領(lǐng)域的宇宙中所有現(xiàn)存事物的形式表達。兩種本體論研究路徑之間的共同之處在于,兩者都是為了闡明實體領(lǐng)域以及實體之間的關(guān)系……即使在?領(lǐng)域中也是如此。敘詞表是?種層級,其中實體之間的關(guān)系?般來說?分簡單,往往是“ISA”關(guān)系:?上出租?是輪渡,輪渡是客輪。敘詞表中的其他常?關(guān)系包括:“AT”關(guān)系(部分關(guān)系),例如芬奇鎮(zhèn)是佛羅倫薩的?部分,佛羅倫薩是意?利托斯卡納區(qū)的?部分;“INSANCE”關(guān)系(實例關(guān)系),例如約翰·泰勒是美國總統(tǒng)的實例;“A-WHOLE”關(guān)系(部整體關(guān)系),例如肘部是胳膊的?部分。原則上來說,敘詞表中的關(guān)系可以是任何類型?;跀⒃~表的本體論:本體同樣是實體和實體之間關(guān)系的集合,同樣以層級的形式組織,往往同樣采?受控詞匯表或其他編碼體系來命名實體和關(guān)系。實際上,本體論與敘詞表如此相似,以?這兩個術(shù)語往往可以互換?份,但這樣做并不對。本體與敘詞表的差別在于,前者會包含?個規(guī)則集。家譜之所以是?個恰當(dāng)?shù)睦?,是因為其具有直接易懂的層級結(jié)構(gòu)。層級結(jié)構(gòu)中的實體可能會有?實體,?家譜中會有名副其實的??關(guān)系。在家譜中,實際上有兩層?關(guān)系——?親與?親,以及兩種?關(guān)系——??與??。認清這?點后,我們可以創(chuàng)建以下規(guī)則:如果A是?性,那么A就可以是B的?親;或者反過來說,如果A是B的?親,那么A就是?性?!?性”是?種可以分配給實體的特點,?根據(jù)這?特點就能推理出接受分配的實體與其他實體之間的關(guān)系。反??之,如果我們了解兩個實體之間的關(guān)系,則能在多個實體之中對?個或多個實體的特點進?推理。推理位于敘詞表層級結(jié)構(gòu)的最上層,通過這種形式將有關(guān)世界的知識整合到其中。就像開發(fā)軟件?樣,關(guān)于世界的這種知識可以編碼成?動規(guī)則。例失控的元數(shù)從編碼體系、敘詞表到本體論,本章已經(jīng)從弱結(jié)構(gòu)化機制轉(zhuǎn)換到了更加結(jié)構(gòu)化、信息更加豐富的機制,從?實現(xiàn)為元數(shù)據(jù)模式中的元素創(chuàng)建或選擇數(shù)值。然?,這?部分將討論整個范圍內(nèi)的另?個極端:完全缺乏結(jié)構(gòu)的情形。?說《1984》中,在有限詞匯表限制交流甚?思考的概念這?前提下新話甚?能限制現(xiàn)存的詞語。像新話?樣,編碼體系?配著可?的術(shù)語,既可以在受控詞匯表中限制允許使?的術(shù)語數(shù)量,也可以在語法編碼體系中具體說明術(shù)語結(jié)構(gòu)。編碼體系實現(xiàn)的前提在于?然語?往往?分模糊,因此有必要通過控制?段來限制元數(shù)據(jù)記錄的復(fù)雜性。這是?種從上?下、命令加控制的元數(shù)據(jù)管理?法。換句話說,如果采取從下?上、從底層開始的元數(shù)據(jù)管理?法會怎么樣?如果對可?的術(shù)語沒有進?任何控制怎么辦?互聯(lián)?的魅?之處就在于其不可控性。當(dāng)然,有些組織的確對某些功能進?了集中,例如分配IP(互聯(lián)?協(xié)議)地址與應(yīng)急措施等,但是沒有任何機構(gòu)可以控制你放到?上的內(nèi)容。實際上,互聯(lián)?很?程度上是不可控的,這使其成為不可控詞匯表?的熱???煽卦~匯表能提供有限的術(shù)語集,將其?作元數(shù)據(jù)模式中的某個具體元素的值,?不可控詞匯表允許使?任何術(shù)語。任何數(shù)據(jù)的確指“任何”數(shù)據(jù),包括在你所選語?的公平環(huán)境中的全部詞語,此外不可控詞匯表還允許臨時發(fā)明術(shù)語。當(dāng)然,有些元素?然?較適合這種缺乏控制的環(huán)境。例如,“書名”這種元素也許是最不受控制的,因為資源創(chuàng)作者能隨?所欲地為?本書起名。有哪個正在為書名開發(fā)命名規(guī)范?件的委員會能想到“如何躲?型船舶”或“北美東部流失的購物?”這樣的書名呢?然?有些元素在受到控制的時候會受益良多。例如,“?期”也許是控制最為嚴格的元素,因為有太多的時間格式可選。簡單舉個例?來說,“?/?/年”格式在美國?分常?,?“?/?/年”格式則常?于歐洲。在這兩個極端之間,許多元素會左右搖擺,主題也許是最為顯著的元素。我們在前?中討論過,主題包括了現(xiàn)存最?的受控詞匯表,即LCSH。另???,主題?常適合不受控的環(huán)境。如果你曾經(jīng)發(fā)表過博客?章,向美國視頻?站ouube上傳過視頻,或者在書評?站Goodreads中保存過書籍,那你就?定了解如何為這些內(nèi)容分配任何??想要的這些標(biāo)簽具有雙重功能。你作為服務(wù)的使?者,可以?這些標(biāo)簽來組織?有資料。你能創(chuàng)建任何??想要的標(biāo)簽,?論多么特?獨?都可以,?的在于?便??搜索、瀏覽、找到??的資料。如果你想在Goodreads中為某本書分配“待讀”標(biāo)簽也沒有問題,即使世界上任何他?的“待讀”列表上都沒有這本書也沒有關(guān)系。如果你希望使?“turlingdrome”這個標(biāo)簽來描述圖?分享?站Flickr上的?張照?也沒有問題,即使你是世界上唯??個使?這個標(biāo)簽的?也可以。標(biāo)簽是個性化的術(shù)語,只要對于創(chuàng)作者有所含義就可以。簽。舉例來說,《銀河系漫游指南》(TheHitchhiker’sGuidetotheGalaxy)在Goodreads上最為常?的?些書籍標(biāo)簽是“科幻”與“幽默”(Goodreads將標(biāo)簽稱為“定制書架”。)Goodreads將成千上萬獨??戶的個性標(biāo)簽聚集到?起,就能準確地從中提取出這本書的種類。這樣?來,Goodreads?戶今后在查找科幻、幽默或科幻幽默皆有的書籍現(xiàn)?們對搜索與瀏覽的實際想法。LCSH雖然?常出?,但是分配給—在這個例?中,這些主題標(biāo)?列出了書中的兩個?物,因此?分準除了Goodreads中的“科幻”標(biāo)簽,其他很受歡迎的《銀河系漫游指南的標(biāo)簽包括“sci-fi”“scifi”和“sf”(均為“科幻”?詞的縮寫或簡寫形式)。這種形式變化重新提出了特異性賦值的問題。如果所提出的標(biāo)簽有益于以符合常理的?式進?搜索、瀏覽,那么差異化標(biāo)簽的存在是否會影響這種有?性呢?確不會找到被標(biāo)有“scifi”標(biāo)簽的書籍。另???來說,如果標(biāo)簽?夠多,很有可能會存在?量的重復(fù):同樣的?本書有可能被?些?戶標(biāo)記為“sf”,?另?些?戶會標(biāo)記為“scifi”。因此,可變性可能?定程度上降低標(biāo)簽的可?性,但是并?完全抵消其帶來的好處但有些?戶和有些標(biāo)簽更加具有特異性。例如,有?位Goodreads?戶?“xxe”來標(biāo)記《銀河系漫游指南》,?另?位?戶則選擇“box-8”。這些標(biāo)簽是什么意思?沒?在乎!“xxe”這樣的標(biāo)簽沒什么問題——?可以理解,只是我?法理解?已。所以,并沒有什么標(biāo)簽或有問題的:如果某?個標(biāo)簽僅僅對?個?有?,那么它也是?個好標(biāo)簽,只不過是?個?得較少的標(biāo)簽?已。這就是受控與?受控詞匯表之間最基本的差別。受控詞匯表可以提供標(biāo)準化的術(shù)語集合,借此來描述某些對象集,??受控詞匯表允許任何以及所有術(shù)語的存在。受控詞匯表通過?配機制來限制選項范圍,??受控詞匯表允許百家?放當(dāng)然,?的本性總是傾向于簡化周圍現(xiàn)實的復(fù)雜性。因此,?戶群體往往會向被充分運?的標(biāo)簽的服務(wù)聚集,從?形成規(guī)范化的標(biāo)簽集。舉例來說,維基百科就采?了這種常?做法,專門由團隊負責(zé)在維基百科的主題領(lǐng)域中組織、定義各個類別的范圍。因此,?受控詞匯表?直以來都在壓?之下逐漸采?更加嚴格的控制。當(dāng)然,隨著新術(shù)語不斷出現(xiàn)、過時術(shù)語不斷被拋棄,即使受控詞匯表也會隨著時間的過去?不斷變化,從?反映相應(yīng)詞匯表范圍內(nèi)實體知識狀態(tài)發(fā)?的變化。純粹的受控或?受控詞匯表并不存在,所有實際存在的詞匯表只是在控制程度的?低上有所不同?已。元數(shù)元數(shù)據(jù)模式是規(guī)則集,規(guī)定了可以做出什么類型的主謂賓陳述。元素指可以根據(jù)模式做出的某類陳述,值則是指根據(jù)針對某?元素的模式規(guī)則為該元素分配的數(shù)據(jù)。?此為?,我們結(jié)束了本章中對如何創(chuàng)建或選擇數(shù)值進?的?篇討論,下?我們繼續(xù)來討論元數(shù)據(jù)記錄。?條元數(shù)據(jù)記錄就是關(guān)于?個資源的主謂賓陳述集合。在電?表格中,??內(nèi)容就是針對單獨實體的條?,包括有關(guān)該實體的所有數(shù)據(jù),該列的表頭會具體說明所含數(shù)據(jù)的類別。同樣,單獨資源(例《蒙娜麗莎》)擁有?條元數(shù)據(jù)記錄,其中包括關(guān)于該資源的全部元數(shù)據(jù)(列奧納多·達·芬奇,1503—1506年,等等),元數(shù)據(jù)模式素對數(shù)據(jù)進?了具體說明(作者、?期等等)。元數(shù)據(jù)記錄的?個重要特點是,對于?個單獨的資源應(yīng)當(dāng)僅僅存在?的?條元數(shù)據(jù)記錄。實際上,這是?常重要的?點,?們稱之為“?對?原則”(One-to-OnePrinciple),即?個資源只能有?條記錄。這原本只是針對都柏林核?元數(shù)據(jù)元素集闡明的?條原則,但是其適?性已經(jīng)超出了這個范圍。在實踐中,?對?原則明確指出,《蒙娜麗莎》只有?條元數(shù)據(jù)記品。例如,沒有?會去主張?塞爾·杜尚(MarcelDuchamp)的作品《帶胡須的蒙娜麗莎》(L.H.O.O.Q.)是?種完全不同于《蒙娜麗莎》畫像的資源,因此應(yīng)當(dāng)具有??獨?的元數(shù)據(jù)記錄。那么舉例來說,盧浮宮為了永久性替代原作?制作維護的“蒙娜麗莎”?分辨率數(shù)字照?屬于什么呢?這是否應(yīng)當(dāng)被視為與《蒙娜麗莎》不同并且具有元數(shù)據(jù)記錄的?種資源呢?的確,理應(yīng)如此。“蒙娜麗莎”數(shù)字照?不是《蒙娜麗莎》畫像本?。許多元數(shù)據(jù)模式包含應(yīng)對這類情形的元素。舉例來說,都柏林核?元數(shù)據(jù)元素集和VRA核?類?[?種描述視覺?化作品的模式,由視覺資源協(xié)會(isualResourcesAssociation)創(chuàng)建?成]有“相關(guān)”的元素,?CDA(蓋蒂信托基?藝術(shù)作品描述類?)也有?個名為“相關(guān)作品”(Relatedorks)的元素。盧浮宮的“蒙娜麗莎”?分辨率數(shù)字照是?種與《蒙娜麗莎》畫像相關(guān)的資源,就像《帶胡須的蒙娜麗莎》?樣。這兩個資源可能會共享同?對元素值,說明其與《蒙娜麗莎》畫像相關(guān)、從中派??來,并在這兩個資源與后者之間建?起關(guān)系。因此,這符合?對?原則,即每個資源都擁有??的元數(shù)據(jù)記錄,但是資源之間的某種重要關(guān)系也得到了記錄。然?,?對?原則有?個嚴重的缺點,那就是有太多元數(shù)據(jù)模式可供選擇了。就在這?點上,?對?原則出現(xiàn)了問題。實際上,?對?原則更合理的名字應(yīng)該是“?對?對?原則”,即每個單獨的資源“在單獨的元數(shù)據(jù)模式下”只有?條元數(shù)據(jù)記錄。如果運?都柏林核?元數(shù)據(jù)元素集中的元素,《蒙娜麗莎》、“蒙娜麗莎”數(shù)字照?以及《帶胡須的蒙娜麗莎》都具有唯?的元數(shù)據(jù)記錄。但是如果運?CDA中的元素,它們同樣也具有唯?的元數(shù)據(jù)記錄,?運?VRA核?類?的元素會得到第三組唯?的元數(shù)據(jù)記錄集合。由于具體的使?情形不同,對于某個具體的資源來說,為什么有?需要都柏林核?元數(shù)據(jù)元素集記錄、CDA記錄或者其他元數(shù)據(jù)模式下的記錄呢?你的資源是什么?誰可能是你的?戶?他們可能會?你的元數(shù)據(jù)記錄去做什么?接下來?章將進?步討論不同元數(shù)據(jù)元素集的優(yōu)缺點以及可能分配給元素的值。內(nèi)部元數(shù)據(jù)與外部元數(shù)針對單獨?個資源、在單獨?個元數(shù)據(jù)模式下僅有?條元數(shù)據(jù)記錄。然?,這就引發(fā)了?個問題:這條記錄在哪??答案是,元數(shù)據(jù)可能存在于兩個位置:內(nèi)部與外部。也就是說,記錄存在其指代的資源之中或獨?于該資源。實際上,我們之前看到過記錄存在于這兩個位置的例?。???來說?本書的版權(quán)?上列出的“美國國會圖書館圖書在版?”(LibraryofCongressCataloginginPublication)數(shù)據(jù)中的出版?期、主題標(biāo)?以及其他元數(shù)據(jù),就是關(guān)于這本書、存在于這本書之中的?條元數(shù)據(jù)記錄。另???來說,圖書館卡?式?錄中的?張卡?同樣是關(guān)于這本書的?條元數(shù)據(jù)記錄(包括?致相同的信息),但是卻是與這本書截然不同的對象。在現(xiàn)實與?絡(luò)世界之中,內(nèi)部與外部概括了宇宙中某?事物所有可能存在的位置,即現(xiàn)實或數(shù)字對象可能本?包含了元數(shù)據(jù),或者某?條元數(shù)據(jù)記錄可以獨?于對象。這引出了?個問題。哪?個是更好的選擇?答案不出所料,要“視情況?定”。在?多數(shù)情形下,這取決于?什么樣的??般來說,存在于對象內(nèi)部的元數(shù)據(jù)隨著對象的產(chǎn)??存在。拿S來說(我們將在第七章進?步討論相關(guān)的內(nèi)容)S是?種標(biāo)準,讓結(jié)構(gòu)化數(shù)據(jù)得以保存在?結(jié)構(gòu)化的(超?本標(biāo)記語?)?件中。從這?點來看,內(nèi)部元數(shù)據(jù)有可能體現(xiàn)著?站創(chuàng)造者的規(guī)范。然?,有可能很難或根本不可能修改存在于對象內(nèi)部的元數(shù)據(jù)。例如,你作為?戶,不會改變??中的標(biāo)記,只有?站管理員才有這樣的權(quán)限。因此,內(nèi)部元數(shù)據(jù)是權(quán)威數(shù)據(jù),?不變存在于對象外部的元數(shù)據(jù)也有可能會隨著對象的產(chǎn)??存在,但是也有可能通過事后創(chuàng)造?形成。假設(shè)在數(shù)據(jù)庫中保存著?條關(guān)于某篇已發(fā)布?章的元數(shù)據(jù)記錄。如果我發(fā)現(xiàn)??曾經(jīng)寫的?篇期刊?章在在線數(shù)據(jù)庫中被錯誤地歸屬為另?位作者。換句話說,關(guān)于那篇?章的元數(shù)據(jù)記錄為“作者”字段分配了錯誤的值。我聯(lián)系了數(shù)據(jù)庫?商,他們在??時內(nèi)糾正了這個問題。對于我來說,這件事結(jié)果很好,?且反映了數(shù)據(jù)庫?商能有效解決問題。但是對于存在于對象外部的元數(shù)據(jù)來說,毫?疑問會有?提出誰創(chuàng)造了這條元數(shù)據(jù)以及創(chuàng)造流程是否可信等問題。除此之外,外部元數(shù)據(jù)可以根據(jù)具體的?例進?定制:為商業(yè)學(xué)術(shù)?獻數(shù)據(jù)庫創(chuàng)建的元數(shù)據(jù)記錄與?歌學(xué)術(shù)創(chuàng)建的元數(shù)據(jù)記錄不同,也許會與引?管理應(yīng)?創(chuàng)建的元數(shù)據(jù)記錄也不相同。外部元數(shù)據(jù)?分靈活,但是有可能是備受質(zhì)疑的權(quán)威機構(gòu)。由于采?了數(shù)字?件的形式,有時難以準確地識別關(guān)于某個資源的元數(shù)據(jù)記錄保存在什么位置,?且實際上?條記錄的保存位置也會發(fā)?變化。Gracenote公司維護著CDDB(壓縮磁盤數(shù)據(jù)庫)。正如其名,CDDB是關(guān)于CD(光盤)以及在CD中保存的?樂?件的描述性元數(shù)據(jù)記錄數(shù)據(jù)庫。任何獲得授權(quán)的?樂播放器應(yīng)?都可以訪問CDDB在線據(jù)庫中的這些記錄來向應(yīng)?的使?者展?這類元數(shù)據(jù)。換句話說,CDDB是外部元數(shù)據(jù)記錄的集合。開發(fā)CDDB的初衷在于早期CD沒有包括任何關(guān)于其內(nèi)容的元數(shù)據(jù),后來“CD–?字”規(guī)范出現(xiàn)后,以在CD中保存這種元數(shù)據(jù)。然?,這種“CD–?字”數(shù)據(jù)與其描述的?樂?件分別保存在CD中的不同位置。這樣看來,CD中的“CD–?字”記錄依舊是外部元數(shù)據(jù)記錄,同樣,位于本書版權(quán)?的元數(shù)據(jù)相對于本書的實際內(nèi)容來說也是外部元數(shù)據(jù)記錄。然?,在翻錄CD時(即拷?CD上的?件并將其轉(zhuǎn)換為其他格式),許多應(yīng)?也會翻錄CD頻?件的“CD–?字”數(shù)據(jù)。換句話說,在這種情況下,數(shù)字?頻?件的“CD–?字”元數(shù)據(jù)對于?件來說屬于內(nèi)部元數(shù)據(jù)。如果?條元數(shù)據(jù)記錄存在于對象的內(nèi)部,那么很明顯的是這條記錄描述了該對象。同樣,?本書中的元數(shù)據(jù)能在版權(quán)?上清晰地描述這本特定的書,?個??中的Schema.og標(biāo)記能明確地引?該特定的??。如果對象的內(nèi)部元數(shù)據(jù)沒有描述對象,它就沒有任何存在的意義。如果元數(shù)據(jù)記錄存在于其描述對象的外部,如何將兩者關(guān)聯(lián)到?起呢?我們怎樣才能了解某個對象的元數(shù)據(jù)記錄在哪??反過來說,我們?nèi)绾尾拍苤滥硹l記錄引?的對象是什么?回答這個問題的?法?分簡單:獲得更多的元數(shù)據(jù)。關(guān)于某本書的元數(shù)據(jù)記錄會包含書名、作者等元素,?般來說,僅靠這兩種元素就?以唯?地識別?本書:世界上以“元數(shù)據(jù)”命名的書不??本,但是只有?本書的作者是杰弗?·波梅蘭茨。任何關(guān)于某本書所提供的附加元數(shù)據(jù)只是錦上添花,其?的在于唯?地識別這本書。毫?疑問,不會再有第?本書的書名為“元數(shù)據(jù)”,作者是杰弗?·波梅蘭茨、在2015年由?省理?學(xué)院出版社出版。然?,唯?識別某?對象時,?般來說更受歡迎的做法不是依靠組合多種元素來唯?地識別某個對象,?是采??個單獨的元素。對于圖書館中的藏書,這個元素就是圖書編?號碼,例如依照美國國會圖書館分類法(LCC),本書出版不久后,就會像所有在美國出版的書籍?樣,獲得?個分配的編?號碼。當(dāng)這本書被放在圖書館的書架時,會按照編?號碼來擺放,與相似主題的其他書籍陳列在?起,籍創(chuàng)建編?號碼的體系之?,另?種常?的體系是杜威?進制分類法。此外,在圖書館的范疇以外,出版社還可以?另外?種體系來?地識別書籍——國際標(biāo)準書號這種編?號碼存在于本書的外部元數(shù)據(jù)記錄中,也就是說,保存在圖書館編?記錄中。但是?本書的編?號碼要發(fā)揮作?,就必須存在于書內(nèi)。?本書的編?號碼印刷在版權(quán)?的“在版編?”數(shù)據(jù)中,?圖書館則往往以標(biāo)簽的形式把它貼在書脊上。換句話說,是將編?號碼作為?條內(nèi)部元數(shù)據(jù)?段添加到?本書中(即使實際上它存在于對象的外部)。這條元數(shù)據(jù)存在的?的是讓圖書館管理員了解應(yīng)該把這本書放到哪個書架上,以及讓圖書館?戶了解去哪?能找到這本書。因此,外部元數(shù)據(jù)記錄要發(fā)揮作?,就必須依賴內(nèi)部元數(shù)據(jù)的存在。如果內(nèi)部元數(shù)據(jù)必須存在,為什么還需要外部元數(shù)據(jù)呢?這是因為外部元數(shù)據(jù)可以幫助?戶節(jié)約時間。正如我們在第?章的討論,元數(shù)據(jù)最為重要的?途之?就是資源發(fā)掘。外部元數(shù)據(jù)在資源發(fā)掘中發(fā)揮的作?遠遠超過了內(nèi)部元數(shù)據(jù)。?如說,與整個圖書館相?,圖書館?錄規(guī)模更?、更加容易搜索。唯?如同它的名字?樣,唯?識別符可以?于唯?地識別某個實體,避免與其他實體混淆。?般來說,名稱或地址是唯?的識別符。實際上,在討論唯?識別符時,我們會發(fā)現(xiàn)兩者之間的差別很?。以?宮的地址為華盛頓哥倫?亞特區(qū)?北區(qū)賓?法尼亞?街1600號,郵編:(1600PennsylvaniaAveNWWashington,DC在上述地址中,華盛頓哥倫?亞地區(qū)是最?的地理區(qū)域,接下來是街道名稱和?樓的門牌號,最后是郵編。通過這個地址?以唯?地識別某座建筑物,因為只有?條華盛頓哥倫?亞特區(qū)?北區(qū)賓?法尼亞?街(盡管還有?個東南區(qū)賓?法尼亞?街),?且只有?個?北區(qū)賓?法尼亞?街1600號。這可能看起來顯?易?,但是值得?提的是郵政編碼系統(tǒng)存在的意義就是為了這個?的,即唯?地識別建筑物。許多編碼體系存在的原因是為具體資源類型創(chuàng)建唯?識別符,?如說適?于書籍的國際標(biāo)準書號以及編?號碼、適?于在線出版物的“數(shù)字對象識別碼”(DOI)、適?于?像制品的“國際標(biāo)準?像制品編碼”(ISRC)、為識別物理空間的GPS(全球定位系統(tǒng))坐標(biāo)、為規(guī)范?期與時間格式的ISO8601標(biāo)準、美國公?的社保號碼等等。甚?還有在線唯?識別符極為重要,主要出于以下兩個原因。?先,?多種技術(shù)來在線訪問對象。雖然HTTP(超?本傳輸協(xié)議)出現(xiàn)后成為在線交換數(shù)據(jù)的標(biāo)準協(xié)議,但是現(xiàn)實并不總是如此。即使今天,仍然存在著多種?絡(luò)瀏覽器應(yīng)?程序,?且重要的?點是,如果你在Chrome(?歌瀏覽器)、Safari(蘋果瀏覽器)還是Firefox(?狐)的地址欄中輸?相同的?址,都可以進?相同的??。其次,如果某個組織的服務(wù)器基礎(chǔ)設(shè)施發(fā)?了變化,仍可以?常輕松地移動?絡(luò)中的對象。因此關(guān)鍵在于,在線唯?識別符可以說明,即使某些具體的?絡(luò)內(nèi)容改變了位置,但內(nèi)容本?仍然沒有發(fā)?變化(?圖2–5)。圖實現(xiàn)這種?的的?法就是URI(統(tǒng)?資源標(biāo)識符)。URI是?種典型?址,屬于統(tǒng)?資源標(biāo)識符的?種。盡管你認為URI是唯?的地址,因為對于?絡(luò)上的資源來說,URI就像現(xiàn)實世界中建筑物的郵政地址,其?都是作為唯?、具體地說明單獨?個對象的識別符。URI和郵政地址都是存在于對象內(nèi)部的元數(shù)據(jù)。或者,更為準確地說,URI和郵政地址是對象“與?俱來”的元數(shù)據(jù),因為移動前者會改變后者。正是這種現(xiàn)實——唯?識別符在資源之中與?俱來——使其也許成為最為重要的第三章實際上,語義學(xué)的跨領(lǐng)域應(yīng)?——扁平化語義的微妙之處在于盡可清楚明了地給出元素的定義——既是都柏林核?元數(shù)據(jù)元素集最強優(yōu)勢之?,同時也是最為嚴重的局限之?。默撒·巴卡(MurthaBaca),蓋蒂研究標(biāo)準就好像是?刷,每個?都覺得刷?是個好主意,但是誰也不?別?的?刷在本章中,我們將探討描述性元數(shù)據(jù),它可謂是最為簡單的元數(shù)據(jù),也毫?疑問是第?類能被?范創(chuàng)建的元數(shù)據(jù)。為此,我們將深?探討為了描述?乎任何事物所專門設(shè)計的描述性元數(shù)據(jù)模式:都柏林核?元數(shù)據(jù)元素集。都柏林核?元數(shù)據(jù)元也許你想不到,都柏林核?元數(shù)據(jù)元素集的名字并不是來?愛?都都柏林,?是美國俄亥俄州哥倫布市附近的都柏林市。OCLC(機計算機圖書館中?有限公司)的總部就在這?。這家?營利性組織為信息組織開發(fā)了許多?具并且提供授權(quán),在圖書館市場中占據(jù)著尤為重要的地位。為什么都柏林核?元數(shù)據(jù)元素集要以O(shè)CLC總部所在的城市命名呢?信不信由你,要回答這個問題,我們得追溯到萬維?的起源。1993年1?,NCSA(美國國家超級計算應(yīng)?中?)發(fā)布了Mosaic第1.0版。Mosaic是第?個可以在互聯(lián)?上同步顯??字與圖??件的應(yīng)?程序。當(dāng)然,我們現(xiàn)在已經(jīng)習(xí)慣性地認為?絡(luò)應(yīng)該能做到這?點。但是在Mosaic發(fā)布以前,互聯(lián)?上訪問?件的?具只能?次顯??個?件。1993年,Mosaic并?顯??字和圖?的功能使其成為“殺?級應(yīng)?程序”,這很?程度上推動了?絡(luò)的普及。在?個?的時間?,Mosaic在世界范圍內(nèi)吸引了數(shù)百萬?戶。到1995年年初,?絡(luò)及其關(guān)鍵使能技術(shù)HTTP所傳輸?shù)臄?shù)據(jù)量超過了所有其他基于互聯(lián)?的服務(wù)所傳輸?shù)臄?shù)據(jù)量。(曾經(jīng)有?段時間,F(xiàn)TP、Gopher、elnet、AIS這些?乎被我們遺忘的服務(wù)和其他?些如今聽起來名字古怪的服務(wù)是?分流?的數(shù)據(jù)傳輸?式。)1995年3?,NCSA與OCLC共同在俄亥俄州都柏林市舉?了?次僅有受邀者才能參加的研討會,主題就是探討?絡(luò)元數(shù)據(jù)。那時,?歌還沒有成?,甚?還沒有成為?個研究項?。盡管當(dāng)時已經(jīng)出現(xiàn)了?個搜索引擎,不過哪個都沒有達到主導(dǎo)市場的地位。雖然以現(xiàn)在的標(biāo)準來看,這些搜索引擎的使??分原始,但是在當(dāng)時看來卻?分有效。1995年參加研討會的計算機科學(xué)家與信息科學(xué)家意識到,?絡(luò)搜索在向“豎井式”的?向發(fā)展——具體來說,沒有任何搜索引擎為整個?絡(luò)建?過索引,?且如果采??件名以外的?式為?件建?索引,搜索引擎往往不會為?戶提供任何?件描述。更糟糕的是,有些?具(FTP、Gopher等)只有使?相應(yīng)的協(xié)議實現(xiàn)對?件的訪問之后才能簡??之,研討會所達成的?致意?就是,為了讓?絡(luò)搜索?具可以繼續(xù)發(fā)揮作?,必須要更加有效地描述?絡(luò)中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論