出版資源數(shù)字化及數(shù)字化出版資源_第1頁(yè)
出版資源數(shù)字化及數(shù)字化出版資源_第2頁(yè)
出版資源數(shù)字化及數(shù)字化出版資源_第3頁(yè)
出版資源數(shù)字化及數(shù)字化出版資源_第4頁(yè)
出版資源數(shù)字化及數(shù)字化出版資源_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

出版資源數(shù)字化及數(shù)字化出版資源

在傳統(tǒng)出版產(chǎn)業(yè)向數(shù)字化轉(zhuǎn)型期間,現(xiàn)階段最受業(yè)界重視的兩個(gè)問(wèn)題,一是基于數(shù)字技術(shù)的傳統(tǒng)編輯出版流程改造,也即業(yè)內(nèi)常說(shuō)的流程再造,另一個(gè)問(wèn)題就是出版資源的數(shù)字化。前一個(gè)問(wèn)題由于涉及出版理念和不同出版單位出版的業(yè)務(wù)流程各異,很難表述,處理難度也相對(duì)較大。但后一個(gè)問(wèn)題則是傳統(tǒng)出版產(chǎn)業(yè)所面臨的共同問(wèn)題,如不從全局的角度高端入手,則勢(shì)必會(huì)給產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型帶來(lái)不可估量的后果。因此,有必要先理清思路,找出解決的辦法。本文擬從出版資源的數(shù)字化(資源存在形式)和數(shù)字化出版資源(資源形成質(zhì)量)兩個(gè)角度作一簡(jiǎn)述,以期拋磚引玉,引起業(yè)界的重視。一、出版資源數(shù)字化從一般意義上來(lái)說(shuō),出版資源的數(shù)字化是將出版過(guò)程中形成的各類數(shù)字化資源,通過(guò)一定的方式,并以不同的載體形式和格式存儲(chǔ)起來(lái)的數(shù)字化文件的總稱。但是否將各出版單位在編輯出版過(guò)程中形成數(shù)字化的“中間過(guò)程文件”收集整理出來(lái),就可以形成出版資源的數(shù)字化了呢?答案當(dāng)然是否定的。因?yàn)檫@類出版資源的數(shù)字化僅僅有數(shù)字化的文件形式,其中存在大量的隱患和問(wèn)題,不可能真正成為可再生或利用的資源。其問(wèn)題主要表現(xiàn)如下:(一)文字資源數(shù)字化存在的問(wèn)題1.現(xiàn)在出版資源的數(shù)字化文件不能脫離錄排環(huán)境而使用由于各出版單位發(fā)稿后,大多是交由社會(huì)上的錄排單位錄入排版,而這些錄排單位大多使用的是方正系統(tǒng)排版,其中核心資源是方正小樣文件?,F(xiàn)在的問(wèn)題在于這些小樣文件中,不同排版員所發(fā)的排版指令不同,格式各異,很難從中反解出可供使用的文本文件。而且由于方正的排版軟件不同版本之間互不兼容,如無(wú)原錄排軟件和顯示環(huán)境,不同環(huán)境下錄入的文件很難還原和處理,因此,各單位所保留的僅是數(shù)字化的排版文件而已,如不進(jìn)行專業(yè)處理,不可能成為數(shù)字化資源。2.現(xiàn)有資源中的數(shù)據(jù)不能實(shí)現(xiàn)文同字、字同碼由于方正排版軟件提供極為便捷的造字工具,從而使得各錄排單位在排版過(guò)程中,可極為便利地將無(wú)法輸入的字“造”出來(lái),并通過(guò)方正的輸出系統(tǒng)打印出來(lái),這項(xiàng)技術(shù)的“發(fā)明”,極大地便利了紙質(zhì)出版物的出版。但到了數(shù)字出版時(shí)代,這項(xiàng)技術(shù)所產(chǎn)生的后果,卻成為出版資源數(shù)字化的攔路虎。粗略分析一下,就不難發(fā)現(xiàn)問(wèn)題所在:首先,庫(kù)內(nèi)已有的字,因?yàn)殇浫肴藛T不會(huì)輸入而重新造字產(chǎn)生部分同形異碼字。我國(guó)錄排生產(chǎn)企業(yè)安裝的大多是國(guó)標(biāo)GB18030字庫(kù),所收漢字27533個(gè),而從事錄排工作的則大多為初高中畢業(yè)生,這些人員識(shí)字約為2000個(gè),由于對(duì)庫(kù)內(nèi)大多數(shù)字不認(rèn)識(shí),大量庫(kù)內(nèi)存在的字被二次重新造字并賦予新的方正“外字”碼位,而這類字脫離了發(fā)排環(huán)境是不能可顯示的。第二種,庫(kù)內(nèi)無(wú)字不能輸入,重新造字產(chǎn)生的異形異碼。有許多文稿中出現(xiàn)的字,確為庫(kù)內(nèi)沒(méi)有,但其實(shí)僅是筆畫(huà)和部首的細(xì)微差異,實(shí)質(zhì)上是同一個(gè)字,由于錄入人員不能掌握這類字的認(rèn)同規(guī)則,見(jiàn)字造字,從而產(chǎn)生大量的假字。第三種,錄入稿件時(shí)誤認(rèn)而重新造字產(chǎn)生的同一字的異形異碼。在二次造字的過(guò)程中,大多數(shù)排版人員由于識(shí)字能力弱,只能照貓畫(huà)虎,描字,這就導(dǎo)致了大量多筆、缺筆字的,根本不是字的“字”產(chǎn)生,并在外字區(qū)中賦予相應(yīng)的碼位,成為偽字。筆者在《中華大典》數(shù)據(jù)處理過(guò)程中,發(fā)現(xiàn)的大量假字、偽字,以及在《中國(guó)大百科全書(shū)》方正排版數(shù)據(jù)入庫(kù)過(guò)程中,發(fā)現(xiàn)的問(wèn)題真可謂“百花齊放”,無(wú)奇不有。因此,如不認(rèn)真解決上述問(wèn)題,或是在生產(chǎn)環(huán)境嚴(yán)格控制錄入規(guī)范的數(shù)據(jù)質(zhì)量,那僅有數(shù)字化形式,而無(wú)數(shù)字化質(zhì)量的出版資源,只能稱其為數(shù)據(jù)垃圾,不可能成為真正的數(shù)據(jù)資源。3.資源中的數(shù)據(jù)不支持國(guó)際ISO/IEC10646∶2003漢字編碼字符集標(biāo)準(zhǔn),不具有可流通性隨著網(wǎng)絡(luò)技術(shù)的發(fā)展以及中文用字范圍的擴(kuò)大,國(guó)際上已形成ISO/IEC10646∶2003漢字編碼字符集。面對(duì)中國(guó)文化走出去的要求以及海外市場(chǎng)拓展的要求,作為資源使用的,特別是作為外向型出版資源使用的文件,必需將其轉(zhuǎn)換到ISO/IEC10646∶2003漢字編碼字符集上來(lái),并解決碼位同一性的問(wèn)題,才具備可流通性。4.資源中的文件格式不規(guī)范,不具有跨平臺(tái)跨系統(tǒng)的通用性由于各錄排單位的發(fā)排機(jī)和輸出機(jī)的環(huán)境不同,支持的文件格式各異,因此,最后產(chǎn)生的數(shù)據(jù)文件格式五花八門(mén),而且很多格式是為專門(mén)的輸出設(shè)備設(shè)置的,在一般的通用瀏覽器不能顯示,從而導(dǎo)致資源文件無(wú)法利用。5.資源中的數(shù)據(jù)未經(jīng)排異除歧,不具有可用性由于大多數(shù)出版單位對(duì)每一個(gè)選題都是獨(dú)立編輯獨(dú)立成書(shū)的,因此單獨(dú)一本書(shū)中內(nèi)容的同一性,數(shù)據(jù)的自洽性都不會(huì)有太多問(wèn)題,但是當(dāng)大量同類選題的資源類聚到一起時(shí),就會(huì)產(chǎn)生大量的基于本體性的知識(shí)分歧,如果這些問(wèn)題不解決,資源也不具有可用性。6.資源中的數(shù)據(jù)信息不完整,不具有可追溯性,不能維護(hù)及更新當(dāng)大量資源被采集和匯聚后,如不能對(duì)信息來(lái)源和信息屬性進(jìn)行描述和管理,則匯集的內(nèi)容越多,資源的可利用率越低。另一方面,由于信息源不確切,對(duì)匯集信息的后期維護(hù)、管理、更新造成更大的困難,特別是大量實(shí)效性信息,如不能更新,則不具有可使用性。(二)圖片資源數(shù)字化存在的問(wèn)題圖片資源是出版資源的重要組成部分。但目前各出版單位的圖片資源雖然是數(shù)字化形式,但也存在諸多問(wèn)題:1.高采低存:圖書(shū)出版過(guò)程中,由于要支持紙介質(zhì)印刷,因此,圖片的掃描精度都在3000DPI以上,而交出版社存檔時(shí),往往由于數(shù)據(jù)量過(guò)大,出版單位大多是降低精度或壓存儲(chǔ)。這樣無(wú)形中使得文件中豐富的信息大為損失,不利于二次利用。2.合層存儲(chǔ):在圖書(shū)出版過(guò)程中,往往將若干圖形元素通過(guò)設(shè)計(jì)環(huán)節(jié)融合到同一幅畫(huà)面中,合層后發(fā)稿。但由于合層后的文件,其中獨(dú)立圖形元素不可能再分解出來(lái),因此,合層后的圖形文件只能用作再版,其中的元素不可能再次利用。3.文件名管理:大部分圖形文件的命名,是排版單位為便于出片而隨機(jī)命名的,這類文件的命名由于其隨機(jī)性,沒(méi)有規(guī)律可循,因此管理難度很大,當(dāng)大量匯集后,如何查詢檢索就成為一大問(wèn)題。二、數(shù)字化出版資源從上述分析可以看出,未經(jīng)過(guò)規(guī)范化處理的出版資源,即使是以“數(shù)字化”形式存在,也只不過(guò)是以數(shù)字形式存儲(chǔ)的出版資源而已,這類資源很難在數(shù)字出版領(lǐng)域中成為可資利用的有效資源并發(fā)揮其應(yīng)有的價(jià)值。目前許多傳統(tǒng)出版單位,仍熱衷于將其所掌握的出版資源大規(guī)模地進(jìn)行所謂的“數(shù)字化”工作,而這種不按數(shù)字出版需求處理的數(shù)據(jù),只能稱其為出版資源的數(shù)字化形式,其所產(chǎn)生的“數(shù)字化成果”,只不過(guò)是浪費(fèi)寶貴的時(shí)間、人力、物力和資金,又產(chǎn)生出一大批數(shù)據(jù)垃圾而已。那么,什么樣的資源才能真正成為數(shù)字化的出版資源呢?對(duì)照上面提出的問(wèn)題,我想數(shù)字化的出版資源起碼要具備以下幾個(gè)基本要求:第一是資源的可用性??捎眯允侵竷蓚€(gè)方面,一是資源的版權(quán)有效性,即資源經(jīng)過(guò)數(shù)字化加工處理后,出版單位對(duì)其是否具有版權(quán)意義上的使用權(quán)。二是資源自身的價(jià)值,是否具有一次加工,多次復(fù)用價(jià)值。在傳統(tǒng)出版時(shí)代,出版單位獲得的大多是專用出版權(quán),有的甚至只是非專用出版權(quán),而并沒(méi)有獲得改編權(quán)以及其他載體形式的出版權(quán),特別是對(duì)于數(shù)字出版最為重要的網(wǎng)絡(luò)傳播權(quán)。而這些法律上的授權(quán)問(wèn)題如果不能得到真正解決,即使出版單位花費(fèi)大量人力、物力和精力將其作品數(shù)字化,卻可能面臨數(shù)字環(huán)境下運(yùn)營(yíng)的合法問(wèn)題而無(wú)法使用。為此,對(duì)具有一定價(jià)值且需要進(jìn)行數(shù)字化的資源或已形成數(shù)字化的資源需要二次加工的資源,首先要進(jìn)行版權(quán)授權(quán)的認(rèn)證工作,未獲得有效許可的資源是不能進(jìn)行二次開(kāi)發(fā)的。并非所有的出版資源都具有可復(fù)用性,或者是利用復(fù)用性不強(qiáng)。在傳統(tǒng)出版資源中,復(fù)用性較強(qiáng)的資源有工具書(shū)、教材等長(zhǎng)銷類產(chǎn)品,其次是以提供數(shù)據(jù)分析和信息服務(wù)類的數(shù)據(jù)庫(kù)產(chǎn)品,最后是經(jīng)典讀物以及瀏覽性讀物。對(duì)于不同的資源,其數(shù)據(jù)處理水平及加工要求也各有不同。工具書(shū)、教材是數(shù)字化出版資源的核心,對(duì)這類資源要在完成同類資源的大規(guī)模集成后,要進(jìn)行數(shù)據(jù)的深度標(biāo)引,并完成查重排歧,才具有可使用的價(jià)值。這也是加工難度最大的一項(xiàng)工作,其中涉及如何利用計(jì)算機(jī)技術(shù)進(jìn)行數(shù)據(jù)挖掘、信息整理和知識(shí)管理、知識(shí)服務(wù)等數(shù)字出版核心技術(shù)。再一類是數(shù)據(jù)分析和信息服務(wù)類的數(shù)據(jù)庫(kù)產(chǎn)品。面向某一領(lǐng)域或特定讀者群的非工具書(shū)或教材類的出版資源,其單一資源的可復(fù)用性較弱,但大規(guī)模集成后,可形成一定強(qiáng)度的資源庫(kù),通過(guò)積累和沉淀,可形成新形態(tài)的信息產(chǎn)品,如清華同方的資源庫(kù),這類資源是通過(guò)大規(guī)模集成之后形成新的衍生性信息消費(fèi)產(chǎn)品,可滿足新的消費(fèi)需求,并促進(jìn)原來(lái)產(chǎn)品的發(fā)行與銷售。其可行性關(guān)鍵在于集成度和信息提取度。并非一兩家傳統(tǒng)出版單位可實(shí)現(xiàn)的,一般來(lái)說(shuō),要形成行業(yè)集成才有可能形成有效的規(guī)模產(chǎn)品,支撐產(chǎn)業(yè)的數(shù)字閱讀需求。如在集團(tuán)層面上集成,則專題性的集成度不足,難以形成有效消費(fèi)群。在技術(shù)層面上,由于對(duì)內(nèi)容信息需求的多樣性和復(fù)雜性,其底層數(shù)據(jù)結(jié)構(gòu)及信息提取等同題,需要大量數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)信息處理的專業(yè)人才,因此,要在基于新的信息消費(fèi)產(chǎn)業(yè)鏈的基礎(chǔ)上,進(jìn)行跨媒體、跨部門(mén)、跨行業(yè)、跨領(lǐng)域的優(yōu)質(zhì)資源整合,才可取得成效。對(duì)于經(jīng)典性讀物及大眾閱讀性讀物而言,由于其瀏覽性、實(shí)效性強(qiáng)、典藏性和資源性相對(duì)較弱,因此,大多以在線發(fā)布、順序?yàn)g覽為主,能滿足公眾利用網(wǎng)絡(luò)或手機(jī)閱讀終端,實(shí)現(xiàn)情節(jié)性淺閱讀的基本需求。第二是資源的可流通性。出版資源的流通性也要從不同的角度來(lái)看,一是數(shù)據(jù)自身的可流通性,二是載體的兼容性,三是內(nèi)容的需求性。要達(dá)到在不同載體上一次加工多次利用的目的,首先要解決字符的規(guī)范性問(wèn)題。而國(guó)內(nèi)目前各出版單位所擁有的“數(shù)字化資源”,大多是基于GB18030的字符集,這個(gè)字符集所收漢字難以滿足出版用字的需求。因此資源中存在大量非標(biāo)造字,不具有可流通性。要想提高資源的流通性,必須在資源構(gòu)架的基礎(chǔ)上,也就是超大字符集的基礎(chǔ)上,并實(shí)現(xiàn)現(xiàn)有資源用字符的五同問(wèn)題,即:文同字(同字異形的認(rèn)同)、字同形(同形異構(gòu)的認(rèn)同)、形同碼(同形異碼的認(rèn)同)、碼同位(同字異碼的碼位歸并)、符同碼(各類符號(hào)系統(tǒng)在符號(hào)集中的同一性)。只有在超大字符集的基礎(chǔ)上,解決了這“五同”問(wèn)題,數(shù)據(jù)才真正具有可流通性。要想出版資源在不同載體形式,上發(fā)布,重點(diǎn)需要解決不同媒體形態(tài)資源的存儲(chǔ)格式和精度問(wèn)題,也就是載體的可兼容性。媒體格式一定要采用國(guó)際通用標(biāo)準(zhǔn),如采用非國(guó)際標(biāo)準(zhǔn)的企業(yè)格式,將造成載體間兼容性的瓶頸,使得資源無(wú)法有效傳播和利用。精度問(wèn)題也是數(shù)字化資源中存在的一個(gè)嚴(yán)重問(wèn)題,特別是圖片資源,往往由于前期采集精度不足,導(dǎo)致可用性大大降低,甚至手不可用。因此,對(duì)具有利用價(jià)值的圖片資源,特別是珍貴資源,要按全張印刷的精度采集,并分層存儲(chǔ)。數(shù)字出版物的傳播方式是被動(dòng)傳播,即資源存儲(chǔ)在運(yùn)營(yíng)環(huán)境中是靜態(tài)的,如無(wú)用戶需求導(dǎo)致的閱讀點(diǎn)擊行為的產(chǎn)生,則根本不可能實(shí)現(xiàn)傳播。因此,閱讀需求越少的內(nèi)容信息,越不具有可流通性,要提高資源的流通性,就要認(rèn)真解決在網(wǎng)絡(luò)環(huán)境下讀者需求的動(dòng)態(tài)采集和用戶需求的定性量化分析,只要解決了需求描述和描述機(jī)制,才能真正做到按需定制,按需生產(chǎn)、按需加工、按需提供,才能真正提高資源的流通性和可用性。第三是資源的可獲取性。由于數(shù)字環(huán)境下的資源是以靜態(tài)的形式存在,如何有效地將資源組織起來(lái)以便于讀者的查詢和檢索,如何類聚地提供信息和內(nèi)容,如何基于用戶的認(rèn)知規(guī)律,拓展性地組織和關(guān)聯(lián)信息,并有效地利用多種媒體形態(tài),綜合藝術(shù)地動(dòng)態(tài)推送展示內(nèi)容,是提高靜態(tài)內(nèi)容的動(dòng)態(tài)流動(dòng)性所必須解決的問(wèn)題。第四是資源的可維護(hù)性。數(shù)字出版資源的特點(diǎn)之一是可不斷地對(duì)資源進(jìn)行動(dòng)態(tài)地更新維護(hù),以滿足和響應(yīng)不同用戶群體的閱讀需求。因此,能否建立起一支強(qiáng)大的,具有強(qiáng)大的信息利用和處理能力的編輯隊(duì)伍,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論