DB37∕T 4648-2023 公共數(shù)據(jù) 歷史數(shù)據(jù)數(shù)字化工作指南_第1頁
DB37∕T 4648-2023 公共數(shù)據(jù) 歷史數(shù)據(jù)數(shù)字化工作指南_第2頁
DB37∕T 4648-2023 公共數(shù)據(jù) 歷史數(shù)據(jù)數(shù)字化工作指南_第3頁
DB37∕T 4648-2023 公共數(shù)據(jù) 歷史數(shù)據(jù)數(shù)字化工作指南_第4頁
免費(fèi)預(yù)覽已結(jié)束,剩余4頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

ICS35.240

CCSL67

37

山東省地方標(biāo)準(zhǔn)

DB37/T4648—2023

公共數(shù)據(jù)歷史數(shù)據(jù)數(shù)字化工作指南

Publicdata—Guidelinesforhistoricaldatadigitization

2023-08-31發(fā)布2023-09-30實(shí)施

山東省市場(chǎng)監(jiān)督管理局發(fā)布

DB37/T4648—2023

目次

前言.................................................................................II

1范圍...............................................................................1

2規(guī)范性引用文件.....................................................................1

3術(shù)語和定義.........................................................................1

4縮略語.............................................................................1

5工作流程...........................................................................2

6總體計(jì)劃...........................................................................2

7數(shù)據(jù)調(diào)研分析.......................................................................2

8歷史數(shù)據(jù)借閱.......................................................................2

9數(shù)據(jù)結(jié)構(gòu)化.........................................................................2

9.1概述...........................................................................2

9.2掃描識(shí)別.......................................................................2

9.3手工錄入.......................................................................3

10數(shù)據(jù)校對(duì)..........................................................................3

11數(shù)據(jù)存儲(chǔ)歸檔......................................................................4

11.1數(shù)據(jù)存儲(chǔ)......................................................................4

11.2歷史數(shù)據(jù)歸檔..................................................................4

參考文獻(xiàn)..............................................................................5

I

DB37/T4648—2023

前言

本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定

起草。

請(qǐng)注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別專利的責(zé)任。

本文件由山東省大數(shù)據(jù)局提出、歸口并組織實(shí)施。

II

DB37/T4648—2023

公共數(shù)據(jù)歷史數(shù)據(jù)數(shù)字化工作指南

1范圍

本文件給出了文本資源歷史數(shù)據(jù)數(shù)字化的指導(dǎo)和建議。

本文件適用于各級(jí)公共管理和服務(wù)機(jī)構(gòu)文本資源歷史數(shù)據(jù)數(shù)字化的規(guī)劃、實(shí)施和管理。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T31219.2—2014圖書館館藏資源數(shù)字化加工規(guī)范第2部分:文本資源

DB37/T4646.2—2023公共數(shù)據(jù)數(shù)據(jù)治理規(guī)范第2部分:數(shù)據(jù)清洗比對(duì)

3術(shù)語和定義

下列術(shù)語和定義適用于本文件。

3.1

文本text

以字符、符號(hào)、詞、短語、段落、句子、表格或者其他字符排列形成的數(shù)據(jù),用于表達(dá)意義,其解

釋基本上取決于讀者對(duì)于某種自然語言或者人工語言的知識(shí)。

[來源:GB/T4894—2009,4.1.1.2.4]

3.2

數(shù)字圖像digitalimage

表示實(shí)物圖像的整數(shù)陣列,一個(gè)二維或更高維的采樣并量化的函數(shù),由相同維數(shù)的連續(xù)圖像產(chǎn)生。

[來源:DA/T31—2017,3.2]

3.3

歸檔filing

辦理完畢且具有保存價(jià)值的文件經(jīng)系統(tǒng)整理交檔案室或檔案館保存的過程。

[來源:DA/T1—2000,3.1.1]

4縮略語

下列縮略語適用于本文件。

DPI:每英寸點(diǎn)數(shù)(DotsPerInch)

JPEG:聯(lián)合圖像專家組(JointPhotographicExpertsGroup)

OCR:光學(xué)字符識(shí)別(OpticalCharacterRecognition)

OFD:開放版式文檔(OpenFixed-layoutDocument)

PDF:可攜帶文檔格式(PortableDocumentFormat)

TIFF:標(biāo)簽圖像文件格式(TagImageFileFormat)

1

DB37/T4648—2023

5工作流程

歷史數(shù)據(jù)數(shù)字化流程包括總體計(jì)劃、數(shù)據(jù)調(diào)研分析、歷史數(shù)據(jù)借閱、數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)校對(duì)、數(shù)據(jù)

存儲(chǔ)歸檔,見圖1。

數(shù)據(jù)結(jié)構(gòu)化

掃描識(shí)別

數(shù)據(jù)調(diào)研歷史數(shù)據(jù)手工數(shù)據(jù)數(shù)據(jù)存儲(chǔ)

開始總體計(jì)劃結(jié)束

分析借閱錄入校對(duì)歸檔

圖1歷史數(shù)據(jù)數(shù)字化流程

6總體計(jì)劃

宜綜合考慮本機(jī)構(gòu)實(shí)際業(yè)務(wù)工作情況、文本資源歷史數(shù)據(jù)的利用率、共享和開放程度、價(jià)值等因素,

制定歷史數(shù)據(jù)數(shù)字化總體計(jì)劃并形成工作方案,包括工作目標(biāo)、工作原則、歷史數(shù)據(jù)范圍、組織保障、

管理制度、人員安排及責(zé)任分工、進(jìn)度安排、工作流程等。采取外包方式實(shí)施時(shí),承擔(dān)歷史數(shù)據(jù)數(shù)字化

工作的機(jī)構(gòu)和人員遵守相關(guān)信息保密規(guī)定,并簽訂保密協(xié)議。

7數(shù)據(jù)調(diào)研分析

依據(jù)工作方案,調(diào)研分析本機(jī)構(gòu)文本資源歷史數(shù)據(jù)現(xiàn)狀,包括數(shù)據(jù)內(nèi)容、數(shù)據(jù)分布情況、數(shù)據(jù)存儲(chǔ)

介質(zhì)、存儲(chǔ)地點(diǎn)、數(shù)字化程度、數(shù)據(jù)量、數(shù)據(jù)質(zhì)量狀況、紙質(zhì)形態(tài),以及歷史數(shù)據(jù)存儲(chǔ)管理過程中存在

的問題等。

8歷史數(shù)據(jù)借閱

宜結(jié)合數(shù)據(jù)調(diào)研分析情況,按照歷史數(shù)據(jù)借閱相關(guān)要求開展歷史數(shù)據(jù)調(diào)取、清點(diǎn)、登記等準(zhǔn)備工作,

并提交歷史數(shù)據(jù)借閱申請(qǐng),審批通過后借閱并按規(guī)定存放歷史數(shù)據(jù),根據(jù)歷史數(shù)據(jù)的價(jià)值、可識(shí)別程度

等選取數(shù)據(jù)結(jié)構(gòu)化方式。

9數(shù)據(jù)結(jié)構(gòu)化

9.1概述

數(shù)據(jù)結(jié)構(gòu)化方式主要包括:

a)掃描識(shí)別:適合處理文字規(guī)整、版面清晰的歷史數(shù)據(jù);

b)手工錄入:適合處理字體過小、圖文模糊、版面復(fù)雜、準(zhǔn)確度要求較高和文檔價(jià)值較高的歷

史數(shù)據(jù),如手寫數(shù)據(jù)、準(zhǔn)確度要求高的證件數(shù)據(jù)、無法被掃描的高價(jià)值檔案等。

9.2掃描識(shí)別

9.2.1掃描

以掃描方式對(duì)歷史數(shù)據(jù)進(jìn)行處理時(shí)宜滿足:

2

DB37/T4648—2023

a)掃描設(shè)備:根據(jù)數(shù)據(jù)規(guī)模、尺寸和形狀、存儲(chǔ)條件等選擇掃描設(shè)備,歷史數(shù)據(jù)尺寸較大時(shí),

可使用拍照設(shè)備對(duì)歷史數(shù)據(jù)分塊拍攝,將拍攝的數(shù)字圖像拼接并存儲(chǔ);

b)掃描色彩模式:根據(jù)歷史數(shù)據(jù)是否有紅頭、印章、照片、插圖、多色彩文字,以及頁面顏色

是否為彩色、字跡是否清晰等情況選擇掃描色彩模式,包括彩色模式、黑白二值模式、灰度

模式等;

c)掃描參數(shù):設(shè)置并調(diào)整掃描參數(shù),以保證掃描后形成的文件清晰、完整、不失真,如文本資

源文字偏小、密集或清晰度較差時(shí),掃描分辨率宜大于300DPI;

d)掃描格式:掃描文件宜使用通用格式,如TIFF、JPEG等,也可從瀏覽速度、易操作性、存儲(chǔ)

空間占用等方面考慮,將數(shù)字圖像轉(zhuǎn)換為OFD、PDF等其他格式,并按需增加電子簽名;

e)數(shù)字圖像質(zhì)量:掃描形成的數(shù)字圖像質(zhì)量要求宜符合GB/T31219.2—2014中6.3.1的要求;

f)掃描文件命名:掃描文件與歷史數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)建立關(guān)聯(lián),并制定文件命名規(guī)則,命名包

含歷史數(shù)據(jù)檔案號(hào)、錄入業(yè)務(wù)部門名稱、業(yè)務(wù)類別等。

9.2.2識(shí)別

采用OCR識(shí)別等技術(shù)對(duì)掃描文件進(jìn)行文字識(shí)別,依據(jù)數(shù)據(jù)類別(比如票據(jù)、證件、表格、公文等)

對(duì)識(shí)別結(jié)果進(jìn)行處理,形成并輸出結(jié)構(gòu)化數(shù)據(jù)。

9.3手工錄入

9.3.1概述

手工錄入包括正常信息和異常信息錄入兩種情況,根據(jù)實(shí)際情況選擇單工錄入、雙工錄入方式。

注:雙工錄入為同一份歷史數(shù)據(jù)由兩個(gè)操作員分別進(jìn)行錄入。

9.3.2正常信息錄入

歷史數(shù)據(jù)中正常信息錄入時(shí)宜按照歷史數(shù)據(jù)原文錄入,正常信息錄入宜滿足:

a)錄入時(shí)不宜增加空格、標(biāo)點(diǎn)、符號(hào)等內(nèi)容;

b)證件類號(hào)碼中的字符使用半角英文,數(shù)字使用阿拉伯?dāng)?shù)字;

c)無特別說明的日期類信息,推定為公歷日期。

9.3.3異常信息錄入

歷史數(shù)據(jù)中異常信息錄入時(shí)宜備注說明錄入情況,異常信息錄入宜滿足:

a)錯(cuò)誤信息錄入:

1)數(shù)據(jù)、字符或文字無法確認(rèn)的,用“*”代替;

2)繁體字、異體字等不規(guī)范用字,以相應(yīng)的規(guī)范漢字代替;

3)錯(cuò)別字、語句不通順等異常內(nèi)容,按照歷史數(shù)據(jù)記載信息錄入;

4)日期信息不符合歷法規(guī)則、日期不全的,根據(jù)業(yè)務(wù)情況推定日期進(jìn)行代替;

5)證件類號(hào)碼不符合該類證件編碼規(guī)則的,按歷史數(shù)據(jù)記載信息錄入。

b)缺失信息錄入:在錄入選填信息時(shí),有關(guān)信息完全無法確定或缺失的,該項(xiàng)可不錄入。

10數(shù)據(jù)校對(duì)

依據(jù)數(shù)據(jù)結(jié)構(gòu)化方式和業(yè)務(wù)需求,選擇系統(tǒng)校對(duì)、人工校對(duì)或系統(tǒng)校對(duì)與人工校對(duì)相結(jié)合方式對(duì)已

結(jié)構(gòu)化數(shù)據(jù)進(jìn)行校對(duì),重點(diǎn)對(duì)結(jié)構(gòu)化數(shù)據(jù)的準(zhǔn)確性、完整性和規(guī)范性,數(shù)字圖像的數(shù)字化參數(shù)、命名、

3

DB37/T4648—2023

排列順序、圖像質(zhì)量,數(shù)據(jù)存儲(chǔ)載體的安全性等進(jìn)行全面校對(duì),校對(duì)修改完成后及時(shí)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),

并將歷史數(shù)據(jù)歸檔。

11數(shù)據(jù)存儲(chǔ)歸檔

11.1數(shù)據(jù)存儲(chǔ)

宜對(duì)已結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)治理,包括但不限于數(shù)據(jù)清洗比對(duì)、標(biāo)準(zhǔn)化、融合,制定問題數(shù)據(jù)處理

機(jī)制并修正數(shù)據(jù)治理過程中發(fā)現(xiàn)的問題數(shù)據(jù),制定

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論