下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
ICS35.240
CCSL67
37
山東省地方標(biāo)準(zhǔn)
DB37/T4648—2023
公共數(shù)據(jù)歷史數(shù)據(jù)數(shù)字化工作指南
Publicdata—Guidelinesforhistoricaldatadigitization
2023-08-31發(fā)布2023-09-30實(shí)施
山東省市場(chǎng)監(jiān)督管理局發(fā)布
DB37/T4648—2023
目次
前言.................................................................................II
1范圍...............................................................................1
2規(guī)范性引用文件.....................................................................1
3術(shù)語和定義.........................................................................1
4縮略語.............................................................................1
5工作流程...........................................................................2
6總體計(jì)劃...........................................................................2
7數(shù)據(jù)調(diào)研分析.......................................................................2
8歷史數(shù)據(jù)借閱.......................................................................2
9數(shù)據(jù)結(jié)構(gòu)化.........................................................................2
9.1概述...........................................................................2
9.2掃描識(shí)別.......................................................................2
9.3手工錄入.......................................................................3
10數(shù)據(jù)校對(duì)..........................................................................3
11數(shù)據(jù)存儲(chǔ)歸檔......................................................................4
11.1數(shù)據(jù)存儲(chǔ)......................................................................4
11.2歷史數(shù)據(jù)歸檔..................................................................4
參考文獻(xiàn)..............................................................................5
I
DB37/T4648—2023
前言
本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定
起草。
請(qǐng)注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別專利的責(zé)任。
本文件由山東省大數(shù)據(jù)局提出、歸口并組織實(shí)施。
II
DB37/T4648—2023
公共數(shù)據(jù)歷史數(shù)據(jù)數(shù)字化工作指南
1范圍
本文件給出了文本資源歷史數(shù)據(jù)數(shù)字化的指導(dǎo)和建議。
本文件適用于各級(jí)公共管理和服務(wù)機(jī)構(gòu)文本資源歷史數(shù)據(jù)數(shù)字化的規(guī)劃、實(shí)施和管理。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T31219.2—2014圖書館館藏資源數(shù)字化加工規(guī)范第2部分:文本資源
DB37/T4646.2—2023公共數(shù)據(jù)數(shù)據(jù)治理規(guī)范第2部分:數(shù)據(jù)清洗比對(duì)
3術(shù)語和定義
下列術(shù)語和定義適用于本文件。
3.1
文本text
以字符、符號(hào)、詞、短語、段落、句子、表格或者其他字符排列形成的數(shù)據(jù),用于表達(dá)意義,其解
釋基本上取決于讀者對(duì)于某種自然語言或者人工語言的知識(shí)。
[來源:GB/T4894—2009,4.1.1.2.4]
3.2
數(shù)字圖像digitalimage
表示實(shí)物圖像的整數(shù)陣列,一個(gè)二維或更高維的采樣并量化的函數(shù),由相同維數(shù)的連續(xù)圖像產(chǎn)生。
[來源:DA/T31—2017,3.2]
3.3
歸檔filing
辦理完畢且具有保存價(jià)值的文件經(jīng)系統(tǒng)整理交檔案室或檔案館保存的過程。
[來源:DA/T1—2000,3.1.1]
4縮略語
下列縮略語適用于本文件。
DPI:每英寸點(diǎn)數(shù)(DotsPerInch)
JPEG:聯(lián)合圖像專家組(JointPhotographicExpertsGroup)
OCR:光學(xué)字符識(shí)別(OpticalCharacterRecognition)
OFD:開放版式文檔(OpenFixed-layoutDocument)
PDF:可攜帶文檔格式(PortableDocumentFormat)
TIFF:標(biāo)簽圖像文件格式(TagImageFileFormat)
1
DB37/T4648—2023
5工作流程
歷史數(shù)據(jù)數(shù)字化流程包括總體計(jì)劃、數(shù)據(jù)調(diào)研分析、歷史數(shù)據(jù)借閱、數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)校對(duì)、數(shù)據(jù)
存儲(chǔ)歸檔,見圖1。
數(shù)據(jù)結(jié)構(gòu)化
掃描識(shí)別
數(shù)據(jù)調(diào)研歷史數(shù)據(jù)手工數(shù)據(jù)數(shù)據(jù)存儲(chǔ)
開始總體計(jì)劃結(jié)束
分析借閱錄入校對(duì)歸檔
圖1歷史數(shù)據(jù)數(shù)字化流程
6總體計(jì)劃
宜綜合考慮本機(jī)構(gòu)實(shí)際業(yè)務(wù)工作情況、文本資源歷史數(shù)據(jù)的利用率、共享和開放程度、價(jià)值等因素,
制定歷史數(shù)據(jù)數(shù)字化總體計(jì)劃并形成工作方案,包括工作目標(biāo)、工作原則、歷史數(shù)據(jù)范圍、組織保障、
管理制度、人員安排及責(zé)任分工、進(jìn)度安排、工作流程等。采取外包方式實(shí)施時(shí),承擔(dān)歷史數(shù)據(jù)數(shù)字化
工作的機(jī)構(gòu)和人員遵守相關(guān)信息保密規(guī)定,并簽訂保密協(xié)議。
7數(shù)據(jù)調(diào)研分析
依據(jù)工作方案,調(diào)研分析本機(jī)構(gòu)文本資源歷史數(shù)據(jù)現(xiàn)狀,包括數(shù)據(jù)內(nèi)容、數(shù)據(jù)分布情況、數(shù)據(jù)存儲(chǔ)
介質(zhì)、存儲(chǔ)地點(diǎn)、數(shù)字化程度、數(shù)據(jù)量、數(shù)據(jù)質(zhì)量狀況、紙質(zhì)形態(tài),以及歷史數(shù)據(jù)存儲(chǔ)管理過程中存在
的問題等。
8歷史數(shù)據(jù)借閱
宜結(jié)合數(shù)據(jù)調(diào)研分析情況,按照歷史數(shù)據(jù)借閱相關(guān)要求開展歷史數(shù)據(jù)調(diào)取、清點(diǎn)、登記等準(zhǔn)備工作,
并提交歷史數(shù)據(jù)借閱申請(qǐng),審批通過后借閱并按規(guī)定存放歷史數(shù)據(jù),根據(jù)歷史數(shù)據(jù)的價(jià)值、可識(shí)別程度
等選取數(shù)據(jù)結(jié)構(gòu)化方式。
9數(shù)據(jù)結(jié)構(gòu)化
9.1概述
數(shù)據(jù)結(jié)構(gòu)化方式主要包括:
a)掃描識(shí)別:適合處理文字規(guī)整、版面清晰的歷史數(shù)據(jù);
b)手工錄入:適合處理字體過小、圖文模糊、版面復(fù)雜、準(zhǔn)確度要求較高和文檔價(jià)值較高的歷
史數(shù)據(jù),如手寫數(shù)據(jù)、準(zhǔn)確度要求高的證件數(shù)據(jù)、無法被掃描的高價(jià)值檔案等。
9.2掃描識(shí)別
9.2.1掃描
以掃描方式對(duì)歷史數(shù)據(jù)進(jìn)行處理時(shí)宜滿足:
2
DB37/T4648—2023
a)掃描設(shè)備:根據(jù)數(shù)據(jù)規(guī)模、尺寸和形狀、存儲(chǔ)條件等選擇掃描設(shè)備,歷史數(shù)據(jù)尺寸較大時(shí),
可使用拍照設(shè)備對(duì)歷史數(shù)據(jù)分塊拍攝,將拍攝的數(shù)字圖像拼接并存儲(chǔ);
b)掃描色彩模式:根據(jù)歷史數(shù)據(jù)是否有紅頭、印章、照片、插圖、多色彩文字,以及頁面顏色
是否為彩色、字跡是否清晰等情況選擇掃描色彩模式,包括彩色模式、黑白二值模式、灰度
模式等;
c)掃描參數(shù):設(shè)置并調(diào)整掃描參數(shù),以保證掃描后形成的文件清晰、完整、不失真,如文本資
源文字偏小、密集或清晰度較差時(shí),掃描分辨率宜大于300DPI;
d)掃描格式:掃描文件宜使用通用格式,如TIFF、JPEG等,也可從瀏覽速度、易操作性、存儲(chǔ)
空間占用等方面考慮,將數(shù)字圖像轉(zhuǎn)換為OFD、PDF等其他格式,并按需增加電子簽名;
e)數(shù)字圖像質(zhì)量:掃描形成的數(shù)字圖像質(zhì)量要求宜符合GB/T31219.2—2014中6.3.1的要求;
f)掃描文件命名:掃描文件與歷史數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)建立關(guān)聯(lián),并制定文件命名規(guī)則,命名包
含歷史數(shù)據(jù)檔案號(hào)、錄入業(yè)務(wù)部門名稱、業(yè)務(wù)類別等。
9.2.2識(shí)別
采用OCR識(shí)別等技術(shù)對(duì)掃描文件進(jìn)行文字識(shí)別,依據(jù)數(shù)據(jù)類別(比如票據(jù)、證件、表格、公文等)
對(duì)識(shí)別結(jié)果進(jìn)行處理,形成并輸出結(jié)構(gòu)化數(shù)據(jù)。
9.3手工錄入
9.3.1概述
手工錄入包括正常信息和異常信息錄入兩種情況,根據(jù)實(shí)際情況選擇單工錄入、雙工錄入方式。
注:雙工錄入為同一份歷史數(shù)據(jù)由兩個(gè)操作員分別進(jìn)行錄入。
9.3.2正常信息錄入
歷史數(shù)據(jù)中正常信息錄入時(shí)宜按照歷史數(shù)據(jù)原文錄入,正常信息錄入宜滿足:
a)錄入時(shí)不宜增加空格、標(biāo)點(diǎn)、符號(hào)等內(nèi)容;
b)證件類號(hào)碼中的字符使用半角英文,數(shù)字使用阿拉伯?dāng)?shù)字;
c)無特別說明的日期類信息,推定為公歷日期。
9.3.3異常信息錄入
歷史數(shù)據(jù)中異常信息錄入時(shí)宜備注說明錄入情況,異常信息錄入宜滿足:
a)錯(cuò)誤信息錄入:
1)數(shù)據(jù)、字符或文字無法確認(rèn)的,用“*”代替;
2)繁體字、異體字等不規(guī)范用字,以相應(yīng)的規(guī)范漢字代替;
3)錯(cuò)別字、語句不通順等異常內(nèi)容,按照歷史數(shù)據(jù)記載信息錄入;
4)日期信息不符合歷法規(guī)則、日期不全的,根據(jù)業(yè)務(wù)情況推定日期進(jìn)行代替;
5)證件類號(hào)碼不符合該類證件編碼規(guī)則的,按歷史數(shù)據(jù)記載信息錄入。
b)缺失信息錄入:在錄入選填信息時(shí),有關(guān)信息完全無法確定或缺失的,該項(xiàng)可不錄入。
10數(shù)據(jù)校對(duì)
依據(jù)數(shù)據(jù)結(jié)構(gòu)化方式和業(yè)務(wù)需求,選擇系統(tǒng)校對(duì)、人工校對(duì)或系統(tǒng)校對(duì)與人工校對(duì)相結(jié)合方式對(duì)已
結(jié)構(gòu)化數(shù)據(jù)進(jìn)行校對(duì),重點(diǎn)對(duì)結(jié)構(gòu)化數(shù)據(jù)的準(zhǔn)確性、完整性和規(guī)范性,數(shù)字圖像的數(shù)字化參數(shù)、命名、
3
DB37/T4648—2023
排列順序、圖像質(zhì)量,數(shù)據(jù)存儲(chǔ)載體的安全性等進(jìn)行全面校對(duì),校對(duì)修改完成后及時(shí)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),
并將歷史數(shù)據(jù)歸檔。
11數(shù)據(jù)存儲(chǔ)歸檔
11.1數(shù)據(jù)存儲(chǔ)
宜對(duì)已結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)治理,包括但不限于數(shù)據(jù)清洗比對(duì)、標(biāo)準(zhǔn)化、融合,制定問題數(shù)據(jù)處理
機(jī)制并修正數(shù)據(jù)治理過程中發(fā)現(xiàn)的問題數(shù)據(jù),制定
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 邊城書籍介紹課件
- 辯論賽培訓(xùn)課件
- 車隊(duì)職工安全培訓(xùn)課件
- 內(nèi)科主治醫(yī)師考試強(qiáng)化沖刺試題及答案
- 車隊(duì)冬季四防安全培訓(xùn)課件
- 2026年四川低壓電工理論考試題庫及答案
- 酒店員工行為規(guī)范及獎(jiǎng)懲制度
- 車間級(jí)安全培訓(xùn)教學(xué)課件
- (2026)院感科年度培訓(xùn)計(jì)劃(2篇)
- 車間電氣設(shè)備培訓(xùn)課件
- 委內(nèi)瑞拉變局的背后
- 政府補(bǔ)償協(xié)議書模板
- 語文-吉林省2026屆高三九校11月聯(lián)合模擬考
- 2025年四川省高職單招模擬試題語數(shù)外全科及答案
- 2025年江蘇事業(yè)單位教師招聘體育學(xué)科專業(yè)知識(shí)考試試卷含答案
- 模擬智能交通信號(hào)燈課件
- 合肥市軌道交通集團(tuán)有限公司招聘筆試題庫及答案2025
- 2.3《河流與湖泊》學(xué)案(第2課時(shí))
- 工地臨建合同(標(biāo)準(zhǔn)版)
- GB/T 46275-2025中餐評(píng)價(jià)規(guī)范
- 2025至2030供水產(chǎn)業(yè)行業(yè)項(xiàng)目調(diào)研及市場(chǎng)前景預(yù)測(cè)評(píng)估報(bào)告
評(píng)論
0/150
提交評(píng)論