版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
檔案數(shù)字化加工方
r^i
資料內容僅供參考,如有不當或者侵權,請聯(lián)系本人改正或者刪除。
(三)數(shù)字化加工部分.......................錯誤味定義書簽。
6.1.需求分析與,總結......................錯誤!未定義書簽。
6.2.參考的國家標準及技術規(guī)范............錯誤!未定義書簽。
6.3.數(shù)字化加工實施細則..................錯誤!未定義書簽。
6.9.1.本I頁的掃描力口工流程...............錯誤!未定義書簽。
6.9.2.生產流程有以下幾個主要的步驟組成:錯誤!未定義書簽。
6.9.3.檔案整理.........................錯誤!未定義書簽。
6.9.4.著錄標弓|.........................錯誤!未定義書簽。
6.9.5.紙彳牛掃描.........................錯誤!未定義書簽。
6.9.6.圖像處理.........................錯誤!未定義書簽。
6.9.7.質量檢驗.........................錯誤!未定義書簽。
6.9.8.檔案還原裝訂.....................錯誤!未定義書簽。
6.9.9.數(shù)據(jù)存儲與備份...................錯誤!未定義書簽。
6.9.10檔案電子數(shù)據(jù)與XXXXXX煙草檔案系統(tǒng)的無縫掛
接錯誤!未定義書簽。
6.4.項目所采用的OCR處理技術介紹......錯誤!未定義書簽。
6.10.1.OCR(光學字符識別)技術
錯誤!未定義書簽。
6.10.2.所采用的OCR及雙層PDF生產流程
錯誤!未定義書簽。
6.10.3.生產流程邏輯示意圖
錯誤!未定義書簽。
資料內容僅供參考,如有不當或者侵權,請聯(lián)系本人改正或者刪除。
6.5.XXXXXX檔案數(shù)字化服務特點........錯誤!未定義書簽。
6.11.1.自動化程度
錯誤!未定義書簽。
6.112標準化程度高
錯誤!未定義書簽。
6.11.3嚴格的質量控制
錯誤!未定義書簽。
6.11.4.文檔安全性高
錯誤!未定義書簽。
6.115標準的格式
錯誤!未定義書簽。
6.116方便存儲與管理
錯誤!未定義書簽。
(三)數(shù)字化加工部分
6.1.需求分析與總結
此次項目是將中國煙草總公司XXXXXX省公司及所屬11個
資料內容僅供參考,如有不當或者侵權,請聯(lián)系本人改正或者刪除。
市煙草公司的約183萬頁紙質橙案進行數(shù)字化加工并將成品數(shù)據(jù)
掛接到檔案管理系統(tǒng)中,紙質檔案的折分整理、掃描與圖像處
理、數(shù)據(jù)的掛接與光盤備份都將嚴格按照國家檔案局相關標準及
XXXXXX省檔案局相關規(guī)定,結合XXXXXX煙草檔案現(xiàn)狀定制
加工技術規(guī)范與生產加工流程。
O據(jù)上述現(xiàn)狀,具體人員安排,項目實施周期,采用標準及實施
細則如下。
6.2.參考的國家標準及技術規(guī)范
《紙質檔案數(shù)字化技術規(guī)范》(DA/T31—)
《連續(xù)色調靜態(tài)圖像的數(shù)字壓縮及編碼》(GB/T17235.1-
1998)
《電子文件歸檔與管理規(guī)范》(GB/T18894-)
《中央檔案館接收檔案的標準》
?XXXXXX省檔案接收和收集管理相關規(guī)定
《歸檔文件整理規(guī)則》(DA/T22-)
《檔案著錄規(guī)則》(DA/T18-1999)
《無酸檔案卷皮卷盒用紙及紙板》(DA/T24.)
《檔案修裱技術規(guī)范》(DA"25-)
?xxxxxxxxxxxx檔案數(shù)字化技術規(guī)范》
?xxxxxx煙草檔案數(shù)字化技術規(guī)范》
資料內容僅供參考,如有不當或者侵權,請聯(lián)系本人改正或者刪除。
6.3.數(shù)字化加工實施細則
691.本項的掃描加工流程
資料內容僅供參考,如有不當或者侵權,請聯(lián)系本人改正或者刪除。
6.92生產流程有以下幾個主要的步驟組成:
紙質檔案的整理
從檔案室進行檔案提卷,并記錄提卷的內容,接著拆卷,并進行
去污、平整化,并依據(jù)檔案紙張的大小和厚薄分類。檔案的整理
工作主要是為了以后檔案的掃描做準備。
6.9.2.1.掃描及圖像處理
根據(jù)不同檔案紙張的大小和厚薄,選擇不同的掃描儀,較為規(guī)
整的選擇快速掃描儀,較薄、較厚和不規(guī)整的用平板掃描儀,這樣
既能達到保護檔案(高速掃描儀會發(fā)生卷紙,損壞檔案)的目的也
能提高檔案數(shù)字化加工的速度。
查重查漏
在掃描的過程中,難免會發(fā)生重復掃描和漏掃的現(xiàn)象,人工的
再次校對能夠發(fā)現(xiàn)檔案數(shù)字化過程中出現(xiàn)的情況,并即使糾正。
數(shù)據(jù)項錄入
依據(jù)檔案著錄規(guī)范或者依據(jù)客戶檔案的實際著錄項,錄入標
題、責任者、歸檔時間、檔號等各種信息。
6.9.2.2.質量檢測
對掃描圖像和著錄的標引數(shù)據(jù)進行檢驗,圖像主要是檢驗其掃
資料內容僅供參考,如有不當或者侵權,請聯(lián)系本人改正或者刪除。
描和凈化處理質量,數(shù)據(jù)項的質量檢測主要是檢測其錄入正確率。
6.9.2.3.檔案還原
完成檔案數(shù)字化后,要把原先的檔案原件還原成原樣。
6.93檔案整理
6.9.3.1.檔案交接
檔案按年度、案卷提檔,提檔時數(shù)字化實施方的提卷人員對
每卷的所有頁面進行統(tǒng)一的編號,全卷所有文件頁號編寫完成后,
再依據(jù)XXXXXX煙草的要求抽出不需要掃描的文件頁,然后再次
按序編寫需要掃描的文件頁號,頁號編寫完成后,按實際文件頁數(shù)
填寫詳細的紙質檔案交按清單,并由雙方主管人員簽字。
6.9.3.2.檔案拆分
檔案拆分前要對檔案進行統(tǒng)一的編號,編制總頁號后,要從中
選中需要掃描的頁面。再一次編制所需掃描的頁號,兩個頁號需用
鉛筆的顏色或位置區(qū)分,以確保檔案還原時能夠清楚區(qū)別和核時頁
數(shù)。
6.9.3.3.目錄數(shù)據(jù)準備
按照《檔案著錄規(guī)則》(DA/T18)等的要求,規(guī)范檔案中的目錄
資料內容僅供參考,如有不當或者侵權,請聯(lián)系本人改正或者刪除。
內容。包括確定檔案目錄的著錄項、字段長度和內容要求。如有
錯誤或不規(guī)范的案卷題名、文件名、責任者、起止頁號和員數(shù)
等,應進行修改。
6.9.3.4.拆除裝訂
在不去除裝訂物情況下,影響掃描工作進行的檔案,應拆除裝
訂物。拆除裝訂物時應注意保護檔案不受損害。
6.9.3.5.區(qū)分掃描件和非掃描件
按要求把同一案卷中的掃描件和非3描件區(qū)分開。普發(fā)性文
件區(qū)分的原則是:無關和重份的文件要剔除,有正式件的文件能夠
不掃描原稿。
6.9.3.6.頁面修整
破損嚴重、無法直接進行掃描的檔案,應先進行技術修復,折
皺不平影響掃描質量的原件應先進行相應處理(壓平或熨平等)后
再進行掃描。
6.9.3.7.檔案整理登記
制作并填寫紙質檔案數(shù)字化加工過程交接登記表單,詳細記錄
檔案整理后每份文件的起始頁號和頁數(shù)。
資料內容僅供參考,如有不當或者侵權,請聯(lián)系本人改正或者刪除。
694.著錄標弓|
6.9.4.1.標引著錄
標引著錄為了方便查閱與管理,打印制作檔案目錄及檔案封面,
對文字錄入的準確性要求較高,但要錄的文本域并不是完全統(tǒng)一的
在某一頁面上,一些文本域要在多個文件中選擇,因此錄入時需要
相關學部專家進行指導,確保文本域錄入的準確率。
對所需錄入的文本進行標引、或對不同類別的檔案錄入特征
制作相應的《文字錄入工作說明書》,供錄入員和校對人員參考。
6.9.4.2.錄入方式
由于文本類型不一,有印刷體、手寫體、有表格內的也有表
格外的文本信息,因此采用手工錄入和OCR(光學字符識別)軟件
相結合的方式錄入,即手寫體或不清晰的印刷體采用手工錄入,較
規(guī)整的印刷體采用OCR技術的錄入方式,
6.9.4.3.校對方式
校對以軟件校對和打印輸出對比校對相結合的方式,即對手工
錄入和OCR自動錄入的文本打印輸出進行對比校正確一校、二
校、抽查校對,確保索引信息達到出版質量萬分之一以下。
資料內容僅供參考,如有不當或者侵權,請聯(lián)系本人改正或者刪除。
6.95紙件掃描
原件的掃描與存儲格式完全按照國家檔案管理的統(tǒng)一標準和
XXXXXX煙草的相關要求掃描。掃描人員按照《掃描與處理工作
說明書》的要求,填寫移交清單(此移交清單是檔案拆分人員和掃
描人員共同填寫)并簽字領取并進行紙件掃描。掃描圖像使用先進
的圖像掃描處理軟件(快圖像系統(tǒng)),掃描人員可根據(jù)原稿質量,對
系統(tǒng)進行定義,如自動傾斜校正、自動去污、自動分文件等批處
理功能。在由系統(tǒng)自動處理功能的同時,掃描人員根據(jù)原件的實際
情況做相應的調整,如超大頁面的處埋、紙張顏色深淺及薄厚的
處理、掃描時可根據(jù)不同原件的情況,調整圖像的分辨率、閥
值、明亮度以及掃描方式和掃描速度,確保在掃描圖像質量清晰
的情況下,使原件完好無損。
圖像的分辨率正常情況下為300dpi,如遇字間距和行行距過
密、原件本身是復印件等字跡不清楚的情況,可適當增加掃描的
分辨率但要保正圖像清晰的同時,又不影響遠程查詢和游覽的速
度。
6.9.5.1.掃描方式
根據(jù)檔案幅面的大小(A4、A3、A0等)選擇相應規(guī)格的掃描
儀或專業(yè)掃描儀(如工程圖紙可采用。號圖紙掃描儀)進行掃描。大
幅面檔案可采用大幅面數(shù)碼平臺,或者縮微拍攝后的膠片數(shù)字化轉
換設備等進行掃描,也能夠采用小幅面掃描后的圖像拼接方式處
資料內容僅供參考,如有不當或者侵權,請聯(lián)系本人改正或者刪除。
So
紙張狀況較差,以及過薄、過軟或超厚的檔案,應采用平板掃
描方式;紙張狀況好的檔案可采用高速掃描方式以提高工作效率。
6.9.5.2.掃描色彩模式
掃描色彩模式一般有黑白二值、灰度、彩色等。一般采用黑
白二值。
頁面為黑白兩色,而且字跡清晰、不帶插圖的檔案.可夾用
黑白二值模式進行掃描。頁面為黑白兩色,但字跡清晰度差或帶有
插圖的檔案,以及頁面為多色文字的檔案,能夠采用灰度模式掃
描。頁面中有紅頭、印章或插有黑白照片、彩色照片、彩色插
圖的檔案,可視需要采用彩色模式進行掃描。
6.9.5.3.掃描分辨率
掃描分辨率參數(shù)大小的選擇,原則上以掃描后的圖像清晰、
完整、不影響圖像的利用效果為準。采用黑白二值、灰度、彩
色幾種模式對檔案進行掃描時,其分辨率一般均選擇大于或等于
200dpi。特殊情況下,如文字偏小、密集、清晰度較差等,可適當
提高分辨率。需要進行OCR漢字識別的檔案,掃描分辨率建議選
擇大于或等于300dpio
資料內容僅供參考,如有不當或者侵權,請聯(lián)系本人改正或者刪除。
6.9.5.4.掃描登記
認真填寫紙質檔案數(shù)字化轉換過程交接登記表單,登記掃描
的頁數(shù),核對每份文件的實際掃描頁數(shù)與檔案整理時填寫的文件頁
數(shù)是否一致,不一致時應注明具體原因和處理方法。
696.圖像處理
XXXXXXXXXXXX檔案數(shù)字化工廠采用自動化處理和人工
處理相結合的方式,確保圖像質量的完美。經過校對系統(tǒng)對圖像進
行校對,確保圖像順序正確、去斑點、校驗。,在校對時發(fā)現(xiàn)不合
格圖像及時返回前一工序進行改正。
6.9.6.1.污漬、黑邊、偏斜處理
數(shù)字化加工系統(tǒng)會根據(jù)原件質量的好壞對污漬的情況進行自
動輕度、中度、高度去污,對紙質變質或掃描時的黑邊完全自動
清除、自動進行偏斜校正處理。系統(tǒng)支持局部去污、并能對不能
夠自動處理的頁面進行單頁多次修正。圖像處理人員在發(fā)現(xiàn)掃描
不合格的文件,進行登記后交掃描人員處理,雙方簽字確認后的表
單留存?zhèn)洳?。使因掃描造成的不合格圖像機時返回上一生產流
程。
6.9.6.2,全文字面的掃描密度
圖像處理人員在進行處理前,掃描人員會根據(jù)不同原件的情況,
資料內容僅供參考,如有不當或者侵權,請聯(lián)系本人改正或者刪除。
提高圖像掃描的分辨率、閥值、明亮度以及掃描方式,如遇字間
距和行行距過密、原件本身是復印件等字跡不清楚的情況,對手
寫過密的要對圖像進行細致的修正,確保各書寫工具寫出的不同顏
色、深淺的文字及圖像信息清晰可辯。
6.9.6.3.粘帖頁與表格
對粘帖頁面的處理先用XXXXXX數(shù)字化加工軟件系統(tǒng)進行
自動處理,在掃描的時消除粘帖重疊的曲線,不能自動處理的放大
后人工處理。對字跡與表格線顏色深淺不一在掃描時進行細微調
整后,圖像處理時再進行局部調整。以確保數(shù)字檔案的可閱讀性。
6.9.6.4.一般性文本流程圖
提高圖像掃描的分辨率,調整閥值、明亮度以及掃描方式,采
用局部處理技術對圖像進仃修正。以確保數(shù)字檔案游覽時辨認流
程圖的流程線。
6.9.6.5.插圖頁面處理
檔案中有插圖的要在掃描時對提高分辨率及相應調整,圖文混
排的頁面不做拆分,在保持原始頁面信息的同時使圖像清晰可辯。
6.9.6.6.照片頁的處理
根據(jù)黑白或彩色圖像對頁面進行調整,對特殊照片的處理,必
資料內容僅供參考,如有不當或者侵權,請聯(lián)系本人改正或者刪除。
要時采用專業(yè)的圖像處理軟件進行處理,確保照片的清晰度。
6.9.6.7.存儲格式與頁面空間
分辨率:200dpi
圖像格式:TIFF、JPG
儲存空間:B5或A4,20-30KB/頁
697,質量檢驗
對掃描處理完成后的圖像頁進行檢驗,對檔案拆分、掃描、
修正、去污、文本流程圖的處理、插圖、照片的處理以及文本
和圖像頁的匹配進行檢驗等質量進行全面檢驗。
對文本域錄入與文本錄入域的標引、文件的頁號及頁數(shù)進行
對比,對掃描前的圖像頁的標引與掃描后的圖像頁的編號與頁數(shù)進
行對比,發(fā)現(xiàn)不合格的登記清單并退回上一流程重新處理。
698?檔案還原裝訂
檔案整理工作嚴格按照中央檔案館進館標準規(guī)定的相關標準
和XXXXXX煙草的實際情況進行有序的整理,
XXXXXXXXXXXX檔案數(shù)字化中心安排專人負責案卷合并與整
理。
資料內容僅供參考,如有不當或者侵權,請聯(lián)系本人改正或者刪除。
6.9.8.1.原件合并
把掃描時挑出的頁面插入到原來的頁面位置中去,將掃描時展
開的超大頁面還原到掃描前的原樣,把數(shù)字化中挑出的不要的多余
頁面提出。
6.9.8.2.全卷整理
將每卷文件按形成的時間、順序、文件類別進行整理。
6.9.8.3,編寫頁號
按重新整理頁面上按順序統(tǒng)一的編寫頁號。
6.9.8.4.案卷目錄和卷內目錄
按順序將一個項目文件的合并到一卷中,并按中央檔案館迸館
標準和XXXXXX煙草特有字段組成案卷目錄和卷內目錄。
6.9.8.5.打印案卷封面和卷內目錄
對案卷目錄和卷內目錄與卷內文件迸行匹配后打印案卷目錄
和卷內目錄以備裝訂使用。
6.9.8.6.裝訂
嚴格按照中央檔案館進館標準和XXXXXX煙草的要求將每
卷檔案的封面、卷內目錄、卷內文件、左下角對齊打成三孔一
資料內容僅供參考,如有不當或者侵權,請聯(lián)系本人改正或者刪除。
線裝訂還原檔案。
6.9.8.7.案卷分盒
按年度、案卷、類別、機構等有規(guī)則地按順序裝入定制的
檔案盒。
6.9.8.8.打印裝箱單
按年度、箱號、盒號、卷號、總頁數(shù)打印裝箱清單?;虬?/p>
檔案檔案館的要求制作打印裝箱單。
6.9.8.9.按順序裝箱
按箱子編號、年度、箱內盒數(shù)、案卷數(shù)與總頁數(shù)裝箱,參照
國家檔案館的要求結合XXXXXX煙草的實際情況按序裝箱。
6.9.8.10.編制目錄(年度目錄)
制作出XXXXXX煙草檔案裝箱目錄,合并各箱清單,統(tǒng)一編
制頁碼,形成裝箱目錄,并按通用格式存儲裝箱目錄的電子文件,以
便檢索與查找,或按檔案館進館要求編制,
699,數(shù)據(jù)存儲與備份
在生產過程中,XXXXXX掃描加工中心是一個基于網絡化流
程化生產管理系統(tǒng),我們在掃描的同時就同時產生兩份備原始圖像
數(shù)據(jù)的備份數(shù)據(jù)。
資料內容僅供參考,如有不當或者侵權,請聯(lián)系本人改正或者刪除。
在經過生產系統(tǒng)質量驗收合格的電子文件后,我們將把掃描的
成品數(shù)據(jù)與XXXXXX煙草的檔案管理系統(tǒng)掛接,將按規(guī)則生產原
始圖像光盤及具備單盤檢索的數(shù)據(jù)光盤。
6.9.10.檔案電子數(shù)據(jù)與XXXXXX煙草檔案系統(tǒng)的無縫掛接
文本域錄入和掃描處理檢驗后的圖像成品,按年度進行文字圖
像與系統(tǒng)的掛接,不需手工掛接即可實現(xiàn)文本與圖像頁與系統(tǒng)的掛
接。掛接到XXXXXX煙草檔案管理系統(tǒng)中后,進行再次的成品驗
收,對各種使用習慣逐頁進行檢驗,驗收合格后移交到由XXXXXX
煙草專家組成的驗收〃'組驗收。
6.9.10.1.確保完美無縫掛接
因為XXXXXX煙草檔案管理系統(tǒng)是采用XXXXXX軟件的檔
案管理軟件系統(tǒng),XXXXXX檔案掃描加工系統(tǒng)和XXXXXX檔案
管理系統(tǒng)能夠實現(xiàn)自動批量掛接,無需人工干預即可實施目錄數(shù)據(jù)
與原文電子數(shù)據(jù)的無縫掛接。
6.4.項目所采用的OCR處理技術介紹
6.10.1.OCR(光學字符識別)技術
OCR是英文0PticalCharacterRecognition的縮寫,中文意思就
是經過光學技術對文字進行識別。OCR概念的產生是在I929年,
德國的科學家Tausheck首先提出了OCR的概念,而且申請了專
資料內容僅供參考,如有不當或者侵權,請聯(lián)系本人改正或者刪除。
利。幾年后,美國科學家Handel也提出了利用技術對文字進行識
別的想法。但這種夢想直到計算機的誕生才變成了現(xiàn)實?,F(xiàn)在這
一技術已經由計算機來實現(xiàn),OCR的意志就演變成為利用光學技
術對文字和字符進行掃描識另U,轉化成計算機內碼。
6.10.2.所采用的OCR及雙層PDF生產流程
識別模塊
6.10.2.1.■■、■?>?■■■,?》?—w-
?1J'????"■■
,<.?????*■???)£??
??*<,?r.Ae?
具有超強的識別核心.能夠??,**?<??????—
It.二
識別簡、繁體漢字2萬多,識別的語
言包括中文簡、繁體、英文、日
文、韓文,自動版面分析能力大大增強.最大限度減少手工操作
量。
6.10.2.2,縱向校對模塊
能夠將成百上千張圖像一起校對
將識別成同一個字的圖像集中在
一個窗口內,先標記錯誤,再自動與橫
校進行合并,后統(tǒng)一改正,校對工作量減少80%,錯誤率可控制在萬
資料內容僅供參考,如有不當或者侵權,請聯(lián)系本人改正或者刪除。
分之一。
6.10.2.2.1.版面恢復模塊
經過版面恢復編輯器,能夠將原始
圖像的所有信息恢復過來。比如:字
體、顏色、花邊等。
6.10.2.3.雙層PDF生成模塊
可直接在程序中進行后臺
PDF處理,無需在Acrobat中生成,方
便而快捷。能夠選擇生成多種PDF
格式:雙層PDF文檔包括圖文混排的PDF、圖在文上的PDF、圖
在文下的PDF等。
6.10.2.4.自動處理模塊
資料內容僅供參
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)信息化與數(shù)字化管理(標準版)
- 財務信息系統(tǒng)安全管理制度
- 辦公室員工培訓效果反饋制度
- 辦公室績效考核與獎懲制度
- 2026年某物業(yè)國企單位招聘外包制人員備考題庫附答案詳解
- 養(yǎng)老院綠化環(huán)境維護制度
- 安陽市新一中學招聘2026屆部屬公費師范生30人備考題庫及1套參考答案詳解
- 養(yǎng)老院入住資格審核制度
- 2026年集美大學繼續(xù)教育學院工作人員招聘備考題庫及答案詳解1套
- 2026年振華科技公開招聘備考題庫附答案詳解
- 2026年中國航空傳媒有限責任公司市場化人才招聘備考題庫有答案詳解
- 2026年《全科》住院醫(yī)師規(guī)范化培訓結業(yè)理論考試題庫及答案
- 2026北京大興初二上學期期末語文試卷和答案
- 重力式擋土墻施工安全措施
- 葫蘆島事業(yè)單位筆試真題2025年附答案
- 2026年公平競爭審查知識競賽考試題庫及答案(一)
- 置業(yè)顧問2025年度工作總結及2026年工作計劃
- 金華市軌道交通控股集團有限公司招聘筆試題庫2026
- 2025年國考科技部英文面試題庫及答案
- 2026年AI輔助教學設計工具應用指南與課程優(yōu)化技巧
- 2026屆陜西省西安市高新一中化學高二上期末聯(lián)考試題含答案
評論
0/150
提交評論