版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、項目編號INFO-115-C01文檔編號TR-REC-012中國科學院數(shù)據(jù)應用環(huán)境建設與服務數(shù)據(jù)資源加工指導規(guī)范(征求意見稿)中國科學院數(shù)據(jù)應用環(huán)境建設與服務項目組2009年12月i目錄范圍規(guī)范性引用文件術語和定義科學數(shù)據(jù)資源元數(shù)據(jù)數(shù)據(jù)類型數(shù)據(jù)集數(shù)據(jù)項數(shù)據(jù)產(chǎn)品數(shù)據(jù)資源加工科學數(shù)據(jù)資源加工總體要求數(shù)據(jù)資源加工內涵數(shù)據(jù)資源采集加工指導思想和一般原則統(tǒng)一領導,統(tǒng)籌規(guī)劃突出重點,注重基礎需求導向、務求實效前瞻性、科學性延續(xù)性組織管理文件要求數(shù)據(jù)名定數(shù)據(jù)資源加工流程過程策劃.二二數(shù)據(jù)采集數(shù)據(jù)采集的原則數(shù)據(jù)采集錄入的技術要求數(shù)據(jù)采集工作流程數(shù)據(jù)錄入數(shù)據(jù)采集錄入的技術要求數(shù)據(jù)采集錄入的方法原始數(shù)據(jù)的保存來源
2、篩選原始數(shù)據(jù)標準化預處理數(shù)據(jù)t理數(shù)據(jù)集成消除冗余數(shù)據(jù)變換數(shù)據(jù)U3約數(shù)據(jù)加工模型和算法數(shù)據(jù)處理加工與產(chǎn)品生產(chǎn)數(shù)據(jù)加工的級別數(shù)據(jù)加工處理的原則數(shù)據(jù)加工處理的技術要求數(shù)據(jù)審核數(shù)據(jù)更新數(shù)據(jù)資源加工指導規(guī)范范圍本規(guī)范提出中國科學院數(shù)據(jù)應用環(huán)境建設與服務項目中科學數(shù)據(jù)資源采集加工過程的規(guī)范化要求,包括對組織管理方面的要求、文檔方面的要求、數(shù)據(jù)約定和數(shù)據(jù)采集加工流程方面的要求等。本規(guī)范是對中國科學院數(shù)據(jù)應用環(huán)境建設與服務項目中數(shù)據(jù)采集加工過程的指導性規(guī)范,適用于項目內各類數(shù)據(jù)資源的采集、加工或更新,各數(shù)據(jù)庫主要承擔建設單位應參照本規(guī)范建立本數(shù)據(jù)庫的實施細則。規(guī)范性引用文件F列規(guī)范性引用文件通過本部分的引用而
3、成為本規(guī)范的條款。凡是注日期的引用文件,其隨后所有的修改(不包括勘誤的內容)或修訂版均不適用于本規(guī)范。但是,鼓勵根據(jù)本規(guī)范達成協(xié)議的各方,研究是否可使用這些文件的新版本。凡是不注日期的引用文件,其新版本適用于本規(guī)范。TR-REC-014科學數(shù)據(jù)庫核心元數(shù)據(jù)標準TR-REC-017唯一標識符規(guī)范TR-REC-018科學數(shù)據(jù)分類規(guī)范與分類詞表TR-REC-062數(shù)據(jù)庫建設技術文檔參考規(guī)范術語和定義科學數(shù)據(jù)資源科學數(shù)據(jù)資源是科技活動或通過其它方式所獲取到的反映客觀世界的本質、特征、變化規(guī)律等的原始基本數(shù)據(jù),以及根據(jù)不同科技活動需要,進行系統(tǒng)加工整理的各類數(shù)據(jù)集,用于支撐科研活動的科學數(shù)據(jù)的集合。元數(shù)
4、據(jù)關于數(shù)據(jù)的數(shù)據(jù)。數(shù)據(jù)類型對數(shù)據(jù)的有效值域及對該值域中的值所允許的操作的規(guī)定。例如,整型、實型、布爾型、日期類型、字符串類型等。數(shù)據(jù)集由相關數(shù)據(jù)組成的可標識集合。數(shù)據(jù)集的大小在理論上是不確定的,一個簡單的數(shù)據(jù)表可以成為一個數(shù)據(jù)庫集,幾個相同類型的表也可以被成為一個數(shù)據(jù)集。數(shù)據(jù)項屬性數(shù)據(jù)中不可再分的小的單元。數(shù)據(jù)產(chǎn)品數(shù)據(jù)產(chǎn)品是遵從統(tǒng)一的標準規(guī)范,對基礎數(shù)據(jù)進行集成、加工、處理后生成的新的數(shù)據(jù)集。該數(shù)據(jù)集的生產(chǎn)過程和數(shù)據(jù)質量控制措施可以被人工或計算機詳細描述、記錄,可被其他人或計算機重復操作。數(shù)據(jù)產(chǎn)品揭示數(shù)據(jù)間的內在聯(lián)系,通過重新組合和再分析,表征某一規(guī)律性的現(xiàn)象或過程。數(shù)據(jù)資源加工生成數(shù)據(jù)產(chǎn)品的
5、過程,包括數(shù)據(jù)加工模型、數(shù)據(jù)處理過程、數(shù)據(jù)產(chǎn)品質量評價等內容??茖W數(shù)據(jù)資源加工總體要求數(shù)據(jù)資源采集加工過程中,數(shù)據(jù)庫承建單位應采用數(shù)據(jù)應用環(huán)境建設與服務項目發(fā)布的有關標準規(guī)范,以及相關的國家標準、國際標準、學科領域標準規(guī)范或其應用方案,完成對采集加工工作的組織管理、制訂數(shù)據(jù)約,規(guī)劃數(shù)據(jù)資源加工流程,并嚴格貫徹實施,保質保量完成數(shù)據(jù)采集加工任務。對科學數(shù)據(jù)資源采集加工工作的要求包括多個方面,它規(guī)范人員操作,設備要求,數(shù)據(jù)采集、錄入、篩選清理、預處理、處理加工、審核與更新等流程,是科學數(shù)據(jù)資源高質量建設的有效保障。數(shù)據(jù)資源加工內涵數(shù)據(jù)產(chǎn)品具有增值的普遍特征。作為數(shù)據(jù)產(chǎn)品,必須是經(jīng)過實質性加工、具有
6、智力投入的成果。有的數(shù)據(jù)雖然表達形式變化了,但由于沒有進行實質性加工和智力投入,并未有效提高數(shù)據(jù)資源的信息量,也不能稱之為數(shù)據(jù)資源加工。數(shù)據(jù)資源采集加工指導思想和一般原則統(tǒng)一領導,統(tǒng)籌規(guī)劃數(shù)據(jù)資源采集加工工作應在數(shù)據(jù)庫牽頭建設單位的領導下,統(tǒng)一決策,同一數(shù)據(jù)庫范圍內工作方法統(tǒng)一,技術指標統(tǒng)一,從而達成數(shù)據(jù)產(chǎn)品的一致性。突由重點,注重基礎數(shù)據(jù)資源的內容選擇應在突出重點和注重基礎兩者之前取得平衡。數(shù)據(jù)庫承建單位應根據(jù)當前具備的工作基礎以及國內外相關數(shù)據(jù)庫建設情況,確定所承建數(shù)據(jù)資源的特點和重點內容,對重點內容加以重視,適當提高質量規(guī)格。同事,數(shù)據(jù)庫承建單位應注重基礎性和共性數(shù)據(jù)的建設,確保所承建數(shù)
7、據(jù)資源的廣度,提升所承建數(shù)據(jù)資源的通用性、易用性,保證數(shù)據(jù)資源具有一定的用戶范圍。需求導向、務求實效確定資源采集的內容和范圍時,既要考慮數(shù)據(jù)資源單位的數(shù)據(jù)資源特點以及工作的復雜、難易程度,不能選取太多,過于復雜不便實際使用;又要充分滿足工程建設以及用戶的查詢、使用數(shù)據(jù)的需要,不能過于簡單。數(shù)據(jù)資源建設工作應當切實以用戶需求為導向,以應用為目標,做真正用戶需要的數(shù)據(jù),而不是盲目地擴大數(shù)據(jù)內容范圍和提升技術指標。前瞻性、科學性資源采集加工的內容不但要滿足現(xiàn)階段科學數(shù)據(jù)資源的使用需求,更應該考慮將來一定時間內由于科技快速發(fā)展等原因可能產(chǎn)生的數(shù)據(jù)資源應用需求,這樣建立的數(shù)據(jù)資源才會更有生命力。確定數(shù)據(jù)
8、資源采集范圍時,可以積極采用國內和國外先進標準。延續(xù)性對于連續(xù)采集數(shù)據(jù),數(shù)據(jù)采集加工的內容應在一定時間范圍內具有較好的延續(xù)性,使數(shù)據(jù)資源建設的內容相對保持穩(wěn)定,增加數(shù)據(jù)的時間可比性,數(shù)據(jù)資源采集加工的內容確定應相對慎重,不斷地增刪數(shù)據(jù)內容對數(shù)據(jù)資源積累形成信息造成很大的負面影響。組織管理數(shù)據(jù)庫主要承建單位負責所承建數(shù)據(jù)庫內數(shù)據(jù)資源采集加工過程的領導、組織、協(xié)調和管理。數(shù)據(jù)庫各參加建設單位共同承擔所承建數(shù)據(jù)庫的數(shù)據(jù)采集加工工作。數(shù)據(jù)采集和加工承擔人員應具備以下條件:具有一定的政治素質,愛崗敬業(yè),工作認真負責,細致嚴謹,熟練掌握數(shù)據(jù)采集和加工過程所需的學科領域知識和計算機技術。文件要求為保證所承建
9、數(shù)據(jù)庫數(shù)據(jù)資源采集加工過程規(guī)范健壯,降低人為因素的影響,使標準的技術方法長期延續(xù)并加深項目主管單位和用戶對數(shù)據(jù)資源的了解,數(shù)據(jù)庫承建單位應將所所承建數(shù)據(jù)庫在采集加工過程中所采取的政策措施,標準的流程、技術和方法等形成數(shù)據(jù)資源采集整理工作指南,并發(fā)布實施,同時,還應對數(shù)據(jù)資源采集加工過程的執(zhí)行情況建立加以記錄。適用時,數(shù)據(jù)資源采集整理工作指南應包括以下內容:數(shù)據(jù)來源說明,如資料列表,數(shù)據(jù)準入原則等數(shù)據(jù)約定,對擬建數(shù)據(jù)庫規(guī)格的約定,包括數(shù)據(jù)采集的文件格式,數(shù)據(jù)庫模型,指標設置,各項指標的定義、公式、測量方法、精度要求,以及數(shù)據(jù)采集所使用的樣表等。數(shù)據(jù)采集加工的過程要求,為保證數(shù)據(jù)資源采集加工工作正
10、常完成所必須執(zhí)行的工作過程,每個過程的目標,執(zhí)行人,設備要求,必要步驟和過程產(chǎn)出結果的要求等。適用時,采集加工過程的執(zhí)行情況記錄應包括以下內容:工作時間人員相關的環(huán)境因素設備運行情況執(zhí)行情況異常和處理數(shù)據(jù)資源采集加工過程的相關信息應填入所承建數(shù)據(jù)庫的元數(shù)據(jù)對應元素當中。關于數(shù)據(jù)庫核心元數(shù)據(jù)的更加詳細規(guī)定參照TR-REC-014科學數(shù)據(jù)庫核心元數(shù)據(jù)標準要求執(zhí)行。必要時,建庫單位應保留數(shù)據(jù)采集的原始記錄一定時間,以備查證使用。文檔書寫方面更加詳細規(guī)定參照TR-REC-062數(shù)據(jù)庫建設技術文檔參考規(guī)范要求執(zhí)行。數(shù)據(jù)約定在正式開展數(shù)據(jù)資源采集加工工作之前,數(shù)據(jù)庫承建單位應以用戶需求為出發(fā)點,立足于當前
11、承建單位的數(shù)據(jù)建設能力,對數(shù)據(jù)資源采集加工直至形成產(chǎn)品的過程和產(chǎn)品的規(guī)格進行商討,并形成約定。數(shù)據(jù)約定是數(shù)據(jù)采集加工工作策劃的重要輸入項,數(shù)據(jù)約定的內容中至少應包括以下方面:范圍約定根據(jù)學科領域和應用特點確定數(shù)據(jù)選取范圍,保證數(shù)據(jù)完整性、準確性和連貫。時間范圍約定:數(shù)據(jù)集描述的起止時間空間范圍約定(如適用):數(shù)據(jù)集描述的地理空間范圍學科范圍約定:數(shù)據(jù)量數(shù)據(jù)類型約定數(shù)據(jù)質量期望,如填充率水平、差錯率水平、主要數(shù)據(jù)來源等數(shù)據(jù)庫模型,如ER圖等數(shù)據(jù)字典對于每個數(shù)據(jù)元素,應在以下方面進行描述:數(shù)據(jù)來源采集方法,如采集的部分,拍照要求,計算公式等設備要求編碼方法精確度參照系對數(shù)據(jù)采集加工內容的確定應特別
12、注重其規(guī)范性,相關的規(guī)范包括項目規(guī)范、任何可能存在的國家標準、國際標準或行業(yè)標準等。其中應特別注重涉及唯一標示符的內容設計應參照TR-REC-017唯一標識符規(guī)范要求;涉及分類編碼的內容設計應參照TR-REC-018科學數(shù)據(jù)分類規(guī)范與分類詞表的要求。數(shù)據(jù)資源加工流程過程策劃規(guī)范的采集加工業(yè)務流程是保障科學數(shù)據(jù)資源質量重要和關鍵的環(huán)節(jié)。數(shù)據(jù)庫承建單位應對數(shù)據(jù)資源采集加工過程進行策劃,以需求為導向,對數(shù)據(jù)采集加工工作的過程方法進行設計,確定有效和高效實現(xiàn)數(shù)據(jù)加工目標所必須的過程,以及每個過程應該遵循的技術與規(guī)范,以及為達成數(shù)據(jù)采集加工目標所必須的過程輸入輸出規(guī)格要求。過程策劃的輸入可以包括但不限于
13、以下方面:用戶和其他相關方的需求和期望;對數(shù)據(jù)資源特性的評估;對服務過程特性的評估等。特別地,數(shù)據(jù)資源建設的相關建設應該格外關注是否存在任何可能存在的相關國際標準、國家標準、行業(yè)標準或其它相關標準規(guī)范可以作為輸入項。對數(shù)據(jù)資源采集加工流程的約定由數(shù)據(jù)庫主要承建單位負責協(xié)商形成,并敦促各承建單位遵照實施。所擬定的各項技術與規(guī)范都應寫入數(shù)據(jù)資源采集整理工作指南。下列流程為不同類型科學數(shù)據(jù)庫資源采集加工常見的業(yè)務流程,以及每個業(yè)務流程相對通用的原則和質量要求,數(shù)據(jù)庫承建單位可參照選擇適宜之條款建立所承建數(shù)據(jù)庫的采集加工過程方法。本規(guī)范對下列流程的執(zhí)行順序沒有要求,但數(shù)據(jù)庫建設單位在數(shù)據(jù)資源采集整理工
14、作指南中應指出其采集加工過程方法的執(zhí)行順序。在正式展開工作之前,數(shù)據(jù)庫承建單位應對數(shù)據(jù)資源采集加工過程進行策劃,以需求為導向,對數(shù)據(jù)采集加工工作的過程方法進行設計,確定為達成數(shù)據(jù)采集加工目標所必須的過程輸入輸出規(guī)格要求。策劃結果應該能支持數(shù)據(jù)采集加工工作有效和高效的實現(xiàn)。過程策劃的結果應該包括:實現(xiàn)數(shù)據(jù)加工目標所必須的過程,以及過程之間的關聯(lián)每個標準化過程所應達成的目標和應遵循的規(guī)范:目標人員要求資源要求過程的輸入一般執(zhí)行方法過程的輸出相關文檔數(shù)據(jù)采集數(shù)據(jù)采集錄入是指對科學數(shù)據(jù)資源進行收集并形成原始記錄的過程。數(shù)據(jù)的采集是數(shù)據(jù)庫業(yè)務流程的源頭,數(shù)據(jù)采集的質量如何直接關系到信息的質量問題,必須予
15、以高度重視。數(shù)據(jù)采集的原則保證采集數(shù)據(jù)的全面真實。采集的數(shù)據(jù)必須根據(jù)規(guī)定的要求,采集到所需要的全部數(shù)據(jù),并且保證數(shù)據(jù)準確真實。因不同的數(shù)據(jù)調查對象而異,采用不同的采集方法和不同的質量控制要求。數(shù)據(jù)采集錄入的技術要求數(shù)據(jù)采集的內容和各項指標的采集方法根據(jù)事先擬定的規(guī)則進行,力爭做到不缺不漏,其中核心指標項必須填寫著錄。文字表達應當規(guī)范、簡明、正確、嚴謹,含義清楚。如涉及圖像拍攝,一般拍攝對象的正面及側面圖像,必要時還應拍攝細部、標題等部位的圖像。數(shù)據(jù)收集中,對有明顯錯誤或不符合規(guī)律的數(shù)據(jù)亦予以剔除。如果存在相關的國家標準或行業(yè)標準,數(shù)據(jù)采集和指標測量應嚴格遵照相關的標準規(guī)范進行。數(shù)據(jù)采集工作流程
16、從數(shù)據(jù)來源查詢獲取數(shù)據(jù),并按照一定的規(guī)則整理收集;在數(shù)據(jù)記錄中采取注明實驗條件和實驗誤差的方法給用戶提供參考;相關專家考察、審核相關數(shù)據(jù);數(shù)據(jù)由工作人員填寫原始記錄表格或原始記錄入庫;如果存在計量單位不一致的情況,則先進行換算單位,應注明單位換算的情況。數(shù)據(jù)錄入涉及數(shù)據(jù)錄入時,數(shù)據(jù)庫承建單位應對錄入設備,錄入人以及必要的質量控制措施等等相關信息加以記錄。數(shù)據(jù)采集錄入的技術要求所使用的錄入系統(tǒng)必須是指定的錄入系統(tǒng);輸錄要完全忠實于采集得到的資料;必填內容不得為空。數(shù)據(jù)采集錄入的方法文本數(shù)據(jù)手工填報;文本數(shù)據(jù)計算機手工錄入;二維圖像信息拍攝或計算機自動掃描;三維音像信息多媒體攝像制作;原有數(shù)據(jù)的格
17、式轉換。原始數(shù)據(jù)的保存必要時,數(shù)據(jù)庫承建單位應設定原始數(shù)據(jù)保存時間要求,并對數(shù)據(jù)采集得到的原始數(shù)據(jù)加以妥善保存,以備需要時復查使用。如有必要,數(shù)據(jù)上交時應附帶原始記錄及相關數(shù)據(jù)。來源篩選為確保數(shù)據(jù)產(chǎn)品的質量,數(shù)據(jù)庫承建單位應對原始數(shù)據(jù)獲取來源進行選擇,建立數(shù)據(jù)來源的準入門檻制度,從開始階段就對數(shù)據(jù)資源質量進行控制。數(shù)據(jù)來源可以是其它數(shù)據(jù)庫資源,也可以是文獻,書籍等其它媒體形式的資源??紤]到所收集數(shù)據(jù)的可靠性,數(shù)據(jù)來源均應為公開發(fā)表的國內外一級或核心科技刊物的發(fā)表論文,原始文獻以書籍、手冊、綜述等為來源的數(shù)據(jù)。數(shù)據(jù)來源篩選的原則可以包括但不限于以下方面:數(shù)據(jù)生產(chǎn)者和提供者的口碑;數(shù)據(jù)來源的時間、
18、空間、學科范圍符合本數(shù)據(jù)庫的使用預期;數(shù)據(jù)來源的數(shù)據(jù)規(guī)模滿足需求;數(shù)據(jù)來源使用的數(shù)據(jù)格式符合需求;數(shù)據(jù)來源遵循某一國際或國內知名的數(shù)據(jù)標準建立;數(shù)據(jù)來源的技術指標,如準確度,精確度水平等;數(shù)據(jù)來源的主要內容;數(shù)據(jù)來源是否具有完整的元數(shù)據(jù)或相關資料描述。原始數(shù)據(jù)標準化預處理為避免原始數(shù)據(jù)過于龐大,信息過于復雜,數(shù)據(jù)受噪聲數(shù)據(jù)、空缺數(shù)據(jù)和不一致性數(shù)據(jù)的侵擾,必要時,數(shù)據(jù)庫承建單位應對采集得到的原始數(shù)據(jù)進行標準化預處理。數(shù)據(jù)處理的主要目的在于減少誤差。消除數(shù)據(jù)中的一些明顯錯誤、粗差或系統(tǒng)誤差。提高數(shù)據(jù)的系列性,尤其是在時間和空間序列上的連續(xù)性。提高數(shù)據(jù)的完整性,對單一要素數(shù)據(jù)進行綜合。一般的原始數(shù)據(jù)
19、預處理方法包括數(shù)據(jù)清理、數(shù)據(jù)集成和變換、數(shù)據(jù)歸約等。數(shù)據(jù)清理數(shù)據(jù)清理用于填充空缺值、識別孤立點、消除噪聲、糾正數(shù)據(jù)不一致。常用的數(shù)據(jù)清理方法包括:空缺值的清理忽略元組人工填寫空缺值使用一個全局常量填充空缺值使用屬性的平均值填充空缺值使用與給定元組屬同一類的所有樣本的平均值使用有可能的值填充空缺值噪聲數(shù)據(jù)分箱聚類計算機和人工檢查結合回歸不一致數(shù)據(jù)對于有些事務,所記錄的數(shù)據(jù)可能存在不一致。有些數(shù)據(jù)不一致可以使用其他材料人工地更正。知識工程工具也可以用來檢測違反限制的數(shù)據(jù)。例如,知道屬性的函數(shù)依賴,可以查找違反函數(shù)依賴的值。數(shù)據(jù)集成數(shù)據(jù)集成用于將來自不同數(shù)據(jù)源的數(shù)據(jù)整合成一致的數(shù)據(jù)存儲。元數(shù)據(jù)、相關
20、分析、數(shù)據(jù)沖突檢測和語義異種性的解析都有助于數(shù)據(jù)集成。主要方法包括:模式匹配利用數(shù)據(jù)庫的元數(shù)據(jù)對異構數(shù)據(jù)進行映射轉換,形成模式匹配。消除冗余利用相關行分析的方法檢測冗余,消除重復數(shù)據(jù)。數(shù)據(jù)變換將數(shù)據(jù)轉換成適合使用的形式。主要方法包括:平滑去掉數(shù)據(jù)中的噪聲。這種技術包括分箱、聚類和回歸。聚集對數(shù)據(jù)進行匯總和聚集。數(shù)據(jù)概化使用概念分層,用高層次的概念替換低層次的“原始”數(shù)據(jù)。規(guī)范化將屬性數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間,如-1.0到1.0或0.0到1.0。屬性構造由給定的屬性構造和添加新的屬性,以幫助提高精度和對高維數(shù)據(jù)結構的理解。數(shù)據(jù)歸約對數(shù)據(jù)處理的技術,如數(shù)據(jù)立方體聚集、維歸約、數(shù)據(jù)壓
21、縮、數(shù)值歸約和離散化都可以用來得到數(shù)據(jù)的歸約表示,而使得信息內容的損失小。數(shù)據(jù)立方體聚集聚集操作用于數(shù)據(jù)立方體中的數(shù)據(jù)。維歸約通過刪除不相關的屬性(或)維減少數(shù)據(jù)量。通常使用屬性子集選擇方法。數(shù)據(jù)加工模型和算法數(shù)據(jù)庫承建單位應根據(jù)基礎數(shù)據(jù)的類型,建立相應的數(shù)據(jù)加工模型和算法。例如,針對屬性數(shù)據(jù)加工的要求,建立屬性數(shù)據(jù)加工模型和算法;針對柵格數(shù)據(jù)加工的要求,建立柵格數(shù)據(jù)加工模型和算法;針對矢量數(shù)據(jù)加工的要求,建立矢量數(shù)據(jù)加工模型和算法。數(shù)據(jù)加工應基于統(tǒng)一的模型,如概念模型,地理坐標系,高程參照系,時間模型,統(tǒng)一的文件格式等。屬性數(shù)據(jù)加工模型的核心是對屬性數(shù)據(jù)進行規(guī)范化處理,包括賦予屬性數(shù)據(jù)以空間
22、特征,以及基于數(shù)學模型對屬性數(shù)據(jù)進行均一化處理等。間格網(wǎng)化模型可以使屬性數(shù)據(jù)生成標準的數(shù)據(jù)產(chǎn)品。專題數(shù)據(jù)產(chǎn)品突出反映一種或幾種主要要素或現(xiàn)象。數(shù)據(jù)處理加工與產(chǎn)品生產(chǎn)數(shù)據(jù)加工處理是指對已經(jīng)采集的數(shù)據(jù)按照擬定的數(shù)據(jù)加工模型和算法進行匯總、計算、分析及數(shù)字化處理的過程。數(shù)據(jù)按要求,開發(fā)處理系統(tǒng),進行加工處理,產(chǎn)生需要的數(shù)據(jù)、報表等。圖形、多媒體數(shù)據(jù)按照業(yè)務要求進行加工,可以和相應的制作、轉換工作相結合。這一過程,可以是計算機自動處理、手工操作,或者是計算機與人工相結合方式進行。根據(jù)數(shù)據(jù)資源加工程度的不同,數(shù)據(jù)產(chǎn)品可分為多級。數(shù)據(jù)加工的級別0級數(shù)據(jù):未作任何處理的原始記錄,其記錄格式、符號、代碼等大多
23、由作業(yè)者本人或其服務的單位自行設置,外單位人員,即使是同行,也是無法理解這些數(shù)字的含義的。人們對數(shù)據(jù)規(guī)范標準認識不斷提高的今天,0級數(shù)據(jù)正在逐漸消失。各部門、系統(tǒng)紛紛制定了數(shù)據(jù)標準和統(tǒng)一格式,科學數(shù)據(jù)從產(chǎn)生那刻起,就是標準的、他人可讀的了。1 級數(shù)據(jù):經(jīng)初步加工,包括數(shù)據(jù)項的必要注釋、數(shù)據(jù)格式的簡單轉換等,成為能讓他人理解的數(shù)據(jù)。這是原始數(shù)據(jù)記錄生產(chǎn)地向上級主管部門報送的數(shù)據(jù),這對于原始數(shù)值生產(chǎn)地而言是“數(shù)據(jù)成品”;而對于接受單位,特別是承擔數(shù)據(jù)歸檔、服務的數(shù)據(jù)中心而言則是“原始數(shù)據(jù)”。2 級數(shù)據(jù):在數(shù)據(jù)中心對數(shù)據(jù)作進一步加工處理,主要是兩個方面的工作:其一是標準規(guī)范化處理,其二是數(shù)據(jù)質量檢查
24、與訂正,使數(shù)據(jù)真正成為可以被利用的數(shù)據(jù)。3 級數(shù)據(jù):在1、2級數(shù)據(jù)的基礎上,進一步深加工而形成的科學數(shù)據(jù)產(chǎn)品。科學數(shù)據(jù)產(chǎn)品應當有統(tǒng)一的分類和編碼系統(tǒng),有統(tǒng)一的數(shù)據(jù)格式或能提供轉換接口;應當置備標準、完善的元數(shù)據(jù);應當有數(shù)據(jù)質量標準,并經(jīng)規(guī)范的質量檢驗與修正;還要有標注明確的外包裝。4 級數(shù)據(jù):為了特殊的用途,并非數(shù)據(jù)中心日常業(yè)務范圍之內,而專門為之整理、加工和生產(chǎn)的科學數(shù)據(jù)產(chǎn)品。數(shù)據(jù)加工處理的原則數(shù)據(jù)在加工處理過程中必須始終保持與原始數(shù)據(jù)的一致性和完整性,不能出現(xiàn)丟失或改變原始數(shù)據(jù)的情況;經(jīng)過加工處理后的數(shù)據(jù),必須是正確的數(shù)據(jù),不能由于軟件或操作的原因出現(xiàn)新的錯誤數(shù)據(jù);數(shù)據(jù)加工處理的技術要求加工處理的數(shù)據(jù)必須是經(jīng)審核通過的采集數(shù)據(jù);數(shù)據(jù)加工處理的軟件必須是經(jīng)測試和試用被證明是具有良好的穩(wěn)定性、可靠性和容錯性,并經(jīng)過正式批準使用的軟件;數(shù)據(jù)加工處理人員必須是具有資格、并經(jīng)過授權的專業(yè)人員。采集的數(shù)據(jù)進行加工制作,包括查重、著錄、標引、錄入、校對、審核、入庫等,并終形成各種專題數(shù)據(jù)庫。查重:對收集到的數(shù)據(jù)在已建數(shù)據(jù)庫中查重。標引:分類標引和主題標引。錄入:按數(shù)據(jù)庫要求的格式錄入標引后的數(shù)據(jù)。校對:對數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025國家公務員國家稅務總局崇左市江州區(qū)稅務局面試試題及答案解析
- 2025年中國社會科學院考古研究所石窟寺考古研究室考古技師招聘備考題庫完整參考答案詳解
- 2024年唐山市事業(yè)單位招聘考試真題
- 2025年大理州強制隔離戒毒所公開招聘輔警5人備考題庫及完整答案詳解一套
- 青島海明城市發(fā)展有限公司及全資子公司招聘考試真題2024
- 2025 九年級語文下冊戲劇舞臺設計意圖課件
- 2025年廣西百色市樂業(yè)縣專業(yè)森林消防救援隊伍招聘13人筆試重點題庫及答案解析
- 河口縣公安局公開招聘輔警(16人)備考考試試題及答案解析
- 2025-2026 學年高一 語文 期末沖刺卷 試卷及答案
- 國家知識產(chǎn)權局專利局專利審查協(xié)作北京中心福建分中心2026年度專利審查員公開招聘備考題庫帶答案詳解
- 【MOOC】中藥藥理學-學做自己的調理師-暨南大學 中國大學慕課MOOC答案
- 城鎮(zhèn)污泥標準檢驗方法CJT221-2023 知識培訓
- 混合型高脂血癥基層診療中國專家共識2024解讀
- DL-T5842-2021110kV~750kV架空輸電線路鐵塔基礎施工工藝導則
- 廟壩鎮(zhèn)規(guī)劃方案公示
- 叉車考試題庫
- 口腔正畸學課件
- 一次調頻綜合指標計算及考核度量方法
- 《殺死一只知更鳥》讀書分享PPT
- 成功的三大要素
- GB/T 41932-2022塑料斷裂韌性(GIC和KIC)的測定線彈性斷裂力學(LEFM)法
評論
0/150
提交評論