《農(nóng)村信用信息數(shù)據(jù)采集規(guī)范》征求意見(jiàn)稿_第1頁(yè)
《農(nóng)村信用信息數(shù)據(jù)采集規(guī)范》征求意見(jiàn)稿_第2頁(yè)
《農(nóng)村信用信息數(shù)據(jù)采集規(guī)范》征求意見(jiàn)稿_第3頁(yè)
《農(nóng)村信用信息數(shù)據(jù)采集規(guī)范》征求意見(jiàn)稿_第4頁(yè)
《農(nóng)村信用信息數(shù)據(jù)采集規(guī)范》征求意見(jiàn)稿_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1T/GBCXXXX—XXXX農(nóng)村信用信息數(shù)據(jù)采集規(guī)范本文件界定了廣西農(nóng)村信用信息數(shù)據(jù)采集中的術(shù)語(yǔ)和定義,規(guī)定了數(shù)據(jù)采集內(nèi)容、數(shù)據(jù)采集要求、數(shù)據(jù)采集方式和數(shù)據(jù)采集過(guò)程。本文件適用于廣西農(nóng)村信用信息系統(tǒng)的數(shù)據(jù)采集、規(guī)劃設(shè)計(jì),其他信息化領(lǐng)域的數(shù)據(jù)采集也可參考使用。2規(guī)范性引用文件下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T22239信息安全技術(shù)網(wǎng)絡(luò)安全等級(jí)保護(hù)基本要求GB/T35274信息安全技術(shù)大數(shù)據(jù)服務(wù)安全能力要求GB/T36344信息技術(shù)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)3術(shù)語(yǔ)和定義下列術(shù)語(yǔ)和定義適用于本文件。3.1數(shù)據(jù)采集dataacquisition從數(shù)據(jù)源中得到原始數(shù)據(jù)。通過(guò)標(biāo)準(zhǔn)化處理并轉(zhuǎn)化為滿足數(shù)據(jù)共享與利用需求的過(guò)程。[來(lái)源:GB/T36625.3,3.2]3.2數(shù)據(jù)探查dataprofiling對(duì)數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、關(guān)系和來(lái)源進(jìn)行調(diào)研、探查,以達(dá)到確定數(shù)據(jù)采集通道暢通,認(rèn)識(shí)數(shù)據(jù)的目3.3原始庫(kù)operationaldatastore由源系統(tǒng)采集接入的數(shù)據(jù),未經(jīng)處理的原始數(shù)據(jù)。3.4結(jié)構(gòu)化數(shù)據(jù)structureddata一種數(shù)據(jù)表示形式,按此形式,由數(shù)據(jù)元素匯集而成的每個(gè)記錄的結(jié)構(gòu)都是一致的并且可以使用關(guān)系模型予以有效描述。[來(lái)源:GB/T35295,2.2.13]3.5非結(jié)構(gòu)化數(shù)據(jù)unstructureddata不具有預(yù)定義模型或未以預(yù)定義方式組織的數(shù)據(jù)。[來(lái)源:GB/T35295,2.1.25]4數(shù)據(jù)采集要求4.1在數(shù)據(jù)采集的過(guò)程中,應(yīng)記錄數(shù)據(jù)采集的過(guò)程和方法,包括使用的技術(shù)和工具、數(shù)據(jù)的狀態(tài)和任何更改、數(shù)據(jù)的來(lái)源、時(shí)間戳、數(shù)據(jù)的格式和內(nèi)容。4.2采集的數(shù)據(jù)應(yīng)是準(zhǔn)確無(wú)誤的,避免輸入錯(cuò)誤或數(shù)據(jù)損壞。數(shù)據(jù)格式和結(jié)構(gòu)應(yīng)該保持一致,不應(yīng)存在異?;蝈e(cuò)誤數(shù)據(jù),不應(yīng)虛構(gòu)或篡改數(shù)據(jù)。2T/GBCXXXX—XXXX4.3應(yīng)在保證數(shù)據(jù)完整性的前提下,兼顧與已有數(shù)據(jù)的交換和共享,避免數(shù)據(jù)重復(fù)或范圍擴(kuò)大,提高數(shù)據(jù)采集的效率和質(zhì)量。4.4對(duì)采集的各類(lèi)信息應(yīng)確定保密級(jí)別,采取相應(yīng)的管理措施或技術(shù)手段,保證信息數(shù)據(jù)在采集、保存及交換傳輸過(guò)程中的數(shù)據(jù)安全。5數(shù)據(jù)安全要求5.1數(shù)據(jù)采集安全保護(hù)要求應(yīng)符合GB/T35274和GB/T22239中的規(guī)定,對(duì)采集數(shù)據(jù)進(jìn)行分級(jí)分類(lèi)管理,并根據(jù)數(shù)據(jù)安全措施和技術(shù)手段,對(duì)數(shù)據(jù)采集過(guò)程進(jìn)行有針對(duì)性地保護(hù),個(gè)人信息、敏感數(shù)據(jù)和重要數(shù)據(jù)應(yīng)加強(qiáng)安全管控措施。5.2數(shù)據(jù)采集安全貫穿于數(shù)據(jù)采集整個(gè)過(guò)程,在數(shù)據(jù)采集周期內(nèi),應(yīng)符合數(shù)據(jù)所屬或主管部門(mén)的安全要求、數(shù)據(jù)安全及安全控制要求。5.3對(duì)來(lái)源于不同網(wǎng)絡(luò)環(huán)境的原始數(shù)據(jù),應(yīng)根據(jù)以下要求進(jìn)行:——原始數(shù)據(jù)位于電子政務(wù)外網(wǎng)環(huán)境的,對(duì)數(shù)據(jù)直接采集;——原始數(shù)據(jù)位于業(yè)務(wù)專(zhuān)網(wǎng)環(huán)境的,建立與電子政務(wù)外網(wǎng)之間的安全傳輸通道,采取安全措施保障數(shù)據(jù)傳輸安全性,對(duì)業(yè)務(wù)專(zhuān)網(wǎng)環(huán)境數(shù)據(jù)的采集;——原始數(shù)據(jù)位于互聯(lián)網(wǎng)環(huán)境的,建立與電子政務(wù)外網(wǎng)之間的安全傳輸通道,采取安全措施保障數(shù)據(jù)傳輸安全性,對(duì)互聯(lián)網(wǎng)環(huán)境數(shù)據(jù)的采集。5.4應(yīng)對(duì)數(shù)據(jù)采集傳輸過(guò)程中的敏感數(shù)據(jù)進(jìn)行檢測(cè)。5.5應(yīng)對(duì)數(shù)據(jù)進(jìn)行加密傳輸,加密算法應(yīng)符合國(guó)家密碼相關(guān)法律、法規(guī)要求。6數(shù)據(jù)采集內(nèi)容6.1數(shù)據(jù)采集范圍農(nóng)村信用信息數(shù)據(jù)采集范圍主要包括基礎(chǔ)數(shù)據(jù)、專(zhuān)題數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)和其他數(shù)據(jù)四大類(lèi):——基礎(chǔ)數(shù)據(jù),如人口、法人單位、地理空間、信用等相關(guān)聯(lián)的農(nóng)村信用數(shù)據(jù)資源,主要包括農(nóng)村居民、農(nóng)業(yè)生產(chǎn)經(jīng)營(yíng)、農(nóng)村耕地、林地、漁業(yè)水域等生產(chǎn)活動(dòng)數(shù)據(jù);——專(zhuān)題數(shù)據(jù),主要與農(nóng)村信用信息、農(nóng)村金融服務(wù)相關(guān)的數(shù)據(jù)資源,如補(bǔ)貼、醫(yī)療報(bào)銷(xiāo)、鄉(xiāng)村振興、糖業(yè)、脫貧監(jiān)測(cè)、信貸、保險(xiǎn)等數(shù)據(jù);——其他數(shù)據(jù),與農(nóng)村產(chǎn)業(yè)鏈相關(guān)生物資產(chǎn)、農(nóng)產(chǎn)品交易等數(shù)據(jù)。6.2數(shù)據(jù)類(lèi)型按照數(shù)據(jù)結(jié)構(gòu)特征和業(yè)務(wù)歸屬等維度對(duì)農(nóng)村信用信息數(shù)據(jù)進(jìn)行分類(lèi),具體如下:——數(shù)據(jù)結(jié)構(gòu)特征。對(duì)于數(shù)據(jù)結(jié)構(gòu)特征,可分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)等;——業(yè)務(wù)歸屬。對(duì)于業(yè)務(wù)歸屬,可分為農(nóng)戶信用信息、新型農(nóng)業(yè)經(jīng)營(yíng)主體信用信息。7采集過(guò)程7.1數(shù)據(jù)采集過(guò)程數(shù)據(jù)采集方式包括:——終端采集:通過(guò)硬件終端、軟件終端、網(wǎng)絡(luò)爬蟲(chóng)等方式對(duì)物聯(lián)網(wǎng)傳感器數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)等進(jìn)行采集;——人工采集:通過(guò)在線填報(bào)、離線拷貝和導(dǎo)入等人工轉(zhuǎn)化方式進(jìn)行數(shù)據(jù)采集和導(dǎo)入;——系統(tǒng)數(shù)據(jù)匯聚:通過(guò)政府部門(mén)政務(wù)共享交換平臺(tái)、地市農(nóng)村信用信息系統(tǒng)、涉農(nóng)主管部門(mén)(農(nóng)業(yè)、林業(yè)、資源、人社、鄉(xiāng)村振興辦、財(cái)政、公安、市監(jiān)、稅務(wù)等)等部門(mén)涉農(nóng)相關(guān)數(shù)據(jù)和主要指標(biāo)數(shù)據(jù)。采集方式可通過(guò)數(shù)據(jù)庫(kù)表交換、數(shù)據(jù)接口、文件交換等方式進(jìn)行;T/GBCXXXX—XXXX3——數(shù)據(jù)庫(kù)表交換:以數(shù)據(jù)庫(kù)表作為數(shù)據(jù)資源進(jìn)行匯聚,通過(guò)在數(shù)據(jù)交換兩端部署數(shù)據(jù)交換組件及交換庫(kù);源端數(shù)據(jù)發(fā)生更新后實(shí)時(shí)通過(guò)交換組件推送至源端交換庫(kù),由兩端交換組件協(xié)調(diào)雙方交換庫(kù)的同步,目標(biāo)端通過(guò)交換組件從交換庫(kù)提取數(shù)據(jù);——數(shù)據(jù)接口:以數(shù)據(jù)接口服務(wù)作為數(shù)據(jù)資源進(jìn)行匯集,常用的接口方式有WebService、Restful,并以XML、JSON等格式進(jìn)行服務(wù)。數(shù)據(jù)資源提供方調(diào)取業(yè)務(wù)應(yīng)用系統(tǒng)或數(shù)據(jù)庫(kù)中的數(shù)據(jù),并封裝提供數(shù)據(jù)接口服務(wù),數(shù)據(jù)需求方通過(guò)數(shù)據(jù)接口調(diào)用獲取數(shù)據(jù),并把數(shù)據(jù)采集至前置庫(kù)中,目標(biāo)端通過(guò)交換組件從前置庫(kù)提取數(shù)據(jù);——文件交換:以電子文件作為數(shù)據(jù)資源進(jìn)行匯聚,常用的電子文件類(lèi)型有wps、xml、txt、doc、docx、html、csv、xls、xlsx等。通過(guò)前置機(jī)的共享目錄或FTP服務(wù),實(shí)現(xiàn)共享文件數(shù)據(jù)組裝、數(shù)據(jù)傳輸、數(shù)據(jù)解析和數(shù)據(jù)使用,達(dá)到數(shù)據(jù)交換的目的。7.2數(shù)據(jù)采集流程根據(jù)數(shù)據(jù)的采集范圍和采集類(lèi)型,確定數(shù)據(jù)采集方式,然后進(jìn)行數(shù)據(jù)采集過(guò)程的數(shù)據(jù)源連接,實(shí)施數(shù)據(jù)采集、數(shù)據(jù)字段核查及異常處理,原始數(shù)據(jù)入庫(kù),數(shù)據(jù)治理,治理后數(shù)據(jù)入庫(kù)和數(shù)據(jù)更新等,流程如圖1所示。圖1采集流程T/GBCXXXX—XXXX47.3確定采集方式根據(jù)需要采集數(shù)據(jù)的范圍、類(lèi)型以及數(shù)據(jù)的質(zhì)量和安全要求,綜合考慮數(shù)據(jù)源網(wǎng)絡(luò)環(huán)境、數(shù)據(jù)采集工具技術(shù)路線選型、現(xiàn)有數(shù)據(jù)采集通道建設(shè)情況,從而確定數(shù)據(jù)采集方式。在采集過(guò)程中,應(yīng)注意以下幾點(diǎn):——確保采集的數(shù)據(jù)真實(shí)、準(zhǔn)確、完整,避免虛假、錯(cuò)誤、遺漏等問(wèn)題;——保護(hù)采集對(duì)象的隱私和權(quán)益,不應(yīng)泄露其個(gè)人信息和商業(yè)秘密;——遵守相關(guān)法律法規(guī)和道德規(guī)范,不應(yīng)進(jìn)行非法采集和濫用數(shù)據(jù)等行為;——及時(shí)整理和分析采集到的數(shù)據(jù),為后續(xù)的信用評(píng)估和決策提供支持。7.4數(shù)據(jù)源連接應(yīng)根據(jù)業(yè)務(wù)需求選擇合適的數(shù)據(jù)源。數(shù)據(jù)源有以下來(lái)源:——關(guān)系型數(shù)據(jù)庫(kù)(如MySQL、Oracle)、非關(guān)系型數(shù)據(jù)庫(kù)(如MongoDB、Redis)、數(shù)據(jù)倉(cāng)庫(kù)(如AmazonRedshift、GoogleBigQuery);——云服務(wù)平臺(tái)提供的數(shù)據(jù)服務(wù)(如AzureBlobStorage、AWSS3)。獲取采集對(duì)象數(shù)據(jù)源配置信息,應(yīng)包括數(shù)據(jù)源的類(lèi)型、連接字符串(包含了連接到數(shù)據(jù)庫(kù)所需的認(rèn)證信息,如用戶名、密碼、主機(jī)名等)、數(shù)據(jù)庫(kù)名稱(chēng)等。數(shù)據(jù)源連接成功后可以通過(guò)這一連接執(zhí)行各種數(shù)據(jù)操作,如查詢、插入、更新或刪除數(shù)據(jù)。7.5數(shù)據(jù)字段核查數(shù)據(jù)采集字段核查主要進(jìn)行正式開(kāi)始實(shí)施數(shù)據(jù)采集前的準(zhǔn)備工作,包括以下內(nèi)容:——數(shù)據(jù)結(jié)構(gòu)分析:對(duì)數(shù)據(jù)的含義、類(lèi)型、長(zhǎng)度、結(jié)構(gòu)進(jìn)行分析;——數(shù)據(jù)概況分析:對(duì)數(shù)據(jù)內(nèi)容進(jìn)行分析,包括數(shù)據(jù)總數(shù)、分布情況、平均值、中位數(shù)、最大值、最小值等數(shù)據(jù)統(tǒng)計(jì)分析;——數(shù)據(jù)關(guān)聯(lián)分析:對(duì)數(shù)據(jù)之間存在的依賴關(guān)系、主外鍵關(guān)系進(jìn)行分析。7.6實(shí)施數(shù)據(jù)采集7.6.1根據(jù)數(shù)據(jù)采集探查的結(jié)果,針對(duì)不同的數(shù)據(jù)源類(lèi)型,宜采用以下數(shù)據(jù)采集方案實(shí)施數(shù)據(jù)采集:——針對(duì)結(jié)構(gòu)單一、數(shù)據(jù)量相對(duì)較小的結(jié)構(gòu)化數(shù)據(jù),可通過(guò)數(shù)據(jù)庫(kù)交換、文件交換、數(shù)據(jù)接口、消息隊(duì)列等方式進(jìn)行數(shù)據(jù)采集;——針對(duì)傳感器、智能手機(jī)、網(wǎng)絡(luò)等渠道產(chǎn)生的類(lèi)型豐富、數(shù)據(jù)量較大的數(shù)據(jù),可通過(guò)分布式數(shù)據(jù)接口、分布式流數(shù)據(jù)收集、網(wǎng)絡(luò)爬蟲(chóng)等方式進(jìn)行數(shù)據(jù)采集;——針對(duì)問(wèn)卷調(diào)查、實(shí)地調(diào)研、資料分析等產(chǎn)生的數(shù)據(jù),可通過(guò)在線填報(bào)、離線導(dǎo)入等人工轉(zhuǎn)化方式進(jìn)行數(shù)據(jù)采集。7.6.2實(shí)施數(shù)據(jù)采集時(shí)注意事項(xiàng):——不應(yīng)在待采集數(shù)據(jù)的源系統(tǒng)業(yè)務(wù)繁忙時(shí)進(jìn)行,避免讀取動(dòng)作影響源系統(tǒng)正常運(yùn)行;——宜使用源系統(tǒng)的備份庫(kù)作為采集對(duì)象,使用備份庫(kù)時(shí)應(yīng)保證數(shù)據(jù)一致性和可用性;——對(duì)于數(shù)據(jù)量較大、單批量采集可能會(huì)造成系統(tǒng)故障的,應(yīng)支持分批或增量讀取,并采用分布式方式對(duì)數(shù)據(jù)源進(jìn)行讀取。7.7原始數(shù)據(jù)入庫(kù)將不進(jìn)行處理的原始數(shù)據(jù)采集后存放在大數(shù)據(jù)管理平臺(tái)的原始庫(kù)中。7.8數(shù)據(jù)治理7.8.1數(shù)據(jù)治理通過(guò)數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分析等操作,對(duì)采集的原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化規(guī)整處理,確保數(shù)據(jù)的完整性、準(zhǔn)確性和時(shí)效性。7.8.2數(shù)據(jù)規(guī)整過(guò)程管理應(yīng)包括但不限于:——數(shù)據(jù)分析:應(yīng)對(duì)數(shù)據(jù)源進(jìn)行分析,及時(shí)發(fā)現(xiàn)數(shù)據(jù)源存在的質(zhì)量問(wèn)題;——定義清洗規(guī)則:包括空值的檢查和處理、非法值的檢測(cè)和處理、不一致數(shù)據(jù)的檢測(cè)和處理、相似重復(fù)記錄的檢測(cè)和處理等;T/GBCXXXX—XXXX5——執(zhí)行數(shù)據(jù)清洗規(guī)則:依據(jù)定義的清洗規(guī)則,補(bǔ)足殘缺/空值、糾正不一致、完成數(shù)據(jù)拆分、數(shù)據(jù)合并或去重、數(shù)據(jù)脫敏、數(shù)據(jù)除噪等;——清洗結(jié)果驗(yàn)證:數(shù)據(jù)清洗方應(yīng)對(duì)定義的清洗方法的正確性和效率進(jìn)行驗(yàn)證與評(píng)估,對(duì)不滿足清洗要求的清洗方法進(jìn)行調(diào)整和改進(jìn)。數(shù)據(jù)清洗過(guò)程宜多次迭代并進(jìn)行分析、設(shè)計(jì)和驗(yàn)證。7.8.3應(yīng)對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)代碼、格式、類(lèi)型等內(nèi)容,按照大數(shù)據(jù)轉(zhuǎn)換規(guī)則進(jìn)行轉(zhuǎn)換。7.8.4應(yīng)通過(guò)數(shù)據(jù)聚合、數(shù)據(jù)歸類(lèi)、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)血緣等方法,分析采集的數(shù)據(jù),形成上下文完整有效的數(shù)據(jù)。7.9治理后數(shù)據(jù)入庫(kù)應(yīng)對(duì)原始庫(kù)中的數(shù)據(jù)進(jìn)行治理,使其滿足農(nóng)村信用數(shù)據(jù)使用的標(biāo)準(zhǔn)化質(zhì)量要求,治理后的數(shù)據(jù)存放在數(shù)據(jù)倉(cāng)庫(kù)主題庫(kù)中。數(shù)據(jù)存儲(chǔ)應(yīng)根據(jù)源數(shù)據(jù)選擇合適的數(shù)據(jù)存儲(chǔ)方式。7.10數(shù)據(jù)更新7.10.1原始數(shù)據(jù)發(fā)生更新時(shí),應(yīng)依照上述要求的數(shù)據(jù)采集流程中的步驟對(duì)原始庫(kù)和規(guī)整庫(kù)中的需更新數(shù)據(jù)進(jìn)行更新采集,并根據(jù)數(shù)據(jù)更新快慢和實(shí)時(shí)性要求制定不同的采集策略。原始庫(kù)中更新后的歷史數(shù)據(jù)存放在政務(wù)大數(shù)據(jù)中的歷史庫(kù)中。7.10.2應(yīng)支持全量更新和增量更新的數(shù)據(jù)更新方法:——對(duì)存在更新標(biāo)識(shí)的數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論