T-CIIA 061-2025 油氣井筒特征工程數(shù)據(jù)質(zhì)量規(guī)范_第1頁
T-CIIA 061-2025 油氣井筒特征工程數(shù)據(jù)質(zhì)量規(guī)范_第2頁
T-CIIA 061-2025 油氣井筒特征工程數(shù)據(jù)質(zhì)量規(guī)范_第3頁
T-CIIA 061-2025 油氣井筒特征工程數(shù)據(jù)質(zhì)量規(guī)范_第4頁
T-CIIA 061-2025 油氣井筒特征工程數(shù)據(jù)質(zhì)量規(guī)范_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

油氣井筒特征工程數(shù)據(jù)質(zhì)量規(guī)范Dataqualityspecificationforoilandgaswellbo2025-12-11實施2025-12-11實施I 2規(guī)范性引用文件 13術(shù)語和定義 14縮略語 5關(guān)鍵井筒特征工程數(shù)據(jù)分類 16總體框架 27數(shù)據(jù)質(zhì)量要求 27.1準確性 27.2完整性 27.3一致性 27.4時效性 37.5可靠性 38數(shù)據(jù)采集與預處理 3 38.2數(shù)據(jù)預處理 38.3數(shù)據(jù)采集與預處理質(zhì)量要求 39數(shù)據(jù)存儲與管理 39.1存儲格式 39.2存儲安全 39.3元數(shù)據(jù)管理 49.4數(shù)據(jù)存儲質(zhì)量要求 410數(shù)據(jù)標注 410.1數(shù)據(jù)標注 4 411數(shù)據(jù)質(zhì)量評估與改進 411.1質(zhì)量評估指標 411.2質(zhì)量改進措施 412證實方法 12.1準確性證實 12.2完整性證實 12.3一致性證實 12.4時效性證實 612.5可靠性證實 6附錄A(資料性)規(guī)范與應用的關(guān)系 附錄B(規(guī)范性)數(shù)據(jù)質(zhì)量要求表 8 本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)本文件由中國信息協(xié)會提出并歸口。本文件起草單位:中國石油集團工程技術(shù)研究院、中國石油勘探開發(fā)研究院、中國石油集團長城鉆探工程有限公司、中國石化集團工程技術(shù)研究院、中國海油能源經(jīng)濟研究院、數(shù)治云(北京)科技有限責任公司。本文件主要起草人:梅運誼、康曉娜、崔猛、景凌志、史肖燕、王國慶、伍東、張彥龍、尹志勇、汪文智、于洋、劉彥均、楊心怡、何慧文、何冬梅、高慶忠、李昌盛、魏卓、徐鵬、李宏中、蔡春久、趙子云、田雨萌、楊光、趙偉賓、郭衛(wèi)紅。為進一步規(guī)范油氣井筒特征工程數(shù)據(jù)的采集、處理、標注、存儲和管理工作,滿足標準化數(shù)據(jù)油氣井筒特征工程是指針對井筒動態(tài)監(jiān)測數(shù)據(jù)(如溫度、壓力、流量等)、靜態(tài)地質(zhì)數(shù)據(jù)(如巖性、孔隙度、滲透率等)及工程作業(yè)數(shù)據(jù)(如鉆井參數(shù)、井身結(jié)構(gòu)等)等多源異構(gòu)數(shù)據(jù),通過特征理解、特征增強、特征構(gòu)建、特征選擇、特征轉(zhuǎn)換等步驟,探尋數(shù)據(jù)變化模式,挖掘復雜數(shù)據(jù)之油氣井筒特征工程是實現(xiàn)數(shù)據(jù)驅(qū)動的油氣井筒智能決策的關(guān)鍵環(huán)節(jié),能有效提升模型、算法的精度本規(guī)范的制定可統(tǒng)一油氣井筒特征工程數(shù)據(jù)質(zhì)量評價標準,提升油氣井筒數(shù)據(jù)從采集到質(zhì)量評估各環(huán)節(jié)工作的規(guī)范化水平,促進油氣井筒數(shù)據(jù)共享和規(guī)范應用,為油氣井筒的數(shù)字化和智能化提1本文件規(guī)定了油氣井筒特征工程數(shù)據(jù)的質(zhì)量要求,包括數(shù)據(jù)采集、預處理、存儲、標注、質(zhì)量評估和驗證等環(huán)節(jié)的技術(shù)要求。本文件適用于能源行業(yè)油氣勘探、開發(fā)等階段涉及的油氣井筒特征工程中的數(shù)據(jù)質(zhì)量管理,旨在確保數(shù)據(jù)集的準確性、完整性和一致性,為后續(xù)的機器學習模型訓練和工程分析提供高質(zhì)量的數(shù)據(jù)支持。下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。-SY/T5703-2012石油測井數(shù)據(jù)項名稱規(guī)范-SY/T6192-2012石油鉆井工程數(shù)據(jù)項名稱規(guī)范下列術(shù)語和定義適用于本文件。油氣井筒特征工程0ilandGasWellboreFeatureEngineering指通過特征理解、特征增強、特征構(gòu)建、特征選擇、特征轉(zhuǎn)換等步驟,提取油氣井筒數(shù)據(jù)關(guān)鍵特征,支持油氣井智能建模和數(shù)據(jù)挖掘,以完成生產(chǎn)優(yōu)化、故障診斷和預測性維護等任務的過程。數(shù)據(jù)質(zhì)量DataQuality指用于油氣井筒特征工程的數(shù)據(jù)在準確性、完整性、一致性、時效性和可靠性等方面的綜合表下列縮略語適用于本文件。CSV:逗號分隔值(Comma-SeparatedValues),其文件以純文本形式存儲表格數(shù)據(jù)(數(shù)字和文5關(guān)鍵井筒特征工程數(shù)據(jù)分類動態(tài)監(jiān)測數(shù)據(jù):井口套壓、立管壓力、井底壓力、環(huán)空壓力、井口回壓、地層孔隙壓力、地層漏失壓力、巖屑返出量濕重、巖屑返出量干重、巖屑形態(tài)、元素錄井數(shù)據(jù)、環(huán)空巖屑濃度。靜態(tài)地質(zhì)數(shù)據(jù):井口坐標(經(jīng)緯度)、地面海拔、構(gòu)造位置、地理區(qū)域、地層分層數(shù)據(jù)、鉆遇地層序列、巖性剖面、礦物組成、孔隙度、滲透率、含油氣飽和度。工程作業(yè)數(shù)據(jù):井身結(jié)構(gòu)、鉆具組合、鉆井設計參數(shù)、井眼軌道設計、井深、鉆頭位置、機械鉆速、泵壓、排量、鉆壓、扭矩、轉(zhuǎn)盤轉(zhuǎn)速、大鉤速度、大鉤高度、垂深、測深、井眼軌跡、井底溫度、磁工具面角、固井施工參數(shù)。2另一部分經(jīng)過預處理或者標注后進行存儲備用。本規(guī)范從準確性五方面規(guī)定了用于油氣井筒特征工程的數(shù)據(jù)質(zhì)量要求,數(shù)據(jù)質(zhì)量要求貫穿采集、預處理、存儲到本規(guī)范規(guī)定了數(shù)據(jù)標注的方式、數(shù)據(jù)標注的內(nèi)容、數(shù)據(jù)標注的審核和數(shù)據(jù)驗證要求本規(guī)范規(guī)定了數(shù)據(jù)清洗、數(shù)據(jù)標準化和數(shù)據(jù)項名稱統(tǒng)一的技術(shù)要求,保障數(shù)據(jù)的一致性和可靠性本規(guī)范規(guī)定了數(shù)據(jù)采集設備要求和數(shù)據(jù)采集頻率,從源頭保障數(shù)據(jù)的準確性,時效性和可靠性本規(guī)范規(guī)定了數(shù)據(jù)存儲結(jié)構(gòu)的設計、存儲方式、存儲安全和元數(shù)據(jù)管理,保障數(shù)據(jù)存儲的完整性、合理性以及數(shù)據(jù)使用的高效性,防止數(shù)據(jù)被篡改,保障數(shù)據(jù)的準確性a)數(shù)據(jù)應真實反映油氣井筒的實際工況,標準誤差小于等于2%;當特殊數(shù)據(jù)應用場景對數(shù)據(jù)b)傳感器采集的動態(tài)監(jiān)測數(shù)據(jù)應經(jīng)過校準,確保測量精度,測量誤差需控制在規(guī)定范圍b)數(shù)據(jù)應包含所有必要的特征字段,缺失值比例通常不得超過5%;當特殊數(shù)據(jù)應用場景對數(shù)c)對于關(guān)鍵特征(如井筒壓力、溫度),缺失值應通過插值或模型預測進行填補。a)不同來源、不同時間采集、存儲的數(shù)據(jù)應保持b)數(shù)據(jù)的時間戳應統(tǒng)一,避免因時區(qū)或設備時鐘不同步導致的數(shù)據(jù)不一致。3d)標準化處理后的數(shù)據(jù)項名稱應遵循現(xiàn)有行業(yè)標準,其中,鉆井數(shù)據(jù)的數(shù)據(jù)項命名規(guī)范宜參照SY/T6192-2012,錄井數(shù)據(jù)的數(shù)據(jù)項命名規(guī)范宜參照SY/T5752-2012,測井數(shù)據(jù)的數(shù)據(jù)b)歷史數(shù)據(jù)的存儲周期應不少于5年,以便進行長期趨勢分析;特殊數(shù)據(jù)類型(包含但不限于井史數(shù)據(jù))需長期保存。b)數(shù)據(jù)采集設備應定期維護,確保數(shù)據(jù)采集的連續(xù)性b)采集方式包括但不限于傳感器自動采集和人工a)數(shù)據(jù)清洗:去除重復數(shù)據(jù)、填補缺失值、修正異常值。b)數(shù)據(jù)標準化:將不同量綱的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的標準格式。b)數(shù)據(jù)預處理質(zhì)量應符合附錄B.3:數(shù)據(jù)預處理質(zhì)量要求表的規(guī)定。a)根據(jù)數(shù)據(jù)的敏感程度和重要性對數(shù)據(jù)進行分類分級,是風險管控的有效手段。將數(shù)據(jù)分為b)應按照數(shù)據(jù)分級要求,對需要保護的數(shù)據(jù)進行加密存儲,防止物理設備被盜或數(shù)據(jù)文件被d)定期備份數(shù)據(jù),確保數(shù)據(jù)丟失時可快速恢復;數(shù)據(jù)備份宜采用3-2-1規(guī)則(至少3個副本,用2種不同介質(zhì)存儲,其中1個異地存放)。4a)每個數(shù)據(jù)項應附帶元數(shù)據(jù),要詳細記錄數(shù)據(jù)樣本的來源背景,包括可追溯的元數(shù)據(jù)標識、b)元數(shù)據(jù)應與數(shù)據(jù)項同步存儲,應存儲數(shù)據(jù)從生成、預處理到存儲的完整路徑便于追溯和審計。具體而言,元數(shù)據(jù)需要包含:數(shù)據(jù)源頭、處理歷史、版本信息、存儲位置以及關(guān)聯(lián)關(guān)c)元數(shù)據(jù)中需記錄數(shù)據(jù)標注所依據(jù)的業(yè)務規(guī)則或標準、執(zhí)行標注操作的人員或系統(tǒng)、標注完成的時間以及標注結(jié)果的版本,確保了標注過程的嚴謹性和標注結(jié)果的可驗證性,有助于b)數(shù)據(jù)標注樣本應具有多樣性和全面性。對于分類學習樣本,應同時包含正例和反例。數(shù)據(jù)標注質(zhì)量應符合附錄B.5:數(shù)據(jù)標注質(zhì)量要求表的規(guī)定。b)定期對數(shù)據(jù)采集設備進行校準,采集流程進行優(yōu)化,提高數(shù)據(jù)質(zhì)量c)依據(jù)數(shù)據(jù)質(zhì)量目標,通過質(zhì)量需求、質(zhì)量檢查、質(zhì)量分析和質(zhì)量提升的流程進行數(shù)據(jù)質(zhì)量5組織保障制度保障明確質(zhì)量管理目標明確需求更新數(shù)據(jù)質(zhì)量規(guī)則庫圖2數(shù)據(jù)質(zhì)量改進流程本章節(jié)規(guī)定了驗證和證明數(shù)據(jù)質(zhì)量要求是否得到滿足的具體方法和程序。按照下述證實方法和程序開展的數(shù)據(jù)質(zhì)量證實活動產(chǎn)生的記錄(包括但不限于比對結(jié)果、檢查清單、測試日志)應作為a)校準記錄審核:定期(如每季度)審查關(guān)鍵傳感器、測量儀表的第三方校準證書,確認其b)交叉對比驗證:選取關(guān)鍵時段的有)讀數(shù),或與物理/數(shù)據(jù)模型計算結(jié)果進行比對,計算相對誤差,評估是否符合≤2%的標c)抽樣驗證:采用抽樣的辦法對數(shù)據(jù)標注準確性進行驗證,抽樣的數(shù)據(jù)總數(shù)不少于待評估標注數(shù)據(jù)總數(shù)的30%,按照附錄A.5的準確性計算方法驗證是否符合≤2%的標準。b)數(shù)據(jù)標注比例統(tǒng)計:抽查已標注的數(shù)據(jù),檢查其是否帶有正確的數(shù)據(jù)標簽(如“正常”、“異?!钡?,并計算未標注的數(shù)據(jù)與應標注的數(shù)據(jù)比例,評估是否符合≤5%的標準。a)數(shù)據(jù)處理流程日志審查:檢查數(shù)據(jù)集成過程中的格式轉(zhuǎn)換、單位換算、代碼映射的日志,點的關(guān)鍵參數(shù)(如井底流壓),進行一致性對比分析。c)時間戳審計:檢查數(shù)據(jù)采集服務器的時鐘同步協(xié)議(如NTP)狀態(tài),并抽查數(shù)據(jù)流,驗證時間戳的格式與時區(qū)(建議統(tǒng)一為UTC)是否一致。6a)采集頻率監(jiān)控:在數(shù)據(jù)采集系統(tǒng)中配置監(jiān)控點,記錄并報告關(guān)鍵數(shù)據(jù)點的實際采集間隔,b)存儲策略與備份審計:檢查數(shù)據(jù)庫和歷史歸檔系統(tǒng)的存儲策略配置,確認數(shù)據(jù)保留周期設置符合“不少于5年”的要求;審查長期歸檔(如磁帶、云存儲)的備份記錄和恢復測試報a)異常值檢測算法驗證:評審并測試應用于數(shù)據(jù)流的異常值過濾算法,驗證其能否有效識別7(資料性)規(guī)范與應用的關(guān)系A.1規(guī)范與應用的關(guān)系本規(guī)范核心要素及油氣井筒數(shù)據(jù)質(zhì)量與油氣井筒特征工程、智能建模之間的關(guān)系如圖A.1所示。風險預警故障診斷過程優(yōu)化產(chǎn)量預測出口流量的變化趨勢特征為油氣井筒特征工程提供具有準確性、完整性、一致性、時效性、可靠性的高質(zhì)量數(shù)據(jù)集現(xiàn)智能決策工況識別鉆井液密度的變化模式特征選擇法提供支持的變化量理解井筒溫度的變化量特征轉(zhuǎn)換8(規(guī)范性)檢查項檢查結(jié)果(合格/不合格)備注(注明檢查結(jié)果不合格的原因和改進辦法)一致性時間戳統(tǒng)一、字段格式一致、量綱統(tǒng)一、數(shù)據(jù)項名稱統(tǒng)一時效性階段采集頻率≥1次/分鐘油氣井筒特征工程數(shù)據(jù)采集質(zhì)量應符合表B.2檢查項備注y;采集的數(shù)據(jù),ya是數(shù)據(jù)序列的均值一致性時間戳統(tǒng)一,字段9時效性建井階段采集頻率≥1次/3秒鐘,生產(chǎn)階段采集頻率≥1次/分鐘時效性采用每次采集所需時間來進行,建井階段采集時間單位為秒,生產(chǎn)階段采集時間單位為分鐘之差的絕對值大于3倍標準差的數(shù)據(jù)檢查項是數(shù)據(jù)預處理后的數(shù)據(jù)序列

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論