版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
目錄CONTENTS01.
主數(shù)據治理的概況02.Al
在主數(shù)據清洗的應用03.Al
在主數(shù)據治理的展望
主數(shù)據治理目標&現(xiàn)狀主數(shù)據治理框架藥品主數(shù)據
客商主數(shù)據
飲片主數(shù)據
用戶主數(shù)據
器械主數(shù)據藥品分銷器械分銷藥械零售編碼申請數(shù)據下發(fā)主數(shù)據管理平臺
主數(shù)據庫主數(shù)據示
體系主數(shù)據
體系主數(shù)據量
體系主數(shù)據
體系●
建立覆蓋公司級的統(tǒng)一主數(shù)據管理平臺,實現(xiàn)主數(shù)據審
核、主數(shù)據分發(fā)、主數(shù)據模型、主數(shù)據質量等功能?!裢瓿膳c各業(yè)務系統(tǒng)的對接改造,確?!皵?shù)據同源”。●建立公司級主數(shù)據規(guī)范和標準,落地主數(shù)據管理體系和
流程,實現(xiàn)業(yè)務主數(shù)據的強關聯(lián)管控。●分主題推進業(yè)務主數(shù)據建設,在已完成藥品、客戶、供
應商、中藥飲片基礎上,推進器械、用戶等主數(shù)據建設?!駨?017年到現(xiàn)在,累計積累主數(shù)據約114萬條(藥品:
17萬條,客戶供應商:74.6萬條,飲片:22.1萬條)。●其中,覆蓋國家醫(yī)保目錄11.3萬條,建立ATC
分類16.8
萬條、客商地址信息73萬條等。平臺層面
標準層面
成果層面數(shù)據模型
數(shù)據監(jiān)管權限控制
數(shù)據優(yōu)化
項目面臨的挑戰(zhàn)和傳統(tǒng)方案的瓶頸主要挑戰(zhàn)
傳統(tǒng)清洗方案的瓶頸400w+待清洗數(shù)據,且源源不斷增加型號、規(guī)格數(shù)據結構超5000種參考數(shù)據為非結構化數(shù)據產品分類需要專業(yè)知識積累⑤噪聲和錯誤數(shù)據占比高①
在清洗過程中產生新的數(shù)據問題②
清洗規(guī)則難以窮舉③
非結構化數(shù)據的識別問題
專家共識的建立問題⑤
需要大量人工來完成質量校驗1.
線下、線上各類零售渠道,在實際業(yè)務開展過程,在不同業(yè)務中、在不同場景下,會記錄不同顆粒度的用戶數(shù)據、交;2.會員、營銷等系統(tǒng),需要基于用戶標簽、用戶畫像,開展針對性營銷活動,發(fā)放用戶權益,跟蹤營銷效果等;目標:識別OnelD、生成用戶最佳紀錄循環(huán)迭代
用戶主數(shù)據建設背景&目標其他…其他.…社區(qū)零售(國大)用戶數(shù)據處理平臺用戶標簽用戶畫像用戶權益用戶營銷會員營銷系統(tǒng)特藥零售(SPS+)健康社區(qū)OnelDUserlD姓名性別手機號身份證號教育
程度血型省市區(qū)創(chuàng)建時間病
種確診醫(yī)院購藥門店收貨人
名稱收貨人
電話10000000001QC_DTP_001男138****12
34本科省2023-03-1410000000001CMS_RTL
-001男138****12341310******
1135成都市2023-04-15肺癌成都醫(yī)科大醫(yī)院醫(yī)科大店136****034410000000001GD_DTP_001138****1235成都市2023-04-15肺癌成都醫(yī)科大醫(yī)科大店136****0344UserlD姓名性別手機號身份證號教育程度血型省市區(qū)創(chuàng)建時間QC_DTP_001!->男性->男138****1234本科四川-某省市2023-03-14關系深度關系型數(shù)庫執(zhí)行時間(S)圖數(shù)都片(Neo?)執(zhí)行時間(S)|返H記錄數(shù)(條)20.0160.01約25003302670.168約
1
0
0
041543.5051359約600005未完成2132約80000
數(shù)據清洗的核心難點3、OnelD
生成:非確定性規(guī)則2
、OnelD生成:確定性規(guī)則1、引入Al開展數(shù)據清洗主要成果:1、打通各業(yè)務源頭,實現(xiàn)OnelD
的識別,為精準營銷建立基礎。2、識別用戶最佳記錄,同時識別異常用戶數(shù)據。
項目產出成果黃牛代表刷業(yè)績多馬甲搶購緊俏藥品店員刷積分正常數(shù)據異常數(shù)據親屬替患者購藥員工本人購藥員工替親朋代購標記異常用戶狀態(tài),優(yōu)化服務流程。精準定位異常用戶主要成果:1、打通各業(yè)務源頭,實現(xiàn)OnelD
的識別,為精準營銷建立基礎。2、識別用戶最佳記錄,同時識別異常用戶數(shù)據。
項目產出成果黃牛代表刷業(yè)績多馬甲搶購緊俏藥品店員刷積分正常數(shù)據異常數(shù)據親屬替患者購藥員工本人購藥員工替親朋代購標記異常用戶狀態(tài),優(yōu)化服務流程。精準定位異常用戶√數(shù)據清洗是數(shù)據治理的關鍵環(huán)節(jié)之一,耗時長、成本巨大、直接左右項目最終質量?!袒谟斜O(jiān)督學習、強化學習的原理,引入Al到數(shù)據清洗、數(shù)據質量校驗等環(huán)節(jié),實現(xiàn)提效。4、數(shù)據清洗將未清洗的數(shù)據導入已訓練好的模型中,
模型根據訓練結果,自行清洗5、結果核查人工對清洗結果進行核查,確認清洗結果是否滿足質量要求2、模型學習Al算法學習標注的樣例數(shù)據3、迭代訓練Al算法持續(xù)迭代,訓練清洗模
型03迭代學習0405
Al清洗策略總結-重復學習&迭代6、迭代優(yōu)化根據核查結果,針對模型準確度不高的
情況,將已確認的合格數(shù)據,繼續(xù)作為
標記數(shù)據,重復訓練模型。1、數(shù)據標記人工清洗數(shù)據總量的2~5%作為模型訓練的標注樣例數(shù)據0102缺點局限性高規(guī)則的覆蓋面有限,無法處理復雜的異常數(shù)據,處理大規(guī)模數(shù)據性能有限、處理復雜數(shù)據質量問題時結果不穩(wěn)定。適應性差無法應對多變的數(shù)據質量問題,規(guī)則固定,不具備自適應能力。自
動
化
弱高度依賴人工編寫規(guī)則和維護,需要大量人工干預調整,效率低下。高度可控依賴人工定義的規(guī)則(如正則表達式、邏輯條件)進行數(shù)據清洗,清洗過程高度可控,結果解釋性強。試領域專家定義和維護規(guī)則,對簡單、結構化數(shù)據效果較好。
基于規(guī)則的傳統(tǒng)清洗方式優(yōu)缺點優(yōu)點規(guī)則驅動Al在數(shù)據治理中的其他應用場景AI
(人工智能)在主數(shù)據治理中的應用日益廣泛,顯著提升了數(shù)據管理的效率和質量,典型應用場景如下:1.自動化數(shù)據分類與標簽智能分類:A
可以根據數(shù)據的內容自動進行分類,將數(shù)據分類到預定義的類中或分配相關標簽,使得搜索、檢索和分析數(shù)據變得更加容易。屬性補全:面對數(shù)據屬性缺失的問題,
A
可以通過分析已有數(shù)據,自動補全缺失的屬性值,提高數(shù)據的完整性
提高數(shù)據管理的效率和準確性
2、數(shù)據清洗、預處理,數(shù)據質量實時監(jiān)控錯誤識別與糾正:
Al
技術,特別是機器學習算法,能夠從歷史數(shù)據中學習并自動降低數(shù)據治理的成本識別和糾正錯誤從而確保數(shù)據的質量。重復數(shù)據刪除:
A
可以幫助識別和刪除大型數(shù)據集中的重復記錄。數(shù)據標準化:
Al技術可以應用于數(shù)據標準化過程,確保不同數(shù)據源之間的數(shù)據格
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB 19079.19-2025體育場所開放條件與技術要求第19部分:拓展場所
- 妊娠合并卵巢腫瘤用藥原則與調整策略
- 2025-2026人教版生物八上 第四單元 第六章 人體生命活動的調節(jié) -專項訓練(含答案)
- 大數(shù)據驅動病理報告標準化優(yōu)化策略
- 多重共病COPD肌少癥的多維度管理策略
- 多肽疫苗設計:基于HLA分型的個體化策略-1
- 2025年中職電子信息(信息安全基礎)試題及答案
- 多組學技術在精準醫(yī)療中的個性化健康管理
- 2025年大學大四(服裝設計與工程)服裝品牌策劃基礎測試題及答案
- 2025年高職(大數(shù)據技術)數(shù)據存儲技術試題及答案
- 2025北京高三二模語文匯編:微寫作
- DB6301∕T 4-2023 住宅物業(yè)星級服務規(guī)范
- 護理查房與病例討論區(qū)別
- 公司特殊貢獻獎管理制度
- T/CA 105-2019手機殼套通用規(guī)范
- 2025-2031年中國汽車維修設備行業(yè)市場全景評估及產業(yè)前景研判報告
- 門窗拆除合同協(xié)議書范本
- GB/T 1040.1-2025塑料拉伸性能的測定第1部分:總則
- 重癥胰腺炎的中醫(yī)護理
- SL631水利水電工程單元工程施工質量驗收標準第3部分:地基處理與基礎工程
- 2024年高中語文選擇性必修上冊古詩文情境式默寫(含答案)
評論
0/150
提交評論