理賠數(shù)據(jù)預(yù)處理方法基礎(chǔ)知識點(diǎn)歸納_第1頁
理賠數(shù)據(jù)預(yù)處理方法基礎(chǔ)知識點(diǎn)歸納_第2頁
理賠數(shù)據(jù)預(yù)處理方法基礎(chǔ)知識點(diǎn)歸納_第3頁
理賠數(shù)據(jù)預(yù)處理方法基礎(chǔ)知識點(diǎn)歸納_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

理賠數(shù)據(jù)預(yù)處理方法基礎(chǔ)知識點(diǎn)歸納一、理賠數(shù)據(jù)預(yù)處理概述1.理賠數(shù)據(jù)預(yù)處理的重要性a.提高數(shù)據(jù)質(zhì)量,確保數(shù)據(jù)準(zhǔn)確性b.優(yōu)化模型性能,提升理賠效率c.降低風(fēng)險(xiǎn),防范欺詐行為2.理賠數(shù)據(jù)預(yù)處理流程a.數(shù)據(jù)清洗:去除無效、錯(cuò)誤、重復(fù)數(shù)據(jù)b.數(shù)據(jù)集成:整合不同來源的數(shù)據(jù)c.數(shù)據(jù)轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換為適合分析的形式d.數(shù)據(jù)規(guī)約:降低數(shù)據(jù)維度,減少計(jì)算量3.理賠數(shù)據(jù)預(yù)處理方法a.數(shù)據(jù)清洗方法:缺失值處理、異常值處理、重復(fù)值處理b.數(shù)據(jù)集成方法:數(shù)據(jù)合并、數(shù)據(jù)連接、數(shù)據(jù)映射c.數(shù)據(jù)轉(zhuǎn)換方法:數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)歸一化、數(shù)據(jù)離散化d.數(shù)據(jù)規(guī)約方法:主成分分析、特征選擇、特征提取二、數(shù)據(jù)清洗方法1.缺失值處理a.刪除含有缺失值的記錄b.使用均值、中位數(shù)、眾數(shù)等填充缺失值c.使用模型預(yù)測缺失值d.使用插值法填充缺失值2.異常值處理a.使用統(tǒng)計(jì)方法識別異常值b.使用可視化方法識別異常值c.對異常值進(jìn)行修正或刪除d.對異常值進(jìn)行分類處理3.重復(fù)值處理a.使用哈希函數(shù)識別重復(fù)值b.使用比較算法識別重復(fù)值c.刪除重復(fù)值或合并重復(fù)值d.標(biāo)記重復(fù)值,后續(xù)分析時(shí)進(jìn)行區(qū)分三、數(shù)據(jù)集成方法1.數(shù)據(jù)合并a.使用數(shù)據(jù)庫連接查詢合并數(shù)據(jù)b.使用編程語言實(shí)現(xiàn)數(shù)據(jù)合并c.使用數(shù)據(jù)集成工具實(shí)現(xiàn)數(shù)據(jù)合并d.合并后的數(shù)據(jù)保持一致性2.數(shù)據(jù)連接a.使用SQL語句實(shí)現(xiàn)數(shù)據(jù)連接b.使用編程語言實(shí)現(xiàn)數(shù)據(jù)連接c.使用數(shù)據(jù)集成工具實(shí)現(xiàn)數(shù)據(jù)連接d.連接后的數(shù)據(jù)保持一致性3.數(shù)據(jù)映射a.使用數(shù)據(jù)映射規(guī)則實(shí)現(xiàn)數(shù)據(jù)映射b.使用編程語言實(shí)現(xiàn)數(shù)據(jù)映射c.使用數(shù)據(jù)集成工具實(shí)現(xiàn)數(shù)據(jù)映射d.映射后的數(shù)據(jù)保持一致性四、數(shù)據(jù)轉(zhuǎn)換方法1.數(shù)據(jù)標(biāo)準(zhǔn)化a.使用ZScore標(biāo)準(zhǔn)化方法b.使用MinMax標(biāo)準(zhǔn)化方法c.使用數(shù)據(jù)標(biāo)準(zhǔn)化工具實(shí)現(xiàn)d.標(biāo)準(zhǔn)化后的數(shù)據(jù)保持一致性2.數(shù)據(jù)歸一化a.使用MinMax歸一化方法b.使用ZScore歸一化方法c.使用數(shù)據(jù)歸一化工具實(shí)現(xiàn)d.歸一化后的數(shù)據(jù)保持一致性3.數(shù)據(jù)離散化a.使用等寬離散化方法b.使用等頻離散化方法c.使用數(shù)據(jù)離散化工具實(shí)現(xiàn)d.離散化后的數(shù)據(jù)保持一致性五、數(shù)據(jù)規(guī)約方法1.主成分分析a.使用PCA算法提取主成分b.根據(jù)主成分得分進(jìn)行降維c.使用主成分分析工具實(shí)現(xiàn)d.降維后的數(shù)據(jù)保持一致性2.特征選擇a.使用信息增益、卡方檢驗(yàn)等方法選擇特征b.使用特征選擇工具實(shí)現(xiàn)c.選擇與目標(biāo)變量相關(guān)性高的特征d.選擇后的特征保持一致性3.特征提取a.使用特征提取算法提取特征b.使用特征提取工具實(shí)現(xiàn)c.提取與目標(biāo)變量相關(guān)的特征d.提取后的特征保持一致性1.Witten,I.H.,Frank,E.,Hall,M.A.,&Pal,C.J.(2016).DataMining:Practicalmachinelearningtoolsandtechniques.MorganKaufmann.2.Han,J.,Kamber,M.,&Pei,J.(2011).DataMining:ConceptsandTechniques.Elsevier.3.Japkowicz,N.,&Shah,M.(2011).Eval

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論