下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于距離的孤立點(diǎn)檢測(cè)算法及其在納稅行為分析中的應(yīng)用
0重建點(diǎn)檢測(cè)算法孤立點(diǎn)是指數(shù)據(jù)集中不符合數(shù)據(jù)特征和一般模型的數(shù)據(jù)對(duì)象。這可能是由測(cè)量或執(zhí)行錯(cuò)誤造成的。許多挖掘算法可以最小化孤立點(diǎn)對(duì)搜索結(jié)果的影響,或在挖掘過程中排除孤立點(diǎn)。然而,有時(shí)孤立點(diǎn)是非常重要的信息。如果僅列出相鄰的點(diǎn),則可能會(huì)丟失重要的信息,也就是說,相鄰的點(diǎn)本身是非常重要的。因此,孤立點(diǎn)檢測(cè)是數(shù)據(jù)處理的一個(gè)重要方向,因?yàn)樵谀承?yīng)用中研究孤點(diǎn)的異常行為可以發(fā)現(xiàn)隱藏在數(shù)據(jù)集中的更有價(jià)值的知識(shí)。目前,檢測(cè)孤立點(diǎn)的應(yīng)用廣泛用于許多領(lǐng)域。例如,欺詐檢測(cè)和竊取信用卡的人的購(gòu)買行為可能不同于普通的卡煙稀少的人,因此可以通過注意不同的操作變化來檢測(cè)盜竊行為。此外,對(duì)于入侵檢測(cè)、生態(tài)系統(tǒng)監(jiān)控、公共衛(wèi)生和醫(yī)療等領(lǐng)域也可以應(yīng)用。孤立點(diǎn)檢測(cè)有多種算法,目前常用的算法主要有基于統(tǒng)計(jì)、基于距離、基于密度、基于偏離、基于聚類、基于神經(jīng)網(wǎng)絡(luò)、面向時(shí)間序列以及高維數(shù)據(jù)孤立點(diǎn)檢測(cè)等.本文在基于距離方法的基礎(chǔ)上給出了基于距離和的算法,并將該算法應(yīng)用于納稅行為分析.1基于距離和孤立點(diǎn)檢測(cè)算法1.1設(shè)計(jì)參數(shù)p部分對(duì)象定義1在數(shù)據(jù)集S中,o是一個(gè)孤立點(diǎn),僅當(dāng)S中至少有p部分對(duì)象與o的距離大于d.換句話說,如果o在d范圍內(nèi)有不多于M個(gè)鄰居,則o是一個(gè)帶參數(shù)p和d的DB(p,d)孤立點(diǎn).這里M=n(1-p),n為數(shù)據(jù)對(duì)象的個(gè)數(shù).1.2美國(guó)法上不同度量方法的介紹在基于距離的孤立點(diǎn)定義中,一個(gè)關(guān)鍵的問題是對(duì)象間的距離如何定義.在數(shù)據(jù)集中,每個(gè)數(shù)據(jù)對(duì)象由多個(gè)屬性值描述,屬性的類型主要包括連續(xù)屬性、分類屬性、時(shí)間屬性等,不同的屬性類型有不同的量度方法.基于距離的檢測(cè)算法中一般討論的是連續(xù)類型數(shù)據(jù)的距離量度,其中最常用的距離是絕對(duì)距離和歐氏距離.絕對(duì)距離又稱曼哈頓距離,其定義如下:dij=∑k=1m|xik?xjk|.(1)dij=∑k=1m|xik-xjk|.(1)其中m是數(shù)據(jù)對(duì)象的屬性的個(gè)數(shù),xij表示第i個(gè)對(duì)象第j個(gè)屬性的值.而歐氏距離為:dij=∑k=1m(xik?xjk)2????????????√(2)dij=∑k=1m(xik-xjk)2(2)至于使用哪種距離量度方法,要看具體的應(yīng)用領(lǐng)域,而不同的量度方法可能會(huì)對(duì)結(jié)果產(chǎn)生影響.1.3基于devi的算法基于距離和的孤立點(diǎn)檢測(cè)的思想是,首先計(jì)算數(shù)據(jù)集中對(duì)象兩兩之間的距離,然后累計(jì)每個(gè)對(duì)象與其他對(duì)象的距離,設(shè)M為用戶期望的孤立點(diǎn)個(gè)數(shù),則距離之和最大的M個(gè)對(duì)象即為孤立點(diǎn).定義2xi和xj是數(shù)據(jù)集X中的兩個(gè)對(duì)象,n為數(shù)據(jù)集的對(duì)象數(shù),m為對(duì)象的維(屬性)數(shù),dij為xi和xj之間的距離,則X的距離矩陣R定義為R=??????d11d21?dn1d12d22?dn2????d1nd2n?dnn??????.(3)R=[d11d12?d1nd21d22?d2n????dn1dn2?dnn].(3)定義3xi是數(shù)據(jù)集中第i個(gè)數(shù)據(jù)對(duì)象,xi的偏離度Devi定義為Devi=∑j=1ndij(4)Devi=∑j=1ndij(4)即Devi為矩陣R中第i行的和.由定義1~3,不難看出,Devi越大,對(duì)象i與其他的對(duì)象距離越遠(yuǎn),其為孤立點(diǎn)的可能性越大.若M為用戶期望得到的孤立點(diǎn)個(gè)數(shù),則偏離度最大的M個(gè)對(duì)象即為孤立點(diǎn).為檢測(cè)基于距離和的孤立點(diǎn),算法將需要n2次的數(shù)據(jù)對(duì)象間的距離計(jì)算,當(dāng)n很大時(shí),這幾乎變得不可能.為此,本文使用了基于隨機(jī)抽樣的近似計(jì)算.數(shù)據(jù)庫(kù)和數(shù)據(jù)挖掘中大量使用了均勻抽樣技術(shù),即從N個(gè)對(duì)象中隨機(jī)取出n個(gè)對(duì)象.為得到均勻的抽樣結(jié)果,本文采用CURE聚類算法中使用的抽樣算法,其基本思想是:先將數(shù)據(jù)集中前n條記錄放到一個(gè)抽樣數(shù)據(jù)集中,從第n+1條記錄開始,做以下操作,設(shè)當(dāng)前處理的是第t條記錄,u是一個(gè)隨機(jī)產(chǎn)生的數(shù)(u∈[0,t-1]),若u<n,則把抽樣數(shù)據(jù)集中的第u條記錄替換為數(shù)據(jù)集中第t條記錄;若u≥n,則不進(jìn)行替換操作.可以證明算法可以得到均勻的抽樣結(jié)果.該算法如下:2該算法用于分析納稅行為2.1標(biāo)準(zhǔn)化的納稅人本實(shí)驗(yàn)所用數(shù)據(jù)為某市地稅局2007年納稅數(shù)據(jù),考慮到數(shù)據(jù)的實(shí)際情況,本實(shí)驗(yàn)按以下要求選取數(shù)據(jù)和對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化:1)選取稅率為0.08的稅種.2)實(shí)繳稅金大于100(xsjsj>1000).3)營(yíng)業(yè)收入在1000~100000之間的納稅人.下面是對(duì)選取的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化:營(yíng)業(yè)收入:yyysr=yyysr/1000,則該值的取值范圍為1<yyysr<100,精度為0.1.實(shí)繳稅金:xsjsj=xsjsj/1000,則該值的范圍為0<xsjsj<80,精度為0.1.經(jīng)過標(biāo)準(zhǔn)化整理后的數(shù)據(jù)對(duì)象數(shù)目為5691條.2.2常稅率計(jì)算是否可以得到的稅收根據(jù)綜合分析,我們選取的值為30,距離采用歐氏距離,進(jìn)行了孤立點(diǎn)檢測(cè)實(shí)驗(yàn),挖掘出了30條異常數(shù)據(jù)即孤立點(diǎn)(限于篇幅不再全部列舉).我們通過分析可以發(fā)現(xiàn)孤立點(diǎn)數(shù)據(jù)中存在三種典型的孤立點(diǎn)類別,分別是:1)孤立點(diǎn)數(shù)據(jù)的實(shí)繳稅金金額遠(yuǎn)遠(yuǎn)大于按正常稅率計(jì)算應(yīng)該得到的稅金,甚至大于營(yíng)業(yè)收入,這種數(shù)據(jù)明顯不合理,所以應(yīng)該是真正的“噪聲”,可能是由于輸入錯(cuò)誤導(dǎo)致的垃圾數(shù)據(jù),對(duì)于這類孤立點(diǎn),我們可以直接將其從數(shù)據(jù)源中清除,不必進(jìn)行進(jìn)一步的分析.例如表1中的數(shù)據(jù).2)孤立點(diǎn)數(shù)據(jù)的實(shí)繳稅金金額大于按正常稅率計(jì)算應(yīng)該得到的稅金,這類孤立點(diǎn)可能是由于納稅人進(jìn)行補(bǔ)繳以前漏交的稅金的原因所致,這類數(shù)據(jù)也有可能是由于錄入錯(cuò)誤所致,所以我們要對(duì)這類數(shù)據(jù)進(jìn)行進(jìn)一步的研究與分析,發(fā)現(xiàn)數(shù)據(jù)異常的原因.此類數(shù)據(jù)如表2.3)孤立點(diǎn)數(shù)據(jù)的實(shí)繳稅金金額小大于按正常稅率計(jì)算應(yīng)該得到的稅金孤立點(diǎn)數(shù)據(jù),這類數(shù)據(jù)對(duì)我們來說,是最重要的數(shù)據(jù).產(chǎn)生這類數(shù)據(jù)的原因很有可能是由于納稅人偷稅、漏稅所致,所以對(duì)于此類數(shù)據(jù),我們應(yīng)該予以高度重視,進(jìn)行詳細(xì)地、深入地調(diào)查與分析,找出異常的原
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年黑龍江藝術(shù)職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)附答案詳解
- 2026年重慶商務(wù)職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)考試題庫(kù)及答案詳解1套
- 2026年廈門興才職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能考試題庫(kù)及答案詳解1套
- 2026年安徽省淮北市單招職業(yè)傾向性考試題庫(kù)及參考答案詳解1套
- 2026年石河子工程職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能考試題庫(kù)及參考答案詳解一套
- 2026年甘肅機(jī)電職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性考試題庫(kù)附答案詳解
- 2026年安徽省馬鞍山市單招職業(yè)傾向性考試題庫(kù)及答案詳解一套
- 2026年廣東舞蹈戲劇職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)及參考答案詳解
- 2026年上海理工大學(xué)單招職業(yè)技能測(cè)試題庫(kù)及答案詳解1套
- 2026年寧夏葡萄酒與防沙治沙職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫(kù)帶答案詳解
- 2025年滁州市公安機(jī)關(guān)公開招聘警務(wù)輔助人員50人備考題庫(kù)及一套參考答案詳解
- 2025年云南省人民檢察院聘用制書記員招聘(22人)備考筆試題庫(kù)及答案解析
- 2026屆四川涼山州高三高考一模數(shù)學(xué)試卷試題(含答案詳解)
- 銀行黨支部書記2025年抓基層黨建工作述職報(bào)告
- 腫瘤標(biāo)志物的分類
- 2025山西忻州市原平市招聘社區(qū)專職工作人員50人考試歷年真題匯編附答案解析
- 中藥煎煮知識(shí)與服用方法
- 2026東莞銀行秋季校園招聘?jìng)淇碱}庫(kù)及答案詳解(基礎(chǔ)+提升)
- 消防水泵房管理制度及操作規(guī)程
- 野戰(zhàn)軍生存課件
- 《民航概論》期末考試復(fù)習(xí)題庫(kù)(附答案)
評(píng)論
0/150
提交評(píng)論