【畢業(yè)學(xué)位論文】(Word原稿)通過決策樹對垃圾短信用戶進行預(yù)識別處理 垃圾短信治理措施_第1頁
【畢業(yè)學(xué)位論文】(Word原稿)通過決策樹對垃圾短信用戶進行預(yù)識別處理 垃圾短信治理措施_第2頁
【畢業(yè)學(xué)位論文】(Word原稿)通過決策樹對垃圾短信用戶進行預(yù)識別處理 垃圾短信治理措施_第3頁
【畢業(yè)學(xué)位論文】(Word原稿)通過決策樹對垃圾短信用戶進行預(yù)識別處理 垃圾短信治理措施_第4頁
【畢業(yè)學(xué)位論文】(Word原稿)通過決策樹對垃圾短信用戶進行預(yù)識別處理 垃圾短信治理措施_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1 第一章 緒論 研究背景 截止 2012 年 12 月 ,我國手機用戶人數(shù) 已邁過 11 億大關(guān), 全國移動短信發(fā)送量達到 條,移動彩信業(yè)務(wù)量達到 條 1。短信業(yè)務(wù) 雖然極大地方便了人們的交流,但同時也成為了不法分子有利可圖的渠道。 通過短信渠道 滋生 的 虛假廣告、非法宣傳等信 息,已經(jīng)對人們的生活帶來了很大的干擾,對公共安全也是一種妨害,甚 至于這種行為會造成通信高峰期時的通訊擁塞。 曾有運營商對垃圾短信的相關(guān)情況做了調(diào)查 1,在參與調(diào)查的 10000 用戶當(dāng)中,有 用戶在過去 3 個月中收到過不同形式的廣告短信,有 用戶接收過有色短信,有 用戶在近三個月中收到過各種形式的詐騙短信。垃圾短信不 僅影響了 人們的日常 生活, 對用戶的個人隱私和財產(chǎn)也是一種極大的隱患,公信力會因此受到損害,公民的誠信體系也會因此而 被質(zhì)疑。 垃圾短信的泛濫 同時還 增加了移動網(wǎng)絡(luò)遭受惡意網(wǎng)絡(luò)攻擊以及病毒侵害的可能 在 2012 會上 ,電信地方公司被 曝 出 鼓勵短信群發(fā)公司進行垃圾短信發(fā)送活動 , 這是央視第三次曝光垃圾短信問題。前兩次分別為: 2006 年,垃圾短信已經(jīng)成為一種社會公害; 2008 年,分眾傳媒濫發(fā)垃圾 短信、泄露手機機主個人資料 ,被曝光后分眾無線叫停短信及彩信業(yè)務(wù)。 因此 ,是否對垃圾短信行為 進行整治成為大眾關(guān)注的問題 對于運營商而言,如何建立垃圾短信過濾平臺、開展研究 攔截垃圾短信的相關(guān)工作,有重要的實用價值和經(jīng)濟價值。一方面可以對人民的財產(chǎn)起到保護作用,也能保障人們的正常生活。此外過濾垃圾短信也可以捍衛(wèi)國家安全,穩(wěn)定社會 治安 。 垃圾短信的定義 垃圾短信, 從發(fā)送者角度來講,指內(nèi)容違法、不符合正常通信行為的批量發(fā)送的短信。從接收者來講, 指 違背了接收者的主觀意愿,而且對接收者造成了干擾 的短信 。 從發(fā)送者和接收者來看, 常見的垃圾短信有以下 定義 : 1、 從發(fā)送者來看,垃圾短信指 涉嫌違法 內(nèi)容 的垃圾短信 ,依據(jù)中華人民共和國電信條例對垃圾短信劃定出 9 個標(biāo)準(zhǔn) 2: 1 中國移 動 ,中國移動垃圾短信治理通報 ,2011 年 2 月 2 1) 反對憲法所確定的基本原則的; 2) 危害國家安全,泄露國家秘密,顛覆國家政權(quán),破壞國家統(tǒng)一的; 3) 損害國家榮譽和利益的: 4) 煽動民族仇恨、民族歧視,破壞民族團結(jié)的; 5) 破壞國家宗教政策,宣揚邪教和封建迷信的; 6) 散布謠言,擾亂社會秩序,破壞社會穩(wěn)定的; 7) 散布淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪的; 8) 侮辱或者誹謗他人,侵害他人合法權(quán)益的; 9) 含有法律、行政法規(guī)禁止的其他內(nèi)容的。 2、 從接收者角度來看, 垃圾短信是指該短信并非由接收者 事先主動約定或者定制 而 接收 , 或者因 發(fā)送頻率較高、已對 接收者造成干擾甚至引起投訴的 短信 。這類短信不僅包括虛假廣告、銀行類詐騙信息等,還包括發(fā)送者 手機中病毒而 引起的 無具體實際內(nèi)容的垃圾短信 , 垃圾短信的形成原因 雖然垃圾短信 不法分子為了 達到自身 某種 利益采用的宣傳手段 , 但 深究其原因,還是由于法律的欠缺和各通信運營商監(jiān)管不力造成的, 形成 垃圾短信 的主要原因有以下幾點 3: 1、 短信是一種屬于低成本 、 低門檻、高閱讀量 的宣傳方式。 該形式不需要消耗大量的人工成本, 也不需要印制大量的傳單、名片 , 僅通過不同種類 的短信群發(fā)器, 插入 就可以 隨意 發(fā)送上萬條。 綜合其他宣傳手段, 短信是目前成本最低、 點對點發(fā)送到達率的通信方式 。 2、 運營商 缺乏有效監(jiān)管 。在 我國 , 三大運營商對移動設(shè)備入網(wǎng) 都 對用戶入網(wǎng)都不強制推廣實名制,由于短信發(fā)送不收取任何形式的漫游費,導(dǎo)致發(fā)送者可以將某地的 拿到全國任何地方發(fā)送,給發(fā)送者身份和終端的識別都造成了很大困難, 給非法短信息群發(fā)者身份的提供了可乘之機,使之具有非常強的 隱蔽性 。 3、 缺乏有效的法律支撐。從目前立法狀況來看,雖然中華人民共和國電信條例 對電信的運營活動進行了較為明 確的規(guī)范, 互聯(lián)網(wǎng)信息服務(wù)管理辦法對 互聯(lián)網(wǎng)信息 的 服務(wù)行為和使用行為 也有切實的要求 4。但作為 綜合性法規(guī),針對電信經(jīng)營活動和互聯(lián)網(wǎng)信息服務(wù)活動這些具體的通信方式 , 還是難以 進行具有針對性的規(guī)范和調(diào)整, 客觀上缺乏有效的執(zhí)行力,不能對 違法行為起到約束和管理。 3 垃圾短信現(xiàn)狀調(diào)查 根據(jù) 2011 年上半年手機短信息狀況調(diào)查報告的內(nèi)容,與垃圾短信相關(guān)的用戶統(tǒng)計大致有以下幾點 5: 1、 用戶每周平均 約 收到 垃圾信息 , 占用戶全部接收短信的 雖然從占比上較去年同期略有下降 (,但總量上還是呈上漲 趨勢,戶均較去年增長 。 2、 在用戶收到的 垃圾短信息中, 按照內(nèi)容分類,占比最高的信息分別是 涉嫌欺詐類的短信 、冒充銀行扣款類 信息 、違法出售票據(jù)類信息,接收過這三種信息的用戶分別占到了 3、 在關(guān)于垃圾短信責(zé)任的調(diào)查中, 大部分用戶 (還是堅持認為垃圾短信泛濫的 主要原因是 運營商 不作為 , 次要原因才是 短信息發(fā)送者從中 牟利。 4、 通過調(diào)查對垃圾短信的治理效果可以看出,超過一半 (的用戶認為治理初見成效,反應(yīng)近半年來收到垃圾短信有所減少,仍有超過一成 (的用戶反應(yīng) 垃圾短信不減反增。用戶仍希望能加大垃圾短信治理力度, 降低接收量 。 5、 隨著用戶對垃圾短信的深惡痛絕,對垃圾短信的舉報比例也在逐年增長。除了 12321 舉報中心外,通過運營商的舉報量也達到了 除了這兩個舉報渠道,直接向公安部門舉報和通過 12300 投訴的比例也略有增長。去年垃圾短信的舉報比例已經(jīng)接近三成,用戶對垃圾短信的反感已漸漸從思想轉(zhuǎn)換到了行動上。 垃圾短信 的危害性 垃圾短信給用戶和運營商都帶來了損失。垃圾短信的泛濫 不僅 嚴重 干擾了人們的正常生活, 也浪費了人們大量時間,同時 影響了移動網(wǎng)絡(luò)下 的正 常通信,其危害主要表現(xiàn)在以下幾個方面: 從 對社會影響來看 6,垃圾短信 不僅助長了社會的不良風(fēng)氣,甚至已經(jīng)危害到了國家安全。通過垃圾短信,非法 發(fā)動 分子可以批量傳播民族仇恨和封建迷信 ,在進行詐騙的同時也影響了社會的安定團結(jié)。這些短信或多或少會對青少年產(chǎn)生不良影響,具有十足的危害性。 從 占用 通訊資源 的角度 來看,大量的發(fā)送垃圾短信信息,會占用一定的通訊資源,這可能造成通訊忙時的擁堵,甚至可能造成通訊中斷。這在造成運營商損失的同時,也會給 廣大 用戶 帶 來極大的不便。如果能 降低減少 垃圾短信 的發(fā)送量, 4 可以節(jié)約運營商的運營成本,減少資 源消耗,為用戶正常通信留出寶貴空間。 從手機用戶的體驗來看,處理垃圾短信無異于浪費時間。一條垃圾短信從查看到刪除至少需要花費 1 分鐘的時間,如果每天都收到垃圾短信,無形中會浪費人們較多的時間。而且,大量的垃圾短信會造成人們對短信接收的敏感度,有可能因為懷疑該信息是垃圾短信信息而錯過查看重要信息。 從 內(nèi)容服務(wù)商 ( 業(yè)務(wù)發(fā)展 來看 7,垃圾 短信在無形中 也間接制約了 用戶 在 對垃圾短信的詐騙陷阱已深惡痛絕的同時,也對 業(yè)的服務(wù)短信產(chǎn)生了同樣的反感,長此以往,必定會降低 信服務(wù)的用戶感知 ,造成客戶 流失 。 垃圾短信治理措施 理論治理措施 治理垃圾短信,理論上可以通過以下幾個途徑: 1、 對 信息服務(wù)商的市場準(zhǔn)入制度 做進一步 明確 8。 在 中華人民共和國電信條例 中,雖然有對增值電信業(yè)務(wù)經(jīng)營商的條件有相關(guān)規(guī)定,但對其行業(yè)和從業(yè)人員的具體資質(zhì)都沒有一個明確的規(guī)定。這給垃圾短信發(fā)送者一個很大的可乘之機,垃圾短信的主要來源都是這些無資質(zhì)的短信群發(fā)商。如果要控制垃圾短信的來源,就要從細化市場準(zhǔn)入條件入手,進一步要求從業(yè)人員的資質(zhì)。 2、 推廣實名制的手機入網(wǎng)機制 9。 根據(jù)工業(yè)和信息化產(chǎn)業(yè)部要求, 2010 年 9 月起,全國都需要實施實名制手機入網(wǎng),要求新入網(wǎng)用戶必須使用身份證,對于舊用戶也應(yīng)在 2內(nèi)完成補充登記。如果能有力貫徹這一舉措,垃圾短信用戶將會對發(fā)送行為有所忌憚,除了能起到震懾作用外,還能方便公安機關(guān)和運營商對垃圾短信發(fā)送源頭的跟蹤監(jiān)控。 3、 加大執(zhí)法力度,擴大 監(jiān)管范圍 ,完善相關(guān)法律機制 10。 一是對于涉嫌發(fā)送違法信息(強迫、詐騙、引誘消費)的信息商,經(jīng)落實發(fā)送行為后交由信息主管部門進行高額罰款甚至是吊銷服務(wù)許可;二是由信息管理部門(工業(yè)和信息化產(chǎn)業(yè)部、通信管理局等)出面,對運營商和信息服務(wù)商同時進行處罰 ;三是將監(jiān)管范圍擴大,將所有信息服務(wù)商無論其何種性質(zhì)均納入監(jiān)管范圍。四是借鑒其他地方的短信送審制度。如香港的非應(yīng)邀電子訊息條例就規(guī)定,公眾可以選擇將自己的號碼提交至拒收訊息登記冊,如果任何正常促銷的企業(yè)沒有過濾這種拒收名單,將短信發(fā)送到了已登記的用戶號碼中,將 5 面臨 100 萬元港幣的罰款或 5 年的監(jiān)禁。 即便是向允許發(fā)送的用戶發(fā)短信,也必須注明短信來源。 4、 由信息管理部門宣貫 執(zhí)行 行業(yè)自律,糾正這種忽視社會效益而只顧經(jīng)濟效益的企業(yè)行為。對于運營商而言,運用技術(shù)手段來限制群發(fā)垃圾短信的頻率是完全能夠?qū)崿F(xiàn)的,也符合企 業(yè)自身經(jīng)營發(fā)展的 目標(biāo) 。 5、 建立完善的后續(xù)處理機制 11。可以從提高用戶投訴處理效率入手,加強政府部門監(jiān)管力度,擴充投訴渠道、有效響應(yīng)投訴。工信部通過各地的通信管理局設(shè)立專門的垃圾短信監(jiān)督管理機構(gòu),及時查處違規(guī)行為。 6、 通過各種途徑的宣傳培養(yǎng)用戶的維權(quán)意識,鼓勵手機用戶配合實名制登記以維護切身權(quán)益,引導(dǎo)用戶積極配合執(zhí)法部門,提高自身防范意識,及時舉報收到垃圾短信的相關(guān)信息。 運營商 治理措施 各通信運營商目前再用的垃圾短信治理措施主要有用戶舉報和技術(shù)攔截,下面為大家一一列舉 : 1、 根據(jù)用戶舉報,核實處理 12 各 通信 運營商都有自己的垃圾短信平臺面向用戶收集垃圾短信活動信息 ,以下是幾個主要的垃圾短信舉報方式: 1) 中國移動用戶在接到垃圾短信后,可編輯“不良信息發(fā)送端號碼 +短信內(nèi)容”發(fā)送到 10086999 短信平臺免費 舉報; 2) 中國聯(lián)通用戶如果收到垃圾短信,可以將其號碼及垃圾短信內(nèi)容轉(zhuǎn)發(fā)至“ 10010”短信投訴舉報平臺免費舉報 ; 3) 所有用戶都可以通過 12321 網(wǎng)絡(luò)不良與垃圾信息舉報受理中心進行舉報,舉報方式有通過電話、互聯(lián)網(wǎng)站、電子郵箱、短信、 站等 五 種。 2、 通過技術(shù)手段攔截 13 除舉報途徑外,各通信運營商還采取了其他方 式 攔截垃圾短信,常用的途徑有: 1) 黑名單監(jiān)控技術(shù) 。對核實的垃圾短信用戶的短信發(fā)送予以限制,用戶在一定周期內(nèi)可以向短信中心提交短信,但該短信無法下發(fā)至接收人 ; 2) 基于關(guān)鍵字規(guī)則的過濾技術(shù)。關(guān)鍵字內(nèi)容由國家安全部門、工信部核準(zhǔn)后才能使用 ; 3) 根據(jù)相關(guān)規(guī)定 限制 用戶 一定 周期內(nèi)的短信 發(fā)送量 ; 4) 引導(dǎo)用戶安裝手機軟件過濾垃圾短信。 6 治理措施中涉及的算法討論 垃圾短信治理中涉及的算法歸類綜述 通過查閱相關(guān)資料, 從 現(xiàn)有的垃圾短信 識別方法的分析對象、承載介質(zhì)、攔截方式、分析算法 等維度入手,將各種識別方法做了一個簡要的對比和概括, 現(xiàn)有的垃圾短信識別方法基本上有以下幾種 : 表 1垃圾短信攔截方式整體說明 分析對象 承載介質(zhì) 攔截方式 分析算法 短信內(nèi)容 用戶通信行為 運營商短信監(jiān)控中心 發(fā)中攔截 決策樹算法、最大熵算法、顯示規(guī)則算法 短信內(nèi)容 運營商短信監(jiān)控中心 發(fā)中攔截 樸素 貝葉斯算法 短信內(nèi)容 智能手機 接收攔截 樸素 貝葉斯算法 短信內(nèi)容 各類 接收攔截 支持向量機分類 ) 算法 短信內(nèi)容 智能手機 接收攔截 基于規(guī)則的特征選擇算法 短信內(nèi)容 智能手機 接收攔截 算法 用戶 通信行為 運營商計費系統(tǒng) 發(fā)前攔截 決策樹 從以上內(nèi)容可以看出,大部分垃圾電信的識別 都是建立在分析 短信的內(nèi)容 上的。當(dāng)該方法的承載介質(zhì)位于運營商短信監(jiān)控中心時,它所起到的作用是在發(fā)送過程中攔截 (即發(fā)中攔截 ),當(dāng)該方法的承載介質(zhì)位于用戶的手機終端時,它所起到的作用是在用戶收到后判斷是否屬于垃圾短信,當(dāng)判斷 內(nèi)容 是垃圾短信時對用戶屏蔽該信息。對于這兩種方法的缺陷是垃圾短信制造者已經(jīng)完成了發(fā)送行為,且給用戶造成了一定壓力。最后提到了一種由基于運營商計費系統(tǒng)承載的垃圾短信識別系統(tǒng),識別方法屬于發(fā)前識別,是 比較理想的攔截方式。 對于這些算法的具體實現(xiàn)步驟將在第三章研究方法討論中描述,在此不再贅述,下面將舉例說明現(xiàn)有的垃圾短信識別方法的優(yōu)缺點。 現(xiàn)有 垃圾短信 過濾方法 舉例 經(jīng)過 查閱大量的技術(shù)資料,對現(xiàn)有的識別方法做了 初步 歸納,總了如下幾種垃圾短信 的 過濾方法: 1、 結(jié)合短信傳輸,基于內(nèi)容和用戶狀態(tài)的垃圾短信過濾方法 14 該方法 首先分析了短信 的 傳輸方式: “ SP 機”和“手機 機 ” , 然后 給出 了 基于 短信內(nèi)容 和基于 發(fā)送 狀態(tài)的識別方法, 進而提出在手機部署軟件通過 設(shè)置黑白名單 的方式來攔截垃圾短信。除此之外,還 利用隨機驗證碼的技術(shù)在一定程度上可以預(yù)防垃圾短信。最后 又 從短信的傳輸入手,提出了垃圾短信追蹤 7 的兩種途徑,最終為垃圾短信的訴訟提供法律保證。 2、 基于查詢詞擴展的中文垃圾短信檢索 15 傳統(tǒng)的 攔截系統(tǒng) 為 了 提高運算效率 ,假定 文本中 詞與詞之間是孤立的, 這樣的話 如果一個關(guān)鍵詞出現(xiàn)在垃圾短信文本中,那么它在一定程度上與該文本相關(guān)。 然而 這是一種充分非必要的相關(guān)性,當(dāng)有同義詞來代替這個關(guān)鍵詞時,對這種相關(guān)性的判斷就失去了意義。 因此,提出 了機遇查詢詞擴展的 垃圾短信檢索方法:先 利用 已設(shè)定的 關(guān)鍵詞作為查詢詞,在此基礎(chǔ)上根據(jù)文本內(nèi) 容中與關(guān)鍵詞共同出現(xiàn)的 上、下文信息的進行詞擴展; 然后 利用查詢詞集合和擴展詞集合綜合考察中文短信文本,這樣可以增大垃圾短信息的檢索率。 3、 基于復(fù)雜網(wǎng)絡(luò)的垃圾短信過濾算法 16 在對短信發(fā)送接收網(wǎng)絡(luò)形式化表達的基礎(chǔ)上,以 短信的上下行發(fā)送行為和通話 主被叫關(guān)系數(shù)據(jù)為例,對比分析短信發(fā)送網(wǎng)絡(luò)的網(wǎng)絡(luò)特性,挖掘 垃圾短信用戶在網(wǎng)絡(luò)上 的異常 發(fā) 送接收行為,以此提出 一個基于語音 通話關(guān)聯(lián) 度和短信回復(fù)比率的過濾算法 (法 )。 通過實驗和分析 論證,該 算法能夠高效 識別垃圾短信發(fā)送用戶, 降低誤判率 率。 4、 基于 數(shù)和貝葉斯方 法的垃圾短信在線過濾方法 17 該方法 提出了一種綜合集成黑白名單過濾模塊和綜合評價函數(shù)模塊的垃圾短信在線過濾系統(tǒng)架構(gòu),引入了兩層 數(shù)和基于樸素貝葉斯的概率計算方法,對疑似垃圾短信從內(nèi)容、長度、頻率等特征上進行深入分析,實現(xiàn)了海量短信的實時高效過濾,并有效地解決了傳統(tǒng)垃圾短信過濾系統(tǒng)中存在的問題。 5、 基于 智能手機 的垃圾短信過濾系統(tǒng) 18 該方法描述了一種 智能手機垃圾短信過濾系統(tǒng)的設(shè)計與實現(xiàn) 方法 。包括了該系統(tǒng)的主要功能、總體架構(gòu)、模塊設(shè)計和相應(yīng)的業(yè)務(wù)流程等。該系統(tǒng) 設(shè)計了五層過濾模型: 黑白名單過濾層 、 用 戶通訊錄過濾層 、 公共黑白名單過濾層 、 基于用戶自定義關(guān)鍵字過濾層和基于內(nèi)容過濾算法過濾層 ,旨在通過該方法實現(xiàn)在手機上的過濾功能。 6、 基于用戶通信特征的挖掘分析 判斷垃圾短信用戶 19 該方法 通過 使用決策樹 法 深度挖掘用戶的通信特征、消費行為來判斷哪些用戶屬于垃圾短信用戶,通過關(guān)停用戶通信功能或拆機來達到攔截垃圾短信的目的 。該判斷實現(xiàn)于用戶發(fā)送垃圾短信前,可以有效降低由垃圾短信發(fā)送造成的網(wǎng)絡(luò)擁塞和用戶對垃圾短信的感知。 8 現(xiàn)有垃圾短信過濾方法的缺陷性 以上算法雖然全面 且 準(zhǔn)確度高, 但在實際 處理時 由于短信 并發(fā) 量 巨大, 這些算法對系統(tǒng)的處理性能要求很高,也導(dǎo)致 以上 優(yōu)秀的 垃圾短信過濾方法在 現(xiàn)實應(yīng)用中難以完全發(fā)揮作用。 綜合現(xiàn)有的治理措施和過濾方法,可以看出目前各種算法存在的主要缺陷有: 1、 關(guān)鍵字規(guī)則的過濾技術(shù) 響應(yīng)滯后。 理論上 ,通過關(guān)鍵字識別 可以精準(zhǔn)識別垃圾短信用戶,但在實際操作中,對關(guān)鍵字的提煉歸納對垃圾短信攔截起著決定性的作用。 不法分子利用量的空格、非法字符填充短信, 同樣的內(nèi)容也能千變?nèi)f化, 雖然可以通過肉眼判斷短信內(nèi)容, 但從關(guān)鍵字歸納到關(guān)鍵字正式攔截,還需要經(jīng)過較長的審核周期,處理速度上嚴重滯后 。 2、 發(fā)送峰值 控制策略不能隨 意變更,容易被不法分子掌握規(guī)律。 限制用戶固定周期內(nèi)的短信發(fā)送量 能減少部分垃圾短信, 但 不法分子通過試探性發(fā)送來獲得上限值, 使發(fā)送量低于上限要求,通過細水長流的方式向用戶發(fā)送垃圾短信直到被舉報 。 3、 基于手機終端的垃圾識別系統(tǒng),雖然運算量較 小,但這部分軟件只能安裝在智能手機上,無法普及到所有用戶。而且 該類軟件需要讀取大量的用戶后臺信息,更加降低了用戶使用的安全性。 4、 基于用戶通信行為的挖掘模型 很符合我們的效果預(yù)期 , 即把垃圾短信發(fā)送行為扼殺在萌芽狀態(tài)。 該模型雖然使用了 法,對決策樹各個分支都進行了精確的計算,但該 算法 仍存在部分問題。一是 受 法限制,屬性取值最多的屬性并不是最優(yōu)選擇 ;二是取值雖然信息熵 所選取的通信維度已不全適合垃圾短信的用戶特征, 現(xiàn)有的垃圾短信群發(fā)頻率較以前相比有了明顯的差異 ; 三 是 法 是單變量函數(shù), 在分析用戶時只提取了垃圾短信用戶,忽略了與非垃圾短信用戶的通信特征對比,會導(dǎo)致較高的誤判率 ; 最后由于該模型將判別結(jié)果直接交由運營商計費部門對“疑似 垃圾短信 用戶”做關(guān)停通信功能處理,容易引起用戶不滿和投訴。 本文的研究方向 無論是根據(jù)用戶反饋還是主動攔截, 從事發(fā)處理時間來看, 他們共同 的特征就是全 部 屬于 事中攔截或事后限制。當(dāng)運營商采取措施時,已經(jīng)有大量的垃圾短信流向用戶,如果能對不法分子發(fā)送垃圾短信行為進行預(yù)測,將垃圾短信發(fā)送扼殺在初期,則能大幅降低垃圾短信發(fā)送量,提高用戶感知。 9 從另一方面講,基于內(nèi)容的垃圾短信攔截對系統(tǒng)的消耗較大 。對于龐大的用戶群而言,受系統(tǒng)性能影響,對內(nèi)容攔截的頻率和范圍都會打折扣。 如果能建立一種不以分析內(nèi)容為攔截手段的攔截措施,對提升攔截效率、降低系統(tǒng)負荷都是很有好處的。 本文致力于研究 如何預(yù)測 垃圾短信用戶,旨在通過一些垃圾短信用戶異于普通用戶的行為來對垃圾短信用戶進行分析, 找出有潛在發(fā)送垃圾短信可能的用戶, 對這些用戶實時最嚴格的監(jiān)控措施, 與垃圾短信監(jiān)控手段結(jié)合,遏制垃圾短信發(fā)送。 最終形成的結(jié)果是一個縮小范圍的垃圾短信監(jiān)控用戶名單,在這個名單中出現(xiàn)垃圾短信用戶的概率遠遠大于正常監(jiān)控的全量用戶, 本模型提供的是一種輔助手段, 具體的攔截策略還需要垃圾短信監(jiān)控平臺根據(jù)自身的情況 結(jié)合本結(jié)果制定。 10 第二章 需求調(diào)研 垃圾短信用戶 特征分析 從運營商角度,可以獲取的用戶信息有: 入網(wǎng)渠道、入網(wǎng)證件類型、證件號碼、 產(chǎn)品訂購信息、套餐與資費信息、 通話詳單、短信詳單、 各類增值業(yè)務(wù)使用清單、 費用明細等內(nèi)容。 為了便于分析,我們將這些信息歸納為四大類:入網(wǎng)信息、訂購信息、詳單信息、賬單信息。在這些用戶信息中,部分與垃圾短信發(fā)送行為有著密切的聯(lián)系,它們之間存在著哪些關(guān)聯(lián),將是我們接下來要分析的重點。通過初步對垃圾短信發(fā)送號碼的跟蹤分析,我們提取了如下特征: 入網(wǎng) 行為特征分析 從垃圾短信號碼 入網(wǎng) 的 受理營業(yè)廳 、 入網(wǎng) 證件 、 辦理的主套餐資費、 辦理密集性來看,垃圾短信號碼 入網(wǎng) 不同于普通消費者申請?zhí)柎a 入網(wǎng) 的行為主要有以下幾點: 1、 受理營業(yè)廳 多為代理渠道 95%以上的垃圾短信號碼都通過 與 運營商 合作 的 社會代理網(wǎng)點 辦理 入網(wǎng) 。 由于運營 商自主經(jīng)營的營業(yè)網(wǎng)點對用戶入網(wǎng)信息審核 管理 較為嚴格, 大部分 垃圾短信用戶都不會選擇通過運營商自 主經(jīng)營的營業(yè)網(wǎng)點 來辦理 入網(wǎng) 手續(xù)。因為運營商自主經(jīng)營 的 營業(yè)網(wǎng)點會 對用戶 所提供的能夠 表明 身份的證件 信息 做辦理數(shù)量限制 ,不允許同一證件辦理 超過規(guī)定個數(shù)的號碼(一般為 5 個), 更不允許同一個人 在無委托證明的情況下使 用多個證件辦理號碼。 2、 入網(wǎng) 證件違規(guī) 現(xiàn)象嚴重 前期調(diào)研 表明,垃圾短信用戶在 入網(wǎng) 時使用的身份證件存在諸多問題。 從 戶籍部門 提供的身份證編碼規(guī)則可以看出 , 部分身份證號碼存在 明顯的造假特征,如代表用戶所在省份的前兩位代碼 在編碼 表上 根本不存在,代表用戶出生日期 的年月日不符合常識等 。這些號碼會批量出現(xiàn)在一些規(guī)模 較小 , 日常業(yè)務(wù)量偏 低 的社會代理網(wǎng)點, 辦理時業(yè)務(wù) 量集中,不符合日常辦理頻率。 代理網(wǎng)點則在有利可圖的情況下忽略這種異常行為,縱容用戶 獲取垃圾短信發(fā)送載體 。 由于該類用戶從流程上的入網(wǎng)手續(xù)合法,無法直接對用戶做出限制,導(dǎo)致日后不法分子利用獲取的手機號碼在未來的某一天突然發(fā)送垃圾短信。 3、 主套餐資費選擇集中 11 由于發(fā)送垃圾短信需要產(chǎn)生費用,為了盡可能降低成本,垃圾短信用戶會 優(yōu)先 選取短信資費便宜、月保底消費較低的 營銷套餐 來進行違法活動。這就造 成了某些低端套餐被不法分子 利用,最終淪為 發(fā)垃圾短信的“ 專屬套餐 ”。 例如, 某運營商針對學(xué)生推出的“歡樂短聊卡”就成了重災(zāi)區(qū),該卡的保底消費僅為 條短信僅需要 。垃圾短信用戶利用虛假信息辦理了大量該卡用戶發(fā)送信息,導(dǎo)致該卡被迫停止發(fā)展用戶。給企業(yè)帶來了極大的損失和麻煩。 發(fā)送行為特征分析 通過大量數(shù)據(jù)調(diào)研,垃圾短信用戶發(fā)送垃圾短信具有 突發(fā)性、 異地性、 集中性、無目的性 等特征,具體表現(xiàn)如下: 1、 突發(fā)性 垃圾短信用戶辦理號碼后并不立即 向用戶發(fā)送 。這些號碼會被囤積 1月甚至更久,在未來的某一天突然使 用。發(fā)送垃圾短信 可能在某個時段內(nèi)突然批量發(fā)送,也可能在 24 個小時內(nèi)勻速發(fā)送。 沒有固定的時段, 在 24 小時內(nèi)隨機出現(xiàn),毫無規(guī)律可言。 2、 異地性 垃圾短信用戶通常向外省發(fā)送大量信息,而不針對本省用戶。 分析 該類用戶的使用地點,也大都不在甘肅境內(nèi)。這與垃圾短信用戶的發(fā)送目的有關(guān)。如一些車輛走私低價處理的信息主要針對廣東省用戶發(fā)送 ,是由于這些不法活動 主要集中在廣東 活躍 。 3、 集中性 經(jīng)統(tǒng)計,一張垃圾短信號碼通?;钴S不超過 3 天 ,且在活躍周期內(nèi)的發(fā)送量很高 。 活躍天數(shù) 與運營商 的響應(yīng)速度有關(guān)。運營商 發(fā)現(xiàn) 某號碼 有 發(fā)送垃圾短信 的行為后 會 迅速屏蔽該用戶發(fā)送的短信 ,如果發(fā)現(xiàn)及時,就能減少大量的垃圾短信發(fā)送到用戶手機 。 這些垃圾短信用戶可能在某個時段內(nèi)突然批量發(fā)送,也可能在24 小時內(nèi)勻速發(fā)送。總而言之,就是在不被運營商發(fā)現(xiàn)的情況下盡可能多的發(fā)送垃圾短信。 4、 無目的性 絕大部分垃圾短信 并不針對 具有某種共同特征的 用戶,而是隨機大量發(fā)送。研究垃圾短信的接收用戶號碼可以發(fā)現(xiàn),這些 接收 號碼 可能 集中在某一個號段(指手機號碼的前 7 位相同) 或某一個地區(qū) ,但并不針對“老年人”、“白領(lǐng)” 、“ *小區(qū) 住戶 ” 等這樣具體的類別。 12 消費行為特征 分析 經(jīng)過研究垃圾短信用戶的手 機消費賬單可以發(fā)現(xiàn) , 垃圾短信用戶的消費 95%都用來發(fā)短信,很少 產(chǎn)生語音通話費用 。 用戶的充話費活動頻繁,基本上是即充即用。 這與普通用戶的使用習(xí)慣很不一樣。大部分用戶的短信費只占整體 話費的30%以內(nèi),話費仍以語音通話為主。 而且為了避免繳費麻煩,大量用戶會根據(jù)自己的消費水平一次性 充足 1 個月甚至更久的話費。 運營商期待的治理效果 運營商希望能通過有效手段對垃圾短信用戶做到“封鎖 號碼 辦理途徑、早發(fā)現(xiàn)早處理”的治理,具體描述如下: 1、 封鎖 號碼 辦理途徑 運營商希望能將垃圾短信扼殺在搖籃之中,從辦理渠道和 入網(wǎng)用戶使用虛假證 件等 異常情況下及時發(fā)現(xiàn)垃圾短信用戶, 封鎖垃圾短信 號碼 入網(wǎng) 。 如能 及時 發(fā)現(xiàn) 某 代辦廳的 入網(wǎng) 量突然大幅度增長,并分析出這種增長并不由正常用戶辦理 引起 ,則可以基本判定該代辦廳辦理了垃圾短信號碼 。 如某營業(yè)廳平時的日均 入網(wǎng)量不足 5 人,但突然某天增長到了 200 人。 經(jīng)核查發(fā)現(xiàn),這些用戶使用的證件均來自于外省,而且辦理時間集中,即便是業(yè)務(wù)發(fā)展最好的營業(yè)廳也達不到該水平 ,從這些因素上就能基本認定該營業(yè)廳辦理了大量非法號碼, 雖然尚不能確定這些號碼都被用來發(fā)送短信,也 需要對該營業(yè)廳進行整頓 ,必要時可以對該批次號碼做 限制功能使用處理 。 2、 早發(fā)現(xiàn)早處理 運營商希望能識別已經(jīng)開通但尚未使用的垃圾短信號碼,對這些號碼進行嚴密監(jiān)控, 一旦發(fā)現(xiàn)這些號碼發(fā)送短信行為 異常于普通用戶 , 就能 作出迅速反應(yīng) ,限制用戶發(fā)送 。 模型的研究方向 根據(jù) 本章 第 一 節(jié)分析的垃圾短信號碼的 行為特征, 結(jié)合本章第二節(jié)運營商期待的治理效果,來 構(gòu)建垃圾短信號碼識別模型。 模型建立的基礎(chǔ)是不侵犯用戶隱私數(shù)據(jù),僅通過運營商能獲取的 入網(wǎng)資料、 用戶費用信息、使用量信息等構(gòu)建模型。 本模型不針對用戶的短信內(nèi)容做任何跟蹤,也不對用戶的通信對象做深入分 13 析 。 該模型需要的數(shù)據(jù)僅是某些字段中的部分數(shù)據(jù):如 證件號碼前兩位,通話對端號碼前 7 位(僅針對手機用戶) 等,在模型建立過程中會盡力避免少接觸用戶隱私數(shù)據(jù),保證用戶資料安全。 通過挖掘等相關(guān)技術(shù),識別垃圾短信疑似用戶以形成高風(fēng)險名單, 可以 降低人工審核的壓力和人力資源投入成本, 提高監(jiān)控系統(tǒng)監(jiān)控攔截準(zhǔn)確率和效率 , 減少垃圾短信對客戶的騷擾行為同時保障客戶正常的短信發(fā)送不受影響。本方案中的垃圾信息發(fā)送號碼識別模型僅針對網(wǎng)內(nèi)點對點垃圾短信號碼進行識別,如聯(lián)通運營商只針對聯(lián)通用戶向聯(lián)通用戶發(fā)送垃圾短信的行為進行識別,而不識別向電信用戶發(fā)送垃圾短信的行為。 確立 模型 分析 指 標(biāo) 綜合本章第一節(jié)提到的 針對 垃圾短信 用戶不同 特征 的 分析,計劃選入如下字段進行建模 : 表 2垃圾短信用戶模型分析 指標(biāo) 字段分類 字段名稱 字符類型 入選原因 解釋 入網(wǎng)信息 入網(wǎng)日期 礎(chǔ)信息 入網(wǎng)信息 服務(wù)號碼 3) 基礎(chǔ)信息 入網(wǎng)信息 主套餐資費 名稱 00) 基礎(chǔ)信息 入網(wǎng)信息 最低消費限額 否存在 養(yǎng) 卡 風(fēng)險 入網(wǎng)信息 入網(wǎng)時長 (月 ) 用戶發(fā)送風(fēng)險 低于新用 戶 入網(wǎng)信息 入網(wǎng)渠道 0) 基礎(chǔ)信息 入網(wǎng)信息 入網(wǎng)渠道類型 0) 代辦廳風(fēng)險遠高于自營廳 入網(wǎng)信息 入網(wǎng)證件歸屬地 5) 外省風(fēng)險遠高于本省 短信發(fā)送 指標(biāo) 短信發(fā)送量 送越多風(fēng)險越高 短信發(fā)送指標(biāo) 短信離散度 核 是否全發(fā)給了不同用戶 短信發(fā)送指標(biāo) 1小時內(nèi)發(fā)送峰值 否非正常用戶 短信發(fā)送指標(biāo) 單天發(fā)送峰值 送越多風(fēng)險越高 短信發(fā)送指標(biāo) 單天內(nèi)最大同號段 數(shù) 核 是否屬于無目的的群發(fā) 通話情況 語音主叫次數(shù) 次數(shù)越低風(fēng)險越高 通話情況 語音被叫次數(shù) 次數(shù)越低風(fēng)險越高 通信消費 上月短信通話費用比 比越高風(fēng)險越高 通信消費 本月短信通話費用比 比越高風(fēng)險越高 繳費情況 上上月繳費次數(shù) 數(shù)越少風(fēng)險越高 繳費情況 上月繳費次數(shù) 數(shù)越少風(fēng)險越高 繳費情況 本月繳費次數(shù) 數(shù)越少風(fēng)險越高 上表 列舉了分析的維度和選取 每個 指標(biāo) 的原因。 下面對其中涉及到的指標(biāo)的 14 運算規(guī)則 作 一說明 : 入網(wǎng)行為 關(guān)鍵指標(biāo) 涉及的指標(biāo)有 : 入網(wǎng) 日期 、 用戶號碼、 主資費套餐名稱、最低消費限額、入網(wǎng)時長、入網(wǎng)渠道類型、入網(wǎng)渠道名稱、 入網(wǎng) 證件歸屬地等。 其中 大部分指標(biāo)屬于基礎(chǔ)信息, 可以從系統(tǒng)后臺直接獲取, 需要 通過計算才能得到的結(jié)果字段 如下: 1. 入網(wǎng)時長:用戶自入網(wǎng)到當(dāng)前統(tǒng)計所經(jīng)歷的自然月 ; 2. 入網(wǎng)渠道類型 :分為 運營商自主經(jīng)營 的營業(yè)廳 (簡稱自營廳) 和 由社會代理經(jīng)營的各種代理網(wǎng)點(簡稱代辦廳) ; 3. 證件歸屬地:根據(jù)全國戶籍管理中心提供的省份編碼,對身份證的前兩位進行比對 。 發(fā)送行為 關(guān)鍵指標(biāo) 涉及的指標(biāo)有: 短信發(fā)送量、點對點短信離散度、 1 小時 內(nèi) 發(fā)送峰值 、單天發(fā)送峰值、 單天內(nèi)最大同號段數(shù)。 這些數(shù)需要對用戶的詳單做匯總統(tǒng)計處理,統(tǒng)計算法如下: 1. 點對點短信發(fā)送量 =對 統(tǒng)計 周期內(nèi) 用戶發(fā)送短信條數(shù) 求和 。 2. 點對點短信離散度 =用戶發(fā)送的總?cè)藬?shù) (剔重 )之和 /總條數(shù)之和。對于正常用戶而言,在大多數(shù)情況下,發(fā)短信的行為始終圍繞這個一批固定的用戶,而不是每個用戶只發(fā)一條。 3. 1 小時內(nèi)發(fā)送峰值: 統(tǒng)計 周期內(nèi), 用戶每小時的短信發(fā)送量 的 最大值。 4. 單天內(nèi)發(fā)送峰值: 統(tǒng)計周期內(nèi),用戶每天短信發(fā)送量的最大值。 5. 單 天內(nèi)最大同號段數(shù):統(tǒng)計周期內(nèi),用戶每天發(fā)送的對端號段(手機號前 6位)短信量之和的最大值。 通話 行為 關(guān)鍵指標(biāo) 涉及的指標(biāo)主要包括主叫通話次數(shù)和被叫通話次數(shù)。根據(jù)前期分析,垃圾短信用戶的通話次數(shù)均低于普通用戶平均水平。 這兩個數(shù)據(jù)需要對用戶的語音詳單做匯總統(tǒng)計處理,計算方法如下 : 1. 主叫通話次數(shù) =話單標(biāo)識為主叫的條數(shù)之和,剔除了對運營商服務(wù)號碼的呼叫次數(shù)(如電信運營商需剔除對 10000 的主叫次數(shù),聯(lián)通 運營商 需要剔除對10010 的主叫次數(shù) ,移動運營商需要剔除對 10086 的主叫次數(shù) ) 。 15 2. 被叫通話次數(shù) =話單標(biāo)識為被叫的 條數(shù)之和,剔除了運營商服務(wù)號碼對用戶的呼叫次數(shù)。 消費行為關(guān)鍵指標(biāo) 涉及的指標(biāo)有:上上月短信通話費用比、上月短信通話費用比、本月短信通話費用比、上上月繳費次數(shù)、上月繳費次數(shù)、本月繳費次數(shù) 。計算公式如下: 1. 上上月短信通話費用比 =統(tǒng)計周期上推兩個月 的 短信費用 /(短信費用 +通話費用 ); 2. 上月短信通話費用比 =統(tǒng)計周期上推一個月的短信費用 /(短信費用 +通話費用 ); 3. 本月短信通話費用比 =統(tǒng)計周期月短信費用 /(短信費用 +通話費用 ); 4. 繳費次數(shù) =單個 自然月內(nèi)繳費 記錄條數(shù) 之和 。 16 第三章 挖掘 算法比較 及選取 數(shù)據(jù)挖掘 技術(shù) 說明 數(shù) 據(jù)挖掘主要用于關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等, 通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù) 。 由于垃圾短信用戶和普通用戶的 在入網(wǎng)、通信、消費等方面 有很大的區(qū)別, 這些區(qū)別主要體現(xiàn)在 析維度中 提到 的入網(wǎng)行為 關(guān)鍵指標(biāo) 、發(fā)送行為 關(guān)鍵指標(biāo) 、通話行為 關(guān)鍵指標(biāo) 、消費行為關(guān)鍵指標(biāo) 上 的數(shù)值差異上, 所以我們需要通過這些維度 的數(shù)值差異 來判斷哪些用戶屬于垃圾短信用戶,哪些用戶屬于正常用戶。這個問題在數(shù)據(jù)挖掘中屬于典型的分類問題。 涉及垃圾短信識別的 數(shù)據(jù)挖掘技術(shù) 探討 目前有多種數(shù)據(jù)挖掘方法被 運用到垃圾短信識別當(dāng)中,這些算法的共同點是都屬于分類算法 。 常用的分類算法主要有 樸素貝葉斯 (類算法 、 神經(jīng)網(wǎng)絡(luò) 算法、 決策樹 算法 、 K 近鄰 算法 ( 支持向量機分類 算法 ( 。下面就來簡單介紹一下這些算法 及算法在垃圾短信識別中的應(yīng)用 。 樸素貝葉斯 (法 及應(yīng)用 要了解樸素貝葉斯算法,首先要理解什么是貝葉斯算法。貝葉斯算法 20是指把一個事物的多種屬性看成一個向量,這些向量的集合被定義為屬性集。對于這個事物可能出現(xiàn)的類別也根據(jù)不同的種類建立向量,這些 向量被定義為種類集。由于屬性集和種類集的關(guān)系不確定,通過計算屬性向量和類別向量之間同時發(fā)生的概率來對事物進行訓(xùn)練學(xué)習(xí)過程,當(dāng)出現(xiàn)新的事物時,可以根據(jù)訓(xùn)練結(jié)果來預(yù)測新事物與舊種類之間的關(guān)聯(lián)程度。樸素貝葉斯是指假定這個事物的不同屬性之間沒有聯(lián)系,相互條件獨立。 基于樸素貝葉斯算法的垃圾短信識別 算法 21主要有以下幾個步驟: 1、 收集一定數(shù)量的垃圾短信和非垃圾短信,建立正集和負集 ; 2、 提取獨立字串及出現(xiàn)次數(shù)(字頻),處理正集和負集中的所有短信 ; 3、 正集和負集分別建立字串到字頻的映射關(guān)系并存儲到對應(yīng)的哈 希表 ; 17 4、 計算每個映射關(guān)系在和洗標(biāo)中出現(xiàn)的概率 ; 5、 根據(jù)正負集所對應(yīng)的的哈希表,推斷出當(dāng)新的短信中出現(xiàn)某字串時該短信為垃圾短信的概率。 神經(jīng)網(wǎng)絡(luò)算法 及應(yīng)用 人工神經(jīng)網(wǎng)絡(luò) 22是科學(xué)家模擬人類或者動物大腦的結(jié)構(gòu)和功能所建立的數(shù)學(xué)模型,它是由人或者動物的神經(jīng)網(wǎng)絡(luò)運動而啟發(fā)建立的。在抽象和簡化的基礎(chǔ)上模擬人類大腦工作,定義了人工神經(jīng)網(wǎng)絡(luò),其由大量的節(jié)點以及節(jié)點之間的相互關(guān)聯(lián)構(gòu)成。這些節(jié)點稱為神經(jīng)元或單元,每個神經(jīng)元都代表一種特殊的輸出函數(shù),稱為激勵函數(shù)。神經(jīng)元之間的連接具有權(quán)重,代表對通過該連接信號的 加權(quán)值。整個神經(jīng)網(wǎng)絡(luò)的輸出由網(wǎng)絡(luò)的連接方式,節(jié)點間的權(quán)重和激勵函數(shù)決定,通常都是對某種函數(shù)或算法的逼近。 神經(jīng)網(wǎng)絡(luò)的特點主要包括以下幾個方面: 1、 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時間非常長,在訓(xùn)練過程中會涉及大量的參數(shù),通常這些參數(shù)是需要通過大量反復(fù)試驗才能確定適合的設(shè)置,對普通人來說這些參數(shù)是比較難理解的,最后輸出的結(jié)果就依賴使用者的經(jīng)驗。 2、 神經(jīng)網(wǎng)絡(luò)具有自適應(yīng)性以及很強的學(xué)習(xí)能力,而且抗干擾能力非常強,可以對未經(jīng)過訓(xùn)練的數(shù)據(jù)進行分類,所以神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘方面也產(chǎn)生了很大的推動作用。 3.、 神經(jīng)網(wǎng)絡(luò)算法一般是通過數(shù)學(xué) 統(tǒng)計學(xué)的原理建立的學(xué)習(xí)方法,在計算機領(lǐng)域,特別是圖像以及語音識別技術(shù),人工智能技術(shù)方面有著廣泛的應(yīng)用。 目前針對文本的神經(jīng)網(wǎng)絡(luò)算法 23的步驟簡要概括如下: 1、 直接將文本中出現(xiàn)的詞條作為特征來分析(簡稱 ; 2、 提煉詞條數(shù)量,將詞條數(shù)量縮小至一定的數(shù)量級 ; 3、 對文本向量做基于空間變換的特征選擇 (簡稱 4、 建立文本分類規(guī)則,選取合適的特征 ( 5、 重建合適的網(wǎng)絡(luò)神經(jīng)結(jié)構(gòu),從而起到分類的作用。 決策樹算法 及應(yīng)用 決策樹是數(shù)據(jù)挖掘中最常用的一種分類方法,它簡單、有效而且迅速 ,是建立在實例基礎(chǔ)上的歸 納學(xué)習(xí)算法。 決策樹所解決的問題就是從一堆沒有規(guī)則、沒有次序的事例中推理出樹形結(jié)構(gòu)的分類規(guī)則 24。常用的決策樹算法有 法,法和 法。 法是一種非遞增的單變量決策樹, 除了抗噪性較 18 差之外, 雖然計算了信息增益,但 其 結(jié)果偏向于數(shù)量級較高的特征屬性,所以即便計算獲得的 屬性 是最大值,也不能代表這個算法最優(yōu) , 存在較多的缺陷 25。 基礎(chǔ)上做了較大改進,通過信息增益率這一指標(biāo)來選取屬性,克服了 片面與不足 ,構(gòu)造時能夠進行剪枝處理,可處理不完整的數(shù)據(jù),也能將 連續(xù)的屬性離 散化 26。 以看成是 升級版, 它可以生成多分支的決策樹,目前 主要應(yīng)用于大數(shù)據(jù)集上,計算速度更快,占用資源更少 26。 目前針對垃圾短信識別的決策樹算法 28運行過程主要如下: 1、 不基于內(nèi)容,以用戶的通信特征、通信消費特征為分析樣本 ; 2、 選取垃圾短信用戶樣本,按比例建立測試集和訓(xùn)練集 ; 3、 采取 法 構(gòu)建決策樹模型 ; 4、 生成結(jié)果并驗證 ; 5、 設(shè)計基于運營商 計費 系統(tǒng)的過濾方案 應(yīng)用 法 是一種基于成熟理論的簡單算法。 該算法是的具體思路是:如果一個樣本集中的 k 個特征空 間最相似的樣本都屬于某一個類別,則這個樣本本身也屬于這個類型 29。 該方法的缺點是運算量比較大,因為需要對每一個目標(biāo)文本計算其到全體已知樣本的距離后,才能獲得最鄰近點的數(shù)量和具體信息。使用該方法時,需要對數(shù)據(jù)做預(yù)處理,剔除對分類結(jié)果影響較小的樣本。 如果樣本容量較大,分析結(jié)果較為準(zhǔn)確,如果樣本容量小則會用以產(chǎn)生誤分。 以應(yīng)用到垃圾郵件 30過濾當(dāng)中,其具體步驟簡要說明如下: 1、 提取樣本信息的詞干信息 ; 2、 將常用的特征單詞過濾掉,利用信息增益對特征做選擇 ; 3、 建立初始 的訓(xùn)練樣本集合 ; 4、 在 K=1 的條件下設(shè)置 匹配閾值的最大、最小值 ; 5、 將相似度大于匹配閾值最大值的最鄰近郵件判斷為垃圾郵件,剩余部分判斷為正常郵件 ; 6、 當(dāng)正常郵件被誤判 為垃圾郵件 時,剔除掉訓(xùn)練集中能與之匹配的相關(guān)郵件 ; 7、 當(dāng)垃圾郵件被誤判為正常郵件時,進一步判斷相似度是否不大于匹配閾值的最小值,如果小于則將該郵件放入樣本集,如果大于則不作處理。 支 持向量機分類算法 (應(yīng)用 支持向量機算法( 用于解決小樣本學(xué)習(xí),可以處理任何形式的線 19 性可分問題,并將任何非線性可分問題 通過提高 或降低 特征空間的維度來 構(gòu)造成線性可分問題 進一步分析 31。 可處理文本的分類問題, 在垃圾短信識別中 32的應(yīng)用步驟如下: 1、 對樣本集中的樣本進行分詞處理 ; 2、 對于高維度的特征空間做降維處理 ; 3、 將樣本集和測試集中的文本表示為向量 ; 4、 計算向量權(quán)重并得到最終結(jié)果 。 挖掘 技術(shù) 對比 及選擇 神經(jīng)網(wǎng)絡(luò)算法因本身 較為復(fù)雜,不能處理非數(shù)值型數(shù)據(jù), 收斂速度慢,對機器運算性能要求較高,而本模型需每月優(yōu)化,故神經(jīng)網(wǎng)絡(luò)算法不適用于本模型。 雖然決策樹不善于處理線性關(guān)系,但邏輯回歸可以很好的做到這一點。決策樹對非線性關(guān)系的處理能力很強,但實際上很多非線性關(guān)系都可以近似地描述成線性關(guān)系,并能 取得很好的效果。線性關(guān)系具有簡潔、易理解等優(yōu)點 ,也可以對數(shù)據(jù)的過度擬合起到一定的降低作用。 由于算法邏輯不同導(dǎo)致了決策樹和邏輯回歸的差別。決策樹在算法上采取了不可分割的方法,雖然失去了對全局的把握,但能夠深入到數(shù)據(jù)細部。當(dāng)形成分層時,它和其他節(jié)點或?qū)用娴年P(guān)系就被切斷了,以后只能在局部中進行挖掘。如果分析局部結(jié)構(gòu),邏輯回歸不如決策樹準(zhǔn)確。 根據(jù)以往經(jīng)驗和結(jié)合算法優(yōu)越性以及本地的實際情況, 這里我們選取決策樹實現(xiàn)性運算 。 由于其善于處理非數(shù)值型數(shù)據(jù),它能減少對數(shù)據(jù)預(yù)處理的工作 垃圾短信 用戶的識別是一個預(yù)測的過程 , 其最 終結(jié)果只需要判斷這個用戶“是”或者“不是”的概率,屬于單一輸出。 這符合決策樹的輸出特征。 在垃圾短信用戶特征中,有大量的非數(shù)值型數(shù)據(jù),和其他算法相比,能節(jié)約大量的數(shù)據(jù)預(yù)處理時間。這些特征之間的 相關(guān)性低 ,基本上呈獨立狀態(tài) ,不能用線性關(guān)系來描述,不適宜使用其他算法。 算法 適用性說明 通過以上對比分析,我們選取了決策樹 中 法 實現(xiàn)模型。 在這些數(shù)據(jù)挖掘算法中, 法 在以下幾個方面體現(xiàn)了較好的優(yōu)越性: 1、 易于理解和實現(xiàn)。 根據(jù)前期調(diào)研的多個維度,可以梳理出樹狀結(jié)構(gòu)來描述用戶的垃圾短信特征,這種結(jié)構(gòu)容易被大家接 受和認可。 20 2、 數(shù)據(jù)的準(zhǔn)備過程簡單。 根據(jù)調(diào)研的分析維度,可以不對數(shù)據(jù)做特殊處理,如剔除 空白字段或剔除非法值等。 3、 決策方法簡單明了,可以較容易推出相關(guān)的邏輯表達式 。 4、 能兼容多種數(shù)據(jù)類型和常規(guī)屬性。不用將每一個維度統(tǒng)一成 數(shù)字型數(shù)據(jù)處理,允許出現(xiàn)字符型、日期型字符存在。 5、 能夠處理大型數(shù)據(jù)源,處理速度快,處理時間相對較短。 6、 輸出結(jié)果僅有一個值,即該模型的可信度。 通過值的大小來對用戶判斷結(jié)果做描述,評測簡單。 行業(yè)名詞介紹 以下文章可能出現(xiàn)數(shù)據(jù)運營平臺、垃圾短信監(jiān)控平臺、垃圾短信舉報平臺等與企業(yè)有關(guān)的業(yè)務(wù)名詞,現(xiàn)對各名 詞進行解釋: 表 3垃圾短信用戶識別模型業(yè)務(wù)名詞解釋 名詞 釋義 數(shù)據(jù)運營平臺 指承載該垃圾短信用戶識別模型建設(shè)、數(shù)據(jù)處理的數(shù)據(jù)倉庫 垃圾短信監(jiān)控平臺 對垃圾短信進行監(jiān)控的核心網(wǎng)元,由國家安全部門授權(quán)建設(shè),用以對采集的短信數(shù)據(jù)進行分析處理以及執(zhí)行具體垃圾短信治理策略的業(yè)務(wù)平臺 垃圾短信舉報平臺 指運營商設(shè)立的用于舉報垃圾短信的審核系統(tǒng),由人工對用戶舉報內(nèi)容進行核實,繼而提交垃圾短信監(jiān)控平臺通過策略進行管理 用戶黑名單 指通過監(jiān)控平臺判定或由垃圾短信舉報平臺人工核實確認的發(fā)送垃圾短信的發(fā)送方號碼列表 高風(fēng)險名單 經(jīng)過數(shù)據(jù)運營平臺的垃圾短信號碼識別模型推測出的、有較大可能是或?qū)⑹抢绦虐l(fā)送號碼的用戶名單 21 第四章 建模過程 建模 思路 及 運行范圍 建模思路 針對垃圾短信用戶識別建模主要通過以下幾個步驟: 1、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論