版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第1章數(shù)據(jù)挖掘?qū)д?西安郵電大學(xué)2一、為什么進(jìn)行數(shù)據(jù)挖掘?二、什么是數(shù)據(jù)挖掘?三、數(shù)據(jù)挖掘數(shù)據(jù)對象有哪些?四、數(shù)據(jù)挖掘發(fā)現(xiàn)什么樣的知識?五、數(shù)據(jù)挖掘常用技術(shù)有哪些?六、數(shù)據(jù)挖掘過程七、數(shù)據(jù)挖掘應(yīng)用八、數(shù)據(jù)挖掘隱私權(quán)問題九、數(shù)據(jù)挖掘?qū)W習(xí)方法本章概要內(nèi)容西安郵電大學(xué)一、為什么進(jìn)行數(shù)據(jù)挖掘?網(wǎng)絡(luò)視頻/x/page/d0634ej0puo.html溫馨提示:此視頻框在點(diǎn)擊“上傳手機(jī)課件”時(shí)會(huì)進(jìn)行轉(zhuǎn)換,用手機(jī)進(jìn)行觀看時(shí)則會(huì)變?yōu)榭牲c(diǎn)擊的視頻。此視頻框可被拖動(dòng)移位和修改大小開講了:大數(shù)據(jù)如何改變我們生活3西安郵電大學(xué)4TED演講:大數(shù)據(jù)如何改變商業(yè)/x/page/o05522l5hrp.html網(wǎng)絡(luò)視頻/x/page/o05522l5hrp.html溫馨提示:此視頻框在點(diǎn)擊“上傳手機(jī)課件”時(shí)會(huì)進(jìn)行轉(zhuǎn)換,用手機(jī)進(jìn)行觀看時(shí)則會(huì)變?yōu)榭牲c(diǎn)擊的視頻。此視頻框可被拖動(dòng)移位和修改大小西安郵電大學(xué)一、為什么進(jìn)行數(shù)據(jù)挖掘?5西安郵電大學(xué)一、為什么進(jìn)行數(shù)據(jù)挖掘?6西安郵電大學(xué)一、為什么進(jìn)行數(shù)據(jù)挖掘?7西安郵電大學(xué)(1)已獲得的大量數(shù)據(jù)往往是數(shù)據(jù)豐富但信息貧乏的(2)計(jì)算設(shè)備變得廉價(jià)且功能強(qiáng)大(3)沒有強(qiáng)大的工具的話,數(shù)據(jù)量已經(jīng)超過人類的理解能力(4)數(shù)據(jù)收集存儲(chǔ)的速度越來越快(5)傳統(tǒng)技術(shù)已經(jīng)不適用于原始數(shù)據(jù)(6)數(shù)據(jù)挖掘有助于科學(xué)研究一、為什么進(jìn)行數(shù)據(jù)挖掘?8西安郵電大學(xué)9為什么要數(shù)據(jù)挖掘?datarichinformationpoordatatoobigtechnologyneedsIdontknow!ABCD提交西安郵電大學(xué)單選題1分二、什么是數(shù)據(jù)挖掘?10西安郵電大學(xué)二、數(shù)據(jù)挖掘的定義
廣義技術(shù)角度的定義數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息或知識的非平凡過程。該定義包括好幾層含義:數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識,僅支持特定的發(fā)現(xiàn)問題。11西安郵電大學(xué)狹義技術(shù)角度的定義也有人把數(shù)據(jù)挖掘視為知識發(fā)現(xiàn)過程中的一個(gè)基本步驟。例如Fayyad過程模型主要包含以下七個(gè)階段,知識發(fā)現(xiàn)過程由這些步驟的迭代序列組成:知識表示數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)選擇數(shù)據(jù)變換數(shù)據(jù)挖掘模式評估二、數(shù)據(jù)挖掘的定義
12西安郵電大學(xué)商業(yè)角度的定義數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘從商業(yè)的角度可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。二、數(shù)據(jù)挖掘的定義
13西安郵電大學(xué)數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科,涉及數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化、信息檢索和高性能計(jì)算等諸多領(lǐng)域。此外,還與神經(jīng)網(wǎng)絡(luò)、模式識別、空間數(shù)據(jù)分析、圖像處理、信號處理、概率論、圖論和歸納邏輯等等領(lǐng)域關(guān)系密切。14西安郵電大學(xué)IT熱點(diǎn)技術(shù)聯(lián)系15西安郵電大學(xué)16數(shù)據(jù)挖掘特點(diǎn)()針對大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)新興的交叉學(xué)科,涉及數(shù)據(jù)庫系統(tǒng)統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化和高性能計(jì)算等提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息或知識的非平凡過程大數(shù)據(jù)是其產(chǎn)業(yè)化的表現(xiàn)ABCD提交西安郵電大學(xué)多選題1分三、數(shù)據(jù)挖掘數(shù)據(jù)對象有哪些?17西安郵電大學(xué)三、數(shù)據(jù)挖掘?qū)ο?/p>
1.關(guān)系數(shù)據(jù)庫數(shù)據(jù)庫中數(shù)據(jù)的特點(diǎn)如下:數(shù)據(jù)動(dòng)態(tài)性數(shù)據(jù)的不完全性噪聲數(shù)據(jù)數(shù)據(jù)類型不一致異構(gòu)性數(shù)據(jù)冗余性數(shù)據(jù)稀疏性由于數(shù)據(jù)庫中的數(shù)據(jù)具有以上特點(diǎn),使其在挖掘過程中難以直接使用,因此在進(jìn)行數(shù)據(jù)挖掘以前必須對數(shù)據(jù)進(jìn)行預(yù)處理。18西安郵電大學(xué)三、數(shù)據(jù)挖掘?qū)ο?.數(shù)據(jù)倉庫數(shù)據(jù)倉庫的特點(diǎn)如下:面向主題集成的數(shù)據(jù)不可更新隨時(shí)間不斷變化高質(zhì)量的挖掘結(jié)果依賴于高質(zhì)量的數(shù)據(jù),數(shù)據(jù)倉庫為數(shù)據(jù)挖掘準(zhǔn)備了良好的數(shù)據(jù)源,因此,數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的最佳環(huán)境。19西安郵電大學(xué)西安郵電大學(xué)三、數(shù)據(jù)挖掘?qū)ο?.文本文本是非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)。文本分析包括:關(guān)鍵詞或特征提取相似檢索文本聚類文本分類20西安郵電大學(xué)三、數(shù)據(jù)挖掘?qū)ο?.多媒體數(shù)據(jù)圖像、音頻、視頻數(shù)據(jù)是典型的多媒體數(shù)據(jù)。多媒體數(shù)據(jù)廣泛存在于生活、醫(yī)學(xué)、軍事、娛樂等領(lǐng)域,目前,對于多媒體數(shù)據(jù)的挖掘主要有特征提取、基于內(nèi)容的相似檢索等。21三、數(shù)據(jù)挖掘?qū)ο?.Web數(shù)據(jù)Web使用模式挖掘:在Web環(huán)境中,文檔和對象一般都是通過鏈接來便于用戶訪問。捕捉用戶的存取模式或發(fā)現(xiàn)一個(gè)Web網(wǎng)站最頻繁的訪問路徑稱為Web使用模式挖掘或Web路徑挖掘。Web結(jié)構(gòu)挖掘:是挖掘Web的鏈接結(jié)構(gòu),并找出關(guān)于某一主題的權(quán)威網(wǎng)站。Web內(nèi)容挖掘:是指在大量訓(xùn)練樣本的基礎(chǔ)上,得到數(shù)據(jù)對象之間的內(nèi)在特征,并以此為依據(jù)進(jìn)行有目的的信息篩選,從而獲得指定內(nèi)容的信息。22西安郵電大學(xué)三、數(shù)據(jù)挖掘?qū)ο?.復(fù)雜類型的數(shù)據(jù)1)空間數(shù)據(jù)庫如地理信息數(shù)據(jù)、衛(wèi)星圖像數(shù)據(jù)、地下管道、下水道、及各類地下建筑分布數(shù)據(jù)等。對空間數(shù)據(jù)的挖掘可以為城市規(guī)劃、生態(tài)規(guī)劃、道路修建提供決策支持。2)時(shí)間序列數(shù)據(jù)主要用于存放與時(shí)間相關(guān)的數(shù)據(jù),它可用來反映隨時(shí)間變化的即時(shí)數(shù)據(jù)或不同時(shí)間發(fā)生的不同事件。例如,連續(xù)存放即時(shí)的股票交易信息、衛(wèi)星軌道信息等。對時(shí)間序列數(shù)據(jù)的挖掘可以發(fā)現(xiàn)事件的發(fā)展趨勢、演變過程和隱藏特征,這些信息對制定計(jì)劃、決策和預(yù)警是非常有用的。23西安郵電大學(xué)24數(shù)據(jù)挖掘的對象有哪些()數(shù)據(jù)庫、數(shù)據(jù)倉庫文本數(shù)據(jù)與web數(shù)據(jù)復(fù)雜的空間數(shù)據(jù)、時(shí)間序列數(shù)據(jù)等多媒體數(shù)據(jù)ABCD提交西安郵電大學(xué)多選題1分四、數(shù)據(jù)挖掘發(fā)現(xiàn)什么樣的知識?25西安郵電大學(xué)四、數(shù)據(jù)挖掘發(fā)現(xiàn)的知識類型
廣義知識關(guān)聯(lián)知識分類知識聚類與孤立點(diǎn)知識預(yù)測知識序列模式知識有價(jià)值的知識26西安郵電大學(xué)廣義知識廣義知識指類別特征的概括性描述知識。根據(jù)數(shù)據(jù)的微觀特性發(fā)現(xiàn)其表征的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識,反映同類事物共同性質(zhì)。廣義知識就是對大量數(shù)據(jù)的歸納、概括,提煉出帶有普遍性的、概括性的描述統(tǒng)計(jì)知識。描述統(tǒng)計(jì)是數(shù)據(jù)挖掘最基本的應(yīng)用之一,經(jīng)常和統(tǒng)計(jì)圖(如直方圖,柱形圖,折線圖,散點(diǎn)圖等)配合使用。如當(dāng)月公司利潤總額、比較不同區(qū)域的銷售量等。廣義知識的發(fā)現(xiàn)方法和實(shí)現(xiàn)技術(shù)有很多,如概念描述、多維數(shù)據(jù)分析、面向?qū)傩缘臍w約、概念分層等。四、數(shù)據(jù)挖掘發(fā)現(xiàn)的知識類型
27西安郵電大學(xué)四、數(shù)據(jù)挖掘發(fā)現(xiàn)的知識類型
數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)知識可分為簡單關(guān)聯(lián)規(guī)則、多層關(guān)聯(lián)規(guī)則、多維關(guān)聯(lián)規(guī)則、量化關(guān)聯(lián)規(guī)則和基于約束的關(guān)聯(lián)規(guī)則。發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法主要有Apriori算法和頻繁模式樹(FP-樹)典型例子是購物籃分析關(guān)聯(lián)知識28西安郵電大學(xué)四、數(shù)據(jù)挖掘發(fā)現(xiàn)的知識類型
分類知識是反映同類事物共同性的特征型知識和不同事物之間的差異型特征知識。估值與分類類似,只不過它要預(yù)測的不是類別,而是一個(gè)連續(xù)的數(shù)值。典型應(yīng)用:客戶細(xì)分。例如,銀行根據(jù)客戶的存款額、信用額和消費(fèi)金額把客戶分成不同的類別,分別辦理不同類型的銀行卡。算法有決策樹分類、貝葉斯分類、人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法等。分類知識29西安郵電大學(xué)四、數(shù)據(jù)挖掘發(fā)現(xiàn)的知識類型
聚類聚類是根據(jù)類內(nèi)事物的相似性最大、類間事物的相似性最小的原則把數(shù)據(jù)對象進(jìn)行聚類或分組。聚類與分類不同,它們的區(qū)別如下:第一,分類需要訓(xùn)練數(shù)據(jù)集,屬于有監(jiān)督的學(xué)習(xí);而聚類不需要訓(xùn)練數(shù)據(jù)集,屬于無監(jiān)督的學(xué)習(xí)。第二,在進(jìn)行分類以前,已知道數(shù)據(jù)的分類情況;而進(jìn)行聚類以前,對目標(biāo)數(shù)據(jù)的分類情況一無所知。常用的聚類方法包括統(tǒng)計(jì)分析方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等。30西安郵電大學(xué)四、數(shù)據(jù)挖掘發(fā)現(xiàn)的知識類型
孤立點(diǎn)分析數(shù)據(jù)庫中可能包含一些數(shù)據(jù)對象,它們與集合中其它數(shù)據(jù)的一般行為或模型不一致,這些數(shù)據(jù)對象稱為孤立點(diǎn)。孤立點(diǎn)可以使用統(tǒng)計(jì)試驗(yàn)檢測。它假定一個(gè)數(shù)據(jù)的分布或概率模型,并使用距離度量,到其它數(shù)據(jù)對象的距離很遠(yuǎn)的對象被視為孤立點(diǎn)?;谄畹姆椒ㄍㄟ^考察一群對象主要特征上的差別識別孤立點(diǎn),而不是使用統(tǒng)計(jì)或距離度量。孤立點(diǎn)分析通??梢宰鳛榫垲惙治龅母碑a(chǎn)品,根據(jù)聚類分析結(jié)果,含有對象個(gè)數(shù)少于設(shè)定閾值的聚類中的事物看作是孤立點(diǎn)。31西安郵電大學(xué)四、數(shù)據(jù)挖掘發(fā)現(xiàn)的知識類型
預(yù)測知識預(yù)測是從歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并用此模型預(yù)測未來數(shù)據(jù)種類、特征等。用分類預(yù)測離散數(shù)據(jù)用回歸分析預(yù)測連續(xù)數(shù)據(jù)。典型的回歸分析是利用大量的歷史數(shù)據(jù),建立線性或非線性回歸方程。根據(jù)回歸模型,只要輸入自變量的值,就可以求出因變量的值,達(dá)到對因變量的預(yù)測。32西安郵電大學(xué)四、數(shù)據(jù)挖掘發(fā)現(xiàn)的知識類型
時(shí)間序列模式時(shí)間序列分析是描述行為隨時(shí)間變化的對象的規(guī)律或趨勢,并對其建模。包括與時(shí)間相關(guān)數(shù)據(jù)的特征、區(qū)分、關(guān)聯(lián)、分類或聚類,根據(jù)分析的不同特點(diǎn)分為時(shí)間序列數(shù)據(jù)分析、序列或周期模式匹配和基于類似性的數(shù)據(jù)分析。如股票市場的每日波動(dòng)、動(dòng)態(tài)產(chǎn)品加工過程、科學(xué)實(shí)驗(yàn)、醫(yī)學(xué)治療等。33西安郵電大學(xué)四、數(shù)據(jù)挖掘發(fā)現(xiàn)的知識類型
有價(jià)值(感興趣)的知識數(shù)據(jù)挖掘的知識有三個(gè)重要問題需要回答:什么樣的模式是有價(jià)值(感興趣)的?價(jià)值度量挖掘系統(tǒng)能產(chǎn)生所有有價(jià)值的模式嗎?
算法的完全性問題數(shù)據(jù)挖掘到的模式是否都是有價(jià)值的知識?優(yōu)化問題34西安郵電大學(xué)35下列哪些是數(shù)據(jù)挖掘發(fā)現(xiàn)的知識()超市商品銷售中的購物籃商品關(guān)聯(lián)關(guān)系春天荒野里植物的分類信息新冠肺炎病毒傳播的未來感染人數(shù)預(yù)測航空公司高價(jià)值客戶的聚類分析ABCD提交世界上有男人和女人兩種性別的人E西安郵電大學(xué)多選題1分五、數(shù)據(jù)挖掘常用技術(shù)及分類?36西安郵電大學(xué)五、數(shù)據(jù)挖掘常用技術(shù)數(shù)據(jù)挖掘中常用的十三種技術(shù):統(tǒng)計(jì)技術(shù),關(guān)聯(lián)規(guī)則,基于歷史的分析,遺傳算法,聚集檢測,連接分析,決策樹,神經(jīng)網(wǎng)絡(luò),粗糙集,模糊集,回歸分析,差別分析,概念描述等。37西安郵電大學(xué)機(jī)器學(xué)習(xí)算法地圖38西安郵電大學(xué)數(shù)據(jù)挖掘技術(shù)分類1.按數(shù)據(jù)庫類型分類根據(jù)數(shù)據(jù)模型分類,有關(guān)系的、事務(wù)的、面向?qū)ο蟮?、對?關(guān)系的、或數(shù)據(jù)倉庫的數(shù)據(jù)挖掘系統(tǒng)。根據(jù)所處理的數(shù)據(jù)的特定類型分類,有空間的、時(shí)間序列的、文本的、或多媒體的數(shù)據(jù)挖掘系統(tǒng),或WWW數(shù)據(jù)挖掘系統(tǒng)。39西安郵電大學(xué)數(shù)據(jù)挖掘技術(shù)分類2.按數(shù)據(jù)挖掘?qū)ο蠓诸悓?shù)據(jù)庫進(jìn)行挖掘文本數(shù)據(jù)挖掘多媒體數(shù)據(jù)挖掘Web數(shù)據(jù)挖掘40西安郵電大學(xué)數(shù)據(jù)挖掘技術(shù)分類3.根據(jù)挖掘的知識類型分類概念描述關(guān)聯(lián)分析分類預(yù)測聚類分析孤立點(diǎn)分析41西安郵電大學(xué)數(shù)據(jù)挖掘技術(shù)分類4.按挖掘方法分類歸納學(xué)習(xí)類仿生計(jì)算類公式發(fā)現(xiàn)類統(tǒng)計(jì)分析類模糊數(shù)學(xué)類可視化技術(shù)類42西安郵電大學(xué)數(shù)據(jù)挖掘技術(shù)分類數(shù)據(jù)挖掘驗(yàn)證驅(qū)動(dòng)挖掘發(fā)現(xiàn)驅(qū)動(dòng)挖掘SQLSQL生成器查詢工具OLAP描述預(yù)測可視化聚類關(guān)聯(lián)規(guī)則順序關(guān)聯(lián)匯總描述分類統(tǒng)計(jì)回歸時(shí)間序列決策樹神經(jīng)網(wǎng)路43西安郵電大學(xué)六、數(shù)據(jù)挖掘過程44西安郵電大學(xué)明確目標(biāo)搜集數(shù)據(jù)清洗數(shù)據(jù)構(gòu)建模型模型評估應(yīng)用部署數(shù)據(jù)挖掘的流程六、數(shù)據(jù)挖掘過程45西安郵電大學(xué)46Fayyad數(shù)據(jù)挖掘模型西安郵電大學(xué)47CRISP-DM模型西安郵電大學(xué)明確目標(biāo)這是數(shù)據(jù)分析與挖掘的第一步,即明確數(shù)據(jù)分析的對象、目標(biāo)、或任務(wù)。此環(huán)節(jié)應(yīng)該跟業(yè)務(wù)需求方多次溝通與合作,把握最終要解決的問題。六、數(shù)據(jù)挖掘過程48西安郵電大學(xué)搜集數(shù)據(jù)
明確企業(yè)面臨的痛點(diǎn)或工作中需要處理的問題后,下一步就得規(guī)劃哪些數(shù)據(jù)可能會(huì)影響到這些問題的答案,這一步就稱為數(shù)據(jù)的搜集過程。六、數(shù)據(jù)挖掘過程49西安郵電大學(xué)數(shù)據(jù)清洗
為確保數(shù)據(jù)分析或挖掘結(jié)果的準(zhǔn)確性,往往需要對數(shù)據(jù)做一些基本的清洗和整理,如數(shù)據(jù)的一致性檢驗(yàn)、缺失值和異常值的處理以及無量綱化處理等。六、數(shù)據(jù)挖掘過程50西安郵電大學(xué)構(gòu)建模型建模的目的主要是為了預(yù)測,例如使用線性回歸模型預(yù)測產(chǎn)品的銷售額;利用決策樹模型預(yù)測用戶是否具有欺詐行為;利用樸素貝葉斯模型預(yù)測郵件是否為垃圾郵件。六、數(shù)據(jù)挖掘過程51西安郵電大學(xué)模型評估
通常情況下,在模型搭建好后,并不意味著分析或挖掘任務(wù)的結(jié)束,還需要對模型的擬合效果做評估,其目的就是不斷優(yōu)化模型,使最終的模型能夠更好地反映數(shù)據(jù)的真實(shí)性。六、數(shù)據(jù)挖掘過程52西安郵電大學(xué)應(yīng)用部署
挖掘出來的模式或規(guī)律是給真正的業(yè)務(wù)方或客戶服務(wù)的,故需要將這些模式重新部署到系統(tǒng)中。這里的部署就是常說的“上線”,方便業(yè)務(wù)方或客戶直接操作搭建的模型。六、數(shù)據(jù)挖掘過程53西安郵電大學(xué)54國際標(biāo)準(zhǔn)的數(shù)據(jù)挖掘過程是()Fayyad模型CRISP-DM模型KDD過程模型ABC提交西安郵電大學(xué)單選題1分七、數(shù)據(jù)挖掘應(yīng)用55西安郵電大學(xué)數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域領(lǐng)域醫(yī)療教育互聯(lián)網(wǎng)交通餐飲金融房產(chǎn)游戲七、數(shù)據(jù)挖掘應(yīng)用56西安郵電大學(xué)七、數(shù)據(jù)挖掘應(yīng)用數(shù)據(jù)挖掘應(yīng)用最集中的領(lǐng)域包括金融、醫(yī)療、教育、零售、電商、電信和交通等,而且每個(gè)領(lǐng)域都有特定的應(yīng)用問題和應(yīng)用背景。以軟件工程數(shù)據(jù)挖掘?yàn)槔很浖こ虜?shù)據(jù)(軟件開發(fā)過程中積累的各種數(shù)據(jù)):可行性分析和需求分析文檔、設(shè)計(jì)文檔、使用說明、軟件代碼和注釋、軟件版本及其演化數(shù)據(jù)、測試用例和測試結(jié)果、軟件開發(fā)者之間的通信、用戶反饋等。57西安郵電大學(xué)七、數(shù)據(jù)挖掘應(yīng)用58西安郵電大學(xué)應(yīng)用領(lǐng)域的案例電商領(lǐng)域:借助于交易記錄挖出破壞規(guī)則的“害群之馬”交通領(lǐng)域:為打車平臺的乘客訂制彈性價(jià)格醫(yī)療領(lǐng)域:為喬布斯尋找最佳的醫(yī)療方案
七、數(shù)據(jù)挖掘應(yīng)用59西安郵電大學(xué)八、數(shù)據(jù)挖掘隱私權(quán)問題60西安郵電大學(xué)八、數(shù)據(jù)挖掘隱私權(quán)問題個(gè)人數(shù)據(jù)隱私權(quán):個(gè)人對以數(shù)據(jù)形式收集和存儲(chǔ)在信息系統(tǒng)中的有關(guān)自己的資料加以控制和保護(hù)的權(quán)利。數(shù)據(jù)挖掘是建立在大量真實(shí)數(shù)據(jù)分析的基礎(chǔ)之上的,這就會(huì)產(chǎn)生個(gè)人數(shù)據(jù)的隱私保護(hù)問題。從數(shù)據(jù)挖掘的角度來看,隱私既可能帶來成功,亦可能帶來威脅。濫用隱私不僅破壞企業(yè)在客戶心目中的良好形象,也會(huì)將數(shù)據(jù)挖掘推入灰暗的前景中,阻礙數(shù)據(jù)挖掘這一新興技術(shù)的采納、應(yīng)用和推廣。61西安郵電大學(xué)典型案例(1)2018年3月18日曝光的Facebook裙帶公司劍橋分析公司(CambridgeAnalyticaAnalytic)數(shù)據(jù)隱私丑聞事件。劍橋分析公司是美國一家政治數(shù)據(jù)分析公司,被曝光在未經(jīng)用戶同意的情況下,利用在Facebook上獲得的5000萬用戶的個(gè)人隱私數(shù)據(jù),來創(chuàng)建檔案,并在2016美國總統(tǒng)大選期間針對這些人進(jìn)行定向宣傳,有助推特朗普獲勝的嫌疑。該丑聞凸顯了Facebook的“DNA”中存在的問題:數(shù)據(jù)挖掘。谷歌、微軟、微博、微信和百度?八、數(shù)據(jù)挖掘隱私權(quán)問題62西安郵電大學(xué)典型案例(2)2019年中央廣播電視總臺3·15晚會(huì)曝光眾多App,通過不平等、不合理?xiàng)l款強(qiáng)制索取用戶隱私權(quán)、過度用權(quán)。例如社保掌上通App,用戶在填寫各種資料注冊該App后,電腦遠(yuǎn)程就能截取到用戶的幾乎所有信息。八、數(shù)據(jù)挖掘隱私權(quán)問題63西安郵電大學(xué)奇怪的聲音:用隱私換效率?百度董事長李彥宏在2018年3月26日在中國發(fā)展高層論壇上表示:中國用戶在個(gè)人隱私方面沒有那么敏感,更加開放,一定程度上愿意用隱私換方便和效率,但百度也會(huì)遵守相應(yīng)法規(guī)法則。網(wǎng)友:但我只換來一天幾十個(gè)騷擾電話!!!八、數(shù)據(jù)挖掘隱私權(quán)問題64西安郵電大學(xué)八、數(shù)據(jù)挖掘隱私權(quán)問題數(shù)據(jù)挖掘者可能從以下幾個(gè)方面侵犯公民的個(gè)人數(shù)據(jù)隱私權(quán):(1)過度采集個(gè)人數(shù)據(jù)(2)挖掘者超常使用個(gè)人數(shù)據(jù)(3)挖掘者不當(dāng)或錯(cuò)誤分析個(gè)人數(shù)據(jù)(4)挖掘者非法公開個(gè)人數(shù)據(jù)65西安郵電大學(xué)八、數(shù)據(jù)挖掘隱私權(quán)問題保護(hù)隱私權(quán)的對策(1)加強(qiáng)法律法規(guī)的建設(shè)和監(jiān)督執(zhí)行(2)提高保護(hù)隱私的技術(shù)手段(3)提高用戶的隱私數(shù)據(jù)自我保護(hù)意識數(shù)據(jù)挖掘隱私權(quán)的問題是數(shù)據(jù)挖掘中一個(gè)非常重要的問題,它的解決程度直接決定了數(shù)據(jù)挖掘的未來。66西安郵電大學(xué)九、數(shù)據(jù)挖掘?qū)W習(xí)方法工作崗位數(shù)據(jù)挖掘人員工作領(lǐng)域大致可分為三類:(1)數(shù)據(jù)分析師(2)數(shù)據(jù)挖掘工程師(3)科學(xué)研究方向67西安郵電大學(xué)九、數(shù)據(jù)挖掘?qū)W習(xí)方法開源數(shù)據(jù)挖掘工具1.WekaWeka作為一個(gè)公開的數(shù)據(jù)挖掘工作平臺,是名氣最大的開源機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘軟件,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。68西安郵電大學(xué)九、數(shù)據(jù)挖掘?qū)W習(xí)方法開源數(shù)據(jù)挖掘工具2、RapidMiner該工具是用Java語言編寫的,通過基于模板的框架提供先進(jìn)的分析技術(shù)。該款工具最大的好處就是,用戶無需寫任何代碼。它是作為一個(gè)服務(wù)提供,而不是一款本地軟件。該工具在數(shù)據(jù)挖掘工具榜上位列榜首。69西安郵電大學(xué)九、數(shù)據(jù)挖掘?qū)W習(xí)方法開源數(shù)據(jù)挖掘工具3.OrangeOrange
是一個(gè)基于組件的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)軟件套裝,它簡單易學(xué)并且功能強(qiáng)大擁有快速而又多功能的可視化編程前端,以便瀏覽數(shù)據(jù)分析和可視化,綁定了Python以進(jìn)行腳本開發(fā)。70西安郵電大學(xué)九、數(shù)據(jù)挖掘?qū)W習(xí)方法開源數(shù)據(jù)挖掘工具4.R用于統(tǒng)計(jì)分析和圖形化的計(jì)算機(jī)語言及分析工具,為了保證性能,其核心計(jì)算模塊是用C、C++和Fortran編寫的。同時(shí)為了便于使用,它提供了一種腳本語言,即R語言。R語言被廣泛應(yīng)用于數(shù)據(jù)挖掘,支持一系列分析技術(shù),包括統(tǒng)計(jì)檢驗(yàn)、預(yù)測建模、數(shù)據(jù)可視化等。71西安郵電大學(xué)數(shù)據(jù)挖掘推薦期刊和會(huì)議1、頂級會(huì)議(1)SIGMOD:ACMSIGMOD數(shù)據(jù)管理國際會(huì)議(SpecialInterestGrouponManagementOfData.)是由美國計(jì)算機(jī)協(xié)會(huì)(ACM)數(shù)據(jù)管理專業(yè)委員會(huì)(SIGMOD)發(fā)起、在數(shù)據(jù)庫領(lǐng)域具有最高學(xué)術(shù)地位的國際性學(xué)術(shù)會(huì)議。/(2)VLDB:數(shù)據(jù)庫領(lǐng)域著名國際會(huì)議VLDB(即VeryLargeDataBases)/(3)ICDE,http://www.icde2016.fi/(4)數(shù)據(jù)挖掘KDD:/kdd2015/72西安郵電大學(xué)TKDEIEEETransactionsonKnowledgeandDataEngineeringIEEEhttp://dblp.uni-trier.de/db/journals/tkde/TKDDACMTransactionsonKnowledgeDiscoveryfromDataA
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 四川省2024年上半年四川阿壩州考試招聘事業(yè)單位工作人員273人筆試歷年參考題庫典型考點(diǎn)附帶答案詳解(3卷合一)
- 《GB-T 38052.2-2019智能家用電器系統(tǒng)互操作 第2部分:通 用要求》專題研究報(bào)告
- 電力工程師招聘面試題集與答案解析
- 市場營銷崗位高級技能考核題集
- 設(shè)計(jì)師招聘面試題及創(chuàng)意作品集含答案
- 媒體行業(yè)培訓(xùn)專員工作手冊及面試題集
- 2025年帶電作業(yè)技術(shù)會(huì)議:帶電作業(yè)用便攜式智能裝備
- 2025年環(huán)保設(shè)備生產(chǎn)項(xiàng)目可行性研究報(bào)告
- 2025年傳統(tǒng)產(chǎn)業(yè)數(shù)字化改造項(xiàng)目可行性研究報(bào)告
- 2025年個(gè)性化健身計(jì)劃服務(wù)平臺可行性研究報(bào)告
- 2026年煙花爆竹經(jīng)營單位主要負(fù)責(zé)人證考試題庫及答案
- 2025秋統(tǒng)編語文八年級上冊14.3《使至塞上》課件(核心素養(yǎng))
- 2025年點(diǎn)石聯(lián)考東北“三省一區(qū)”高三年級12月份聯(lián)合考試英語試題(含答案)
- 礦山隱蔽致災(zāi)因素普查規(guī)范課件
- 2025年《數(shù)據(jù)分析》知識考試題庫及答案解析
- 2025年超星爾雅學(xué)習(xí)通《數(shù)據(jù)分析與統(tǒng)計(jì)》考試備考題庫及答案解析
- 寶安區(qū)老虎坑垃圾焚燒發(fā)電廠三期工程環(huán)境影響評價(jià)報(bào)告
- 設(shè)備安裝用工合同范本
- 湖南省長沙市一中集團(tuán)2025-2026學(xué)年七年級上學(xué)期11月期中聯(lián)考英語試題(含解析無聽力原文及音頻)
- 《西方經(jīng)濟(jì)學(xué)》-宏觀經(jīng)濟(jì)學(xué)下-含教學(xué)輔導(dǎo)和習(xí)題解答
- 國家安全 青春挺膺-新時(shí)代青年的使命與擔(dān)當(dāng)
評論
0/150
提交評論