數(shù)據(jù)挖掘在各領(lǐng)域的應(yīng)用案例ppt課件.ppt_第1頁
數(shù)據(jù)挖掘在各領(lǐng)域的應(yīng)用案例ppt課件.ppt_第2頁
數(shù)據(jù)挖掘在各領(lǐng)域的應(yīng)用案例ppt課件.ppt_第3頁
數(shù)據(jù)挖掘在各領(lǐng)域的應(yīng)用案例ppt課件.ppt_第4頁
數(shù)據(jù)挖掘在各領(lǐng)域的應(yīng)用案例ppt課件.ppt_第5頁
已閱讀5頁,還剩56頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘于各領(lǐng)域之應(yīng)用 謝邦昌教授輔仁大學(xué)統(tǒng)計信息系教授中華數(shù)據(jù)挖掘協(xié)會秘書長STAT1001 MAILS FJU EDU TWWWW CDMS ORG TW2004 12 26 1 你不能不知的十大創(chuàng)新技術(shù) 資料來源 TechnologyReview雜志 2002 1 2 未來科技大預(yù)言 TechnologyReview雜志公布改變未來的十項新興趨勢機器與人腦的介面塑料電晶體數(shù)據(jù)挖掘 Datamining 數(shù)字權(quán)利管理生物測定學(xué) Biometrics 語言識別處理微光學(xué)技術(shù) Microphotonics 解開程序碼 Untanglingcode 機器人設(shè)計微應(yīng)用流體學(xué) Microfluidics 3 在生物科技上 如人腦與機器介面 可加速發(fā)展生化義肢 學(xué)者認(rèn)為這方面大有潛力 機器人將為人類處理更多復(fù)雜或重復(fù)性的工作 現(xiàn)有研究人員發(fā)展出可設(shè)計 制造機器人的機器人 在信息科技上 數(shù)位權(quán)利管理愈來愈受重視 以便保護知識財產(chǎn) 由全錄公司PaloAlto研究中心創(chuàng)出的ContentGuard公司 利用加密技術(shù)保護知識財產(chǎn) 4 資料發(fā)掘與生物測定學(xué)也很有潛力 數(shù)據(jù)挖掘是利用數(shù)學(xué)演算法 在龐大的資料庫中尋找方式 例如目前應(yīng)用在掌紋 臉孔等圖像辨識 或者是語言辨識處理等方面 塑料芯片也是一大突破 在IBM 朗訊 麻省理工 劍橋大學(xué) PennState大學(xué)都在研發(fā)塑料或有機物質(zhì)芯片 微光學(xué)技術(shù) 專家利用可反射光線的水晶 玻璃等物質(zhì) 讓光纖傳輸資料的速度 不會因為通過路由器 交換器時而降低速度 5 微應(yīng)用流體學(xué)方面 科學(xué)家正試圖利用物理原則做實驗 只利用極微量的水 加快原本需要費時費金錢的實驗 加州理工學(xué)院的應(yīng)用物理學(xué)家StephenQuake 以微應(yīng)用流體學(xué)發(fā)展了一套DNA分析裝置 比傳統(tǒng)的分析裝置快 TechnologyReview的編輯指出 微應(yīng)用流體學(xué)將為生物科技大有幫助 就像當(dāng)初電晶體提高了電子產(chǎn)品 6 醫(yī)藥方面 7 PainControl Problem DetectingpainSubjective nodirectmeasurementClinical VisualAnalogueScale VAS Wherewillcausethepain EndoscopeOperatingroom ESWL ProstatePostOp PCAICUCancerpain 8 P ASystem Research Development 9 PCAdatamining management 10 化學(xué)方面 11 近年來 隨著化學(xué)資料的大量積累和資料庫的普遍使用 逐步認(rèn)識到大量資料的利用是十分困難且不充分的 更具價值的規(guī)律性的信息和知識反而被隱蔽起來 因此 化學(xué)數(shù)據(jù)挖掘作為一種新的信息技術(shù)開始出現(xiàn)于電腦化學(xué)中 這一技術(shù)的關(guān)鍵是用軟件來從大量的化學(xué)資料中自動地發(fā)現(xiàn)新的不明顯和有潛在應(yīng)用價值的信息和知識 因此它也常常與資料分析和知識發(fā)現(xiàn) Knowledgediscovery 相緊密結(jié)合 12 化學(xué)數(shù)據(jù)挖掘主要內(nèi)容 DatacleaningDatareductionFeaturedetectionFeaturereductionClassifierandcategorydetectionFrauddetectionRecognizingunusualpatternsNoveltydetectionConstructionofsampledatabasesKnowledgediscoveryandruledetectionfromlargedatabases 13 生物醫(yī)學(xué)方面 14 背景 隨著人類基因序列的解碼 基因與各種疾病間之關(guān)聯(lián)性的研究正逐漸受到重視 而相關(guān)之研究文獻亦隨之增多 通過搜尋引擎等渠道 醫(yī)學(xué)研究人員可以快速取得所需之信息 但也同時面臨了資料過多的問題 15 氣象業(yè)務(wù)方面 16 背景 隨著通信技術(shù)和電腦技術(shù)的發(fā)展 每天在氣象通信網(wǎng)上傳輸越來越龐大的氣象資料 對這些資料的存儲 集成和應(yīng)用的問題也就越來越突出 資料倉庫是電腦應(yīng)用發(fā)展的必然產(chǎn)物 經(jīng)過長期積累所形成的大量業(yè)務(wù)資料 是過去的真實活動記錄 如何利用這些資料并在此后的決策中發(fā)揮效益 為決策分析和評估提供幫助 很長時期內(nèi)都困擾著資料庫的發(fā)展 17 數(shù)據(jù)挖掘 DataMining 的功能 對資料進行厚縮 給出它的緊湊描述 數(shù)據(jù)挖掘主要關(guān)心從資料泛化的角度來討論資料總結(jié) 建立一個分類函數(shù)或分類模型 該模型能把資料庫的資料項目映射到給定類別中的某一個 把一組個體按照相似性歸成若干類別 使屬于同一類別的個體之間的距離盡可能地小 而不同類別的個體間的距離盡可能地大 按某一規(guī)則探討這一規(guī)則下的資料關(guān)聯(lián)性 18 農(nóng)產(chǎn)品交易方面 資料來源 http www amis gov tw price 19 新系統(tǒng)著重于農(nóng)產(chǎn)品交易行情信息的加值應(yīng)用 利用農(nóng)產(chǎn)品價量資料庫充實的資料 加值處理后提供使用者作為參考 朝向建立 農(nóng)產(chǎn)品交易行情資料倉儲 DataWarehouse 之目標(biāo)發(fā)展 讓使用者可以通過資料倉儲的資料處理進行聯(lián)機分析處理 OnLineAnalyticProcessing OLAP 決策支援系統(tǒng) DecisionSupportSystem DSS 數(shù)據(jù)挖掘 DataMining 20 古代史料方面 21 研究背景 人類已經(jīng)進入信息時代 我們不僅面臨著用新技術(shù)來整理舊史料的問題 而且隨著考古的新發(fā)現(xiàn)和科技的發(fā)展 史料的容量和形式急劇膨脹 以何種方法處理 存貯史料 并且能夠讓學(xué)者從中方便迅速地檢索和得到所需的信息 是當(dāng)前史料學(xué)的一個大問題 22 數(shù)位化是史料處理的必經(jīng)之路把各種史料統(tǒng)一為電腦資料 方便存貯和檢索 使史料的物理體積大大縮小 方便攜帶 可以低成本無差錯拷貝 方便傳播和普及 目前 不論是印刷文檔 手寫稿 還是電子檔 音像檔 甚至于遺址與文物 越來越多的史料逐漸被數(shù)位化 出現(xiàn)了資料倉庫 Datawarehousing 資料集市 Datamart 資料掘取 Datamining 等新概念和信息數(shù)位化處理方法 逐步形成了大資料量存貯和管理方式 23 銀行蹤面 24 BusinessIntelligent BI BIForBank是MDCL公司基于EOSS套件在銀行領(lǐng)域推出的一套完整的商業(yè)智慧解決方案 它以先進的資料倉庫 DataWarehousing 聯(lián)機分析處理 OLAP 數(shù)據(jù)挖掘 DataMining 技術(shù)為基礎(chǔ) 結(jié)合顧客關(guān)系管理和電子商務(wù)的經(jīng)驗 能夠幫助企業(yè)全面提高科學(xué)管理水平和經(jīng)營決策能力 促進企業(yè)業(yè)務(wù)和利潤的增長 提高市場競爭力 迎接以客戶為中心的經(jīng)營方式的轉(zhuǎn)變 25 本系統(tǒng)包含以下主題 商業(yè)銀行資本分析按時間 機構(gòu)緯度研究資本的構(gòu)成 資本需要量和充足度 資產(chǎn)與負(fù)債從時間 機構(gòu)緯度研究資產(chǎn)的構(gòu)成 資產(chǎn)的總量和風(fēng)險 負(fù)債的構(gòu)成和趨勢 負(fù)債同業(yè)情況分析等 表科目查詢本模組以財務(wù)報表和會計科目為基礎(chǔ) 按照科目 時間 機構(gòu) 產(chǎn)品和客戶的緯度 進行報表和科目的即時查詢 挖掘和分析 26 資金管理分析從時間 機構(gòu)緯度研究資金流入 流出及管理現(xiàn)狀 資金來源成本估計從時間 機構(gòu)緯度研究資金來源成本估計 資金結(jié)構(gòu) 資金余缺 資金利用度 頭寸匡算 資金運用及收益分析 客戶信貸分析從時間 機構(gòu) 科目 借款人性質(zhì) 貸款形式 貸款期限 貸款方式研究貸款結(jié)構(gòu) 貸款流動 貸款發(fā)放與回收情況 27 經(jīng)營成本營利分析從時間 機構(gòu)緯度研究經(jīng)營成本升降 經(jīng)營成本專案 經(jīng)營成本的結(jié)構(gòu)水平 銀行收入和利潤綜合分析 利率風(fēng)險與營利分析從時間 機構(gòu)緯度研究利率調(diào)換交易分析 遠期利率合同分析 金融貸款分析 期權(quán)交易分析 匯率風(fēng)險與防范分析從時間 機構(gòu)緯度研究即期 遠期外匯買賣分析 套匯分析 外匯投機分析 期貨 期權(quán)交易分析 28 投資決策分析主要回答 怎樣投資 向何處投資 投資多少 如何籌措資金 包括 投資效益分析 投資可行性分析綜合經(jīng)營指標(biāo)分析與預(yù)警考核指標(biāo)分析銀行健康綜合評估指標(biāo)預(yù)警 從時間 機構(gòu)緯度監(jiān)測信用風(fēng)險 流動風(fēng)險 經(jīng)營風(fēng)險 資金風(fēng)險 國際收支 如果有異常情況自動給予警告 29 DataWarehouse之步驟 匯集資料數(shù)據(jù)擷取 合并 刪除 歸類 等 成為一定格式 再放入資料倉儲內(nèi)存貯并管理data將所有的資料再集中存入一個大的資料庫里 可依照不同的需求建立小的資料庫 方便讀取分析讀取所需信息銀行各部門可依據(jù)不同的主題存取工具 進行查詢并結(jié)合圖形 OLAP等工具 30 范例 商業(yè)銀行首要關(guān)注于顧客關(guān)系的應(yīng)用主題 即建立顧客信息分析管理信息 從中收集顧客的基本資料 資產(chǎn) 負(fù)債 等信息用以搭建一個良好的信息連接庫 美國第一銀行運用 ICARE 建立客戶關(guān)系管理 I Inquire 向顧客詢問并了解其需求C Communicate 向顧客保證降很快滿足其需求A Affirm 使顧客確信有完成服務(wù)的工作與愿望R Recommend 向顧客提出一系列的服務(wù)選擇E Express 使顧客銀行接受單個客戶的委托顧客將可通過email電話網(wǎng)站信息等得到 金融服務(wù) 旅游娛樂服務(wù)以及其他的綜合信息服務(wù) 之后將會寄出邀請函請顧客填寫 銀行將可了解顧客的需求 幫助其完成愿望 31 結(jié)論 對于過去 銀行并未從企業(yè)的整體角度實施顧客一體化管理 因此前后流程為實踐整合的狀態(tài) 無法達到連接 將造成信息重復(fù) 矛盾 甚至是過時 無法隨時滿足應(yīng)有的信息或服務(wù) 利用datamining的技術(shù) 將可以解決如此的問題 更有效率朝向以顧客為中心企業(yè)體系 32 天文學(xué)方面 資料來源 張燕霞 趙永恒 崔辰川中國科學(xué)院國家天文臺 33 摘要 綜述數(shù)據(jù)挖掘和知識發(fā)現(xiàn)在天文學(xué)中興起的必然性及其近幾年的發(fā)展?fàn)顩r 實現(xiàn)過程和具體任務(wù) 分析當(dāng)前天文資料的復(fù)雜性 介紹天文學(xué)中數(shù)據(jù)挖掘的科學(xué)要求 系統(tǒng)地概括近年來天文學(xué)中數(shù)據(jù)挖掘和知識發(fā)現(xiàn)領(lǐng)域研究的進展及其熱點 并闡述其所面臨的挑戰(zhàn) 34 天文學(xué)中數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的興起將對天文學(xué)的發(fā)展起到巨大的推動作用 同時也在知識和技術(shù)等方面對天文學(xué)家提出新的要求 數(shù)據(jù)挖掘技術(shù)能否在虛擬天文臺中成功應(yīng)用 是虛擬天文臺充分配揮作用的關(guān)鍵所在 35 電子商務(wù)方面 資料來源 硅谷動力 36 數(shù)據(jù)挖掘?qū)﹄娮由虅?wù)的重要性 專家預(yù)測在今后十年中 數(shù)據(jù)挖掘 將是具有革命性進展的舉措之一 是提供 個性化網(wǎng)絡(luò) 的關(guān)鍵 即通過采集信息 識別有用結(jié)構(gòu)并進行即時分析 從而滿足用戶個性化選擇 無論這種技術(shù)復(fù)雜與否 近年來各公司都在進行各種各樣的數(shù)據(jù)挖掘研究 以期讓那些近年來急速堆積增長的原始資料 變得有意義 電子商務(wù)現(xiàn)在是最新和最炙手可熱的一個行業(yè) 無論在哪都有歷史資料 用這些資料可以得到用眼睛無法看到的方式結(jié)論 37 數(shù)據(jù)挖掘能為電子商務(wù)做什么 通過數(shù)據(jù)挖掘 市場商人可以瞄準(zhǔn)目標(biāo)客戶 采用個人股票行市 最新信息 特殊的市場推廣活動或其他一些特殊的信息手段 從而極大地減少廣告預(yù)算和增加收入 百貨商場 超市和一些老字型大小的零售店也在進行數(shù)據(jù)挖掘 以便猜測這些年來顧客的消費習(xí)慣 38 數(shù)據(jù)挖掘的挑戰(zhàn) 數(shù)據(jù)挖掘軟件繁多軟件商正在為非統(tǒng)計學(xué)專業(yè)人士們開發(fā)一些更加自動化的數(shù)據(jù)挖掘應(yīng)用軟件 讓科學(xué)技術(shù)更加實用化 迎合市場需求 數(shù)據(jù)挖掘簡單化操作過分簡單將會使結(jié)果出現(xiàn)偏差 使執(zhí)行者基于錯誤的推理作出定價和盤貨決定 39 科學(xué)資料庫方面 資料來源 史忠植 張慶杰 張治洪 王軍中國科學(xué)院計算技術(shù)研究所 40 資料庫知識發(fā)現(xiàn)研究的興起 隨著大量的大規(guī)模的資料庫迅速不斷地增長 人們對資料庫的應(yīng)用已不滿足于僅對資料庫進行查詢和檢索 僅用查詢檢索不能幫助用戶從資料中提取帶有結(jié)論性的有用信息 這樣資料庫中蘊藏的豐富知識 就得不到充分的發(fā)掘和利用 41 KDD的研究內(nèi)容是 能自動地去處理資料庫中大量的原始資料 從中挖掘搜索出具有必然性的 富有意義的方式 pattern KDD的一個主要問題是資料庫中潛在的可能關(guān)系方式的數(shù)量太大了 因此使得要想搜索到有用方式 必須借用人工智能技術(shù) 特別是來自機器學(xué)習(xí)領(lǐng)域的方法 42 知識發(fā)現(xiàn) KDD 的研究內(nèi)容和方法 KDD的主要對象是關(guān)聯(lián)資料庫 KDD可發(fā)現(xiàn)的知識也有各種表示形式 如法則 RULES 規(guī)則 REGULARITY 科學(xué)定律 方程或概念網(wǎng)等等 KDD的發(fā)現(xiàn)過程主要有三個步驟 用戶定義要發(fā)現(xiàn)的問題系統(tǒng)根據(jù)問題進行資料搜索 方式抽取評價所發(fā)現(xiàn)的知識的質(zhì)量的好壞 43 資料庫知識發(fā)現(xiàn)的難點 動態(tài)變化的資料雜訊如數(shù)據(jù)的手工登錄以及主觀選取資料等 容易使得資料有雜訊 資料不完整資料的不完整性將給發(fā)現(xiàn) 評估和解釋一些重要的方式帶來困難 冗余信息資料庫中同一信息有時存儲在多個地方 函數(shù)依賴就是一個通常的冗余形式 數(shù)據(jù)稀疏相應(yīng)于可能的巨大的發(fā)現(xiàn)空間 資料庫中所記錄的實際資料的密度是非常稀疏的 超大數(shù)據(jù)量此時KDD系統(tǒng)必須采用一定的資料匯集方法 根用戶定義的發(fā)現(xiàn)任務(wù) 選擇有關(guān)的域空間 采取隨機抽樣的方法 對樣本進行分析 44 典型系統(tǒng)簡介 SKICATU Fayyad等 JetPropulsionLaboratory 開發(fā)的SKICAT skyimagecataloguingandanalysistool 是一個用于分析大規(guī)模天空觀測資料庫的自動系統(tǒng) 采用了許多新型機器學(xué)習(xí)方法 能識別比以往用人工方法所識別的天體物件要暗一個數(shù)量級 并且取得了大約94 的精度 45 49er49er Forth Niner 系統(tǒng)是由美國J M Zytkow和R Zembowciz開發(fā)的一個通用KDD系統(tǒng) 可處理多個資料子集上的大規(guī)模的檢索 通過產(chǎn)生列聯(lián)表 精化初始規(guī)則 進而生成強通用規(guī)則和有用的概念 46 EXPLORAEXPLORA是由Hoschka和Klosgen開發(fā)的一個用于概念性的分析資料和搜索感興趣關(guān)系的集成化系統(tǒng) KDW KnowledgeDiscoveryWorkbench KDW是互動式的大型資料庫的分析工具 由美國G Piatetsky Shapiro等人開發(fā) 提供了一整套圖形用戶介面工具 該系統(tǒng)可用于存取資料庫表和創(chuàng)建新欄位 資料匯集定義 圖形顯示資料和結(jié)果 選用發(fā)現(xiàn)演算法及處理領(lǐng)域知識 KDW系統(tǒng)包括的方式抽取演算法有 識別簡單線性類別的聚類 用決策樹方法獲取分類規(guī)則 能識別各類間有顯著差異的偏差檢測 用于發(fā)現(xiàn)和顯示隨機依賴關(guān)系的依賴關(guān)系分析 47 動態(tài)與展望 目前 KDD研究的重點 正從理論轉(zhuǎn)向應(yīng)用 可說凡是用到資料庫的地方 就有KDD的課題等待人們?nèi)ヌ接?KDD與科學(xué)資料庫的結(jié)合對科技的發(fā)展必定會起很大的促進作用 具有廣泛的應(yīng)用前景 48 網(wǎng)絡(luò)方面 49 背景 保證信息系統(tǒng)安全的主要問題是建立安全機制 迄今為止已發(fā)展了許多安全機制 但安全問題仍然倍受懷疑和關(guān)注 由于已從理論上證明不存在絕對安全的安全系統(tǒng) 因此一般將審計跟蹤 攻擊檢測系統(tǒng)作為信息系統(tǒng)的最后一道安全防線 50 早期中大型的電腦系統(tǒng)中都收集審計信息來建立跟蹤檔 這些審計跟蹤的目的多是為了性能測試或計費 因此對攻擊檢測提供的有用信息比較少 此外 最主要的困難在于由于審計信息粒度的安排 審計信息粒度較細(xì)時 資料過于龐大和細(xì)節(jié)化 反將有用的信息源沒在其中 51 對于企圖攻擊 被動審計的檢出程度是不能保證的 為了使通用的審計跟蹤能用于攻擊檢測等安全目的 必須配備自動工具對審計資料進行分析 以期盡早發(fā)現(xiàn)那些可疑事件或行為的線索 給出報警或?qū)勾胧?52 基于審計信息的攻擊檢測技術(shù) 為了從大量的 有時是冗余的審計跟蹤資料中提取出對安全功能有用的信息 基于電腦系統(tǒng)審計跟蹤信息設(shè)計的系統(tǒng)安全自動分析或檢測工具是很必要的DataMining 53 攻擊檢測方法 檢測隱藏的非法行為攻擊即時檢測系統(tǒng)的原理是基于用戶歷史資料的建模以及在早期的證據(jù)或模型的基礎(chǔ) 審計系統(tǒng)即時地檢測用戶對系統(tǒng)的使用情況 根據(jù)系統(tǒng)內(nèi)部所擁有用戶行為的概率統(tǒng)計模型進行監(jiān)測 當(dāng)發(fā)現(xiàn)有可疑的用戶行為發(fā)生時 保持跟蹤并監(jiān)測 記錄

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論