第13章_物聯(lián)網(wǎng)中的智能決策31.ppt_第1頁
第13章_物聯(lián)網(wǎng)中的智能決策31.ppt_第2頁
第13章_物聯(lián)網(wǎng)中的智能決策31.ppt_第3頁
第13章_物聯(lián)網(wǎng)中的智能決策31.ppt_第4頁
第13章_物聯(lián)網(wǎng)中的智能決策31.ppt_第5頁
已閱讀5頁,還剩26頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第13章 物聯(lián)網(wǎng)中的 智能決策,內容提要,智能決策是物聯(lián)網(wǎng)“智慧”的來源。 本章將介紹數(shù)據(jù)挖掘的基本流程,基本類型和典型算法。,13.1 數(shù)據(jù)挖掘概述 13.2 數(shù)據(jù)挖掘的基本類型和算法* 13.3 智能決策與物聯(lián)網(wǎng) 什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘有哪三個步驟?,本章內容,13.1 數(shù)據(jù)挖掘概述,數(shù)據(jù)挖掘(Data Mining) 從大量數(shù)據(jù)中獲取潛在有用的并且可以被人們理解的模式的過程。即從大量數(shù)據(jù)中提取或“挖掘”知識。 是一個反復迭代的人機交互和處理的過程,歷經(jīng)多個步驟,并且在一些步驟中需要由用戶提供決策 數(shù)據(jù)挖掘的過程: 數(shù)據(jù)預處理、數(shù)據(jù)挖掘和對挖掘結果的評估與表示 每一個階段的輸出結果成為下

2、一個階段的輸入,沃爾馬的故事,13.1 數(shù)據(jù)挖掘概述,數(shù)據(jù)挖掘的過程 數(shù)據(jù)預處理階段 數(shù)據(jù)準備:了解領域特點,確定用戶需求 數(shù)據(jù)選?。簭脑紨?shù)據(jù)庫中選取相關數(shù)據(jù)或樣本 數(shù)據(jù)預處理:檢查數(shù)據(jù)的完整性及一致性,消除噪聲等 數(shù)據(jù)變換:通過投影或利用其他操作減少數(shù)據(jù)量 數(shù)據(jù)挖掘階段 確定挖掘目標:確定要發(fā)現(xiàn)的知識類型 選擇算法:根據(jù)確定的目標選擇合適的數(shù)據(jù)挖掘算法 數(shù)據(jù)挖掘:運用所選算法,提取相關知識并以一定的方式表示 知識評估與表示階段 模式評估:對在數(shù)據(jù)挖掘步驟中發(fā)現(xiàn)的模式(知識)進行評估 知識表示:使用可視化和知識表示相關技術,呈現(xiàn)所挖掘的知識,13.1 數(shù)據(jù)挖掘概述,數(shù)據(jù)挖掘的過程,13.1

3、數(shù)據(jù)挖掘概述 13.2 數(shù)據(jù)挖掘的基本類型和算法* 13.3 智能決策與物聯(lián)網(wǎng) 數(shù)據(jù)挖掘的基本類型和算法有那些?,本章內容,13.2 數(shù)據(jù)挖掘的基本類型和算法,數(shù)據(jù)挖掘的基本類型 關聯(lián)分析(Association Analysis) 聚類分析(Clustering Analysis) 離群點分析(Outlier Analysis) 分類與預測(Classification and Prediction) 演化分析(Evolution Analysis),描述性挖掘任務:刻畫數(shù)據(jù)庫中數(shù)據(jù)的一般特性,預測性挖掘任務:在當前數(shù)據(jù)上進行推斷和預測,關聯(lián)分析,關聯(lián)分析的目標是從給定的數(shù)據(jù)中發(fā)現(xiàn)頻繁出現(xiàn)的

4、模式,即關聯(lián)規(guī)則 關聯(lián)規(guī)則通常的表述形式是X Y,表示“數(shù)據(jù)庫中滿足條件X的記錄(元組)可能也滿足條件Y” 以某電器商場銷售記錄為例: 含義:4% (支持度)的顧客的年齡在20至29歲且月收入在3000至5000元,且這樣的顧客中,65% (置信度)的人購買了筆記本電腦,關聯(lián)分析,挖掘關聯(lián)規(guī)則,需要置信度和支持度越高越好 基本概念 項集:滿足若干條件的數(shù)據(jù)項的集合,如果條件數(shù)為k,則稱k-項集 滿足年齡(顧客, “2029”)的項集是1-項集 滿足年齡(顧客, “2029”) 收入(顧客, “30005000”)的項集是2-項集 計算步驟 首先找到具備足夠支持度的項集,即頻繁項集 然后由頻繁項

5、集構成關聯(lián)規(guī)則,并計算置信度,分類和預測,分類和預測的目標是找出描述和區(qū)分不同數(shù)據(jù)類或概念的模型或函數(shù),以便能夠使用模型預測數(shù)據(jù)類或標記未知的對象 所獲得的分類模型可以采用多種形式加以描述輸出 分類規(guī)則 判定樹 數(shù)學公式 神經(jīng)網(wǎng)絡 分類與預測的區(qū)別:分類通常指預測數(shù)據(jù)對象屬于哪一類,而當被預測的值是數(shù)值數(shù)據(jù)時,通常稱為預測,分類和預測,以判定樹方法為例,簡要介紹分類的基本步驟和結果表示,問題實例:假定商場需要向潛在的客戶郵寄新產品資料和促銷信息??蛻魯?shù)據(jù)庫描述的客戶屬性包括姓名、年齡、收入、職業(yè)和信用記錄。 我們可以按是否會在商場購買計算機將客戶分為兩類,只將促銷材料郵寄給那些會購買計算機的客

6、戶,從而降低成本。,分類和預測,用于預測客戶是否可能購買計算機的判定樹,其中每個非樹葉節(jié)點表示一個屬性上的測試,每個樹葉節(jié)點代表預測結果,聚類分析,聚類的目的是將數(shù)據(jù)對象劃分為多個類或簇,在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大 聚類與分類的區(qū)別:要劃分的類是事先未知的 聚類分析的應用,聚類分析,聚類分析的方法 劃分方法:要求事先給定聚類的數(shù)目k。首先創(chuàng)建一個初始劃分,然后通過對劃分中心點的反復迭代來改進劃分。典型算法包括k-means算法和k-medoids算法等 層次方法:對給定數(shù)據(jù)集合進行逐層遞歸的合并或者分裂,因此可以被分為合并或分裂方法。合并方法首先將每個對象

7、都作為獨立的類,然后持續(xù)合并相近的類,直到達到終止條件為止。分裂方法首先將所有的數(shù)據(jù)對象置于一個類中,然后反復迭代并判定當前的類是否可以被繼續(xù)分裂,直到達到終止條件為止 基于密度的方法:只要某區(qū)域數(shù)據(jù)密度超過閾值,就將該區(qū)域的數(shù)據(jù)進行聚類。其優(yōu)勢在于噪音數(shù)據(jù)下的抗干擾能力,并能夠發(fā)現(xiàn)任意形狀的聚類,聚類分析,聚類分析的方法(續(xù)) 基于網(wǎng)格的方法:把對象空間量化為具有規(guī)則形狀的單元格,從而形成一個網(wǎng)格狀結構。在聚類的時候,將每個單元格當作一條數(shù)據(jù)進行處理。優(yōu)點是處理速度很快,因處理時間與數(shù)據(jù)對象數(shù)目無關,而只與量化空間中的單元格數(shù)目相關 基于模型的方法:如果事先已知數(shù)據(jù)是根據(jù)潛在的概率分布生成的

8、,基于模型的方法便可為每個聚類構建相關的數(shù)據(jù)模型,然后尋找數(shù)據(jù)對給定模型的最佳匹配。主要分兩類:統(tǒng)計學方法和神經(jīng)網(wǎng)絡方法,離群點分析,離群點(Outlier):數(shù)據(jù)集合中存在的一些數(shù)據(jù)對象,它們與其余絕大多數(shù)數(shù)據(jù)的特性或模型不一致 尋找離群點的意義 發(fā)現(xiàn)信用卡詐騙。通過檢測購物地點、商品種類或者購物金額和頻率,能夠發(fā)現(xiàn)與絕大多數(shù)正常消費不一樣的記錄,這種行為就有可能屬于信用卡詐騙性使用 預防網(wǎng)絡詐騙。在網(wǎng)絡銷售的時候,詐騙者往往冒充商家,出售報價比正常價格低出許多的商品,這樣的行為也是可以通過離群點分析被找到的,離群點分析,尋找離群點的方法 基于統(tǒng)計的方法:需要事先已知數(shù)據(jù)的分布或概率模型(例

9、如一個正態(tài)分布),然后根據(jù)數(shù)據(jù)點與該模型的不一致性檢驗來確定離群點 基于距離的方法:不需要數(shù)據(jù)模型,而是將那些沒有足夠鄰居的數(shù)據(jù)對象看作是離群點,這里的鄰居是基于距給定對象的距離來定義的?,F(xiàn)有的基于距離的離群點探測算法又分為基于索引的算法,嵌套循環(huán)算法和基于單元的算法,其目的都是為了減小計算和I/O開銷 基于偏移的方法:不采用統(tǒng)計檢驗或基于距離的度量值來確定異常對象。相反,它通過檢查數(shù)據(jù)對象的一組主要特征來確定離群點。偏離事先給出的特征描述的數(shù)據(jù)對象被認為是離群點,演化分析,演化分析的目的是挖掘隨時間變化的數(shù)據(jù)對象的變化規(guī)律和趨勢,并對其建模,進而為相關決策提供參考 演化分析的應用 對股票的演

10、化分析可以得出整個股票市場和特定的公司的股票變化規(guī)律,為投資者決策提供幫助 對生態(tài)和氣候的演化分析可以知道人類活動對自然的影響程度,為環(huán)境保護提供重要依據(jù) 建模方法:除了關聯(lián)分析和分類分析,還包括與時間相關的數(shù)據(jù)分析方法,主要包括趨勢分析、相似搜索、序列模式挖掘和與周期分析,演化分析,與時間相關的數(shù)據(jù)分析方法 趨勢分析:確定趨勢的常見方法是計算數(shù)據(jù)n階的變化平均值,或者采用最小二乘法等方法平滑數(shù)據(jù)變化曲線 相似搜索:相似搜索用于找出與給定序列最接近的數(shù)據(jù)序列 序列模式挖掘:挖掘相對時間或其它維屬性出現(xiàn)頻率高的模式 周期分析:挖掘具有周期的模式或者關聯(lián)規(guī)則,例如”若每周六公司的下班時間比平時晚半

11、小時以上,則選擇打車回家的人數(shù)大約增加20%”,13.1 數(shù)據(jù)挖掘概述 13.2 數(shù)據(jù)挖掘的基本類型和算法* 13.3 智能決策與物聯(lián)網(wǎng) 數(shù)據(jù)挖掘在物聯(lián)網(wǎng)背景下有著廣泛的需求,本章內容,13.3 智能決策與物聯(lián)網(wǎng),數(shù)據(jù)挖掘技術在物聯(lián)網(wǎng)中的需求 精準農業(yè) 市場行銷 智能家居 金融安全 產品制造和質量監(jiān)控 互聯(lián)網(wǎng)用戶行為分析 ,精準農業(yè),精準農業(yè) 市場行銷 智能家居 金融安全 產品制造和質量監(jiān)控 互聯(lián)網(wǎng)用戶行為分析,通過植入土壤或暴露在空氣中的傳感器監(jiān)控土壤性狀和環(huán)境狀況。 數(shù)據(jù)通過物聯(lián)網(wǎng)傳輸?shù)竭h程控制中心,可及時查清當前農作物的生長環(huán)境現(xiàn)狀和變化趨勢,確定農作物的生產目標。 通過數(shù)據(jù)挖掘的方法,

12、可以知道:環(huán)境溫度濕度和土壤各項參數(shù)等因素是如何影響農作物產量的,如何調節(jié)它們才能夠最大限度地提高農作物產量,市場行銷,精準農業(yè) 市場行銷 智能家居 金融安全 產品制造和質量監(jiān)控 互聯(lián)網(wǎng)用戶行為分析,利用數(shù)據(jù)挖掘技術通過對用戶數(shù)據(jù)的分析,可以得到關于顧客購物取向和興趣的信息,從而為商業(yè)決策提供依據(jù) 數(shù)據(jù)庫行銷(Database Marketing) 通過交互式查詢、數(shù)據(jù)分割和模型預測等方法來選擇潛在的顧客以便向它們推銷產品 預測采用何種銷售渠道和優(yōu)惠條件,使得用戶最有可能被打動 貨籃分析(Basket Analysis) 通過分析市場銷售數(shù)據(jù)(例如POS數(shù)據(jù)庫)來發(fā)現(xiàn)顧客的購買行為模式,智能家

13、居,精準農業(yè) 市場行銷 智能家居 金融安全 產品制造和質量監(jiān)控 互聯(lián)網(wǎng)用戶行為分析,以獲取天氣信息為例:一方面,智能設備隨時關注氣象信息,并針對雨天發(fā)出報警提醒;另一方面,另外一些智能終端會隨時跟蹤主人的行蹤,并通過數(shù)據(jù)挖掘方法由主人的歷史行動特征數(shù)據(jù)預測他的去向 一旦預測到主人要出門,那么就在合適的時候由相應的智能終端提醒他不要忘記帶雨傘。例如,如果主人在門口,就將由安裝在門上的智能設備向他發(fā)出提醒,如果在車內,則由車載計算機發(fā)出提醒,金融安全,精準農業(yè) 市場行銷 智能家居 金融安全 產品制造和質量監(jiān)控 互聯(lián)網(wǎng)用戶行為分析,由于金融投資的風險很大,所以在進行投資決策時,需要通過對各種投資方向

14、的數(shù)據(jù)進行分析,以選擇最佳的投資方向。數(shù)據(jù)挖掘可以通過對已有數(shù)據(jù)的處理,找到數(shù)據(jù)對象之間的關系,然后利用學習得到的模式進行合理的預測 金融欺詐識別主要是通過分析正常行為和詐騙行為的數(shù)據(jù)和模式,得到詐騙行為的一些特性,這樣當某項業(yè)務記錄符合這樣的特征時,識別系統(tǒng)可以向決策人員提出警告,產品制造和質量監(jiān)控,精準農業(yè) 市場行銷 智能家居 金融安全 產品制造和質量監(jiān)控 互聯(lián)網(wǎng)用戶行為分析,隨著科技進步,制造業(yè)已不是簡單的手工勞動,而是集成了多種先進科技的流水作業(yè)。在產品的生產制造過程中常常伴隨有大量的數(shù)據(jù),如產品的各種加工條件或控制參數(shù)(如時間、溫度等)。通過各種監(jiān)控儀器收集的這些數(shù)據(jù)反映了每個生產環(huán)

15、節(jié)的狀態(tài),對生產的順利進行起著這關重要的作用。 通過數(shù)據(jù)挖掘對數(shù)據(jù)進行分析,可以得到產品質量與這些參數(shù)之間的關系,從而能獲得針對性很強的建議以改進產品質量,而且有可能發(fā)現(xiàn)新的更高效節(jié)約的控制模式,為廠家?guī)碡S厚的回報,互聯(lián)網(wǎng)用戶行為分析,精準農業(yè) 市場行銷 智能家居 金融安全 產品制造和質量監(jiān)控 互聯(lián)網(wǎng)用戶行為分析,隨著中國互聯(lián)網(wǎng)用戶數(shù)的激增,用戶在互聯(lián)網(wǎng)上的行為分析逐漸引起了關注。例如,用戶在上網(wǎng)的時候通常需要不停地從一個網(wǎng)頁通過HTTP鏈接跳轉到另一個網(wǎng)頁 獲取互聯(lián)網(wǎng)用戶訪問模式帶來的好處很多,首先可以輔助改善分布式網(wǎng)絡系統(tǒng)的性能,例如在有高度相關的站點間提供快速有效的訪問通道。其次,能夠幫助更好地組織和設計網(wǎng)頁,以及幫助改善市場營銷策略(例如把廣告放在合適的網(wǎng)頁上)以更好地吸引客戶的注意,本章小結,內容回顧 本章介紹了數(shù)據(jù)挖掘的基本流程,重點介紹了五種典型的數(shù)據(jù)挖掘算法和步驟。最后討論了物聯(lián)網(wǎng)背景下數(shù)據(jù)挖掘技術的廣泛應用。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論