版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第13章數據挖掘13.1數據挖掘概述13.2數據挖掘的基本類型和算法13.3智能決策與物聯網本章內容13.1數據挖掘概述數據挖掘從大量數據中獲取潛在有用的并且可以被人們理解的模式的過程反復迭代的人機交互和處理過程,歷經多個步驟,并且在一些步驟中需要由用戶提供決策13.1數據挖掘概述數據挖掘過程數據預處理階段數據準備:了解領域特點,確定用戶需求數據選?。簭脑紨祿熘羞x取相關數據或樣本數據預處理:檢查數據的完整性及一致性,消除噪聲等數據變換:通過投影或利用其他操作減少數據量數據挖掘階段確定挖掘目標:確定要發(fā)現的知識類型選擇算法:根據確定的目標選擇合適的數據挖掘算法數據挖掘:運用所選算法,提取相關知識并以一定的方式表示知識評估與表示階段模式評估:對在數據挖掘步驟中發(fā)現的模式(知識)進行評估知識表示:使用可視化和知識表示相關技術,呈現所挖掘的知識13.1數據挖掘概述13.1數據挖掘概述13.2數據挖掘的基本類型和算法13.3智能決策與物聯網本章內容13.2數據挖掘的基本類型和算法數據挖掘的基本類型關聯分析聚類分析離群點分析分類與預測演化分析描述性挖掘任務:刻劃數據庫中數據的一般特性預測性挖掘任務:在當前數據上進行推斷和預測關聯分析關聯分析是從給定的數據中發(fā)現頻繁出現的模式,即關聯規(guī)則關聯規(guī)則通常的表述形式是XY,表示“數據庫中滿足條件X的記錄(元組)可能也滿足條件Y”以某電器商場銷售記錄為例:含義:4%(支持度)的顧客的年齡在20至29歲且月收入在3000至5000元,且這樣的顧客中,65%(置信度)的人購買了筆記本電腦關聯分析挖掘關聯規(guī)則,需要置信度和支持度越高越好基本概念項集:滿足若干條件的數據項的集合,如果條件數為k,則稱k項集滿足年齡(顧客,“20~29”)的項集是1項集滿足年齡(顧客,“20~29”)收入(顧客,“3000~5000”)的項集是2項集計算步驟首先找到具備足夠支持度的項集,即頻繁項集然后由頻繁項集構成關聯規(guī)則,并計算置信度關聯分析如何尋找頻繁項集Apriori算法基本思想:利用已求出的k項集來計算(k+1)項集首先計算頻繁1項集然后根據兩個頻繁k項集{p1,p2,...,pk},{q1,q2,...,qk}計算頻繁(k+1)項集,其中pi=qi,1<=i<=k-1,且該(k+1)項集為{p1,p2,...,pk,qk}最后判定該(k+1)項集是否頻繁缺點:可能產生大量候選項集,并需要重復地掃描數據庫FP-Growth算法利用樹狀結構保存項集,從而減小了計算頻繁項集所需的存儲空間關聯分析如何由頻繁項集構造關聯規(guī)則,并計算置信度關聯規(guī)則AB的置信度其中count(AANDB)為滿足條件A以及B的數據項數目,count(A)為滿足條件A的數據項數目計算步驟對于每一個頻繁項集S,計算S的所有非空子集對于每個S的非空子集F,若大于給定置信度閾值,則得到一個關聯規(guī)則聚類分析聚類分析是將數據對象劃分為多個類或簇,在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大聚類與分類的區(qū)別:要劃分的類是事先未知的聚類分析的應用聚類分析聚類分析的方法劃分方法:事先給定聚類的數目k,創(chuàng)建一個初始劃分,然后通過對劃分中心點的反復迭代來改進劃分。典型算法包括k-means算法和k-medoids算法等層次方法:對給定數據集合進行逐層遞歸的合并或者分裂,分為合并或分裂方法。合并方法首先將每個對象都作為獨立的類,然后持續(xù)合并相近的類,直到達到終止條件為止。分裂方法首先將所有的數據對象置于一個類中,然后反復迭代并判定當前的類是否可以被繼續(xù)分裂,直到達到終止條件為止基于密度的方法:只要某區(qū)域數據密度超過閾值,就將該區(qū)域的數據進行聚類。其優(yōu)勢在于噪音數據下的抗干擾能力,并能夠發(fā)現任意形狀的聚類聚類分析基于網格的方法:把對象空間量化為具有規(guī)則形狀的單元格,從而形成一個網格狀結構。在聚類的時候,將每個單元格當作一條數據進行處理。優(yōu)點是處理速度很快,因處理時間與數據對象數目無關,而只與量化空間中的單元格數目相關基于模型的方法:如果事先已知數據是根據潛在的概率分布生成的,基于模型的方法便可為每個聚類構建相關的數據模型,然后尋找數據對給定模型的最佳匹配。主要分兩類:統計學方法和神經網絡方法離群點分析離群點分析是找出數據集合中存在的一些數據對象,它們與其余絕大多數數據的特性或模型不一致尋找離群點的意義發(fā)現信用卡詐騙。通過檢測購物地點、商品種類或者購物金額和頻率,能夠發(fā)現與絕大多數正常消費不一樣的記錄,這種行為就有可能屬于信用卡詐騙性使用預防網絡詐騙。在網絡銷售的時候,詐騙者往往冒充商家,出售報價比正常價格低出許多的商品,這樣的行為也是可以通過離群點分析被找到的離群點分析尋找離群點的方法基于統計的方法:需要事先已知數據的分布或概率模型(例如一個正態(tài)分布),然后根據數據點與該模型的不一致性檢驗來確定離群點基于距離的方法:不需要數據模型,而是將那些沒有足夠鄰居的數據對象看作是離群點,這里的鄰居是基于距給定對象的距離來定義的。現有的基于距離的離群點探測算法又分為基于索引的算法,嵌套循環(huán)算法和基于單元的算法,其目的都是為了減小計算和I/O開銷基于偏移的方法:不采用統計檢驗或基于距離的度量值來確定異常對象。相反,它通過檢查數據對象的一組主要特征來確定離群點。偏離事先給出的特征描述的數據對象被認為是離群點分類和預測分類和預測是找出描述和區(qū)分不同數據類或概念的模型或函數,以便能夠使用模型預測數據類或標記未知的對象所獲得的分類模型可以采用多種形式加以描述輸出分類規(guī)則判定樹數學公式神經網絡…分類與預測的區(qū)別:分類通常指預測數據對象屬于哪一類,而當被預測的值是數值數據時,通常稱為預測分類和預測以判定樹為例,簡要介紹分類的基本步驟和結果表示問題實例:假定商場需要向潛在的客戶郵寄新產品資料和促銷信息。客戶數據庫描述的客戶屬性包括姓名、年齡、收入、職業(yè)和信用記錄。我們可以按是否會在商場購買計算機將客戶分為兩類,只將促銷材料郵寄給那些會購買計算機的客戶,從而降低成本。分類和預測用于預測客戶是否可能購買計算機的判定樹,其中每個非樹葉節(jié)點表示一個屬性上的測試,每個樹葉節(jié)點代表預測結果分類和預測如何構造上述判定樹?基本概念:n個客戶中有a個購買了計算機的期望信息建立樹節(jié)點時,選取合適的判定屬性,以最大化期望信息增益應某種屬性上的信息增益大小反映了該屬性區(qū)分給定數據的的能力強弱10條客戶記錄,其中6人購買了計算機,4人沒有購買。這10位客戶中有3人的職業(yè)是學生,其中有2人購買計算機,而非學生客戶購買計算機的有4人。在選擇區(qū)分屬性以前,數據的期望信息為,用職業(yè)區(qū)分之后的期望信息為,則選擇職業(yè)作為區(qū)分屬性的信息增益為演化分析演化分析是挖掘隨時間變化的數據對象的變化規(guī)律和趨勢,并對其建模,進而為相關決策提供參考演化分析的應用對股票的演化分析可以得出整個股票市場和特定的公司的股票變化規(guī)律,為投資者決策提供幫助對生態(tài)和氣候的演化分析可以知道人類活動對自然的影響程度,為環(huán)境保護提供重要依據…演化分析與時間相關的數據分析方法趨勢分析:確定趨勢的常見方法是計算數據n階的變化平均值,或者采用最小二乘法等方法平滑數據變化曲線相似搜索:相似搜索用于找出與給定序列最接近的數據序列序列模式挖掘:挖掘相對時間或其它維屬性出現頻率高的模式周期分析:挖掘具有周期的模式或者關聯規(guī)則,例如“若每周六公司的下班時間比平時晚半小時以上,則選擇打車回家的人數大約增加20%”13.1數據挖掘概述13.2數據挖掘的基本類型和算法13.3智能決策與物聯網本章內容13.3智能決策與物聯網數據挖掘技術在物聯網中的需求精準農業(yè)市場營銷智能家居金融安全產品制造和質量監(jiān)控互聯網用戶行為分析…精準農業(yè)通過植入土壤或暴露在空氣中的傳感器監(jiān)控土壤性狀和環(huán)境狀況數據通過物聯網傳輸到遠程控制中心,可及時查清當前農作物的生長環(huán)境現狀和變化趨勢,確定農作物的生產目標通過數據挖掘,得到環(huán)境溫度濕度和土壤各項參數等因素是如何影響農作物產量的,如何調節(jié)它們才能夠最大限度地提高農作物產量市場營銷利用數據挖掘技術通過對用戶數據的分析,得到關于顧客購物取向和興趣的信息,從而為商業(yè)決策提供依據數據庫分析通過交互式查詢、數據分割和模型預測等方法來選擇潛在的顧客以便向它們推銷產品預測采用何種銷售渠道和優(yōu)惠條件,使得用戶最有可能被打動貨籃分析通過分析市場銷售數據(例如POS數據庫)來發(fā)現顧客的購買行為模式智能家居以獲取天氣信息為例:一方面,智能設備隨時關注氣象信息,并針對雨天發(fā)出報警提醒;另一方面,另外一些智能終端會隨時跟蹤主人的行蹤,并通過數據挖掘方法由主人的歷史行動特征數據預測他的去向一旦預測到主人要出門,那么就在合適的時候由相應的智能終端提醒他不要忘記帶雨傘。例如,如果主人在門口,就將由安裝在門上的智能設備向他發(fā)出提醒,如果在車內,則由車載計算機發(fā)出提醒金融安全由于金融投資的風險很大,所以在進行投資決策時,需要通過對各種投資方向的數據進行分析,以選擇最佳的投資方向。數據挖掘可以通過對已有數據的處理,找到數據對象之間的關系,然后利用學習得到的模式進行合理的預測金融欺詐識別主要是通過分析正常行為和詐騙行為的數據和模式,得到詐騙行為的一些特性,這樣當某項業(yè)務記錄符合這樣的特征時,識別系統可以向決策人員提出警告產品制造和質量監(jiān)控隨著科技進步,制造業(yè)已不是簡單的手工勞動,而是集成了多種先進科技的流水作業(yè)。在產品的生產制造過程中常常伴隨有大量的數據,如產品的各種加工條件或控制參數(如時間、溫度等)。通過各種監(jiān)控儀器收集的這些數據反映了每個生產環(huán)節(jié)的狀態(tài),對生產的順利進行起著這關重要的作用。通過數據挖掘對數據進行分析,可以得到產品質量與這些參數之間的關系,從而能獲得針對性很強的建議以改進產品質量,而且有可能發(fā)現新的更高效節(jié)約的控制模式,為廠家?guī)碡S厚的回報互聯網用戶行為分析隨著互聯網用戶數的激增,用戶在互
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025湖南華升股份有限公司選聘1人備考題庫及1套參考答案詳解
- 2026浙江溫州市平陽縣中醫(yī)院招聘體檢中心導檢人員2人備考題庫及答案詳解一套
- 2025河北秦皇島市第二醫(yī)院第三批選聘5人備考題庫及答案詳解(考點梳理)
- 2026江安宜江通公交客運有限公司員工招聘60人備考題庫及答案詳解參考
- 2025湖南衡陽市衡陽縣湘南船山高級技工學校招聘專業(yè)技術人員6人備考題庫參考答案詳解
- 2025廣東中山職業(yè)技術學院附屬幼兒園招聘備考題庫有答案詳解
- 2025中建交通建設(雄安)有限公司招聘8人備考題庫有答案詳解
- 2026浙江溫州市平陽縣中醫(yī)院招聘體檢中心導檢人員2人備考題庫參考答案詳解
- 2025年漯河市教育局所屬事業(yè)單位人才引進12名備考題庫(含答案詳解)
- 2025江西省農發(fā)種業(yè)有限公司營銷崗招聘3人備考題庫附答案詳解
- 2023年09月四川成都市新津區(qū)招考聘用衛(wèi)生專業(yè)技術人才33人筆試歷年難易錯點考題薈萃附帶答案詳解
- 滬科版七年級上冊初一數學全冊教案(教學設計)
- 全國各氣象臺站區(qū)站號及經緯度
- 三階魔方入門-小學教學版
- 生產技術部主要職責及流程
- 廣東高中高考英語聽說考試故事速記復述技巧
- GB/T 32065.5-2015海洋儀器環(huán)境試驗方法第5部分:高溫貯存試驗
- GB/T 20033.3-2006人工材料體育場地使用要求及檢驗方法第3部分:足球場地人造草面層
- 2023年牡丹江市林業(yè)系統事業(yè)單位招聘筆試模擬試題及答案解析
- 數字電子技術說課課件
- 天然氣加氣站安全事故的案例培訓課件
評論
0/150
提交評論