下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘,演講者:王明陽信息與計算機工程學(xué)院,2,要挖掘的知識類型介紹,概念描述:特征描述和比較;關(guān)聯(lián)規(guī)則;分類/預(yù)測;聚類分析;其他數(shù)據(jù)挖掘任務(wù)。根據(jù)現(xiàn)有的知識,我們已經(jīng)獲得了一些關(guān)于爬行動物和鳥類的信息。我們能把新發(fā)現(xiàn)的物種分類嗎,比如動物甲和動物乙?2020年7月7日星期二,4,分類是數(shù)據(jù)挖掘中的一項重要任務(wù)。分類的目的是學(xué)習(xí)一個分類器(分類函數(shù)或模型),它可以把要分類的數(shù)據(jù)映射到一個給定的類別。分類可用于預(yù)測。給定數(shù)據(jù)的擴展描述是從歷史數(shù)據(jù)記錄中自動導(dǎo)出的,因此可以預(yù)測未來的數(shù)據(jù)。2020年7月7日,星期二,5。分類方法的類型。從使用的主要技術(shù)來看,分類方法可以分為以下幾種:基于距離的
2、分類方法決策樹分類方法貝葉斯分類方法。本章重點介紹這些分類方法。第6章,分類和預(yù)測,6.1分類和預(yù)測的基本知識6.2基于距離的分類算法6.3決策樹分類方法6.4貝葉斯分類方法6.5規(guī)則歸納方法*,第6章,6.1分類和預(yù)測的基本知識,什么是分類?預(yù)測?分類和預(yù)測的基本問題,1。分類?預(yù)測?10、基本概念、分類和預(yù)測是數(shù)據(jù)分析的兩種形式,可用于提取描述重要數(shù)據(jù)類別的模型或預(yù)測未來數(shù)據(jù)趨勢:分類:用于預(yù)測數(shù)據(jù)對象的分類標(biāo)簽(或離散值),例如,通過構(gòu)建分類模型來評估銀行貸款的風(fēng)險(安全性或危險性);預(yù)測:用于預(yù)測數(shù)據(jù)對象的連續(xù)值。例如,建立預(yù)測模型,通過使用客戶收入和職業(yè)(參數(shù))來預(yù)測購買計算機設(shè)備的
3、可能支出。11、數(shù)據(jù)分類過程,數(shù)據(jù)分類是一個兩步過程:1)建立分類模型:機器學(xué)習(xí)過程,通過一定的分類算法訓(xùn)練訓(xùn)練集,得到分類模型;“引導(dǎo)學(xué)習(xí)”和“監(jiān)督學(xué)習(xí)”假設(shè)每個元組屬于一個預(yù)定義的類,該類由一個稱為類標(biāo)簽屬性的屬性確定;訓(xùn)練數(shù)據(jù)集:為建立分類模型而分析的數(shù)據(jù)元組。12、分類過程的第一步:學(xué)習(xí)建模,13、數(shù)據(jù)分類過程,數(shù)據(jù)分類是一個兩步過程:2)使用模型進(jìn)行分類:測試數(shù)據(jù)集:用于評估模型的預(yù)測精度。模型在測試集上的準(zhǔn)確性是由模型正確分類的測試樣本的百分比。如果模型的準(zhǔn)確性被認(rèn)為是可接受的,它可以用于分類數(shù)據(jù)元組或具有未知類標(biāo)簽的對象。14,分類過程的第二步:分類測試,15,分類過程的示意圖,
4、監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí),監(jiān)督學(xué)習(xí)(用于分類)訓(xùn)練樣本的類別標(biāo)簽是已知的;通過使用在訓(xùn)練數(shù)據(jù)集中獲得的規(guī)則對新數(shù)據(jù)進(jìn)行分類。無監(jiān)督學(xué)習(xí)(用于聚類)訓(xùn)練樣本的類別標(biāo)簽未知;通過一系列的測量和觀察,我們試圖在數(shù)據(jù)中建立類或簇的存在。17.數(shù)據(jù)預(yù)測,預(yù)測:構(gòu)建和使用模型來評估未標(biāo)記的樣本類別,或者評估給定樣本可能具有的屬性值或值區(qū)間與分類之間的差異:它們是兩個主要的預(yù)測問題。分類是預(yù)測離散或標(biāo)簽值;預(yù)測是預(yù)測連續(xù)或有序的值;觀點:用預(yù)測方法預(yù)測分類標(biāo)簽為分類;使用預(yù)測方法(通常為回歸方法)預(yù)測的連續(xù)值作為預(yù)測。18,示例,背景:假設(shè)等位電子公司的郵件列表數(shù)據(jù)庫已經(jīng)建立。郵件列表用于分發(fā)介紹新產(chǎn)品和降價的
5、信息材料。該數(shù)據(jù)庫描述了客戶的屬性,包括姓名、年齡、收入、職業(yè)和聲譽,并根據(jù)客戶是否在公司購買電腦對其進(jìn)行分類。19,示例,分類模型:假設(shè)新客戶被添加到數(shù)據(jù)庫中,因為向每個客戶分發(fā)宣傳材料的成本很高,所以可以根據(jù)現(xiàn)有的預(yù)測模型:如果你想預(yù)測一個客戶在一個財政年度里在愛力電子的主要購買量,你可以建立一個預(yù)測模型。2.分類和預(yù)測的基本問題?21,問題(1):數(shù)據(jù)準(zhǔn)備,1)分類和預(yù)測數(shù)據(jù)的準(zhǔn)備:數(shù)據(jù)預(yù)處理數(shù)據(jù)清理:噪聲(平滑技術(shù));空缺值的相關(guān)性分析(統(tǒng)計方法)(特征選擇):刪除不相關(guān)和冗余的屬性,如申請銀行貸款時填寫的周數(shù),可能與貸款申請是否成功無關(guān);數(shù)據(jù)轉(zhuǎn)換:數(shù)據(jù)離散化(數(shù)據(jù)泛化):例如,屬性“
6、收入”的值可以離散化為幾個區(qū)間,如低、中、高;數(shù)據(jù)規(guī)范化:將給定屬性的值縮放到更小的間隔,如0,1。22,問題(2):評估分類模型,2)評估方法:評估用于分類或預(yù)測的方法或模型的預(yù)測精度:模型正確預(yù)測未知對象類別或值的能力;速度:1)建立模型的時間;2)使用模型的時間穩(wěn)健性(穩(wěn)健性):處理噪聲和空位值的能力;可伸縮性:處理大數(shù)據(jù)和構(gòu)建模型的能力;可理解性:模型的可理解性;規(guī)則的優(yōu)點:1)確定樹的大??;2)分類規(guī)則的簡單性。6.2基于距離的分類算法,基本思路?幾種常見的距離分類算法。1.距離分類的基本思想是什么?星期二,2020年7月7日,基于距離的分類算法的思想,定義:給定一個數(shù)據(jù)庫D=t1,
7、t2,tn和一組類C=C1,Cm。假設(shè)每個元組包含一些數(shù)值屬性值:ti=ti1,ti2,tik,并且每個類也包含數(shù)值屬性值:Cj=Cj1,Cj2,Cjk,分類問題是將每個層分配給滿足以下條件的類Cj:sim(ti,Cj)=sim(ti,Ci),CiC,CiCj,其中sim(ti)2020年7月7日星期二,基于距離的分類算法的思想通常以實際計算中的距離為特征:距離越近,相似性越大;距離越遠(yuǎn),相似性越小。如何測量距離?歐幾里德距離;曼哈坦距離;閔可夫斯基距離;加權(quán)閔可夫斯基距離。如何測量距離?歐幾里德距離和曼哈頓距離的共同點是(1)距離是非負(fù)值(2)距離是0 (3)距離函數(shù)具有對稱性(4)距離函數(shù)滿足三角形不等式,如何度量距離?閔可夫斯基距離是歐幾里德距離和曼哈頓距離的推廣,其中p是正整數(shù):當(dāng)p=1時,它表示曼哈頓距離;當(dāng)p=2時,它代表歐幾里德距離。加權(quán)閔可夫斯基距離如果根據(jù)每個變量的重要性給每個變量一個權(quán)重,就可以得到加權(quán)閔可夫斯基距離。如何測量距離?星期二,2020年7月7日,30,基于距離的分類算法的思想在實際計算中經(jīng)常以距離為特征:距離越近,相似性越大;距離越遠(yuǎn),相似性越小。計算距離的方法有很多種,最常見的方法是計算樣本到每一類中心的距離。星期二,2020年7月7日,31,基于距離的分類算法的一般描
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年焊接工藝質(zhì)量控制培訓(xùn)
- 2026首都體育學(xué)院附屬競技體育學(xué)校文化課教師招聘3人筆試參考題庫及答案解析
- 2026上海師范大學(xué)招聘工作人員筆試模擬試題及答案解析
- 2026上半年云南事業(yè)單位聯(lián)考云南輕紡職業(yè)學(xué)院公開招聘10人筆試備考試題及答案解析
- 2025年護(hù)士事業(yè)單位考試題目及答案
- 2026年創(chuàng)意黑金風(fēng)企業(yè)年報的成功秘訣
- 2025年萊陽鄉(xiāng)鎮(zhèn)衛(wèi)生事業(yè)編考試及答案
- 2025年上城區(qū)小學(xué)語文筆試真題及答案
- 2025年高中語文筆試及答案
- 2025年江財翻碩復(fù)試筆試及答案
- 2023年魯迅美術(shù)學(xué)院附屬中學(xué)(魯美附中)中考招生語文試卷
- 工廠網(wǎng)絡(luò)設(shè)計方案
- 福建省泉州市2023-2024學(xué)年高一上學(xué)期期末教學(xué)質(zhì)量監(jiān)測政治試題
- 日文常用漢字表
- JCT947-2014 先張法預(yù)應(yīng)力混凝土管樁用端板
- QC003-三片罐206D鋁蓋檢驗作業(yè)指導(dǎo)書
- 高血壓達(dá)標(biāo)中心標(biāo)準(zhǔn)要點解讀及中心工作進(jìn)展-課件
- 某經(jīng)濟(jì)技術(shù)開發(fā)區(qū)突發(fā)事件風(fēng)險評估和應(yīng)急資源調(diào)查報告
- 混凝土質(zhì)量缺陷成因及預(yù)防措施1
- GB/T 28288-2012足部防護(hù)足趾保護(hù)包頭和防刺穿墊
- GB/T 15087-1994汽車牽引車與全掛車機械連接裝置強度試驗
評論
0/150
提交評論