《數(shù)據(jù)挖掘》讀書筆記_第1頁(yè)
《數(shù)據(jù)挖掘》讀書筆記_第2頁(yè)
《數(shù)據(jù)挖掘》讀書筆記_第3頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、«DataAnalysis:withopensourcetools»第18章預(yù)測(cè)分析讀書筆記1. 一、全書概況作者簡(jiǎn)介本書作者是PhilippK.Janer,他憑借著自己多年來?yè)?dān)任物理學(xué)家和軟件工程師的經(jīng)驗(yàn),為數(shù)據(jù)分析和數(shù)學(xué)建模提供咨詢服務(wù)。他是GnuplotinAction:UnderstandingDatawithGraphs(Manning出版)的作者,也在GReillyNetwork、RMdeveloperWorks和IEEESoftware發(fā)表過大量文章,擁有華盛頓大學(xué)理論物理學(xué)博士學(xué)位。2. 本書大綱本書中文名為數(shù)據(jù)之魅:基于開源工具的數(shù)據(jù)分析,共分為四個(gè)部分1

2、9章節(jié)。第一部分為1-6章,講述的是如何通過圖表技術(shù)來觀察數(shù)據(jù),分別介紹了單變量、雙變量、時(shí)間序列、多變量的圖表技術(shù)應(yīng)用。第二部分為7-11章,講述了如何通過各種建模方法來分析數(shù)據(jù),討論了數(shù)量級(jí)估計(jì)和不確定性因素、開發(fā)模型的基本組件。第三部分為12-15章,著重闡述如何進(jìn)行數(shù)據(jù)挖掘,如何運(yùn)用模擬、聚類等方法挖掘有用的知識(shí)。第四部分為16-19章,強(qiáng)調(diào)數(shù)據(jù)分析在商業(yè)和金融等領(lǐng)域的實(shí)際應(yīng)用。另外,本書每章的最后都有一個(gè)標(biāo)題為“工作坊”的小節(jié),介紹通過各種開源工具和源碼庫(kù)來實(shí)踐當(dāng)前意節(jié)所講述的理論,例如Python、Rgnuplot、Sage等。本書包含大量的模擬過程及結(jié)果展示,并通過實(shí)例來闡述如何

3、使用開源工具來進(jìn)行數(shù)據(jù)分析。通過本書的閱讀,筆者可以活楚地了解這些方法的實(shí)際用法及用途。二、第18章預(yù)測(cè)分析本意討論的是如何直接根據(jù)數(shù)據(jù)來進(jìn)行預(yù)測(cè)。在第二部分中,作者介紹了通過構(gòu)造某種概念模型來進(jìn)行預(yù)測(cè)的方法,但當(dāng)環(huán)境復(fù)雜時(shí),我們可能面臨著沒辦法構(gòu)造概念模型的問題,所以本意的預(yù)測(cè)法很好的解決了這一難題。預(yù)測(cè)分析用于描述直接從數(shù)據(jù)中獲取預(yù)測(cè)信息為目的的各種任務(wù),其中以下三個(gè)應(yīng)用領(lǐng)域比較突出,分別是:1)分類或者監(jiān)督學(xué)習(xí)。將每個(gè)紀(jì)錄分配到已知的已經(jīng)定義好的類集合中,如垃圾郵件的過濾;2)聚類或無(wú)監(jiān)督學(xué)習(xí)。將紀(jì)錄歸并為簇,但簇是未知的。3)推薦。根據(jù)以往的興趣或者習(xí)慣來推薦一個(gè)合適的項(xiàng)目。其中,分類

4、毋庸置疑是最重要的領(lǐng)域也是研究最深入的領(lǐng)域,本章概括性的介紹最重要的幾種分類算法和技術(shù)。1) 六種主要的分類算法基于實(shí)例的分類和最近鄰分類算法基于實(shí)例的分類算法,即為了對(duì)一個(gè)未知的實(shí)例分類,為新實(shí)例尋找“最相似”的現(xiàn)有實(shí)例,分配已知實(shí)例的類標(biāo)簽給新實(shí)例?;趯?shí)例的分類沒有一個(gè)獨(dú)立的訓(xùn)練階段,分類中唯一可以調(diào)節(jié)的參數(shù)是鄰節(jié)點(diǎn)的個(gè)數(shù)k,因此分類的代價(jià)彳艮昂貴。2) 貝葉斯分類器3) 貝葉斯分類器采用的是一種概率性的分類法。給定一組屆性,它計(jì)算實(shí)例屆于這個(gè)或者哪個(gè)類的概率,然后一個(gè)實(shí)例被分配給概率最高的那個(gè)類標(biāo)簽。貝葉斯分類器計(jì)算條件概率,給定一組特征的應(yīng)用以及訓(xùn)練集合中可以完全確定的完整的表達(dá)式,

5、能夠表示一個(gè)實(shí)例屆于類C的概率。但在實(shí)際中,直接估算這個(gè)概率幾乎不可能。樸素貝葉斯大大簡(jiǎn)化了問題,使得只需要一次確定一個(gè)單獨(dú)屆性中的屆性值出現(xiàn)的概率。貝葉斯網(wǎng)絡(luò)也可以達(dá)到不錯(cuò)的效果,因?yàn)榭梢灾槐A裟切┍舜碎g由因果關(guān)系的組合,修剪掉所有可能的特征組合,回歸回歸分析指的是,當(dāng)類標(biāo)簽和特征集合之間存在函數(shù)關(guān)系時(shí),可以在這種關(guān)系上通過調(diào)整對(duì)數(shù)據(jù)的一個(gè)合適的函數(shù)來建立一個(gè)分類器。通常會(huì)利用邏輯函數(shù)作為一個(gè)光滑的逼近代替階梯函數(shù)。邏輯回歸同所有的回歸分析方法一樣,是一種全局技術(shù),試圖優(yōu)化所有點(diǎn)的調(diào)整,而不是只適用于一個(gè)特別相關(guān)的子集上。4) 支持向量機(jī)支持向量機(jī)是基于一種簡(jiǎn)單的幾何構(gòu)造的的算法。在二維特征

6、空間的訓(xùn)練實(shí)例中,我們選擇“最好的”分界線(通常是曲線而非直線)來劃分實(shí)例屆于這個(gè)類而不是屆于另一個(gè)類。支持向量機(jī)給出的答案時(shí)“最好的”分界線。支持向量機(jī)首先把尋找決策邊界的任務(wù)轉(zhuǎn)化為從一組點(diǎn)中構(gòu)造一條線的集合任務(wù),再尋找擁有最大邊緣的決策邊界。另外,支持向量機(jī)的一個(gè)重要特性是它執(zhí)行嚴(yán)格的全局優(yōu)化,能夠找出最優(yōu)超平面。5) 決策樹和基于規(guī)則的分類器決策樹和基于規(guī)則的分類器乂被稱為非度量性分類器,因?yàn)樗鼈儾恍枰?jì)算距離。決策樹由一個(gè)決策點(diǎn)(樹的節(jié)點(diǎn))的層次結(jié)構(gòu)構(gòu)成。使用決策樹歸類一個(gè)未知的實(shí)例時(shí),在每個(gè)樹節(jié)點(diǎn)檢查一個(gè)單一的特征?;谠撎卣髦?,選擇下一個(gè)節(jié)點(diǎn)。樹的業(yè)節(jié)點(diǎn)對(duì)應(yīng)類,一旦達(dá)到一個(gè)葉節(jié)點(diǎn),

7、待歸類的實(shí)例就都已分配有相應(yīng)的類標(biāo)簽。從訓(xùn)練集獲得決策樹的主要算法采用的是貪婪算法。它不能保證會(huì)找到最佳解決方案,但能確保解決方案盡可能的好。決策樹和基于規(guī)則的分類器之間存在這等價(jià)關(guān)系。后者包含一組規(guī)則(即對(duì)屆性值的邏輯條件),在進(jìn)行集合分類時(shí),就根據(jù)它來決定一個(gè)測(cè)試實(shí)例的類標(biāo)簽。6)其他分類算法線性判別分析法,它和主成分分析法(PCA類似。人工神經(jīng)網(wǎng)絡(luò),其思路是構(gòu)造一個(gè)節(jié)點(diǎn)網(wǎng)絡(luò);每個(gè)網(wǎng)絡(luò)從其他幾個(gè)節(jié)點(diǎn)接受輸入,構(gòu)成其輸入的權(quán)重平均值,然后將其發(fā)送到下一層節(jié)點(diǎn)。在學(xué)習(xí)階段,調(diào)整權(quán)重平均值中用到的權(quán)重,以盡量減少訓(xùn)練誤差。主要的技術(shù)1)集成方法:Bagging和Boosting集成方法指的是為了

8、提高精確度,而將單獨(dú)的或者“基礎(chǔ)的”分類器的結(jié)果聯(lián)合起來的一組技術(shù)。其基本原理是,只要是獨(dú)立進(jìn)行的實(shí)驗(yàn)就可以進(jìn)行預(yù)期,因?yàn)殄e(cuò)誤會(huì)被消除,平均結(jié)果會(huì)比單獨(dú)試驗(yàn)的結(jié)果更精確。Bagging是引導(dǎo)思路在分類方面的應(yīng)用。通過放回抽樣這種方式從原始的訓(xùn)練集產(chǎn)生額外的訓(xùn)練集。最終的類標(biāo)簽將基于多數(shù)決定少數(shù)或者類似技術(shù)進(jìn)行分配。Boosting是另一種利用引導(dǎo)方法來產(chǎn)生額外訓(xùn)練集的技術(shù)。與Bagging不同的是,Boosting是一個(gè)迭代的過程,它給前幾輪中錯(cuò)誤分類的實(shí)例賦予較高權(quán)重,最后的結(jié)果有迭代過程中所有基本分類器產(chǎn)生的結(jié)果集合組成。2)估計(jì)預(yù)測(cè)誤差由于訓(xùn)練錯(cuò)誤率通常不能很好的衡量分離器再新的數(shù)據(jù)上能

9、達(dá)到的精確度。所以在訓(xùn)練過程中,通常會(huì)保留一些數(shù)據(jù),用于之后的測(cè)試集合。分類器在測(cè)試集合中所達(dá)到的錯(cuò)誤率可作為泛化錯(cuò)誤率。如果集合中的可用數(shù)據(jù)較少,則可進(jìn)行交義驗(yàn)證?;舅悸肥菍㈦S機(jī)分成同樣大小的k個(gè)塊的原始數(shù)據(jù),執(zhí)行k次訓(xùn)練和測(cè)試運(yùn)行。每次運(yùn)行時(shí)從訓(xùn)練集合中留出一個(gè)塊,將其用于測(cè)試集合。最后取k次運(yùn)行中得到的泛化錯(cuò)誤率平均值,以獲得預(yù)期的整體泛化錯(cuò)誤率。3)類不平衡問題在數(shù)據(jù)集合中,會(huì)出現(xiàn)我們感興趣的類比其他類出現(xiàn)的頻率小很多的情況。這種類的實(shí)例稱為正事件,這個(gè)類本身稱為正類。評(píng)價(jià)分類器的慣用衡量標(biāo)準(zhǔn),例如精確度、誤差率,在有明顯的類不平衡時(shí)不是特別有意義。更好的評(píng)價(jià)時(shí)召回率和準(zhǔn)確率這兩個(gè)衡

10、量標(biāo)準(zhǔn)。準(zhǔn)確率是所有被標(biāo)記為正的實(shí)例中正確分類的比例;召回率是所有被標(biāo)記為負(fù)的實(shí)例中正確分類的比例。一條ROC(受試者操作特性)曲線描述的是對(duì)于三種不同的分離器實(shí)現(xiàn),在真是的正(壞的事情被標(biāo)記為壞一一“命中”)和虛假的正(好的事情被標(biāo)記為壞的一一“假警報(bào)”)之間的權(quán)衡。1. 屬性的選擇屆性的選擇對(duì)分類的成功具有舉足輕重的作用,其重要性甚至勝過分類算法的選擇。不過,對(duì)比不同分類器算法及其理論屆性更細(xì)節(jié)的可用信息時(shí),更難找到更好的指導(dǎo)叫我們?nèi)绾巫罴堰x擇、準(zhǔn)備和分類器寫特征代碼。原因是缺乏嚴(yán)謹(jǐn)性,對(duì)于特征選擇和編碼的建議都是經(jīng)驗(yàn)性和啟發(fā)式的。這導(dǎo)致規(guī)模龐大且廣味認(rèn)知的成功應(yīng)用明顯缺乏,除了垃圾郵件過濾器、信用卡欺詐檢測(cè)和信用評(píng)分等被廣泛應(yīng)用。這表明每一個(gè)成功的分類器實(shí)現(xiàn)比起依賴算法的依賴更加依賴于特定問題的細(xì)節(jié)。三、總結(jié)本書邏輯框架活晰、分析深入淺出

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論