大數(shù)據(jù)應(yīng)用基礎(chǔ)-分類(lèi)算法_第1頁(yè)
大數(shù)據(jù)應(yīng)用基礎(chǔ)-分類(lèi)算法_第2頁(yè)
大數(shù)據(jù)應(yīng)用基礎(chǔ)-分類(lèi)算法_第3頁(yè)
大數(shù)據(jù)應(yīng)用基礎(chǔ)-分類(lèi)算法_第4頁(yè)
大數(shù)據(jù)應(yīng)用基礎(chǔ)-分類(lèi)算法_第5頁(yè)
已閱讀5頁(yè),還剩110頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

分類(lèi)算法大數(shù)據(jù)應(yīng)用基礎(chǔ)魏煒1大數(shù)據(jù)復(fù)習(xí)2大數(shù)據(jù)的核心是什么大數(shù)據(jù)人才可以分為分析人才和架構(gòu)人才。其中,需求量最大的是分析人才。而分析的核心是數(shù)據(jù)挖掘。大數(shù)據(jù)目前的發(fā)展重點(diǎn)是怎么對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。物聯(lián)網(wǎng)、智能手機(jī)、可穿戴、智能硬件等技術(shù)設(shè)備將正在讓數(shù)據(jù)成幾何倍數(shù)增長(zhǎng)。3大數(shù)據(jù)的核心——非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)的分析相對(duì)比較成熟,比如Excel、關(guān)系型數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)的OLAP在企業(yè)中已經(jīng)無(wú)人不知。對(duì)于非結(jié)構(gòu)化數(shù)據(jù),難點(diǎn)在于:數(shù)據(jù)收集與集成:設(shè)法通過(guò)各種設(shè)備收集數(shù)據(jù),并把各種數(shù)據(jù)來(lái)源集成起來(lái)。例如,圍繞一個(gè)人,怎樣能從公司內(nèi)部和外部的各種渠道,收集他多方面的數(shù)據(jù),把其中的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù),然后把各種數(shù)據(jù)集成起來(lái),從而用一個(gè)特征向量來(lái)表示他的特征。數(shù)據(jù)分析:怎樣分析這種高維度的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)的維度是無(wú)止境的,比如百度能分析幾十億維的特征。4大數(shù)據(jù)架構(gòu)技術(shù)的核心主要有兩種計(jì)算:離線分布式計(jì)算這種計(jì)算能處理海量數(shù)據(jù),并運(yùn)行復(fù)雜的算法,其中包括數(shù)據(jù)挖掘算法、非結(jié)構(gòu)化數(shù)據(jù)特征的提?。ɡ缢阉饕嫠饕木幹疲?、推薦算法等。它能充分發(fā)揮分布式計(jì)算的優(yōu)點(diǎn),但是完成所需計(jì)算的耗時(shí)可能是幾分鐘、幾小時(shí)或更長(zhǎng)時(shí)間,因此有時(shí)還需要用在線計(jì)算加以補(bǔ)充。主要的開(kāi)源技術(shù)是Hadoop。這也是最熱門(mén)的大數(shù)據(jù)架構(gòu)技術(shù)。很多算法都有其適合于在Hadoop平臺(tái)上進(jìn)行分布式運(yùn)行的版本。大數(shù)據(jù)分析人員應(yīng)能掌握常見(jiàn)算法的分布式版本。在線分布式計(jì)算可以把一些簡(jiǎn)單的計(jì)算以極快的速度完成。例如,搜索引擎的反應(yīng)時(shí)間、廣告交易平臺(tái)的更新時(shí)間都在0.1秒以?xún)?nèi)。相關(guān)開(kāi)源技術(shù)有Storm、Kafka等。商用方案有IBM的流計(jì)算等。5大數(shù)據(jù)架構(gòu)技術(shù)的核心此外,還有一種重要技術(shù),叫內(nèi)存計(jì)算。原理是:在內(nèi)存里計(jì)算比在硬盤(pán)里計(jì)算快得多。這種技術(shù)使用的前提就是內(nèi)存足夠大。商用方案有SAPHana等。它可以和分布式計(jì)算結(jié)合。例如,開(kāi)源平臺(tái)Spark就采取這種思路。6大數(shù)據(jù)技術(shù)中的算法大數(shù)據(jù)技術(shù)中的算法不只是數(shù)據(jù)挖掘。除了數(shù)據(jù)挖掘,典型的計(jì)算任務(wù)還有:搜索引擎中的文本特征提取,即相對(duì)詞頻計(jì)算推薦系統(tǒng)中的用戶間相似度計(jì)算、物品間相似度計(jì)算等不過(guò),數(shù)據(jù)挖掘無(wú)疑是最重要的一大類(lèi)算法。7數(shù)據(jù)挖掘的概念辨析和統(tǒng)計(jì)相比,數(shù)據(jù)挖掘傾向于處理大規(guī)模數(shù)據(jù),并且其宗旨是減少人工操作。而統(tǒng)計(jì)往往有賴(lài)于分析人員手工操作。在統(tǒng)計(jì)之前,常常對(duì)變量間的關(guān)系做假設(shè);而數(shù)據(jù)挖掘的重點(diǎn)在于預(yù)測(cè)的結(jié)果,不一定追究預(yù)測(cè)的依據(jù)。數(shù)據(jù)挖掘和人工智能、機(jī)器學(xué)習(xí)的重合度非常高。不過(guò),早先的人工智能側(cè)重于由人工設(shè)定規(guī)則,而當(dāng)今越來(lái)越重視從數(shù)據(jù)中自動(dòng)獲得知識(shí)、對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的挖掘,通常需要把非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化的形式,然后再采用數(shù)據(jù)挖掘算法。數(shù)據(jù)挖掘不只是要重視算法,提高數(shù)據(jù)質(zhì)量、理解應(yīng)用領(lǐng)域也是不可或缺的。8數(shù)據(jù)挖掘的基本流程數(shù)據(jù)預(yù)處理2評(píng)估4信息收集31數(shù)據(jù)挖掘33知識(shí)表示359數(shù)據(jù)挖掘算法分類(lèi)有監(jiān)督學(xué)習(xí):分類(lèi)與回歸有標(biāo)識(shí)。通過(guò)模仿做出正確分類(lèi)的已有數(shù)據(jù),從而能夠?qū)π碌臄?shù)據(jù)做出比較準(zhǔn)確的分類(lèi)。這就像教小孩學(xué)習(xí)一樣。無(wú)監(jiān)督學(xué)習(xí):聚類(lèi)、關(guān)聯(lián)規(guī)則無(wú)標(biāo)識(shí)聚類(lèi):針對(duì)客戶特征進(jìn)行客戶群劃分。由此,我們可以對(duì)不同客戶群采取差異化的促銷(xiāo)方式。關(guān)聯(lián)規(guī)則:分析發(fā)現(xiàn)購(gòu)買(mǎi)面包的顧客中有很大比例的人同時(shí)購(gòu)買(mǎi)牛奶。由此,我們可以把面包和牛奶擺在同一個(gè)貨架上。此外,降維方法經(jīng)常服務(wù)于數(shù)據(jù)挖掘算法它把特征維度降低,從而使運(yùn)算更快。10數(shù)據(jù)挖掘算法分類(lèi)此處觀看案例視頻11高度重視以下同義詞以下術(shù)語(yǔ)大致是同一個(gè)意思:表格中的行:個(gè)案=實(shí)例=記錄=樣本點(diǎn)=數(shù)據(jù)點(diǎn)表格中的列:屬性=特征=字段=維度=預(yù)測(cè)變量=自變量12數(shù)據(jù)準(zhǔn)備的重要性沒(méi)有高質(zhì)量的數(shù)據(jù),就沒(méi)有高質(zhì)量的挖掘結(jié)果。數(shù)據(jù)準(zhǔn)備工作占用的時(shí)間往往在60%以上!13分類(lèi)模型的評(píng)價(jià)模型算法質(zhì)量的評(píng)價(jià)是很重要的一部分。對(duì)分類(lèi)模型和聚類(lèi)模型的評(píng)價(jià)方法是不同的。對(duì)于分類(lèi)模型,通常用一些指標(biāo)來(lái)進(jìn)行模型評(píng)價(jià)和選擇。通常采用的指標(biāo)有:ROC曲線、Lift曲線。其本質(zhì)都是與預(yù)測(cè)的準(zhǔn)確性有關(guān)的。分類(lèi)模型評(píng)價(jià)的主要宗旨就是:減少誤判(假陽(yáng)性)和漏判(假陰性)。我們可以對(duì)不同的分類(lèi)算法,設(shè)置不同的參數(shù),進(jìn)行反復(fù)比較,根據(jù)在多個(gè)效果指標(biāo)(比如ROC曲線的AUC值、Lift曲線)上是否有穩(wěn)定的好的表現(xiàn),選擇一個(gè)最終落地應(yīng)用的模型。14分類(lèi)的步驟——數(shù)據(jù)集的劃分把過(guò)去的數(shù)據(jù)分成兩份,其中一份當(dāng)做訓(xùn)練集,另一份當(dāng)做測(cè)試集(用來(lái)模擬“未來(lái)的”數(shù)據(jù))。通常,我們會(huì)將大多數(shù)數(shù)據(jù)作為訓(xùn)練集(比如80%),而少數(shù)數(shù)據(jù)作為測(cè)試集。歷史數(shù)據(jù)中每行都要有輸入數(shù)據(jù)(輸入變量值)和輸出數(shù)據(jù)(目標(biāo)變量值)。15分類(lèi)的步驟——模型的訓(xùn)練與使用首先采用訓(xùn)練集進(jìn)行訓(xùn)練,目的是在已知目標(biāo)值的情況下,找出輸入變量和目標(biāo)值之間的關(guān)系,從而得到經(jīng)過(guò)訓(xùn)練的分類(lèi)模型。我們用這個(gè)模型對(duì)測(cè)試集中的目標(biāo)變量進(jìn)行預(yù)測(cè),然后把目標(biāo)變量的真實(shí)值和預(yù)測(cè)值進(jìn)行比較,看看預(yù)測(cè)精度如何。我們可以嘗試不同的分類(lèi)算法,并對(duì)每個(gè)分類(lèi)算法進(jìn)行參數(shù)調(diào)節(jié),經(jīng)過(guò)反復(fù)比較后,可以選擇一種預(yù)測(cè)精度最高的分類(lèi)算法及其參數(shù)組合。之后,就可以對(duì)新的真實(shí)數(shù)據(jù)進(jìn)行分類(lèi)了。16分類(lèi)的步驟17復(fù)習(xí)到此結(jié)束復(fù)習(xí)到此結(jié)束?,F(xiàn)在翻到本幻燈片后面幾頁(yè),在上一次課的進(jìn)度基礎(chǔ)上繼續(xù)。18分類(lèi)算法的核心概念辨析19按目標(biāo)變量類(lèi)型把監(jiān)督學(xué)習(xí)分為兩類(lèi)監(jiān)督學(xué)習(xí)可分為兩類(lèi):回歸:針對(duì)數(shù)值型目標(biāo)變量的監(jiān)督學(xué)習(xí)?;貧w也可以稱(chēng)作估計(jì)(estimation)分類(lèi):針對(duì)分類(lèi)型目標(biāo)變量的監(jiān)督學(xué)習(xí)。很多監(jiān)督學(xué)習(xí)算法既可以用于分類(lèi),也可以用于回歸:例如:支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)分類(lèi)和回歸的原理是一致的。20注意回歸這一概念的歧義以上所說(shuō)的是廣義的回歸。狹義的回歸則是源于統(tǒng)計(jì)學(xué)的建模方法,根據(jù)目標(biāo)變量類(lèi)型的不同,可分為線性回歸、邏輯斯蒂回歸等。在監(jiān)督學(xué)習(xí)當(dāng)中,在這些回歸模型里,以邏輯斯蒂回歸最為常用,其次是線性回歸。邏輯回歸是針對(duì)分類(lèi)型目標(biāo)變量的回歸模型。線性回歸是針對(duì)連續(xù)型目標(biāo)變量的回歸模型。21有監(jiān)督學(xué)習(xí)與預(yù)測(cè)的區(qū)別分類(lèi)與回歸經(jīng)常被用于對(duì)未來(lái)進(jìn)行預(yù)測(cè),但它們并不總是用于對(duì)未來(lái)進(jìn)行預(yù)測(cè)。比如,垃圾郵件識(shí)別和異常交易識(shí)別就不是預(yù)測(cè);而貸款還款風(fēng)險(xiǎn)預(yù)估則算是預(yù)測(cè)。但兩者都采用有監(jiān)督學(xué)習(xí)。預(yù)測(cè)的方法不只有分類(lèi)和回歸,但分類(lèi)和回歸是最主要的預(yù)測(cè)方法?;跁r(shí)間序列的預(yù)測(cè)也是比較常用的預(yù)測(cè)方法。22二分類(lèi)和多分類(lèi)除了二分類(lèi),很多分類(lèi)算法也支持多分類(lèi)。多分類(lèi)的輸出可以是多個(gè)類(lèi)別中的一個(gè)。多分類(lèi)比二分類(lèi)要稍微難一點(diǎn)?;舅悸肥牵簩⒍喾诸?lèi)問(wèn)題轉(zhuǎn)化成一系列二分類(lèi)問(wèn)題,從而得以使用二分類(lèi)模型。23分類(lèi)算法的典型應(yīng)用24分類(lèi)算法的應(yīng)用——銷(xiāo)售經(jīng)典應(yīng)用——響應(yīng)模型:例如預(yù)測(cè)顧客是否會(huì)響應(yīng)直接郵寄廣告(directmail,直郵)或促銷(xiāo)短信,即是否會(huì)成為客戶。我們通常會(huì)把以前的促銷(xiāo)活動(dòng)的歷史消費(fèi)數(shù)據(jù)作為訓(xùn)練集。25分類(lèi)算法的應(yīng)用——金融通過(guò)風(fēng)險(xiǎn)評(píng)估,銀行可以減少壞賬,增加收益。經(jīng)典應(yīng)用——貸款風(fēng)險(xiǎn)評(píng)估:銀行貸款部門(mén)預(yù)測(cè)借款人是否有可能拖欠,從而判斷是否應(yīng)接受貸款申請(qǐng)。我們把以往信用不良的客戶的數(shù)據(jù)作為訓(xùn)練集。經(jīng)典應(yīng)用——信用卡風(fēng)險(xiǎn)評(píng)估:判斷是否應(yīng)該批準(zhǔn)某顧客的信用卡申請(qǐng),即通過(guò)分析申請(qǐng)人的信用卡使用行為、社交媒體數(shù)據(jù)、電話使用數(shù)據(jù),對(duì)未來(lái)惡意透支的信用風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)。在這個(gè)應(yīng)用中,用戶個(gè)人信息很豐富,所以數(shù)據(jù)維度很多,進(jìn)而預(yù)測(cè)精準(zhǔn)度比較高。26分類(lèi)算法的應(yīng)用——金融經(jīng)典應(yīng)用——欺詐檢測(cè):主要有信用卡欺詐交易檢測(cè)、網(wǎng)上銀行交易欺詐、保險(xiǎn)索賠的欺詐檢測(cè)。通過(guò)分析客戶基本特征和以往使用行為來(lái)檢測(cè)非法使用。這種監(jiān)控可以在線實(shí)時(shí)進(jìn)行,也可以定期進(jìn)行??蛻暨M(jìn)行保險(xiǎn)投訴時(shí)提供的理由的文本也是一種數(shù)據(jù)來(lái)源。正類(lèi)(欺詐交易)遠(yuǎn)不及負(fù)類(lèi)(正常交易)頻繁。27保險(xiǎn)索賠的欺詐檢測(cè)28分類(lèi)算法的應(yīng)用——電信經(jīng)典應(yīng)用——電信運(yùn)營(yíng)商、銀行、保險(xiǎn)公司等會(huì)員制公司的客戶流失分析:通過(guò)客戶消費(fèi)數(shù)據(jù)、客戶致電呼叫中心的通話(例如打電話進(jìn)行投訴或威脅要更換運(yùn)營(yíng)商)、微博上的帖子和在搜索引擎上的搜索記錄(比如關(guān)于“如何取消與中國(guó)電信的合約”),預(yù)測(cè)哪些客戶可能要離網(wǎng)或取消賬號(hào)。運(yùn)營(yíng)商可以對(duì)可能流失的顧客采取打折促銷(xiāo)等措施。29分類(lèi)算法的應(yīng)用——機(jī)電設(shè)備經(jīng)典應(yīng)用——故障預(yù)測(cè):根據(jù)傳感器數(shù)據(jù),預(yù)測(cè)設(shè)備的哪個(gè)部位容易出故障。數(shù)據(jù)實(shí)時(shí)傳回制造商。對(duì)于大型設(shè)備,制造商會(huì)及時(shí)主動(dòng)上門(mén)維修;對(duì)家用設(shè)備,制造商則通知用戶找人維修。例如:復(fù)印機(jī)、汽車(chē)、飛機(jī)、火車(chē)、軍車(chē)、游艇、鉆孔設(shè)備、發(fā)動(dòng)機(jī)30分類(lèi)算法的應(yīng)用——溝通交流經(jīng)典應(yīng)用——垃圾郵件過(guò)濾:把郵件自動(dòng)標(biāo)記為垃圾郵件或正常郵件。31分類(lèi)算法的應(yīng)用從衛(wèi)星圖像檢測(cè)石油泄漏預(yù)測(cè)犯罪可能性癌癥診斷Web新聞分類(lèi)手寫(xiě)字符識(shí)別語(yǔ)音識(shí)別32對(duì)分類(lèi)算法的常見(jiàn)應(yīng)用的小結(jié)營(yíng)銷(xiāo):響應(yīng)模型金融:客戶風(fēng)險(xiǎn)評(píng)估、欺詐檢測(cè)電信:客戶流失預(yù)測(cè)設(shè)備制造:故障預(yù)測(cè)33常見(jiàn)分類(lèi)算法34決策樹(shù)決策樹(shù)是最流行的分類(lèi)方法。直觀上看,其過(guò)程是:從根部開(kāi)始,層層分枝,最終生長(zhǎng)出樹(shù)葉,也就是形成若干葉子結(jié)點(diǎn)。它的每次劃分都是基于最顯著的特征的。所分析的數(shù)據(jù)樣本被稱(chēng)作樹(shù)根,算法從所有特征中選出一個(gè)最重要的(即最“具有信息”的,即使得所得到的兩個(gè)分支的差異最大的特征),用這個(gè)特征把樣本分割成若干子集。重復(fù)這個(gè)過(guò)程,直到所有分支下面的實(shí)例都是“純”的,即子集中各個(gè)實(shí)例都屬于同一個(gè)類(lèi)別,這樣的分支即可確定為一個(gè)葉子節(jié)點(diǎn)。在所有子集都變成“純”的后,樹(shù)就停止生長(zhǎng)了。35決策樹(shù)隨著決策樹(shù)不斷向下延伸,就好比是用榨汁機(jī)不斷擠出“知識(shí)的果汁”。36決策樹(shù)的剪枝如果決策樹(shù)建得過(guò)深,容易導(dǎo)致過(guò)度擬合問(wèn)題。當(dāng)每個(gè)分枝只對(duì)應(yīng)一個(gè)具體的實(shí)例(例如一個(gè)客戶),這個(gè)規(guī)則就完全失去了概括性。為了避免生成的樹(shù)對(duì)訓(xùn)練數(shù)據(jù)過(guò)度擬合,必須在樹(shù)生成之后,對(duì)樹(shù)進(jìn)行剪枝處理,對(duì)節(jié)點(diǎn)進(jìn)行刪減,控制樹(shù)的復(fù)雜度。剪枝對(duì)提高樹(shù)對(duì)新實(shí)例的預(yù)測(cè)準(zhǔn)確性至關(guān)重要。剪枝通常采用自下而上的方式。每次找出訓(xùn)練數(shù)據(jù)中對(duì)預(yù)測(cè)精度貢獻(xiàn)最小的那個(gè)分支,剪掉它。37決策樹(shù)的剪枝簡(jiǎn)言之,先讓決策樹(shù)瘋狂生長(zhǎng),然后再慢慢往回收縮。整體上往回縮多少,要根據(jù)在測(cè)試集上的表現(xiàn)來(lái)反復(fù)嘗試。38決策樹(shù)的用途分類(lèi)樹(shù):決策樹(shù)可以處理二分類(lèi)、多分類(lèi)問(wèn)題。這時(shí)它也叫做分類(lèi)樹(shù)?;貧w樹(shù):最早的決策樹(shù)僅用于分類(lèi)型的目標(biāo)值。它已經(jīng)擴(kuò)展到可以用于數(shù)值型目標(biāo)變量(比如預(yù)測(cè)每個(gè)人的月收入),這時(shí)它也叫回歸樹(shù)。不過(guò),回歸樹(shù)的性能不如回歸分析和神經(jīng)網(wǎng)絡(luò)。所以,在估計(jì)數(shù)值型目標(biāo)變量時(shí),它很少作為首選算法。它除了用來(lái)分類(lèi),也常常用于幫其他算法篩選出一組好的輸入變量。所以,即使最終使用的模型是其他模型,分析的初期階段也經(jīng)常用決策樹(shù)。39決策樹(shù)的優(yōu)缺點(diǎn)決策樹(shù)的最大優(yōu)點(diǎn)是它所產(chǎn)生的是一系列“如果…那么…”的判斷規(guī)則,非常直觀、通俗易懂,容易被業(yè)務(wù)人員理解,很多規(guī)則能直接拿來(lái)應(yīng)用。其輸出結(jié)果很容易可視化展示。它需要的數(shù)據(jù)預(yù)處理很少。它對(duì)數(shù)據(jù)分布沒(méi)有嚴(yán)格的要求、不容易受異常值影響、對(duì)缺失值很寬容。由于它沒(méi)使用數(shù)值型特征的實(shí)際值,而是對(duì)其進(jìn)行離散化后再使用,所以它對(duì)異常值和偏態(tài)分布不敏感。缺失值對(duì)它根本不是問(wèn)題。40決策樹(shù)的例子

——是否去相親41決策樹(shù)的例子——判斷性別決策樹(shù)的輸出結(jié)果有兩種:決策樹(shù)、規(guī)則集這是用規(guī)則集的形式展示的決策樹(shù)輸出結(jié)果42決策樹(shù)例子——是否參加戰(zhàn)斗43決策樹(shù)的其他例子根據(jù)各種用戶特征判斷該賬號(hào)是否真實(shí)根據(jù)各種天氣參數(shù)判斷是否適合打高爾夫44邏輯回歸邏輯回歸是一種常用的分類(lèi)方法。它非常成熟、應(yīng)用非常廣泛。它是回歸的一種?;貧w分析也是統(tǒng)計(jì)學(xué)中應(yīng)用最廣泛的一種分析工具?;貧w不只可以用于分類(lèi),也能用于發(fā)現(xiàn)變量間的因果關(guān)系。最主要的回歸模型有多元線性回歸(Linearregression)和邏輯回歸(Logisticregression)。前者適于連續(xù)的目標(biāo)變量,后者適于類(lèi)別型的目標(biāo)變量(比如:是否購(gòu)買(mǎi))。有些時(shí)候,邏輯回歸不被當(dāng)做典型的數(shù)據(jù)挖掘算法。45邏輯回歸的步驟它用于監(jiān)督學(xué)習(xí)時(shí)的步驟是:先訓(xùn)練,目的是找到分類(lèi)效果最佳的回歸系數(shù)。然后使用訓(xùn)練得到的一組回歸系數(shù),對(duì)輸入的數(shù)據(jù)進(jìn)行計(jì)算,判定它們所屬的類(lèi)別?;旧?,就是把測(cè)試集上每個(gè)特征向量乘以訓(xùn)練得到的回歸系數(shù),再將這個(gè)乘積結(jié)果求和,最后輸入到Sigmoid函數(shù)中即可。如果對(duì)應(yīng)的Sigmoid值大于0.5就預(yù)測(cè)為類(lèi)別1,否則為類(lèi)別0。46邏輯回歸模型的檢驗(yàn)在用模型進(jìn)行預(yù)測(cè)之前,我們希望模型中的輸入變量與目標(biāo)變量之間的關(guān)系足夠強(qiáng),為此主要做兩個(gè)診斷:對(duì)模型整體的檢驗(yàn)——R2,即全部輸入變量能夠解釋目標(biāo)變量變異性的百分之多少。

R2越大,說(shuō)明模型擬合得越好。如果R2太小,則模型不可用于預(yù)測(cè)?;貧w系數(shù)的顯著性(p-value)。如果某個(gè)輸入變量對(duì)目標(biāo)變量的作用的p-value小于0.05,則可以認(rèn)為該輸入變量具有顯著作用。對(duì)不顯著的輸入變量可以考慮從模型中去掉。47邏輯回歸模型的檢驗(yàn)其實(shí),在用于監(jiān)督學(xué)習(xí)時(shí),它最重要的檢驗(yàn)還是預(yù)測(cè)能力的檢驗(yàn)。在這方面,所采用的檢驗(yàn)方法和其他算法是一樣的:采用測(cè)試集進(jìn)行交叉檢驗(yàn),并采用ROC曲線和Lift曲線。48決策樹(shù)和邏輯回歸的比較決策樹(shù)由于采用分割的方法,所以能夠深入數(shù)據(jù)細(xì)部,但同時(shí)失去了對(duì)全局的把握。一個(gè)分枝一旦形成,它和別的分枝或節(jié)點(diǎn)的關(guān)系就被切斷了,以后的挖掘只能在局部中進(jìn)行。有些有趣的模式是局部的,例如北京和上海的大學(xué)生的微信使用習(xí)慣差別可能很大。而邏輯回歸,始終著眼整個(gè)數(shù)據(jù)的擬合,所以對(duì)全局模式把握較好。決策樹(shù)比較容易上手,需要的數(shù)據(jù)預(yù)處理較少。邏輯回歸模型不能處理缺失值,而且對(duì)異常值敏感。因此,回歸之前應(yīng)該處理缺失值,并盡量刪除異常值。49支持向量機(jī)該算法自問(wèn)世以來(lái)就被認(rèn)為是效果最好的分類(lèi)算法之一。我們可以這樣理解SVM,我們希望找到一條直線能把兩類(lèi)樣本完美的分開(kāi),盡量使樣本中從更高的維度看起來(lái)在一起的樣本合在一起。50支持向量機(jī)的原理SVM考慮尋找一個(gè)滿足分類(lèi)要求的超平面,并且使訓(xùn)練集中的點(diǎn)距離分類(lèi)面盡可能的遠(yuǎn),也就是尋找一個(gè)最優(yōu)分類(lèi)面使它兩側(cè)的空白區(qū)域(即分類(lèi)間隔、margin)最大??梢钥吹絻蓚€(gè)支撐著中間的gap的超平面,它們到中間的separatinghyperplane的距離相等。而“支撐”這兩個(gè)超平面的必定會(huì)有一些點(diǎn),而這些“支撐”的點(diǎn)便叫做支持向量(SupportVector)。5152支持向量機(jī)——選最大邊際的那個(gè)超平面53支持向量機(jī)的一個(gè)特點(diǎn)少數(shù)幾個(gè)訓(xùn)練樣本點(diǎn)(支持向量)決定了最終結(jié)果。劃分不是依賴(lài)于所有樣本點(diǎn)。因此,增、刪“非支持向量”的樣本對(duì)模型沒(méi)有影響。計(jì)算的復(fù)雜性取決于支持向量的數(shù)目,而不是樣本空間的維數(shù),這在某種意義上避免了“維數(shù)災(zāi)難”。54支持向量機(jī)的原理很多實(shí)際問(wèn)題都不是線性模型。這種訓(xùn)練數(shù)據(jù)集是線性不可分的。55支持向量機(jī)的原理解決線性不可分問(wèn)題的基本思路——向高維空間轉(zhuǎn)化,使其變得線性可分。56支持向量機(jī)的原理要想變得線性可分,就要用到核函數(shù)。SVM用核函數(shù)來(lái)避免高維運(yùn)算。57支持向量機(jī)的原理紅黑兩段線段在一維空間不可分;但在二維空間則變成可以用一條直線分開(kāi)的了。58支持向量機(jī)的優(yōu)缺點(diǎn)支持向量機(jī)經(jīng)常非常準(zhǔn)確,尤其是在處理高維數(shù)據(jù)時(shí)。支持向量機(jī)經(jīng)常用于不需要人類(lèi)直觀理解的應(yīng)用領(lǐng)域,因?yàn)槿撕茈y在高維空間中理解支持向量機(jī)產(chǎn)生的超平面。而且,它能處理那些分類(lèi)界限不明確的數(shù)據(jù)。支持向量機(jī)只能用數(shù)值型屬性。因此,對(duì)于離散的屬性,需要轉(zhuǎn)換成數(shù)值型屬性。59支持向量機(jī)的應(yīng)用由于它在解決小樣本、非線性和高維度的模式識(shí)別中的優(yōu)勢(shì),所以在如下領(lǐng)域得到廣泛應(yīng)用:自然語(yǔ)言處理、圖像識(shí)別(例如面部識(shí)別)、語(yǔ)音識(shí)別。并且也能用于商業(yè)分析。還可用于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、生物信息學(xué)。60支持向量機(jī)關(guān)鍵概念小結(jié)超平面:支持向量:核函數(shù):61在SPSSModeler中使用SVM主要需要設(shè)置兩個(gè)參數(shù):Regularization參數(shù)。這個(gè)參數(shù)用于控制分類(lèi)所得類(lèi)別間最大邊際(Margin)和最小錯(cuò)誤分類(lèi)之間的平衡。增加該值會(huì)得到準(zhǔn)確度高但可能過(guò)度擬合的模型。這是因?yàn)?,如果分?lèi)間的間隙變小,雖然引起的被錯(cuò)誤分類(lèi)的實(shí)例會(huì)很少,但可能引入過(guò)度擬合的問(wèn)題。這個(gè)值的設(shè)置往往需要不斷嘗試和比較。核函數(shù)類(lèi)型。我們可能需要嘗試不同的核函數(shù),選出分類(lèi)效果最好的一種。常用核函數(shù)有:徑向基、多項(xiàng)式等。62KNN算法K最近鄰(K-NearestNeighbor,KNN)分類(lèi)算法可以說(shuō)是整個(gè)數(shù)據(jù)挖掘分類(lèi)技術(shù)中最簡(jiǎn)單的方法。簡(jiǎn)言之,它是找K個(gè)最近鄰居的方法。由這些鄰居投票決定新的數(shù)據(jù)屬于哪個(gè)類(lèi)。KNN算法的核心思想是如果一個(gè)樣本在特征空間中的K個(gè)最相似的樣本中的大多數(shù)屬于某一個(gè)類(lèi)別,則該樣本也屬于這個(gè)類(lèi)別,并具有這個(gè)類(lèi)別上樣本的特性。KNN在確定分類(lèi)決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類(lèi)別來(lái)決定待分樣本所屬的類(lèi)別。63KNN算法的最大特點(diǎn)它跟其他分類(lèi)算法不同:其他算法都是先根據(jù)預(yù)分類(lèi)的訓(xùn)練集來(lái)訓(xùn)練模型,然后拋開(kāi)訓(xùn)練集進(jìn)行預(yù)測(cè)。而KNN的訓(xùn)練集就是模型本身。因此,選擇正確的訓(xùn)練集是KNN的最重要一步。它要求訓(xùn)練集中各個(gè)分類(lèi)的數(shù)量要體現(xiàn)實(shí)際當(dāng)中這些類(lèi)別出現(xiàn)的概率。例如,在欺詐檢測(cè)中,我們不能因?yàn)轭?lèi)別不平衡,就對(duì)非欺詐實(shí)例做“欠抽樣”。64在SPSSModeler中使用KNN算法主要有兩個(gè)參數(shù)需要設(shè)定:距離函數(shù)。鄰居的遠(yuǎn)近是按照距離函數(shù)計(jì)算的。SPSS有兩種距離計(jì)算方式供選擇。鄰居的數(shù)量。KNN中的K字母的含義就是鄰居的數(shù)量。具體設(shè)置方式有兩種:設(shè)置一個(gè)固定的K值由算法根據(jù)驗(yàn)證集來(lái)自動(dòng)決定K值65樸素貝葉斯分類(lèi)樸素貝葉斯分類(lèi)(Na?veBayesianModel)是基于貝葉斯條件概率定理的概率分類(lèi)器。這個(gè)算法比較簡(jiǎn)單。最大特點(diǎn):該模型假設(shè)特征之間相互獨(dú)立、彼此不相關(guān)。這就是它“樸素”之處。這也是很多人對(duì)它最擔(dān)心之處。人們往往先入為主地認(rèn)為,其根本性假設(shè)都不對(duì),那么效果一定好不到哪里去。但事實(shí)是,它在很多應(yīng)用中表現(xiàn)很好。66樸素貝葉斯分類(lèi)的步驟然后用一個(gè)簡(jiǎn)單的貝葉斯公式,對(duì)于某個(gè)特征,算出實(shí)例的后驗(yàn)概率(也叫條件概率)。只需把各個(gè)特征的后驗(yàn)概率相乘,就得到一個(gè)類(lèi)的總概率。選擇具有最大后驗(yàn)概率的類(lèi)作為該實(shí)例所屬的類(lèi)。67樸素貝葉斯分類(lèi)的原理樸素貝葉斯模型會(huì)通過(guò)郵件中的諸多垃圾郵件標(biāo)志物來(lái)判斷郵件是否是垃圾郵件。這些標(biāo)志物可能是詞匯(例如是否有貨幣符號(hào)),也可能是其他特征(例如是否群發(fā))。一封郵件需要多高的概率才值得貼上垃圾郵件的標(biāo)簽?這取決于三個(gè)信息:68Pr(垃圾郵件標(biāo)志物|垃圾郵件)。垃圾郵件中包含這個(gè)標(biāo)志物的概率,即這個(gè)標(biāo)志物是否經(jīng)常出現(xiàn)在垃圾郵件中。如果這個(gè)標(biāo)志物在垃圾郵件中出現(xiàn)并不頻繁,那么它顯然不是個(gè)好的標(biāo)志物。Pr(垃圾郵件)。一封垃圾郵件出現(xiàn)的基本概率,即先驗(yàn)概率。如果垃圾郵件經(jīng)常出現(xiàn),那么顯然我們正在考察的這封郵件也更有可能是垃圾郵件。Pr(垃圾郵件標(biāo)志物)。即標(biāo)志物出現(xiàn)的概率。如果標(biāo)志物在很多郵件、甚至所有郵件中都出現(xiàn),那么它就不是個(gè)好的標(biāo)志物。根據(jù)這三個(gè)信息,可以得到后驗(yàn)概率:即在出現(xiàn)垃圾郵件標(biāo)志物的前提下,郵件為垃圾郵件的可能性。69具體公式70具體公式71為什么獨(dú)立性假設(shè)是可行的?只要正確類(lèi)的后驗(yàn)概率比其他類(lèi)要高就可以得到正確的分類(lèi)。所以即使概率估計(jì)不精確,都不影響正確做出分類(lèi)。在數(shù)據(jù)預(yù)處理環(huán)節(jié),通常會(huì)進(jìn)行變量選擇,把對(duì)于高度相關(guān)的變量只保留其中一個(gè),剩下的變量之間就接近于相互獨(dú)立了。72樸素貝葉斯學(xué)習(xí)的應(yīng)用在文本分類(lèi)中被廣泛使用。最典型的應(yīng)用是垃圾郵件過(guò)濾其他還有自動(dòng)語(yǔ)言識(shí)別等。它很適合于規(guī)模巨大的郵件數(shù)據(jù)集。73貝葉斯網(wǎng)絡(luò)在上述樸素貝葉斯分類(lèi)中,如果數(shù)據(jù)集中的變量相互之間不獨(dú)立,那么預(yù)測(cè)效果會(huì)很差。貝葉斯網(wǎng)絡(luò)則放寬了變量之間相互獨(dú)立這一假設(shè)。它對(duì)于解決變量之間有關(guān)聯(lián)性的問(wèn)題很有優(yōu)勢(shì)。它把貝葉斯原理和圖論相結(jié)合。但是,在抑制了獨(dú)立性假設(shè)的同時(shí),也容易增加計(jì)算難度。74組合方法組合方法(Ensemblemethods)。常用術(shù)語(yǔ):Boosting、AdaBoost、RandomForest(隨機(jī)森林)。組合分類(lèi)器由多個(gè)成員分類(lèi)器組合而成,大家“投票”決定分類(lèi)結(jié)果。它把成員分類(lèi)器叫做弱分類(lèi)器。雖然每個(gè)弱分類(lèi)器分類(lèi)的不那么準(zhǔn)確,但是如果把多個(gè)弱分類(lèi)器組合起來(lái)可以得到相當(dāng)不錯(cuò)的結(jié)果。組合分類(lèi)分類(lèi)器往往比它的成員分類(lèi)器更準(zhǔn)確,而且分類(lèi)結(jié)果更穩(wěn)定。此類(lèi)方法類(lèi)似于投資或投票,“不把雞蛋放在一個(gè)籃子”。75組合方法的種類(lèi)組合方法主要包括:bagging,randomforest,和boosting。袋裝(Bagging)的每個(gè)弱分類(lèi)器的組合權(quán)重是相等。隨機(jī)森林(Randomforest)是建立在Bagging基礎(chǔ)上的一種方法。第一個(gè)實(shí)用的提升(Boosting)算法是AdaBoost。76組合方法——提升算法在投票中,我們希望讓各選民的意見(jiàn)有一定的多樣性。77組合方法——袋裝袋裝(Bagging)的每個(gè)弱分類(lèi)器的組合權(quán)重是相等。這就類(lèi)似于選舉中每張選票有相同的權(quán)重。而且,我們盡可能讓每個(gè)選民根據(jù)不同的信息來(lái)進(jìn)行投票。具體表現(xiàn)為:將數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行多次抽樣,每次用抽樣出來(lái)的子數(shù)據(jù)集來(lái)訓(xùn)練單個(gè)弱分類(lèi)器,最后對(duì)歷次訓(xùn)練出的各分類(lèi)器的結(jié)果進(jìn)行投票,得到最終結(jié)果。78組合方法——隨機(jī)森林Randomforest(隨機(jī)森林):隨機(jī)森林是把Bagging與隨機(jī)屬性選擇結(jié)合起來(lái)的方法。這種組合分類(lèi)器中的每個(gè)分類(lèi)器都是一棵決策樹(shù),因此分類(lèi)器的集合就是一個(gè)“森林”。79組合方法——隨機(jī)森林的步驟和Bagging類(lèi)似之處在于,每個(gè)決策樹(shù)用的訓(xùn)練樣本都是從原始訓(xùn)練集中隨機(jī)抽取出來(lái)的。每個(gè)決策樹(shù)在每個(gè)節(jié)點(diǎn)都是用隨機(jī)選擇出來(lái)的一小部分屬性來(lái)決定如何分類(lèi)。分類(lèi)時(shí),每棵樹(shù)都對(duì)每個(gè)實(shí)例投票,并返回得票最多的類(lèi)。80組合方法——隨機(jī)森林的優(yōu)點(diǎn)由于隨機(jī)森林在每次劃分時(shí)只考慮很少的屬性,所以每棵樹(shù)的生長(zhǎng)很快。因此它在大數(shù)據(jù)集上非常有效。81組合方法——提升算法在投票中,我們希望給意見(jiàn)很靠譜的選民的票較大權(quán)重。82組合方法——提升算法Bagging只是將分類(lèi)器進(jìn)行簡(jiǎn)單的組合。

Boosting則更復(fù)雜一些,它是一個(gè)迭代的算法。每個(gè)樣本都被賦予一個(gè)初始權(quán)重。每個(gè)分類(lèi)器也被賦予一個(gè)初始權(quán)重。分類(lèi)器的錯(cuò)誤率越高,越不能器重它,它的權(quán)重就應(yīng)該低。每個(gè)分類(lèi)器的權(quán)重代表其在上一輪迭代中的成功程度。同樣的道理,樣本也要區(qū)分對(duì)待。每一輪迭代都尤其關(guān)注上一輪被錯(cuò)誤分類(lèi)的實(shí)例,增加錯(cuò)誤分類(lèi)的實(shí)例的權(quán)重。最終分類(lèi)結(jié)果是弱分類(lèi)器的加權(quán)平均。83組合方法的優(yōu)點(diǎn)多個(gè)模型組合所取得的結(jié)果往往要好于單個(gè)模型。組合模型看似復(fù)雜,卻能擺脫過(guò)度擬合的宿命。因此,可以放心地讓上百個(gè)模型集合在一起。84人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)或神經(jīng)網(wǎng)絡(luò)(NN)。神經(jīng)網(wǎng)絡(luò)最早是由心理學(xué)家和神經(jīng)學(xué)家開(kāi)創(chuàng)的。它可以在計(jì)算機(jī)上模擬人類(lèi)大腦中的神經(jīng)連接。這種運(yùn)作方式使之能夠從數(shù)據(jù)中概括和學(xué)習(xí)知識(shí)。人腦中有數(shù)以百億個(gè)神經(jīng)元,它們是人腦處理信息的微單元。這些神經(jīng)元之間相互連接,使得大腦產(chǎn)生精密的邏輯思維。85人工神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是一組相互連接的輸入/輸出單元,其中每個(gè)連接都有一個(gè)權(quán)重。在“學(xué)習(xí)”階段,依據(jù)訓(xùn)練集數(shù)據(jù),反復(fù)調(diào)整這些權(quán)重以減少總誤差,使得它能更好地預(yù)測(cè)。人們難以解釋這些權(quán)重的含義。神經(jīng)元會(huì)接收到來(lái)自多個(gè)其他神經(jīng)元的輸入,但是輸出只有一個(gè)。輸出取決于不同的連接方式、權(quán)重、激勵(lì)函數(shù)。86人工神經(jīng)網(wǎng)絡(luò)的缺點(diǎn)神經(jīng)網(wǎng)絡(luò)最主要的缺點(diǎn)是可解釋性差。它的結(jié)果不容易以規(guī)則的形式表達(dá)出來(lái)。人們很難解釋權(quán)重的含義。它的工作方式就像一個(gè)黑盒,像我們的大腦一樣神秘。因此,很多數(shù)據(jù)分析師視其為黑盒子,只是在實(shí)在無(wú)計(jì)可施的時(shí)候才“放手一搏”。87人工神經(jīng)網(wǎng)絡(luò)的缺點(diǎn)它可變參數(shù)太多,幾乎可以“記住”任何事情。這使得它具有過(guò)度擬合(over-fitting)的傾向,可能導(dǎo)致模型用于新數(shù)據(jù)時(shí)效率顯著下降。它容易變得“衰老”,即隨著時(shí)間推移對(duì)新數(shù)據(jù)的分類(lèi)效果不好。應(yīng)對(duì)策略是:如果訓(xùn)練集樣本量不太大,那么隱含層有一個(gè)就夠了,而且自變量不要太多;另一方面,訓(xùn)練集樣本量要盡量大,盡量采用新數(shù)據(jù)訓(xùn)練,并使用測(cè)試集進(jìn)行交叉驗(yàn)證。88人工神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)雖說(shuō)神經(jīng)網(wǎng)絡(luò)可解釋性差,但其結(jié)果往往很正確。它最大優(yōu)點(diǎn)是能容忍含噪聲的數(shù)據(jù)。而且,它能有效發(fā)現(xiàn)非線性關(guān)系。89人工神經(jīng)網(wǎng)絡(luò)中的函數(shù)人工神經(jīng)網(wǎng)絡(luò)的處理單元本質(zhì)上是人工神經(jīng)元。每個(gè)處理單元接收到輸入,采用函數(shù)進(jìn)行處理后,進(jìn)行輸出。輸入可以是原始輸入數(shù)據(jù),也可以是其他處理單元的輸出。神經(jīng)元接收到輸入后,先是采用求和函數(shù),得到輸入及其連接權(quán)重的乘積的和;然后再用轉(zhuǎn)換函數(shù),對(duì)求和函數(shù)所得的值進(jìn)行非線性函數(shù)(經(jīng)常是S型函數(shù))運(yùn)算,得到輸出值。90人工神經(jīng)網(wǎng)絡(luò)中的函數(shù)如圖91人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練算法最常用的訓(xùn)練算法:后向傳播,即反向傳播(Backpropagation)。遵循一個(gè)迭代過(guò)程:網(wǎng)絡(luò)輸出和理想輸出之間的差異被反饋到網(wǎng)絡(luò),用以調(diào)整網(wǎng)絡(luò)權(quán)重,從而得到更接近實(shí)際值的輸出結(jié)果。92人工神經(jīng)網(wǎng)絡(luò)的常用訓(xùn)練算法——后向傳播算法93人工神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)最常用的結(jié)構(gòu):前向型拓?fù)浣Y(jié)構(gòu)最常用,它適合進(jìn)行分類(lèi)。具體包括多層感知器(Multi-LayeredPerceptron,MLP)和和徑向基函數(shù)網(wǎng)絡(luò)(radialbasisfunctionnetwork,RBF)。MLP一般包括三層:輸入層、隱藏層、輸出層。隱藏層可以有一個(gè)或多個(gè)。RBF的拓?fù)浣Y(jié)構(gòu)同樣是前向型的,但是只有一個(gè)隱藏層。MLP允許建立比較復(fù)雜的關(guān)系,但是訓(xùn)練時(shí)間更長(zhǎng)。RBF的訓(xùn)練時(shí)間較短,但預(yù)測(cè)能力差些。94人工神經(jīng)網(wǎng)絡(luò)的常用結(jié)構(gòu)——多層感知器95人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用由于它往往有很好的性能表現(xiàn),所以應(yīng)用場(chǎng)景很多。最典型的有兩個(gè)領(lǐng)域:金融:信用卡欺詐交易檢測(cè)、貸款風(fēng)險(xiǎn)評(píng)估、非結(jié)構(gòu)化數(shù)據(jù)的挖掘:圖像識(shí)別(例如手寫(xiě)字符識(shí)別)、語(yǔ)音識(shí)別、文字識(shí)別等。96深度學(xué)習(xí)深度學(xué)習(xí)的宗旨是增加人工神經(jīng)網(wǎng)絡(luò)中隱層的層數(shù),也就是深度,所以被稱(chēng)為深度學(xué)習(xí)。以往很長(zhǎng)一段時(shí)間內(nèi),由于巨大的計(jì)算量和優(yōu)化求解難度,神經(jīng)網(wǎng)絡(luò)只能包含少許隱藏層,從而限制了性能。深度學(xué)習(xí)的熱潮自2010年前后興起。隨著分布式計(jì)算等技術(shù)的發(fā)展,由于計(jì)算能力的提升,耗時(shí)數(shù)月的訓(xùn)練過(guò)程可縮短為數(shù)天甚至數(shù)小時(shí),深度學(xué)習(xí)才在實(shí)踐中有了用武之地。深度學(xué)習(xí)模仿人腦、基于神經(jīng)網(wǎng)絡(luò)。很適合理解圖像,聲音和文本。97深度學(xué)習(xí)深度學(xué)習(xí)在大數(shù)據(jù)量的條件下優(yōu)勢(shì)明顯。比如,谷歌識(shí)別貓臉實(shí)驗(yàn)中,輸入了從1000萬(wàn)個(gè)YouTube視頻中截取的圖像,參數(shù)約為10億個(gè),神經(jīng)網(wǎng)絡(luò)的隱蔽層多達(dá)7層。98深度學(xué)習(xí)基本原理深度學(xué)習(xí)對(duì)特征空間按照層次分層建模。它建立模型逐步學(xué)習(xí),試圖確定下來(lái)低層次的分類(lèi)(如字母),然后再?lài)L試學(xué)習(xí)更高級(jí)別的分類(lèi)(如詞)。99基本原理谷歌識(shí)別貓臉的實(shí)驗(yàn)位于最后的輸出層的1個(gè)神經(jīng)元已經(jīng)可以自然地識(shí)別出貓臉。當(dāng)然,可以識(shí)別的并不只是貓。人、汽車(chē)和長(zhǎng)頸鹿等各種事物都可以進(jìn)行識(shí)別。100深度學(xué)習(xí)在業(yè)界的代表性應(yīng)用Facebook:百度:微軟:101百度的深度識(shí)別應(yīng)用——百度輕拍你有可能看到的一個(gè)美女猜她是明星,你想知道她是誰(shuí)怎么辦?一張電影海報(bào),不輸入文字能找到打折票嗎?看到一片蔥綠葉子,叫不出植物名字怎么辦?102如何在R和SPSS上使用神經(jīng)網(wǎng)絡(luò)算法103先要做數(shù)據(jù)預(yù)處理不管是在R還是SPSS中,在建立神經(jīng)網(wǎng)絡(luò)模型之前,都要先進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,即歸一化。由此,可以取消各維度之間在數(shù)量級(jí)上的差別,避免因?yàn)閿?shù)量級(jí)差別較大而造成預(yù)測(cè)誤差較大。104如何在R上使用神經(jīng)網(wǎng)絡(luò)算法首先,使用nnet軟件包中的nnet()函數(shù)來(lái)利用訓(xùn)練集數(shù)據(jù)建立模型。其中主要參數(shù)為:X:自變量Y:目標(biāo)變量Size:隱藏層中的節(jié)點(diǎn)個(gè)數(shù)maxit:模型的最大迭代次數(shù)然后,再用predict()函數(shù)來(lái)利用模型,利用測(cè)試集數(shù)據(jù)進(jìn)行預(yù)測(cè)。它會(huì)自動(dòng)把每個(gè)實(shí)例歸入某個(gè)類(lèi)別(例如購(gòu)買(mǎi)vs不購(gòu)買(mǎi))。105如何在R上使用神經(jīng)網(wǎng)絡(luò)算法

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論