下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)分析模型有不同的特點(diǎn)和技術(shù),值得注意的是,大多數(shù)高級(jí)的模型都基于幾個(gè)基本原理。當(dāng)你想開(kāi)啟數(shù)據(jù)科學(xué)家的職業(yè)生涯時(shí),應(yīng)該學(xué)習(xí)哪些模型呢?本文中我們介紹了6個(gè)在業(yè)界廣泛使用的模型。目前很多輿論對(duì)機(jī)器學(xué)習(xí)和人工智過(guò)度追捧,當(dāng)你想建立預(yù)測(cè)模型時(shí),這會(huì)讓給你不禁思考,是不是只有很高階的技術(shù)才能解決問(wèn)題。但當(dāng)你自己試著編程后才會(huì)發(fā)現(xiàn),事實(shí)實(shí)際并非如此。作為一名數(shù)據(jù)工作者,你面臨的很多問(wèn)題都需要將幾個(gè)模型組合起來(lái)解決,而且其中大部分模型已經(jīng)出現(xiàn)了很長(zhǎng)時(shí)間。而且,即使你要使用先進(jìn)的模型來(lái)解決問(wèn)題,學(xué)習(xí)基本原理會(huì)讓你在大多數(shù)情況中占得先機(jī)。與此同時(shí),了解這些基礎(chǔ)模型的優(yōu)缺點(diǎn)將幫助你在數(shù)據(jù)分析項(xiàng)目取得成功。下面
2、我們就來(lái)具體看看6個(gè)數(shù)據(jù)分析師都應(yīng)該掌握的預(yù)測(cè)模型吧。01線性回歸線性回歸比較經(jīng)典的模型之一,英國(guó)科學(xué)家Francis Galton在19世紀(jì)就使用了 回歸 一詞,并且仍然是使用數(shù)據(jù)表示線性關(guān)系最有效的模型之一。線性回歸是世界范圍內(nèi),許多計(jì)量經(jīng)濟(jì)學(xué)課程的主要內(nèi)容。學(xué)習(xí)該線性模型將讓你在解決回歸問(wèn)題有方向,并了解如何用數(shù)學(xué)知識(shí)來(lái)預(yù)測(cè)現(xiàn)象。學(xué)習(xí)線性回歸還有其他好處,尤其是當(dāng)你學(xué)習(xí)了兩種可以獲得最佳性能的方法時(shí): 閉式解 一個(gè)神奇的公式,能通過(guò)一個(gè)簡(jiǎn)單的代數(shù)方程給出變量的權(quán)重。 梯度下降法 面向最佳權(quán)重值的優(yōu)化方法,用于優(yōu)化其他類型的算法。此外,我們可以用簡(jiǎn)單的二維圖在實(shí)踐中直觀地看到線性回歸,這也
3、使該模型成為理解算法的良好開(kāi)始。02邏輯回歸雖然名為回歸,但邏輯回歸是掌握分類問(wèn)題的最佳模型。學(xué)習(xí)邏輯回歸有以下幾點(diǎn)優(yōu)勢(shì):初步了解分類和多分類問(wèn)題,這是機(jī)器學(xué)習(xí)任務(wù)的重要部分理解函數(shù)轉(zhuǎn)換,如Sigmoid函數(shù)的轉(zhuǎn)換了解梯度下降的其他函數(shù)的用法,以及如何對(duì)函數(shù)進(jìn)行優(yōu)化。初步了解Log-Loss函數(shù)學(xué)習(xí)完邏輯回歸后,有什么用?你將能夠理解分類問(wèn)題背后的機(jī)制,以及你如何使用機(jī)器學(xué)習(xí)來(lái)分離類別。屬于這方面的問(wèn)題如下:了解交易是否欺詐了解客戶是否會(huì)流失根據(jù)違約概率對(duì)貸款進(jìn)行分類就像線性回歸一樣,邏輯回歸也是一種線性算法。在研究了這兩種算法之后,你將了解線性算法背后的主要局限性,同時(shí)認(rèn)識(shí)到它們無(wú)法代表許多
4、現(xiàn)實(shí)世界的復(fù)雜性。03決策樹(shù)首先要研究的非線性算法應(yīng)該是決策樹(shù)。決策樹(shù)是一種基于if-else規(guī)則的,相對(duì)簡(jiǎn)單且可解釋的算法,它將讓你很好地掌握非線性算法及其優(yōu)缺點(diǎn)。決策樹(shù)是所有基于樹(shù)模型的基礎(chǔ),通過(guò)學(xué)習(xí)決策樹(shù),你還將準(zhǔn)備學(xué)習(xí)其他技術(shù),如XGBoost或LightGBM。而且,決策樹(shù)同時(shí)適用于回歸和分類問(wèn)題,兩者之間的差異最小,選擇影響結(jié)果的最佳變量的基本原理大致相同,你只是換了一個(gè)標(biāo)準(zhǔn)來(lái)做。雖然你了解了回歸中超參數(shù)的概念,如正則化參數(shù),但在決策樹(shù)中這是極其重要的,能夠幫你明確區(qū)分模型的好壞。同時(shí),超參數(shù)在學(xué)習(xí)機(jī)器學(xué)習(xí)的過(guò)程中也至關(guān)重要,決策樹(shù)能很好地對(duì)其進(jìn)行測(cè)試。04隨機(jī)森林由于決策樹(shù)對(duì)超參
5、數(shù)和簡(jiǎn)單假設(shè)的敏感性,決策樹(shù)的結(jié)果相當(dāng)有限。當(dāng)你深入了解后,你會(huì)明白決策樹(shù)很容易過(guò)度擬合,從而得出的模型對(duì)未來(lái)缺乏概括性。隨機(jī)森林的概念非常簡(jiǎn)單。有助于在不同的決策樹(shù)之間實(shí)現(xiàn)多樣化,從而提高算法的穩(wěn)健性。就像決策樹(shù)一樣,你可以配置大量的超參數(shù),以增強(qiáng)這種集成模型的性能。集成(bagging)是在機(jī)器學(xué)習(xí)中一個(gè)非常重要的概念,能為不同的模型帶來(lái)了穩(wěn)定性,即用平均數(shù)或投票機(jī)制將不同模型的結(jié)果轉(zhuǎn)化為一個(gè)單一的方法。在實(shí)踐中,隨機(jī)森林訓(xùn)練了固定數(shù)量的決策樹(shù),并對(duì)之前所有這些模型的結(jié)果進(jìn)行平均。就像決策樹(shù)一樣,我們有分類和回歸隨機(jī)森林。如果你聽(tīng)說(shuō)過(guò) “群體智慧 這個(gè)概念,那么集成模型就相當(dāng)于將這個(gè)概念應(yīng)
6、用于機(jī)器模型訓(xùn)練。05XGBoost/LightGBM其他基于決策樹(shù)的算法,并能帶來(lái)穩(wěn)定性的模型有XGBoost或LightGBM。不僅能提升算法,還能提供更穩(wěn)健和概括性的模式。在Michael Kearns發(fā)表了關(guān)于弱學(xué)習(xí)者和假設(shè)檢驗(yàn)的論文后,關(guān)于機(jī)器學(xué)習(xí)模型的思潮得到了關(guān)注。當(dāng)中表明,增強(qiáng)模型是解決模型受到整體權(quán)衡偏差與方差的絕佳方案。此外,這些模型是Kaggle競(jìng)賽中最受歡迎的選擇。06人工神經(jīng)網(wǎng)絡(luò)最后,是當(dāng)前預(yù)測(cè)模型中的王者人工神經(jīng)網(wǎng)絡(luò)(ANNs)。人工神經(jīng)網(wǎng)絡(luò)是目前最好的模型之一,可以在數(shù)據(jù)中找到非線性模式,并在自變量和因變量之間建立真正復(fù)雜的關(guān)系。通過(guò)學(xué)習(xí)人工神經(jīng)網(wǎng)絡(luò),你將接觸到激活函數(shù)、反向傳播和神經(jīng)網(wǎng)絡(luò)層的概念,這些概念應(yīng)該為你研究
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年有研(廣東)新材料技術(shù)研究院招聘?jìng)淇碱}庫(kù)及完整答案詳解1套
- 2026年沁陽(yáng)市高級(jí)中學(xué)招聘教師備考題庫(kù)及完整答案詳解一套
- 會(huì)議召開(kāi)與通知發(fā)布制度
- 國(guó)家藥品監(jiān)督管理局新聞宣傳中心2026年度編制外人員公開(kāi)招聘?jìng)淇碱}庫(kù)完整答案詳解
- 2026年湖州市長(zhǎng)興縣第三人民醫(yī)院招聘?jìng)淇碱}庫(kù)附答案詳解
- 企業(yè)薪酬管理制度
- 2026年連云港市第一人民醫(yī)院病理科醫(yī)師招聘?jìng)淇碱}庫(kù)及一套完整答案詳解
- 2026年杭州市余杭區(qū)人民檢察院招聘高層次人員備考題庫(kù)及一套答案詳解
- 2026年沈陽(yáng)大學(xué)和沈陽(yáng)開(kāi)放大學(xué)面向社會(huì)公開(kāi)招聘急需緊缺事業(yè)單位工作人員21人備考題庫(kù)附答案詳解
- 2026年鹽城市交通運(yùn)輸局直屬事業(yè)單位公開(kāi)選調(diào)工作人員備考題庫(kù)及答案詳解一套
- 2026廣東廣州開(kāi)發(fā)區(qū)統(tǒng)計(jì)局(廣州市黃埔區(qū)統(tǒng)計(jì)局)招聘市商業(yè)調(diào)查隊(duì)隊(duì)員1人考試備考試題及答案解析
- 惠州市惠陽(yáng)區(qū)(2025年)社工崗位考試題目及答案
- 2026年遼寧現(xiàn)代服務(wù)職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能筆試參考題庫(kù)帶答案解析
- (2025年)病理學(xué)試題及答案
- 貴州省貴陽(yáng)市普通中學(xué)2024-2025學(xué)年高二上學(xué)期語(yǔ)文期末試卷(含答案)
- 廣西醫(yī)療機(jī)構(gòu)病歷書(shū)寫(xiě)規(guī)范與治理規(guī)定(第三版)
- 2026年浙江省公務(wù)員考試《行測(cè)》真題(A類)
- 2025年黨務(wù)干部考試題目及答案
- 海外安保培訓(xùn)核心科目
- 2024-2025學(xué)年安徽省合肥市蜀山區(qū)七年級(jí)上學(xué)期期末考試數(shù)學(xué)試卷
- 統(tǒng)編版 2025-2026學(xué)年 語(yǔ)文三年級(jí)上冊(cè) 第六單元 綜合過(guò)關(guān)驗(yàn)收卷 (有答案)
評(píng)論
0/150
提交評(píng)論