版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
目錄TOC\o"1-3"\h\u摘要 1關(guān)鍵詞 1Abstract 1Keywords 21引言 31.1背景和意義 31.2國內(nèi)外研究現(xiàn)狀 31.3主要工作和結(jié)構(gòu)安排 42決策樹算法簡介 42.1決策樹算法的基本原理 42.2決策樹算法的優(yōu)缺點(diǎn) 92.3手算案例 103房屋價(jià)格相關(guān)數(shù)據(jù)的收集和預(yù)處理 133.1數(shù)據(jù)來源 133.2數(shù)據(jù)預(yù)處理 144決策樹算法在房屋價(jià)格預(yù)測中的應(yīng)用 164.1決策樹模型的構(gòu)建 164.2決策樹模型的性能評估 175結(jié)果分析 196結(jié)論 20參考文獻(xiàn) 22致謝 23附錄APython程序代碼 24附錄B決策樹樹狀圖 27第第[1]。首先,該方法在訓(xùn)練樣本集上選取最佳特征,并將其視為一種新的屬性,這一特性一般由信息增益、基尼系數(shù)等測量準(zhǔn)則決定。然后根據(jù)選定的特征把數(shù)據(jù)集會被劃分為不同的子集,對于每個(gè)子集,算法會選擇一個(gè)最優(yōu)的特征來劃分該子集,并遞歸地重復(fù)這個(gè)過程,直到滿足停止條件為止。在構(gòu)建決策樹時(shí)需要確定一些參數(shù),如樹的最大深度、葉子節(jié)點(diǎn)的最小樣本數(shù)等。這些參數(shù)的設(shè)置會影響決策樹的性能評估能力。當(dāng)決策樹完全構(gòu)建好后,就可以使用它來進(jìn)行預(yù)測了。對于一個(gè)新的輸入樣本,以根結(jié)點(diǎn)為起點(diǎn),根據(jù)樣本的特征值選擇對應(yīng)的分支,最終到達(dá)葉子節(jié)點(diǎn),并將其輸出的數(shù)值作為預(yù)測的結(jié)果。決策樹算法具有簡單直觀、易于理解和解釋的優(yōu)點(diǎn),適用于處理具有離散特征的數(shù)據(jù)集。根據(jù)書本可知,構(gòu)建決策樹的算法如下:圖2.1決策樹算法原理圖由此可見決策樹的構(gòu)建是一個(gè)遞歸問題,核心在于:如何選擇最優(yōu)的特征,使得對數(shù)據(jù)集的劃分效果最好以及決定何時(shí)停止分裂節(jié)點(diǎn)。決策樹作為一種強(qiáng)大的機(jī)器學(xué)習(xí)算法,它不僅能夠解決分類問題,還能處理回歸問題。決策樹在回歸問題和分類問題中的應(yīng)用存在明顯的差別,主要體現(xiàn)在目標(biāo)變量類型、劃分準(zhǔn)則以及輸出值處理等方面。從目標(biāo)變量類型的角度來看,回歸決策樹主要用于解決回歸問題,其中目標(biāo)變量是連續(xù)數(shù)值型的,即回歸決策樹預(yù)測的是輸入特征對應(yīng)的數(shù)值輸出。與之相反,分類決策樹應(yīng)用于以離散類為對象的分類問題。在劃分準(zhǔn)則上,回歸決策樹和分類決策樹也存在不同之處?;貧w決策樹在劃分過程中使用回歸相關(guān)的準(zhǔn)則,比如用平方誤差(MeanSquaredError,MSE)或平均絕對誤差(MeanAbsoluteError,MAE)縮小預(yù)測值與實(shí)際值之間的誤差。而分類決策樹則使用分類相關(guān)的準(zhǔn)則,如基尼指數(shù)(Giniindex)或信息增益(InformationGain)來最大化類別的純度或最小化不確定性。最后,在輸出處理環(huán)節(jié),回歸決策樹把特征空間分割為幾個(gè)獨(dú)立的部分,而每個(gè)部分都擁有自己獨(dú)特的數(shù)值產(chǎn)出。對于測試數(shù)據(jù),只要按照特征將其歸到某個(gè)單元,便可得到對應(yīng)的數(shù)值輸出。而分類決策樹則是將特征空間劃分成不同的類別區(qū)域,對于測試數(shù)據(jù),根據(jù)其特征將其分類到某個(gè)類別區(qū)域,從而得到對應(yīng)的類別標(biāo)簽。綜上所述,決策樹在回歸問題和分類問題中的應(yīng)用存在明顯的差異,主要體現(xiàn)在目標(biāo)變量類型、劃分準(zhǔn)則以及輸出值處理等方面。這些差異使得回歸決策樹和分類決策樹能夠分別適用于不同類型的預(yù)測問題,并在各自的應(yīng)用領(lǐng)域中發(fā)揮重要作用。在預(yù)測房價(jià)這一具體場景中,因?yàn)榉績r(jià)是一個(gè)連續(xù)的數(shù)值,所以應(yīng)該使用決策樹來解決回歸問題。(二)介紹下面是使用數(shù)學(xué)語言詳細(xì)描述回歸決策樹算法的核心步驟:1、特征選擇:對于每一個(gè)特征X(其中i是特征的索引),計(jì)算該特征與目標(biāo)變量Y(即房價(jià))之間的某種不純度度量(如如信息增益、基尼系數(shù)等),選擇能最大程度降低劃分后數(shù)據(jù)純度的特征作為當(dāng)前節(jié)點(diǎn)的分類特征?!靶畔㈧亍北粡V泛認(rèn)為是衡量樣本集合純度的一個(gè)關(guān)鍵指標(biāo)。這個(gè)數(shù)值越高,意味著這個(gè)集合的純凈度就越低(混亂程度也越高);數(shù)值越低,意味著這個(gè)集合的純凈度越高,其混亂度也就越低。信息熵定義為: H=?i=1n其中,P(xi)表示集合中第i類樣本所占比例,當(dāng)P(xi)=1時(shí)(類別唯一,純度最高),此時(shí)log2P(xi)=0,整個(gè)系統(tǒng)的信息熵為0;當(dāng)類別越多時(shí),P(xi)的值越接近于0,log2P(xi)越接近于無窮大,整個(gè)系統(tǒng)的信息熵就越大??梢酝ㄟ^代碼展示類別數(shù)量逐漸變大時(shí)集合的信息熵變化。如下圖圖2.2信息熵變化圖信息增益(InformationGain):衡量了在利用特定特征對數(shù)據(jù)集進(jìn)行劃分后,目標(biāo)變量不確定性的降低程度。它的計(jì)算公式基于熵(Entropy)的概念。信息增益的意義在于,它反映了特征A對于減少目標(biāo)變量不確定性的貢獻(xiàn)。信息增益越大,說明特征A對于預(yù)測目標(biāo)變量的能力越強(qiáng),因此更有可能被選為劃分特征。信息增益的公式如下: GainD,a=Ent其中,D表示樣本集合,a表示屬性,v表示屬性a可能的取值種類(假設(shè)屬性a具有3中不同的取值或者范圍,則樣本經(jīng)過屬性a劃分之后最多是3分類),|Dv||D圖2.3劃分示例圖基尼系數(shù)(GiniImpurity):基尼系數(shù)是一種用于評估數(shù)據(jù)集純凈度的度量標(biāo)準(zhǔn),用于量化一個(gè)隨機(jī)選取樣本被錯(cuò)誤分類的可能性。它的數(shù)值越低,意味著數(shù)據(jù)集的純凈度越高,樣本被準(zhǔn)確分類的機(jī)會也隨之增加。基尼系數(shù)的公式如下: Ginip=基尼系數(shù)揭示了從數(shù)據(jù)集中隨機(jī)選取兩個(gè)不同類別樣本的可能性。因此,當(dāng)基尼系數(shù)降低時(shí),數(shù)據(jù)集的純度也隨之提高。在決策樹的計(jì)算方法里,基尼系數(shù)經(jīng)常被應(yīng)用于回歸分析中。通過計(jì)算每個(gè)特征的基尼系數(shù)的減少量,該算法能夠選擇具有最大減少量的特征作為分類特征。經(jīng)過劃分的子集會展現(xiàn)出更高的純凈度,進(jìn)而增強(qiáng)模型的預(yù)測能力??傮w而言,在決策樹算法中,信息增益和基尼系數(shù)都是用于特征篩選和數(shù)據(jù)集劃分的關(guān)鍵工具。它們通過衡量特征對目標(biāo)變量預(yù)測能力的貢獻(xiàn),幫助算法構(gòu)建出準(zhǔn)確、高效的決策樹模型。數(shù)學(xué)上,這通常涉及計(jì)算每個(gè)特征的劃分標(biāo)準(zhǔn),如: Impurity(Xj)=k∈partitionsnk其中,nk是第k個(gè)劃分中的樣本數(shù),N是總樣本數(shù),Var(Yk)是第k個(gè)劃分中目標(biāo)變量Y的方差。2、劃分?jǐn)?shù)據(jù)集基于所選擇的特征Xj的數(shù)值可以將數(shù)據(jù)集分為兩個(gè)或更多的子集。每個(gè)子集對應(yīng)特征Xj的一個(gè)取值范圍或類別。3、遞歸構(gòu)建子樹:對每一個(gè)劃分后的子集,重復(fù)步驟1和2,直到滿足停止條件(如達(dá)到最大深度、子集內(nèi)樣本數(shù)過少、不純度降低量小于某個(gè)閾值等)。4、葉子節(jié)點(diǎn)賦值:對于每個(gè)葉子節(jié)點(diǎn),計(jì)算該節(jié)點(diǎn)內(nèi)所有樣本目標(biāo)變量Y的平均值(或其他統(tǒng)計(jì)量),作為該葉子節(jié)點(diǎn)的預(yù)測值。數(shù)學(xué)上,這可以表示為: Predictionleaf=1nl?af?∈l?af其中,nl?af是葉子節(jié)點(diǎn)中的樣本數(shù),Yi是這些樣本的目標(biāo)變量值。5、預(yù)測新樣本:針對一個(gè)全新的樣本,我們根據(jù)其獨(dú)特的特征值,在決策樹上從根節(jié)點(diǎn)遍歷至葉子節(jié)點(diǎn),最后得到的葉子節(jié)點(diǎn)預(yù)測值將作為該樣本房價(jià)的預(yù)測依據(jù)。6、小結(jié):決策樹是一個(gè)由根到葉的遞歸過程,在每一個(gè)中間結(jié)點(diǎn)尋找劃分屬性,遞歸重要的是設(shè)置停止條件:(1)當(dāng)前的節(jié)點(diǎn)所包含的樣本都屬于相同的類別,因此沒有必要進(jìn)行分類;(2)如果當(dāng)前的屬性集是空的,或者所有樣本在所有屬性上的取值都是相同的,無法進(jìn)行劃分,那么簡單來說,就是當(dāng)分到這個(gè)節(jié)點(diǎn)時(shí),所有的屬性特征都會耗盡,沒有可用的特征了,就選擇label數(shù)量多這一節(jié)點(diǎn)打標(biāo)簽使其變成葉節(jié)點(diǎn)(其實(shí)是在用樣本出現(xiàn)的后驗(yàn)概率做先驗(yàn)概率);(3)目前結(jié)點(diǎn)包含的樣本集合是空的,不用劃分。這種情況出現(xiàn)是因?yàn)樵摌颖緮?shù)據(jù)缺少這個(gè)屬性取值,根據(jù)結(jié)點(diǎn)的label情況為該父結(jié)點(diǎn)打標(biāo)記(使用父節(jié)點(diǎn)出現(xiàn)的后驗(yàn)概率作為該節(jié)點(diǎn)的先驗(yàn)概率)。下面是決策樹算法流程圖:訓(xùn)練集D訓(xùn)練集D遍歷特征j,掃描切分點(diǎn),選擇最小的誤差平方和對于選定的劃分(j,s)計(jì)算相應(yīng)最佳c_m誤差閾值切分的最少樣本數(shù)回歸樹f(x)noyes2.2決策樹算法的優(yōu)缺點(diǎn)決策樹算法優(yōu)點(diǎn)和缺點(diǎn)如下:優(yōu)點(diǎn):(1)易于理解和解釋:決策樹生成的決策規(guī)則直觀易懂,能清晰地展示出各個(gè)特征在決策過程中的作用,不需要進(jìn)行復(fù)雜的數(shù)學(xué)建模。(2)分類效果好:決策樹算法在許多分類任務(wù)中表現(xiàn)出色,能有效地處理各種類型的數(shù)據(jù),包括連續(xù)數(shù)據(jù)和離散數(shù)據(jù)。(3)決策樹在處理非線性關(guān)系時(shí)展現(xiàn)出了出色的能力:它通過整合非線性特性,能夠更有效地處理這些關(guān)系,從而實(shí)現(xiàn)更優(yōu)的分類效果。(4)對缺失值不敏感:在處理缺失值的問題上,決策樹算法表現(xiàn)出不敏感的特性,能夠有效地應(yīng)對數(shù)據(jù)的不完整性。(5)可進(jìn)行特征選擇:決策樹算法可以自動(dòng)選擇最重要的特征,有助于降低數(shù)據(jù)的維度和簡化模型。缺點(diǎn):(1)容易過擬合:決策樹算法易產(chǎn)生復(fù)雜模型對數(shù)據(jù)進(jìn)行擬合,會造成過擬合現(xiàn)象的產(chǎn)生,即當(dāng)模型對訓(xùn)練數(shù)據(jù)具有良好性能時(shí),而對測試數(shù)據(jù)卻沒有良好性能。(2)對連續(xù)性字段難以預(yù)測:對于連續(xù)性的字段,決策樹算法的預(yù)測效果可能會較差,因?yàn)檫B續(xù)性字段的取值范圍較大,難以通過簡單的規(guī)則進(jìn)行預(yù)測。(3)對特征的關(guān)聯(lián)性敏感:當(dāng)屬性間的相關(guān)性較高時(shí),會使決策樹產(chǎn)生的模型過于復(fù)雜,從而增大了過擬合風(fēng)險(xiǎn)。(4)在大數(shù)據(jù)集上其計(jì)算能力受到限制:在大數(shù)據(jù)集上,建立和優(yōu)化決策樹算法是一件非常困難的事情。(5)對數(shù)據(jù)的預(yù)處理要求較高:對于離群點(diǎn)和噪聲點(diǎn),決策樹算法可能受到影響,需要進(jìn)行適當(dāng)?shù)念A(yù)處理來提高模型的穩(wěn)定性和分類效果。2.3手算案例為了演示決策樹算法預(yù)測房屋價(jià)格的手算案例,從Kaggle數(shù)據(jù)集(波士頓房價(jià)數(shù)據(jù)集)中隨機(jī)選擇10條數(shù)據(jù),并手動(dòng)計(jì)算決策樹的構(gòu)建過程。由于手算可能較為繁瑣,我簡化了計(jì)算過程并聚焦于關(guān)鍵步驟。下面的10個(gè)數(shù)據(jù)是從波士頓住房價(jià)格資料集中挑選出來的:圖2.4數(shù)據(jù)示例圖為了簡化,在這里僅考慮兩個(gè)特征:bedrooms(房子里的臥室數(shù)量)和stories(房子的層數(shù)),并假設(shè)它們對于預(yù)測price(價(jià)格)是重要的。并以此來構(gòu)建一個(gè)回歸決策樹來預(yù)測波士頓房價(jià)。具體如下:選擇劃分特征:假設(shè)我們根據(jù)某種準(zhǔn)則(如最高相關(guān)性)選擇bedrooms作為第一個(gè)劃分特征。確定劃分閾值:觀察數(shù)據(jù),我們可以嘗試選擇一個(gè)閾值來劃分?jǐn)?shù)據(jù)集,假設(shè)選擇bedrooms的閾值為4。劃分?jǐn)?shù)據(jù)集:根據(jù)bedrooms的值小于或大于4,將數(shù)據(jù)集劃分為兩個(gè)子集。對每個(gè)子集選擇下一個(gè)劃分特征:對于每個(gè)子集計(jì)算剩余特征(如stories)的方差,并選擇方差最小的特征作為下一個(gè)劃分特征。確定stories的劃分閾值(對于選擇了stories作為劃分特征的子集):在選擇了stories作為劃分特征的子集中,我們同樣需要選擇一個(gè)閾值來進(jìn)一步劃分?jǐn)?shù)據(jù)。遞歸構(gòu)建子樹:對于每個(gè)新劃分出的子集,重復(fù)步驟4和5,直到滿足停止條件(如子集中樣本數(shù)過少或樹的深度達(dá)到預(yù)設(shè)值)。計(jì)算葉子節(jié)點(diǎn)的預(yù)測值:對于每個(gè)葉子節(jié)點(diǎn)(即不再劃分的子集),計(jì)算該子集中目標(biāo)變量(房價(jià))的平均值或眾數(shù)作為預(yù)測值。構(gòu)建完整的決策樹:將所有劃分和預(yù)測值組合起來,形成完整的決策樹。下面開始根據(jù)bedrooms和stories為特征構(gòu)建決策樹:1):選擇初始劃分特征,計(jì)算每個(gè)特征的不純度度量,這里使用方差作為不純度的度量。我們可以計(jì)算bedrooms和stories的方差,以及它們與price(房價(jià))之間的相關(guān)性來確定哪個(gè)特征更適合作為劃分依據(jù)。為簡化計(jì)算,我們僅計(jì)算方差。方差計(jì)算公式為: Var(X)=1Ni=1其中X是特征值集合,N是樣本數(shù),xi是每個(gè)樣本的特征值,μ假設(shè)我們計(jì)算得到bedrooms的方差小于stories的方差,我們選擇bedrooms作為第一個(gè)劃分特征。2):確定bedrooms的劃分閾值,接下來,我們需要找到一個(gè)閾值來劃分bedrooms特征。假設(shè)我們選擇bedrooms的中位數(shù)作為劃分閾值。將數(shù)據(jù)集根據(jù)bedrooms是否大于或等于這個(gè)閾值劃分為兩個(gè)子集。(假設(shè)為4);3):根據(jù)bedrooms劃分?jǐn)?shù)據(jù)集,bedrooms<4的子集和bedrooms>=4的子集;4):對每個(gè)子集選擇下一個(gè)劃分特征,對于bedrooms<4的子集,我們計(jì)算stories的方差,并假設(shè)它足夠大以至于我們選擇stories作為下一個(gè)劃分特征。對于bedrooms>=4的子集,我們可能繼續(xù)使用bedrooms或其他特征進(jìn)行劃分,但為簡化,我們假設(shè)不再劃分這個(gè)子集。5):確定stories的劃分閾值(對于bedrooms<4的子集):假設(shè)我們選擇的stories的劃分閾值為3。6):遞歸構(gòu)建子樹:對于bedrooms>=4的子集,計(jì)算房價(jià)平均值作為預(yù)測值。(9870000+10150000+10150000+11410000+12215000+12250000+13300000)/7=11335000對于bedrooms<4且stories<3的子集,計(jì)算房價(jià)平均值作為預(yù)測值。(12250000+10850000)/2=11550000對于bedrooms<4且stories>=3的子集,同樣計(jì)算房價(jià)平均值作為預(yù)測值。9800000/1=98000007):計(jì)算葉子節(jié)點(diǎn)的預(yù)測值對于bedrooms<4且stories<3的子集,預(yù)測值為11550000;對于bedrooms<4且stories>=3的子集,預(yù)測值為9800000。8):構(gòu)建完整的決策樹(部分),如下圖:圖2.5決策樹構(gòu)建結(jié)果圖3房屋價(jià)格相關(guān)數(shù)據(jù)的收集和預(yù)處理3.1數(shù)據(jù)來源本研究所使用的房價(jià)數(shù)據(jù)集來自知名機(jī)器學(xué)習(xí)比賽網(wǎng)站kaggle,每條數(shù)據(jù)包含房屋面積大小、戶型等特征,目標(biāo)特征為房屋的售價(jià)。數(shù)據(jù)來源網(wǎng)站:/datasets/harishkumardatalab/housing-price-prediction.如下表(僅展示部分?jǐn)?shù)據(jù)):圖3.1數(shù)據(jù)圖該數(shù)據(jù)集提供了房價(jià)預(yù)測的全面信息,有13個(gè)列名:價(jià)格(Price):房子的價(jià)格。面積(Area):房屋的總面積(平方英尺)。臥室(Bedrooms):房子里臥室的數(shù)量。浴室(Bathrooms):房屋內(nèi)浴室的數(shù)量。樓層(Stories):房子的樓層數(shù)。主路(Mainroad):房屋是否與主路相連(是/否)??头浚℅uestroom):房屋是否有客房(是/否)。地下室(Basement):房子是否有地下室(是/否)。熱水供暖(Hotwaterheating):房屋是否有熱水供暖系統(tǒng)(是/否)??照{(diào)(Airconditioning):房屋是否有空調(diào)系統(tǒng)(是/否)。停車位(Parking):房屋內(nèi)可用停車位的數(shù)量。Prefarea:房屋是否位于首選區(qū)域(是/否)。13)裝修狀況:(Furnishingstatus)房屋的裝修狀況(全裝修、半裝修、不裝修)。數(shù)據(jù)預(yù)處理1、數(shù)據(jù)加載與查看:使用適當(dāng)?shù)膸欤╬andas)加載房屋價(jià)格數(shù)據(jù)集,查看數(shù)據(jù)的前幾行,了解數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容。數(shù)據(jù)如下(只展示了部分特征和價(jià)格):表3.1數(shù)據(jù)顯示表priceareabedroomsbathroomsstoriesmainroadguestroombasement133000007420423yesnono122500008960444yesnono122500009960322yesnoyes122150007500422yesnoyes114100007420412yesyesyes108500007500331yesnoyes101500008580434yesnono1015000016200532yesnono98700008100412yesyesyes98000005750324yesyesno2、處理缺失值:首先,通過select_dtypes方法,篩選出features數(shù)據(jù)框中所有數(shù)值類型的列(即整數(shù)和浮點(diǎn)數(shù)),并將這些列的列名存儲在numeric_features列表中。然后,使用fillna方法,將numeric_features中所有缺失值用該列的平均值填充。3、特征編碼:通過select_dtypes方法篩選出features數(shù)據(jù)框中所有對象類型的列(通常是字符串或分類變量),并將這些列的列名存儲在categorical_features列表中。然后,創(chuàng)建一個(gè)LabelEncoder對象。LabelEncoder可以將分類變量(通常是字符串)轉(zhuǎn)換為整數(shù)。接著,通過一個(gè)循環(huán),對categorical_features中的每一個(gè)分類特征,使用fit_transform方法將其轉(zhuǎn)換為整數(shù)。4、數(shù)據(jù)標(biāo)準(zhǔn)化或歸一化:通過select_dtypes方法,篩選出features數(shù)據(jù)框中所有對象類型的列(通常是字符串或分類變量),并將這些列的列名存儲在categorical_features列表中。然后,創(chuàng)建一個(gè)LabelEncoder對象。LabelEncoder可以將分類變量(通常是字符串)轉(zhuǎn)換為整數(shù)。最后,通過一個(gè)循環(huán),對categorical_features中的每一個(gè)分類特征,再次使用fit_transform方法將其轉(zhuǎn)換為整數(shù)。具體代碼如下:圖3.2數(shù)據(jù)預(yù)處理代碼圖在數(shù)據(jù)預(yù)處理后,為了降低特征維度和保留有用信息,需要進(jìn)行特征選擇和提取。特征重要性分析:通過決策樹模型訓(xùn)練后,計(jì)算各特征的重要性得分,進(jìn)一步篩選出對房價(jià)預(yù)測貢獻(xiàn)較大的特征,并排除噪聲或無用特征。通過Python使用代碼創(chuàng)建一個(gè)條形圖,其中每個(gè)條形的長度代表對應(yīng)特征的重要性分?jǐn)?shù),條形的位置對應(yīng)特征名。通過查看這個(gè)條形圖,可以快速識別出哪些特征對模型預(yù)測結(jié)果的影響最大。代碼如下:圖3.3特征分析代碼圖運(yùn)行結(jié)果如下:圖3.4特征重要性分析結(jié)果圖通過以上數(shù)據(jù)預(yù)處理和特征工程,本研究在保證數(shù)據(jù)集完整性和連續(xù)性的同時(shí),提高了決策樹模型的精度和預(yù)測能力。4決策樹的創(chuàng)建與性能評估4.1決策樹模型的構(gòu)建利用scikit-learn庫中的DecisionTreeClassifier類構(gòu)造了一個(gè)決策樹模型。使用train_test_split功能,將數(shù)據(jù)集劃分為訓(xùn)練集和測試集。代碼test_size=0.2表示測試集將包含原始數(shù)據(jù)集的20%,剩下的80%將被用作訓(xùn)練集。設(shè)置隨機(jī)種子,確保每次劃分得到相同的結(jié)果,這有助于結(jié)果的可重復(fù)性。設(shè)置決策樹的最大深度為5,以控制模型的復(fù)雜度并防止過擬合。使用fit方法用于訓(xùn)練模型。將訓(xùn)練特征X_train和對應(yīng)的訓(xùn)練目標(biāo)y_train作為輸入。在調(diào)用fit方法后,模型將學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的模式和關(guān)系,并準(zhǔn)備用于后續(xù)的預(yù)測任務(wù)。具體代碼如下:圖4.1決策樹構(gòu)建代碼圖構(gòu)建結(jié)果如下(僅展示靠近根節(jié)點(diǎn)部分):圖4.2決策樹構(gòu)建結(jié)果圖4.2決策樹模型的性能評估通過使用一些常見的回歸性能指標(biāo)來評估決策樹模型在預(yù)測房價(jià)任務(wù)上的性能,比如均方誤差(MeanSquaredError,MSE)和決定系數(shù)(CoefficientofDetermination,R2)。我使用了波士頓房價(jià)數(shù)據(jù)集,并將其拆分為訓(xùn)練集和測試集,然后創(chuàng)建一個(gè)DecisionTreeRegressor對象,并使用訓(xùn)練集對其進(jìn)行訓(xùn)練。接下來使用訓(xùn)練好的模型對測試集進(jìn)行預(yù)測,計(jì)算了均方誤差(MSE)和決定系數(shù)(R2)來評估模型性能,打印出了結(jié)果,代碼如下:圖4.3決策樹性能評估代碼圖運(yùn)行結(jié)果如下:圖4.4決策樹性能評估結(jié)果圖從運(yùn)行結(jié)果可以看出決策樹模型的均方誤差為27371.30萬元^2,表示模型預(yù)測房價(jià)與實(shí)際房價(jià)之間平均每個(gè)樣本的差異是27371.30萬元的平方。R2分?jǐn)?shù)(決定系數(shù))為0.4584840370487663,表示模型解釋了房價(jià)中約45.8%的變化,它提供了模型性能的一個(gè)量化指標(biāo)。我們應(yīng)該提升模型的性能,以減小均方誤差并提高R2分?jǐn)?shù),需要進(jìn)一步改進(jìn)模型的性。使用matplotlib庫繪制預(yù)測結(jié)果(y_pred)與實(shí)際結(jié)果(y_test)之間的對比圖,并在圖上添加了一條y=x的直線。其中每個(gè)點(diǎn)代表一個(gè)樣本,其x坐標(biāo)是實(shí)際價(jià)格,y坐標(biāo)是預(yù)測價(jià)格,y=x直線作為參考線能夠直觀地判斷模型的預(yù)測性能。實(shí)現(xiàn)代碼如下:圖4.5決策樹預(yù)測對比代碼運(yùn)行結(jié)果如下:圖4.6決策樹預(yù)測對比結(jié)果圖這條直線直觀地展示了預(yù)測值與實(shí)際值之間的吻合程度。從圖上可以看出仍然有部分?jǐn)?shù)點(diǎn)與直線偏離,說明預(yù)測還存在較大的誤差,應(yīng)該適當(dāng)?shù)恼{(diào)整參數(shù)使預(yù)測結(jié)果與實(shí)際結(jié)果更加吻合。5結(jié)果分析通過對決策樹模型的訓(xùn)練和預(yù)測,我得到了一系列準(zhǔn)確的房價(jià)預(yù)測結(jié)果。在本次利用決策樹回歸模型進(jìn)行的回歸任務(wù)中,設(shè)定了決策樹的最大深度為5,以避免模型過于復(fù)雜而引發(fā)的過擬合問題。通過對訓(xùn)練樣本集的學(xué)習(xí),可以用測試集來評價(jià)模型的性能。評估的主要指標(biāo)包括均方誤差(MSE)和決定系數(shù)(R2),這兩個(gè)指標(biāo)為我們提供了模型預(yù)測能力和擬合程度的量化描述。首先,均方誤差值為27371.30萬元^2,這是一個(gè)比較大的數(shù)值,意味著模型在預(yù)測時(shí)產(chǎn)生的誤差略大??赡艿脑蛴卸鄠€(gè)方面:1)模型復(fù)雜度不足:盡管限制了決策樹的最大深度以預(yù)防過擬合問題,然而,當(dāng)前的深度可能仍然不足以充分揭示數(shù)據(jù)中潛藏的復(fù)雜關(guān)系和模式??紤]到這一點(diǎn),適當(dāng)提升樹的深度可能會增強(qiáng)模型的預(yù)測能力,但我們必須細(xì)心地進(jìn)行操作,以免產(chǎn)生過擬合。2)數(shù)據(jù)質(zhì)量問題:測試集中可能存在噪聲或異常值,這些值會對模型的預(yù)測產(chǎn)生干擾,導(dǎo)致誤差增大。3)特征選擇問題:當(dāng)前使用的特征可能不是影響目標(biāo)變量的最關(guān)鍵因素,或者某些重要特征沒有被包括在模型中。進(jìn)行特征選擇和特征工程,如添加新的特征、刪除無關(guān)特征或進(jìn)行特征轉(zhuǎn)換來提升模型的預(yù)測精度。接下來,進(jìn)行深入分析決定系數(shù)(R2)的結(jié)果。R2值為0.4584840370487663,表明模型只能解釋約45.8%的目標(biāo)變量變化。這一研究結(jié)果說明模型在數(shù)據(jù)擬合方面的表現(xiàn)不理想,表明其性能有待提高,模型的預(yù)測能力和泛化能力均未達(dá)到預(yù)期水平,模型需要進(jìn)行相應(yīng)的調(diào)整或改進(jìn)才能更好地適應(yīng)復(fù)雜多變的數(shù)據(jù)環(huán)境。為了改善R2值,應(yīng)該考慮以下幾個(gè)方面:1)增加模型復(fù)雜度:在深入研究模型性能提升的途徑時(shí),不能忽視增加模型復(fù)雜度這一策略,這一舉措必須在避免過擬合的前提下進(jìn)行。通過增加決策樹的深度或放寬分裂節(jié)點(diǎn)的限制,使模型具備更強(qiáng)的數(shù)據(jù)擬合能力。這樣的調(diào)整有助于模型更好地捕捉數(shù)據(jù)的內(nèi)在規(guī)律,進(jìn)而提高模型預(yù)測的準(zhǔn)確性,在增加復(fù)雜度的同時(shí)要注意不會引入過多的噪聲或?qū)е履P褪シ夯芰ΑR虼?,在?shí)際操作中,需要精細(xì)調(diào)整模型的復(fù)雜度,以期在保持良好泛化性能的同時(shí),實(shí)現(xiàn)更高的預(yù)測精度。2)集成方法:在提升模型預(yù)測性能和穩(wěn)定性的探索中,集成學(xué)習(xí)方法提供了一種強(qiáng)有力的工具。與單個(gè)決策樹相比,隨機(jī)森林、梯度提升樹等集成學(xué)習(xí)方法往往具有更好的性能。這些方法通過綜合多個(gè)模型的預(yù)測結(jié)果,能夠減少單一模型可能帶來的偏差,在一定程度上提高整體的預(yù)測精度。集成學(xué)習(xí)能夠和其它模型優(yōu)化技術(shù)有機(jī)地結(jié)合起來,提高模型的整體性能。在集成學(xué)習(xí)的基礎(chǔ)上,進(jìn)一步引入特征選擇、數(shù)據(jù)預(yù)處理等步驟,來進(jìn)一步提高模型的預(yù)測準(zhǔn)確性和穩(wěn)定性。3)調(diào)整其他模型參數(shù):對除了最大深度之外的其它決策樹參數(shù)進(jìn)行調(diào)整,如min_samples_split、min_samples_leaf等,以找到最優(yōu)的參數(shù)組合。綜上所述,雖然決策樹回歸模型在一定程度上能夠處理回歸問題,但當(dāng)前的性能評估結(jié)果并不理想。為進(jìn)一步提高預(yù)報(bào)的準(zhǔn)確性、擬合效果,應(yīng)從以下幾個(gè)方面考慮,包括調(diào)整模型參數(shù)、優(yōu)化數(shù)據(jù)質(zhì)量、進(jìn)行特征工程以及嘗試使用更強(qiáng)大的模型或集成方法。在未來的工作中我將繼續(xù)深入探索和改進(jìn)模型,期待獲得更好的性能表現(xiàn)。6結(jié)論在本文中,我致力于運(yùn)用決策樹回歸模型去解決一個(gè)回歸問題。使用一個(gè)訓(xùn)練集合來精心訓(xùn)練模型,然后用這個(gè)測試集中來進(jìn)行詳細(xì)的地評估。評估的兩大核心指標(biāo)——均方誤差(MSE)與決定系數(shù)(R2),但沒有達(dá)到預(yù)期。均方誤差值偏高,決定系數(shù)偏低,這說明模型在預(yù)測時(shí)存在較大的誤差以至于對目標(biāo)變量變化的解釋能力有限。面對這樣的結(jié)果,我進(jìn)行了深入的剖析與反思。模型復(fù)雜度不足、數(shù)據(jù)質(zhì)量參差不齊以及特征選擇不當(dāng),都會導(dǎo)致這一結(jié)果。為解決這些問題,我設(shè)想了一系列改進(jìn)措施,包括調(diào)整模型參數(shù)、提升數(shù)據(jù)質(zhì)量、實(shí)施特征工程,以及嘗試更為強(qiáng)大的模型或集成方法。當(dāng)前模型的表現(xiàn)不盡如人意,但這并不意味著決策樹回歸模型不適用于此問題。它恰好提醒了我,在應(yīng)用任何模型之前,數(shù)據(jù)預(yù)處理和特征選擇都至關(guān)重要,同時(shí),也需要通過精細(xì)調(diào)整模型參數(shù)來找到最佳配置。因此應(yīng)該通過其他的途徑提升性能,探索其他類型的回歸模型或者結(jié)合更多的模型進(jìn)行集成學(xué)習(xí)。展望未來,我將繼續(xù)進(jìn)行模型的優(yōu)化與改進(jìn),希望在回歸問題上取得更好的性能。我將繼續(xù)關(guān)注數(shù)據(jù)預(yù)處理、特征選擇、模型參數(shù)調(diào)整以及模型選擇等方面,來找到最適合當(dāng)前問題的解決方案。綜上所述,盡管本次決策樹回歸模型的性能評估結(jié)果不理想,但這正是我進(jìn)一步改進(jìn)和提升模型性能的重要契機(jī)。我將以此為契機(jī),繼續(xù)深入探索與研究,期待在未來的工作中取得更為卓越的成果。
參考文獻(xiàn)丁明彬.基于小波變換和決策樹的電機(jī)滾動(dòng)軸承故障診斷[J].內(nèi)燃機(jī)與配件,2023,(23):54-57.周志華.機(jī)器學(xué)習(xí)[M].清華大學(xué)出版社,2016,(01):74-75.肖艷艷.基于決策樹模型的大學(xué)生體質(zhì)健康影響因素研究[D].華東交通大學(xué),2023.施澤陽,王禹毅,孫源,等.中醫(yī)臨床預(yù)測模型研究現(xiàn)狀及方法進(jìn)展[J/OL].現(xiàn)代中醫(yī)臨床,1-8[2024-04-01].馬佳羽,蔣青嬗.住宅價(jià)格指數(shù)編制研究進(jìn)展與方法適用性分析[J].價(jià)格理論與實(shí)踐,2023,(12):78-81.鞠默欣,周雨馨,唐偉寧,等.基于數(shù)據(jù)不均衡的CART決策樹用電異常檢測方法[J].吉林電力,2024,52(01):53-56.周亮錦,趙明揚(yáng).基于幾類機(jī)器學(xué)習(xí)模型的房價(jià)預(yù)測分析[J].全國流通經(jīng)濟(jì),2022,(06):111-116.伍嫻.基于決策樹集成的深圳市二手房價(jià)格研究[D].河南大學(xué),2021.宋堯.基于機(jī)器學(xué)習(xí)回歸模型的房價(jià)預(yù)測研究[J].電子制作,2021,(02):41-43.HongyuX,HeX,YuH.EvaluationModelofModernNetworkTeachingQualityBasedonArtificialIntelligenceE-Learning[J].InternationalJournalofWeb-BasedLearningandTeachingTechnologies(IJWLTT),2023,19(1):1-14.
附錄APython程序代碼fromsklearn.treeimportplot_treefromsklearn.treeimportDecisionTreeRegressorimportmatplotlib.pyplotaspltimportpandasaspdfromsklearn.model_selectionimporttrain_test_splitfromsklearn.treeimportDecisionTreeRegressorfromsklearn.metricsimportmean_squared_error,r2_scorefromsklearn.preprocessingimportLabelEncoder,StandardScalerimportnumpyasnp#加載數(shù)據(jù)data=pd.read_csv('boston_housing.csv.csv')#第一列是目標(biāo)變量(房價(jià))target=data.iloc[:,0]features=data.iloc[:,1:]#數(shù)據(jù)預(yù)處理和特征工程#處理缺失值#用均值填充數(shù)值特征的缺失值numeric_features=features.select_dtypes(include=[np.number]).columnsfeatures[numeric_features]=features[numeric_features].fillna(features[numeric_features].mean())#編碼分類變量#使用標(biāo)簽編碼將分類變量轉(zhuǎn)換為數(shù)值categorical_features=features.select_dtypes(include=['object']).columnslabel_encoder=LabelEncoder()forfeatureincategorical_features:features[feature]=label_encoder.fit_transform(features[feature])#標(biāo)準(zhǔn)化數(shù)值特征#標(biāo)準(zhǔn)化所有數(shù)值特征scaler=StandardScaler()features[numeric_features]=scaler.fit_transform(features[numeric_features])#劃分訓(xùn)練集和測試集X_train,X_test,y_train,y_test=train_test_split
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年江蘇能達(dá)私募基金管理有限公司公開招聘工作人員備考題庫附答案詳解
- 會議宣傳與媒體報(bào)道制度
- 2026年財(cái)達(dá)證券股份有限公司天津獅子林大街證券營業(yè)部招聘備考題庫帶答案詳解
- 南昌大學(xué)鄱陽湖教育部環(huán)境與資源利用教育部重點(diǎn)實(shí)驗(yàn)室2025年科研助理招聘備考題庫及答案詳解參考
- 企業(yè)財(cái)務(wù)預(yù)算與審核制度
- 2026年浙江空港數(shù)字科技有限公司工程項(xiàng)目部工程項(xiàng)目管理員(勞務(wù)派遣)招聘備考題庫及答案詳解1套
- 2026年黃山市徽州國有投資集團(tuán)有限公司招聘工作人員備考題庫含答案詳解
- 養(yǎng)老院入住資格審查制度
- 2026年浦發(fā)銀行總行社會招聘備考題庫帶答案詳解
- 2026年獅山中心小學(xué)道德與法治鎮(zhèn)聘教師招聘備考題庫含答案詳解
- 2024年08月北京2024年建信養(yǎng)老金管理有限責(zé)任公司校園招考筆試歷年參考題庫附帶答案詳解
- 2024年延安市市直事業(yè)單位選聘工作人員筆試真題
- 房屋市政工程生產(chǎn)安全重大事故隱患判定標(biāo)準(zhǔn)(2024版)宣傳畫冊
- 2020高職院校教學(xué)能力比賽大學(xué)語文課程實(shí)施報(bào)告(定)
- 長期合作協(xié)議書合同書
- 浙江省小型液化天然氣氣化站技術(shù)規(guī)程
- ?;钒踩芾砼嘤?xùn)課件
- 小兒鞘膜積液
- 畢業(yè)設(shè)計(jì)粘土心墻土石壩設(shè)計(jì)含計(jì)算書cad圖
- 6工程竣工驗(yàn)收交付證明書
- 《俠客風(fēng)云傳前傳》支線流程攻略1.0.2.4
評論
0/150
提交評論