版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
圖1.1所示。圖STYLEREF1\s1.SEQ圖\*ARABIC\s11研究框架路徑圖1.5創(chuàng)新點(diǎn)本文研究的創(chuàng)新點(diǎn)有:①本研究首次將隨機(jī)森林算法應(yīng)用于上饒市二手房價格預(yù)測,填補(bǔ)了該地區(qū)在房價預(yù)測方面的空白,國內(nèi)三線城市的這方面論文還是缺失研究,并且與傳統(tǒng)回歸分析方法相比,隨機(jī)森林能處理非線性關(guān)系,并在實(shí)際房價預(yù)測中顯示出更高的準(zhǔn)確性和穩(wěn)定性,研究結(jié)合了傳統(tǒng)房產(chǎn)特征(如面積、樓層、房齡等)和地區(qū)差異、裝修情況、朝向等多維度特征,全面分析了這些因素對房價的影響,進(jìn)一步提升了模型的預(yù)測能力。相關(guān)概念與方法2.1相關(guān)概念2.1.1二手房市場二手房市場和新房市場存在差異,二手房的交易價格受到諸多因素的影響,除了房屋自身的基本條件之外,還和歷史價格、所在區(qū)域、樓層狀況、房齡長短、裝修情況以及交通便利程度等因素相關(guān),二手房交易受到購房者心理、市場供需狀況以及國家政策等因素的作用,價格波動較為明顯。比如在上饒市的某一個熱門區(qū)域,二手房由于房源稀缺致使價格出現(xiàn)上漲,而在距離市中心較遠(yuǎn)的區(qū)域,價格有可能產(chǎn)生波動或者出現(xiàn)下降的情況,這和地區(qū)經(jīng)濟(jì)發(fā)展水平以及基礎(chǔ)設(shè)施建設(shè)等因素存在關(guān)聯(lián)。2.1.2房價預(yù)測房價預(yù)測是借助對歷史數(shù)據(jù)以及市場因素展開分析,估量未來一段時期內(nèi)房價變化趨向的行為,預(yù)測房價的精準(zhǔn)程度對于購房者、房地產(chǎn)開發(fā)商、投資者以及政府決策者而言意義重大,在二手房市場當(dāng)中,房價預(yù)測可幫助購房者做出決策,還可為投資者指引方向,同時為政府的市場調(diào)控提供參考依據(jù)。比如,經(jīng)由剖析某地區(qū)過去幾年的房價走勢、經(jīng)濟(jì)指標(biāo)以及人口流動數(shù)據(jù),便可預(yù)測該地區(qū)未來房價的漲跌可能性,倘若某區(qū)域有重大交通項目啟動,說不定致使該地區(qū)房價出現(xiàn)上漲情況。相關(guān)公式,房價預(yù)測常用的公式為線性回歸模型:(2.SEQ(2.\*ARABIC1)其中y表示預(yù)測的房價,x1,x2……xn為輸入特征如(面積樓層房齡等),β0,2.1.3機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)是一種借助數(shù)據(jù)和經(jīng)驗(yàn)達(dá)成計算機(jī)性能自主改善的技術(shù)模式,它與傳統(tǒng)編程方式不同,核心特點(diǎn)是依靠算法自動探尋數(shù)據(jù)里的內(nèi)在模式以及統(tǒng)計規(guī)律,并非依靠人工預(yù)先設(shè)定的明確指令體系,這項技術(shù)在金融時序預(yù)測、計算機(jī)視覺識別以及自然語言語義理解等眾多學(xué)科領(lǐng)域都體現(xiàn)出了應(yīng)用價值。在房地產(chǎn)價格預(yù)測這一具體場景中,典型的機(jī)器學(xué)習(xí)算法會剖析海量歷史交易數(shù)據(jù)里房屋物理屬性和成交價格之間的復(fù)雜映射關(guān)系,構(gòu)建出有泛化能力的預(yù)測模型。2.1.4隨機(jī)森林算法隨機(jī)森林作為一種集成學(xué)習(xí)算法,借助構(gòu)建多棵決策樹來達(dá)成預(yù)測功能,它的核心機(jī)制是,每棵決策樹在訓(xùn)練時,僅運(yùn)用隨機(jī)抽樣獲取的訓(xùn)練樣本以及特征子集,借助多數(shù)投票或者均值計算等集成策略,綜合各決策樹的輸出結(jié)果,此算法呈現(xiàn)出出色的非線性建模性能,對異常值和噪聲干擾有較強(qiáng)的魯棒性,還呈現(xiàn)出良好的泛化能力:Bootstrap抽樣:從原始數(shù)據(jù)中隨機(jī),取出再放回的抽取多個子樣本集。決策樹構(gòu)建:是對每個子樣本集去構(gòu)建一棵決策樹,當(dāng)每棵樹在分裂節(jié)點(diǎn)的時候時,隨機(jī)選擇部分特征進(jìn)行分支和分裂,非使用他的所有特征。集成預(yù)測:所有決策樹的預(yù)測結(jié)果一起去選擇通過投票(分類問題)或平均(回歸問題)得到最終的一個預(yù)測的結(jié)果。對于回歸問題,隨機(jī)森林的預(yù)測可以表示為:(2.SEQ(2.\*ARABIC2)其中y為預(yù)測結(jié)果,T為決策樹的數(shù)量,ft2.1.5特征重要性分析基于隨機(jī)森林模型的特征重要性評估機(jī)制主要依托于各輸入變量在預(yù)測過程中的貢獻(xiàn)度分析,該方法通過量化特征在決策樹節(jié)點(diǎn)分裂過程中的影響力度來實(shí)現(xiàn)關(guān)鍵特征識別。具體而言,特征重要性的度量通常采用基尼不純度或信息增益作為核心指標(biāo),其實(shí)施流程包含兩個關(guān)鍵步驟:首先針對單棵決策樹計算各特征在節(jié)點(diǎn)分裂時的貢獻(xiàn)值,隨后通過集成學(xué)習(xí)框架對所有決策樹中特征導(dǎo)致的誤差降低幅度進(jìn)行均值化處理,從而獲得全局特征重要性排序:(2.SEQ(2.\*ARABIC3)其中△Errori,t舉例:在房價預(yù)測中,面積、樓層和裝修情況可能對房價有較大影響,因此其特征重要性分?jǐn)?shù)較高,而如朝向等因素的影響可能較小,特征重要性分?jǐn)?shù)較低。2.2相關(guān)方法2.2.1數(shù)據(jù)預(yù)處理方法數(shù)據(jù)預(yù)處理在機(jī)器學(xué)習(xí)里是關(guān)鍵的一環(huán),對模型訓(xùn)練以及預(yù)測效果有著直接的影響,常見的數(shù)據(jù)預(yù)先處理方式有缺失值處理、異常值檢測、特征編碼以及數(shù)據(jù)標(biāo)準(zhǔn)化,缺失值處理方法包含均值填充、插值法和刪除法,均值填充是采用該特征的均值來替換缺失值,插值法借助插值技術(shù)去填補(bǔ)缺失值,刪除法是將含有缺失值的那些樣本給予刪除。異常值檢測可運(yùn)用箱型圖或者Z-score方法,Z-score方法計算每個數(shù)據(jù)點(diǎn)和均值的標(biāo)準(zhǔn)差距離,要是大于設(shè)定值便視為異常值,在特征編碼方面,標(biāo)簽編碼把類別變量轉(zhuǎn)變?yōu)閿?shù)字標(biāo)簽,獨(dú)熱編碼則是把每個類別特征轉(zhuǎn)化為二進(jìn)制向量,數(shù)據(jù)標(biāo)準(zhǔn)化是把數(shù)據(jù)轉(zhuǎn)化為均值為0且標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布,以此來降低特征值差異對模型訓(xùn)練的影響。例如Z-score標(biāo)準(zhǔn)化公式為:(2.SEQ(2.\*ARABIC4)其中x為原始數(shù)據(jù),μ為均值,σ為標(biāo)準(zhǔn)差2.2.2模型訓(xùn)練與評估訓(xùn)練與預(yù)測:隨機(jī)森林這個算法是去訓(xùn)練多棵決策樹,綜合多個決策樹的預(yù)測結(jié)果去得到最終的房價預(yù)測,繼續(xù)每棵樹的訓(xùn)練過程包括數(shù)據(jù)采樣、特征選擇和節(jié)點(diǎn)分裂。模型評估:為確保模型具備良好的泛化性能,本研究采用交叉驗(yàn)證方法,其核心在于將數(shù)據(jù)集劃分為多個互斥子集,通過循環(huán)迭代的方式依次將各子集作為驗(yàn)證集,其余數(shù)據(jù)作為訓(xùn)練集進(jìn)行模型訓(xùn)練與性能評估。在模型優(yōu)化方面,通過系統(tǒng)性地實(shí)施網(wǎng)格搜索或隨機(jī)搜索策略,對關(guān)鍵超參數(shù)進(jìn)行精細(xì)化調(diào)節(jié),從而顯著提升模型的預(yù)測準(zhǔn)確性。誤差評估:常用的誤差評估指標(biāo)包括:均方誤差(MSE):(2.SEQ(2.\*ARABIC5)其中yi為實(shí)際房價,y均方根誤差(RMSE):(2.SEQ(2.\*ARABIC6)決定系數(shù)(R2,CoefficientofDetermination):(2.SEQ(2.\*ARABIC7)R2值表示模型對數(shù)據(jù)的變異的解析的程度。R2的值在0和1之間,越接近1說明模型的擬合程度是越好。2.2.3隨機(jī)森林算法①基礎(chǔ)知識——決策樹算法從算法本質(zhì)而言,分類決策樹通過分析數(shù)據(jù)特征實(shí)現(xiàn)樣本分類,其邏輯結(jié)構(gòu)可視為一系列基于if-then規(guī)則的判斷語句集合,其中條件判斷的主體對應(yīng)于數(shù)據(jù)集的特定特征指標(biāo)。在概率論視角下,該算法實(shí)質(zhì)上構(gòu)建了特征空間上的條件概率分布體系,通過將特征空間劃分為若干互斥子區(qū)域來實(shí)現(xiàn)分類功能。就回歸任務(wù)而言,決策樹依據(jù)目標(biāo)特征將樣本映射至特定子空間,并采用該區(qū)域統(tǒng)計量作為預(yù)測輸出值。當(dāng)前主流的決策樹算法主要包括ID3、C4.5及CART三類,其中C4.5算法因其優(yōu)越性能而獲得廣泛應(yīng)用。為深入闡釋節(jié)點(diǎn)選擇機(jī)制,現(xiàn)以C4.5算法為例引入若干核心概念:設(shè)訓(xùn)練數(shù)據(jù)集為S,類別總數(shù)為K,第k類樣本子集元素數(shù)量記為D,數(shù)據(jù)集總樣本量表示為|S|,基于此可構(gòu)建熵E(S)的數(shù)學(xué)模型,其具體計算公式如下所述:(2.SEQ(2.\*ARABIC8)熵表示數(shù)據(jù)集的混亂程度,數(shù)據(jù)集S對特征A的條件熵,計算方法為:(2.SEQ(2.\*ARABIC9)由此得到信息增益:(2.SEQ(2.\*ARABIC10)信息增益代表數(shù)據(jù)的變化與差異程度,而決策樹分類的目的便是在于區(qū)分樣本集,分成的兩類樣本差異越大越好,信息增益最大就成為了特征選擇的依據(jù)與準(zhǔn)則。通過信息增益來進(jìn)行特征選擇是ID3算法的做法,然而當(dāng)某一特征具有較多取值時,信息增益指標(biāo)往往呈現(xiàn)較高數(shù)值,這可能導(dǎo)致特征選擇過程偏向于取值較多的特征。為克服這一局限性,C4.5算法提出了改進(jìn)方案,采用信息增益比這一替代性指標(biāo)。該指標(biāo)的具體計算公式如下所述:(2.SEQ(2.\*ARABIC11)②模型介紹隨機(jī)森林算法(RandomForest,RF)就是使用隨機(jī)的新的方式建立一個大的森林。這種方法是一種經(jīng)典的Bagging算法,Bagging算法的根本如圖2-1所示。圖STYLEREF1\s2.SEQ圖\*ARABIC\s11Bagging算法原理圖隨機(jī)森林算法是一種基于Bagging算法思想的集成學(xué)習(xí)方法,它借助構(gòu)建多棵決策樹來達(dá)成模型集成,其基本組成單位是決策樹,可同時應(yīng)用于分類任務(wù)與回歸任務(wù),在構(gòu)建決策樹時該算法運(yùn)用雙重隨機(jī)采樣機(jī)制,先是開展有放回的樣本抽樣,接著在特征空間里進(jìn)行隨機(jī)特征選擇,重復(fù)這個過程m次后最終形成包含m棵決策樹的集成模型。隨機(jī)森林算法不用進(jìn)行剪枝操作就能有效防止過擬合現(xiàn)象,這要?dú)w功于其獨(dú)特的集成機(jī)制,每棵決策樹就如同特定領(lǐng)域的弱學(xué)習(xí)器,憑借集體決策實(shí)現(xiàn)從弱到強(qiáng)的性能提高,處理新樣本時,此算法可整合不同決策樹的預(yù)測結(jié)果,從多個維度展開分析得出最終預(yù)測,隨機(jī)森林算法呈現(xiàn)出優(yōu)良的分類精度,擁有處理大規(guī)模數(shù)據(jù)以及高維特征的能力,還可以量化各特征在分類任務(wù)里的關(guān)鍵性貢獻(xiàn)。
上饒市二手房數(shù)據(jù)探索性分析3.1數(shù)據(jù)說明3.1.1研究數(shù)據(jù)來源本文使用爬蟲對安居客網(wǎng)站上上饒市主要幾個城區(qū)信州區(qū),上饒縣,廣豐區(qū),玉山縣,鄱陽縣的二手房價格進(jìn)行爬取。安居客是我國知名的二手房市場網(wǎng)站,相比于同一城市在鏈家網(wǎng)或者貝殼網(wǎng)站上可采集的在售數(shù)據(jù)更多,而且能具體到區(qū)和縣級市,可以說是很好用的一個房屋網(wǎng)站,業(yè)務(wù)范圍幾乎覆蓋我國的大部分的城市。圖3-1是安居客網(wǎng)站上所展示的每套二手房房源的部分信息,如房屋總價、單價、戶型、建筑面積、房屋朝向、樓層數(shù)、建造年代、小區(qū)名稱、房屋位置等信息。如果以后得話經(jīng)深入采集后,想要繼續(xù)研究還可進(jìn)一步獲取到裝修程度、產(chǎn)權(quán)性質(zhì)、綠化、物業(yè)類型、房本年限等信息。圖STYLEREF1\s3.SEQ圖\*ARABIC\s11安居客網(wǎng)頁展示圖3.1.2數(shù)據(jù)清洗基于安居客平臺獲取的上饒市房產(chǎn)數(shù)據(jù)共計7815條,經(jīng)初步整理后存儲于Excel表格中。鑒于網(wǎng)絡(luò)爬取數(shù)據(jù)的固有特性,原始數(shù)據(jù)集可能存在信息冗余、字段缺失及異常值等問題,若未經(jīng)處理直接用于分析,將顯著降低數(shù)據(jù)質(zhì)量并損害后續(xù)建模效果。為確保分析結(jié)果的可靠性及模型訓(xùn)練的準(zhǔn)確性,本研究采用數(shù)據(jù)清洗技術(shù)對原始數(shù)據(jù)進(jìn)行預(yù)處理,并通過探索性數(shù)據(jù)分析方法將數(shù)據(jù)轉(zhuǎn)換為符合機(jī)器學(xué)習(xí)模型輸入要求的規(guī)范化格式。首先要做的是,把數(shù)據(jù)里的重復(fù)項以及空白項數(shù)據(jù)給刪掉,同時去除那些和本文研究目標(biāo)沒關(guān)聯(lián)的數(shù)據(jù),比如說,像物業(yè)類型是公寓、商住樓,以及房屋所在區(qū)是其他城市的房源數(shù)據(jù),像信州區(qū)、上饒縣、廣豐區(qū)等不屬于上饒市核心區(qū)域的數(shù)據(jù)都要刪除,緊接著,把和房價變化沒什么關(guān)系的列給去掉,比如小區(qū)名稱、房屋所在街道、中介姓名等,隨后,提取所需的字段信息,像是分離樓層高低與總樓層數(shù)、建造年代、建筑面積等,修復(fù)錯誤數(shù)據(jù)并且刪除異常值數(shù)據(jù)。具體的操作有:把“城西區(qū)”“月湖區(qū)”合并成“上饒市區(qū)”,對其他區(qū)名進(jìn)行規(guī)范化處理,比如把“新區(qū)”統(tǒng)一成“信州區(qū)”,還把數(shù)據(jù)集中的“暫無”“未知”等數(shù)值替換成缺失值,方便后續(xù)進(jìn)行處理,經(jīng)過這些數(shù)據(jù)清洗以及修正的操作,最終獲得了7796條上饒市核心城區(qū)的二手房價格數(shù)據(jù),里面包含多個特征變量,有房屋朝向、樓層高低、裝修情況、是否有電梯、建筑面積、建造年代、所在區(qū)縣、房本年限等。房屋類型指的是房屋的類別,比如普通住宅、商業(yè)房產(chǎn)等,借助這些清洗工作,保障了數(shù)據(jù)質(zhì)量,為后續(xù)模型訓(xùn)練以及預(yù)測提供了準(zhǔn)確、可靠的數(shù)據(jù)支持。3.2統(tǒng)計探索性分析3.2.1房源標(biāo)題的詞云圖分析如圖4-2所示。通過分析詞云圖,可以看出標(biāo)題中頻繁出現(xiàn)的關(guān)鍵詞有:朝向、透光、精裝修、拎包入住、采光、配套、急售等。從這些結(jié)果可以看出,絕大多數(shù)買房者關(guān)注的主要是房屋的居住屬性,尤其是房屋的裝修情況、房屋類型以及樓層信息。此外,急售這一信息詞的出現(xiàn)也反映了房主在出售房產(chǎn)時的急迫性,這可能暗示著上饒市某些地區(qū)房產(chǎn)市場面臨一定的銷售壓力,同時也能反映出一部分房主對未來市場預(yù)期的不確定性,而且拎包入住的占比很多,說明當(dāng)人們購買二手房是更多的是為了居住屬性,能夠直接入住更能吸引購房者。圖STYLEREF1\s3.SEQ圖\*ARABIC\s12二手房標(biāo)題詞云圖3.2.2述性統(tǒng)計分析①各區(qū)縣二手房的分布情況如圖3-3所示,本研究基于安居客平臺采集的房源數(shù)據(jù)在各城區(qū)的樣本分布呈現(xiàn)顯著差異,其中信州區(qū)和上饒縣的樣本規(guī)模最大,而玉山縣的二手房樣本量最少。這一分布特征不僅揭示了該平臺房源展示機(jī)制存在區(qū)域不平衡性,同時也間接反映了上饒市不同區(qū)縣二手房市場活躍程度的潛在差異,信州區(qū)與上饒縣集中了大量的數(shù)字經(jīng)濟(jì),工業(yè)和商貿(mào)服務(wù)業(yè),包括華為,晶科能源等企業(yè)。上饒市的經(jīng)濟(jì)和就業(yè)機(jī)會主要集中在市區(qū)和開發(fā)區(qū),尤其是信州區(qū),該區(qū)是市中心,政府重點(diǎn)發(fā)展商業(yè)、金融和服務(wù)業(yè),導(dǎo)致房產(chǎn)市場活躍,并且由于教育資源集中,學(xué)區(qū)房需求大,成為購房者首選;相比之下,廣豐區(qū)、玉山縣和鄱陽縣雖然在基礎(chǔ)設(shè)施上有所改善,但由于經(jīng)濟(jì)和就業(yè)機(jī)會較少,房產(chǎn)市場需求較低,銷售主要來自當(dāng)?shù)鼐用褡宰⌒枨螅S著交通基礎(chǔ)設(shè)施改善,特別是高鐵和高速公路建設(shè),部分偏遠(yuǎn)區(qū)域房產(chǎn)市場有了改善。作為交通樞紐的上饒市受益于高鐵發(fā)展,成為江西省和華東地區(qū)的重要高鐵節(jié)點(diǎn),自2015年合福高鐵開通以來,上饒成為高鐵網(wǎng)絡(luò)的一部分,進(jìn)一步發(fā)展成江西省的交通樞紐,提升了房產(chǎn)市場和經(jīng)濟(jì)發(fā)展,高鐵開通后,特別是對外來投資者和購房者而言,上饒的地理優(yōu)勢更為明顯,吸引了更多外地購房需求,尤其是來自經(jīng)濟(jì)發(fā)展較快城市的購房者,高鐵樞紐建設(shè)推動了周邊城市和縣區(qū)的經(jīng)濟(jì)增長,并增加了上饒市的就業(yè)機(jī)會,特別是高鐵沿線區(qū)域。信州區(qū)借高鐵的開通進(jìn)一步鞏固了其作為經(jīng)濟(jì)、商業(yè)和文化中心的地位,促進(jìn)了商業(yè)和服務(wù)業(yè)發(fā)展,推高了房產(chǎn)需求和銷售量。高鐵樞紐還改善了上饒的城市基礎(chǔ)設(shè)施,為各區(qū),特別是經(jīng)濟(jì)較落后的地區(qū),帶來更多發(fā)展機(jī)會,隨著高鐵的進(jìn)一步發(fā)展,信州區(qū)和一些新興開發(fā)區(qū)的房產(chǎn)銷售增長,推動了上饒市整體房產(chǎn)市場的繁榮,成為上饒市房地產(chǎn)市場的重要推動力。圖STYLEREF1\s3.SEQ圖\*ARABIC\s13各區(qū)縣二手房樣本量分布②各區(qū)縣二手房價分布情況由圖2的箱線圖可以看出,不同地區(qū)的二手房價格差別是比較大的。而各區(qū)縣的房價中位數(shù)(即箱體的中線)差異明顯,信州區(qū)的房價相對比較高,而上饒縣、鄱陽等區(qū)的房價則比較低。從箱體上下界觀察,上饒縣與鄱陽的房價分布相對集中,這兩個區(qū)域的二手房房價波動較小,相比之下,信州區(qū)、廣豐等其他區(qū)域的箱體上下界相對較寬,意味著這些區(qū)域的房價分布更為分散,價格差距較大,從圖中橙色的均值點(diǎn)來看,上饒縣的房價均值較高,約為7200元/平方米,而鄱陽的房價均值約在5800元/平方米,顯示出不同區(qū)縣間存在房價差異。其中上饒縣房價較高,可能與其作為上饒市的政治、經(jīng)濟(jì)中心,眾多產(chǎn)業(yè)在此布局,以及交通和生活便利有關(guān),而鄱陽地區(qū)因相對偏遠(yuǎn),房價較低,在每個箱體外,能看到少量散點(diǎn),這些離群點(diǎn)代表著少數(shù)極端高價或低價的房源,可能與特殊房產(chǎn)條件如豪宅、特殊地段等相關(guān)圖STYLEREF1\s3.SEQ圖\*ARABIC\s14上饒各區(qū)二手房價格箱線圖(包含均值)③房屋戶型分布情況本研究通過數(shù)據(jù)采集共獲取43種不同戶型樣本,但考慮到部分戶型樣本量過少,圖3-5僅展示樣本量排名前五的戶型分布情況。統(tǒng)計結(jié)果顯示,3室2廳2衛(wèi)戶型占比最高,其次依次為4室2廳2衛(wèi)、3室2廳1衛(wèi)、2室2廳1衛(wèi)和2室1廳1衛(wèi)。為便于量化分析,本研究將上述五種主流戶型分別編碼為1至5,并繪制其房價箱線圖。數(shù)據(jù)分析表明,除4室2廳2衛(wèi)戶型的中位房價顯著高于其他戶型外,整體呈現(xiàn)房屋單價隨臥室、客廳及衛(wèi)生間數(shù)量增加而上升的趨勢。這一現(xiàn)象契合房地產(chǎn)市場的基本規(guī)律,顯示出高購買力群體更偏向于挑選功能空間更為完備的大戶型住宅,隨著戶型面積的增大,房屋單價一般也會上升,舉例來講,2室1衛(wèi)1廳戶型的房價相對較低,價格分布較為集中,不過也存在一些偏離整體趨勢的數(shù)據(jù)點(diǎn),2室2衛(wèi)1廳戶型的房價稍高于前一種戶型,價格波動幅度較小。3室2衛(wèi)2廳戶型的平均價格更高,并且波動幅度較大,這意味著該戶型受房源質(zhì)量、樓層以及裝修等因素的影響更為較大,4室2衛(wèi)2廳戶型的房價最高,而且高端房源中偏離整體趨勢的數(shù)據(jù)點(diǎn)明顯,該戶型的價格差異較大,或許與房屋位置、裝修標(biāo)準(zhǔn)以及附加設(shè)施有關(guān),綜合來看,較大的戶型價格波動更為明顯,同時房屋條件對價格的影響也較大。圖STYLEREF1\s3.SEQ圖\*ARABIC\s15樣本量前五的戶型分布圖STYLEREF1\s3.SEQ圖\*ARABIC\s16樣本量前五的戶型房價箱線圖④其他的差別性特征為深入探究數(shù)據(jù)集中其余分類型特征對二手房單價的影響機(jī)制,本研究繪制了各特征與房屋單價關(guān)系的箱線圖,通過可視化分析手段系統(tǒng)呈現(xiàn)了不同特征取值條件下房屋單價的分布規(guī)律與差異性特征。圖STYLEREF1\s3.SEQ圖\*ARABIC\s17其他分類型變量與房價的箱線圖可以得到一些基本結(jié)論:有無電梯會對房價產(chǎn)生一定影響,沒有電梯的房屋平均單價為每平方米6580元,比有電梯的房屋單價每平方米6540元要高,二者差別不大,原因或許在于無電梯房源囊括了低樓層房屋,盡管這些房屋沒有電梯,但因地理位置、學(xué)區(qū)等因素,價格有可能偏高,一些無電梯房或許是別墅或低層住宅,這類房源一般土地面積較大,私密性良好,戶型也不錯,價格較高,而且無電梯房源的類型較為多樣,包含低層、多層、別墅等不同市場定位的房屋,這些因素也可能致使整體均價被抬高。實(shí)證分析說明,不同樓層的住宅單價沒有呈現(xiàn)出較大不同,樓層因素對于房價的邊際效應(yīng)比較有限,這種現(xiàn)象或許源于市場供需關(guān)系的均衡作用或者購房者偏好的趨于相同,多數(shù)購房者除了極端樓層之外,對樓層選擇表現(xiàn)出較低的敏感度,在朝向方面,研究結(jié)果說明其對房價的解釋能力較弱,這可能是因?yàn)橄M(fèi)者對朝向?qū)傩缘年P(guān)注程度低或者測量指標(biāo)的劃分不夠精細(xì),不過需要指出的是,南向住宅在價格上升階段仍然呈現(xiàn)出一定的溢價特點(diǎn),關(guān)于裝修狀態(tài)的影響,毛坯房和精裝修住宅有較高的價格水平,前者可能得益于新房效應(yīng)以及配套政策因素,而簡裝住宅的價格劣勢則符合市場預(yù)期,這體現(xiàn)出裝修程度借助品質(zhì)信號機(jī)制對房價產(chǎn)生不同的影響。⑤數(shù)值型特征情況為了清晰知曉數(shù)據(jù)集中各個數(shù)值型字段呈現(xiàn)出怎樣的分布狀況,二手房基本屬性選取房屋單價、建筑面積、建造年代這3個特征來展開分布可視化的示例。如圖3-9所示。圖STYLEREF1\s3.SEQ圖\*ARABIC\s18上饒市二手房單價分布根據(jù)圖3-8的觀察,可以看出,上饒市的房屋單價主要集中在4000元/㎡至10000元/㎡之間,且5000元/㎡左右的房源較為常見,符合剛需購房者的需求。對于15000元/㎡及以上的高價房源,其數(shù)量較少,并不能代表上饒市的整體市場情況。由于上饒市的房地產(chǎn)市場主要以剛需房為主,因此本文更多從剛需購房者的角度進(jìn)行分析,不會過多討論高端市場或?qū)W區(qū)房的情況。圖STYLEREF1\s3.SEQ圖\*ARABIC\s19上饒市二手房建造面積分布根據(jù)圖3-9來看,大多數(shù)房屋的建筑面積集中在70平方米到120平方米之間,尤其是90平米到110平米的房源最為常見,這與剛需購房者的需求高度契合,且更多的房源集中在100平米以下。在上饒市,近年來的房源大多是低層和小高層住宅,符合當(dāng)?shù)刭彿空叩男枨蠛褪袌鲒厔?。圖STYLEREF1\s3.SEQ圖\*ARABIC\s110上饒市二手房建造年代分布根據(jù)圖3-10來看,大多數(shù)房屋建造年代集中在2010年以后,特別是2015年至2020年期間,房源數(shù)量最多,這反映了上饒市房地產(chǎn)市場的活躍和地區(qū)的政策新聞的刺激的影響。但在2020年后,房源數(shù)量急劇下降,可能與疫情和市場平穩(wěn)有關(guān)。3.3本章小結(jié)在這一章節(jié)里針對上饒市二手房數(shù)據(jù)展開分析,對數(shù)據(jù)的來源、清洗以及初步統(tǒng)計結(jié)果都進(jìn)行了細(xì)致說明,數(shù)據(jù)源自安居客網(wǎng)站,覆蓋上饒市多個城區(qū)的二手房信息,在數(shù)據(jù)清洗階段,將冗余以及無關(guān)的數(shù)據(jù)給予去除,對異常值加以修正,最終得到了7796條可靠的房價數(shù)據(jù),為后續(xù)的分析以及模型訓(xùn)練奠定了基礎(chǔ)。于統(tǒng)計分析當(dāng)中,借助詞云圖對二手房標(biāo)題里常見的關(guān)鍵詞做了分析,借此揭示出房屋的居住屬性以及市場壓力,的統(tǒng)計分析說明,不同區(qū)縣的二手房市場活躍度存在差異,信州區(qū)和上饒縣身為經(jīng)濟(jì)中心,房產(chǎn)市場相對活躍,鄱陽等區(qū)域則比較平穩(wěn),高鐵建設(shè)使得上饒市的交通便利性得到提升,給房產(chǎn)市場給予了積極作用。房屋價格、建筑面積以及建造年代等因素對市場趨勢有著影響,上饒市的二手房單價大多集中在4000元/㎡至10000元/㎡之間,可契合剛需購房者的需求,多數(shù)房屋建筑面積集中在70至120平方米,契合剛需市場,建造年代集中在2010年以后,2015至2020年間的房源數(shù)量較多,體現(xiàn)出政策推動以及市場活躍所產(chǎn)生的影響。綜合來看,上饒市的二手房市場受經(jīng)濟(jì)、交通以及教育資源的影響較為較大,區(qū)域間價格差異明顯,未來或許會隨著區(qū)域發(fā)展而產(chǎn)生變化。上饒市二手房價格評估模型算法與未來預(yù)測4.1特征工程4.1.1特征準(zhǔn)備與數(shù)據(jù)清洗在這一部分內(nèi)容里,對數(shù)據(jù)準(zhǔn)備過程展開了介紹,其覆蓋了數(shù)據(jù)的讀取操作、清洗工作以及特征工程,數(shù)據(jù)準(zhǔn)備屬于機(jī)器學(xué)習(xí)里相當(dāng)關(guān)鍵的一個步驟,它會直接對模型的表現(xiàn)以及預(yù)測的準(zhǔn)確性產(chǎn)生影響,本研究當(dāng)中所使用的數(shù)據(jù)源自上饒市二手房信息數(shù)據(jù)集,在經(jīng)過了清洗以及處理之后,可保證數(shù)據(jù)的質(zhì)量以及一致性。為了更方便如下表4-1所示。表STYLEREF1\s4.SEQ表\*ARABIC\s11 屬性特征變量位置屬性房屋位置、所在區(qū)縣房屋屬性房屋總價、單價、戶型、建筑面積、房屋朝向、小區(qū)屬性樓層數(shù)、建造年代、小區(qū)名稱、4.1.2特征處理①數(shù)據(jù)讀取和初步檢查開始階段運(yùn)用pandas庫讀取了上饒市二手房的原始數(shù)據(jù)文件,該文件為Excel格式,為保證可正確處理數(shù)據(jù),先行打印了所有列名,以此檢查數(shù)據(jù)集的結(jié)構(gòu),此步驟頗為關(guān)鍵,鑒于在實(shí)際數(shù)據(jù)處理進(jìn)程中,列名有可能存在錯誤或者不一致的命名情形,預(yù)先了解數(shù)據(jù)結(jié)構(gòu)實(shí)屬必要。②處理總價數(shù)據(jù)原始數(shù)據(jù)里的“總價”這一列含有不一樣的單位,像“元”以及“萬”,為了讓計算更為便利以及利于模型訓(xùn)練,針對這些單位做了處理,先是把“元”和“,”符號給去除掉,接著借助apply函數(shù)把以“萬”為單位的房價轉(zhuǎn)變成具體的數(shù)值,乘以10000使其轉(zhuǎn)化成標(biāo)準(zhǔn)的單位,如此一來,便得到了一個統(tǒng)一的總價數(shù)值,以此保證數(shù)據(jù)的一致性與可用性。③處理均價數(shù)據(jù)針對“均價”列實(shí)施了清洗操作,原始數(shù)據(jù)里的“均價”字段帶有單位“元/㎡”,借助str.replace函數(shù)把這些單位給予去除,將剩余的數(shù)值轉(zhuǎn)變?yōu)楦拥臄?shù)值型數(shù)據(jù),此步驟對后續(xù)模型訓(xùn)練意義重大,畢竟機(jī)器學(xué)習(xí)模型難以處理帶有文本或者非數(shù)值型的特征。④處理面積數(shù)據(jù)關(guān)于“面積”這一列,原始數(shù)據(jù)里的面積單位是“㎡”,借助str.replace方法去除了“㎡”符號,還把數(shù)據(jù)轉(zhuǎn)換成了浮動的數(shù)值類型,在此過程當(dāng)中,保證了所有面積數(shù)據(jù)都是一致的,可用于后續(xù)的分析工作。⑤處理建造年代數(shù)據(jù)“建造年代”這一列之中包含著房屋建造年份方面的信息,然而其格式并非統(tǒng)一狀態(tài),借助正則表達(dá)式把年份部分提取出來,將其轉(zhuǎn)變成為數(shù)值型的數(shù)據(jù),如此一來,房屋的建造年份可作為一項有效的特征在模型里參與進(jìn)來,對房價預(yù)測產(chǎn)生影響。⑥缺失值的解決對于數(shù)值型特征如總價、均價、面積等,采用均值填充方法替換缺失值,而對于類別型特征像朝向、樓層、區(qū)縣等,運(yùn)用眾數(shù)填充,保證數(shù)據(jù)集完整。⑦類別變量編碼為了讓機(jī)器學(xué)習(xí)模型可有效地處理類別變量,本研究運(yùn)用LabelEncoder方法,針對“朝向”“樓層”“區(qū)縣”以及“戶型”等分類特征開展標(biāo)簽編碼處理工作,具體是借助把各個分類值映射成為特定整數(shù)的轉(zhuǎn)換形式,讓原始的分類數(shù)據(jù)轉(zhuǎn)變?yōu)閿?shù)值型表征,這種預(yù)處理辦法保證了所有輸入特征都擁有數(shù)值化屬性,還為后續(xù)的模型訓(xùn)練奠定了規(guī)范化的數(shù)據(jù)基礎(chǔ)。⑧創(chuàng)建交叉特征為可更高效地捕捉數(shù)據(jù)之中潛藏的關(guān)系,我們構(gòu)建了若干交叉特征,比如將“區(qū)縣”“面積”“戶型”相互結(jié)合,生成了“區(qū)縣_面積_戶型”交叉特征,又把“樓層”與“朝向”進(jìn)行結(jié)合,形成了“樓層_朝向”交叉特征,這些交叉特征可更為精準(zhǔn)地反映不同特征之間的相互作用,以此提升模型的預(yù)測能力。⑨房本年限計算房屋的房本年限也就是房屋的產(chǎn)權(quán)年限,是影響房價的一個關(guān)鍵要素,借助2025年這個當(dāng)前年份減去房屋的建造年代,計算得出每一個房屋的房本年限,在房地產(chǎn)市場里,這一特征經(jīng)常被視作評估房屋價值的關(guān)鍵參考依據(jù)。⑩對數(shù)變換房價分布一般呈現(xiàn)偏態(tài)分布,采用對數(shù)變換可減少偏態(tài)性,提升模型穩(wěn)定性與預(yù)測能力,對“總價”及“面積”做對數(shù)變換,得到“總價_log”與“面積_log”兩個新特征,讓數(shù)據(jù)分布更趨均勻。?特征選擇特征準(zhǔn)備工作完成以后,挑選出了與房價預(yù)測關(guān)聯(lián)最為緊密的特征,“總價_log”以及“面積_log”被留作目標(biāo)變量,還選取了像是“建造年代”“樓層”“朝向”等關(guān)鍵特征作為輸入特征,最終得到了一個涉及這些特征的訓(xùn)練數(shù)據(jù)集,用以開展模型的訓(xùn)練。4.2模型訓(xùn)練與優(yōu)化在這一部分里,會具體講述怎樣運(yùn)用隨機(jī)森林回歸模型來預(yù)測上饒市二手房的房價,其中還囊括超參數(shù)調(diào)優(yōu)的過程,模型訓(xùn)練與優(yōu)化是機(jī)器學(xué)習(xí)流程里相當(dāng)關(guān)鍵的一個步驟,其對模型的預(yù)測能力以及泛化能力有著直接的影響。4.2.1隨機(jī)森林模型簡介①序列平穩(wěn)性檢驗(yàn)這是依靠構(gòu)建多棵決策樹來開展預(yù)測工作的,借助對多個樹的預(yù)測結(jié)果實(shí)施選擇或者選舉平均的方式來做出最終的決策,和單個決策樹相比較而言,隨機(jī)森林的優(yōu)勢處是可以有效地防止過擬合現(xiàn)象的出現(xiàn),提升模型的穩(wěn)定性以及準(zhǔn)確性。在回歸問題里面,隨機(jī)森林回歸模型會計算各個決策樹輸出的值,然后取這些值的平均值當(dāng)作最終預(yù)測結(jié)果,在此次研究當(dāng)中,運(yùn)用隨機(jī)森林回歸模型對上饒市二手房價格進(jìn)行預(yù)測。4.2.2模型訓(xùn)練過程在模型訓(xùn)練階段,本研究一開始運(yùn)用train_test_split函數(shù)把原始數(shù)據(jù)集按照8:2的比例劃分成訓(xùn)練集和測試集,訓(xùn)練集用來構(gòu)建預(yù)測模型,測試集當(dāng)作模型性能評估的根據(jù),接著基于sklearn庫中的RandomForestRegressor算法對隨機(jī)森林回歸模型進(jìn)行初始化,依靠設(shè)置random_state參數(shù)保證實(shí)驗(yàn)可重復(fù)。在模型訓(xùn)練進(jìn)程中,調(diào)用fit方法借助訓(xùn)練集數(shù)據(jù)開展參數(shù)學(xué)習(xí),最終得到訓(xùn)練好的回歸模型,這個模型可用于測試集的預(yù)測任務(wù),達(dá)成對模型性能的客觀評估。4.2.3超參數(shù)調(diào)優(yōu)與模型優(yōu)化隨機(jī)森林模型的性能大多時候會受到多個超參數(shù)的作用,對這些超參數(shù)加以調(diào)整可提升模型的預(yù)測能力,為了尋覓到最佳的超參數(shù)組合,我們運(yùn)用了網(wǎng)格搜索方法,網(wǎng)格搜索借助窮舉法在給定的參數(shù)范圍之內(nèi)進(jìn)行全面的遍歷,找出最優(yōu)的參數(shù)組合,我們針對以下幾個關(guān)鍵超參數(shù)開展了調(diào)優(yōu)工作:表STYLEREF1\s4.SEQ表\*ARABIC\s12參數(shù)名稱參數(shù)描述n_estimators森林中樹木的數(shù)量。max_depth樹的最大深度,控制樹的復(fù)雜度。min_samples_split拆分節(jié)點(diǎn)所需的最小樣本數(shù)。min_samples_leaf葉子節(jié)點(diǎn)所需的最小樣本數(shù)。max_feature在每次分裂時考慮的特征數(shù)量。通過GridSearchCV對象,我們使用了交叉驗(yàn)證(cv=5)來進(jìn)行模型的一個評估,并行計算加速(n_jobs=-1),以提高其的效率。網(wǎng)格搜索結(jié)束后,我們可以查看得到的最佳超參數(shù),然后使用這些超參數(shù)重新的訓(xùn)練模型。4.2.4模型評估與性能分析當(dāng)我們成功獲取到訓(xùn)練好的最佳模型之后,便可在測試集上展開預(yù)測工作,同時計算該模型的評估的,為對模型的性能提供一個評估,運(yùn)用了均方誤差就是MSE以及決定系數(shù)也就是R2這兩個指標(biāo)。①均方誤差(MSE):表示模型預(yù)測值和實(shí)際值之間平均差距的平方。MSE越小的話,說明模型的預(yù)測誤差就越小。②決定系數(shù)(R2):衡量模型對我們的數(shù)據(jù)的擬合程度。R2得到值范圍為0到1,越接近1說明模型擬合得才更好。③通過輸出的MSE和R2值,我們可以直觀地了解模型的性能。如果R2值較高且MSE較低,說明模型具有較好的一個預(yù)測的能力。4.2.5模型可視化與特征重要性分析隨機(jī)森林回歸模型的一個關(guān)鍵優(yōu)勢是可以評估各特征的相對重要性。通過可視化特征重要性,可以了解哪些特征對房價預(yù)測影響最大。圖4.1呈現(xiàn)出上饒市二手房價隨機(jī)森林模型的特征關(guān)鍵性情況,其中橫坐標(biāo)展示的是特征關(guān)鍵性數(shù)值,其范圍處于0至0.4之間,長條形所代表的是有較高關(guān)鍵性的特征,而縱坐標(biāo)則羅列了如“朝向”、“樓層”、“區(qū)縣”以及“戶型”等各類特征,這些特征依照關(guān)鍵性從高到低依次排列,其中“面積_log”對模型產(chǎn)生的影響最為較大,其關(guān)鍵性為0.4,這意味著房屋面積在預(yù)測房價時屬于最為關(guān)鍵的因素。緊隨其后的是“戶型”,其關(guān)鍵性為0.15,戶型對于預(yù)測結(jié)果有著較為突出的影響,其他關(guān)鍵性相對較高的特征還包括“區(qū)縣_面積_戶型”以及“樓層_朝向”,它們的關(guān)鍵性數(shù)值分別為0.10與0.07,這些交叉特征可有效地捕捉不同因素之間的關(guān)聯(lián)關(guān)系,如“朝向”、“建造年代”以及“房本年限”等特征的關(guān)鍵性相對較低,這體現(xiàn)出它們對預(yù)測的影響相對較小。借助這張圖,可清晰地知曉哪些特征對房價預(yù)測的貢獻(xiàn)最為突出,優(yōu)化特征工程。圖STYLEREF1\s4.SEQ圖\*ARABIC\s11FeaturelmportanceofRandomForestModel在模型訓(xùn)練,超參數(shù)調(diào)優(yōu)的過程中,我們通過網(wǎng)格搜索(GridSearchCV)的方法優(yōu)化了隨機(jī)森林回歸模型里面的的超參數(shù)。經(jīng)過調(diào)優(yōu)后,得到的最佳超參數(shù)組合如下:max_depth=20、max_features='sqrt'、min_samples_leaf=1、min_samples_split=2、n_estimators=300,測試集上的評估結(jié)果顯示出,模型的均方誤差(MSE)為0.0413,決定系數(shù)(R2)為0.7763,這表明模型具有較強(qiáng)的預(yù)測能力,能夠較為準(zhǔn)確地解釋房價的變化的一個情況。4.2.6上饒市未來幾年二手房房價預(yù)測本研究借助隨機(jī)森林回歸模型對上饒市未來幾年的房價給予預(yù)測,依據(jù)預(yù)測結(jié)果,房價在未來幾年會逐步實(shí)現(xiàn)上漲,從圖表可看出,預(yù)測的房價從2025年每套約60萬元增長至2030年接近100萬元每套,雖說預(yù)測值在不同年份存在一定波動,然而整體趨勢顯示房價處于持續(xù)增長狀態(tài)。在2025至2027年期間,房價增長速度較快,預(yù)計2027年可達(dá)到90萬元每套的最高點(diǎn),此后,房價依舊會增長,不過增幅有所減緩,預(yù)計2030年會稍微回落至95萬元每套,這種變化或許反映出市場周期性波動以及政策調(diào)控、市場供需等多種因素所產(chǎn)生的影響,借助預(yù)測圖4.2,可對未來房地產(chǎn)市場走勢進(jìn)行預(yù)測,為購房者、投資者以及政策制定者提供相應(yīng)參考。盡管房價呈現(xiàn)上升趨勢,但是如宏觀經(jīng)濟(jì)變化和政策調(diào)整等外部因素可能會對市場造成影響。圖STYLEREF1\s4.SEQ圖\*ARABIC\s12未來房價預(yù)測4.3本章小結(jié)本章圍繞上饒市二手房價格評估模型的構(gòu)建與優(yōu)化展開探討,內(nèi)容涉及特征工程、模型訓(xùn)練、超參數(shù)調(diào)優(yōu)、性能評估以及未來房價預(yù)測等方面,并針對上饒市二手房數(shù)據(jù)開展了特征準(zhǔn)備與數(shù)據(jù)清洗工作,依靠對原始數(shù)據(jù)進(jìn)行清洗、處理缺失值、編碼類別變量以及創(chuàng)建交叉特征等操作,以保證數(shù)據(jù)的一致性,為后續(xù)模型訓(xùn)練創(chuàng)造條件。隨后,運(yùn)用隨機(jī)森林回歸模型對二手房房價進(jìn)行預(yù)測,并借助網(wǎng)格搜索對模型的超參數(shù)加以優(yōu)化,在此過程中,獲得了最佳超參數(shù)組合,且在測試集上取得了較為理想的評估結(jié)果,均方誤差為0.0413,決定系數(shù)為0.7763,該模型可較為準(zhǔn)確地預(yù)測房價的變化情況,基于隨機(jī)森林模型的訓(xùn)練成果,對上饒市未來幾年的二手房價格走勢進(jìn)行了預(yù)測。預(yù)測結(jié)果顯示,房價將呈現(xiàn)持續(xù)上升的趨勢,在2025年至2027年期間,上漲態(tài)勢較為較大,至2030年可能會稍有下降,此預(yù)測可為購房者、投資者以及政策制定者提供一定的參考依據(jù),不過需要注意的是,政策調(diào)整與市場供需變化對房價產(chǎn)生的影響也不容忽視,借助本章的分析,明確了房價預(yù)測的流程以及相關(guān)影響因素,可為未來的相關(guān)研究和政策決策提供數(shù)據(jù)層面的支持。結(jié)論與展望5.1結(jié)論本研究借助上饒市二手房市場數(shù)據(jù),進(jìn)行機(jī)器學(xué)習(xí)模型的建立與優(yōu)化,探尋影響房價波動的關(guān)鍵因素,并運(yùn)用隨機(jī)森林回歸算法開展房價預(yù)測,在完成數(shù)據(jù)收集、清洗以及特征工程工作后,構(gòu)建了精準(zhǔn)的房價預(yù)測模型,揭示這些因素于房價預(yù)測里所起的作用。研究結(jié)果顯示,房屋面積、戶型、樓層與朝向等特征對房價影響最為較大,其中房屋面積被視作最為關(guān)鍵的特征,且各特征的關(guān)鍵性在模型中得以有效呈現(xiàn),經(jīng)對預(yù)測結(jié)果評估,模型在預(yù)測精度方面呈現(xiàn)出較高可靠性,均方誤差為0.0413,決定系數(shù)為0.7763,說明隨機(jī)森林模型于房價預(yù)測中有較強(qiáng)穩(wěn)定性與準(zhǔn)確性。依據(jù)該模型預(yù)測,未來幾年上饒市二手房房價呈持續(xù)上漲態(tài)勢,在2025至2027年間,房價增幅明顯,雖說整體趨勢向好,但房價波動性與政策調(diào)控、市場供需等外部因素仍可能對其未來變化產(chǎn)生影響,此研究為購房者、房地產(chǎn)投資者及政策制定者提供科學(xué)量化的決策支持工具,為其在復(fù)雜市場環(huán)境中做出更理性精準(zhǔn)的判斷提供依據(jù)。5.2研究不足雖然此次研究于上饒市二手房價格預(yù)測方面收獲了比較理想的成果,不過在整個研究進(jìn)程當(dāng)中還是存在著一些不夠完善的地方,主要集中呈現(xiàn)于以下幾個層面:①數(shù)據(jù)樣本存在局限性:本研究中的數(shù)據(jù)只是源自上饒市的部分區(qū)域,像信州區(qū)、上饒縣、廣豐區(qū)、玉山縣、鄱陽縣等地方,而且樣本數(shù)據(jù)大多來自安居客平臺,這就有可能出現(xiàn)數(shù)據(jù)不完整以及存在偏差的情況,未來開展研究的時候可憑借引入更多二手房交易平臺的數(shù)據(jù),增大樣本量,并且擴(kuò)展到更廣闊的區(qū)域,以此來提升研究結(jié)果的普適性與準(zhǔn)確性。②特征選擇存在一定的局限性:在本研究里,盡管已考量了多個房產(chǎn)特征,像面積、樓層、朝向以及裝修情況等,然而仍存在許多潛在的影響因素未被納入到模型當(dāng)中,舉例來說,房屋所處位置的交通便利性、學(xué)區(qū)狀況、周邊的商業(yè)設(shè)施,以及小區(qū)綠化面積、物業(yè)費(fèi)等因素,都有可能對房價產(chǎn)生影響。而且社會輿論、市場預(yù)期等心理方面的因素,對房價波動同樣有關(guān)鍵的作用,未來的研究可完善特征選擇,去考慮更多的影響因素。③模型所有的泛化能力方面:隨機(jī)森林模型于本研究里呈現(xiàn)出了較高的預(yù)測精度,然而其泛化能力依舊存在限制,該模型的性能在不一樣的市場環(huán)境以及不一樣的時間段或許會出現(xiàn)變化,在市場發(fā)生突發(fā)事件或者政策進(jìn)行調(diào)整等特殊情形下,模型的預(yù)測能力可能會遭遇挑戰(zhàn),為了提高模型的魯棒性,未來可嘗試將多種算法結(jié)合起來進(jìn)行模型融合,以此提升其對不同市場環(huán)境的適應(yīng)能力。④外部宏觀因素存在缺失情況:在本研究中重點(diǎn)關(guān)注了房屋的具體特征,像面積以及樓層等方面,然而宏觀經(jīng)濟(jì)因素例如GDP增長率、利率變化以及政策調(diào)控等對于房價所產(chǎn)生的影響卻沒有得到充分的考量,未來展開研究的時候可將這些宏觀因素引入進(jìn)來,當(dāng)面臨經(jīng)濟(jì)波動或者政策調(diào)整的狀況時,這些因素對房價造成的影響不容小覷。⑤預(yù)測的時效性:房價預(yù)測模型的時效性在預(yù)測過程中是極為關(guān)鍵的一個要點(diǎn),本研究采用的歷史數(shù)據(jù)雖說可給短期房價趨勢給予一定程度的參考,然而在快速變化的市場環(huán)境狀況下,模型有可能難以適應(yīng)短期內(nèi)出現(xiàn)的快速波動情形,未來的研究可以考慮結(jié)合更多的實(shí)時數(shù)據(jù)以及動態(tài)更新機(jī)制,以此來提升預(yù)測結(jié)果的時效性以及準(zhǔn)確性。⑥在模型可解釋性領(lǐng)域,隨機(jī)森林算法呈現(xiàn)出了較好的預(yù)測精度,然而其有“黑箱”特性,這可能使部分決策者難以理解模型內(nèi)部運(yùn)行機(jī)制,針對這種情況,未來研究可結(jié)合線性回歸、決策樹等可解釋性更強(qiáng)的模型,或者運(yùn)用SHAP等技術(shù)對模型進(jìn)行解釋,以此提高模型的透明度與可信度。此次研究取得了理想的預(yù)測效果,但在多個層面仍有優(yōu)化改進(jìn)空間,后續(xù)研究可在樣本選取、特征拓展、模型多樣性及宏觀因素引入等方面展開深入分析,提升房價預(yù)測的精準(zhǔn)度與廣泛適用性。5.3研究展望雖然本研究給上饒市二手房價格預(yù)測構(gòu)建了有效的分析模型,然而隨著市場環(huán)境持續(xù)變化以及數(shù)據(jù)種類持續(xù)增多,未來研究以及多個方向可去探索:①引入更多宏觀經(jīng)濟(jì)因素與政策的影響:本研究重點(diǎn)考量了房屋的屬性特征,不過房地產(chǎn)市場并非僅受個體房產(chǎn)特征作用,宏觀經(jīng)濟(jì)的變動、政策的調(diào)控以及稅收政策等因素,同樣有可能對房價造成關(guān)鍵影響,未來可引入這些外部宏觀數(shù)據(jù),以此提升模型的全面程度與準(zhǔn)確程度。②模型的深度優(yōu)化:雖然隨機(jī)森林模型已經(jīng)呈現(xiàn)出比較高的預(yù)測精度,不過隨著技術(shù)不斷發(fā)展,深度學(xué)習(xí)等更為先進(jìn)的算法像深度神經(jīng)網(wǎng)絡(luò)、長短期記憶網(wǎng)絡(luò)等在房價預(yù)測方面呈現(xiàn)出了潛力,把這些模型運(yùn)用到房地產(chǎn)預(yù)測當(dāng)中,或許可提高預(yù)測精度,在考慮時間序列數(shù)據(jù)或者空間效應(yīng)的時候。③空間效應(yīng)分析:上饒市作為一座三線城市,其房價在各個不同區(qū)縣之間呈現(xiàn)出較為較大的差異,此差異和區(qū)域的經(jīng)濟(jì)發(fā)展?fàn)顩r、基礎(chǔ)設(shè)施建設(shè)等諸多因素緊密相連,未來的相關(guān)研究可引入空間回歸模型或者空間聚類分析方法,對不同區(qū)域之間的房價空間差異展開研究,并且依據(jù)空間效應(yīng)作出更為精細(xì)的預(yù)測。④時間序列數(shù)據(jù)以及動態(tài)模型方面:房地產(chǎn)市場一般呈現(xiàn)出周期性波動的特點(diǎn),借助基于歷史數(shù)據(jù)的時間序列分析,可幫助捕捉到這種周期性波動,在未來,可把時間序列模型和機(jī)器學(xué)習(xí)方法相互結(jié)合,以此提升模型對于市場波動的預(yù)測能力。⑤多區(qū)域以及多維度的數(shù)據(jù)擴(kuò)展:本研究主要關(guān)注上饒市房價預(yù)測,今后可拓展至其他三線城市,開展跨區(qū)域比較分析,另外還可以結(jié)合大數(shù)據(jù)分析,考量更多維度市場因素,像市場情緒、社會輿論、政府調(diào)控等,提升預(yù)測模型的多元性與全面性。
參考文獻(xiàn)高平,劉志堅,袁立梅.基于BP神經(jīng)網(wǎng)絡(luò)的唐山房價預(yù)測.河北聯(lián)合大學(xué),[J],2015,15(02):48-51.時文靜.基于Lasso與數(shù)據(jù)挖掘方法的影響北京二手房價格的因素分析[D].北京工業(yè)大學(xué),2017.李寶強(qiáng),紀(jì)蕾,宋巖磊,邵軍義.基于PCA和BP神經(jīng)網(wǎng)絡(luò)的住宅特征價格模型研究.青島理工大學(xué)學(xué)報[J],2017,38(04):108-113.龔洪亮.基于XGBoost算法的武漢市二手房價格預(yù)測模型的實(shí)證研究[D].華中師范大學(xué),2018.李園園.基于BP神網(wǎng)絡(luò)的北京市二手房交易價格預(yù)測研究[D].首都經(jīng)濟(jì)貿(mào)易中心,2018.梁佩.基于機(jī)器學(xué)習(xí)的二手房估價模型[D].云南大學(xué),2019.張志鋒,崔亞東,崔霄.基于XGBoost的二手房房價預(yù)測模型.數(shù)字技術(shù)與應(yīng)用[J],2019,37(11):178-180司璽同.基于機(jī)器學(xué)習(xí)模型的鄭州二手房價格評估[D].華中師范大學(xué),2019.陳瀟騰.杭州市二手住宅價格評估模型研究[D].浙江工業(yè)大學(xué),2020.王玉芳、陶金梅、馮春.基于空間數(shù)據(jù)挖掘的南京市二手房價格分析預(yù)測[C].//2019年江蘇省測繪地理信息學(xué)會學(xué)術(shù)年會論文集,《現(xiàn)代測繪》編輯部,2019.康嘉玲.基于隨機(jī)森林模型的重慶市二手房價格預(yù)測研究[J].應(yīng)用數(shù)學(xué)進(jìn)展,2021(8).李涵諭、魏嘉銀、盧友軍.基于隨機(jī)森林的深圳二手房價格預(yù)測與分析[J].現(xiàn)代信息科技,2021,5(15).Nguyen,Nghiep,Cripps,etal.Predictinghousingvalue:Acomparisonofmultipleregressionanalysisandartificialneuralnetworks.Journalofrealestateresearch,2001,22(3):313-336.LimsombuncV,GanC,LeeM.HousePricePrediction:HedonicPriceModelsvsArtificialNeuralNetwork.In:The2004NZARESConference.NewZealand,2004.SelimH.DeterminantsofhousepricesinTurkey:Hedonicregressionversusartificialneuralnetwork.ExpertsystemswithApplications,2009,36(2):2843-2852.AntipovEA,PokryshevskayaEB.Massappraisalofresidentialapartments:AnapplicationofRandomforestforvaluationandaCART-basedapproachformodeldiagnostics.ExpertSystemsWithApplications,2012:172-178.ShimJ,BinO,HwangC.Semiparametricspatialeffectskernelminimumsquarederrormodelforpredictinghousingsalesprices.Neurocomputing,2014,124:81-88.
附錄附錄一隨機(jī)森林模型訓(xùn)練代碼importpandasaspdfromsklearn.model_selectionimporttrain_test_splitfromsklearn.ensembleimportRandomForestRegressorfromsklearn.metricsimportmean_squared_error,r2_scorefromsklearn.preprocessingimportLabelEncoderfromsklearn.imputeimportSimpleImputerimportmatplotlib.pyplotaspltimportmatplotlibfromsklearn.model_selectionimportGridSearchCVimportnumpyasnpimportjoblib#用于保存和加載模型#設(shè)置Matplotlib使用支持中文的字體matplotlib.rcParams['font.sans-serif']=['SimHei']#或者'MicrosoftYaHei'#讀取Excel文件file_path=r'F:\Desktop\shangrao_second_hand_housing_.xlsx'df=pd.read_excel(file_path)#打印所有列名,確保我們能看到數(shù)據(jù)中的列名print(df.columns)##1.特征準(zhǔn)備與數(shù)據(jù)清洗##處理總價數(shù)據(jù),將“元”和“萬”單位處理成浮動數(shù)值df['總價']=df['總價'].str.replace('元','').str.replace(',','')#去掉“元”和“,"df['總價']=df['總價'].apply(lambdax:float(x.replace('萬',''))*10000if'萬'inxelsefloat(x))#處理“萬”單位#處理均價數(shù)據(jù),將“元/㎡”單位處理成浮動數(shù)值df['均價']=df['均價'].str.replace('元/㎡','').str.replace(',','').astype(float)#去掉"元/㎡"和","#處理面積數(shù)據(jù),將“㎡”去除并轉(zhuǎn)換為浮動數(shù)值df['面積']=df['面積'].str.replace('㎡','').astype(float)#處理建造年代:提取年份(如"2012年建造"提取為2012)df['建造年代']=df['建造年代'].str.extract(r'(\d{4})').astype(float)##2.處理缺失值##處理缺失值:對數(shù)值型特征使用均值填充,類別型特征使用眾數(shù)填充numeric_columns=df.select_dtypes(include=['float64','int64']).columnscategorical_columns=df.select_dtypes(include=['object']).columns#對數(shù)值型特征進(jìn)行均值填充imputer_numeric=SimpleImputer(strategy='mean')df[numeric_columns]=imputer_numeric.fit_transform(df[numeric_columns])#對類別型特征進(jìn)行眾數(shù)填充imputer_categorical=SimpleImputer(strategy='most_frequent')df[categorical_columns]=imputer_categorical.fit_transform(df[categorical_columns])##3.類別變量編碼##對類別特征進(jìn)行標(biāo)簽編碼(如朝向、樓層、區(qū)縣、戶型)encoder=LabelEncoder()df['朝向']=encoder.fit_transform(df['朝向'])df['樓層']=encoder.fit_transform(df['樓層'])df['區(qū)縣']=encoder.fit_transform(df
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年大學(xué)本科 冰雪運(yùn)動(運(yùn)動實(shí)務(wù))試題及答案
- 2025年大學(xué)農(nóng)學(xué)(農(nóng)業(yè)發(fā)展趨勢)試題及答案
- 2025年高職材料成型及控制技術(shù)(成型工藝優(yōu)化)試題及答案
- 安全工作年會策劃方案講解
- 2026年熱力學(xué)在航空航天工程中的重要性
- 2025華大教育集團(tuán)教師招聘10人備考題庫參考答案詳解
- 2026云南昆明市盤龍區(qū)新迎第二小學(xué)招聘3人備考題庫參考答案詳解
- 2025年河南建筑職業(yè)技術(shù)學(xué)院招聘工作人員30人備考題庫及參考答案詳解1套
- 2022-2023學(xué)年廣東深圳羅湖外語實(shí)驗(yàn)學(xué)校九年級上學(xué)期第一次月考?xì)v史試題含答案
- 2025北方特種能源集團(tuán)審計中心工作人員招聘備考題庫(含答案詳解)
- 2026標(biāo)準(zhǔn)版離婚協(xié)議書-無子女無共同財產(chǎn)債務(wù)版
- 光伏電站巡檢培訓(xùn)課件
- 【期末必刷選擇題100題】(新教材)統(tǒng)編版八年級道德與法治上學(xué)期專項練習(xí)選擇題100題(含答案與解析)
- 年末節(jié)前安全教育培訓(xùn)
- GB/T 93-2025緊固件彈簧墊圈標(biāo)準(zhǔn)型
- 建筑公司工資薪酬管理制度(3篇)
- 2025至2030中國疝氣修補(bǔ)術(shù)行業(yè)調(diào)研及市場前景預(yù)測評估報告
- 建設(shè)工程測繪驗(yàn)線標(biāo)準(zhǔn)報告模板
- 2024-2025學(xué)年福建省廈門市雙十中七年級(上)期末英語試卷
- 漢語言本科畢業(yè)論文范文模板
- 2025年協(xié)警輔警招聘考試題庫(新)及答案
評論
0/150
提交評論