版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
相關(guān)算法介紹人工智能模型是當(dāng)今信息科技領(lǐng)域的瑰寶,它們以各種算法和技術(shù)為基礎(chǔ),通過(guò)對(duì)數(shù)據(jù)的學(xué)習(xí)和推斷,執(zhí)行著各種任務(wù)。在二手房房?jī)r(jià)領(lǐng)域中,邏輯回歸、隨機(jī)森林和支持向量機(jī)等機(jī)器學(xué)習(xí)算法被廣泛運(yùn)用于數(shù)據(jù)分類(lèi)和預(yù)測(cè)任務(wù)中。2.1人工智能模型概述人工智能模型是通過(guò)使用計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)等領(lǐng)域的技術(shù),對(duì)數(shù)據(jù)進(jìn)行學(xué)習(xí)和推斷,以執(zhí)行特定任務(wù)的算法或系統(tǒng)。這些模型可以通過(guò)訓(xùn)練,從大量的數(shù)據(jù)中學(xué)習(xí)模式和規(guī)律,并用于對(duì)新數(shù)據(jù)的預(yù)測(cè)或決策。常見(jiàn)的人工智能模型有:①線性回歸模型:用于預(yù)測(cè)數(shù)值型變量,通過(guò)擬合一條直線來(lái)描述輸入特征和輸出之間的關(guān)系。②邏輯回歸模型:用于二元分類(lèi)問(wèn)題,通過(guò)擬合一個(gè)邏輯曲線來(lái)進(jìn)行分類(lèi)。③決策樹(shù)模型:通過(guò)樹(shù)狀結(jié)構(gòu)進(jìn)行決策,每個(gè)節(jié)點(diǎn)代表一個(gè)特征,分支代表該特征的不同取值,葉子節(jié)點(diǎn)代表最終的輸出。④支持向量機(jī)(SVM):用于分類(lèi)和回歸,通過(guò)找到一個(gè)最優(yōu)的超平面來(lái)分隔不同類(lèi)別的數(shù)據(jù)。⑤神經(jīng)網(wǎng)絡(luò):由神經(jīng)元和層組成的模型,通過(guò)多層次的學(xué)習(xí)表示復(fù)雜的模式和關(guān)系。這些模型在不同的任務(wù)和領(lǐng)域中有著廣泛的應(yīng)用。選擇適當(dāng)?shù)哪P屯ǔHQ于任務(wù)的性質(zhì)、數(shù)據(jù)的特征以及對(duì)性能和可解釋性的需求。模型的訓(xùn)練和優(yōu)化需要使用合適的算法和技術(shù),以確保其在實(shí)際應(yīng)用中表現(xiàn)良好。2.2分類(lèi)算法概述分類(lèi)算法是機(jī)器學(xué)習(xí)領(lǐng)域中的一種重要方法,用于將數(shù)據(jù)集中的樣本按照一定規(guī)則劃分到不同的類(lèi)別中。其核心思想是通過(guò)學(xué)習(xí)已知類(lèi)別的樣本特征,建立一個(gè)分類(lèi)模型(也稱(chēng)為分類(lèi)器),然后利用該模型對(duì)未知類(lèi)別的樣本進(jìn)行分類(lèi)。分類(lèi)算法的工作過(guò)程通常包括以下幾個(gè)步驟:首先,收集并預(yù)處理數(shù)據(jù),確保數(shù)據(jù)的質(zhì)量和格式適合算法的訓(xùn)練;其次,選擇并訓(xùn)練合適的分類(lèi)模型,通過(guò)不斷調(diào)整模型參數(shù)以優(yōu)化性能;然后,使用測(cè)試集對(duì)模型進(jìn)行評(píng)估,確保其在實(shí)際應(yīng)用中具有良好的分類(lèi)效果;最后,將訓(xùn)練好的模型進(jìn)行預(yù)測(cè),從而實(shí)現(xiàn)分類(lèi)功能??傊诸?lèi)算法是一種強(qiáng)大的工具,能夠幫助我們處理和分析大量數(shù)據(jù),發(fā)現(xiàn)其中的規(guī)律和模式,進(jìn)而為決策提供有力支持。2.3隨機(jī)森林隨機(jī)森林基于決策樹(shù)來(lái)進(jìn)行構(gòu)建的,屬于機(jī)器學(xué)習(xí)集成學(xué)習(xí)方法中的一種。隨機(jī)森林的核心是集成多棵樹(shù),因此名稱(chēng)中包含了"隨機(jī)"和"森林"兩個(gè)關(guān)鍵詞。"森林"代表了多棵樹(shù)的集合,而"隨機(jī)"則體現(xiàn)了隨機(jī)性的引入,模型結(jié)構(gòu)如圖2.1所示。圖2.1隨機(jī)森林原理圖優(yōu)點(diǎn):①每棵樹(shù)都選擇部分樣本及部分特征,一定程度避免過(guò)擬合;②通過(guò)隨機(jī)選擇樣本和特征構(gòu)建每棵樹(shù),隨機(jī)森林具有出色的抗噪性和穩(wěn)定性。這種隨機(jī)性的引入使得每棵樹(shù)都有所不同,從而提高了整個(gè)模型的魯棒性;③能處理很高維度的數(shù)據(jù),并且不用做特征選擇(不需要降維處理);④適合并行計(jì)算;⑤實(shí)現(xiàn)比較簡(jiǎn)單;缺點(diǎn):①參數(shù)較復(fù)雜;②模型訓(xùn)練和預(yù)測(cè)都比較慢;2.4支持向量機(jī)支持向量機(jī)是一種廣泛應(yīng)用于分類(lèi)和回歸任務(wù)的監(jiān)督學(xué)習(xí)算法。其核心思想在于尋找一個(gè)超平面,該超平面能夠最大化兩個(gè)類(lèi)別之間的間隔,從而確保分類(lèi)效果達(dá)到最優(yōu)。通過(guò)這種方法,SVM有效地實(shí)現(xiàn)了對(duì)數(shù)據(jù)的分類(lèi)。以一個(gè)二維平面為例,判定邊界是一個(gè)超平面(在本圖中其實(shí)是一條線,但是可以將它想象為一個(gè)平面乃至更高維形式在二維平面的映射),它是由支持向量所確定的(支持向量是離判定邊界最近的樣本點(diǎn),它們決定了判定邊界的位置)。間隔的正中就是判定邊界,間隔距離體現(xiàn)了兩類(lèi)數(shù)據(jù)的差異大小。其對(duì)應(yīng)圖片如圖2.2所示。圖2.2支持向量機(jī)原理圖SVM算法可以分為以下幾個(gè)步驟:①數(shù)據(jù)預(yù)處理:在數(shù)據(jù)預(yù)處理階段,通常會(huì)將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,;②構(gòu)建模型:選擇合適的核函數(shù)和懲罰系數(shù),構(gòu)建SVM模型;③訓(xùn)練模型:使用訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,通過(guò)最大化間隔的方法來(lái)找到最優(yōu)的超平面從而進(jìn)行訓(xùn)練模型;④進(jìn)行預(yù)測(cè):使用訓(xùn)練好的svm模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè);優(yōu)點(diǎn):①泛化能力比較強(qiáng);②解決小樣本下機(jī)器學(xué)習(xí)問(wèn)題;③能夠處理非線性特征的相互作用;④無(wú)局部極小值問(wèn)題;⑤無(wú)需依賴整個(gè)數(shù)據(jù);缺點(diǎn)①當(dāng)觀測(cè)樣本很多時(shí),效率并不是很高;②需要構(gòu)建多個(gè)SVM分類(lèi)器進(jìn)行組合來(lái)實(shí)現(xiàn)。這增加了模型的復(fù)雜性和計(jì)算成本,同時(shí)也可能降低分類(lèi)性能;③雖然SVM對(duì)噪聲和異常值具有一定的魯棒性,但在某些情況下,噪聲和異常值可能顯著影響支持向量的選擇和超平面的確定,從而影響分類(lèi)效果;因此支持向量機(jī)現(xiàn)在只適合處理數(shù)據(jù)量很小的任務(wù),處理數(shù)據(jù)量很大的任務(wù)則會(huì)很困難。2.5邏輯回歸邏輯回歸是一種基于概率的統(tǒng)計(jì)分類(lèi)方法,特別適用于解決二分類(lèi)問(wèn)題。盡管其名稱(chēng)中包含了“回歸”,但實(shí)際上它屬于分類(lèi)算法的范疇。在邏輯回歸中,特征值的線性組合會(huì)經(jīng)過(guò)一個(gè)稱(chēng)為sigmoid函數(shù)的激活函數(shù)進(jìn)行處理,進(jìn)而將原本的線性輸出轉(zhuǎn)化為概率輸出,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的分類(lèi)。邏輯回歸的主要思想是利用回歸的思想去解決分類(lèi)問(wèn)題,通過(guò)尋找最優(yōu)決策邊界使訓(xùn)練數(shù)據(jù)的標(biāo)簽值域預(yù)測(cè)出來(lái)的值之間的誤差最小化。具體來(lái)說(shuō),邏輯回歸通過(guò)最大似然概率方法構(gòu)建方程,并利用相關(guān)優(yōu)化算法求解方程。邏輯回歸在多個(gè)領(lǐng)域都有廣泛應(yīng)用,與決策樹(shù)和支持向量機(jī)(SVM)相比,邏輯回歸能得到一個(gè)不錯(cuò)的概率解釋?zhuān)@也是其優(yōu)勢(shì)之一。sigmod函數(shù)圖像如圖2.3所示。圖2.3邏輯回歸函數(shù)圖像Logistic回歸模型的適用條件:自變量和Logistic概率是線性關(guān)系②各觀測(cè)對(duì)象間相互獨(dú)立。2.6評(píng)價(jià)標(biāo)準(zhǔn)在模型的評(píng)估時(shí)通常采用以下四個(gè)值來(lái)評(píng)價(jià)模型:準(zhǔn)確率(Accuracy)是一個(gè)對(duì)分類(lèi)模型性能進(jìn)行評(píng)價(jià)的關(guān)鍵標(biāo)準(zhǔn),用來(lái)分析預(yù)測(cè)結(jié)果中正確的預(yù)測(cè)值所占的比重。它能夠直觀地反映模型對(duì)數(shù)據(jù)的分類(lèi)能力。然而,僅依靠準(zhǔn)確率來(lái)評(píng)估模型可能不夠全面,因?yàn)樵谀承┣闆r下,即使準(zhǔn)確率很高,模型也可能存在其他性能問(wèn)題。 "
Accuracy"=(TP+TN)/(精確率(Precision)是分類(lèi)模型性能評(píng)估的關(guān)鍵指標(biāo)之一,精確率的高低直接反映了分類(lèi)模型在識(shí)別目標(biāo)樣本時(shí)的準(zhǔn)確程度。一個(gè)具有高精確率的模型意味著其預(yù)測(cè)為正例的樣本中,絕大多數(shù)都是真正的正例,從而減少了誤報(bào)或誤分類(lèi)的情況。 "
Precision"=TP/(TP召回率(RecallRate),用于評(píng)估分類(lèi)模型在識(shí)別相關(guān)實(shí)例時(shí)的性能。具體來(lái)說(shuō),召回率是指模型正確識(shí)別為正類(lèi)的實(shí)例(真正類(lèi))占所有實(shí)際正類(lèi)實(shí)例的比例。 "
Recall"=TP/(TPF1分?jǐn)?shù)不僅看重精確率,也充分考慮了召回率,因此能夠更加全面和均衡地反映其性能。F1分?jǐn)?shù)正是基于這一需求設(shè)計(jì)的,它實(shí)質(zhì)上是對(duì)精確率和召回率進(jìn)行調(diào)和平均的計(jì)算結(jié)果。F1分?jǐn)?shù)的取值范圍在0到1之間,當(dāng)其值達(dá)到最大值1時(shí),意味著模型在精確率和召回率方面都達(dá)到了最優(yōu),顯示出完美的性能;而最小值0則表明模型在精確率和召回率上的表現(xiàn)均極差,性能非常不佳。 F1=(2?"Precision"相關(guān)變量解釋如表2.1所示。表2.1相關(guān)變量說(shuō)明變量全稱(chēng)相關(guān)解釋TPTruePositive當(dāng)預(yù)測(cè)值為正例而實(shí)際值是正例的樣本數(shù)TNTrueNegative當(dāng)預(yù)測(cè)值為負(fù)例而實(shí)際值為負(fù)例的樣本數(shù)FPFalsePositive當(dāng)預(yù)測(cè)值為正例而實(shí)際值為負(fù)例的樣本數(shù)FNFalseNegative當(dāng)預(yù)測(cè)值為負(fù)例而實(shí)際值為正例的樣本數(shù)2.7本章小結(jié)在本章中,主要介紹了機(jī)器學(xué)習(xí)里面的分類(lèi)算法以及分類(lèi)算法里面的三種算法模型:隨機(jī)森林、支持向量、邏輯回歸。分別闡述了三種算法模型的優(yōu)點(diǎn)以及缺點(diǎn)。分類(lèi)算法是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中的關(guān)鍵領(lǐng)域,旨在構(gòu)建分類(lèi)函數(shù)或模型,將未知樣本映射到特定類(lèi)別。常見(jiàn)算法包括邏輯回歸、隨機(jī)森林和支持向量機(jī)等。隨機(jī)森林在處理大規(guī)模數(shù)據(jù)集時(shí)表現(xiàn)良好,具有較高的準(zhǔn)確性和魯棒性。邏輯回歸適用于二分類(lèi)問(wèn)題,基于線性關(guān)系和最大似然法。支持向量機(jī)是一種通用且靈活的機(jī)器學(xué)習(xí)算法,適用于多種類(lèi)型的問(wèn)題,尤其在處理復(fù)雜數(shù)據(jù)、高維數(shù)據(jù)和非線性問(wèn)題時(shí)表現(xiàn)出色。這些算法各有優(yōu)缺點(diǎn),需根據(jù)任務(wù)需求和數(shù)據(jù)特性選擇合適方法,以提高分類(lèi)準(zhǔn)確性和穩(wěn)健性。評(píng)價(jià)標(biāo)準(zhǔn)通常采用Accuracy、Precision、F1和Recall,這四個(gè)值各有意義,在模型評(píng)估時(shí)通常一起采用。3數(shù)據(jù)預(yù)處理與分析在機(jī)器學(xué)習(xí)領(lǐng)域,數(shù)據(jù)分析和預(yù)處理是構(gòu)建有效模型的關(guān)鍵步驟之一,對(duì)理解二手房房?jī)r(jià)預(yù)測(cè)問(wèn)題的關(guān)鍵因素以及構(gòu)建有效的預(yù)測(cè)模型具有重要意義。通過(guò)詳細(xì)的數(shù)據(jù)分析和預(yù)處理流程,可以更好地理解數(shù)據(jù)集的特性。3.1數(shù)據(jù)集選擇本項(xiàng)目數(shù)據(jù)集采用的是阿里云天池里面的成都二手房房?jī)r(jià)數(shù)據(jù)集。數(shù)據(jù)集網(wǎng)址:/dataset/154888。在確定了數(shù)據(jù)集后還需要進(jìn)行一系列的數(shù)據(jù)分析與數(shù)據(jù)預(yù)處理,包括去除異常值、處理缺失值、數(shù)據(jù)平滑和插值等,確保數(shù)據(jù)的質(zhì)量和一致性,以便于后續(xù)的數(shù)據(jù)分析和模型訓(xùn)練。3.2數(shù)據(jù)分析3.2.1數(shù)據(jù)整體質(zhì)量分析首先進(jìn)行數(shù)據(jù)集屬性說(shuō)明。表3.1數(shù)據(jù)集屬性說(shuō)明屬性名稱(chēng)屬性含義序號(hào)每行數(shù)據(jù)的序列房屋所屬市轄區(qū)房源所屬的市轄區(qū)區(qū)域房屋地址(街道)房源位于市轄區(qū)里面的地址房屋戶型房源的室廳廚衛(wèi)的配置所在樓層房屋所處的樓層建筑面積(平方米)房屋所占的面積大小戶型結(jié)構(gòu)房屋內(nèi)部空間的布局和分隔方式建筑類(lèi)型房屋的結(jié)構(gòu)類(lèi)別房屋朝向房屋的地段朝向建筑結(jié)構(gòu)房屋主要使用的材料結(jié)構(gòu)裝修情況房屋有無(wú)裝修配備電梯房屋有無(wú)配備電梯掛牌時(shí)間房屋售賣(mài)時(shí)的時(shí)間交易權(quán)屬房源所屬的房屋種類(lèi)房屋用途房屋建造時(shí)的用途單價(jià)(元/平方米)房屋售賣(mài)時(shí)的每平米價(jià)格再通過(guò)info()方法來(lái)簡(jiǎn)單觀察一下數(shù)據(jù)集的概況。表3.2數(shù)據(jù)集概況#ColumnNon-NullCountDytpe0序號(hào)14838non-nullint641房屋所屬市轄區(qū)14838non-nullobject2房屋地址(街道)14838non-nullobject3房屋戶型14838non-nullobject4所在樓層14838non-nullobject5建筑面積(平方米)14838non-nullfloat646戶型結(jié)構(gòu)14838non-nullobject7建筑類(lèi)型14838non-nullobject8房屋朝向14838non-nullobject9建筑結(jié)構(gòu)14838non-nullobject10裝修情況14838non-nullobject11配備電梯14838non-nullobject12掛牌時(shí)間14838non-nullobject13交易權(quán)屬14838non-nullobject14房屋用途14838non-nullobject15單價(jià)(元/平方米)14838non-nullint64從表3.2中可以看出,數(shù)據(jù)一共包含14838行和16列。特征類(lèi)型方面,有1列特征是float64類(lèi)型,其他2列特征是int64類(lèi)型,最后有13列特征是object類(lèi)型。數(shù)據(jù)完整無(wú)缺失,整體數(shù)據(jù)質(zhì)量非常良好。之后先對(duì)數(shù)據(jù)集的一些類(lèi)別特征進(jìn)行查看,以便于之后的對(duì)二手房房屋基本信息和房屋屬性的可視化分析。首先通過(guò)之前的數(shù)據(jù)集整體分析可知道數(shù)據(jù)集每個(gè)二手房都位于各自的所屬市轄區(qū)。所以這里先對(duì)各個(gè)房屋所屬市轄區(qū)的二手房房源數(shù)量進(jìn)行查看,并用可視化的結(jié)果呈現(xiàn)出來(lái)。圖3.1成都各市轄區(qū)域的二手房房屋的總數(shù)量柱形圖從圖3.1中可以看出,一共有20個(gè)區(qū)域,導(dǎo)致每個(gè)區(qū)域的數(shù)據(jù)集都很少。圖3.2成都的二手房房源用途水平柱狀圖在分析成都二手房數(shù)據(jù)時(shí),我們創(chuàng)建了一個(gè)柱狀圖來(lái)展示房屋用途的分布情況。從圖3.2中可以明顯觀察到,房屋用途主要分為普通住宅、普通住宅及商業(yè)辦公三大類(lèi)。其中,普通住宅的房源數(shù)量接近14,000套,占據(jù)了絕大多數(shù)的比例。鑒于普通住宅房源的顯著數(shù)量,我們決定在本文中不排除其他用途類(lèi)型的記錄。這是因?yàn)楸M管這些類(lèi)型在總樣本中的比例較小,但它們的數(shù)量仍足以在統(tǒng)計(jì)上產(chǎn)生可觀的影響。此外,這些其他類(lèi)型的房源同樣屬于二手房市場(chǎng),因此它們的數(shù)據(jù)對(duì)于理解市場(chǎng)全貌是必要的。通過(guò)對(duì)數(shù)據(jù)的初步分析,我們發(fā)現(xiàn)該數(shù)據(jù)文件的質(zhì)量很高,不存在缺失值。3.2.2成都二手房基本信息可視化分析針對(duì)二手房的基本信息,我們主要進(jìn)行了對(duì)區(qū)域、單價(jià)、建筑面積這四個(gè)屬性的可視化分析。我們繪制了成都各區(qū)域二手房房?jī)r(jià)的平均單價(jià)的柱狀圖,從圖3.3中可以看出各區(qū)域的房?jī)r(jià)單價(jià)差距還是很大的。圖3.3成都的各市轄區(qū)域的二手房平均單價(jià)柱狀圖為了更全面地理解成都各區(qū)域二手房?jī)r(jià)格的分布特征,我們采用了箱形圖進(jìn)行可視化分析。在箱形圖中,橫軸代表成都各個(gè)區(qū)域的名稱(chēng),縱軸則表示區(qū)域二手房的平均單價(jià)(元/平米)。箱形圖是一種能夠展示數(shù)據(jù)分布情況的圖形工具,它不僅能夠顯示平均值,還能展示數(shù)據(jù)的四分位數(shù)和異常值。這意味著我們可以通過(guò)箱線圖直觀地了解每個(gè)區(qū)域二手房?jī)r(jià)格的中位數(shù)、上下四分位數(shù)以及潛在的異常高值或低值。相比于僅僅查看平均單價(jià),箱線圖能夠更有效地揭示數(shù)據(jù)的全貌,尤其是在存在離群值的情況下。因此,使用箱線圖進(jìn)行價(jià)格分布的分析,能夠幫助我們更深入地洞察成都區(qū)域二手房?jī)r(jià)格的真實(shí)情況。圖3.4成都各市轄區(qū)域的二手房的單價(jià)箱型圖通過(guò)繪制成都二手房建筑面積的分布區(qū)間圖,我們將橫軸設(shè)定為房源數(shù)量(以套計(jì)),而縱軸則表示建筑面積的分布區(qū)間(以平米計(jì))。根據(jù)圖3.5中顯示的數(shù)據(jù),我們可以觀察到在建筑面積為50-100平米的區(qū)間內(nèi),房源數(shù)量達(dá)到了約8000套,為數(shù)量最多的區(qū)間。其次是建筑面積為100-150平米和150-200平米的區(qū)間。這些數(shù)據(jù)直觀展示了成都二手房建筑面積的分布情況,為我們進(jìn)一步分析提供了重要參考。圖3.5成都二手房房屋的各個(gè)建筑面積分布區(qū)間的水平柱狀圖成都各區(qū)域平均建筑面積柱狀圖橫軸為各區(qū)域名字。從圖3.6中可以看出大多數(shù)區(qū)域的二手房平均面積都在100至120之間,少數(shù)幾個(gè)區(qū)域在80至100之間。圖3.6成都各個(gè)市轄區(qū)域的二手房平均建筑面積的柱狀圖我們繪制了成都二手房單價(jià)與建筑面積的散點(diǎn)圖。從圖3.7中可以觀察到建筑面積與單價(jià)之間并沒(méi)有明顯的關(guān)系,樣本點(diǎn)的分布相對(duì)集中,離散值較少。不過(guò),數(shù)值特別高的單價(jià)房源對(duì)應(yīng)的建筑面積通常也較大,這可能是因?yàn)檫@些房源大多數(shù)都是別墅。圖3.7成都二手房的房屋單價(jià)與建筑面積的散點(diǎn)圖3.2.3成都二手房房屋屬性可視化分析通過(guò)成都二手房房屋戶型的餅狀圖,我們可以觀察到,3室2廳1廚2衛(wèi)和2室1廳1廚1衛(wèi)這兩種標(biāo)準(zhǔn)戶型占據(jù)了近一半的比例。除此之外的戶型分布相對(duì)均勻,其他房屋戶型的房源比例可以被忽略。圖3.8成都二手房房屋占比餅狀圖從成都二手房房屋裝修情況餅狀圖可以看出,二手房裝修了的占比為76.1%,超過(guò)了總數(shù)的四分之三。圖3.9成都二手房裝修占比餅狀圖我們繪制了成都二手房房屋朝向的柱狀圖。從圖3.10中可以看出,二手房房屋的朝向大多位于東南、南、東、西南等朝向,其余朝向則很少。圖3.10成都二手房房源朝向分布情況從圖3.11中,我們可以看到二手房房屋的建筑類(lèi)型38.7%都是板樓,37.4%是板塔結(jié)合,23.3%是塔樓,說(shuō)明房源的房主們?cè)谘b修房子時(shí)更喜歡板樓的建筑類(lèi)型。圖3.11成都二手房建筑類(lèi)型占比餅狀圖從成都二手房配備電梯占比餅狀圖中,我們可以看出二手房房源有68.5%配備了電梯,有31.5%沒(méi)有配備電梯,說(shuō)明現(xiàn)在新式的樓房占比較大,而那種老式小區(qū)正在被逐漸取代。圖3.12成都二手房配備電梯占比情況餅狀圖3.3數(shù)據(jù)預(yù)處理從之前的數(shù)據(jù)分析階段可以知道數(shù)據(jù)是不存在缺失值的,所以不需要進(jìn)行缺失值處理,之后先觀察一下初始數(shù)據(jù)集的前五行,前五行數(shù)據(jù)如圖3.13。圖3.13初始數(shù)據(jù)集的前五行數(shù)據(jù)可以看到,有許多特征都是對(duì)象型特征,有四個(gè)特征是是數(shù)值型特征,首先提取所在樓層特征的前三行和房屋朝向特征的前兩行并覆蓋原來(lái)對(duì)應(yīng)的特征,并且因?yàn)樵谶@四個(gè)數(shù)值型特征當(dāng)中序號(hào)和掛牌時(shí)間對(duì)后面的模型訓(xùn)練沒(méi)有什么影響,所以這里同時(shí)也對(duì)這兩個(gè)特征進(jìn)行刪除,并將處理之后的數(shù)據(jù)集保存成一個(gè)新的數(shù)據(jù)集,處理后的所在樓層和房屋朝向特征如表3.4。表3.4提取指定行數(shù)后的前五行數(shù)據(jù)序號(hào)所在樓層房屋朝向1高樓層南2高樓層南3低樓層南4中樓層南5中樓層南之后進(jìn)行特征編碼處理,特征編碼是機(jī)器學(xué)習(xí)中的一個(gè)重要步驟,它涉及將原始數(shù)據(jù)轉(zhuǎn)換為機(jī)器學(xué)習(xí)算法更容易理解和處理的格式。在途中通常會(huì)把對(duì)象型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。這樣不僅能夠保留原始數(shù)據(jù)的特征信息,還能使機(jī)器學(xué)習(xí)算法更容易地處理和分析這些數(shù)據(jù)。通過(guò)這些編碼方式,能夠有效地提升模型的訓(xùn)練效率和預(yù)測(cè)性能。首先使用正則匹配抽取房屋戶型特征,將其分為室、廳、廚、衛(wèi)四個(gè)新的特征并且將對(duì)應(yīng)的值填入其中,同時(shí)將原來(lái)的房屋戶型特征刪除,處理后的部分特征如表3.5。表3.5使用正則匹配后的前五行數(shù)據(jù)序號(hào)室廳廚衛(wèi)13.02.01.01.024.01.01.02.037.04.01.04.043.02.01.02.053.02.01.02.0之后再對(duì)其他的對(duì)象型特征一并進(jìn)行量化處理,并且在量化時(shí)將它們轉(zhuǎn)換成float類(lèi)型,然后在處理之后保存成一個(gè)新的數(shù)據(jù)集,處理之后的數(shù)據(jù)集如圖3.14。圖3.14量化后的前五行數(shù)據(jù)最后再將需要預(yù)測(cè)的單價(jià)(元/平方米)特征進(jìn)行分段量化,將單價(jià)(元/平方米)特征里面的值分為五個(gè)部分,分別取為0、1、2、3、4五個(gè)值,處理后的數(shù)據(jù)集如表3.7。表3.7分段量化后的前五行數(shù)據(jù)序號(hào)單價(jià)(元/平方米)11.021.032.041.051.0之后再進(jìn)行特征選擇,在數(shù)據(jù)分析過(guò)程中,了解不同特征之間的相關(guān)性是至關(guān)重要的。Python的pandas庫(kù)提供了一個(gè)非常方便的corr函數(shù),該函數(shù)默認(rèn)使用皮爾遜相關(guān)系數(shù)來(lái)計(jì)算特征之間的相關(guān)性。皮爾遜相關(guān)系數(shù)是衡量?jī)蓚€(gè)變量之間線性相關(guān)程度的統(tǒng)計(jì)指標(biāo),其值介于-1和1之間,其中1表示完全正相關(guān),-1表示完全負(fù)相關(guān),0則表示無(wú)相關(guān)性。為了更直觀地展示這些相關(guān)性,我們使用數(shù)據(jù)可視化的手段,如熱力圖或相關(guān)性矩陣圖。熱力圖通過(guò)顏色的深淺來(lái)表示數(shù)值的大小,使得數(shù)據(jù)之間的相關(guān)性關(guān)系一目了然。數(shù)據(jù)的熱力圖如圖3.13。圖3.13熱力圖從中可以看到跟我們需要預(yù)測(cè)的單價(jià)(元/平方米)相關(guān)性較高的有三個(gè)特征,分別是衛(wèi)、室、建筑面積(平方米),其對(duì)應(yīng)的相關(guān)性為0.48、0.3、0.37。所以選擇這三個(gè)特征來(lái)預(yù)測(cè)單價(jià)(元/平方米),將其他的特征刪除,并將處理后的數(shù)據(jù)集保存成一個(gè)新的數(shù)據(jù)集。3.4本章小結(jié)在本章中,介紹了本次研究所需要用到的數(shù)據(jù)集及其類(lèi)別,并在之后查看了是否存在缺失值等情況,在確認(rèn)完畢后運(yùn)用可視化進(jìn)行了一系列的數(shù)據(jù)分析工作,在數(shù)據(jù)分析工作結(jié)束后針對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行了一系列的數(shù)據(jù)預(yù)處理操作,包括特征歸一化、特征選擇、刪除多余的特征等任務(wù),下一步就該實(shí)現(xiàn)模型建立了。4建立模型本文基于經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的數(shù)據(jù)集,將采用邏輯回歸模型、隨機(jī)森林模型以及支持向量機(jī)模型來(lái)對(duì)二手房房?jī)r(jià)進(jìn)行預(yù)測(cè)。針對(duì)每種模型,將采用不同的優(yōu)化方法來(lái)提高模型的性能。通過(guò)比較不同模型在預(yù)測(cè)任務(wù)中的表現(xiàn),旨在為選擇最合適的分類(lèi)模型提供指導(dǎo)。4.1本文實(shí)施過(guò)程概述圖4.1實(shí)施流程圖在前面的過(guò)程中,已經(jīng)實(shí)現(xiàn)了數(shù)據(jù)預(yù)處理和特征工程處理,選擇了相關(guān)性較大的幾個(gè)特征組成了一個(gè)新的數(shù)據(jù)集,接下來(lái)該利用新的數(shù)據(jù)集實(shí)現(xiàn)模型構(gòu)建了,從上圖可以看到模型構(gòu)建環(huán)節(jié)我打算采用隨機(jī)森林、支持向量機(jī)、邏輯回歸三個(gè)分類(lèi)算法去實(shí)現(xiàn)。4.2模型構(gòu)建4.2.1數(shù)據(jù)集劃分通過(guò)合理的數(shù)據(jù)集劃分,可以有效評(píng)估模型的性能和泛化能力,避免模型在訓(xùn)練集上出現(xiàn)過(guò)擬合的問(wèn)題。因此在訓(xùn)練前中,需要將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,使用訓(xùn)練集進(jìn)行模型參數(shù)的學(xué)習(xí)和優(yōu)化,并使用測(cè)試集評(píng)估模型的性能。訓(xùn)練集是用于訓(xùn)練模型的數(shù)據(jù)集,通常占據(jù)整個(gè)數(shù)據(jù)集的大部分比例,約為70%~80%。模型通過(guò)訓(xùn)練集學(xué)習(xí)數(shù)據(jù)的模式和特征。測(cè)試集則用于評(píng)估模型的泛化能力和預(yù)測(cè)能力。一旦模型訓(xùn)練完成,測(cè)試集被用來(lái)評(píng)估模型在未見(jiàn)過(guò)的數(shù)據(jù)集上的表現(xiàn),通常占整個(gè)數(shù)據(jù)集的10%~20%。具體實(shí)現(xiàn)步驟如下:①劃分?jǐn)?shù)據(jù)集:按照上述比例劃分?jǐn)?shù)據(jù)集為訓(xùn)練集和測(cè)試集。②數(shù)據(jù)集分配:將特征數(shù)據(jù)和標(biāo)簽數(shù)據(jù)分別分配給訓(xùn)練集和測(cè)試集。③數(shù)據(jù)集使用:訓(xùn)練模型時(shí)只使用訓(xùn)練集,評(píng)估模型性能時(shí)使用測(cè)試集。4.2.2隨機(jī)森林模型隨機(jī)森林算法是一種基于集成學(xué)習(xí)的分類(lèi)算法,它通過(guò)將多個(gè)決策樹(shù)組合起來(lái)來(lái)提高分類(lèi)的準(zhǔn)確率。隨機(jī)森林算法的優(yōu)點(diǎn)是對(duì)于高維數(shù)據(jù)集和非線性數(shù)據(jù)集具有很好的分類(lèi)能力,且對(duì)于噪聲和異常值的魯棒性較強(qiáng),但是它對(duì)于連續(xù)型變量的處理較為困難。以下為算法部分參數(shù)的含義及解釋。①n_estimators,這是隨機(jī)森林中樹(shù)的數(shù)量。增加樹(shù)的數(shù)量通常會(huì)使模型性能更好,但也會(huì)增加計(jì)算時(shí)間和內(nèi)存消耗。當(dāng)增加更多的樹(shù)不再顯著提高性能時(shí),可以認(rèn)為模型已經(jīng)收斂。②max_depth,每棵樹(shù)的最大深度,限制樹(shù)的深度可以防止模型過(guò)擬合。較深的樹(shù)可以學(xué)習(xí)更復(fù)雜的模式,但也可能導(dǎo)致對(duì)訓(xùn)練數(shù)據(jù)的過(guò)度擬合。③min_samples_split,一個(gè)內(nèi)部節(jié)點(diǎn)要分裂所需的最小樣本數(shù),這個(gè)參數(shù)用于控制樹(shù)的生長(zhǎng)。增加這個(gè)值會(huì)使樹(shù)更加簡(jiǎn)單,減少過(guò)擬合的風(fēng)險(xiǎn)。④min_samples_leaf,葉節(jié)點(diǎn)所需的最小樣本數(shù),這個(gè)參數(shù)有助于避免樹(shù)過(guò)于復(fù)雜,并減少過(guò)擬合。⑤max_features,在尋找最佳分裂時(shí)要考慮的特征的最大數(shù)量,通過(guò)減少在每次分裂時(shí)考慮的特征數(shù)量,可以增加樹(shù)的多樣性,這有助于減少過(guò)擬合。⑥bootstrap,是否使用自助法(bootstrap)來(lái)生成樣本,如果為T(mén)rue,則每個(gè)樹(shù)的樣本都是原始數(shù)據(jù)集的隨機(jī)樣本(有放回抽樣)。如果為False,則每個(gè)樹(shù)都使用原始數(shù)據(jù)集的完整樣本。自助法可以增加模型的泛化能力。⑦oob_score,是否使用袋外樣本來(lái)評(píng)估模型的性能,袋外樣本是在構(gòu)建每棵樹(shù)時(shí)未被用于訓(xùn)練的那部分?jǐn)?shù)據(jù)。使用這些樣本來(lái)評(píng)估模型可以避免交叉驗(yàn)證的額外計(jì)算成本。采用的部分代碼如下。#劃分訓(xùn)練集和測(cè)試集X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)#初始化隨機(jī)森林分類(lèi)器rf=RandomForestClassifier()#訓(xùn)練模型rf.fit(X_train,y_train)模型評(píng)分如表4.1所示。表4.1隨機(jī)森林模型評(píng)分AccuracyPrecisionReallF10.9568730.9568730.9568730.9568734.2.3邏輯回歸模型邏輯回歸算法是一種基于概率的分類(lèi)算法,它將樣本的特征與類(lèi)別之間的關(guān)系建立為一個(gè)邏輯回歸模型,然后根據(jù)模型的輸出值來(lái)判斷樣本的類(lèi)別。邏輯回歸對(duì)于非線性分類(lèi)問(wèn)題效果不佳。以下為算法部分參數(shù)的含義及解釋。①截距項(xiàng)(Intercept),邏輯回歸模型中的截距項(xiàng)是一個(gè)常數(shù),它表示在所有自變量為零時(shí),被預(yù)測(cè)類(lèi)別的對(duì)數(shù)幾率的基準(zhǔn)值。截距項(xiàng)的存在使得模型能夠適應(yīng)不同數(shù)據(jù)集的偏移,從而更準(zhǔn)確地?cái)M合數(shù)據(jù)。②回歸系數(shù)(Coefficients),邏輯回歸模型中的回歸系數(shù)表示每個(gè)自變量對(duì)被預(yù)測(cè)類(lèi)別的對(duì)數(shù)幾率的影響程度?;貧w系數(shù)的正負(fù)決定了自變量的影響方向,而系數(shù)的絕對(duì)值大小則反映了影響的大小。通過(guò)調(diào)整回歸系數(shù),可以優(yōu)化模型對(duì)數(shù)據(jù)的擬合效果。③正則化項(xiàng)(Penalty),正則化項(xiàng)用于控制模型的復(fù)雜度,防止過(guò)擬合。邏輯回歸中常用的正則化方法有L1正則化和L2正則化。正則化項(xiàng)的選擇和強(qiáng)度的調(diào)整對(duì)于模型的泛化能力至關(guān)重要。④優(yōu)化算法,邏輯回歸算法使用優(yōu)化算法來(lái)求解模型參數(shù)。不同的優(yōu)化算法在收斂速度、計(jì)算復(fù)雜度和穩(wěn)定性等方面有所差異。選擇合適的優(yōu)化算法可以提高模型的訓(xùn)練效率和性能。⑤閾值,在邏輯回歸中,閾值用于將模型的輸出轉(zhuǎn)化為最終的類(lèi)別預(yù)測(cè)。通常,如果模型輸出的概率大于閾值,則被預(yù)測(cè)為正類(lèi);否則,被預(yù)測(cè)為負(fù)類(lèi)。閾值的選擇可以根據(jù)實(shí)際需求進(jìn)行調(diào)整,以平衡模型的準(zhǔn)確率和召回率。采用的部分代碼如下。#劃分訓(xùn)練集和測(cè)試集X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)#創(chuàng)建邏輯回歸模型model=LogisticRegression()#在訓(xùn)練集上訓(xùn)練模型model.fit(X_train,y_train)模型評(píng)分如表4.2所示。表4.2邏輯回歸模型評(píng)分AccuracyPrecisionReallF10.9440700.9440700.9440700.9440704.2.4支持向量機(jī)模型SVM算法,全稱(chēng)為支持向量機(jī),是一種基于最大間隔原理的分類(lèi)算法。其核心思想在于將原始數(shù)據(jù)集映射至高維特征空間,以尋找一個(gè)能夠最大化不同類(lèi)別數(shù)據(jù)點(diǎn)間隔的最優(yōu)超平面。這種間隔最大化的策略確保了分類(lèi)器的穩(wěn)定性和泛化能力,特別是在處理高維和非線性數(shù)據(jù)集時(shí)表現(xiàn)優(yōu)異。SVM算法的優(yōu)點(diǎn)在于其強(qiáng)大的分類(lèi)能力,尤其適用于處理復(fù)雜和難以區(qū)分的數(shù)據(jù)集。然而,SVM也存在一些局限性。例如,當(dāng)面對(duì)大規(guī)模數(shù)據(jù)集時(shí),其訓(xùn)練過(guò)程可能較為耗時(shí),因?yàn)樾枰?jì)算大量的支持向量和核矩陣。此外,SVM對(duì)噪聲和異常值較為敏感,這些不理想的數(shù)據(jù)點(diǎn)可能會(huì)影響超平面的選擇和分類(lèi)效果。以下為算法部分參數(shù)的含義及解釋。①C(正則化系數(shù)),C是SVM的正則化參數(shù),用于控制模型的復(fù)雜度與誤分類(lèi)樣本之間的權(quán)衡。C值較小時(shí),模型可能過(guò)于簡(jiǎn)單,導(dǎo)致欠擬合;C值較大時(shí),模型可能過(guò)于復(fù)雜,導(dǎo)致過(guò)擬合。通過(guò)調(diào)整C的值,可以在模型的復(fù)雜度和泛化能力之間找到一個(gè)平衡點(diǎn)。②Kernel(核函數(shù)),核函數(shù)定義了SVM如何處理非線性問(wèn)題。常見(jiàn)的核函數(shù)包括線性核(linear)、多項(xiàng)式核(poly)、徑向基函數(shù)核(RBF,或稱(chēng)為高斯核)和Sigmoid核等。選擇合適的核函數(shù)對(duì)于處理非線性數(shù)據(jù)至關(guān)重要。不同的核函數(shù)有不同的特性,例如RBF核能夠處理任何非線性的數(shù)據(jù),但可能需要更多的計(jì)算資源。③Gamma(γ),當(dāng)使用RBF核時(shí),Gamma是RBF核函數(shù)的一個(gè)參數(shù),它決定了決策邊界的形狀。Gamma值較小時(shí),決策邊界可能較為平滑;Gamma值較大時(shí),決策邊界可能更加復(fù)雜。選擇合適的Gamma值可以幫助模型更好地?cái)M合數(shù)據(jù)。④Degree(d),當(dāng)使用多項(xiàng)式核時(shí),Degree表示多項(xiàng)式的最高次數(shù),Degree的值會(huì)影響模型的復(fù)雜度。較高的Degree值可能會(huì)使模型更加復(fù)雜,但也可能導(dǎo)致過(guò)擬合。⑤Coef0(c0),這是核函數(shù)中的常數(shù)項(xiàng)。對(duì)于多項(xiàng)式核和Sigmoid核,它是有意義的,調(diào)整Coef0的值可以影響決策邊界的位置和形狀,有助于優(yōu)化模型的性能。采用的部分代碼如下。X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)#初始化支持向量機(jī)模型svm=SVC()#初始化支持向量機(jī)模型svm=SVC()以下為模型評(píng)分:模型評(píng)分如表4.3所示。表4.3支持向量機(jī)模型評(píng)分AccuracyPrecisionReallF10.9467650.9467650.9467650.9467654.3模型調(diào)優(yōu)與評(píng)估模型調(diào)優(yōu)是指在構(gòu)建機(jī)器學(xué)習(xí)模型后,通過(guò)一系列方法和技術(shù)來(lái)優(yōu)化模型的性能和泛化能力。模型調(diào)優(yōu)的主要目的是提高模型的預(yù)測(cè)準(zhǔn)確性、降低過(guò)擬合風(fēng)險(xiǎn)、提高泛化能力,并使模型更好地適應(yīng)實(shí)際應(yīng)用場(chǎng)景。在本項(xiàng)目中,我們采用了網(wǎng)格搜索法來(lái)優(yōu)化模型的參數(shù)。網(wǎng)格搜索法是一種廣泛應(yīng)用于參數(shù)調(diào)優(yōu)的技術(shù),它通過(guò)設(shè)定參數(shù)的范圍,然后遍歷所有可能的參數(shù)組合進(jìn)行詳盡的搜索,以找出最佳的參數(shù)配置。網(wǎng)格搜索法的優(yōu)勢(shì)在于其原理簡(jiǎn)單明了,實(shí)施起來(lái)也相對(duì)容易。它能夠系統(tǒng)地探索參數(shù)空間,確保找到全局最優(yōu)的參數(shù)組合,為模型的性能提供有力的保障。4.3.1隨機(jī)森林模型調(diào)優(yōu)經(jīng)過(guò)網(wǎng)格搜索法調(diào)優(yōu)后的結(jié)果如表4.4所示。表4.4調(diào)優(yōu)后隨機(jī)森林模型評(píng)分AccuracyPrecisionReallF10.9642850.9642850.9642850.9642854.3.2邏輯回歸模型調(diào)優(yōu)經(jīng)過(guò)網(wǎng)格搜索法調(diào)優(yōu)后的結(jié)果如表4.5所示。表4.5調(diào)優(yōu)后邏輯回歸模型評(píng)分AccuracyPrecisionReallF10.9565360.9565360.9565360.9565364.3.3支持向量機(jī)模型調(diào)優(yōu)經(jīng)過(guò)網(wǎng)格搜索法調(diào)優(yōu)后的結(jié)果如表4.6所示。表4.6調(diào)優(yōu)后支持向量機(jī)模型評(píng)分AccuracyPrecisionReallF10.9477760.9477760.9477760.947776經(jīng)過(guò)網(wǎng)格搜索法調(diào)優(yōu)后的結(jié)果如表4.7所示。算法調(diào)優(yōu)前Accuracy調(diào)優(yōu)后Accuracy隨機(jī)森林0.9568730.964285邏輯回歸0.9440700.956536支持向量機(jī)0.9467650.947776表4.7三個(gè)算法模型調(diào)優(yōu)前后的準(zhǔn)確率對(duì)比從中我們可以看到三個(gè)算法經(jīng)過(guò)調(diào)優(yōu)后準(zhǔn)確率都沒(méi)有太大的提升,并且隨機(jī)森林模型的準(zhǔn)確率是最高的,所以我們考慮在之后的模型預(yù)測(cè)部分使用隨機(jī)森林算法進(jìn)行預(yù)測(cè)。4.4模型預(yù)測(cè)在本文中,我們使用了三個(gè)不同的算法,這些算法都是在實(shí)際應(yīng)用中被廣泛驗(yàn)證的,并且在處理分類(lèi)問(wèn)題時(shí)表現(xiàn)出色,但是模型預(yù)測(cè)時(shí)只能選擇一個(gè)最好的模型,這里選擇模型評(píng)分最高的經(jīng)過(guò)網(wǎng)格調(diào)優(yōu)過(guò)后的隨機(jī)森林模型進(jìn)行預(yù)測(cè)。預(yù)測(cè)結(jié)果如圖4.2。圖4.24.5本章小結(jié)在本章中首先進(jìn)行了對(duì)數(shù)據(jù)集的劃分,使數(shù)據(jù)集能夠更加擬合我們的模型,之后構(gòu)建了基礎(chǔ)模型并分別展示了它們的各種得分情況。接著在本章中探討了模型調(diào)優(yōu)的重要性,介紹了通過(guò)網(wǎng)格搜索法對(duì)模型參數(shù)進(jìn)行調(diào)優(yōu)的方法。通過(guò)調(diào)整參數(shù),可以提高預(yù)測(cè)準(zhǔn)確性、降低過(guò)擬合風(fēng)險(xiǎn),增強(qiáng)模型泛化能力,使其更好地適應(yīng)實(shí)際應(yīng)用環(huán)境。最后運(yùn)用調(diào)優(yōu)后的模型進(jìn)行預(yù)測(cè),并成功得到了預(yù)測(cè)結(jié)果。5二手房房?jī)r(jià)預(yù)測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)本文旨在通過(guò)建立二手房房?jī)r(jià)的預(yù)測(cè)系統(tǒng),實(shí)現(xiàn)實(shí)際應(yīng)用價(jià)值。為此,基于訓(xùn)練完成的模型構(gòu)建了一個(gè)具備用戶交互界面的預(yù)測(cè)系統(tǒng)。該系統(tǒng)能夠提供預(yù)測(cè)功能。用戶登錄系統(tǒng)后,可通過(guò)輸入對(duì)應(yīng)的值,系統(tǒng)便能夠根據(jù)輸入的值進(jìn)行預(yù)測(cè)并輸出預(yù)測(cè)結(jié)果。此外,可視化頁(yè)面系統(tǒng)則通過(guò)外部的數(shù)據(jù)決策系統(tǒng)系統(tǒng)提供幫助,從而完成可視化功能。5.1數(shù)據(jù)決策系統(tǒng)5.1.1系統(tǒng)概況本項(xiàng)目的研究目標(biāo)是對(duì)二手房房?jī)r(jià)的分析與預(yù)測(cè),不僅僅實(shí)現(xiàn)預(yù)測(cè)功能,還要進(jìn)行分析,在這里引入數(shù)據(jù)決策系統(tǒng)。該系統(tǒng)基于數(shù)據(jù)分析和挖掘技術(shù),幫助組織和企業(yè)做出決策。該系統(tǒng)通常利用大數(shù)據(jù)處理能力、數(shù)據(jù)可視化等技術(shù),從海量數(shù)據(jù)中提取有用信息,為決策者提供支持和參考。首先從數(shù)據(jù)源收集數(shù)據(jù),然后將這些數(shù)據(jù)整合到的數(shù)據(jù)平臺(tái)中。數(shù)據(jù)決策系統(tǒng)的建立能夠幫助組織和企業(yè)更好地理解數(shù)據(jù)、發(fā)現(xiàn)規(guī)律、預(yù)測(cè)未來(lái)趨勢(shì),從而提升決策的準(zhǔn)確性和效率。5.1.2系統(tǒng)原理本系統(tǒng)主要實(shí)現(xiàn)提升企業(yè)運(yùn)營(yíng)效率、優(yōu)化營(yíng)銷(xiāo)策略,并且能夠直觀的表示客戶的認(rèn)購(gòu)意愿,為決策者提供決策支持。本系統(tǒng)具體包含登陸、管理、可視化功能。數(shù)據(jù)決策系統(tǒng)的登錄功能是用戶訪問(wèn)系統(tǒng)的第一入口,其設(shè)計(jì)與實(shí)現(xiàn)必須兼顧安全性、便捷性及用戶體驗(yàn)。支持用戶通過(guò)預(yù)先注冊(cè)并驗(yàn)證過(guò)的用戶名、企業(yè)郵箱地址或手機(jī)號(hào)進(jìn)行登錄;設(shè)置密碼強(qiáng)度規(guī)則,包括長(zhǎng)度、大小寫(xiě)字母、數(shù)字、特殊字符等組合要求;不同用戶登錄后看到的數(shù)據(jù)內(nèi)容和功能模塊因其所擁有的角色權(quán)限不同而有所差異??傊?,數(shù)據(jù)決策系統(tǒng)的登錄功能既要保證用戶數(shù)據(jù)的安全,又要簡(jiǎn)化操作流程,提升用戶體驗(yàn),是整個(gè)系統(tǒng)安全框架構(gòu)建的重要組成部分。登陸決策管理系統(tǒng),配置同戶名和密碼,如圖5.1所示:圖5.1數(shù)據(jù)決策系統(tǒng)登陸圖5.2系統(tǒng)數(shù)據(jù)分析可視化功能使用to_csv方法將數(shù)據(jù)集保存到Finereport的reportlets目錄下,然后打開(kāi)Finereport點(diǎn)擊右下角的添加符號(hào),把數(shù)據(jù)集添加到工作目錄當(dāng)中去。如圖5.3所示:圖5.2導(dǎo)入數(shù)據(jù)集傳入數(shù)據(jù)后,可以進(jìn)行可視化報(bào)表制作。Finereport提供了很多圖,例如餅狀圖、柱狀圖、條形圖等,通過(guò)這些圖可以非常直觀清晰的表達(dá)出數(shù)據(jù)的內(nèi)容。展示效果如以下圖片圖5.3展示了各區(qū)域的平均建筑面積柱形圖,橫坐標(biāo)為成都的各個(gè)市轄區(qū)區(qū)域,而縱坐標(biāo)為平均建筑面積,并且可以看到大多數(shù)區(qū)域的二手房平均面積都在100至120之間,少數(shù)幾個(gè)區(qū)域在80至100之間。圖5.3各區(qū)域平均建筑面積柱形圖圖5.4展示了各區(qū)域的平均建筑面積柱形圖,橫坐標(biāo)為成都的各個(gè)市轄區(qū)區(qū)域,而縱坐標(biāo)為二手房房源數(shù)量,并且可以看到圖5.4中一共有20個(gè)區(qū)域,導(dǎo)致每個(gè)區(qū)域的數(shù)據(jù)集都很少,這可能會(huì)在以后的預(yù)測(cè)中產(chǎn)生誤差。圖5.4各區(qū)域房源數(shù)量柱形圖圖5.5展示了各區(qū)域的房屋用途條形圖,縱坐標(biāo)為成都的各個(gè)市轄區(qū)區(qū)域,而橫坐標(biāo)為房屋數(shù)量,可以看到大多數(shù)房屋都是屬于普通住宅類(lèi)型,很少一部分屬于商務(wù)辦公類(lèi)型。圖5.5各區(qū)域房屋用途條形圖圖5.6展示了成都二手房的房屋用途餅狀圖,可以看到99%為普通住宅類(lèi)型,之后可以重點(diǎn)研究該類(lèi)型。圖5.6房屋用途餅狀圖圖5.7展示了各區(qū)域的平均單價(jià)折線圖,橫坐標(biāo)為成都的各個(gè)市轄區(qū)區(qū)域,而縱坐標(biāo)為平均單價(jià),可以看到各個(gè)區(qū)域的平均單價(jià)差距還是非常明顯的。圖5.7各區(qū)域平均單價(jià)折線圖圖5.8展示了成都二手房房屋的房屋朝向詞云,可以看到朝向占比較大的為東南、西南、南、南北、東等朝向。圖5.8房屋朝向詞云圖5.9展示了各區(qū)域的平均單價(jià)箱線圖,橫坐標(biāo)為成都的各個(gè)市轄區(qū)區(qū)域,而縱坐標(biāo)為平均單價(jià),可以看到數(shù)據(jù)極端值較少,數(shù)據(jù)較平滑。圖5.9各區(qū)域平均單價(jià)箱線圖圖5.10展示了建筑面積與單價(jià)散點(diǎn)圖,橫坐標(biāo)為建筑面積,縱坐標(biāo)為單價(jià),可以觀察到建筑面積與單價(jià)之間并沒(méi)有明顯的關(guān)系,樣本點(diǎn)的分布相對(duì)集中,離散值較少。圖5.10建筑面積與單價(jià)散點(diǎn)圖圖5.11展示了成都二手房房屋的建筑類(lèi)型占比餅狀圖,可以看到建筑類(lèi)型38.7%都是板樓,37.4%是板塔結(jié)合,23.3%是塔樓。圖5.11建筑類(lèi)型占比餅狀圖圖5.12展示了成都二手房房屋的裝修情況占比餅狀圖,可以看到二手房裝修了的占比為76.1%,超過(guò)了總數(shù)的四分之三。圖5.12裝修情況餅狀圖5.3系統(tǒng)模型預(yù)測(cè)可視化功能在本環(huán)節(jié)中需要實(shí)現(xiàn)導(dǎo)入模型,并且可以輸入對(duì)應(yīng)數(shù)據(jù)來(lái)完成預(yù)測(cè)的功能,這里先構(gòu)建一個(gè)登錄系統(tǒng)來(lái)實(shí)現(xiàn)對(duì)預(yù)測(cè)功能的保護(hù)。登錄界面是用戶與系統(tǒng)交互的起點(diǎn),通過(guò)登錄界面,用戶可以安全地訪問(wèn)系統(tǒng)資源,確保只有經(jīng)過(guò)驗(yàn)證的用戶才能進(jìn)入系統(tǒng),從而保護(hù)系統(tǒng)的安全性和數(shù)據(jù)的完整性。其次,登錄界面能夠提升用戶體驗(yàn)。一個(gè)設(shè)計(jì)合理、操作簡(jiǎn)便的登錄界面,可以讓用戶更快速地了解和使用系統(tǒng),降低使用門(mén)檻。同時(shí),登錄界面還可以展示系統(tǒng)的品牌形象和特色,提升用戶對(duì)系統(tǒng)的信任和好感度。最后,登錄界面是系統(tǒng)權(quán)限管理的基礎(chǔ)。通過(guò)登錄界面,系統(tǒng)可以記錄用戶的登錄信息和行為,為后續(xù)的權(quán)限管理和日志審計(jì)提供數(shù)據(jù)支持。管理員可以根據(jù)登錄信息,對(duì)用戶進(jìn)行分組、角色分配等操作,實(shí)現(xiàn)精細(xì)化的權(quán)限控制。圖5.13登錄界面之后登錄成功后跳轉(zhuǎn)到預(yù)測(cè)界面并輸入數(shù)據(jù)實(shí)現(xiàn)預(yù)測(cè)功能。圖5.14預(yù)測(cè)結(jié)果5.4本章小結(jié)在本文中,我們首先介紹闡述了數(shù)據(jù)決策系統(tǒng)的核心內(nèi)容和功能需求。這個(gè)系統(tǒng)旨在提高企業(yè)對(duì)理財(cái)產(chǎn)品的認(rèn)購(gòu)預(yù)測(cè)與分析能力,利用大數(shù)據(jù)處理技術(shù)和數(shù)據(jù)可視化手段揭示隱藏信息并支持高效決策。系統(tǒng)的建立包括從數(shù)據(jù)源收集和整合數(shù)據(jù)到統(tǒng)一的數(shù)據(jù)平臺(tái),確保組織能夠深入理解數(shù)據(jù)、發(fā)現(xiàn)內(nèi)在規(guī)律及預(yù)測(cè)未來(lái)趨勢(shì)。在系統(tǒng)功能方面,明確了以下幾個(gè)功能:①登錄功能:作為用戶訪問(wèn)系統(tǒng)的入口,設(shè)計(jì)上兼顧安全性和用戶體驗(yàn),采用多樣化的登錄方式,并根據(jù)用戶角色分配不同的權(quán)限,確保數(shù)據(jù)安全的同時(shí)簡(jiǎn)化操作流程。②管理功能:管理員可通過(guò)后臺(tái)管理模塊審核新用戶注冊(cè)申請(qǐng),授權(quán)用戶訪問(wèn)權(quán)限,并能配置諸如系統(tǒng)名稱(chēng)、LOGO、默認(rèn)語(yǔ)言等全局參數(shù)設(shè)置,以滿足個(gè)性化需求。③數(shù)據(jù)集成與報(bào)表制作:使用編程方法將模型預(yù)測(cè)生成的數(shù)據(jù)輸出至Finereport的工作目錄,然后在Finereport中設(shè)計(jì)并創(chuàng)建各類(lèi)可視化報(bào)表,如餅圖、柱狀圖等,以便直觀呈現(xiàn)預(yù)測(cè)結(jié)果。最后,概述了整個(gè)系統(tǒng)的邏輯流程。預(yù)測(cè)模型產(chǎn)生的結(jié)果被整合進(jìn)決策系統(tǒng)后臺(tái),再由Finereport設(shè)計(jì)出易于理解和解讀的可視化界面。用戶在前端登陸后可查看這些可視化面板,從而基于數(shù)據(jù)分析結(jié)果來(lái)制定或優(yōu)化各項(xiàng)決策策略。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中職畜牧獸醫(yī)(寵物護(hù)理)試題及答案
- 2025年大學(xué)環(huán)境設(shè)計(jì)(環(huán)境設(shè)計(jì))試題及答案
- 2025年大學(xué)大四(教育學(xué))教育管理學(xué)基礎(chǔ)測(cè)試題及答案
- 2025年大學(xué)食品科學(xué)與工程(食品加工)試題及答案
- 2025年高職井巷工程(巷道施工)試題及答案
- 2026年建筑結(jié)構(gòu)(鋼結(jié)構(gòu)加固)試題及答案
- 2025年高職文化藝術(shù)管理(管理技術(shù)實(shí)操)試題及答案
- 2025年大學(xué)大二(藝術(shù)設(shè)計(jì))首飾設(shè)計(jì)綜合測(cè)試試題及答案
- 2025年高職職業(yè)健康安全管理(職業(yè)衛(wèi)生監(jiān)測(cè))試題及答案
- 2025年高職第二學(xué)年(園林工程技術(shù))園林植物養(yǎng)護(hù)試題及答案
- JJF(機(jī)械) 1064-2021 運(yùn)動(dòng)場(chǎng)地材料沖擊吸收和垂直變形試驗(yàn)機(jī)校準(zhǔn)規(guī)范
- T CEC站用低壓交流電源系統(tǒng)剩余電流監(jiān)測(cè)裝置技術(shù)規(guī)范
- 個(gè)人工傷申請(qǐng)書(shū)
- 工程竣工移交單
- 起重機(jī)焊接結(jié)構(gòu)件制造工藝規(guī)程
- “振興杯”職業(yè)技能競(jìng)賽(維修電工)備賽試題庫(kù) (單選、多選題匯總)
- GB/T 25689-2010土方機(jī)械自卸車(chē)車(chē)廂容量標(biāo)定
- 攝像機(jī)外觀檢驗(yàn)標(biāo)準(zhǔn)
- 航標(biāo)和航標(biāo)配布專(zhuān)題培訓(xùn)課件
- 學(xué)習(xí)課件所有內(nèi)容歸類(lèi)到此-etops運(yùn)行手冊(cè)
- 大棚番茄栽培技術(shù)課件
評(píng)論
0/150
提交評(píng)論