版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
6.2房產數據預處理與分析當今時代,房價問題一直處于風口浪尖,房價的上漲抑或下跌都牽動著整個社會的利益,即便是政府出臺各種政策方針也只能是暫時抑制樓市的漲勢,對于需要買房的人來說,除了關注這些變化和政策外,還有一個非常頭疼的問題,在哪里買房,房價怎樣。普通客戶會不?;ù罅烤滏溂?、安居客等房地產網站,借助他們展示的內容進行篩選,但因地區(qū)眾多,各個地段、房價差異的對比以及入手時機的把握,都得一個個去查閱與分析,非常麻煩。如果可以通過數據的爬取,再按照用戶希望的維度統(tǒng)計與分析,會讓數據變得清晰明了。本案例旨在對房產數據進行預處理與分析,為剛需購房者提供有用信息。一、數據源本案例利用某爬蟲軟件爬取某房產網站中蘇州地區(qū)的房產數據,數據文件為house.xlsx,如圖6-*所示。圖6-*數據源二、目標1.數據爬取時缺失數據是常見的現象,通過某爬取軟件從網站爬取的數據時,如果沒有爬取到的數據會返回“暫無數據”,這會影響后期的空值處理,將這些“暫無數據”轉換為空值,并統(tǒng)計各列的空值頻數,查看缺失數據情況。2.數據爬取的數據往往是帶有單位的字符串,這也會影響后期的數據分析,所以需要將這些數去掉單位,再轉換為數值型數據。如將字符串“均價”的40000元/m2轉換為數值40000。3.為了分析不同區(qū)的房產數據,從地址中提取出區(qū)的數據。為了分析房齡的數據,從建造年代中提取出房齡數據。4.篩選出區(qū)為“工業(yè)園”,均價在50000以下,容積率在1.5以下的房源數據。5.查詢房價最貴小區(qū)的前5名。6. 查詢停車位最少小區(qū)的前5名。7.統(tǒng)計所有數據的平均房價以及二手房總和數量。8.分析均價40000以上小區(qū)中,房源最多是哪個區(qū)。三、步驟步驟1:導入庫,設置參數。導入所需要的庫pandas,利用pd.set_option解除顯示寬度的顯示,設置數據對齊。步驟1代碼如下:importpandasaspdpd.set_option('display.width',None)pd.set_option('display.unicode.east_asian_width',True)步驟2:導入數據并查看。利用read_excel導入house.xlsx(house.xlsx存放在c:\data路徑中),將讀入的數據命名為data。查看data的行數、列數、列名以及數據的前5行。步驟2代碼如下:data=pd.read_excel("c:/data/house.xlsx")print("數據的行數=%d\n數據的列數=%d"%(data.shape[0],data.shape[1]))print("數據的所有列名為:\n",data.columns)print("數據的前5行為:\n",data.head())輸出結果如圖6-*所示。圖6-*步驟2輸出結果步驟3:數據空值處理。將數據中的“暫無數據”改為空值,統(tǒng)計出現空值的列及其空值數量,并按降序排序。步驟3代碼如下:importnumpyasnpdata=data.replace('暫無數據',np.nan)nun_result=data.isnull().sum()nun_result=nun_result[nun_result>0]nun_result=nun_result.sort_values(ascending=False)print("各列的空值數量為:\n",nun_result)輸出結果如圖6-*所示。圖6-*步驟3輸出結果步驟4:數據單位處理。將所有數據的單位去掉,并轉換為數值型數據。如將“均價”列中的單位去掉,并將剩下的數據轉換為數值。步驟4代碼如下:data['均價']=data['均價'].str.replace('元/m2','')data['物業(yè)費']=data['物業(yè)費'].str.replace('元/㎡/月','')data['總建面積']=data['總建面積'].str.replace('m2','')data['總戶數']=data['總戶數'].str.replace('戶','')data['二手房房源數']=data['二手房房源數'].str.replace('套','')data['租房源數']=data['租房源數'].str.replace('套','')data['建造年代']=data['建造年代'].str.replace('年','')columns_list=['均價','物業(yè)費','總建面積','停車位','二手房房源數','租房源數','建造年代','容積率']print(data.head())forcolumnincolumns_list:data[column]=data[column].astype("float")輸出結果如圖6-*所示。圖6-*步驟4輸出結果步驟5:添加新列。(1)將“地址”列拆分為3個部分,第1個部分生成新列“區(qū)”。(2)生成新列“房齡”,“房齡”列計算公式為:房齡=當前年份(2020)-建造年代。步驟5(1)代碼如下:data['區(qū)']=data['地址'].str.split('-',expand=True)[0]print(data[['地址','區(qū)']][:5])輸出結果如圖6-*所示。圖6-*步驟5(1)輸出結果步驟5(2)代碼如下:data['房齡']=2020-data['建造年代']print(data[['建造年代','房齡']][:5])輸出結果如圖6-*所示。圖6-*步驟5(2)輸出結果步驟6:數據篩選。篩選出區(qū)為“工業(yè)園”,均價在50000以下,容積率在1.5以下的房源數據。步驟6代碼如下:data_loc=data.loc[(data['區(qū)']=='工業(yè)園')&(data['均價']<50000)&(data['容積率']<1.5)]print(data_loc[['小區(qū)名稱','區(qū)','均價','容積率']])輸出結果如圖6-*所示。圖6-*步驟6輸出結果步驟7:數據排序。(1)按照“均價”降序排序,并輸出“小區(qū)名稱”、“區(qū)”、“均價”的前5條數據。(2)按照“停車位”升序排序,并輸出“小區(qū)名稱”、“區(qū)”、“停車位”的前5條數據。步驟7(1)代碼如下:sort1=data.sort_values(by='均價',ascending=False)sort1=sort1[['小區(qū)名稱','區(qū)','均價']][:5]print(sort1)輸出結果如圖6-*所示。步驟7(2)代碼如下:sort2=data.sort_values(by='停車位',ascending=True)sort2=sort2[['小區(qū)名稱','區(qū)','停車位']][:5]print(sort2)輸出結果如圖7-*所示。圖6-*步驟7輸出結果步驟8:描述性統(tǒng)計分析。(1)計算所有數據的平均房價、二手房總和。(2)統(tǒng)計均價大于40000的數據中不同區(qū)的頻數。步驟8(1)代碼如下:mean=data['均價'].mean()mean=round(mean,0)sum=data['二手房房源數'].sum()print("房屋總均價為=",mean)print("二手房總房源數=",sum)輸出結果如圖6-*所示。圖6-*步驟8(1)輸出結果步驟8(2)代碼如下:data_loc=data.loc[data['均價']>40000]count=data_loc['區(qū)'].value_counts(ascending=False)print("均價40000以上小區(qū)的各區(qū)頻數統(tǒng)計結果為:\n",count)輸出結果如圖6-*所示。圖6-*步驟8(2)輸出結果四、結論1.工業(yè)園區(qū)中,均價為50000以下
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 通信行業(yè)銷售主管面試題及答案
- 人力資源員工關系專員筆試題及答案
- 用友財務軟件使用教程及常見問題解答
- 測試開發(fā)工程師崗位職責與要求
- 國際貿易師筆試模擬題及答案
- 2025年紹興市中等專業(yè)學校合同制工作人員(融媒體工作技術員)招聘備考題庫及參考答案詳解
- 2025年龍華醫(yī)院新職工招聘備考題庫(第五批)完整答案詳解
- 2025年寧波市北侖區(qū)教育局公開招聘事業(yè)編制教師195人備考題庫帶答案詳解
- 2025年國家管網集團西北公司招聘備考題庫及一套參考答案詳解
- 初級程序員求職寶典面試題及答案解析
- 2025年淮北市相山區(qū)公開招考村(社區(qū))后備干部66名筆試考試參考試題及答案解析
- 2025年貴州錦麟化工有限責任公司招聘備考題庫及一套參考答案詳解
- 2025年石家莊市公安局鹿泉分局公開招聘留置看護警務輔助人員30人的備考題庫有答案詳解
- 2025年甘肅省書記員考試試題及答案
- 【MOOC】3D工程圖學-華中科技大學 中國大學慕課MOOC答案
- 食堂消毒表格
- 模具定期保養(yǎng)點檢表
- 電工基礎(第六版)課后習題答案
- 快消品年度工作計劃
- 醫(yī)院后勤設備安全運維管理
- 思想道德與法治課件:第六章 第四節(jié) 自覺尊法學法守法用法
評論
0/150
提交評論