《數(shù)據(jù)分析與可視化》項目報告格式_第1頁
《數(shù)據(jù)分析與可視化》項目報告格式_第2頁
《數(shù)據(jù)分析與可視化》項目報告格式_第3頁
《數(shù)據(jù)分析與可視化》項目報告格式_第4頁
《數(shù)據(jù)分析與可視化》項目報告格式_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

江西現(xiàn)代職業(yè)技術(shù)學院項目報告題目:數(shù)據(jù)分析與可視化學號姓名張三班級專業(yè)指導教師提交時間

《數(shù)據(jù)分析與可視化》綜合性考核項目【項目名稱】數(shù)據(jù)分析與可視化綜合性考核項目【實驗?zāi)康摹?、數(shù)據(jù)分析學習目標: 掌握python編程基礎(chǔ)、JupyterNotebook的安裝與使用 掌握NumPy基本操作,包括數(shù)組的索引、切片、運算、讀和寫 掌握Pandas基本操作,包括數(shù)據(jù)載入與集成,數(shù)據(jù)清洗 掌握時間序列數(shù)據(jù)分析基本操作,包括日期和時間數(shù)據(jù)類型、數(shù)據(jù)的索引和切片2、數(shù)據(jù)可視化學習目標: 掌握Matplotlib的安裝方法 掌握pyecharts的安裝方法 掌握Matplotlib的繪圖基本流程、參數(shù)設(shè)置 掌握Matplotlib幾種常用圖形的繪制方法 掌握pyecharts的繪圖基本流程 掌握pyecharts幾種常用圖形的繪制方法【實驗內(nèi)容】選擇一個真實案例作為綜合項目,考察學生的綜合解決問題的能力,以下是項目內(nèi)容和參考解決方案。1.項目背景人工智能與大數(shù)據(jù)的蓬勃發(fā)展衍生了眾多與數(shù)據(jù)相關(guān)的崗位,在這些崗位中數(shù)據(jù)分析師崗位脫穎而出,受到業(yè)界人士的廣泛關(guān)注。為了從多個角度了解數(shù)據(jù)分析師崗位的實際情況,本項目從數(shù)據(jù)分析的角度出發(fā),結(jié)合從招聘網(wǎng)站上收集的有關(guān)數(shù)據(jù)分析師崗位的數(shù)據(jù),利用pandas、pyecharts庫處理與展現(xiàn)數(shù)據(jù),開發(fā)一個完整的數(shù)據(jù)分析項目2.分析目標①分析數(shù)據(jù)分析師崗位的需求趨勢②分析數(shù)據(jù)分析師崗位的熱門城市Top10③分析不同城市數(shù)據(jù)分析師崗位的薪資水平④分析數(shù)據(jù)分析師崗位的學歷要求3.實現(xiàn)思路4.數(shù)據(jù)收集熟悉數(shù)據(jù)收集的工作內(nèi)容,可以熟練地使用pandas庫讀取文件中的數(shù)據(jù),并篩選與分析目標關(guān)聯(lián)緊密的列數(shù)據(jù)。這里已經(jīng)準備好了有關(guān)數(shù)據(jù)分析師崗位的數(shù)據(jù)(從2019年11月初到12月初),將這些數(shù)據(jù)分別保存在lagou01.csv和lagou02.xlsx文件中(注意pandas讀取這兩個文件時需要加參數(shù)encoding='gbk')。兩張表格中有多列標題相同的數(shù)據(jù),但并非每列數(shù)據(jù)都與數(shù)據(jù)分析目標有關(guān),這里只需要保留與數(shù)據(jù)分析目標相關(guān)的部分列數(shù)據(jù)即可。這里保留city、companyFullName、salary、companySize、district、education、firstType、positionAdvantage、workYear、createTime,對應(yīng)著將這些英文標題轉(zhuǎn)換成中文標題:{'city':'城市','companyFullName':'公司全稱','salary':'薪資','companySize':'公司規(guī)模','district':'區(qū)','education':'學歷','firstType':'第一類型','positionAdvantage':'職位優(yōu)勢','workYear':'工作經(jīng)驗','createTime':'發(fā)布時間'},并將'發(fā)布時間'列的數(shù)據(jù)轉(zhuǎn)換成datatime數(shù)據(jù)類型。將兩張表格的數(shù)據(jù)采用上下堆疊的方式進行合并。5.數(shù)據(jù)預(yù)處理首先使用info()方法查看當前準備好的整租數(shù)據(jù)具體信息。檢測與處理重復值:使用duplicated檢測重復值,并返回包含重復值的數(shù)據(jù)條目,然后使用drop_duplicates刪除重復值檢測與處理缺失值:使用isna檢測是否包含缺失值,并返回包含缺失值的數(shù)據(jù)條目,然后使用fillna將缺失值替換為'未知'6.數(shù)據(jù)分析說明:繪制的圖形title都要加上自己的姓名①分析展現(xiàn)數(shù)據(jù)分析師崗位的需求趨勢若希望了解數(shù)據(jù)分析師崗位的需求趨勢,需要每天的崗位招聘總數(shù)量進行統(tǒng)計。為了直觀的看到崗位的需求趨勢,我們將統(tǒng)計的數(shù)據(jù)繪制成折線圖。使用strftime將’發(fā)布時間’列的數(shù)據(jù)轉(zhuǎn)換成以’年/月/日’格式顯示日期。將數(shù)據(jù)中相同日期劃分為一組,分組統(tǒng)計出每一組的總數(shù)量,從而得到招聘市場上每日對數(shù)據(jù)分析崗位的需求數(shù)量。將數(shù)據(jù)體現(xiàn)成折線圖(橫坐標代表日期,縱坐標代表需求量(個),使用pyecharts實現(xiàn))。②分析展現(xiàn)數(shù)據(jù)分析師崗位的熱門城市Top10首先計算數(shù)據(jù)中’城市’列中每個城市對應(yīng)的數(shù)據(jù)量,即得出每個城市對數(shù)據(jù)分析師崗位的需求量。并將前十名的城市及對應(yīng)需求量通過柱形圖展示出來(橫坐標為前十名的城市名稱,縱坐標為對應(yīng)的崗位數(shù)量,使用pyecharts實現(xiàn))③分析展現(xiàn)不同城市數(shù)據(jù)分析師崗位的薪資水平為了展現(xiàn)不同城市數(shù)據(jù)分析師崗位的薪資水平,我們需要先將數(shù)據(jù)中’薪資’列的數(shù)據(jù)進行處理,該列數(shù)據(jù)是以“最大值K-最小值K”或“最大值k-最小值k”形式表示的,我們需要將這些數(shù)據(jù)轉(zhuǎn)換成最大值和最小值的平均值,并轉(zhuǎn)換成float數(shù)據(jù)類型。(提示:使用str.extract進行最大值和最小值的提?。┑玫矫織l數(shù)據(jù)的平均薪資后,以’城市’列作為分組依據(jù),求每個城市分組的平均值,并將結(jié)果以柱形圖的形式展示出來(橫坐標為城市名稱,縱坐標為對應(yīng)的崗位平均薪資,使用pyecharts實現(xiàn),圖中平均薪資只顯示小數(shù)點后一位)。④分析展現(xiàn)分析師崗位的學歷要求使用’學歷’列進行分類統(tǒng)計,并以餅圖形式展示出來。(標注格式為’學歷:百分比’,百分比顯示小數(shù)點后兩位)?!緦嶒灢襟E】importpandasaspdfrompyechartsimportoptionsasoptsfrompyecharts.chartsimportLine,Bar,Pie#數(shù)據(jù)讀取與合并df1=pd.read_csv('lagou01.csv',encoding='gbk')df2=pd.read_excel('lagou02.xlsx',encoding='gbk')#保留相關(guān)列并轉(zhuǎn)換標題columns_map={'city':'城市','companyFullName':'公司全稱','salary':'薪資','companySize':'公司規(guī)模','district':'區(qū)','education':'學歷','firstType':'第一類型','positionAdvantage':'職位優(yōu)勢','workYear':'工作經(jīng)驗','createTime':'發(fā)布時間'}df1=df1[columns_map.values()].rename(columns=columns_map)df2=df2[columns_map.values()].rename(columns=columns_map)#合并數(shù)據(jù)df=pd.concat([df1,df2])#數(shù)據(jù)預(yù)處理#轉(zhuǎn)換發(fā)布時間為datetime類型df['發(fā)布時間']=pd.to_datetime(df['發(fā)布時間'])#檢測并刪除重復值df=df.drop_duplicates()#檢測并處理缺失值df=df.fillna('未知')#數(shù)據(jù)分析與可視化#①分析數(shù)據(jù)分析師崗位的需求趨勢df['發(fā)布時間']=df['發(fā)布時間'].dt.strftime('%Y/%m/%d')date_counts=df['發(fā)布時間'].value_counts().sort_index()line=Line()line.add_xaxis(list(date_counts.index))line.add_yaxis("需求量",list(date_counts.values))line.set_global_opts(title_opts=opts.TitleOpts(title="數(shù)據(jù)分析師崗位需求趨勢-你的姓名"))#保存或顯示圖表#②分析數(shù)據(jù)分析師崗位的熱門城市Top10city_counts=df['城市'].value_counts().head(10)bar=Bar()bar.add_xaxis(list(city_counts.index))bar.add_yaxis("崗位數(shù)量",list(city_counts.values))bar.set_global_opts(title_opts=opts.TitleOpts(title="數(shù)據(jù)分析師崗位熱門城市Top10-你的姓名"))#保存或顯示圖表#③分析不同城市數(shù)據(jù)分析師崗位的薪資水平df['薪資']=df['薪資'].str.extract(r'(\d+)K-(\d+)K').astype(float).mean(axis=1)city_salary=df.groupby('城市')['薪資'].mean()bar=Bar()bar.add_xaxis(list(city_salary.index))bar.add_yaxis("平均薪資",list(city_salary.values.map(lambdax:round(x,1))))bar.set_global_opts(title_opts=opts.TitleOpts(title="不同城市數(shù)據(jù)分析師崗位薪資水平-你的姓名"))#保存或顯示圖表#④分析展現(xiàn)分析師崗位的學歷要求education_counts=df['學歷'].value_counts()pie=Pie()pie.add("",[list(z)forzinzip(education_counts.index,education_counts.values)])pie.set_global_opts(title_opts=opts.TitleOpts(title="數(shù)據(jù)分析師崗位

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論