版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
項(xiàng)目挑戰(zhàn):影評數(shù)據(jù)分析年級:高二年級學(xué)科:高中信息技術(shù)(浙教版)一、項(xiàng)目情境
學(xué)校影評協(xié)會(huì)向全校學(xué)生征集一份影評數(shù)據(jù)分析報(bào)告,期望這份報(bào)告能夠盡量多地挖掘出影評數(shù)據(jù)背后的信息,如我國電影業(yè)的發(fā)展?fàn)顩r、趨勢、電影人之間的關(guān)系及影響等。二、項(xiàng)目分析1.獲取數(shù)據(jù)的途徑二、項(xiàng)目分析1.獲取數(shù)據(jù)的途徑收集數(shù)據(jù)名稱豆瓣IMDb1905電影網(wǎng)貓眼……片名
評分
上映時(shí)間
題材類型
出品方
演職員
同類排名
評論
……
二、項(xiàng)目分析2.預(yù)測可以分析出的結(jié)果可能的結(jié)果1:
依據(jù)數(shù)據(jù)1:
可能的結(jié)果2:
依據(jù)數(shù)據(jù)2:……
Top250的影片類型及未來發(fā)展趨勢預(yù)測影片類型、影片排名、數(shù)量、評分情況等演員之間的關(guān)系和影響演職員表、影片時(shí)間等三、合作探究1.獲取數(shù)據(jù)網(wǎng)絡(luò)爬蟲軟件(八爪魚采集器)
網(wǎng)絡(luò)搜索關(guān)鍵詞獲取
編寫代碼實(shí)現(xiàn)抓取
三、合作探究1.獲取數(shù)據(jù)為了更好地處理數(shù)據(jù),我們可以使用MySQL數(shù)據(jù)庫進(jìn)行數(shù)據(jù)的存儲(chǔ)和處理
三、合作探究2.數(shù)據(jù)分析及可視化創(chuàng)建數(shù)據(jù)庫t_douban_movie_top_250
字段描述類型和長度主鍵外鍵是否可空ididint(20)是是否movie_rank電影名次varchar(200)否否是movie_name電影名varchar(200)否否是movie_director電影導(dǎo)演varchar(200)否否是movie_writer電影作家varchar(200)否否是movie_starring電影明星text(0)否否是movie_type電影類型varchar(100)否否是movie_country影片制片國家varchar(100)否否是movie_language影片語言varchar(100)否否是movie_release_date影片上映日期varchar(100)否否是movie_run_time影片片長varchar(100)否否是movie_second_name影片又名varchar(200)否否是movie_imdb_hrefIMDb鏈接varchar(200)否否是movie_rating影片總評分varchar(20)否否是movie_comments_user影片評論人數(shù)varchar(20)否否是movie_five_star_ratio影片5星占比varchar(20)否否是movie_four_star_ratio影片4星占比varchar(20)否否是movie_three_star_ratio影片3星占比varchar(20)否否是movie_two_star_ratio影片2星占比varchar(20)否否是movie_one_star_ratio影片1星占比varchar(20)否否是movie_note影評varchar(200)否否是?三、合作探究2.數(shù)據(jù)分析及可視化數(shù)據(jù)清洗:例如我們發(fā)現(xiàn)有兩個(gè)字段是空值沒有內(nèi)容,可能是因?yàn)橛械碾娪皼]有又名的原因,所以沒有獲取到相應(yīng)的數(shù)據(jù),這里就可以將沒有電影又名的信息用電影名賦值或是刪除。實(shí)現(xiàn)代碼如下:
三、合作探究2.數(shù)據(jù)分析及可視化影片類型出現(xiàn)的次數(shù)
通過電影類型movie_type字段對其影片的類型做統(tǒng)計(jì)繪制出以影片類型為X軸,出現(xiàn)的次數(shù)為Y軸的柱狀圖。三、合作探究2.數(shù)據(jù)分析及可視化影片類型出現(xiàn)的次數(shù)
通過對電影的類型的統(tǒng)計(jì)圖中我們可以看出劇情類的電影占據(jù)了頭位,愛情喜劇類的也不在少數(shù)。電影類型是觀影者選擇是否觀看此影片的重要因素之一?!皠∏椤薄ⅰ皭矍椤?、“喜劇”是受眾主流,電影制作方可以多制作些愛情喜劇劇情類型的電影,可增加播放量。三、合作探究2.數(shù)據(jù)分析及可視化影片時(shí)長分布
首先將片長數(shù)據(jù)賦值給Y軸,然后將X軸的參數(shù)設(shè)置為1,設(shè)置其標(biāo)題屬性等信息后使用plt.show()方法即可。就得到了250部影片在同一標(biāo)準(zhǔn)值下的影片片長分布圖。三、合作探究2.數(shù)據(jù)分析及可視化影片時(shí)長分布
通過片長分布圖所示,可以看出大部分優(yōu)秀的電影的時(shí)長在80-130分鐘之間,時(shí)間過短顯得沒有內(nèi)容,時(shí)間太長會(huì)有種拖劇情的感覺,一部好的電影的時(shí)長盡量在這個(gè)區(qū)間,內(nèi)容劇情剛剛好。三、合作探究2.數(shù)據(jù)分析及可視化相關(guān)系數(shù)用來觀察兩個(gè)變量之間的相關(guān)程度。Pearson相關(guān)系數(shù)是統(tǒng)計(jì)學(xué)中常用的三大相關(guān)系數(shù)之一,Pearson(皮爾遜)相關(guān)系數(shù)是衡量線性關(guān)聯(lián)程度的指標(biāo)。具體的求算公式如下:皮爾遜相關(guān)系數(shù)的經(jīng)驗(yàn)解釋如下:①當(dāng)r=±1時(shí),各個(gè)點(diǎn)完全在一條直線上,這時(shí)兩個(gè)變量是完全線性相關(guān)。②當(dāng)r=0時(shí),兩個(gè)變量不相關(guān),這時(shí)散點(diǎn)圖上的n個(gè)點(diǎn)可能毫無規(guī)律。③當(dāng)r>0時(shí),兩個(gè)變量為正相關(guān);當(dāng)r<0時(shí),兩個(gè)變量為負(fù)相關(guān)。④當(dāng)|r|≥0.8時(shí),兩個(gè)變量為高度相關(guān);當(dāng)0.5≤|r|<0.8時(shí),兩個(gè)變量為中度相關(guān);當(dāng)0.3≤|r|<0.5時(shí),兩個(gè)變量為低度相關(guān);當(dāng)|r|<0.3時(shí),兩個(gè)變量之間的相關(guān)程度極弱,可視不相關(guān)。三、合作探究2.數(shù)據(jù)分析及可視化在Python中使用corr函數(shù)可以計(jì)算兩個(gè)數(shù)據(jù)序列之間的相關(guān)系數(shù),可以使用pandas庫中的corr()函數(shù),使用pandas中的corr()函數(shù)時(shí),需要先將需要計(jì)算相關(guān)系數(shù)的兩個(gè)數(shù)據(jù)序列放入DataFrame中,再調(diào)用corr()函數(shù),如下面的示例:importpandasaspd
#將數(shù)據(jù)放入DataFrame中df=pd.DataFrame({'x':[1,2,3,4,5],'y':[5,4,3,2,1]})
#計(jì)算相關(guān)系數(shù)corr=df['x'].corr(df['y'])print(corr)三、合作探究2.數(shù)據(jù)分析及可視化評分與排名關(guān)系
首先定義plt對象設(shè)置其規(guī)格大小,X、Y軸標(biāo)題等等一些初始的信息,然后將評分的數(shù)據(jù)傳給X軸,排名數(shù)據(jù)傳給Y軸,通過兩者的數(shù)據(jù)相交的點(diǎn)組成兩者的關(guān)系散點(diǎn)圖。將Y軸的數(shù)據(jù)倒置效果更佳。最后通過使用.corr函數(shù)求出兩個(gè)列值的相關(guān)系數(shù),并以此來判斷兩者的相關(guān)性。三、合作探究2.數(shù)據(jù)分析及可視化評分與排名關(guān)系
通過評分對影片排名的關(guān)系圖所示,我們可以看出評分大多是集中在8.3-9.2之間,隨評分的升高,豆瓣Top250排名名次也提前,但是通過觀察得知評分并不是決定排名的唯一要素,通過輸出的Pearson相關(guān)系數(shù)為-0.739,可以判定評分與排名之間為中度相關(guān)性。三、合作探究2.數(shù)據(jù)分析及可視化基本圖表可視化
位置數(shù)據(jù)可視化
文本數(shù)據(jù)可視化
層次數(shù)據(jù)可視化
網(wǎng)絡(luò)數(shù)據(jù)可視化
時(shí)序數(shù)據(jù)可視化
三、合作探究2.數(shù)據(jù)分析及可視化三、合作探究3.數(shù)據(jù)分析結(jié)果的檢驗(yàn)(1)分析結(jié)果的價(jià)值(2)數(shù)據(jù)依據(jù)的說服力(3)可視化效果的解釋力
三、合作探究4.撰寫數(shù)據(jù)分析報(bào)告(1)目標(biāo):此數(shù)據(jù)分析報(bào)告的背景與意欲達(dá)到的目標(biāo)(3)數(shù)據(jù)來源:簡述支撐數(shù)據(jù)分析報(bào)告的數(shù)據(jù)來源及采集方法。(4)關(guān)鍵發(fā)現(xiàn):這一部分是數(shù)據(jù)分析報(bào)告的關(guān)鍵,由若干關(guān)鍵發(fā)現(xiàn)組成。
每一個(gè)關(guān)鍵發(fā)現(xiàn)都應(yīng)該包括發(fā)現(xiàn)、數(shù)據(jù)依據(jù)、可視化圖片、此分析的特點(diǎn)和優(yōu)缺點(diǎn)等。(5)結(jié)語:簡述此報(bào)告的意義、潛在問題和未來進(jìn)一步探究的方向。
(2)研究過程:描述小組成員為了達(dá)到預(yù)期目標(biāo)所采用的方法與步驟。四、交流評價(jià)評價(jià)條目
說明評分(1~10分)評分主要依據(jù)闡述后續(xù)完善方向收集數(shù)據(jù)數(shù)據(jù)來源、收集方法、數(shù)量大小、技術(shù)難度處理數(shù)據(jù)參與程度、格式符合、清洗技術(shù)、輸出種類分析數(shù)據(jù)結(jié)論科學(xué)、角度多樣、技術(shù)應(yīng)用、自主探究呈現(xiàn)方式多樣準(zhǔn)確、報(bào)告形式、技術(shù)難度、發(fā)布方式個(gè)人能力技術(shù)掌握、學(xué)習(xí)方式、編程能力、交流能力五、項(xiàng)目拓展
協(xié)同過濾算法有基于用戶的協(xié)同過濾和基于物品的協(xié)同過濾?,F(xiàn)有某網(wǎng)站的評分?jǐn)?shù)據(jù)集,包含觀眾觀影后的評分記錄,其數(shù)據(jù)格式如下所示:"張文":{"王牌保鏢":7.0,"追擊":7.3,"繡春刀Ⅱ":7.4,……},"魯建":{"王牌保鏢":7.2,"追擊":6.9,……},"劉思義":{"追擊":7.5,"繡春刀Ⅱ":7.0,……},"李京一":{"王牌保鏢":6.9,"繡春刀Ⅱ":7.4,……}},……
編寫一個(gè)簡易的評分預(yù)測程序,實(shí)現(xiàn)從鍵盤上輸入某個(gè)已經(jīng)注冊用戶的姓名和電影名,輸出預(yù)測這個(gè)用戶給這部電影的打分。
五、項(xiàng)目拓展2.特征工程:(1)形成電影特色的特征集合。(2)對硬特征進(jìn)行特征降維。(3)對軟特征進(jìn)行編碼。
編碼后的硬特征和軟特征通??梢宰鳛橛?xùn)練用戶組中的特征,
用于用戶群體編輯(群體過濾)篩選出相似的用戶群體。1.準(zhǔn)備數(shù)據(jù):對
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026云南玉溪興潔垃圾處理有限公司招聘勞務(wù)派遣駕駛員4人考試參考試題及答案解析
- 2026年合肥財(cái)經(jīng)職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性考試備考題庫有答案解析
- 2026福建宏業(yè)交通服務(wù)有限公司招聘6人考試參考題庫及答案解析
- 2026年1月江蘇省寶應(yīng)中學(xué)招聘教師5人考試參考試題及答案解析
- 2026四川自貢醫(yī)元健康管理有限責(zé)任公司招聘工作人員11人考試參考題庫及答案解析
- 2026廣西欽州市人力資源和社會(huì)保障局招聘公益性崗位人員2人考試備考試題及答案解析
- 2026江蘇中國藥科大學(xué)智能藥學(xué)交叉研究院工作人員招聘5人考試參考題庫及答案解析
- 2026年昆明市西山區(qū)人民醫(yī)院聘非事業(yè)編制工作人員(4人)考試參考試題及答案解析
- 2026四川綿陽市三臺縣婦幼保健院 招聘編外聘用人員3人(眼科視光師、皮膚科醫(yī)師、外科醫(yī)師)考試備考題庫及答案解析
- 2026中國聯(lián)通上海市分公司校園招聘考試備考試題及答案解析
- 全國優(yōu)質(zhì)課一等獎(jiǎng)地理《農(nóng)業(yè)的區(qū)位選擇》課件
- 榮譽(yù)證書、獎(jiǎng)狀、聘書打印模板(可自行編輯)
- 舒城縣2023-2024學(xué)年四年級數(shù)學(xué)第一學(xué)期期末達(dá)標(biāo)檢測模擬試題含答案
- 《干部履歷表》1999版電子版
- 退役金計(jì)算器
- 國開電大本科《人文英語3》機(jī)考總題庫
- 北京市建筑垃圾采集報(bào)送系統(tǒng)使用說明書
- GB/T 4942-2021旋轉(zhuǎn)電機(jī)整體結(jié)構(gòu)的防護(hù)等級(IP代碼)分級
- GB/T 32606-2016文具用品中游離甲醛的測定方法乙酰丙酮分光光度法
- GB/T 17897-2016金屬和合金的腐蝕不銹鋼三氯化鐵點(diǎn)腐蝕試驗(yàn)方法
- 瀝青路面工程檢驗(yàn)批質(zhì)量驗(yàn)收記錄
評論
0/150
提交評論