版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
[15]1. 選擇合適的距離或相似度度量:在進行聚類分析之前,需要確定如何度量樣本之間的相似度或距離,常見的度量方式有歐氏距離、以及余弦相似度等。2. 初始化聚類中心(對于迭代算法):對于一些迭代的聚類算法,例如K均值聚類,需要初始化聚類中心。3. 分配樣本到最近的聚類中心:把數(shù)據(jù)集中的樣本分配給與之最接近的聚類中心相對應的簇。4. 更新聚類中心(對于迭代算法):根據(jù)每個簇分配的樣本,更新該簇的聚類中心,一般而言是計算該簇所有樣本的平均值來得出新的聚類中心。5. 重復步驟3和步驟4,直至滿足停止條件:多數(shù)聚類算法都是迭代的過程,需要不斷重復分配樣本和更新聚類中心直至滿足某個停止條件,比如達到最大迭代次數(shù)、聚類中心變化小于某個閾值等。6. 評估聚類結果:最后,需要對聚類的結果進行評估,通常采用一些指標來評價聚類的質量,比如簇內(nèi)距離、簇間距離等。聚類分析算法實現(xiàn)讀取csv文件,對數(shù)據(jù)進行分析處理,拋去不參與聚類的特征,將非數(shù)值型特征轉換為數(shù)值型特征。對數(shù)據(jù)進行處理,去掉不參與聚類的信息,比如“導演”、“主演”、“電影簡介”等。如圖5.6所示:圖5.6去除不需要的信息代碼對非數(shù)值型特征進行數(shù)字化處理,例如國家和電影類型等,可通過對所有電影進行排序,并根據(jù)它們出現(xiàn)的頻率從高到低進行特征值的修改。關鍵代碼如圖5.7、5.8所示:圖5.7轉換數(shù)值特征代碼1圖5.8轉換數(shù)值特征代碼2處理完后的新數(shù)據(jù)集部分數(shù)據(jù)如圖5.9所示:圖5.9轉換數(shù)值特征后的數(shù)據(jù)然后通過肘部法則和輪廓系數(shù)確定聚類的類別數(shù),在聚類算法中,特別是K均值聚類,使用SSE(SumofSquaredErrors)來尋找最優(yōu)的K值是一種常見的方法。這種方法通常被稱為“肘部法則”(ElbowMethod)。SSE是指每個點到其最近的聚類中心的距離的平方和。當選擇不同數(shù)量的聚類時,SSE通常會隨著聚類數(shù)量的增加而減少,因為更多的聚類意味著每個聚類中的點更接近其中心。使用輪廓系數(shù)(SilhouetteCoefficient)來確定聚類算法中最優(yōu)的K值是一種評估聚類性能的方法。輪廓系數(shù)結合了聚類的密集程度和分離程度,為每個樣本提供了一個度量值,范圍從-1到1。輪廓系數(shù)越高,表明樣本更適合其自身的聚類且不適合相鄰的聚類,這意味著聚類效果更好。關鍵代碼如圖5.10所示:圖5.10肘部法則和輪廓系數(shù)代碼由上圖可知,從轉換數(shù)值特征后的數(shù)據(jù)中提取了除title、types、comment_len以外的所有特征,然后根據(jù)這些特征繪制不同k值的SSE值圖,結果如圖5.11所示:圖5.11SSE值圖繪制不同k值的輪廓分數(shù)圖,結果如圖5.12所示:圖5.12輪廓分數(shù)圖從以上分析結果得出肘方法中,從K=2開始,SSE就不再出現(xiàn)明顯變動,因此選擇K=2;輪廓系數(shù)中,K=2時,Silhouette系數(shù)最大,因此選擇K=2。然后通過主成分分析法(pca)對數(shù)據(jù)進行特征提取與降維處理,最后根據(jù)得到的K值進行聚類,關鍵代碼與聚類最終效果圖如圖5.13、5.14所示:圖5.13降維與聚類代碼圖5.14聚類最終效果圖從圖片中可以看到,除了少數(shù)幾個點的干擾外,這次聚類的效果還是很不錯的。比較成功的將電影分成了兩類。
數(shù)據(jù)大屏設計與實現(xiàn)數(shù)據(jù)概況可視化使用了Django+Bootstrap來分頁展示數(shù)據(jù)庫中所有的電影數(shù)據(jù)。django中的視圖函數(shù)、路由配置和模版文件代碼如圖6.1所示:圖6.1視圖函數(shù)代碼圖中在views文件中定義了一個名為all的函數(shù),movie_data參數(shù)用來接收mysql中的所有對象,然后使用django.shortcuts中的render函數(shù)將movie_data傳給前端名為1.html的文件來渲染頁面。Django中的路由配置如圖6.2所示:圖6.2路由配置代碼URL在Django中定義為,當接收到用戶請求后,根據(jù)用戶請求的URL地址與urls.py中的映射關系,準確確定應該調(diào)用哪一段邏輯代碼來執(zhí)行相應的視圖函數(shù)或視圖類,并最終從視圖中返回給客戶端所需的數(shù)據(jù)。Django中模版文件1.html代碼如圖6.3所示:圖6.3模版文件代碼Django模板系統(tǒng)是一個強大的組件,它允許我們根據(jù)所提供的數(shù)據(jù)動態(tài)生成HTML、XML等結構化文本。模板系統(tǒng)不僅易于使用,且功能豐富。它包括一個內(nèi)置的語言:Django模板語言(DTL),這是一種簡單、非侵入式的語言,用于定義模板的結構和邏輯。圖中使用了Bootstrap的table組件中的table-bordered、table-condensed和狀態(tài)類,更改了表格的狀態(tài)和樣式。模版文件關鍵css代碼如圖6.4所示:圖6.4模版文件css代碼圖中css代碼解決了單元格內(nèi)容過長顯示問題,可以實現(xiàn)界面的精簡顯示。數(shù)據(jù)概況可視化結果如圖6.5所示:圖6.5數(shù)據(jù)概況展示評分分布可視化基于我所獲取的這一萬多條電影數(shù)據(jù)中,使用pyecharts對評分和年份進行分析繪圖,評分年份分布散點圖和關鍵代碼如圖6.6、6.7所示:圖6.6評分年份分布散點圖從上圖可以看出,在1990年代,有許多經(jīng)典電影問世,這些電影在劇情、表演、導演等方面都獲得了觀眾和評論家的高度評價,隨著時間的推移,電影市場競爭日益激烈,觀眾口味和需求也發(fā)生了變化。現(xiàn)在的電影市場更加多元化,各種類型的電影層出不窮,但同時也存在一些商業(yè)化、套路化的問題,一些影片缺乏創(chuàng)新和深度,導致觀眾對電影的評價不如之前那么高。然而,電影藝術是一個不斷發(fā)展的領域,現(xiàn)在的電影市場也在不斷探索和創(chuàng)新,未來仍有機會誕生更多優(yōu)秀的作品。圖6.7評分年份分布散點圖關鍵代碼上映年份及電影數(shù)量可視化上映年份及電影數(shù)量折線圖和關鍵代碼如圖6.8、6.9所示:圖6.8上映年份及電影數(shù)量折線圖基于我所獲取的這一萬多條數(shù)據(jù)而言,由上圖可知,從十九世紀到二十世紀,由于電影制作技術的進步、市場需求的增加等因素,電影行業(yè)的發(fā)展非常的迅速,電影的數(shù)量增長的非???。圖6.9上映年份及電影數(shù)量折線圖關鍵代碼導演作品數(shù)量可視化導演作品數(shù)量詞云圖及關鍵代碼如圖6.10、6.11所示:圖6.10導演作品數(shù)量詞云圖圖6.11導演作品數(shù)量詞云圖關鍵代碼電影類型分布可視化電影類型分布餅圖及關鍵代碼如圖6.12、6.13所示:圖6.12電影類型分布餅圖從上圖可以看出,基于我所獲取的這一萬多條電影數(shù)據(jù)中,劇情類型電影占比最高,達到了將近一半。喜劇、愛情動作等類型也比較多,而戰(zhàn)爭、歷史這些小眾題材的電影則相對較少。圖6.13電影類型餅圖關鍵代碼Top10電影可視化基于我所獲取的這一萬多條電影數(shù)據(jù)中挑選了排名前十的電影。Top10電影數(shù)據(jù)表格、關鍵代碼及SQL語句代碼如圖6.14、6.15、6.16所示:圖6.14Top10電影數(shù)據(jù)表格從上圖可知,這些作品都是廣大群眾心中的經(jīng)典之作。而前兩部作品都達到了9.7的高分,它們分別展現(xiàn)了中國文學經(jīng)典和美國文學作品的精髓,深受觀眾喜愛??梢耘臄z出讓觀眾都認可的電影,同時也表明,中國與美國電影行業(yè)的發(fā)展在世界中排名比較靠前,不同國家和文化背景的電影作品在全球范圍內(nèi)都能獲得認可和欣賞。圖6.15Top10電影數(shù)據(jù)表格關鍵代碼圖6.16SQL語句代碼評論數(shù)Top10電影可視化基于我所獲取的這一萬多條電影數(shù)據(jù)中挑選了評論數(shù)最高的十部電影。評論數(shù)Top10電影條形圖及關鍵代碼如圖6.17、6.18所示:圖6.17評論數(shù)Top10電影條形圖由上圖可以看出,《霸王別姬》和《肖申克的救贖》是備受觀眾喜愛的經(jīng)典電影,因此在評論數(shù)量上可能會有較高的表現(xiàn)。但是評論數(shù)量的多少并不能完全反映一部電影的質量或價值,因為評論數(shù)量可能受到多方面因素的影響,包括電影本身的知名度、發(fā)行范圍、口碑傳播等。因此,評論數(shù)量較多的電影未必就是最優(yōu)秀的作品。圖6.18評論數(shù)Top10電影條形圖關鍵代碼數(shù)據(jù)可視化大屏實現(xiàn)與可視化最終使用pyecharts.charts包中的page函數(shù)來組件大屏,關鍵代碼及效果圖如圖6.19、6.20所示:圖6.19大屏組合代碼圖中定義了名為index函數(shù),然后使用Page.SimplePageLayout將所有圖進行自動組合,最終通過render_embed函數(shù)返回組成的page頁面再通過django框架顯示在本地服務器中。最終大屏結果如圖6.20所示:圖6.20數(shù)據(jù)大屏
總結和展望工作總結:本文對多策略豆瓣電影數(shù)據(jù)分析與可視化的設計與實現(xiàn)進行了詳細的闡述。使用python語言進行了數(shù)據(jù)分析,使用django框架進行了數(shù)據(jù)可視化的展示,在本畢業(yè)設計中,我們采用了以下數(shù)據(jù)分析方法:數(shù)據(jù)收集、數(shù)據(jù)清洗、數(shù)據(jù)可視化、統(tǒng)計分析等。我們從豆瓣電影網(wǎng)收集了大量的數(shù)據(jù),并利用合適的工具和技術對數(shù)據(jù)進行清洗和預處理。然后我們使用統(tǒng)計方法和可視化技術對數(shù)據(jù)進行分析,以揭示潛在的模式和關聯(lián)。其中聚類分析算法可以幫助將數(shù)據(jù)集中的對象或樣本劃分為不同的類別,可以幫助制片公司、發(fā)行商和影院將客戶分成不同的細分群體,從而實現(xiàn)精準營銷和個性化推薦。通過了解不同群體的特征和需求,他們可以更好地滿足客戶的需求并提升市場競爭力。而關聯(lián)分析算法可以發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式和規(guī)律,揭示不同電影之間的關聯(lián)關系,并可以通過分析用戶的觀看歷史,幫助他們找出類似的電影。本次畢業(yè)設計的主要內(nèi)容:研究了基于多策略的關聯(lián)分析和聚類分析算法等技術,并針對數(shù)據(jù)展示設計了django框架,以及學習和提高了python和mysql技術。使用python對豆瓣電影網(wǎng)站上的數(shù)據(jù)進行爬取,將數(shù)據(jù)進行清洗并存儲到mysql數(shù)據(jù)庫中。針對獲取的電影數(shù)據(jù)提取關鍵特征進行深入挖掘和多策略分析,包括對電影類型的分布和關聯(lián)性、電影評分的分布等。將結果使用pyecharts可視化,使用餅圖、折線圖等通過django框架展示電影類型分布、最受歡迎的電影等。工作展望:雖然基本完成“多策略豆瓣電影數(shù)據(jù)分析與可視化”這一課題,但是仍存在一些挑戰(zhàn)和需要進一步探索的方向:數(shù)據(jù)質量和可靠性的問題。未來的研究需要更加關注數(shù)據(jù)的準確性和完整性,以提高分析結果的可信度。方法和模型的改進。隨著數(shù)據(jù)分析領域的不斷發(fā)展,我們需要不斷改進和創(chuàng)新分析方法和模型,以更好地適應復雜的問題。深度學習在數(shù)據(jù)分析中的應用。深度學習技術具有強大的模式識別和預測能力,未來可以探索如何將其應用于數(shù)據(jù)分析領域。
參考文獻李小葉.基于大數(shù)據(jù)分析的國內(nèi)電影票房預測研究[D].對外經(jīng)濟貿(mào)易大學,2022.高巍,孫盼盼,李大舟.基于Python爬蟲的電影數(shù)據(jù)可視化分析[J].沈陽化工大學學報,2020,34(01):73-78.MCLAUGHLIMMD.MovieAnalytics:VisualizationoftheCo-StarringNetwork[C]//2014IEEE4thSymposiumonLargeDataAnalysisandVisualization(LDAV),NewYork:IEEE,2014:115-116.王嘉寶,雒偉群.基于Scrapy框架的電影數(shù)據(jù)爬取和可視化分析[J].西藏科技,2022(2):64-68.TAKCSG.VisualizationofMovieFeaturesinCollaborativeFiltering[C].201312thInternationalConferenceonIntelligentSoftwareMethodologies,ToolsandTech-niques(SoMeT),NewYork:IEEE,2013:229-233.程俊英.基于Python語言的數(shù)據(jù)分析處理研究[J].電子技術與軟件工程,2022(15):236-239.王紀才,徐啟南,袁霄翔.基于Python爬蟲的電影數(shù)據(jù)可視化分析[J].周口師范學院學報,2023,40(05):60-65.蔡文樂,秦立靜.基于Python爬蟲的招聘數(shù)據(jù)可視化分析[J].物聯(lián)網(wǎng)技術,2024,14(01):102-105.王瑞梅.網(wǎng)絡招聘數(shù)據(jù)可視化分析系統(tǒng)的設計與實現(xiàn)[D].石家莊:河北師范大學,2020.王志.電
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026綠化管理考試題及答案
- 工程項目精細化管理學習考試題庫及答案
- 電費核算工作存在的不足及改進措施研究
- 2026年養(yǎng)老服務質量管理考試題及答案
- 旅游景區(qū)服務與管理標準操作手冊
- 體育場館運營管理與市場開發(fā)手冊
- 鋼結構抗壓性能測試技術方案
- 企業(yè)云計算服務解決方案手冊
- 音樂制作與發(fā)行手冊
- 婦幼保健院預約掛號系統(tǒng)方案
- 江蘇省無錫市2024-2025學年九年級上學期期末歷史試題(含答案)
- 2025年江蘇省高職單招《職測》高頻必練考試題庫400題(含答案)
- 復旦大學-現(xiàn)代西方哲學(課件)
- 滬教版初中英語七年級下冊單詞匯表
- 反向開票協(xié)議書
- 林場管護合同范例
- 春節(jié)后收心培訓
- 福建省福州市2023-2024學年高一上學期期末質量檢測英語試題 含答案
- GB/T 44592-2024紅樹林生態(tài)保護修復技術規(guī)程
- 直播運營指南(從主播修煉、平臺運營到商業(yè)獲利)
- 《樹立正確的政績觀》課件
評論
0/150
提交評論