版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
[1]。政府部門也看重文化產(chǎn)業(yè)數(shù)據(jù)分析的應(yīng)用,國(guó)家廣播電視總局推出“廣播電視節(jié)目收視綜合評(píng)價(jià)大數(shù)據(jù)系統(tǒng)”,隨時(shí)監(jiān)測(cè)全國(guó)電視節(jié)目收視狀況,給節(jié)目編排給予數(shù)據(jù)支撐REF_Ref197260578\r\h[2],上海市文化廣播影視管理局創(chuàng)建的“文化大數(shù)據(jù)平臺(tái)”把演出,展覽,影視等各方面數(shù)據(jù)融合起來(lái),輔助制訂政策并執(zhí)行行業(yè)監(jiān)管REF_Ref193977700\r\h[3],學(xué)術(shù)界的研究重點(diǎn)是數(shù)據(jù)挖掘算法改良和應(yīng)用范圍拓展,北京大學(xué)文化產(chǎn)業(yè)研究院開發(fā)的文化消費(fèi)預(yù)測(cè)模型,聯(lián)系宏觀經(jīng)濟(jì)數(shù)據(jù)和用戶調(diào)研,預(yù)估市場(chǎng)走向REF_Ref193977714\r\h[4],中國(guó)傳媒大學(xué)的新媒體研究中心用自然語(yǔ)言處理技術(shù)剖析網(wǎng)絡(luò)輿情,評(píng)判文化產(chǎn)品社會(huì)影響REF_Ref193977747\r\h[5]。國(guó)外現(xiàn)狀國(guó)外文化產(chǎn)業(yè)數(shù)據(jù)分析研究開始得比較早,技術(shù)應(yīng)用比較成熟,Netflix依靠用戶觀看記錄和打分?jǐn)?shù)據(jù)來(lái)搭建個(gè)性化推薦體系,明顯改善了用戶粘性REF_Ref197260631\r\h[6],它的算法不但分析用戶以往的行為,而且聯(lián)合影片種類,演員,導(dǎo)演等多種特性,改進(jìn)內(nèi)容的契合度,Spotify憑借分析用戶聽歌習(xí)慣,播放次數(shù)以及社交分享數(shù)據(jù),形成專屬歌單,提升用戶的體驗(yàn)感,Google的“Arts&Culture”平臺(tái)借助大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù),做到對(duì)藝術(shù)品的數(shù)字化分析和虛擬展覽,推動(dòng)文化傳播REF_Ref193977734\r\h[7]。歐洲國(guó)家在公共文化數(shù)據(jù)開放與應(yīng)用上比較出色,英國(guó)廣播公司(BBC)的“數(shù)據(jù)科學(xué)團(tuán)隊(duì)”開發(fā)觀眾行為分析工具,改進(jìn)節(jié)目制作和播出策略,法國(guó)文化部設(shè)立的“文化大數(shù)據(jù)觀測(cè)站”匯集全國(guó)文化設(shè)施運(yùn)營(yíng)數(shù)據(jù),助力資源調(diào)配和政策評(píng)判,美國(guó)的研究機(jī)構(gòu)重點(diǎn)在于數(shù)據(jù)引領(lǐng)的文化產(chǎn)業(yè)商業(yè)模式革新,哈佛大學(xué)的文化企業(yè)實(shí)驗(yàn)室考察社交媒體數(shù)據(jù)對(duì)電影票房的作用,給出預(yù)測(cè)模型,麻省理工學(xué)院的媒體實(shí)驗(yàn)室探尋人工智能在音樂(lè),影視創(chuàng)作中的應(yīng)用,促使技術(shù)同藝術(shù)相融合REF_Ref197465987\r\h[8]。論文結(jié)構(gòu)安排本文先從緒論開始,敘述了研究背景以及意義,根據(jù)國(guó)家政策走向以及社會(huì)對(duì)于文化產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的急切需要,明確本項(xiàng)研究在促使文化產(chǎn)業(yè)實(shí)現(xiàn)智能化發(fā)展方面的重要意義。第一章緒論,對(duì)國(guó)內(nèi)外在文化產(chǎn)業(yè)數(shù)據(jù)分析方面的研究現(xiàn)狀進(jìn)行梳理,為后續(xù)研究提供理論基礎(chǔ)和實(shí)踐參考。第二章相關(guān)技術(shù)介紹,針對(duì)Python編程語(yǔ)言、Flask框架、MySQL數(shù)據(jù)庫(kù)技術(shù)、Scrapy爬蟲等關(guān)鍵技術(shù)展開剖析,闡述這些技術(shù)的工作原理、優(yōu)勢(shì)特性及其在本系統(tǒng)開發(fā)中的適用情況,給系統(tǒng)實(shí)現(xiàn)給予技術(shù)支撐。第三章系統(tǒng)設(shè)計(jì),包含系統(tǒng)架構(gòu)設(shè)計(jì),數(shù)據(jù)爬取策略設(shè)計(jì),數(shù)據(jù)處理與分析流程設(shè)計(jì),數(shù)據(jù)庫(kù)設(shè)計(jì)等,本章通過(guò)E-R圖,數(shù)據(jù)庫(kù)表結(jié)構(gòu)設(shè)計(jì)等手段,將系統(tǒng)的整體框架以及數(shù)據(jù)組織形式呈現(xiàn)出來(lái),為系統(tǒng)的后續(xù)實(shí)現(xiàn)打下基礎(chǔ)。第四章闡述系統(tǒng)的實(shí)現(xiàn)過(guò)程,分別從用戶功能和管理員功能兩個(gè)方面來(lái)具體闡述各個(gè)功能的實(shí)現(xiàn)過(guò)程以及代碼實(shí)現(xiàn)過(guò)程,同時(shí)對(duì)系統(tǒng)實(shí)現(xiàn)過(guò)程中的關(guān)鍵技術(shù)進(jìn)行詳細(xì)的分析,使得系統(tǒng)可以正常、高效的運(yùn)行。第五章開展系統(tǒng)測(cè)試工作,確定測(cè)試目的,選擇恰當(dāng)?shù)臏y(cè)試方法對(duì)系統(tǒng)的各個(gè)功能模塊進(jìn)行全面測(cè)試,經(jīng)過(guò)細(xì)致的測(cè)試用例設(shè)計(jì)并加以執(zhí)行,來(lái)檢驗(yàn)系統(tǒng)功能是否完備且準(zhǔn)確,還要對(duì)測(cè)試的結(jié)果做深入分析,從而保證系統(tǒng)可以符合實(shí)際應(yīng)用的需求。第六章對(duì)整個(gè)研究工作進(jìn)行總結(jié),概括研究成果,分析該系統(tǒng)對(duì)于文化產(chǎn)業(yè)數(shù)據(jù)處理智能化水平的提高帶來(lái)的成果,對(duì)未來(lái)的研究方向做出展望,提出進(jìn)一步完善系統(tǒng)功能,拓展數(shù)據(jù)分析維度等方面的建議,為文化產(chǎn)業(yè)的持續(xù)數(shù)字化轉(zhuǎn)型提供借鑒。論文研究結(jié)構(gòu)框架圖如圖1.1所示。圖1.1論文研究框架圖該框架圖是對(duì)文化產(chǎn)業(yè)數(shù)據(jù)智能分析系統(tǒng)的整體框架展示,系統(tǒng)通過(guò)用戶接口、數(shù)據(jù)接口、管理員接口和可視化接口進(jìn)行數(shù)據(jù)的交互與管理,在展示層中,系統(tǒng)可以進(jìn)行多種數(shù)據(jù)的可視化展示,包括數(shù)據(jù)可視化、圖表動(dòng)態(tài)分析、柱狀圖、折線圖等,讓用戶可以直觀的看到分析的數(shù)據(jù)。在數(shù)據(jù)分析層中,包含了用戶行為分析、新聞熱度分析、評(píng)論量預(yù)測(cè)分析、內(nèi)容互動(dòng)分析、分類表現(xiàn)分析等功能模塊,對(duì)數(shù)據(jù)進(jìn)行深層次的挖掘,為決策提供幫助。數(shù)據(jù)存儲(chǔ)層采用業(yè)務(wù)數(shù)據(jù)庫(kù)(MySQL)+文本管理(CSV)的方式安全存儲(chǔ)用戶信息、新聞信息、評(píng)論量預(yù)測(cè)、用戶行為等數(shù)據(jù)并做好數(shù)據(jù)的備份與恢復(fù)工作。數(shù)據(jù)處理層包含新聞數(shù)據(jù)爬取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)融合等過(guò)程,完成對(duì)原始數(shù)據(jù)到分析可用數(shù)據(jù)的轉(zhuǎn)換。整個(gè)系統(tǒng)實(shí)現(xiàn)了文化產(chǎn)業(yè)數(shù)據(jù)的自動(dòng)采集、高效處理、深度分析、直觀可視化展示,為文化產(chǎn)業(yè)的智能化發(fā)展提供支持。相關(guān)技術(shù)介紹開發(fā)文化產(chǎn)業(yè)數(shù)據(jù)智能分析系統(tǒng)時(shí),許多技術(shù)相互配合,共同為系統(tǒng)的正常運(yùn)行和功能的發(fā)揮提供支持,為了更好地開展本領(lǐng)域的工作,對(duì)系統(tǒng)中所使用的相關(guān)技術(shù)做如下介紹Python語(yǔ)言Python語(yǔ)言涵蓋面向?qū)ο缶幊蹋∣OP),函數(shù)式編程(FP)以及命令式編程等多樣范式,這種兼容性讓開發(fā)者得以按項(xiàng)目特點(diǎn)或個(gè)人偏向選擇編程風(fēng)格,以適應(yīng)各類開發(fā)訴求,從而賦予其應(yīng)對(duì)不同任務(wù)類型的靈活性,特別是在Web開發(fā)領(lǐng)域,Python配備原生HTTP服務(wù)器,輔以Django和Flask等成熟框架,簡(jiǎn)化了高效Web應(yīng)用的開發(fā)流程,這使得搭建功能性網(wǎng)站顯得輕松快捷REF_Ref192123245\r\h[9]。Python能接入多種數(shù)據(jù)庫(kù)系統(tǒng),不管是MySQL,PostgreSQL還是SQLite均能在其內(nèi)置數(shù)據(jù)庫(kù)接口的支持下順利銜接關(guān)系型數(shù)據(jù)庫(kù),Python因自身簡(jiǎn)便易懂且具備強(qiáng)大的擴(kuò)展性,已成為學(xué)術(shù)研究,數(shù)據(jù)分析以及機(jī)器學(xué)習(xí)等領(lǐng)域的關(guān)鍵選項(xiàng),在人工智能,數(shù)據(jù)挖掘和科學(xué)計(jì)算這類尖端技術(shù)中也有廣泛使用REF_Ref197260681\r\h[10]。Flask框架Flask是一個(gè)基于python的輕量級(jí)web應(yīng)用框架,遵循WSGI規(guī)范,使用werkzeug實(shí)現(xiàn)REF_Ref198134698\r\h[11]。它使用jinja2作為默認(rèn)的模板引擎,可以動(dòng)態(tài)生成HTML頁(yè)面。Flask是一種微框架,它只提供了基本的功能如路由、請(qǐng)求響應(yīng)等,其他的擴(kuò)展功能需要通過(guò)插件來(lái)實(shí)現(xiàn)。路由系統(tǒng)通過(guò)裝飾器語(yǔ)法來(lái)定義URL規(guī)則,可以動(dòng)態(tài)的定義URL參數(shù)和HTTP方法。請(qǐng)求上下文和應(yīng)用上下文用來(lái)保存在請(qǐng)求處理過(guò)程中需要使用的狀態(tài)數(shù)據(jù)REF_Ref198134702\r\h[12]。MySQL數(shù)據(jù)庫(kù)技術(shù)MySQL屬于一種關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng),它采取客戶端-服務(wù)器這種架構(gòu)模式運(yùn)作,這個(gè)系統(tǒng)利用SQL語(yǔ)言來(lái)執(zhí)行數(shù)據(jù)操作并實(shí)施數(shù)據(jù)管理,而且具備ACID事務(wù)特性REF_Ref198134713\r\h[13],存儲(chǔ)引擎架構(gòu)可選取不同的底層引擎,InnoDB可給予事務(wù)支撐以及外鍵約束,MyISAM則重視讀取性能,數(shù)據(jù)庫(kù)以表的形式組織數(shù)據(jù),它包含多種數(shù)據(jù)類型,整數(shù),字符串,日期時(shí)間等等,索引機(jī)制借助B+樹結(jié)構(gòu)加快數(shù)據(jù)檢索速度,可以實(shí)現(xiàn)主鍵索引,唯一索引和一般索引等多種類型REF_Ref198134717\r\h[14]。Scrapy爬蟲Spider技術(shù)指的是網(wǎng)絡(luò)爬蟲程序,它用于自動(dòng)化地抓取互聯(lián)網(wǎng)上的數(shù)據(jù),爬蟲程序會(huì)通過(guò)HTTP協(xié)議向目標(biāo)網(wǎng)頁(yè)發(fā)出請(qǐng)求,從而得到HTML格式的原始內(nèi)容,頁(yè)面解析階段,會(huì)用XPath或者CSS選擇器來(lái)定位指定的元素,然后把其中的數(shù)據(jù)提取出來(lái),請(qǐng)求調(diào)度系統(tǒng)負(fù)責(zé)管理待抓取的URL隊(duì)列,并采用廣度優(yōu)先或者深度優(yōu)先的方式對(duì)網(wǎng)頁(yè)進(jìn)行遍歷,去重機(jī)制能防止相同的URL被重復(fù)抓取,一般采用布隆過(guò)濾器或者哈希表來(lái)完成這項(xiàng)工作,針對(duì)反爬蟲的對(duì)策,可以設(shè)定請(qǐng)求頭,利用代理IP,限制訪問(wèn)頻率等等REF_Ref198134721\r\h[15]。異步網(wǎng)絡(luò)請(qǐng)求加快爬蟲效率,依靠事件循環(huán)處理多個(gè)并發(fā)連接,動(dòng)態(tài)網(wǎng)頁(yè)抓取須要模仿瀏覽器,通過(guò)執(zhí)行JavaScript得到全部?jī)?nèi)容,數(shù)據(jù)存儲(chǔ)形式多種多樣,包含文件系統(tǒng),數(shù)據(jù)庫(kù)或者消息隊(duì)列,分布式爬蟲架構(gòu)把任務(wù)分發(fā)給多個(gè)節(jié)點(diǎn)執(zhí)行,從而提升采集規(guī)模,定時(shí)任務(wù)功能達(dá)成周期性數(shù)據(jù)更新,監(jiān)測(cè)系統(tǒng)追蹤爬蟲運(yùn)作狀況,增量抓取機(jī)制找出網(wǎng)頁(yè)改變之處,只采集更新內(nèi)容,API接口調(diào)用可直接得到結(jié)構(gòu)化數(shù)據(jù),免除頁(yè)面剖析進(jìn)程,日志體系記載爬蟲運(yùn)作細(xì)節(jié),利于查找毛病并開展性能分析REF_Ref192123279\r\h[16]。需求分析從可行性、功能需求和非功能需求等方面對(duì)文化產(chǎn)業(yè)數(shù)據(jù)智能分析系統(tǒng)進(jìn)行分析??尚行苑治黾夹g(shù)可行性經(jīng)濟(jì)可行性操作可行性系統(tǒng)功能需求分析管理員功能圖3-1管理員用例圖用戶功能圖3-2用戶用例圖系統(tǒng)的非功能需求分析本章小節(jié)系統(tǒng)設(shè)計(jì)具體論述文化產(chǎn)業(yè)數(shù)據(jù)智能分析系統(tǒng)的架構(gòu),數(shù)據(jù)處理過(guò)程以及數(shù)據(jù)庫(kù)設(shè)計(jì),該系統(tǒng)采取多層分布式設(shè)計(jì),利用模塊化解耦各個(gè)功能部件并使其相互配合,通過(guò)E-R圖表現(xiàn)整個(gè)系統(tǒng)的設(shè)計(jì)及結(jié)構(gòu),給系統(tǒng)開發(fā)賦予指引。系統(tǒng)架構(gòu)設(shè)計(jì)系統(tǒng)架構(gòu)由展現(xiàn)層、業(yè)務(wù)邏輯層、數(shù)據(jù)訪問(wèn)持久層、數(shù)據(jù)庫(kù)層、工具層及實(shí)體層構(gòu)成1.展現(xiàn)層:Controller(控制器)、View(視圖)、Model(模型)。它主要與用戶交互,由Controller接受用戶的請(qǐng)求,調(diào)用業(yè)務(wù)邏輯層對(duì)數(shù)據(jù)進(jìn)行處理,View把處理的結(jié)果呈現(xiàn)給用戶,Model負(fù)責(zé)數(shù)據(jù)的封裝和交互[16]。2.業(yè)務(wù)邏輯層:Service和API,Service層負(fù)責(zé)處理業(yè)務(wù)邏輯,API提供一個(gè)統(tǒng)一的接口給展現(xiàn)層調(diào)用,前后端分離。3.數(shù)據(jù)訪問(wèn)持久層:由DAO(DataAccessObject)組成,主要負(fù)責(zé)與數(shù)據(jù)庫(kù)進(jìn)行交互,把業(yè)務(wù)邏輯層的請(qǐng)求轉(zhuǎn)換成對(duì)數(shù)據(jù)庫(kù)的請(qǐng)求,同時(shí)把數(shù)據(jù)庫(kù)的返回結(jié)果封裝成數(shù)據(jù)對(duì)象提供給業(yè)務(wù)邏輯層使用。4.數(shù)據(jù)庫(kù)層:MySQL數(shù)據(jù)庫(kù),用于存放系統(tǒng)的主要數(shù)據(jù),所有的數(shù)據(jù)最終都是通過(guò)DAO來(lái)訪問(wèn)數(shù)據(jù)庫(kù)進(jìn)行持久化。整個(gè)系統(tǒng)架構(gòu)如圖4-1所示。圖4-1系統(tǒng)架構(gòu)圖數(shù)據(jù)爬取系統(tǒng)用Scrapy框架做騰訊新聞數(shù)據(jù)的自動(dòng)化采集,爬蟲通過(guò)HTTP請(qǐng)求訪問(wèn)騰訊新聞WebAPI接口,取得結(jié)構(gòu)化的新聞數(shù)據(jù),爬取策略是單線程順序請(qǐng)求,支持實(shí)時(shí)和定時(shí)兩種采集模式,請(qǐng)求配置里設(shè)定標(biāo)準(zhǔn)的HTTP頭部信息,包含必需的Referer和User-Agent參數(shù),保證正常獲取數(shù)據(jù),目標(biāo)API給出JSON格式的響應(yīng)數(shù)據(jù),包含新聞標(biāo)題,新聞分類,發(fā)布時(shí)間,互動(dòng)數(shù)據(jù)這些關(guān)鍵字段。數(shù)據(jù)采集范圍包含新聞標(biāo)題,分類,摘要,發(fā)布地址,發(fā)布時(shí)間,圖片鏈接,閱讀量,評(píng)論數(shù),點(diǎn)贊數(shù)這些關(guān)鍵維度,對(duì)于騰訊新聞的分頁(yè)特點(diǎn),爬蟲達(dá)成了自動(dòng)翻頁(yè)的效果,一次任務(wù)就能采集很多頁(yè)的新聞數(shù)據(jù),異常處理機(jī)制含括JSON解析異常捕捉以及字段缺失處置,從而保證數(shù)據(jù)采集的完整性,采集頻率具備按需執(zhí)行和定時(shí)任務(wù)這兩種形式,可以依照實(shí)際情況來(lái)設(shè)置。原始數(shù)據(jù)經(jīng)過(guò)emoji轉(zhuǎn)碼并清除HTML標(biāo)簽之后存到MySQL數(shù)據(jù)庫(kù)的newsinfo表當(dāng)中,給后面的分析工作賦予數(shù)據(jù)支撐,數(shù)據(jù)清洗部分利用pandas完成重復(fù)數(shù)據(jù)檢查,空值處理,異常值過(guò)濾等功能,以保障數(shù)據(jù)質(zhì)量,數(shù)據(jù)庫(kù)操作通過(guò)SQLAlchemy引擎執(zhí)行,便于對(duì)數(shù)據(jù)實(shí)施高效率的寫與查操作。數(shù)據(jù)處理與分析系統(tǒng)利用Pandas和NumPy庫(kù)完成新聞數(shù)據(jù)的處理與分析流程,原始數(shù)據(jù)先做去重處理,根據(jù)新聞ID創(chuàng)建唯一索引,缺失值處理采用多種方法,數(shù)值型字段(閱讀量,評(píng)論數(shù))用中位數(shù)填充,文本型字段(標(biāo)題,分類)標(biāo)注為“暫無(wú)”,時(shí)間數(shù)據(jù)執(zhí)行標(biāo)準(zhǔn)化轉(zhuǎn)換,全部變成datetime類型,互動(dòng)數(shù)據(jù)(評(píng)論數(shù),點(diǎn)贊數(shù))清洗掉異常值,變成整型數(shù)值,文本內(nèi)容做HTML標(biāo)簽過(guò)濾和emoji轉(zhuǎn)換處理。數(shù)據(jù)分析模塊的三個(gè)核心功能實(shí)現(xiàn):新聞熱度趨勢(shì)分析:基于時(shí)間序列模型的熱點(diǎn)新聞?lì)A(yù)測(cè)內(nèi)容互動(dòng)分析:基于四分位法的異?;?dòng)數(shù)據(jù)識(shí)別研究分類表現(xiàn)分析:構(gòu)建新聞分類維度的聚合指標(biāo)體系,涵蓋平均閱讀量、互動(dòng)率等關(guān)鍵指標(biāo)分析結(jié)果存入MySQL數(shù)據(jù)庫(kù)的news_stats表,供可視化模塊調(diào)用,數(shù)據(jù)更新采用增量方式,每日只算新增新聞數(shù)據(jù)的差別部分,系統(tǒng)自帶數(shù)據(jù)質(zhì)量檢查規(guī)則,包含:范圍校驗(yàn):閱讀量、數(shù)值字段合理范圍檢測(cè)研究格式校驗(yàn):時(shí)間格式、URL格式的規(guī)范性檢查邏輯校驗(yàn):業(yè)務(wù)邏輯驗(yàn)證:閱讀量與評(píng)論數(shù)關(guān)系異常數(shù)據(jù)會(huì)自動(dòng)被轉(zhuǎn)入到待修復(fù)隊(duì)列當(dāng)中(即flagged_data表),而最后的分析成果通過(guò)Flask所形成的RESTfulAPI來(lái)給予前端表現(xiàn)模塊。數(shù)據(jù)庫(kù)設(shè)計(jì)E-R圖設(shè)計(jì)R圖(實(shí)體-關(guān)系圖)是一種用于數(shù)據(jù)建模的圖形化工具,描述實(shí)體、屬性及實(shí)體間的關(guān)系。通過(guò)圖示化的方式幫助分析和設(shè)計(jì)數(shù)據(jù)庫(kù)結(jié)構(gòu),明確數(shù)據(jù)之間的相互聯(lián)系,便于后續(xù)的數(shù)據(jù)庫(kù)開發(fā)與管理。以下將展示系統(tǒng)的全局E-R圖以及各個(gè)實(shí)體的屬性圖REF_Ref198134747\r\h[17]。系統(tǒng)全局E-R圖如圖4-2所示。圖4-2系統(tǒng)E-R圖新聞信息表用于存儲(chǔ)新聞信息。新聞信息實(shí)體圖如圖4-3所示。圖4-3新聞信息實(shí)體圖用戶行為表用于存儲(chǔ)用戶行為的數(shù)據(jù)。用戶行為實(shí)體圖如圖4-4所示。圖4-4用戶行為實(shí)體圖評(píng)論量預(yù)測(cè)表用于存儲(chǔ)評(píng)論量信息。評(píng)論量預(yù)測(cè)實(shí)體圖如圖4-5所示。圖4-5評(píng)論量預(yù)測(cè)實(shí)體圖用戶表主要用來(lái)存儲(chǔ)用戶的基本信息。用戶實(shí)體圖如圖4-6所示。圖4-6用戶實(shí)體圖管理員表用來(lái)存儲(chǔ)管理員賬戶信息。管理員實(shí)體圖如圖4-7所示。圖4-7管理員實(shí)體圖數(shù)據(jù)庫(kù)表設(shè)計(jì)數(shù)據(jù)庫(kù)表設(shè)計(jì)是根據(jù)業(yè)務(wù)需求,確定數(shù)據(jù)庫(kù)表的結(jié)構(gòu)、字段類型及其關(guān)系。通過(guò)規(guī)范化設(shè)計(jì),保證數(shù)據(jù)的完整性、一致性與效率,避免冗余數(shù)據(jù),并為后續(xù)的數(shù)據(jù)查詢、存儲(chǔ)和維護(hù)提供清晰的框架。以下是系統(tǒng)的數(shù)據(jù)庫(kù)表設(shè)計(jì)展示REF_Ref198134738\r\h[18]。用戶表主要用來(lái)存儲(chǔ)用戶的基本信息。主要包括用戶賬號(hào)、密碼、姓名、性別、年齡、手機(jī)號(hào)和頭像等信息。用戶表如表4-1所示。用戶表用于存儲(chǔ)用戶的基本信息,包括用戶賬號(hào)、密碼、姓名、頭像、手機(jī)等。用戶表如表4-1所示。表4-1用戶表字段名稱類型長(zhǎng)度字段說(shuō)明主鍵默認(rèn)值idbigint主鍵主鍵addtimetimestamp創(chuàng)建時(shí)間CURRENT_TIMESTAMPzhanghaovarchar200賬號(hào)mimavarchar200密碼xingmingvarchar200姓名xingbievarchar200性別youxiangvarchar200郵箱shoujihaomavarchar200手機(jī)號(hào)碼touxianglongtext4294967295頭像statusint狀態(tài)0管理員表用來(lái)存儲(chǔ)管理員賬戶信息。主要包括用戶名、密碼、頭像和角色等信息。管理員表如表4-2所示。表4-2管理員字段名稱類型長(zhǎng)度字段說(shuō)明主鍵默認(rèn)值idbigint主鍵主鍵usernamevarchar100用戶名passwordvarchar100密碼imagevarchar200頭像rolevarchar100角色管理員addtimetimestamp新增時(shí)間CURRENT_TIMESTAMP用戶行為表用于存儲(chǔ)用戶行為的數(shù)據(jù),包括觀看時(shí)長(zhǎng)、點(diǎn)贊等。用戶行為表如表4-3所示。表4-3用戶行為字段名稱類型長(zhǎng)度字段說(shuō)明主鍵默認(rèn)值idbigint主鍵主鍵addtimetimestamp創(chuàng)建時(shí)間CURRENT_TIMESTAMPxingmingvarchar200姓名guankanshizhangvarchar200觀看時(shí)長(zhǎng)dianzanvarchar200點(diǎn)贊fenxiangvarchar200分享zhuanfavarchar200轉(zhuǎn)發(fā)pingjiavarchar200評(píng)價(jià)pingfenvarchar200評(píng)分dengjishijiandatetime登記時(shí)間評(píng)論量預(yù)測(cè)表用于存儲(chǔ)評(píng)論量信息,包括評(píng)論量、點(diǎn)贊量、閱讀量等。訂評(píng)論量預(yù)測(cè)表如表4-4所示。表4-4評(píng)論量預(yù)測(cè)字段名稱類型長(zhǎng)度字段說(shuō)明主鍵默認(rèn)值idbigint主鍵主鍵addtimetimestamp創(chuàng)建時(shí)間CURRENT_TIMESTAMPcommetnumint評(píng)論量collectnumint收藏量likenumint點(diǎn)贊量readnumint閱讀量addressvarchar200地址新聞信息表用于存儲(chǔ)新聞信息,包括評(píng)論量、點(diǎn)贊量、閱讀量等。新聞信息表如表4-5所示。表4-5新聞信息字段名稱類型長(zhǎng)度字段說(shuō)明主鍵默認(rèn)值idbigint主鍵主鍵addtimetimestamp創(chuàng)建時(shí)間CURRENT_TIMESTAMPimgurllongtext4294967295圖片commetnumint評(píng)論量collectnumint收藏量sharenumint轉(zhuǎn)發(fā)量likenumint點(diǎn)贊量readnumint閱讀量detailurllongtext4294967295詳情地址titlevarchar200標(biāo)題categoryvarchar200分類gaishulongtext4294967295概述addressvarchar200地址ptimevarchar200發(fā)布時(shí)間系統(tǒng)總體功能設(shè)計(jì)系統(tǒng)功能結(jié)構(gòu)圖如圖4-10所示。圖4-10系統(tǒng)功能結(jié)構(gòu)圖系統(tǒng)實(shí)現(xiàn)描述文化產(chǎn)業(yè)數(shù)據(jù)智能分析系統(tǒng)的具體實(shí)現(xiàn),包括用戶功能和管理員功能的實(shí)現(xiàn)。用戶功能實(shí)現(xiàn)新聞信息圖5-1新聞信息界面評(píng)論量預(yù)測(cè)圖5-2評(píng)論量預(yù)測(cè)界面?zhèn)€人中心圖5-3個(gè)人中心界面管理員功能實(shí)現(xiàn)可視化頁(yè)面圖5-4可視化頁(yè)面界面用戶管理圖5-5用戶管理界面新聞數(shù)據(jù)管理圖5-6新聞數(shù)據(jù)管理界面用戶行為記錄圖5-7用戶行為記錄界面預(yù)測(cè)分析管理圖5-8預(yù)測(cè)分析管理界面系統(tǒng)測(cè)試對(duì)文化產(chǎn)業(yè)數(shù)據(jù)智能分析系統(tǒng)進(jìn)行測(cè)試,驗(yàn)證系統(tǒng)的功能和性能。測(cè)試目的系統(tǒng)測(cè)試是軟件開發(fā)過(guò)程中不可或缺的環(huán)節(jié),主要目的是檢測(cè)系統(tǒng)實(shí)現(xiàn)的效果是否和預(yù)期吻合,功能是否按照需求規(guī)格說(shuō)明書實(shí)現(xiàn)了所有功能,通過(guò)測(cè)試及時(shí)發(fā)現(xiàn)潛在的問(wèn)題,找出這些問(wèn)題,避免軟件在實(shí)際使用過(guò)程中出現(xiàn)異常,從而更好地滿足用戶的需求。測(cè)試方法軟件測(cè)試核心要保證軟件既符合用戶具體需求又符合預(yù)定質(zhì)量標(biāo)準(zhǔn),這不只是檢測(cè)軟件本身的錯(cuò)誤,還包括檢查配套文檔,軟件測(cè)試時(shí),用戶需求和期望成了評(píng)價(jià)軟件好壞的主要標(biāo)準(zhǔn),測(cè)試重點(diǎn)是找出并解決那些不符合用戶需求的缺陷,為了更好地、更系統(tǒng)地進(jìn)行測(cè)試,制定一套質(zhì)量標(biāo)準(zhǔn)是必須的。這些標(biāo)準(zhǔn)能幫助測(cè)試團(tuán)隊(duì)評(píng)判軟件的性能,看軟件是否達(dá)成既定的質(zhì)量目標(biāo),軟件測(cè)試的過(guò)程分成許多階段,每個(gè)階段針對(duì)軟件開發(fā)的不同層面,單元測(cè)試關(guān)注最小的代碼塊,集成測(cè)試查看這些小塊如何協(xié)同工作,確認(rèn)測(cè)試留意軟件功能是否符合需求,系統(tǒng)測(cè)試涉及軟件和其他系統(tǒng)的整合,驗(yàn)收測(cè)試保證軟件符合最終用戶的需求REF_Ref187754937\r\h[19]。測(cè)試內(nèi)容表6-1新聞數(shù)據(jù)爬取測(cè)試用例表測(cè)試項(xiàng)測(cè)試用例預(yù)期結(jié)果結(jié)論新聞數(shù)據(jù)爬取功能測(cè)試1.管理員登錄系統(tǒng)2.進(jìn)入新聞數(shù)據(jù)管理頁(yè)面3.設(shè)置爬取參數(shù)(分類:科技,數(shù)量:100)4-啟動(dòng)爬取任務(wù)5.查看爬取結(jié)果1.成功登錄系統(tǒng)2.正常進(jìn)入管理頁(yè)面3.參數(shù)設(shè)置保存成功4-任務(wù)啟動(dòng)后顯示進(jìn)度條5.爬取完成后顯示100條科技類新聞數(shù)據(jù)與預(yù)期結(jié)果一致表6-2新聞信息展示測(cè)試用例表測(cè)試項(xiàng)測(cè)試用例預(yù)期結(jié)果結(jié)論新聞信息展示功能測(cè)試1.用戶登錄系統(tǒng)2.進(jìn)入新聞信息頁(yè)面3.選擇"科技"分類篩選4-點(diǎn)擊某條新聞標(biāo)題5.查看新聞詳情1.成功登錄系統(tǒng)2.正常進(jìn)入新聞頁(yè)面3.顯示所有科技類新聞4-跳轉(zhuǎn)到詳情頁(yè)5.正確顯示新聞完整內(nèi)容與預(yù)期結(jié)果一致表6-3評(píng)論量預(yù)測(cè)測(cè)試用例表測(cè)試項(xiàng)測(cè)試用例預(yù)期結(jié)果結(jié)論評(píng)論量預(yù)測(cè)功能測(cè)試1.用戶登錄系統(tǒng)2.進(jìn)入評(píng)論量預(yù)測(cè)頁(yè)面3.輸入新聞標(biāo)題和內(nèi)容4-點(diǎn)擊預(yù)測(cè)按鈕5.查看預(yù)測(cè)結(jié)果1.成功登錄系統(tǒng)2.正常進(jìn)入預(yù)測(cè)頁(yè)面3.輸入框接受文本4-系統(tǒng)開始計(jì)算5.顯示預(yù)測(cè)圖表和數(shù)值區(qū)間與預(yù)期結(jié)果一致表6-4用戶行為記錄測(cè)試用例表測(cè)試項(xiàng)測(cè)試用例預(yù)期結(jié)果結(jié)論用戶行為記錄功能測(cè)試1.用戶登錄系統(tǒng)2.瀏覽3條不同新聞3.對(duì)其中1條新聞點(diǎn)贊4-管理員查看行為記錄1.成功登錄系統(tǒng)2.系統(tǒng)記錄瀏覽記錄3.系統(tǒng)記錄點(diǎn)贊行為4-管理員端顯示完整行為日志與預(yù)期結(jié)果一致表6-5數(shù)據(jù)可視化測(cè)試用例表測(cè)試項(xiàng)測(cè)試用例預(yù)期結(jié)果結(jié)論數(shù)據(jù)可視化功能測(cè)試1.管理員登錄系統(tǒng)2.進(jìn)入可視化頁(yè)面3.選擇"近7天"時(shí)間范圍4-查看各類圖表1.成功登錄系統(tǒng)2.正常進(jìn)入可視化頁(yè)面3.圖表數(shù)據(jù)更新為7天內(nèi)4-正確顯示熱力圖、餅圖等圖表與預(yù)期結(jié)果一致表6-6用戶管理測(cè)試用例表測(cè)試項(xiàng)測(cè)試用例預(yù)期結(jié)果結(jié)論用戶管理功能測(cè)試1.管理員登錄系統(tǒng)2.進(jìn)入用戶管理頁(yè)面3.新增一個(gè)測(cè)試用戶4-修改該用戶權(quán)限5.刪除測(cè)試用戶1.成功登錄系統(tǒng)2.正常進(jìn)入管理頁(yè)面3.用戶列表顯示新用戶4-權(quán)限修改成功5.用戶從列表中消失與預(yù)期結(jié)果一致測(cè)試結(jié)論本次測(cè)試對(duì)系統(tǒng)的6個(gè)核心功能模塊進(jìn)行了全面驗(yàn)證。新聞數(shù)據(jù)爬取功能測(cè)試表明,系統(tǒng)能夠按照設(shè)定的分類和數(shù)量參數(shù)成功爬取目標(biāo)新聞數(shù)據(jù),爬取進(jìn)度顯示正常,結(jié)果數(shù)據(jù)完整存儲(chǔ)。新聞信息展示功能測(cè)試確認(rèn)系統(tǒng)能正確展示爬取的新聞數(shù)據(jù),分類篩選功能工作正常,新聞詳情頁(yè)面內(nèi)容顯示完整。評(píng)論量預(yù)測(cè)功能測(cè)試顯示系統(tǒng)能夠基于輸入內(nèi)容生成預(yù)測(cè)結(jié)果,預(yù)測(cè)圖表和數(shù)值區(qū)間輸出符合預(yù)期。用戶行為記錄功能測(cè)試驗(yàn)證了系統(tǒng)能準(zhǔn)確記錄用戶的瀏覽和點(diǎn)贊行為,管理員端可完整查看行為日志。數(shù)據(jù)可視化功能測(cè)試表明系統(tǒng)能按時(shí)間范圍篩選數(shù)據(jù)并正確生成各類分析圖表,圖表數(shù)據(jù)與源數(shù)據(jù)一致。用戶管理功能測(cè)試確認(rèn)管理員能夠正常執(zhí)行用戶增刪改查操作,權(quán)限修改功能工作正常。所有測(cè)試用例執(zhí)行結(jié)果均與預(yù)期一致,系統(tǒng)核心功能模塊達(dá)到設(shè)計(jì)要求。總結(jié)本研究成功開發(fā)出一套文化產(chǎn)業(yè)數(shù)據(jù)智能分析系統(tǒng),這套系統(tǒng)依靠Python技術(shù)棧創(chuàng)建起來(lái),用Flask框架搭建起后端服務(wù),再配合MySQL數(shù)據(jù)庫(kù)高效地存儲(chǔ)和管理數(shù)據(jù),Scrapy爬蟲技術(shù)也被用來(lái)完成新聞數(shù)據(jù)的自動(dòng)化采集任務(wù),系統(tǒng)的主要特點(diǎn)就是全流程自動(dòng)化處理,從數(shù)據(jù)采集,清洗一直到分析預(yù)測(cè),它很好地解決了文化產(chǎn)業(yè)傳統(tǒng)數(shù)據(jù)處理模式效率低,分析維度單一的難題,時(shí)間序列分析,互動(dòng)率計(jì)算這些先進(jìn)算法被引入進(jìn)來(lái)之后,系統(tǒng)給新聞數(shù)據(jù)分析賦予了新的視角,建立起完整的文化產(chǎn)業(yè)數(shù)據(jù)智能分析體系,為行業(yè)決策給予了強(qiáng)有力的科學(xué)支撐。功能實(shí)現(xiàn)上,系統(tǒng)憑借評(píng)論量預(yù)測(cè)模型和異常檢測(cè)機(jī)制給予內(nèi)容運(yùn)作有力的數(shù)據(jù)支撐,依靠分類維度聚合分析的功能幫助用戶迅速掌握行業(yè)動(dòng)態(tài),經(jīng)過(guò)測(cè)試發(fā)現(xiàn),系統(tǒng)的各個(gè)功能模塊都表現(xiàn)出良好的穩(wěn)定性和可靠性,達(dá)到了預(yù)期的設(shè)計(jì)目標(biāo)。雖然系統(tǒng)已取得一些成果,但仍然存在可以改善的地方,當(dāng)下系統(tǒng)的數(shù)據(jù)分析維度還有拓寬的余地,預(yù)測(cè)算法的精準(zhǔn)度也存在提升的可能,日后的研究打算從如下幾處著手開展改良與擴(kuò)展工作,其一,增添用戶行為分析維度,諸如用戶瀏覽路徑分析,用戶停留時(shí)長(zhǎng)分析之類,從而更為全方位地認(rèn)識(shí)用戶需求,其二,改良預(yù)測(cè)算法模型,利用深度學(xué)習(xí)技術(shù)來(lái)加強(qiáng)預(yù)測(cè)精度,使得預(yù)測(cè)結(jié)果具有更大的參考意義,其三,加入情感分析功能,針對(duì)新聞評(píng)論執(zhí)行情感傾向分析,助力從業(yè)者更好地掌握公眾輿論動(dòng)向,通過(guò)這些改良措施,該系統(tǒng)將會(huì)更好地適應(yīng)文化產(chǎn)業(yè)持續(xù)發(fā)展的需要,推動(dòng)行業(yè)朝著數(shù)字化方向邁進(jìn)。參考文獻(xiàn)王旭敏,何江李,顧錦祥,李俊樂(lè).基于經(jīng)濟(jì)特征的倉(cāng)柵式汽車銷量關(guān)聯(lián)性研究[J].專用汽車,2025,(03):24-28.廖水梅,李猛,李剛.基于大數(shù)據(jù)的新能源汽車銷量的分析與預(yù)測(cè)[J].輕工科技,2024,40(06):106-110.龍丹.大數(shù)據(jù)時(shí)代背景下的汽車服務(wù)營(yíng)銷路徑[J].內(nèi)燃機(jī)與配件,2024,(10):132-134-劉詠希.基于在線評(píng)論的新能源汽車需求與銷量影響因素研究[D].東華大學(xué),2024-張夢(mèng)迪.基于大數(shù)據(jù)的汽車銷量預(yù)測(cè)研究[D].湖北大學(xué),2021.ShengyuYan,YiXu.BigDataAutomobilePricePredictionBasedonElasticNetworkRegressionModel[J].FinancialEngineeringandRiskManagement,2023,6(11):JunjieGao,YananXie,XiaominCui,HanYu,FengGu.Chineseautomobilesalesforecastingusingeconomicindicatorsandtypicaldomesticbrandautomobilesalesdata:Amethodbasedoneconometricmodel[J].AdvancesinMechanicalEngineering,2018,10(2):168781401774932-168781401774932.BBC.DataScienceTeam:AudienceBehaviorAnalysis[EB/OL],2023,6(11):徐弋焜,柳冠軍.基于Python技術(shù)的蘇寧易購(gòu)財(cái)務(wù)風(fēng)險(xiǎn)評(píng)估[J].現(xiàn)代營(yíng)銷(下旬刊),2025,(05):145-147.汪洋,姜新通.MVC框架在Python與Django下的設(shè)計(jì)研究[J].電腦與信息技術(shù),2021,29(01):54-57+63.王朝輝.基于Flask框架的測(cè)試集成系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年企業(yè)內(nèi)部員工晉升制度手冊(cè)
- 2025年項(xiàng)目進(jìn)度管理與監(jiān)控指南
- 2025年食品加工安全與質(zhì)量管理指南
- 公共交通運(yùn)營(yíng)安全管理責(zé)任制度
- 電子資源使用管理制度
- 2025年企業(yè)信息安全評(píng)估與風(fēng)險(xiǎn)管理指南
- 超市員工績(jī)效考核及晉級(jí)制度
- 超市顧客投訴處理制度
- 辦公室員工培訓(xùn)效果總結(jié)制度
- 2026年陜西氫能產(chǎn)業(yè)發(fā)展有限公司(榆林)所屬單位社會(huì)公開招聘?jìng)淇碱}庫(kù)及1套參考答案詳解
- DL-T 2571.3-2022 水電站公用輔助設(shè)備檢修規(guī)程 第3部分:水系統(tǒng)
- “振興杯”職業(yè)技能競(jìng)賽(維修電工)備賽試題庫(kù) (單選、多選題匯總)
- 全國(guó)基層衛(wèi)生技能競(jìng)賽題庫(kù)(基本公衛(wèi)部分)-高血壓患者健康管理
- YC/T 273-2014卷煙包裝設(shè)計(jì)要求
- GB/T 25689-2010土方機(jī)械自卸車車廂容量標(biāo)定
- 攝像機(jī)外觀檢驗(yàn)標(biāo)準(zhǔn)
- 課件-糖皮質(zhì)激素
- 學(xué)習(xí)課件所有內(nèi)容歸類到此-etops運(yùn)行手冊(cè)
- 大棚番茄栽培技術(shù)課件
- 高效節(jié)能日光溫室設(shè)計(jì)方案
- 西安菲爾特金屬材料過(guò)濾有限公司金屬纖維及過(guò)濾器生產(chǎn)建設(shè)項(xiàng)目安全專篇
評(píng)論
0/150
提交評(píng)論