新浪網(wǎng)體育新聞數(shù)據(jù)采集與分析_第1頁
新浪網(wǎng)體育新聞數(shù)據(jù)采集與分析_第2頁
新浪網(wǎng)體育新聞數(shù)據(jù)采集與分析_第3頁
新浪網(wǎng)體育新聞數(shù)據(jù)采集與分析_第4頁
新浪網(wǎng)體育新聞數(shù)據(jù)采集與分析_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

湖南商務職業(yè)技術學院畢業(yè)設計

目錄

1引言.......................................................................................................................1

1.1項目背景........................................................................................................1

1.2開發(fā)環(huán)境與工具............................................................................................2

1.2.1Python簡介........................................................................................2

1.2.2MySQL簡介..........................................................................................2

1.2.3Pyecharts簡介..................................................................................2

2需求分析...............................................................................................................2

2.1可行性需求分析............................................................................................2

2.2采集目標功能分析........................................................................................3

2.3關鍵技術分析................................................................................................3

2.3.1網(wǎng)絡爬蟲技術.....................................................................................3

2.3.2文件存取技術.....................................................................................4

2.3.3可視化技術.........................................................................................4

3數(shù)據(jù)采集...............................................................................................................5

3.1采集頁面分析................................................................................................5

3.2字段分析........................................................................................................7

3.3編程實現(xiàn)........................................................................................................8

4數(shù)據(jù)清洗與處理.................................................................................................10

4.1數(shù)據(jù)清洗......................................................................................................10

4.2數(shù)據(jù)儲存......................................................................................................10

4.3編程實現(xiàn).......................................................................................................11

5數(shù)據(jù)統(tǒng)計與分析.................................................................................................12

5.1數(shù)據(jù)準備......................................................................................................12

5.2數(shù)據(jù)展示......................................................................................................14

5.2.1統(tǒng)計各體育類型的新聞數(shù)量...........................................................14

5.2.2統(tǒng)計5月每天發(fā)布新聞的數(shù)量.......................................................16

5.2.3統(tǒng)計每個媒體發(fā)布新聞的數(shù)量.......................................................17

I

湖南商務職業(yè)技術學院畢業(yè)設計

5.2.4統(tǒng)計評論量最多的10條新聞.........................................................18

5.3綜述..............................................................................................................19

6小結(jié).....................................................................................................................19

參考資料........................................................................................................................21

II

湖南商務職業(yè)技術學院畢業(yè)設計

新浪網(wǎng)體育新聞數(shù)據(jù)采集與分析

1引言

新浪網(wǎng)體育新聞數(shù)據(jù)采集與分析項目旨在深入了解新浪網(wǎng)體育頻道的報道

情況和用戶互動情況,為體育行業(yè)的研究和決策提供數(shù)據(jù)支持。新浪網(wǎng)作為國

內(nèi)領先的綜合性門戶網(wǎng)站之一,其體育頻道涵蓋了包括NBA、中國足球、國際

足球等在內(nèi)的多個體育項目的新聞報道。通過對這些新聞數(shù)據(jù)進行采集和分析,

可以全面了解不同體育項目的受關注程度、報道熱度以及用戶互動情況,為體

育行業(yè)相關研究和媒體報道提供數(shù)據(jù)支持和參考。

本項目的目標是通過網(wǎng)絡爬蟲技術,從新浪網(wǎng)體育頻道獲取相關新聞數(shù)據(jù),

并結(jié)合數(shù)據(jù)清洗和處理技術,將數(shù)據(jù)整理成可分析的格式。主要分析內(nèi)容包括

但不限于體育新聞的分類分布、每日新聞發(fā)布數(shù)量的趨勢、不同媒體發(fā)布新聞

的數(shù)量以及新聞的評論量等指標。通過這些數(shù)據(jù)分析,可以挖掘出體育行業(yè)的

熱點話題、用戶關注度高的內(nèi)容以及新聞報道的特點,為體育行業(yè)的相關決策

和媒體報道提供數(shù)據(jù)支持。

1.1項目背景

新浪網(wǎng)體育新聞數(shù)據(jù)采集與分析項目背景源于對體育行業(yè)信息化和數(shù)據(jù)化

發(fā)展的需求。隨著互聯(lián)網(wǎng)的普及和移動互聯(lián)網(wǎng)的快速發(fā)展,人們獲取信息的方

式發(fā)生了巨大變化,體育新聞也不例外。作為國內(nèi)領先的綜合性門戶網(wǎng)站之一,

新浪網(wǎng)體育頻道匯集了豐富的體育新聞內(nèi)容,覆蓋了NBA、中國足球、國際足

球等多個熱門體育項目,成為體育愛好者和行業(yè)關注者獲取最新體育資訊的重

要平臺之一。

然而,隨著信息量的不斷增加和用戶需求的日益多樣化,僅僅依靠人工手

段收集和分析體育新聞數(shù)據(jù)已經(jīng)無法滿足對數(shù)據(jù)的深度挖掘和全面分析的需

求。因此,新浪網(wǎng)體育新聞數(shù)據(jù)采集與分析項目應運而生。

本項目旨在通過利用先進的網(wǎng)絡爬蟲技術,對新浪網(wǎng)體育頻道的新聞數(shù)據(jù)

進行自動化采集和處理。通過對新聞數(shù)據(jù)的采集和清洗,結(jié)合數(shù)據(jù)分析技術,

可以深入挖掘體育新聞的熱點話題、報道趨勢、用戶關注度等信息,為體育行

業(yè)的決策者、媒體從業(yè)者和廣大體育愛好者提供及時、準確、全面的數(shù)據(jù)支持。。

1

湖南商務職業(yè)技術學院畢業(yè)設計

1.2開發(fā)環(huán)境與工具

1.2.1Python簡介

Python技術在新浪網(wǎng)體育新聞數(shù)據(jù)采集與分析項目中發(fā)揮了重要作用,具

體表現(xiàn)在以下幾個方面:利用Python的網(wǎng)絡爬蟲庫(如Requests)實現(xiàn)對新

浪網(wǎng)體育頻道的數(shù)據(jù)抓取。通過發(fā)送HTTP請求,獲取網(wǎng)頁內(nèi)容,然后利用解析

庫(如lxml)提取所需信息,如新聞標題、發(fā)布時間、作者等。使用Python

的數(shù)據(jù)處理庫(如Pandas)對采集到的數(shù)據(jù)進行清洗和處理。包括去除重復數(shù)

據(jù)、處理缺失值、數(shù)據(jù)類型轉(zhuǎn)換等,確保數(shù)據(jù)質(zhì)量和一致性。

1.2.2MySQL簡介

MySQL是一種開源的關系型數(shù)據(jù)庫管理系統(tǒng),廣泛應用于各種規(guī)模的數(shù)據(jù)

存儲和管理。在新浪網(wǎng)體育新聞數(shù)據(jù)采集與分析項目中,MySQL技術發(fā)揮了重

要作用。MySQL提供了可靠的數(shù)據(jù)存儲和管理功能,支持高效的數(shù)據(jù)插入、更

新、刪除和查詢操作。在項目中,可以利用MySQL存儲采集到的新浪網(wǎng)體育新

聞數(shù)據(jù),確保數(shù)據(jù)的安全性和一致性。MySQL技術在新浪網(wǎng)體育新聞數(shù)據(jù)采集

與分析項目中扮演著重要角色,通過其穩(wěn)定可靠的數(shù)據(jù)存儲和管理能力,為項

目的數(shù)據(jù)處理和分析提供了堅實的基礎。

1.2.3Pyecharts簡介

Pyecharts是Python中的一個強大的數(shù)據(jù)可視化庫,基于Echarts開發(fā)而

來,可以輕松實現(xiàn)各種類型的圖表展示。支持多種常見的圖表類型,包括折線

圖、柱狀圖、餅圖、散點圖、雷達圖、地圖等,滿足不同數(shù)據(jù)展示需求。Pyecharts

支持圖表的多種樣式和配置選項,可以自定義圖表的顏色、大小、標簽、標題、

圖例等,滿足個性化需求。Pyecharts是一款功能強大、易于使用的數(shù)據(jù)可視

化工具,可以幫助開發(fā)人員快速創(chuàng)建各種精美的圖表,提升數(shù)據(jù)展示效果和用

戶體驗。

2需求分析

2.1可行性需求分析

1、技術可行性

數(shù)據(jù)采集技術:針對新浪網(wǎng)體育新聞的數(shù)據(jù)采集,可以利用Python中的

2

湖南商務職業(yè)技術學院畢業(yè)設計

requests庫進行網(wǎng)頁數(shù)據(jù)抓取,結(jié)合正則表達式或BeautifulSoup庫進行數(shù)據(jù)

解析,實現(xiàn)數(shù)據(jù)的準確采集。

數(shù)據(jù)處理技術:使用Python的pandas庫可以對采集的數(shù)據(jù)進行清洗、轉(zhuǎn)

換和分析,提取關鍵信息并進行統(tǒng)計分析。

數(shù)據(jù)存儲技術:選擇MySQL作為數(shù)據(jù)存儲方案,可以使用Python中的

MySQLdb或SQLAlchemy庫進行數(shù)據(jù)庫操作,實現(xiàn)數(shù)據(jù)的持久化存儲和管理。

2、項目可行性

數(shù)據(jù)來源:新浪網(wǎng)是國內(nèi)知名的新聞網(wǎng)站,擁有豐富的體育新聞內(nèi)容,數(shù)

據(jù)來源可靠且具有廣泛的覆蓋范圍,對項目可行性有利。

數(shù)據(jù)需求:體育新聞數(shù)據(jù)對于廣大體育愛好者具有較高的價值,項目具有

一定的市場需求和潛在用戶群。

技術支持:Python作為一門廣泛應用的編程語言,具有強大的數(shù)據(jù)處理和

分析能力,且擁有豐富的開源庫和技術社區(qū)支持,能夠滿足項目的技術需求。

2.2采集目標功能分析

數(shù)據(jù)采集主要目標是從新浪網(wǎng)體育新聞中獲取關于體育新聞的各種信息。

首先,需要采集體育新聞的類型,這可以幫助了解不同類別的新聞涵蓋的范圍

和熱度。其次,需要獲取新聞的id,這是每篇新聞的唯一標識,方便后續(xù)的數(shù)

據(jù)管理和分析。體育新聞標題是新聞的核心內(nèi)容,需要準確地獲取每篇新聞的

標題信息。新聞作者是新聞的創(chuàng)作者,也是新聞可信度的重要指標之一,需要

采集作者信息以便分析報道的來源和質(zhì)量。

數(shù)據(jù)采集目標是獲取全面、準確的體育新聞信息,包括新聞類型、id、標

題、作者、標簽、發(fā)布媒體、評論數(shù)和發(fā)布時間等關鍵字段,以支持后續(xù)的數(shù)

據(jù)分析和挖掘工作。通過這些數(shù)據(jù),可以深入了解體育新聞的熱點話題、報道

來源、受眾反饋等重要信息,為體育新聞領域的研究和決策提供有力支持。

2.3關鍵技術分析

2.3.1網(wǎng)絡爬蟲技術

項目中,網(wǎng)絡爬蟲技術扮演著關鍵角色,而requests庫則是主要依賴的工

具之一。通過網(wǎng)絡爬蟲技術,能夠自動化地訪問并提取新浪網(wǎng)體育新聞頁面上

的數(shù)據(jù),這些數(shù)據(jù)包括新聞類型、新聞標題、作者、標簽、發(fā)布媒體、評論數(shù)

等重要信息。使用requests庫發(fā)送HTTP請求。這個過程類似于在瀏覽器中輸

3

湖南商務職業(yè)技術學院畢業(yè)設計

入網(wǎng)址并按下回車,但是通過Python代碼來實現(xiàn)。可以使用requests.get()

方法發(fā)送GET請求,并通過參數(shù)指定所需的頁面URL以及的查詢參數(shù)。接收到

服務器返回的響應。requests庫可以方便地處理不同類型的響應,如HTML頁

面或JSON數(shù)據(jù)。對于新浪網(wǎng)體育新聞頁面,通常會得到一個包含新聞數(shù)據(jù)的

JSON格式響應。

解析響應內(nèi)容。這一步通常涉及使用JSON解析器或者正則表達式來從響應

中提取出需要的數(shù)據(jù)字段,如新聞類型、標題、作者等。在處理數(shù)據(jù)之前,需

要進行一些預處理工作,比如去除特殊字符、格式化時間戳等。這些操作可以

幫助將原始數(shù)據(jù)轉(zhuǎn)換為更加規(guī)范化和易于分析的形式。

2.3.2文件存取技術

數(shù)據(jù)存儲技術起著至關重要的作用,采用了多種方式來存儲和管理采集到

的新浪網(wǎng)體育新聞數(shù)據(jù),包括MySQL數(shù)據(jù)庫、JSON文件和文本文件(TXT)。

首先是MySQL數(shù)據(jù)庫,它是一個關系型數(shù)據(jù)庫管理系統(tǒng),具有數(shù)據(jù)結(jié)構(gòu)化、

高效查詢和數(shù)據(jù)安全性等特點。將采集到的新聞數(shù)據(jù)存儲在MySQL數(shù)據(jù)庫中,

通過定義合適的表結(jié)構(gòu)和字段,可以更好地組織和管理數(shù)據(jù),支持復雜的查詢

和分析操作。同時,MySQL提供了穩(wěn)定的數(shù)據(jù)存儲和高可靠性,適合長期存儲

和管理大量數(shù)據(jù)。

其次是JSON文件格式,它是一種輕量級的數(shù)據(jù)交換格式,具有結(jié)構(gòu)清晰、

易讀易寫的特點??梢詫⒉杉降男侣剶?shù)據(jù)以JSON格式保存到文件中,這樣可

以方便地在不同系統(tǒng)之間進行數(shù)據(jù)交換和共享。JSON文件也可以作為數(shù)據(jù)備份

的一種形式,保留數(shù)據(jù)的完整性和結(jié)構(gòu)信息。

另外,還使用文本文件(TXT)來存儲部分簡單的數(shù)據(jù),如采集到的新聞標

題或作者信息等。文本文件具有簡單易用、通用性強的特點,適合存儲少量結(jié)

構(gòu)簡單的數(shù)據(jù)。雖然文本文件不如數(shù)據(jù)庫和JSON文件支持復雜的數(shù)據(jù)操作,但

在某些場景下可以作為臨時存儲或數(shù)據(jù)交換的方式。

2.3.3可視化技術

Pyecharts作為數(shù)據(jù)可視化技術,來展示采集到的新浪網(wǎng)體育新聞數(shù)據(jù)。

Pyecharts是一個基于Echarts的Python可視化庫,它提供了豐富的圖表類型

和靈活的配置選項,可以方便地創(chuàng)建各種類型的交互式圖表,如折線圖、柱狀

圖、餅圖等。

通過Pyecharts,可以將采集到的數(shù)據(jù)以直觀的圖表形式展示出來,讓數(shù)

4

湖南商務職業(yè)技術學院畢業(yè)設計

據(jù)更加易于理解和分析。例如,可以使用折線圖展示每天發(fā)布的新聞數(shù)量變化

趨勢,通過柱狀圖展示不同媒體發(fā)布新聞的數(shù)量對比,還可以利用餅圖展示不

同體育新聞類型的占比情況等。

Pyecharts具有良好的可擴展性和定制性,可以根據(jù)實際需求對圖表進行

樣式定制和交互功能添加,使得展示效果更加生動和具有吸引力。同時,

Pyecharts支持將圖表導出為靜態(tài)圖片或動態(tài)HTML頁面,方便在報告、網(wǎng)頁或

其他平臺上進行展示和分享。

3數(shù)據(jù)采集

3.1采集頁面分析

新浪體育網(wǎng)地址為/,新浪體育網(wǎng)是中國新

浪網(wǎng)旗下的專業(yè)體育資訊平臺,提供包括國內(nèi)外體育賽事、球隊、球員資訊在

內(nèi)的全方位體育新聞報道和賽事直播服務。它涵蓋了足球、籃球、網(wǎng)球、排球、

游泳等多種體育項目的資訊,同時也有專欄文章、視頻直播、社區(qū)互動等功能。

網(wǎng)站首頁如下圖3-1所示。

圖3-1新浪新聞網(wǎng)首頁

將頁面往下滑動,可以看到不同體育新聞的篩選欄,包括NBA、國際足球、

中國足球、中國籃球和綜合體育。點擊不同的體育類型,網(wǎng)頁中的新聞列表頁

會自動刷新新聞數(shù)據(jù),新聞列表頁如下圖3-2所示。

5

湖南商務職業(yè)技術學院畢業(yè)設計

圖3-2新聞列表頁

點擊NBA頁面,發(fā)現(xiàn)網(wǎng)站的url沒有發(fā)生變化,由此可知頁面中的新聞不

是通過網(wǎng)站首頁url接口請求到的,為了找到真正的數(shù)據(jù)接口,需要對網(wǎng)站進

行抓包分析。通過大量的嘗試和分析,數(shù)據(jù)接口如下圖3-3所示。

圖3-3體育新聞數(shù)據(jù)接口

該接口的返回值是一個json對象,其中data子對象是一個列表類型,其

中包含了當前頁所有的新聞字段,如下圖3-4所示。

圖3-4數(shù)據(jù)接口返回值

找到數(shù)據(jù)接口之后,還需要對接口的請求參數(shù)進行分析,因為參數(shù)控制著

數(shù)據(jù)的返回內(nèi)容。url中的cids控制請求不同類型的新聞,action和up參數(shù)

共同控制頁面的翻頁。cids值與新聞類型的對應關系如下圖3-5所示。

6

湖南商務職業(yè)技術學院畢業(yè)設計

圖3-5cids值與新聞類型的對應關系

action和up參數(shù)如下圖3-6所示。

圖3-6action和up參數(shù)

3.2字段分析

本項目需要采集的字段可以直接從數(shù)據(jù)接口的response返回值對象中獲

取,response對象中包含了頁面中展示的所有字段和沒有展示的字段,所有在

代碼中只需要對response對象進行解析,即可拿到所有具有分析價值的字段,

爬蟲采集的字段有體育新聞類型、新聞作者、新聞發(fā)布時間等,數(shù)據(jù)接口返回

的json對象如下圖3-7所示。

圖3-7接口返回的json

需要采集的字段名與字段描述如下表3-1所示。

字段名字段描述

sport_type體育新聞類型

7

湖南商務職業(yè)技術學院畢業(yè)設計

docid新聞id

ltitle體育新聞標題

author新聞作者

tags新聞標簽

media發(fā)布媒體

comment_count評論數(shù)

ctime發(fā)布時間戳(秒)

3.3編程實現(xiàn)

modified_url的函數(shù),用于修改給定URL的特定參數(shù),并返回修改后的URL。

函數(shù)接受四個參數(shù):url是原始URL,value是需要修改的參數(shù)值,index是指

定參數(shù)up的值,flag是一個布爾值,表示是否需要修改參數(shù)action。使用

urlparse和parse_qs函數(shù)解析原始URL,并將其參數(shù)拆分為字典形式。然后根

據(jù)傳入的value、index和flag參數(shù)修改字典中的對應項,例如修改cids、

action、up和ts參數(shù)的值。獲取當前時間戳,并將其轉(zhuǎn)換為字符串形式,將

修改后的參數(shù)字典進行編碼,以便于重新構(gòu)建URL。最后使用urlunparse函數(shù)

重新構(gòu)建URL,得到修改后的URL,并將其返回,代碼如下圖3-8所示。

圖3-8modified_url方法

編寫get_sport方法,用于解析response對象,將response對象轉(zhuǎn)換成

python的字典類型,并逐一取出具有分析價值的字段。代碼如下圖3-9所示。

8

湖南商務職業(yè)技術學院畢業(yè)設計

圖3-9get_sport方法

編寫save_json方法,將采集到的數(shù)據(jù)保存到json文件中,代碼如下圖3-10

所示。

圖3-10save_json方法

在main中,給定了一個原始URLurl,接著使用循環(huán)遍歷一個名為cids_dic

的字典的鍵值對,字典包含了不同的cids值。在循環(huán)中,對每個cids值進行

遍歷,從0到9的范圍內(nèi)遍歷index。在每次循環(huán)中,調(diào)用modified_url函數(shù)

修改URL的參數(shù),生成一個新的URLreal_url。然后使用生成的URL發(fā)起請求,

獲取響應數(shù)據(jù),并調(diào)用get_sport函數(shù)處理響應數(shù)據(jù)。

圖3-11main方法

爬蟲程序運行結(jié)束之后,當前文件夾會自動生成sina_sports.json結(jié)果文

件,該文件內(nèi)容如下圖3-12所示。

9

湖南商務職業(yè)技術學院畢業(yè)設計

圖3-12sina_sports.json文件

4數(shù)據(jù)清洗與處理

4.1數(shù)據(jù)清洗

數(shù)據(jù)清洗是數(shù)據(jù)處理流程中至關重要的一環(huán),它主要負責將原始數(shù)據(jù)中的

雜亂信息進行清理和規(guī)范化,以便后續(xù)的數(shù)據(jù)分析和挖掘能夠順利進行。在讀

取sina_sports.json文件時,首先要剔除字段中的特殊符號。這包括但不限于

標點符號、特殊字符等,因為這些符號會影響后續(xù)數(shù)據(jù)處理和分析的準確性。

通過使用正則表達式或字符串處理方法,可以有效地對這些特殊符號進行過濾

和清除,保留數(shù)據(jù)的純凈性。

將ctime字段格式化成yyyy-mm-dd的日期格式也是數(shù)據(jù)清洗的重要步驟之

一。原始數(shù)據(jù)中的時間戳通常以秒為單位給出,而將其轉(zhuǎn)換為標準的日期格式

可以使得時間信息更易讀和可理解,有利于后續(xù)對時間相關數(shù)據(jù)進行統(tǒng)計和分

析。

數(shù)據(jù)清洗的目的在于使得數(shù)據(jù)更加規(guī)范、準確和易于處理。經(jīng)過數(shù)據(jù)清洗

后的數(shù)據(jù)能夠更好地滿足數(shù)據(jù)分析、挖掘和可視化的需求,提高數(shù)據(jù)處理的效

率和質(zhì)量。

4.2數(shù)據(jù)儲存

將數(shù)據(jù)清洗的結(jié)果文件cleaned_sina_sports.txt保存到MySQL數(shù)據(jù)庫中。

首先需要根據(jù)數(shù)據(jù)字段創(chuàng)建MySQL表,建表語句如下圖4-1所示。

10

湖南商務職業(yè)技術學院畢業(yè)設計

圖4-1創(chuàng)建MySQL表

使用MySQL提供的命令行語句load將cleaned_sina_sports.txt文件導入

到MySQL表中,load執(zhí)行情況如下圖4-2所示。

圖4-2將數(shù)據(jù)導入到MySQL

從上圖可以看到753行數(shù)據(jù)已經(jīng)被成功到的到表中,接下來使用select查

看數(shù)據(jù)的導入情況,如下圖4-3所示。

圖4-3查看數(shù)據(jù)導入情況

4.3編程實現(xiàn)

編寫process_file方法,傳入輸入文件路徑和輸出文件路徑,用于讀取和

寫入文件,代碼如下圖4-4所示。

圖4-4process_file文件

11

湖南商務職業(yè)技術學院畢業(yè)設計

使用open函數(shù)打開輸入文件,并以只讀模式('r')讀取文件內(nèi)容,使用UTF-8

編碼進行解碼。file.readlines()方法將文件內(nèi)容按行讀取并存儲在lines變

量中。

通過列表推導式對每一行數(shù)據(jù)進行清洗處理。清洗操作通過調(diào)用

clean_data函數(shù)實現(xiàn),該函數(shù)用于處理特殊符號、格式化時間等操作,將原始

數(shù)據(jù)進行規(guī)范化處理。清洗后的數(shù)據(jù)存儲在cleaned_data列表中。

使用open函數(shù)再次打開輸出文件,并以寫入模式('w')打開文件,使用UTF-8

編碼進行編碼。file.writelines(cleaned_data)將清洗后的數(shù)據(jù)逐行寫入到輸

出文件中,完成對文件的處理和保存操作。

編寫clean_data函數(shù),用于處理每行json數(shù)據(jù),代碼如下圖4-5所示。

圖4-5clean_data方法

定義main方法,傳入輸入和輸出文件路徑,確保代碼能夠正常執(zhí)行。

圖4-5main方法

5數(shù)據(jù)統(tǒng)計與分析

5.1數(shù)據(jù)準備

對新浪網(wǎng)體育新聞進行數(shù)據(jù)分析可以深入了解不同體育類型的報道量和受

歡迎程度。同時,分析5月份每天發(fā)布的新聞數(shù)量可以揭示新聞發(fā)布的時間規(guī)

律和高峰期。還可以從媒體角度分析,了解各媒體在體育新聞領域的活躍程度

和影響力。另外,對新聞評論量進行分析可以了解讀者對體育新聞的關注程度

12

湖南商務職業(yè)技術學院畢業(yè)設計

和參與度,以及不同新聞主題的熱度。這些數(shù)據(jù)分析可以幫助媒體了解讀者需

求和行業(yè)動態(tài),優(yōu)化新聞報道和服務。

統(tǒng)計各體育類型的新聞數(shù)量的SQL如下圖5-1所示。

圖5-1統(tǒng)計各體育類型的新聞數(shù)量的SQL

統(tǒng)計5月每天發(fā)布新聞的數(shù)量的SQL如下圖5-2所示。

圖5-2統(tǒng)計5月每天發(fā)布新聞的數(shù)量的SQL

統(tǒng)計每個媒體發(fā)布新聞的數(shù)量的SQL如下圖5-3所示。

13

湖南商務職業(yè)技術學院畢業(yè)設計

圖5-3統(tǒng)計每個媒體發(fā)布新聞的數(shù)量的SQL

統(tǒng)計評論量最多的10條新聞的SQL如下圖5-4所示。

圖5-4統(tǒng)計評論量最多的10條新聞的SQL

利用Pyecharts對新浪體育新聞數(shù)據(jù)進行多方面的可視化展示。首先,通

過餅圖展示不同類型體育新聞的比例,呈現(xiàn)體育新聞的分布情況;其次,利用

折線圖展示每天發(fā)布的新聞數(shù)量變化趨勢,從時間維度了解新聞發(fā)布的規(guī)律;

再者,通過空心餅圖展示不同媒體發(fā)布新聞的數(shù)量占比,突出媒體在新聞發(fā)布

中的貢獻;最后,利用柱狀圖展示瀏覽量前10的新聞,直觀展示新聞的熱度和

受歡迎程度。這些可視化圖表不僅可以直觀展示數(shù)據(jù),還能幫助深入了解新聞

的分布、趨勢和熱點,為數(shù)據(jù)分析和決策提供有效支持。

5.2數(shù)據(jù)展示

5.2.1統(tǒng)計各體育類型的新聞數(shù)量

使用pyechart技術繪制各體育類型的新聞數(shù)量餅圖,代碼如下圖5-5所示。

14

湖南商務職業(yè)技術學院畢業(yè)設計

圖5-5各體育類型的新聞數(shù)量餅圖代碼

各體育類型的新聞數(shù)量餅圖如下圖5-6所示。

圖5-6各體育類型的新聞數(shù)量餅圖

中國足球和綜合體育是發(fā)布數(shù)量最多的兩類新聞,分別為285條和312條,

顯示了對于國內(nèi)足球和綜合體育事件的廣泛關注。其他類型如NBA、中國籃球

和國際足球也有一定數(shù)量的新聞發(fā)布,反映了對于不同體育項目的持續(xù)關注和

報道。國內(nèi)足球新聞發(fā)布數(shù)量較高,顯示了國內(nèi)觀眾對于本土足球賽事和球隊

的關注度。國際足球新聞數(shù)量較多,說明國內(nèi)觀眾對于國際足球賽事和球隊也

有一定的關注度。綜合體育類新聞發(fā)布數(shù)量最多,涵蓋了多個體育項目,反映

了對于多樣化體育新聞的需求和關注。

15

湖南商務職業(yè)技術學院畢業(yè)設計

5.2.2統(tǒng)計5月每天發(fā)布新聞的數(shù)量

使用pyechart技術繪制5月新浪體育網(wǎng)媒體發(fā)布新聞的數(shù)量折線圖,代碼

如下圖5-7所示。

圖5-75月新浪體育網(wǎng)媒體發(fā)布新聞的數(shù)量折線圖代碼

繪制5月新浪體育網(wǎng)媒體發(fā)布新聞的數(shù)量折線圖如下圖5-8所示。

圖5-85月新浪體育網(wǎng)媒體發(fā)布新聞的數(shù)量

從數(shù)據(jù)上看,新聞數(shù)量在6號達到了一個較高的峰值,達到了198篇,而

在接下來的幾天逐漸下降。特別是在11號,新聞數(shù)量驟降至63篇,為這段時

間內(nèi)的最低點。這種趨勢受到多種因素的影響。首先,6號是某個特殊事件或

重大賽事的報道高峰,導致新聞數(shù)量激增。而后續(xù)幾天的下降是因為報道重點

轉(zhuǎn)移或者事件減少,新聞產(chǎn)量自然降低。這樣的波動也受到周末等時間因素的

影響。通常,新聞數(shù)量在工作日和休息日會有一定的差異,因為新聞事件和報

16

湖南商務職業(yè)技術學院畢業(yè)設計

道安排會隨著時間和工作日程而變化??傮w來說,這種波動性體現(xiàn)了新聞行業(yè)

的活躍性和多樣性,也反映了新聞報道與時事事件的緊密關聯(lián)。

5.2.3統(tǒng)計每個媒體發(fā)布新聞的數(shù)量

使用pyechart技術繪制媒體發(fā)布新聞的數(shù)量空心餅圖,代碼如下圖5-9所

示。

圖5-9媒體發(fā)布新聞的數(shù)量空心餅圖代碼

媒體發(fā)布新聞的數(shù)量空心餅圖如下圖5-10所示。

圖5-10媒體發(fā)布新聞的數(shù)量空心餅圖

根據(jù)數(shù)據(jù)分析,可以看出不同媒體在發(fā)布新聞方面存在著明顯的差異。新

浪體育_稿費以348篇的數(shù)量領先,顯示了其在體育新聞報道上的較高活躍度和

專業(yè)性。其次是國內(nèi)足球綜合,發(fā)布240篇新聞,也反映了對國內(nèi)足球賽事關

17

湖南商務職業(yè)技術學院畢業(yè)設計

注的廣泛和深度。

其他媒體如新浪體育綜合、新浪體育訊、新浪高爾夫等發(fā)布的新聞數(shù)量相

對較少,集中在特定領域或者專題報道上。而新華社和新浪彩票則在該時間段

內(nèi)發(fā)布了較少的新聞,因為新聞重點不在體育報道上。

5.2.4統(tǒng)計評論量最多的10條新聞

使用pyechart技術繪制新聞評論量柱狀圖,代碼如下圖5-11所示。

圖5-11新聞評論量柱狀圖代碼

新聞評論量柱狀圖如下圖5-12所示。

圖5-12新聞評論量柱狀圖

中國女排16人出征世聯(lián)賽巴西站以6136979次瀏覽量位列第一,顯示了人

們對中國女排的關注度和支持程度。這也反映了中國體育精英團隊在國內(nèi)擁有

廣泛的影響力和支持群體。上海女排官宣俄巴重炮加盟以1596164次瀏覽量緊

18

湖南商務職業(yè)技術學院畢業(yè)設計

隨其后,展

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論