bilbili用戶畫像分析_第1頁
bilbili用戶畫像分析_第2頁
bilbili用戶畫像分析_第3頁
bilbili用戶畫像分析_第4頁
bilbili用戶畫像分析_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

北京理工大學珠海學院2016級畢業(yè)設(shè)計Bilibili視頻網(wǎng)站用戶畫像分析Bilibili視頻網(wǎng)站用戶畫像分析摘要Bilibili,又名嗶哩嗶哩或B站,是中國大陸知名的視頻彈幕網(wǎng)站和最大的年輕人潮流文化娛樂社區(qū)。其主要內(nèi)容基本為ACG(Animation、Comic、Game)和彈幕。作為一個視頻網(wǎng)站,有著不同于其他視頻播放平臺的鮮明風格和互動形式。一直以來,二次元是bilibili用戶的主流,年輕人是bilibili的主要受眾群體。B站內(nèi)容的豐富多樣,因此攜帶有大量的用戶特征信息。根據(jù)用戶在視頻網(wǎng)站上的基本信息及所發(fā)布的視頻信息可推斷用戶的屬性信息(即構(gòu)建用戶畫像)對科學研究和商業(yè)都有著極高的價值。本論文嘗試針對嗶哩嗶哩視頻網(wǎng)站的用戶畫像進行分析研究,主要從角色畫像與行為畫像兩個維度構(gòu)建用戶畫像體系,綜合數(shù)據(jù)分析研究用戶群體的基本信息及喜好變化。根據(jù)數(shù)據(jù)統(tǒng)計網(wǎng)站的嗶哩嗶哩用戶基本信息數(shù)據(jù)分析其角色畫像,再采用網(wǎng)絡(luò)爬蟲技術(shù)獲取嗶哩嗶哩視頻網(wǎng)站的視頻數(shù)據(jù),結(jié)合相關(guān)的科學計算方法綜合分析用戶的行為畫像。最終得出綜合的結(jié)論。關(guān)鍵詞:Bilibili,數(shù)據(jù)挖掘,數(shù)據(jù)分析,用戶畫像

DesignandImplementationofOnlineRecruitmentSystemAbstractBilibili,alsoknownasBilibiliorBilibilistationB,isawell-knownvideobarragewebsiteandthelargestyouthfashioncultureandentertainmentcommunityinmainlandChina.ItsmaincontentsarebasicallyACG(Animation,Comic,Game)andbulletscreen.Asavideowebsite,ithasadistinctstyleandinteractiveformdifferentfromothervideobroadcastingplatforms.Foralongtime,quadratichasbeenthemainstreamofbilibiliusers,andyoungpeoplearethemainaudiencegroupofbilibili.ThecontentofstationBisrichanddiverse,soitcarriesalargeamountofusercharacteristicinformation.Basedontheuser'sbasicinformationonthevideowebsiteandthevideoinformationpublishedbytheuser,theattributeinformationoftheusercanbeinferred(thatis,theuserportraitcanbeconstructed),whichisofgreatvaluetoscientificresearchandbusiness.Thispaperattemptstoanalyzeandstudytheuserportraitofbilibilivideowebsite,andmainlyconstructstheuserportraitsystemfromthetwodimensionsofcharacterportraitandbehaviorportrait,andstudiesthebasicinformationandpreferencesofusergroupsthroughcomprehensivedataanalysis.Accordingtothedatastatisticswebsitebilibiliuserbasicinformationdatatoanalyzetheirroleportrait,andthenusethewebcrawlertechnologytoobtainthevideodataofbilibilivideowebsite,combinedwiththerelevantscientificcomputingmethodstocomprehensivelyanalyzetheuserbehaviorportrait.Finallycomestoacomprehensiveconclusion.Keywords:Bilibili,datamining,dataanalysis,userportrait

目錄一、緒論

一、緒論(一)論文背景及意義1.研究背景Bilibili,又名嗶哩嗶哩或B站,是中國大陸知名的視頻彈幕網(wǎng)站,和最大的年輕人潮流文化娛樂社區(qū)。其主要內(nèi)容其主要的內(nèi)容基本為ACG(Animation、Comic、Game)和彈幕。作為一個視頻網(wǎng)站,有著不同于其他視頻播放平臺的鮮明風格和互動形式。一直以來,二次元是嗶哩嗶哩用戶的主流,年輕人是嗶哩嗶哩的主要受眾群體,盡管較為穩(wěn)定但是受眾范圍小。但是隨著其他視頻網(wǎng)站的收購,合并,發(fā)展,嗶哩嗶哩作為小眾視頻分享網(wǎng)站,資金上也不夠雄厚,因此無法有實力同其他視頻網(wǎng)站競爭。并且,現(xiàn)如今各視頻網(wǎng)站紛紛開發(fā)了彈幕功能,買下進口動漫版權(quán),嗶哩嗶哩的優(yōu)勢漸漸淡化。因此嗶哩嗶哩必須從單純的視頻分享網(wǎng)站向多元化的商業(yè)模式轉(zhuǎn)型。近年來,嗶哩嗶哩開設(shè)了多個如學習,美食,科普,時尚等非傳統(tǒng)ACG文化分區(qū)。除此之外還有新興的直播行業(yè),同時嗶哩嗶哩鼓勵獨創(chuàng),吸引了眾多的非二次元文化用戶的入駐,逐漸成為中國的YouTube。嗶哩嗶哩也被調(diào)侃為“中國最大的學習網(wǎng)站”。近期國內(nèi)疫情的影響,嗶哩嗶哩也成為上海教委指定學習網(wǎng)站之一。盡管嗶哩嗶哩目前仍以游戲作為主要的收入來源,但是隨著發(fā)展,也應(yīng)更加多元化。同時,大數(shù)據(jù)是當今時代的熱詞,其龐大的數(shù)據(jù)量可以通過數(shù)據(jù)的挖掘和分析從而做到對用戶行為的確認和預測。數(shù)據(jù)挖掘與分析這種技術(shù)因此受到企業(yè)和決策者們的愛戴,其主要是基于如機器學習,統(tǒng)計學知識或人工智能等相關(guān)技術(shù),處理業(yè)務(wù)中的海量數(shù)據(jù),將有價值的數(shù)據(jù)提取并進行分析,以保證數(shù)據(jù)資源的合理及充分利用。這種技術(shù)可以幫助企業(yè)做出合理決策,精準營銷,從而降低企業(yè)的運營風險。2.研究意義:大數(shù)據(jù)的時代,各行各業(yè)都追求數(shù)字化服務(wù),精準定位。研究用戶及其喜好的變化是必要的。眾多電商網(wǎng)站都根據(jù)用戶的喜好進行推送,可以提高用戶的忠誠度和收益。這對于嗶哩嗶哩也同樣適用,但是關(guān)于嗶哩嗶哩的用戶畫像并且基于數(shù)據(jù)的分析非常罕見。根據(jù)用戶畫像的分析,可以預測未來的發(fā)展方向,改善當前面臨的問題,幫助嗶哩嗶哩可持續(xù)性發(fā)展。大數(shù)據(jù)分析的意義即通過數(shù)據(jù)對一個企業(yè)運營情況和發(fā)展進行評估,從傳統(tǒng)的定性分析轉(zhuǎn)變?yōu)槎糠治?。明確的數(shù)據(jù)是更加真實有力的證據(jù),這比傳統(tǒng)的定性分析,專家評測等方法更加合理客觀。對于視頻網(wǎng)站來說,用戶的喜好決定了用戶的行為,提高用戶的忠誠度勢必要研究用戶的喜好及其變化。根據(jù)數(shù)據(jù)挖掘技術(shù),獲得真實有效的用戶行為數(shù)據(jù),并對這些數(shù)據(jù)進行分析研究,確定用戶需求和喜好。如通過學習視頻播放的增長率相對較高,可提供更加專業(yè)和系統(tǒng)化的網(wǎng)課合集,并通過同教育機構(gòu)的簽約實行網(wǎng)課直播。盡可能的貼合用戶的需求,構(gòu)建用戶畫像是幫助嗶哩嗶哩確定用戶群體,了解市場,根據(jù)數(shù)據(jù)分析基于發(fā)展建議,幫助嗶哩嗶哩在視頻網(wǎng)站的相互競爭中屹立不倒。(二)用戶畫像概念及研究現(xiàn)狀綜述1.用戶畫像概述用戶畫像就是根據(jù)從用戶的行為信息中提煉出的用戶屬性,這些屬性包括了用戶的偏好等信息,根據(jù)這些標識信息建立用戶的模型,這些模型可以高度概括并且以通俗易懂的形式描述用戶的特征,從而更加容易理解用戶,更加直觀的給人傳遞用戶喜好信息。保證用戶畫像的可靠性,需要滿足用戶畫像的五個條件,即目標,方式,組織,標準,驗證。其分別可解釋為:·目標:用戶畫像調(diào)查所針對的人群,即需描述其特征的人或者需要分析的人?!し绞剑嚎杀环譃樾问交侄魏头切问交侄?。形式化手段是使用數(shù)據(jù)描述和構(gòu)畫用戶的形象;非結(jié)構(gòu)化手段則是使用文字,語言,圖像,視頻等方式對用戶進行描述。·組織:結(jié)構(gòu)化或非結(jié)構(gòu)化的組織形式?!藴剩翰捎贸WR,共識再到知識體系漸進的過程對用戶進行描述,從而認識用戶。·驗證:數(shù)據(jù)來源真實有效,可以被推理和檢驗。同時用戶畫像還包含不同的種類,如角色畫像,行為畫像。角色畫像·角色畫像包括用戶的基本屬性,常見的屬性有名稱,性別,年齡,職業(yè),地域等相關(guān)屬性,其數(shù)據(jù)均是客觀存在的。其主要偏重于用戶的定位,確定用戶形象的分析·行為畫像則是根據(jù)以往數(shù)據(jù)總結(jié)歸納得到的用戶行為的描述和預測,其數(shù)據(jù)會根據(jù)用戶不同的行為喜好發(fā)生變化。數(shù)據(jù)是行為畫像的關(guān)鍵,行為畫像充分的體現(xiàn)了數(shù)據(jù)的價值和意義。2.用戶畫像研究現(xiàn)狀 用戶畫像目前在國內(nèi)也被廣泛的的應(yīng)用于互聯(lián)網(wǎng)及電商等領(lǐng)域。企業(yè)通過分析歷史用戶的信息,從而得到用戶偏好,能供作為精準營銷的數(shù)據(jù)支持。例如手機短信,郵件,廣告推送等營銷行為。同時在用戶統(tǒng)計研究,企業(yè)數(shù)據(jù)挖掘,產(chǎn)品服務(wù),不同行業(yè)報告中也有著舉足輕重的作用。同時用戶畫像也可以用于挖掘潛在用戶。用戶畫像的應(yīng)用場景較多,通過挖掘用戶的興趣,偏好等特征,向用戶推薦適合的產(chǎn)品,從而提升產(chǎn)品服務(wù)且為企業(yè)待帶來盈利。在國內(nèi)已經(jīng)有不少的成果案例:比如段云峰、吳唯寧、李劍威等人在數(shù)據(jù)倉庫及其電信領(lǐng)域的相關(guān)應(yīng)用中,通過運營數(shù)據(jù)倉庫的方法,對電信行業(yè)的服務(wù)客戶進行了存儲管理[5];葉松云也在我國電信行業(yè)的客戶流失管理相關(guān)建模分析及應(yīng)用的研究中,通過對電信行業(yè)的流失客戶進行模型建構(gòu),從而管理這個流失模型來有效控制客戶的流失[6]。高玉龍[3]在電子商務(wù)網(wǎng)站的用戶畫像研究中,通過獲取用戶數(shù)據(jù)并將用戶屬性標簽化,再定義了相關(guān)規(guī)則,以此來構(gòu)建用戶畫像模型。用戶畫像適用范圍極廣,無論是新用戶的引流,潛在用戶的挖掘,再到老用戶的培養(yǎng)以及失流用戶的回流等工作都卓有成效。因此對于處于轉(zhuǎn)型期的bilibili視頻網(wǎng)站來說,通過對用戶畫像的描述可以幫助企業(yè)快速定位當前用戶,挖掘其潛在用戶,幫助企業(yè)發(fā)展。(三)研究內(nèi)容及方法1.研究內(nèi)容由于嗶哩嗶哩視頻網(wǎng)站的用戶隱私限制,無法獲取較全面,且有分析價值的用戶數(shù)據(jù),因此本文研究的角色畫像數(shù)據(jù)來自艾瑞數(shù)據(jù),行為畫像數(shù)據(jù)為自主爬取的用戶在嗶哩嗶哩視頻網(wǎng)站的在線行為數(shù)據(jù),即視頻的相關(guān)信息,如(如視頻名稱,視頻分類,視頻發(fā)布人,視頻播放量等屬性),這些數(shù)據(jù)可以很好的展現(xiàn)嗶哩嗶哩視頻網(wǎng)站不同用戶的喜好,以及這些喜好根據(jù)時間的變化而發(fā)生改變。視頻反應(yīng)的數(shù)據(jù)情況可以為用戶畫像的模型構(gòu)建提供良好的屬性選擇。再根據(jù)構(gòu)建好的模型得到嗶哩嗶哩視頻網(wǎng)站用戶畫像?;谝陨戏治龅玫降挠脩舢嬒窨梢詭椭逦ㄎ挥脩?,幫助企業(yè)發(fā)展。將研究內(nèi)容和研究方法區(qū)別開。將研究內(nèi)容和研究方法區(qū)別開。研究內(nèi)容是研究對象和想得到的研究結(jié)果等。研究方法是使用的技術(shù)手段、途徑等。2.研究方法本文主要通過對bilibili用戶在線的行為數(shù)據(jù),用統(tǒng)計學及網(wǎng)絡(luò)爬蟲技術(shù)進行數(shù)據(jù)挖掘與分析,構(gòu)建合理的用戶畫像模型。為能夠達到研究的目標,擬采用一下的研究方式:文獻查閱,通過查閱bilibili發(fā)展,用戶畫像分析,數(shù)據(jù)挖掘及分析等包含相關(guān)關(guān)鍵詞的文獻,了解國內(nèi)對于bilibili的用戶分析及發(fā)展現(xiàn)狀,國內(nèi)互聯(lián)網(wǎng)用戶畫像分析現(xiàn)狀,以及一些用戶畫像分析的維度與方法。以此為基礎(chǔ)進行bilibili用戶畫像的概念模型。通過學習python網(wǎng)絡(luò)爬蟲技術(shù),將原始數(shù)據(jù)收集存入mongoDB后再利用python對數(shù)據(jù)進行數(shù)據(jù)的預處理,即數(shù)據(jù)清洗。主要處理爬蟲過程中爬取的無效數(shù)據(jù),空數(shù)據(jù),以及亂碼數(shù)據(jù)。盡可能的保證數(shù)據(jù)的準確性及有效性。通過獲取的視頻數(shù)據(jù)定義用戶畫像的評價維度,確定合理的用戶畫像屬性維度,從而建立準確的用戶畫像模型。利用數(shù)據(jù)分析的工具及可視化的展現(xiàn),動態(tài)的數(shù)據(jù)分析結(jié)果勾畫出用戶群體在bilibili視頻網(wǎng)站的用戶需求變化,從而準確的定義用戶畫像模型。從而對bilibili用戶畫像模型進行可視化的展示。通過科學數(shù)據(jù)分析方法如層次分析理論,對用戶喜好數(shù)據(jù)根據(jù)行為表現(xiàn)進行綜合描述,得到用戶幾年間的喜好變化。(四)技術(shù)工具的選擇系統(tǒng)運行于Windows平臺;系統(tǒng)的JavaJDK版本為1.8;系統(tǒng)編程軟件基于PyCharm及Anaconda3-5.3.1下的JupyterNotebook編程語言使用python3.7。數(shù)據(jù)庫采用mongoDB1.網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲[1](webcrawler),也被稱為網(wǎng)絡(luò)蜘蛛[2](spider),會從Internet上下載內(nèi)容并編制索引。爬蟲程序通常經(jīng)過編程,可以訪問其所有者提交的新站點或更新站點??梢杂羞x擇地訪問整個站點或特定頁面并對其建立索引。位于頁面上時,會收集有關(guān)頁面的信息,例如copy和meta標簽。然后,將頁面存儲在索引中,算法可以對其中包含的單詞進行排序,以便以后為用戶獲取信息。URL,即統(tǒng)一資源定位符(UniformResourceLocator),我們也稱為網(wǎng)絡(luò)地址。爬蟲技術(shù)一般以初始的一個網(wǎng)頁URL為起點,獲取其URL列表,運行時連續(xù)的把獲取到的新的URL加入待爬行組,通過遵循爬取的策略不斷的從待爬取的URL爬行組中選出新的URL進行爬取,直到滿足相應(yīng)的條件,爬取遇到阻礙,或者執(zhí)行者手動進行停止操作才停止爬行。通過網(wǎng)絡(luò)爬蟲獲取的網(wǎng)頁數(shù)據(jù)中有兩種數(shù)據(jù)類型,即結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù),常見的結(jié)構(gòu)化數(shù)據(jù)如JSON格式,是一種特定格式的字符串形式,類似于字典。JSON格式易于電腦的生成和解析,通過相應(yīng)的關(guān)鍵字可得到對應(yīng)的數(shù)據(jù)信息[7]。而非結(jié)構(gòu)化數(shù)據(jù)基本可以分為兩種文本格式與HTML格式。本文從bilibili視頻網(wǎng)站爬取的數(shù)據(jù)信息則是機構(gòu)化數(shù)據(jù)JSON格式存存入MongoDB。2.mongoDBMongoDB(來自于英文單詞“Humongous”,中文含義為“龐大”)是可以應(yīng)用于各種規(guī)模的企業(yè)、各個行業(yè)以及各類應(yīng)用程序的開源數(shù)據(jù)庫。作為一個適用于敏捷開發(fā)的數(shù)據(jù)庫,MongoDB的數(shù)據(jù)模式可以隨著應(yīng)用程序的發(fā)展而靈活地更新。與此同時,它也為開發(fā)人員提供了傳統(tǒng)數(shù)據(jù)庫的功能:二級索引,完整的查詢系統(tǒng)以及嚴格一致性等等[8]?,F(xiàn)如今傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(如MySQL)面對于數(shù)據(jù)操作的數(shù)據(jù)的高并發(fā)讀寫,海量數(shù)據(jù)的高效儲存和訪問,數(shù)據(jù)庫的高擴展和可用性的需求以及應(yīng)用Web2.0的網(wǎng)站需求應(yīng)對代價較高。MongoDB在當前的社交場景,游戲場景,物流場景,物聯(lián)網(wǎng)場景以及直播等場景下的應(yīng)用及其廣泛。例如:微信用戶朋友圈的相關(guān)信息的存儲,通過地理位置索引實現(xiàn)的附近的人,漂流瓶,定位等功能。其具有可以寫入海量數(shù)據(jù),且可以頻繁的寫入操作。對于非強事務(wù)的數(shù)據(jù)存取可以及時應(yīng)對數(shù)據(jù)變化。MongoDB數(shù)據(jù)存儲是松散的,不需要在存儲時就確定數(shù)據(jù)模型,可以很好的支持可擴展性高。3.python數(shù)據(jù)分析Python在數(shù)據(jù)交互與分析,探索性計算以及數(shù)據(jù)可視化等方面都有非常多元化的庫和技術(shù)交流的社區(qū),除此之外在python的numpy、pandas、matplotlib、等一系列優(yōu)秀的庫和工具在數(shù)據(jù)分析中經(jīng)常用到,使用起來非常的方便快捷,功能完全,可以滿足數(shù)據(jù)分析的各種操作,對海量數(shù)據(jù)的分析效率也很高。因此備受各種行業(yè)數(shù)據(jù)分析師的喜愛。JupyterNoteBook(以前稱為IPythonNoteBook),是一款免費的開源的交互式web工具。它提供了一個用戶和IPython內(nèi)核交互的一個界面,同時它又是一個交互式的筆記本(可以保存你的源代碼、運行結(jié)果),集文本(markdown)、代碼、圖像、公式與一體的python的web界面。在普通的pythonshell或者IDE(集成開發(fā)環(huán)境)如Pycharm中進行數(shù)據(jù)分析,過程繁瑣。通常代碼和文檔不能同時進行,如獲取數(shù)據(jù)分析中間結(jié)果數(shù)據(jù),則需將代碼重新運行,再將結(jié)果編輯成文檔。JupyterNoteBook可以邊進行代碼的編寫,邊輸出敘事性文檔,界面美觀。

(五)論文結(jié)構(gòu)本文共分為6個章節(jié),主要研究了基于數(shù)據(jù)挖掘技術(shù)構(gòu)建用戶畫像并分析,結(jié)合分析得出結(jié)論并給予建議。細節(jié)如下:一、緒論,主要介紹了本次研究的背景,意義,用戶畫像的描述及研究現(xiàn)狀,以及本文的研究內(nèi)容及方法。可行性分析,主要從社會及次啊用的相關(guān)技術(shù)層面進行分析確保研究可行。三、數(shù)據(jù)的獲取及處理,主要闡述了如何應(yīng)用爬蟲工具將數(shù)據(jù)從原始網(wǎng)站爬取。并對爬取數(shù)據(jù)到的數(shù)據(jù)如何存儲及處理進行了詳細的描述。用戶畫像的構(gòu)建,確定用戶畫像的維度及其指標的選擇,并介紹數(shù)據(jù)評估的方法。根據(jù)用戶畫像的維度進行用戶畫像分析分析六、根據(jù)分析結(jié)果得出結(jié)論,并給予相應(yīng)的建議。

二、可行性分析本論文嘗試針對嗶哩嗶哩視頻網(wǎng)站的用戶畫像進行分析研究,主要從角色畫像與行為畫像兩個維度構(gòu)建用戶畫像體系,結(jié)合爬蟲技術(shù)手段及科學計算分析方法綜合分析用戶的行為畫像。最終得出綜合的結(jié)論。(一)社會可行性 利用用戶畫像分析制定營銷策略,或者防止用戶流失等在國內(nèi)外并不少見。通過查閱用戶畫像的相關(guān)分析發(fā)現(xiàn),互聯(lián)網(wǎng)行業(yè)常以電商或者社交平臺相關(guān)的論文或者數(shù)據(jù)分析較為常見,各種分析的手段也比較完善。對于4G乃至未來的5G時代所帶來的大量新型的互聯(lián)網(wǎng)視頻行業(yè)的數(shù)據(jù)分析相對較少,知網(wǎng)關(guān)于嗶哩嗶哩視頻網(wǎng)站的分析多數(shù)為角色畫像分析,缺少數(shù)據(jù)的支撐和預測。因此本文從用戶畫像的兩種模式即角色畫像和行為畫像對嗶哩嗶哩視頻網(wǎng)站的用戶畫像進行較為全面的分析,結(jié)合相關(guān)互聯(lián)網(wǎng)社交平臺用戶畫像分析的相關(guān)方法。這類的分析在行業(yè)中也起到重要的作用,可以幫助嗶哩嗶哩視頻網(wǎng)站更加清晰的認識其角色畫像以及行為畫像,即用戶群體隨著時間的變化而發(fā)生的數(shù)據(jù)變化,喜好變化等。因此本次嗶哩嗶哩用戶畫像分析研究具有較高的社會價值,也具有可行性。(二)技術(shù)可行性Python是一款強大的數(shù)據(jù)分析工具,對于數(shù)據(jù)分析初學者可在短期內(nèi)掌握技術(shù),代碼量小。python大量的庫為數(shù)據(jù)分析提供了完整的工具集,相比spss及excel,對于大量數(shù)據(jù)的處理能力強,且運行速度快。比起MATLAB、R語言等其他主要用于數(shù)據(jù)分析語言,python語言功能更加健全。Python也是目前較為主流的編程語言之一,同時有著豐富的數(shù)據(jù)庫以及活躍的社區(qū),遇到問題基本可以在網(wǎng)絡(luò)尋找解決方法。因此運用python來完成數(shù)據(jù)挖掘到分析是可行的。

三、數(shù)據(jù)獲取及管理本章中所有的實驗數(shù)據(jù)均來自于。(一)數(shù)據(jù)的爬取1.數(shù)據(jù)獲取模塊BilibiliAPI:b站的API是其向開發(fā)者提供的獲取數(shù)據(jù)的網(wǎng)絡(luò)接口,通過API可以獲取部分數(shù)據(jù)。但b站對與反爬蟲機制對的ip訪問頻率存在限制,因此需要休眠,或擁有大量IP。為了兼顧效率和穩(wěn)定,購置大量ip存放于txt文件中,在進行爬蟲時對其調(diào)用。本文基于python的爬蟲工具對數(shù)據(jù)進行抓取。數(shù)據(jù)獲取:本文的數(shù)據(jù)獲取利用的時開源庫requests(/kennethreitz/requests/)實現(xiàn)。requests是一個基于python網(wǎng)絡(luò)模塊urllib3開發(fā)的http客戶端庫,相比于python標準庫urllib,它提供了更方便的api接口,支持http連接保持和連接池,支持cookie保持繪畫,支持上傳文件,支持自動確定相應(yīng)內(nèi)容的編碼,支持國際化的url(如帶中文參數(shù)的url鏈接)和post數(shù)據(jù)自動編碼。由于bilibili視頻網(wǎng)站對于同一IP頻繁訪問的防護機制,且2014-2019年視頻總量超過8000w,本地內(nèi)存無法完成數(shù)據(jù)全部爬取。本文采用系統(tǒng)抽樣的方法對bilibili的視頻信息進行抽取。系統(tǒng)抽樣也可以被稱作等距抽樣,SYS抽樣等。這種方法是在一個整體中,首先依據(jù)樣本的整體容量確定抽選樣本的間隔單位,再隨機開始進行抽樣,抽樣按照確定的間隔單位抽取對應(yīng)的樣本,直到?jīng)]有樣本以進行抽取。這種方式對于本文的研究中較大數(shù)據(jù)量且無法完全獲取的情況有著較為科學的幫助。本文主要以url前綴+視頻的av號碼(bilibili視頻網(wǎng)站視頻的唯一確定標識)進行數(shù)據(jù)的獲取,采用系統(tǒng)抽樣的方法,既定每間隔1000個號碼進行一次數(shù)據(jù)的爬取。從html頁面中后獲取到的相關(guān)視頻的數(shù)據(jù)包括:視頻名稱,發(fā)布人,視頻類別,發(fā)布時間,觀看數(shù),點贊數(shù),投幣數(shù),收藏數(shù)等信息。每個視頻有唯一標識的aid,視頻的名稱即為視頻在上傳時對其的命名。每個視頻有視頻描述,視頻描述可以為無,即沒有信息。每個視頻信息都包含發(fā)布視頻的用戶信息,即mid和name。視頻相關(guān)信息還包括發(fā)布的時間,可以以此來進行后續(xù)的動態(tài)分析。視頻的類別是該視頻所處的分區(qū),此處為小分區(qū),對應(yīng)分分區(qū)號,由于該網(wǎng)頁不包括大分區(qū)的信息,后期需要對其進行分類處理。視頻的觀看數(shù)即播放量,點贊數(shù)量,投幣數(shù)量,收藏數(shù)量是該視頻的收益信息。2.控制模塊對爬蟲工作進行控制,包括任務(wù)的發(fā)布和回收,控制數(shù)據(jù)流大小,頁面的刷新和跳轉(zhuǎn),數(shù)據(jù)的儲存等。任務(wù)發(fā)布:給爬蟲模塊分配url,獲取從url返回的數(shù)據(jù),部分代碼如圖3.1.1所示。并存入mongoDB數(shù)據(jù)庫部分代碼如圖3.1.2所示:圖3.1.1獲取數(shù)據(jù)部分代碼圖3.1.2保存數(shù)據(jù)部分代碼數(shù)據(jù)流控制:控制爬取的數(shù)據(jù)量以滿足分析需求,部分代碼如圖3.1.3所示。采用pool進行多線程程操作,節(jié)省數(shù)據(jù)爬取的時間。獲取到數(shù)據(jù)后交由處理模塊處理。部分代碼如圖3.1.4所示:圖3.1.3獲取數(shù)據(jù)控制部分代碼圖3.1.4進程池部分代碼頁面刷新和跳轉(zhuǎn):設(shè)置timeout防止訪問時間過長造成假死。數(shù)據(jù)保存:首先連接mongoDB數(shù)據(jù)庫將response的數(shù)據(jù)不進行轉(zhuǎn)化處理直接以JSON格式存儲進mongoDB。部分代碼如圖3.1.5所示:圖3.1.5數(shù)據(jù)保存部分代碼(二)數(shù)據(jù)清洗1.數(shù)據(jù)庫管理MongoDB是一個文檔型數(shù)據(jù)庫,因此可以存放xml、json、bson類型的數(shù)據(jù)。這對于本次研究爬取的原始數(shù)據(jù)的存儲就非常的方便,且存儲迅速。本文共創(chuàng)建了兩個數(shù)據(jù)庫VideosData,VideosDataFinal。VideosData:為了提高爬取信息的存儲效率,首先將爬取的源數(shù)據(jù)直接以json形式存儲進mongoDB數(shù)據(jù)庫,其形式如表3.2.1所示:表3.2.1VideosData數(shù)據(jù)庫信息字段名稱類別描述_id

ObjectIdDocuments自生成的_id,作為主鍵code

Int32是否可以查找到視頻數(shù)據(jù),無數(shù)據(jù)時為‘404’,有數(shù)據(jù)為‘0’message

String是否可以查找到視頻數(shù)據(jù),無數(shù)據(jù)為‘啥都木有’,有數(shù)據(jù)為‘0’ttlInt32IP包被路由器丟棄之前允許通過的最大網(wǎng)段數(shù)量data

Object字典,存放視頻信息數(shù)據(jù)VideosDataFinal:該數(shù)據(jù)庫是將數(shù)據(jù)進行預處理,提取VideosData數(shù)據(jù)庫中有用的字段信息,將其從新組合存入新的數(shù)據(jù)庫VideosDataFinal,方便后續(xù)數(shù)據(jù)的使用和分析。如表3.2.2所示:表3.2.2VideosDatFinal數(shù)據(jù)庫信息字段名稱類別描述_id

ObjectIdDocuments自生成的_id,作為主鍵aid

Int32視頻idview

Int32視頻的播放數(shù)量title

String視頻的名稱tidInt32視頻所投放分區(qū)的編號tnameString視頻所投放分區(qū)的名稱pubdataString視頻的發(fā)布時間pubdata_y

String視頻發(fā)布時間所在年份midInt32發(fā)布視頻的用戶的idnameString發(fā)布視頻的用戶的昵稱danmakuInt32視頻擁有的彈幕數(shù)量replyInt32視頻擁有的評論數(shù)量favoriteInt32該視頻被收藏的次數(shù)coinInt32該視頻收到的bilibili硬幣的數(shù)量like

Int32該視頻收到的點贊的數(shù)量share

Int32該視頻被分享的次數(shù)2.數(shù)據(jù)處理在本小節(jié)中,我將對實驗中的數(shù)據(jù)預處理的方法進行描述。在bilibili的眾多用戶信息,視頻信息中,存在大量的無效數(shù)據(jù)。因為數(shù)據(jù)量大,實際的數(shù)據(jù)會受到噪聲,缺失值和不一致數(shù)據(jù)的影響。低質(zhì)量的數(shù)據(jù)將會導致低質(zhì)量的挖掘結(jié)果這些數(shù)據(jù)如不加以處理就放入實驗中則會干擾實驗,影響分析結(jié)果。本文的數(shù)據(jù)預處理流程如圖3.2.1所示:圖3.2.1數(shù)據(jù)處理流程從bilibili視頻網(wǎng)站獲取的視頻數(shù)據(jù)以aid進行查詢依據(jù),部分視頻如果作者或者其他行為將視頻刪除后,搜索aid則不能獲取到視頻相關(guān)信息,因此在數(shù)據(jù)獲取階段就存在大量的無效數(shù)據(jù)。盡管沒有視頻信息,但仍有返回值可以被存進數(shù)據(jù)庫當中,在數(shù)據(jù)庫中顯示如圖3.2.2所示:圖3.2.2無視頻信息返回數(shù)據(jù)獲取到網(wǎng)頁數(shù)據(jù)后,數(shù)據(jù)庫中的數(shù)據(jù)存在大量的無效數(shù)據(jù)及無關(guān)屬性,因此對數(shù)據(jù)進行二次處理。進行二次處理的原因是,在數(shù)據(jù)獲取時對數(shù)據(jù)進行篩選和過濾爬蟲爬取的速度慢。同時訪問網(wǎng)址,獲取數(shù)據(jù),轉(zhuǎn)換數(shù)據(jù)并進行存儲的效率低,因此采用對已經(jīng)爬取到保存的數(shù)據(jù)進行再加工。例如數(shù)據(jù)源的時間是以時間戳(pubdate:1577767986)的形式保存,將其轉(zhuǎn)化成正常的時間格式(pubdate:"2019-12-3112:53:06"),并且再分析時主要以年份進行橫向的分析,也需要將年份提取保存。部分代碼如圖3.2.3所示:圖3.2.3轉(zhuǎn)換時間戳代碼源數(shù)據(jù)中的無效數(shù)據(jù),即被刪除或者屏蔽的視頻所返回的信息值也需要過濾掉,在從mongoDB讀取數(shù)據(jù)的的時候進行filter篩選操作,無效信息的massage為“啥也木有”,而有object返回的massage為“0”,因此找到massage為“0”的數(shù)據(jù)進行提取。部分代碼如圖3.2.4:圖3.2.4篩選有視頻信息數(shù)據(jù)代碼將數(shù)據(jù)庫原始數(shù)據(jù)進行轉(zhuǎn)化后的數(shù)據(jù)文件保存為csv文件方便在jupyternotebook讀取打開。打開存在數(shù)據(jù)格式轉(zhuǎn)換導致的數(shù)據(jù)異常,無法被jupyternotebook讀取從而報錯。經(jīng)網(wǎng)絡(luò)問題解決方法查找并未找到其他合適的解決方案,因此使用“error_bad_lines=False”對錯誤數(shù)據(jù)進行跳過。首先確認數(shù)據(jù)是否正常獲取,展示數(shù)據(jù)信息如圖3.2.5所示:圖3.2.5視頻數(shù)據(jù)信息視頻的屬性有兩種狀態(tài),可為空,不可為空。播放數(shù)量(view),彈幕數(shù)量(danmaku),回復數(shù)量(reply),收藏數(shù)量(favorite),投幣數(shù)量(coin),點贊數(shù)量(like),分享數(shù)量(share)可以為空值。視頻名稱(title),視頻分類(tname),發(fā)布時間(pubdate),發(fā)布人(name)等屬性不可為空。因此翠玉不能為空的屬性要進行缺失值的查詢和剔除,此處以屬性為例,部分代碼如圖3.2.6所示:圖3.2.6處理缺失值代碼

四、基于屬性用戶畫像構(gòu)建(一)用戶畫像的維度 對視頻網(wǎng)站進行用戶畫像的分析,主要從兩方面:行為畫像和角色畫像?!そ巧嬒癜ㄓ脩舻幕緦傩?,常見的屬性有名稱,性別,年齡等相關(guān)屬性,其數(shù)據(jù)均是客觀存在的,可以對用戶形象有一個大致的定義?!ば袨楫嬒駝t是根據(jù)以往數(shù)據(jù)總結(jié)歸納得到的用戶行為的描述和預測,其數(shù)據(jù)會根據(jù)用戶不同的行為喜好發(fā)生變化。本文的行為畫像分析的數(shù)據(jù)主要來自于用戶在嗶哩嗶哩觀看視頻的不同數(shù)據(jù),可以通過分析用戶觀看不同類型視頻的相關(guān)行為情況分析得出用戶的行為畫像,如圖4.1.1所示。圖4.1.1用戶畫像維度(二)用戶畫像的維度指標的選擇1.角色畫像指標選擇嗶哩嗶哩視頻網(wǎng)站記錄了關(guān)于用戶的基本信息,包括昵稱,生日,性別等信息,這些信息客觀存在,不會因為用戶在嗶哩嗶哩的觀看行為而發(fā)生改變,可以直接的描述使用嗶哩嗶哩視頻網(wǎng)站觀看視頻的用戶形象。例如:昵稱為老番茄的用戶,性別男性,年齡23歲,長期生活于上海,是嗶哩嗶哩視頻網(wǎng)站首個擁有1000w粉絲的up主。根據(jù)嗶哩嗶哩視頻網(wǎng)站記錄的用戶基本數(shù)據(jù),本文主要選取了性別,年齡,地域三個指標進行角色畫像的分析,如圖4.1.2所示。 圖4.1.2角色畫像指標2.行為畫像指標選擇嗶哩嗶哩視頻網(wǎng)站主要的用戶行為是觀看不同種類的視頻,視頻則記錄了不同的信息,包括其所屬的分區(qū),投放的時間,播放量,點贊投幣量,彈幕評論量等一系列的嗶哩嗶哩用戶行為信息。本文為了確定用戶行為畫像,需要確定視頻的不同屬性,以及對應(yīng)的行為數(shù)據(jù)進行綜合評價,如圖4.2.1所示。例如:游戲類視頻在2014年播放量位居所有視頻類別第一名,其點贊總和超過1000w,用戶收藏次數(shù)最多。圖4.2.1行為畫像偏好及行為指標因此本文將視頻屬性主要分為三個大類即二次元,2.5次元,三次元。和十六個視頻分區(qū)。按照嗶哩嗶哩視頻網(wǎng)站的分類,十六個分區(qū)按照實際情況分類匯總為三個分區(qū),如表4.2.1所示:表4.2.1三大視頻偏好分類屬性劃分具體類別二次元游戲,動畫,番劇,國創(chuàng)2.5次元音樂,舞蹈,鬼畜三次元生活,娛樂,影視,科技,時尚,數(shù)碼,紀錄片,電視劇,電影由于嗶哩嗶哩視頻所包含的信息并沒有分區(qū)數(shù)據(jù),而是記錄了不同大分區(qū)下的小分區(qū)編號和名稱。因此,按照嗶哩嗶哩視頻網(wǎng)站官方分組,對小分區(qū)的分類進行匯總。視頻分類將依據(jù)嗶哩嗶哩劃分的類別分為:番劇,國創(chuàng),數(shù)碼,生活,鬼畜,時尚,放映廳,紀錄片,動畫,音樂,舞蹈,游戲,科技,娛樂,影視,電影,電視劇。其對應(yīng)的小分區(qū)如表4.2.2所示。表4.2.2小分區(qū)對應(yīng)的大分區(qū)信息大分區(qū)小分區(qū)番劇連載動畫,完結(jié)動畫,資訊,官方延伸國創(chuàng)國產(chǎn)動畫,國產(chǎn)原創(chuàng)相關(guān),布袋戲,動態(tài)漫·廣播劇動畫短片·手書·配音,MAD·AMV,MMD·3D,綜合音樂演奏,MV,音樂現(xiàn)場,音樂綜合原創(chuàng)音樂,翻唱,VOCALOID·UTAU,電音舞蹈中國舞,舞蹈綜合,宅舞,街舞,明星舞蹈,舞蹈教程游戲手機游戲,網(wǎng)絡(luò)游戲,單機游戲,電子競技,桌游棋牌,GMV,音游,MUGEN科技趣味科普人文,野生技術(shù)協(xié)會,演講·公開課,星海,機械,汽車數(shù)碼手機平板,電腦裝機,攝影攝像,影音智能生活手工,繪畫,運動,搞笑,日常,美食圈,動物圈,其他鬼畜鬼畜調(diào)教,音MAD,人力VOCALOID,教程演示時尚美妝,服飾,健身,T臺,風向標娛樂影視雜談,影視剪輯,短片,預告·資訊,特攝用戶的行為數(shù)據(jù)主要表現(xiàn)為播放,點贊,投幣,收藏,轉(zhuǎn)發(fā),評論六種形式。此外,選取的了視頻投稿年份的數(shù)據(jù)指標,視頻年限將按照間隔1年進行分組,即(2014,2015,2016,2017,2018,2019),方便后續(xù)對行為數(shù)據(jù)的縱向分析。(三)評估方法本文涉及的屬性指標因受到多種行為指標的影響,因此選擇采用模糊評價法。模糊評價法是一種基于模糊數(shù)學的綜合\o"評標"評標方法。該綜合評價法根據(jù)模糊數(shù)學的隸屬度理論把定性評價轉(zhuǎn)化為定量評價,即用模糊數(shù)學對受到多種因素制約的事物或?qū)ο笞龀鲆粋€總體的評價。可以將行為數(shù)據(jù)很好的進行量化,從而將模糊的確定關(guān)系變?yōu)槊鞔_的數(shù)據(jù)對不同屬性進行評估,從而得到更加科學合理的用戶喜好分析結(jié)果。1.構(gòu)建指標體系根據(jù)上述確定的屬性維度和行為維度的指標設(shè)定,用戶的喜好是由屬性維度進行分類,確定用戶不同類型的喜好則由行為維度指標進行確定。因此評估表現(xiàn)我們定義為U,被評估的評估集稱為V={v1,v2,v3…vn},評估集合中的待評估數(shù)據(jù)需要相應(yīng)的權(quán)重,反應(yīng)評估集合中數(shù)據(jù)的重要程度,一般采用專家評估法或頻數(shù)統(tǒng)計法等方法。其表現(xiàn)為W={w1,w2,w3…wn}。則分析的數(shù)據(jù)表現(xiàn)U=v1w1+v2w2+v3w3+…+vnwn2.評估指標的權(quán)重確定采用層次分析理論,將確定的行為指標實現(xiàn)科學合理的由定性到定量分析的結(jié)果。采用此方法可以更加直觀的評估各個行為指標的重要程度。為將定性指標轉(zhuǎn)化為定量指標,20世紀70年代Saaty等美國數(shù)學家首次使用九級比例標度的方法如表4.3.1所示,將定性數(shù)據(jù)轉(zhuǎn)化為定量的評估矩陣表4.3.1九級比例標度標度重要程度說明1兩個元素互相比較時,重要程度相同3兩個元素互相比較時,前者重要5兩個元素互相比較時,前者很重要7兩個元素互相比較時,前者明顯重要9兩個元素互相比較時,前者特別重要2,4,6,8兩個元素互相比較時,重要程度介于1,3,5,7,9之間的情況假設(shè)指標S1和指標S2之間進行比較,得到的比較值為aij,那么S2與S1的比較值則為aji=1/aij,由此便可以根據(jù)九級比例標度的方法得到相應(yīng)的權(quán)重判斷的矩陣。 根據(jù)判斷矩陣,仍需要采取方法將矩陣進一步計算為確定的權(quán)重值。本文采用方法為,首先將判斷矩陣A的列向量或者行向量進行標準化,然后再對標準化后矩陣中的各列數(shù)據(jù)或者各行數(shù)據(jù)進行平均值的求取,其運算公式(4-3)如下公式(4-3)權(quán)重計算公式在分析時根據(jù)此公式可得出權(quán)重向量W=(w1,w2,w3…wn)此種方法在過去的用戶數(shù)據(jù)分析研究中有確實為一種綜合且相對合理的計算模型,采用此種方法確定指標權(quán)重可以科學的將六種不同的用戶行為方式的數(shù)據(jù)進行綜合的評價,且以數(shù)據(jù)的形式直觀的表現(xiàn)其不同屬性數(shù)據(jù)結(jié)合后的整體數(shù)據(jù)。除此之外,九級比例標度方法雖然可以很好的量化定性的分析,但是其重要程度仍需在后期分析中進行合理的調(diào)整與改進,避免由于某屬性評估數(shù)量級較大而影響整體分析。

五、嗶哩嗶哩用戶畫像分析(一)角色畫像分析圖5.1.1嗶哩嗶哩用戶男女比例從性別方面來看,如圖5.1.1所示,嗶哩嗶哩擁有54.79%的男性用戶以及45.21%的女性用戶。性別比例相差并不大。說明嗶哩嗶哩視頻網(wǎng)站的視頻內(nèi)容適合于不同性別的人群。不僅吸引男性用戶的觀看,女性也有相應(yīng)的視頻可以提供。擁有較為全面的性別受眾。圖5.1.2嗶哩嗶哩用戶年齡分布從年齡數(shù)據(jù)來看,如圖5.1.2所示,19-24歲青年群體用戶使用最多,占總體的35.19%。24歲以下的用戶為43.23%接近半數(shù)。30歲以下的用戶占68.88%。并且可以看出年齡越大的用戶使用嗶哩嗶哩則越少。從以上數(shù)據(jù)可以看出嗶哩嗶哩視頻網(wǎng)站的主要用戶為青少年及年輕的工作人員,這類人群對新鮮事物有巨大的好奇心和包容度,因此對于嗶哩嗶哩類型豐富的視頻接受度高。同時這個年齡的用戶是ACG文化的主流用戶,年輕人也喜歡看動畫,動漫和玩游戲。對于這類人群,其生活壓力相比于較大年齡的人群有更多的時間和精力觀看視頻和制作視頻,同時也緊隨潮流能夠抓住當下的熱點,記錄和分享自己的生活,同時也符合他們強調(diào)自我和多元觀點表達,追求的是新奇,輕松的生活訴求。圖5.1.2嗶哩嗶哩用戶年齡分布 從地域來看,如圖5.1.3所示,使用嗶哩嗶哩視頻網(wǎng)站的用戶多來自長三角,珠三角,山東等東部沿海較發(fā)達的城市。這類城市受外貿(mào)港口等方面的影響,對于外來的文化接受度高,臨近日本,韓國及東南亞地區(qū),對于新的潮流及文化能夠第一時間接觸到。并且這類城市教育水平以及生活水平較高,擁有更多的資源及經(jīng)濟能力消費和創(chuàng)作多元化的視頻。對于西部地域,信息溝通相對沒有東部地區(qū)快捷,對于多元化的視頻接受度較低,因此使用的用戶較少??傮w用戶的使用情況由東到西逐步遞減。以上數(shù)據(jù)來自:艾瑞數(shù)據(jù)/pc/detail?id=8005&kid=16132&Tid=86(二)行為畫像分析通過統(tǒng)計bilibili視頻網(wǎng)站2014-2019年各類視頻收集到信息的播放總量等到如下數(shù)據(jù),如表5.2.1所示:表5.2.12014-2019各類視頻播放總量pubdata_y動畫國創(chuàng)娛樂影視數(shù)碼時尚游戲20147515228086361283210675009753952015875728373001741339535991329040271394720161389415275130305721914443833677094407995429421201725948516728336906579621625312601831639459985686920184066843369701849355110718270170748816422683237756220191224272833461117167097125035622278113342769632776289生活電影電視劇番劇科技紀錄片舞蹈音樂鬼畜73246200266306634589811559526531145848783641641743002096251490584919741366588208677399369713301291499544516390714912862576812137471979019132589740345394335760224593124292081372007341810925178629044522451702145291498273684212789161128810676423318898173566057017831790529831252426626008851400367480397752542659441通過對該表數(shù)據(jù)進行統(tǒng)計,采用折線圖展示數(shù)據(jù)變化趨勢最為直觀,因此繪制如下折線圖,展示2014-2019年各大分區(qū)視頻播放總量變化,如圖5.2.1所示:圖5.2.12014-2019各類視頻播放總量折線圖根據(jù)折線圖所展示的數(shù)據(jù)情況,可以看出2014年播放量最多的為番劇,其原因在早些年間嗶哩嗶哩主要業(yè)務(wù)針對ACG方向,嗶哩嗶哩作為國內(nèi)觀看日本動漫,載錄游戲視頻最大的視頻網(wǎng)站活躍在用戶群體中。隨著各大視頻網(wǎng)站爭相收購動漫版權(quán),嗶哩嗶哩在觀看番劇,動漫等方面的優(yōu)勢不再明顯,忠實于嗶哩嗶哩觀看動漫等番劇的用戶被其他視頻網(wǎng)站吸引。從圖中可以看出,游戲一直以來都是嗶哩嗶哩用戶比較喜愛的視頻分區(qū),游戲也一直都是嗶哩嗶哩企業(yè)發(fā)展的主營業(yè)務(wù)之一。近年來各大視頻網(wǎng)站主要以自己衛(wèi)視組織的綜藝,拍攝的電視劇,或者購買國內(nèi)及海外電影吸引用戶,而嗶哩嗶哩則作為不同于國內(nèi)其他視頻網(wǎng)站,擁有大量散客,用戶自己創(chuàng)作的視頻是嗶哩嗶哩絕大部分視頻的來源。嗶哩嗶哩的用戶從2014年來,關(guān)于生活類的視頻播放逐日增多。到2019年超過一直穩(wěn)定增長的游戲類視頻。 因此我分別對6年間的各類視頻的投稿數(shù)量前五名進行查找,結(jié)果如表5.2.2所示:表5.2.22014-2019各類稿件數(shù)排名前五年份分類及稿件數(shù)2014游戲135音樂47生活44科技21動畫192015游戲278音樂128娛樂87生活84動畫722016游戲762生活354娛樂347音樂213影視1722017游戲2013生活1050娛樂624音樂519影視3422018游戲4577生活2762娛樂1317音樂897影視7752019游戲8641生活7984娛樂2006音樂1856影視1731根據(jù)上述表格可以看到,游戲視頻是嗶哩嗶哩投稿數(shù)量最多的分類,在六年間一直處于第一位。生活類視頻的投稿數(shù)逐漸增長,逐漸成為ACG文化外被用戶最為接受的視頻類型,備受用戶的喜愛。為了進一步對用戶喜好的屬性進行描述和評估,需要對決定用戶喜好的行為數(shù)據(jù)指標進行客觀公正的分析,從而確定其對喜好屬性的影響。行為指標的權(quán)重的不同會對結(jié)果造成不同的影響。因此要根據(jù)不同行為指標的重要程度和影響強度,結(jié)合科學的評估方法得出科學合理的評估標準,即權(quán)重,這對于整個研究的合理性有著重要的作用。本文結(jié)合大量嗶哩嗶哩投稿人對于不同行為的渴望程度,以及個人使用嗶哩嗶哩時會采取的對喜歡的視頻的行為得到行為指標重要程度判斷定性值。由于此不同指標的重要程度劃分對權(quán)重量化值有重大作用,需不斷進行調(diào)整和實驗得到較為合理的定性值。并結(jié)合九級比例標度法對定性分析量化得到判斷矩陣。S1=視頻播放量S2=視頻點贊量S3=視頻投幣數(shù)S4=視頻收藏量S5=視頻轉(zhuǎn)發(fā)量S6=視頻評論量例如:a21=3表示視頻點贊量相比于視頻播放量重要程度比為3,即視頻點贊量比視頻播放量重要。利用公式(4-3)計算其相應(yīng)權(quán)重,代碼如圖5.2.2所示,得到W=(0.037,0.076,0.112,0.178,0,296,0.301)圖5.2.2公式計算代碼將2014年到2019年按照屬性劃分得到其表現(xiàn)數(shù)據(jù)U,如表5.2.3所示:表5.2.22014-2019綜合分析值201420152016201720182019二次元146040.5160488.309353753.565724442.9033513185.8352124579.462.5次元69489.20863331.526188363.603243699.967294383.728759168.022三次元69248.822172708.911468576.9841351303.992879700.7334422693.92圖5.2.32014-2019綜合分析值折線圖 根據(jù)折線圖5.2.3所示可以看出早期在2014年,嗶哩嗶哩用戶主要來源于對于二次元番劇,動畫,游戲等視頻的喜愛。隨著嗶哩嗶哩生活區(qū)視頻分類越多樣,且國內(nèi)視頻網(wǎng)站多以電視劇,電影,綜藝等主要運營模式,嗶哩嗶哩成為分享生活的主要場所,其形式越發(fā)類似于YouTube,給用戶提供自主創(chuàng)作的平臺。但是根據(jù)上述分析,二次元類型的一個主要的分區(qū)是游戲分區(qū),根據(jù)2019年嗶哩嗶哩業(yè)務(wù)報告,游戲仍然是嗶哩嗶哩的主要收入來源。且在直播行業(yè)的興起背景之下,許多游戲up主更多的轉(zhuǎn)向直播行業(yè)。且各大視頻網(wǎng)站爭相購買海外動漫番劇版權(quán),導致嗶哩嗶哩的二次元視頻觀看數(shù)量相比三次元上升緩慢。2018年由于曾經(jīng)熱播的系列動漫相繼出續(xù)集,且有大量優(yōu)秀國漫入駐嗶哩嗶哩,直播游戲也帶動了嗶哩嗶哩觀看游戲視頻的數(shù)據(jù)。經(jīng)過了一個短暫的回溫,在2019年由于國漫出品方多由騰訊動漫支持,騰訊作為部分優(yōu)秀國漫的獨播平臺,搶占了嗶哩嗶哩在動漫方面的市場。根據(jù)數(shù)據(jù)可以看出,嗶哩嗶哩在三次元原創(chuàng)視頻領(lǐng)域還是以非??斓乃俣仁斋@著大量的用戶。這可能是由于嗶哩嗶哩目前為止還是原創(chuàng)視頻的主要發(fā)布分享平臺??梢妴袅▎袅ㄒ曨l網(wǎng)站二次元用戶的粘度逐漸降低,分散到其他的視頻網(wǎng)站或直播平臺。三次元視頻數(shù)量逐年超過二次元的視頻數(shù)量,對于嗶哩嗶哩的定位也逐漸從ACG轉(zhuǎn)向生活化。根據(jù)2019年數(shù)據(jù)到最新用戶最新用戶喜好詞云如圖5.2.4所示:圖5.2.42019綜合分析所得分類詞云 根據(jù)詞云可以看出2019年用戶行為畫像中最受喜愛的分區(qū)是生活區(qū),第二名是游戲,隨著vlog模式視頻興起,嗶哩嗶哩無論是原創(chuàng)到Y(jié)ouTube搬運,大量記錄生活的視頻涌入嗶哩嗶哩。嗶哩嗶哩在素人原創(chuàng)方面在國內(nèi)占據(jù)著巨大的市場,同時經(jīng)過市場的檢驗,用戶也喜歡這類視頻。相比于傳統(tǒng)的游戲,動畫,嗶哩嗶哩用戶對于生活類視頻的喜愛仍會繼續(xù)增長。六、結(jié)論結(jié)合角色畫像分析及行為畫像分析,嗶哩嗶哩的目標用戶正逐漸從ACG群體擴展至整個年輕人群體,所以在內(nèi)容上更加偏向于綜合性質(zhì)。嗶哩嗶哩目前作為一個聚合類視頻平臺提供的內(nèi)容類別,已經(jīng)可以同時吸引到不同性別的用戶,無論性別男女都可以在嗶哩嗶哩搜尋到自己喜歡的視頻。起初大多數(shù)的嗶哩嗶哩用戶受眾于日本以及歐美等地區(qū)動畫、漫畫與電子游戲的影響的人。嗶哩嗶哩剛好是這樣一個承載這些二次元文化的平臺,一個由ACG同好構(gòu)成的社區(qū)。如今的嗶哩嗶哩用戶已經(jīng)從原來的二次元用戶,轉(zhuǎn)移到更加全方位的人群其包含了原本的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論