互聯(lián)網(wǎng)公司大數(shù)據(jù)分析實(shí)習(xí)報(bào)告_第1頁(yè)
互聯(lián)網(wǎng)公司大數(shù)據(jù)分析實(shí)習(xí)報(bào)告_第2頁(yè)
互聯(lián)網(wǎng)公司大數(shù)據(jù)分析實(shí)習(xí)報(bào)告_第3頁(yè)
互聯(lián)網(wǎng)公司大數(shù)據(jù)分析實(shí)習(xí)報(bào)告_第4頁(yè)
互聯(lián)網(wǎng)公司大數(shù)據(jù)分析實(shí)習(xí)報(bào)告_第5頁(yè)
全文預(yù)覽已結(jié)束

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

互聯(lián)網(wǎng)公司大數(shù)據(jù)分析實(shí)習(xí)報(bào)告一、摘要

2023年7月1日至2023年8月31日,我在一家知名互聯(lián)網(wǎng)公司擔(dān)任大數(shù)據(jù)分析實(shí)習(xí)生。核心工作成果包括完成用戶行為分析報(bào)告,通過(guò)處理過(guò)去三個(gè)月的1000萬(wàn)條日志數(shù)據(jù),識(shí)別出3個(gè)主要用戶流失場(chǎng)景,并提出優(yōu)化建議,使次日留存率提升5.2%。應(yīng)用Hadoop和Spark進(jìn)行數(shù)據(jù)清洗與處理,使用Python的Pandas和Matplotlib進(jìn)行數(shù)據(jù)可視化,構(gòu)建了2個(gè)自動(dòng)化報(bào)表系統(tǒng),覆蓋10個(gè)核心業(yè)務(wù)指標(biāo)。提煉出基于日志數(shù)據(jù)的時(shí)間序列分析方法,可復(fù)用于同類場(chǎng)景,驗(yàn)證了數(shù)據(jù)驅(qū)動(dòng)決策的有效性。

二、實(shí)習(xí)內(nèi)容及過(guò)程

1.實(shí)習(xí)目的

當(dāng)時(shí)去就是想看看大數(shù)據(jù)分析在互聯(lián)網(wǎng)上到底是怎么玩的,能不能把學(xué)校學(xué)的那些Hadoop、Spark、SQL用上,順便感受下真實(shí)項(xiàng)目里數(shù)據(jù)處理的流程。

2.實(shí)習(xí)單位簡(jiǎn)介

那家公司做的是推薦系統(tǒng)方向,用戶數(shù)據(jù)挺大的,每天新增數(shù)據(jù)量幾個(gè)GB,用的是Lambda架構(gòu),實(shí)時(shí)和離線數(shù)據(jù)都要算。我去的部門主要做用戶行為分析和策略迭代。

3.實(shí)習(xí)內(nèi)容與過(guò)程

剛開(kāi)始一周主要是熟悉環(huán)境,跑通他們給的新人測(cè)試腳本,用Spark處理過(guò)億條點(diǎn)擊日志,學(xué)他們?cè)趺从肒afka傳實(shí)時(shí)數(shù)據(jù),怎么搭Flink窗口計(jì)算。后來(lái)接了個(gè)活兒,分析某個(gè)活動(dòng)后用戶流失情況。

數(shù)據(jù)是三個(gè)月前的,每天大概1000萬(wàn)條,有用戶ID、點(diǎn)擊URL、時(shí)間戳、設(shè)備信息之類的字段。我先用Hive把日志清洗一遍,去除無(wú)效和重復(fù)記錄,花了兩天。然后統(tǒng)計(jì)每個(gè)用戶的活躍時(shí)長(zhǎng)、訪問(wèn)頁(yè)面的路徑鏈,發(fā)現(xiàn)有三類人特別容易流失:

第一類是只看首頁(yè)就退出的,占比45%;第二類是加購(gòu)后沒(méi)付款的,30%;第三類是用了某次優(yōu)惠后不再來(lái)的,15%。

為了驗(yàn)證,我做了交叉表,看設(shè)備類型和流失場(chǎng)景的關(guān)系,發(fā)現(xiàn)移動(dòng)端首頁(yè)流失率比PC端高8個(gè)百分點(diǎn)。這讓我意識(shí)到移動(dòng)端的體驗(yàn)可能是個(gè)問(wèn)題。

4.實(shí)習(xí)成果與收獲

最后寫(xiě)了份5頁(yè)的分析報(bào)告,給策略組建議優(yōu)化首頁(yè)引導(dǎo)、完善加購(gòu)流程、做用戶回訪機(jī)制。他們按我說(shuō)的改了,一個(gè)月后回訪數(shù)據(jù)顯示,首頁(yè)流失率確實(shí)降了5.2%,加購(gòu)轉(zhuǎn)化率也提升了1.3%。

這讓我明白,做分析不能只看表面數(shù)據(jù),得鉆進(jìn)去找根本原因。比如一開(kāi)始覺(jué)得是活動(dòng)本身不行,后來(lái)發(fā)現(xiàn)是推廣渠道問(wèn)題,把資源集中后效果就好多了。

技能上,我以前用Spark做ETL挺慢的,后來(lái)學(xué)了他們內(nèi)部一個(gè)用PySpark加速的技巧,把處理時(shí)間從8小時(shí)縮到1小時(shí)。還第一次完整搞懂了特征工程怎么跟策略結(jié)合,比如怎么把“連續(xù)三天未登錄”變成一個(gè)預(yù)警標(biāo)簽。

5.問(wèn)題與建議

遇到的第一個(gè)困難是數(shù)據(jù)口徑不一,不同業(yè)務(wù)線對(duì)“流失”的定義有差異,導(dǎo)致我初期統(tǒng)計(jì)口徑混亂。后來(lái)找數(shù)據(jù)平臺(tái)的同事一個(gè)個(gè)核對(duì),花了3天才統(tǒng)一好。建議新人來(lái)前先做半天數(shù)據(jù)規(guī)范培訓(xùn),省得走彎路。

第二個(gè)是培訓(xùn)機(jī)制,公司給的新人手冊(cè)挺厚的,但很多實(shí)踐案例沒(méi)講,我得多跑去找?guī)煾嫡?qǐng)教??梢愿銈€(gè)內(nèi)部案例庫(kù),把老員工處理過(guò)的典型問(wèn)題寫(xiě)個(gè)文檔,新手上手快些。

崗位匹配度上,我感覺(jué)自己學(xué)的SQL基礎(chǔ)還行,但Python可視化庫(kù)用得生疏,實(shí)習(xí)后期好幾次要加班補(bǔ)Pyplot。如果學(xué)校能加些Tableau或PowerBI的課就更好了。

三、總結(jié)與體會(huì)

1.實(shí)習(xí)價(jià)值閉環(huán)

這8周就像把書(shū)上的理論裝進(jìn)了實(shí)踐模具里。7月15號(hào)接手流失分析項(xiàng)目時(shí),我還在懵懂地寫(xiě)SQLJoin,到8月10號(hào)提交報(bào)告時(shí),已經(jīng)能獨(dú)立用SparkSQL和PySpark做窗口函數(shù)分析,甚至給策略同學(xué)畫(huà)了帶鉆取效果的交互式看板。從每天被問(wèn)“這段SQL怎么跑慢了”到能主動(dòng)跟他們提“這個(gè)指標(biāo)應(yīng)該加時(shí)間粒度”,感覺(jué)自己真的跨過(guò)了一條線。1000萬(wàn)條日志到5.2%的留存率提升,不是模型多神奇,是數(shù)據(jù)里藏著具體問(wèn)題,找到它并驗(yàn)證想法的過(guò)程很有價(jià)值。

2.職業(yè)規(guī)劃聯(lián)結(jié)

實(shí)習(xí)前想當(dāng)算法工程師,現(xiàn)在更想做數(shù)據(jù)產(chǎn)品經(jīng)理。因?yàn)榘l(fā)現(xiàn)直接調(diào)模型不如懂業(yè)務(wù)場(chǎng)景。比如我們測(cè)完發(fā)現(xiàn)首頁(yè)流失主因是“引導(dǎo)按鈕太小”,這不是模型能解決的,而是需要UI配合。這讓我想學(xué)點(diǎn)用戶研究方法,下次能更精準(zhǔn)地定位問(wèn)題。已經(jīng)把實(shí)習(xí)中寫(xiě)的特征處理腳本整理成模板,準(zhǔn)備考研后考個(gè)GoogleDataAnalytics證書(shū),重點(diǎn)補(bǔ)下SQL優(yōu)化和Tableau高級(jí)技巧。

3.行業(yè)趨勢(shì)展望

這家公司用的實(shí)時(shí)計(jì)算還是Lambda架構(gòu),但隔壁組在用Flink。我注意到現(xiàn)在很多公司都在推湖倉(cāng)一體,感覺(jué)離線計(jì)算和實(shí)時(shí)計(jì)算會(huì)越來(lái)越融合。這次用到的Cohort分析讓我意識(shí)到,用戶分群比單純看整體指標(biāo)更實(shí)用。以后做分析不能只盯著GMV、CTR這些宏觀數(shù)據(jù),得像他們那樣去挖掘“沉默用戶”這類細(xì)分群體的行為模式。

4.心態(tài)轉(zhuǎn)變

8月的時(shí)候遇到過(guò)一次挫折,一個(gè)用戶畫(huà)像模型效果不達(dá)預(yù)期,導(dǎo)師讓我加班重跑。本來(lái)想抱怨數(shù)據(jù)質(zhì)量差,但重跑時(shí)發(fā)現(xiàn)是特征選擇太保守,多加幾個(gè)社交屬性指標(biāo)后AUC從0.75漲到0.82。那天凌晨3點(diǎn)看到結(jié)果時(shí)突然懂了,以前覺(jué)得分析是按部就班查數(shù),現(xiàn)在明白得有韌性,數(shù)據(jù)不會(huì)永遠(yuǎn)完美,怎么在約束條件下找到最優(yōu)解才是真本事。這種扛壓力、快速試錯(cuò)的心態(tài),比學(xué)會(huì)幾個(gè)新工具更重要。

四、致謝

1.

感謝實(shí)習(xí)期間給予指導(dǎo)的部門領(lǐng)導(dǎo),讓我有機(jī)會(huì)接觸實(shí)際業(yè)務(wù)場(chǎng)景。

2.

特別感謝我的導(dǎo)師,在數(shù)據(jù)清洗方法和策略解讀上給了我很多啟發(fā),比如他教我如何用SQL的窗口函數(shù)快速定位異常用戶群。

3.

也很感謝帶我的幾位同事,每次

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論