大數(shù)據(jù)技術(shù)大數(shù)據(jù)技術(shù)實(shí)習(xí)報告_第1頁
大數(shù)據(jù)技術(shù)大數(shù)據(jù)技術(shù)實(shí)習(xí)報告_第2頁
大數(shù)據(jù)技術(shù)大數(shù)據(jù)技術(shù)實(shí)習(xí)報告_第3頁
大數(shù)據(jù)技術(shù)大數(shù)據(jù)技術(shù)實(shí)習(xí)報告_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)技術(shù)大數(shù)據(jù)技術(shù)實(shí)習(xí)報告一、摘要2023年7月1日至2023年8月31日,我在XX公司大數(shù)據(jù)技術(shù)崗位實(shí)習(xí),負(fù)責(zé)處理每日約500GB的用戶行為數(shù)據(jù),通過Hadoop和Spark完成數(shù)據(jù)清洗、聚合與可視化分析。核心工作成果包括優(yōu)化查詢效率使平均響應(yīng)時間縮短30%,搭建實(shí)時數(shù)據(jù)監(jiān)控平臺,并輸出3份驅(qū)動業(yè)務(wù)決策的分析報告。專業(yè)技能應(yīng)用涉及MapReduce編程、SQLonHadoop及Tableau工具操作,量化驗(yàn)證了分布式計(jì)算在超大規(guī)模數(shù)據(jù)場景下的效率優(yōu)勢。提煉出“分層清洗+增量更新”的數(shù)據(jù)處理方法論,適用于高維數(shù)據(jù)場景;搭建的監(jiān)控平臺為后續(xù)迭代提供了可復(fù)用的架構(gòu)模板。二、實(shí)習(xí)內(nèi)容及過程2023年7月1日到8月31日,我在XX公司實(shí)習(xí),崗位是大數(shù)據(jù)分析師助理。公司主要做電商數(shù)據(jù)分析,每天處理幾億條用戶行為日志,用的技術(shù)棧是Hadoop、Spark和Flink。我的主要任務(wù)是幫團(tuán)隊(duì)做數(shù)據(jù)清洗和可視化。比如7月10號開始參與一個項(xiàng)目,負(fù)責(zé)處理一個TB級別的用戶購買數(shù)據(jù),目標(biāo)是找出復(fù)購率高的用戶群體。我用Spark寫了UDF處理缺失值,把數(shù)據(jù)清洗時間從48小時縮短到12小時,然后用SQL在Hive上做用戶分層,最后用Tableau畫了漏斗圖,顯示高復(fù)購用戶主要集中在2535歲,活躍時段是晚上8點(diǎn)到10點(diǎn)。實(shí)習(xí)期間遇到的最大挑戰(zhàn)是7月25號開始的一個實(shí)時數(shù)據(jù)項(xiàng)目,需求是3小時內(nèi)上線監(jiān)控大盤。當(dāng)時團(tuán)隊(duì)只有我一個人熟悉Flink,白天跟開發(fā)溝通接口,晚上自己研究流批一體方案,花了6天把離線和實(shí)時數(shù)據(jù)打通,雖然最后沒完全按原計(jì)劃上線,但做成了一個簡易版先跑起來,領(lǐng)導(dǎo)還挺認(rèn)可。這讓我意識到自己得補(bǔ)補(bǔ)實(shí)時計(jì)算這塊。8月中旬參與了一個用戶畫像項(xiàng)目,用Hive和SparkMLlib做聚類,把用戶分成了5類,結(jié)果發(fā)現(xiàn)模型召回率只有65%,比預(yù)期低。后來發(fā)現(xiàn)是特征選得不夠全面,又花了2周補(bǔ)充了設(shè)備屬性和社交關(guān)系數(shù)據(jù),最終召回率提到78%。這讓我明白數(shù)據(jù)分析是個需要不斷試錯的活兒。公司的培訓(xùn)機(jī)制其實(shí)一般,主要是靠自己看內(nèi)部文檔和問同事,有時候需求變更快,培訓(xùn)跟不上,這點(diǎn)挺讓人頭疼的。建議公司可以搞點(diǎn)在線課程,或者新人階段多安排點(diǎn)導(dǎo)師帶。崗位匹配度上,感覺我的SQL和Python基礎(chǔ)還行,但分布式系統(tǒng)調(diào)優(yōu)這塊差點(diǎn)意思,下次實(shí)習(xí)得往這個方向多鉆鉆。這段經(jīng)歷讓我更清楚自己想干嘛了,以后想往數(shù)據(jù)工程方向發(fā)展,先把Flink和Kafka搞明白。三、總結(jié)與體會這8周,從7月1日到8月31日,在XX公司的經(jīng)歷讓我對大數(shù)據(jù)落地有了更真切的感受。實(shí)習(xí)價值閉環(huán)得很明顯我參與的用Spark清洗某電商日志項(xiàng)目,最終交付的報告直接被業(yè)務(wù)方用來調(diào)整了晚高峰的營銷策略,復(fù)購率指標(biāo)確實(shí)提升了5%,這讓我覺得之前熬夜調(diào)試MapReduce腳本、優(yōu)化Hive查詢效率這些事兒,真不是瞎忙活。職業(yè)規(guī)劃上,這段經(jīng)歷幫我鎖定了方向。我原來覺得數(shù)據(jù)分析就是畫點(diǎn)圖,現(xiàn)在明白技術(shù)深度太重要了7月25號那個差點(diǎn)沒趕上的實(shí)時監(jiān)控項(xiàng)目,最后靠Flink的窗口函數(shù)才勉強(qiáng)救活,讓我直接把學(xué)習(xí)計(jì)劃里的流處理部分往前排了。下學(xué)期打算拿下AWS的BigDataSpecialty證書,把S3、EMR這些云上工具補(bǔ)上。行業(yè)趨勢上,實(shí)習(xí)里看到的數(shù)據(jù)湖和湖倉一體實(shí)踐特別多,8月中旬做的用戶畫像項(xiàng)目最后整合了5個異構(gòu)數(shù)據(jù)源,用的就是湖倉一體思路。感覺現(xiàn)在大廠都在往這個方向走,數(shù)據(jù)治理和元數(shù)據(jù)管理這塊兒,公司內(nèi)部居然連標(biāo)準(zhǔn)規(guī)范都沒太建起來,這點(diǎn)挺暴露問題的。心態(tài)轉(zhuǎn)變最明顯的是責(zé)任感和抗壓能力。8月20號那個凌晨三點(diǎn)被叫起來排查Spark任務(wù)OOM的事兒,現(xiàn)在想起來還手心出汗,但硬著頭皮把YARN內(nèi)存參數(shù)調(diào)優(yōu)了,第二天業(yè)務(wù)系統(tǒng)就正常了。這種“我的鍋,我來修”的感覺,比學(xué)校做項(xiàng)目強(qiáng)太多了。這段經(jīng)歷讓我真真切切體會到職場人的味道,雖然累,但每解決一個技術(shù)難題,那種成就感真的能讓人上癮。后續(xù)學(xué)習(xí)肯定要更聚焦,技能樹得往工程化方向長,畢竟光懂?dāng)?shù)據(jù)算法,最后還是得靠這些技術(shù)把價值跑出來。四、致謝在XX公司這8周的實(shí)習(xí),收獲挺多的。導(dǎo)師在項(xiàng)目上給了我不少指點(diǎn),特別是7月10號那個Spark性能問題,他帶我一起分析了幾遍,讓我明白監(jiān)控指標(biāo)要看全鏈路。帶我的幾位同事也挺好,數(shù)據(jù)治理這塊兒的小張,教了我不少數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論