大數(shù)據(jù)技術(shù)大數(shù)據(jù)公司大數(shù)據(jù)工程師實習(xí)報告_第1頁
大數(shù)據(jù)技術(shù)大數(shù)據(jù)公司大數(shù)據(jù)工程師實習(xí)報告_第2頁
大數(shù)據(jù)技術(shù)大數(shù)據(jù)公司大數(shù)據(jù)工程師實習(xí)報告_第3頁
大數(shù)據(jù)技術(shù)大數(shù)據(jù)公司大數(shù)據(jù)工程師實習(xí)報告_第4頁
大數(shù)據(jù)技術(shù)大數(shù)據(jù)公司大數(shù)據(jù)工程師實習(xí)報告_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)技術(shù)大數(shù)據(jù)公司大數(shù)據(jù)工程師實習(xí)報告一、摘要2023年7月1日至2023年8月31日,我在一家專注于大數(shù)據(jù)分析的公司擔(dān)任大數(shù)據(jù)工程師實習(xí)生。在為期8周的實習(xí)中,我主要負(fù)責(zé)搭建實時數(shù)據(jù)采集平臺,通過Hadoop和Spark處理日均約1TB的用戶行為日志數(shù)據(jù),并利用Python編寫ETL腳本將數(shù)據(jù)清洗效率提升30%。核心成果包括實現(xiàn)用戶畫像標(biāo)簽系統(tǒng),完成200+標(biāo)簽的自動化計算,準(zhǔn)確率達(dá)92%;優(yōu)化Hive查詢性能,將熱點數(shù)據(jù)表查詢時間縮短至5秒以內(nèi)。期間,我深入應(yīng)用了Kafka進(jìn)行數(shù)據(jù)流處理,結(jié)合機器學(xué)習(xí)算法預(yù)測用戶流失概率,模型AUC值達(dá)到0.85。通過實踐掌握了數(shù)據(jù)管道搭建與調(diào)優(yōu)的全流程方法論,可復(fù)用代碼模塊包括分布式任務(wù)調(diào)度框架和異常監(jiān)控告警系統(tǒng)。二、實習(xí)內(nèi)容及過程1實習(xí)目的去8周前,我主要想看看自己學(xué)的那些大數(shù)據(jù)課程能不能在實際工作里用上,了解下業(yè)界是怎么運作數(shù)據(jù)平臺的,順便積累點項目經(jīng)驗,看看自己到底喜不喜歡這個方向。2實習(xí)單位簡介我實習(xí)的公司是做企業(yè)數(shù)據(jù)分析的,規(guī)模不大不小的那種,主要幫客戶做用戶行為分析、營銷效果評估這些。他們用的技術(shù)棧還挺全,Hadoop、Spark、Flink都有涉及,數(shù)據(jù)倉庫是用的Hive,實時數(shù)據(jù)處理靠Kafka加Kudu。3實習(xí)內(nèi)容與過程開頭兩周主要是熟悉環(huán)境,跟著導(dǎo)師跑通幾個基礎(chǔ)的數(shù)據(jù)管道,處理的是前幾個月積累的靜態(tài)用戶數(shù)據(jù)。我用Python寫ETL腳本,把分散在幾個MySQL庫里的數(shù)據(jù)合并到HDFS上,然后用SparkSQL做初步的清洗和轉(zhuǎn)換。導(dǎo)師讓我關(guān)注數(shù)據(jù)質(zhì)量,每天要盯監(jiān)控看有沒有壞數(shù)據(jù)或者任務(wù)跑掛的。后來發(fā)現(xiàn)一個bug,某個字段經(jīng)常有亂碼,得手動去上游系統(tǒng)提需求改。這讓我明白數(shù)據(jù)治理真不是隨便說說,得實打?qū)嵐芷饋?。第三周開始接觸實時項目,有個客戶要做一個24小時更新的用戶活躍度統(tǒng)計。我負(fù)責(zé)接入他們App推過來的設(shè)備日志,用的是FlinkCDC模式,數(shù)據(jù)先丟到Kafka,再由Flink消費計算。剛開始卡頓挺嚴(yán)重的,監(jiān)控顯示延遲能到幾分鐘,客戶那邊催得急。我花了兩天時間調(diào)優(yōu),主要是在Flink里面加了幾個緩沖窗口,把批處理和流處理結(jié)合了一下,最后延遲降到了幾十秒內(nèi)。導(dǎo)師還教了我怎么用Flink的Savepoint功能做任務(wù)版本管理,避免隨便改代碼把歷史數(shù)據(jù)給改壞了。后面又參與了用戶畫像項目,要把用戶的消費、瀏覽、社交等行為數(shù)據(jù)整合起來打標(biāo)簽。這個項目用到了SparkMLlib里的聚類算法,我把原始特征標(biāo)準(zhǔn)化后跑KMeans,發(fā)現(xiàn)聚出來200多個簇,再結(jié)合業(yè)務(wù)規(guī)則手動分了150來個標(biāo)簽,比如“高頻購物者”、“品牌忠誠粉”之類的。做這個的時候我才知道特征工程有多重要,有些沒太清洗的數(shù)據(jù)直接用效果就差很多。4實習(xí)成果與收獲8周里我獨立完成了3個數(shù)據(jù)管道,日均處理數(shù)據(jù)量從幾百GB提到近1TB,幾個核心報表的生成時間從小時級降到分鐘級。最大的成就是那個實時活躍度項目,上線后客戶反饋說數(shù)據(jù)更新及時多了,他們做營銷活動能更快看到效果。這讓我挺有成就感的,雖然過程挺熬人。收獲最大的還是解決實際問題的能力,以前在學(xué)校做實驗數(shù)據(jù)都挺干凈的,真到公司發(fā)現(xiàn)各種臟數(shù)據(jù)、數(shù)據(jù)缺失、格式不統(tǒng)一的情況,得用各種騷操作才能搞定。而且學(xué)會了怎么跟業(yè)務(wù)方溝通,知道他們真正要的是啥,而不是我把所有我能做的技術(shù)都堆上去。5問題與建議實習(xí)期間也發(fā)現(xiàn)一些問題。比如公司內(nèi)部數(shù)據(jù)平臺文檔太少了,有些老項目的設(shè)計思路都找不著記錄,新人接手特別費勁。另外他們培訓(xùn)機制也不太完善,就給我發(fā)了幾篇Wiki,沒系統(tǒng)帶過。我當(dāng)時連他們自研的一些工具都不太懂,只能靠自己摸索。我建議他們可以搞個內(nèi)部知識庫,把項目文檔、運維手冊什么的系統(tǒng)整理下,再搞個新人培養(yǎng)計劃,至少每周安排個時間跟導(dǎo)師或者資深同事對焦。而且我覺得我們組用Flink的機會挺多,但培訓(xùn)里關(guān)于狀態(tài)管理的部分講得太淺了,要是能多接觸些復(fù)雜場景的案例就更好了。三、總結(jié)與體會1實習(xí)價值閉環(huán)這8周實習(xí)像把理論和實踐搭了個橋。剛來的時候懵懵懂懂,覺得Hadoop、Spark就是裝在服務(wù)器上的軟件,現(xiàn)在明白了它們怎么在分布式環(huán)境下協(xié)作處理PB級別的數(shù)據(jù),背后的設(shè)計哲學(xué)和優(yōu)化細(xì)節(jié)才真正搞懂。比如我參與的實時項目,從最初Flink任務(wù)動輒幾分鐘延遲,到后來通過調(diào)整狀態(tài)后端和checkpoint策略降到秒級,每一步優(yōu)化都讓我對流處理的理解更深一層。這8周讓我真切體會到,數(shù)據(jù)工程師不是簡單地跑幾行代碼,而是得懂業(yè)務(wù)、懂?dāng)?shù)據(jù)、懂系統(tǒng),才能把數(shù)據(jù)變成價值。2職業(yè)規(guī)劃聯(lián)結(jié)這段經(jīng)歷直接影響了我的職業(yè)規(guī)劃。之前我還在搖擺要不要往算法方向發(fā)展,現(xiàn)在明確了想繼續(xù)深耕數(shù)據(jù)平臺這塊。公司里那個用Flink做實時風(fēng)控的項目讓我特別興奮,發(fā)現(xiàn)分布式計算和機器學(xué)習(xí)結(jié)合的場景那么多。回去打算重點補Flink的源碼和狀態(tài)管理知識,順便把AWSEMR和AzureDatabricks也玩熟,秋招的時候目標(biāo)就是往這種有平臺基因的團(tuán)隊投遞。導(dǎo)師還給我推薦了幾個GrokkingtheDataStack的在線課,說能幫我補底層知識,我打算下學(xué)期就把這系列看完,爭取把SparkSQL的執(zhí)行計劃分析練到能看懂復(fù)雜查詢的級別。3行業(yè)趨勢展望在公司看到好幾個技術(shù)趨勢正在落地。比如那個用戶畫像項目里,他們用圖數(shù)據(jù)庫Neo4j做關(guān)系推薦,數(shù)據(jù)量不大但效果驚人,說明傳統(tǒng)時序分析之外,圖計算也在慢慢往業(yè)務(wù)里滲透。另一個現(xiàn)象是實時計算和批處理的融合,幾個新項目都是用Flink先處理流數(shù)據(jù),再同步到Hive做長期分析。這讓我意識到,未來數(shù)據(jù)工程師可能得同時掌握批流處理技術(shù)棧,還要懂點云原生和湖倉一體架構(gòu)。行業(yè)里越來越強調(diào)數(shù)據(jù)產(chǎn)品的理念,光會寫代碼不夠,還得知道怎么跟業(yè)務(wù)方互動,讓他們覺得數(shù)據(jù)有用。這點我在實習(xí)里做得還差,比如用戶畫像項目最后交付的標(biāo)簽系統(tǒng),業(yè)務(wù)方用起來就不太順手,下次再遇到類似情況得提前多溝通,把需求顆粒度搞清楚。4心態(tài)轉(zhuǎn)變最深的體會還是心態(tài)變了。以前做實驗遇到問題就跑去找老師,現(xiàn)在碰到bug第一反應(yīng)是自己查文檔、翻源碼、看監(jiān)控,8周里提交的Jiraissue從最初的半天解決一個,到最后能自己排查出70%的問題。最爽的是那天凌晨三點,我發(fā)現(xiàn)實時系統(tǒng)有個數(shù)據(jù)傾斜問題,趕緊加了個rebalance策略,第二天一早線上就正常了,客戶那邊沒受影響。那一刻才體會到什么叫數(shù)據(jù)責(zé)任,這種壓力其實挺鍛煉人的。雖然累,但想到自己的工作能直接影響到業(yè)務(wù),就覺得值了?;厝ヒ^續(xù)練抗壓能力,準(zhǔn)備把LeetCode上的分布

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論