版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
寫給產(chǎn)品和運(yùn)營人看的數(shù)據(jù)系列(1):維度和指標(biāo)——事實(shí)的視角在向數(shù)據(jù)分析師提需求時,你是否只會用“字段”這個詞,來指代所有的維度和指標(biāo)呢?其實(shí),數(shù)據(jù)的維度和指標(biāo)是非常重要的,當(dāng)你理清正確的維度和指標(biāo)時,你的問題便已經(jīng)解決了一大半。如何正確理解維度和指標(biāo)呢?一起來看一下吧。
請不要用“字段”,掩蓋自己對維度和指標(biāo)的一知半解。剛剛工作那會,我在鵝廠從事廣告變現(xiàn)相關(guān)工作。在向數(shù)據(jù)分析師提需求的時候,我只會用“字段”這個詞,來指代所有的維度和指標(biāo)。很多時候,數(shù)據(jù)分析師同學(xué)會向我耐心解釋,為什么這個“字段”不能被計算,那個字段沒有辦法取出來。直到我后來系統(tǒng)學(xué)習(xí)了數(shù)據(jù)分析、數(shù)據(jù)倉庫相關(guān)的知識,了解了維度、指標(biāo)、OLAP、上卷和下鉆這些基本概念之后,才發(fā)現(xiàn)我當(dāng)初的需求文檔問題有多大,而這也是我寫下這篇文章的原因——避坑。01為什么要搞清楚維度和指標(biāo)?最直接的,理解了維度和指標(biāo)之后,再跟BI和RD提需求,能避免被當(dāng)做一個數(shù)據(jù)白癡,體現(xiàn)自己的專業(yè)性(至少看起來)。其次,理解維度和指標(biāo)的前提,是了解業(yè)務(wù)邏輯和數(shù)據(jù)生產(chǎn)邏輯。以往我們是從用戶流程、組織層級等視角理解我們的業(yè)務(wù),但是不妨從數(shù)據(jù)邏輯視角試試:數(shù)據(jù)是在哪個主體上,在什么場景下,以什么樣的方式被生產(chǎn)和記錄的?數(shù)據(jù)是怎么被加工和呈現(xiàn)的?為什么需要這么呈現(xiàn)?這個指標(biāo)如果跌了,對業(yè)務(wù)有指向意義嗎?當(dāng)你問這些問題的時候,你會發(fā)現(xiàn)你不僅要知道產(chǎn)品的設(shè)計邏輯、各個模塊的功能點(diǎn),還要知道它們的耦合和組織方式。這些都會驅(qū)動你去問同事、查wiki、自己上手體驗。相信我,這樣全套流程走下來,你對業(yè)務(wù)和產(chǎn)品一定會有更深入的理解。再次,理清楚維度和指標(biāo),能幫我們確定分析的思路。業(yè)務(wù)指標(biāo)下降了,我們要做定位和分析;要寫PRD了,我們要做功能點(diǎn)的收益預(yù)估——相信你一定為數(shù)據(jù)抓耳撓腮過。那么我們究竟應(yīng)該從龐大的數(shù)據(jù)庫中,選取哪些“字段”來輔助分析呢?高效的方式之一——在對業(yè)務(wù)理解基礎(chǔ)上提出假設(shè),然后把假設(shè)翻譯成維度和指標(biāo),否則我們只會陷入在龐大的數(shù)據(jù)細(xì)節(jié)中而無從下手。所以,當(dāng)你理清楚正確的維度和指標(biāo)的時候,你的問題已經(jīng)解決了一大半。02從事件的視角,認(rèn)識維度和指標(biāo)網(wǎng)上介紹維度、指標(biāo)及其差異的文章很多,可以作為基礎(chǔ)概念輔助初識維度和指標(biāo)。我希望從“事件”的視角,帶你重新認(rèn)識這兩個名詞。做過App/網(wǎng)頁前端埋點(diǎn)的同學(xué),相信對“事件”(event)這個詞一定不會陌生,它指的是某個特定行為的發(fā)生,如某個按鈕的曝光、點(diǎn)擊,這些都可以稱作事件。這里,我們將事件的含義泛化一下,不局限在某個具體行為上,也不要拘泥在行為埋點(diǎn)范疇中,而是將其擴(kuò)展到所有的結(jié)構(gòu)化數(shù)據(jù)表上。每一張數(shù)據(jù)表,都是圍繞一個特定事件進(jìn)行創(chuàng)建的。而事件的發(fā)生,必然有其主體,即出發(fā)事件發(fā)生的人/物/事。維度,是對事件發(fā)生主體屬性的補(bǔ)充描述,或者伴隨主體而存在的,除了事件發(fā)生的時間,它一般是靜態(tài)存在的,不依賴于事件的發(fā)生。指標(biāo),則是對事件發(fā)展程度的量化描述;一個指標(biāo),通常描述主體的其中一種狀態(tài)。它依賴于事件的發(fā)生,是一個動態(tài)變化的數(shù)值。如果覺得抽象,我們來看個例子。作為產(chǎn)品經(jīng)理,我們需要關(guān)注的一個重要指標(biāo)是“次留”,即今天打開App的用戶,有多少比例會在第2天,繼續(xù)打開我們的App:回訪在這里就構(gòu)成了一個事件,而事件發(fā)生的主體是用戶。如果要細(xì)拆留存,可以分拆的維度有:性別、年齡、機(jī)型、新/老用戶、地域、來源渠道、是否在App內(nèi)支付過,等等。這些維度,本身是依附于用戶這個主體而存在的,它并不依賴于回訪的發(fā)生。所以,它是一個靜態(tài)的屬性描述,并不會因為事件是否發(fā)生,而發(fā)生變化。但是指標(biāo)不是。次留隨著會隨著你觀察的時間、觀察的群體而發(fā)生變化。03維度的4個作用1)篩選:我們一般通過維度來篩選所觀察的數(shù)據(jù)范圍。如果是定性的分類維度,那么通過枚舉可以篩選,典型的定性維度如年份、省份等;如果是定量的維度,那么可以像指標(biāo)一樣,按照數(shù)值大小取一個范圍即可,如身高。2)聚合:通俗地來說,即我們希望在多大粒度上分析數(shù)據(jù)。比如你要統(tǒng)計廣告消耗,那么是在創(chuàng)意粒度上看,還是將創(chuàng)意粒度消耗數(shù)據(jù)加總,并上卷到計劃粒度分析消耗呢?如果你之前寫過SQL,那么肯定知道在對指標(biāo)進(jìn)行sum(求和)、avg(求平均)之后,要在腳本最后加入groupbyXX,也就是你希望聚合到的維度。但是需要注意的是,你在進(jìn)行聚合的時候,一定要確認(rèn)計算的指標(biāo),是可以在該維度上可分和可計算的,否則你算出來的數(shù)據(jù)肯定是錯誤的,這個會在后面會詳述。3)對比:數(shù)據(jù)只有在對比的時候才有意義。我們發(fā)現(xiàn)數(shù)據(jù)上漲、下跌、波動,是因為我們知道正常的數(shù)據(jù)應(yīng)該是多少,超過這個范圍的數(shù)據(jù)都是異常的,才會需要進(jìn)一步比較和分析。我們在對比數(shù)據(jù)的時候,通常會選擇某一個維度,然后在該維度下進(jìn)行對比。不在同一個維度上,對比2個同樣指標(biāo),在業(yè)務(wù)中沒有任何意義。假設(shè)我們要對比每一個機(jī)型的留存,必須是在同一個維度(機(jī)型)的下鉆和比較,這通常稱為橫向?qū)Ρ取A硪环N對比,則是以時間為維度的縱向?qū)Ρ取N覀兛碊AU、留存這些指標(biāo),究竟是漲了還是跌了,通常都是觀察一段時間的指標(biāo)變化;環(huán)比、同比這些,則是基于不同時間窗口維度,對指標(biāo)的二次加工和計算。4)歸因:這里的歸因,指的是對數(shù)據(jù)波動的解釋,而不是數(shù)字廣告領(lǐng)域的歸因模型(attributionmodel)。當(dāng)我們通過同維度的對比,發(fā)現(xiàn)數(shù)據(jù)異常波動時,通常我們需要對波動的原因進(jìn)行定位和解釋。而最終的排查結(jié)果,必然會定位到某個維度上,或者維度的某個值(枚舉)上。我們發(fā)現(xiàn)昨日的訂單數(shù),日環(huán)比(相對于前天)跌了30%,如果排除掉運(yùn)營活動結(jié)束帶來的正常下跌,而是一個異常的下降,我們必須找到可能的原因。我們通常會逐個維度分析。比如看品類:是衣服跌的多,還是鞋子跌的多,還是整體都在跌;看時間,訂單數(shù)量是否在某個時間段跌的多(是否某個時間段服務(wù)器崩了);看交易方式(是否某個支付方式出了問題)、看App版本(是否某個版本有bug)……關(guān)于數(shù)據(jù)波動的歸因,后續(xù)會再單獨(dú)用一章的篇幅,來重點(diǎn)講。04指標(biāo)在維度上是否可分和可聚合我們拿到一份數(shù)據(jù),先不要急著上手分析,而是要弄清楚維度與指標(biāo)的關(guān)系。這里的“關(guān)系”我們?nèi)匀环謨蓪觼砝斫狻5谝粚樱褐笜?biāo)所反映的事實(shí),可以在所選維度上發(fā)生、被統(tǒng)計;換句話說,指標(biāo)所反映的被統(tǒng)計的事實(shí),在業(yè)務(wù)場景中是真實(shí)存在的。比如我們在數(shù)字廣告場景中,衡量一條創(chuàng)意好壞的指標(biāo)是CTR(點(diǎn)擊率,ClickThroughRate)=同時期點(diǎn)擊次數(shù)/該廣告曝光次數(shù)。我們可以比較不同創(chuàng)意、不同計劃之間的CTR,但是不會比較不同廣告落地頁之間的CTR。因為廣告落地頁是用戶點(diǎn)擊完廣告之后打開的頁面,外顯廣告點(diǎn)擊行為并不在落地頁這個主體上發(fā)生。盡管對比之下,不同落地頁的CTR之間肯定略有差異,但是落地頁并不是造成CTR差異的原因,這種橫向?qū)Ρ炔o實(shí)際意義。另一個案例中,指標(biāo)確實(shí)在這個維度上發(fā)生,但通常情況下并不能被計算。我們經(jīng)??吹囊粋€指標(biāo)是UV(獨(dú)立訪客數(shù)),如果在device_id(設(shè)備ID)維度上看UV,一般沒太大實(shí)際意義,因為通常情況下,一個設(shè)備ID上只有1個UV,即UV和設(shè)備ID等價(除非某些業(yè)務(wù)如反作弊場景下,需要分析1個設(shè)備登錄了幾個賬號)。第二層:計算時,指標(biāo)在所有參與計算維度上可分割、可加總。如果我們把維度,想象成一把梳子,把指標(biāo)想象成一縷頭發(fā)。當(dāng)梳子經(jīng)過頭發(fā)的時候,頭發(fā)能被梳齒,分成N塊更細(xì)的發(fā)束(分割),且頭發(fā)的數(shù)量并沒有發(fā)生改變;當(dāng)拿掉這把梳子的時候,這些發(fā)束又聚合在一起(加總),恢復(fù)成原來的樣子。還是以UV舉例。我們通常需要看DAU日活和WAU周活2個指標(biāo)。DAU統(tǒng)計比較簡單,看每天有多少用戶數(shù)打開了App。WAU是對過去一周的訪客數(shù)的去重計數(shù),若1個用戶在周一和周三都打開了App,在WAU的計算中,這個用戶只會被計算一次,但是在日活的口徑中,周一和周三會被分別統(tǒng)計一次。如果我們拿到的是以周為維度、周活為指標(biāo)的一張表,假設(shè)我們想要分析過去一周每天的UV,那么顯然不能直接用周活進(jìn)行計算,即WAU在日期維度上不可分割。反之,周一到周日每天的DAU,加總起來也不是周活,也就是說DAU在周維度上不可加總。特別要注意的是,一些復(fù)合指標(biāo)在整體上有意義,也能在一些維度層級上被分割和被計算,但是不能被無限分割。我們通常會看創(chuàng)意、(上卷一層到)計劃、(再上卷一層到)賬戶維度的CTR,但是我們通常不會去計算單個用戶粒度的CTR。因為假設(shè)每個用戶只會看見1次廣告,對這條廣告點(diǎn)擊行為只有“是”或者“否”兩種情況,CTR要么是0,要么是1,這種極端值,并不能反映一條廣告質(zhì)量的好壞。05維度和指標(biāo)可互換我們對于維度和指標(biāo)的理解,一定要在具體業(yè)務(wù)場景下深入分析。并不是某些字段一定是維度,某些字段一定是指標(biāo);維度和指標(biāo)的界定,一定要根據(jù)具體業(yè)務(wù)場景,以及在該業(yè)務(wù)場景下的數(shù)據(jù)生產(chǎn)邏輯。正如上文所說的那樣,就像“薛定諤的貓”一樣,它取決于你對這次事件的主體、性質(zhì)等的觀察。如果單看“體重”這個字段,你覺得它應(yīng)該是維度,還是指標(biāo)呢?我認(rèn)為要看“體重”所在的場景。如果你是一個體育老師,現(xiàn)在要通過體重、升高、BMI、肺活量等這些字段的數(shù)值,給每一個學(xué)生的健康狀況打分,體重在這里就是一個要被計算的指標(biāo)。反之,假設(shè)我們要看體重跟薪資收入、壽命的關(guān)系,則體重作為維度更加適合。此外,通過二次計算,維度和指標(biāo)也可以互換,即原來是維度的字段,可以變成指標(biāo);反之,指標(biāo)通過設(shè)置區(qū)間可以變成維度。還是以上文提到的廣告消耗為例。我們拿到的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030物聯(lián)網(wǎng)智能家居市場需求消費(fèi)者行為分析投資選擇品牌營銷規(guī)劃報告
- 2025-2030物聯(lián)網(wǎng)家居系統(tǒng)應(yīng)用場景智能家居行業(yè)發(fā)展競爭現(xiàn)狀分析市場規(guī)劃報告
- 2025-2030物聯(lián)網(wǎng)aga數(shù)據(jù)采集器應(yīng)用環(huán)境研究能耗梯度智能感知市場前景商業(yè)模式特征剖析
- 高校體育課廣告營銷策劃方案
- 機(jī)動車安全駕駛模擬考試題庫
- 通信合作項目合同協(xié)議范本
- 影視制作后期特效技術(shù)實(shí)操解析
- 道路交通安全責(zé)任書標(biāo)準(zhǔn)文本
- 航測遙感數(shù)據(jù)處理與分析方案
- 學(xué)前教育課程改革方案
- 商超信息系統(tǒng)操作規(guī)定
- 如何做好一名護(hù)理帶教老師
- 房地產(chǎn)項目回款策略與現(xiàn)金流管理
- 花溪區(qū)高坡苗族鄉(xiāng)國土空間總體規(guī)劃 (2021-2035)
- 非連續(xù)性文本閱讀(中考試題20篇)-2024年中考語文重難點(diǎn)復(fù)習(xí)攻略(解析版)
- 專題13 三角函數(shù)中的最值模型之胡不歸模型(原卷版)
- 門診藥房西藥管理制度
- 新能源汽車生產(chǎn)代工合同
- 2025年中煤科工集團(tuán)重慶研究院有限公司招聘筆試參考題庫含答案解析
- 消防救援預(yù)防職務(wù)犯罪
- 一體化泵站安裝施工方案
評論
0/150
提交評論