丨常見(jiàn)誤區(qū)及解決方法上多重檢驗(yàn)問(wèn)題和學(xué)習(xí)效應(yīng)_第1頁(yè)
丨常見(jiàn)誤區(qū)及解決方法上多重檢驗(yàn)問(wèn)題和學(xué)習(xí)效應(yīng)_第2頁(yè)
丨常見(jiàn)誤區(qū)及解決方法上多重檢驗(yàn)問(wèn)題和學(xué)習(xí)效應(yīng)_第3頁(yè)
丨常見(jiàn)誤區(qū)及解決方法上多重檢驗(yàn)問(wèn)題和學(xué)習(xí)效應(yīng)_第4頁(yè)
丨常見(jiàn)誤區(qū)及解決方法上多重檢驗(yàn)問(wèn)題和學(xué)習(xí)效應(yīng)_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

畢竟,在搞清楚問(wèn)題原理的前提下,再學(xué)習(xí)問(wèn)題的表現(xiàn)形式和解決方法,不僅你的學(xué)習(xí)效果會(huì)事半功倍,而且在實(shí)際應(yīng)用時(shí),你也能根據(jù)變化多端的業(yè)務(wù)場(chǎng)景,隨機(jī)應(yīng)變,靈活運(yùn)用。多重檢驗(yàn)問(wèn)題(MultipleTesting多重檢驗(yàn)問(wèn)題,又叫多重測(cè)試問(wèn)題或多重比較問(wèn)題(MultipleComparisonProblem),個(gè)問(wèn)題。我在基礎(chǔ)篇講A/B測(cè)試流程時(shí)就多次提到過(guò)它,比如第4節(jié)課講OEC處時(shí),還有第7節(jié)課講什么時(shí)間才能查看時(shí)要搞清楚多重檢驗(yàn)為什么會(huì)是一個(gè)問(wèn)題,我們還得先從第一類(lèi)錯(cuò)誤率α(又叫假陽(yáng)性率,顯著水平,是測(cè)試前的預(yù)設(shè)值,一般為5%)說(shuō)起。我在第2節(jié)課也講過(guò),第一類(lèi)錯(cuò)誤率指的就是當(dāng)事實(shí)上兩組指標(biāo)是相同的時(shí)候,假設(shè)檢驗(yàn)推斷出兩組指標(biāo)不同的概率,或者說(shuō)由于偶然得到顯著結(jié)果的概率。而且,它在統(tǒng)計(jì)上的約定俗成是5%。5%看上去是個(gè)小概率,但是如果我們同時(shí)比較20個(gè)檢驗(yàn)(測(cè)試)呢?你可以先思考一下,如果每個(gè)檢驗(yàn)出現(xiàn)第一類(lèi)錯(cuò)誤的概率是5%,那么在這20個(gè)檢驗(yàn)中至少出現(xiàn)一個(gè)第要直接求出這個(gè)的概率不太容易,我們可以先求出這個(gè)發(fā)生情況的,也就是在這20個(gè)檢驗(yàn)中完全沒(méi)有出現(xiàn)第一類(lèi)錯(cuò)誤的概率,然后再用100%減去這個(gè)的這里我們用P(A)來(lái)表示出現(xiàn)A的概率。P(每個(gè)檢驗(yàn)出現(xiàn)第一類(lèi)錯(cuò)誤)=5%,那么P(每個(gè)檢驗(yàn)不出現(xiàn)第一類(lèi)錯(cuò)誤)=(1-5%)=95%,所以P(20個(gè)檢驗(yàn)中完全沒(méi)有第一類(lèi)錯(cuò)誤)=95%的20次方。P(至少出現(xiàn)一個(gè)第一類(lèi)錯(cuò)誤)FWER(Family-wiseError通過(guò)計(jì)算得出來(lái)的概率是64%。這就意味著當(dāng)同時(shí)比較20個(gè)檢驗(yàn)時(shí),在這20個(gè)結(jié)果中,至少出現(xiàn)一個(gè)第一類(lèi)錯(cuò)誤的概率是64%。看看,這是不是個(gè)很大的概率了呢?事實(shí)圖中的藍(lán)線(xiàn)和橙線(xiàn)分別表示當(dāng)α=51FWER當(dāng)α越小時(shí),F(xiàn)WER這就意味著,當(dāng)我們同時(shí)比較多個(gè)檢驗(yàn)時(shí),就增加了得到第一類(lèi)錯(cuò)誤的概率(FWER),這就變成了一個(gè)潛在的多重檢驗(yàn)問(wèn)題。你可能會(huì)說(shuō)我平時(shí)都是一個(gè)測(cè)試一個(gè)測(cè)試去跑,不會(huì)同時(shí)跑多個(gè)測(cè)試,是不是就不會(huì)遇到這個(gè)問(wèn)題了呢?其實(shí)不是的,實(shí)踐中出現(xiàn)多重檢驗(yàn)問(wèn)題比你要普遍得多,它在實(shí)踐中主要以4種形式出現(xiàn)。第一種形式,當(dāng)A/B每個(gè)實(shí)驗(yàn)組只變化一個(gè)變量,在分析結(jié)果時(shí)分別用每個(gè)實(shí)驗(yàn)組和共同的對(duì)照組進(jìn)行比較,這種測(cè)試方法也叫做AB/n測(cè)試。比如要改變來(lái)提升其效果,那么想要改變的變量包括內(nèi)容、背景顏色、字體大小等等,這個(gè)時(shí)候我就要有相對(duì)應(yīng)的3個(gè)實(shí)驗(yàn)組,然后把它們分別和對(duì)照組進(jìn)行比較。3A/B第三種形式,當(dāng)你在分析A/B,按照不同的維度去做細(xì)分分析(Segmentation比如對(duì)于一個(gè)公司來(lái)說(shuō),很多AB測(cè)試會(huì)在全球多個(gè)國(guó)家同時(shí)進(jìn)行,這時(shí)候如果我們想要看AB測(cè)試中的變化對(duì)于各個(gè)國(guó)家的具體影響時(shí),就會(huì)以國(guó)家為維度來(lái)做細(xì)分的分析,會(huì)分別比較單個(gè)國(guó)家中的兩組指標(biāo)大小,那么此時(shí)分析每個(gè)國(guó)家的就是一個(gè)檢驗(yàn),多個(gè)國(guó)家則是多個(gè)檢驗(yàn)。第四種形式,當(dāng)A/B這種情況我在第7節(jié)課中提到過(guò),因?yàn)楫?dāng)測(cè)試還在進(jìn)行中,所以每次查看的測(cè)試都和首先我要提前說(shuō)明的是,接下來(lái)我介紹的解決方法,只適用于前3種表現(xiàn)形式。對(duì)于第47A/B保持每個(gè)檢驗(yàn)的P值不變,調(diào)整α保持α不變,調(diào)整每個(gè)檢驗(yàn)的P值。在第2節(jié)課,我們介紹了用P值來(lái)判斷假設(shè)檢驗(yàn)的結(jié)果是否顯著時(shí),是用檢驗(yàn)中計(jì)算出的P值和α進(jìn)行比較的。當(dāng)P值<α?xí)r,我們才說(shuō)結(jié)果顯著。所以,我們要么調(diào)整α,要么調(diào)整P值。前面我也說(shuō)了,降低α是一種解決辦法,最常用的調(diào)整α的方法是 Bonferroni校正(BonferroniCorrection),其實(shí)很簡(jiǎn)單,就是把α其中nα=520α=5%/200.25%,此時(shí)的FWER=1?(1?

=4.88α=5Bonferroni校正由于操作簡(jiǎn)單,在A/B測(cè)試的實(shí)踐中十分流行,但是這種方法只是調(diào)整了α,對(duì)于不同的P值都采取了一刀切的辦法,所以顯得有些保守,檢測(cè)次數(shù)較少時(shí)還可以根據(jù)實(shí)踐經(jīng)驗(yàn),在檢測(cè)次數(shù)較大時(shí)(A/B是做不同維度的細(xì)分分析時(shí),比如對(duì)于公司來(lái)說(shuō),有時(shí)會(huì)有上百個(gè)markets),Bonferroni校正會(huì)顯著增加第二類(lèi)錯(cuò)誤率β,這時(shí)候一個(gè)比較好的解決辦法就是去調(diào)整P值,常用的方法就是通過(guò)控制FDR(False 控制FDR的原理比較復(fù)雜,我就不展開(kāi)講了,你只需要記住它指的是一類(lèi)方法,其中最常用的是BH法(Benjamini-HochbergProcedure)就行了。BH考慮到每個(gè)P的大小,然后做不同程度的調(diào)整。大致的調(diào)整方法就是把各個(gè)檢驗(yàn)計(jì)算出的P值從小到大排序,然后根據(jù)排序來(lái)分別調(diào)整不同的P值,最后再用調(diào)整后的P值和α進(jìn)行比較。實(shí)踐中,我們一般會(huì)借助像Python這樣的工具來(lái)計(jì)算,Python中的multipletestsBonferroniBH法,我們使用時(shí)只需要把不同的P的P值。Bonferroni我會(huì)更推薦使用BH法來(lái)矯正P值。聊完了多重檢驗(yàn)問(wèn)題,我們?cè)倭囊幌翧/B(Learning當(dāng)我們想通過(guò)A/B測(cè)試檢驗(yàn)非常明顯的變化時(shí),比如改變或者產(chǎn)品的交互界面和功能,那些或者產(chǎn)品的老客戶(hù)往往適應(yīng)了之前的交互界面和功能,而新的交互界面和功第一種是積極的反應(yīng),一般也叫做新應(yīng)(NoveltyEffect),指的是老用戶(hù)對(duì)于變化有比如把點(diǎn)擊按鈕的顏色,由之前的冷色調(diào)變成了非常艷麗的大紅色,在短期內(nèi)可能會(huì)使諸如點(diǎn)擊率之類(lèi)的指標(biāo)提升,但是當(dāng)用戶(hù)適應(yīng)了新的大紅色后,長(zhǎng)期的指標(biāo)也可能回歸到之前的水平。第二種是消極的反應(yīng),一般也叫做改變厭惡(ChangeAversion)。指的是老用戶(hù)對(duì)于變比如你經(jīng)常光顧的,之前的加入購(gòu)物車(chē)功能是在屏幕的左上方,但是交互界面改變后加入購(gòu)物車(chē)的位置變到了屏幕的右下方,這個(gè)時(shí)候你可能就需要在屏幕上找一陣子才能找到,甚至找了一圈沒(méi)找到,因?yàn)闊┰昃完P(guān)掉了頁(yè)面,那么這時(shí)候短期的指標(biāo)就會(huì)下降??梢韵胂?,這些在學(xué)習(xí)適應(yīng)期的不同反應(yīng)一般是短期的,長(zhǎng)期來(lái)看這些短期反應(yīng)也是會(huì)慢慢消退的。但是要注意的是,這些短期的學(xué)習(xí)效應(yīng)確實(shí)會(huì)給A/B測(cè)試的結(jié)果帶來(lái)干擾,使結(jié)果變得過(guò)于好或者過(guò)于差。那么我們?nèi)绾蝸?lái)及時(shí)發(fā)現(xiàn)學(xué)習(xí)效應(yīng),從而剔除學(xué)習(xí)效應(yīng)帶來(lái)的干擾呢?但是當(dāng)有學(xué)習(xí)效應(yīng)時(shí),因?yàn)閷W(xué)習(xí)效應(yīng)是短期的,長(zhǎng)期來(lái)看慢慢會(huì)消退,那么實(shí)驗(yàn)組(有變化的組)的指標(biāo)就會(huì)有一個(gè)隨著時(shí)間慢慢變化的過(guò)程,直到穩(wěn)定。如果是新應(yīng),實(shí)驗(yàn)組的指標(biāo)可能會(huì)由剛開(kāi)始的迅速提升,到隨著時(shí)間慢慢降低。當(dāng)然我們?cè)谑褂眠@個(gè)方法時(shí)需要注意:隨著時(shí)間表征實(shí)驗(yàn)組的指標(biāo)變化,但并不是讓你每天去比較實(shí)驗(yàn)組和對(duì)照組的大小。如果每天都去比較,就會(huì)出現(xiàn)我們剛才講的多重檢驗(yàn)的問(wèn)題。一定要記住,只有達(dá)到樣本量之后才可以去比較兩組大小,分析。學(xué)習(xí)效應(yīng)是老用戶(hù)為了學(xué)習(xí)適應(yīng)新的變化產(chǎn)生的,所以對(duì)于新用戶(hù),也就是在實(shí)驗(yàn)期間才第一次登錄的用戶(hù)來(lái)說(shuō),并不存在“學(xué)習(xí)適應(yīng)新的變化”這個(gè)問(wèn)題,那么我們可以先在兩組找出新用戶(hù)(如果是隨機(jī)分組的話(huà),兩組中新用戶(hù)的比例應(yīng)該是相似的),然后只在兩組的新用戶(hù)中分別計(jì)算我們的指標(biāo),最后再比較這兩個(gè)指標(biāo)。如果我們?cè)谛掠脩?hù)的比較中沒(méi)有得出顯著結(jié)果(在新用戶(hù)樣本量充足的情況下),但是在總體的比較中得出了顯著結(jié)果,那就說(shuō)明這個(gè)變化對(duì)于新用戶(hù)沒(méi)有影響,但是對(duì)于老用戶(hù)有影響,那么大概率是出現(xiàn)了學(xué)習(xí)效應(yīng)。在實(shí)踐中我們可以用以上方法檢測(cè)出學(xué)習(xí)效應(yīng),不過(guò)要想真正排除學(xué)習(xí)效應(yīng)的影響,得到準(zhǔn)確的實(shí)驗(yàn)結(jié)果,還是要延長(zhǎng)測(cè)試時(shí)間,等到實(shí)驗(yàn)組的學(xué)習(xí)效應(yīng)消退再來(lái)比較兩組的結(jié)果。今天這節(jié)課我們重點(diǎn)講解了AB測(cè)試中兩個(gè)常見(jiàn)的實(shí)驗(yàn)誤區(qū):多重檢驗(yàn)問(wèn)題和學(xué)習(xí)效應(yīng)。我把這兩個(gè)問(wèn)題出現(xiàn)的原理、在實(shí)踐中的多種表現(xiàn)形式,以及相應(yīng)的解決方法,都給你詳細(xì)講解了。不過(guò)我還想特別強(qiáng)調(diào)一下多重檢驗(yàn)問(wèn)題。多重檢驗(yàn)問(wèn)題的表現(xiàn)形式多種多樣,所以在A/B測(cè)試中尤為常見(jiàn)。我在剛接觸A/B測(cè)試時(shí)就已經(jīng)知道了這個(gè)問(wèn)題的存在,不過(guò)當(dāng)時(shí)了解到的是它會(huì)在A/B/n測(cè)試中出現(xiàn),但后來(lái)才發(fā)現(xiàn),原來(lái)在做細(xì)分分析時(shí)也會(huì)出現(xiàn)多重檢驗(yàn)的幸好這個(gè)問(wèn)題發(fā)現(xiàn)得及時(shí),才沒(méi)有讓整個(gè)測(cè)試功虧一簣?,F(xiàn)在再去復(fù)盤(pán),主要還是因?yàn)楫?dāng)時(shí)只知道多重檢驗(yàn)問(wèn)題的存在,了解其中一兩個(gè)表現(xiàn)形式。但對(duì)于為什么會(huì)出現(xiàn)多重檢驗(yàn)問(wèn)題,什么時(shí)候可能會(huì)出現(xiàn)多重檢驗(yàn)問(wèn)題,我都不清楚,所以在問(wèn)題出現(xiàn)新的表現(xiàn)形式時(shí)就沒(méi)有及時(shí)識(shí)別出來(lái)。結(jié)合自己的經(jīng)驗(yàn),想過(guò)去有沒(méi)有在A/B測(cè)試中遇到多重檢驗(yàn)問(wèn)題和學(xué)習(xí)效應(yīng)?以及當(dāng)歡迎在評(píng)論區(qū)寫(xiě)下你學(xué)習(xí)本節(jié)課的收獲和深度思考,如果今天的內(nèi)容能幫你解答了一些困惑問(wèn)題,也歡迎點(diǎn)擊“請(qǐng)朋友讀”,和他一起學(xué)習(xí)、成長(zhǎng)。感謝你的收聽(tīng),我們下節(jié)課再 不得售賣(mài)。頁(yè)面已增加防盜追蹤,將依法其上一篇09|不顯著,要怎么改善下一篇11|常見(jiàn)誤區(qū)及解決方法(下):悖論和實(shí)驗(yàn)組/對(duì)照組的獨(dú)立言言A/B1.只要進(jìn)行了多個(gè)AB測(cè)試(而不論是不是由文中提到的四種產(chǎn)生形式)就必然產(chǎn)生多重檢作者回復(fù):你好1.于你的一個(gè)點(diǎn)百科里的來(lái)回答Noehtofrehelipleoprionsoblmistinryiionwheerlhohesarepiilly,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論