丨常見(jiàn)誤區(qū)及解決方法上多重檢驗(yàn)問(wèn)題和學(xué)習(xí)效應(yīng)

上傳人：我*** IP屬地：北京上傳時(shí)間：2023-07-29 格式：DOCX 頁(yè)數(shù)：10 大?。?08.57KB 積分：9.6 舉報(bào) 版權(quán)申訴

丨常見(jiàn)誤區(qū)及解決方法上多重檢驗(yàn)問(wèn)題和學(xué)習(xí)效應(yīng)_第2頁(yè)

丨常見(jiàn)誤區(qū)及解決方法上多重檢驗(yàn)問(wèn)題和學(xué)習(xí)效應(yīng)_第3頁(yè)

丨常見(jiàn)誤區(qū)及解決方法上多重檢驗(yàn)問(wèn)題和學(xué)習(xí)效應(yīng)_第4頁(yè)

丨常見(jiàn)誤區(qū)及解決方法上多重檢驗(yàn)問(wèn)題和學(xué)習(xí)效應(yīng)_第5頁(yè)

已閱讀5頁(yè)，還剩5頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

畢竟，在搞清楚問(wèn)題原理的前提下，再學(xué)習(xí)問(wèn)題的表現(xiàn)形式和解決方法，不僅你的學(xué)習(xí)效果會(huì)事半功倍，而且在實(shí)際應(yīng)用時(shí)，你也能根據(jù)變化多端的業(yè)務(wù)場(chǎng)景，隨機(jī)應(yīng)變，靈活運(yùn)用。多重檢驗(yàn)問(wèn)題（MultipleTesting多重檢驗(yàn)問(wèn)題，又叫多重測(cè)試問(wèn)題或多重比較問(wèn)題（MultipleComparisonProblem），個(gè)問(wèn)題。我在基礎(chǔ)篇講A/B測(cè)試流程時(shí)就多次提到過(guò)它，比如第4節(jié)課講OEC處時(shí)，還有第7節(jié)課講什么時(shí)間才能查看時(shí)要搞清楚多重檢驗(yàn)為什么會(huì)是一個(gè)問(wèn)題，我們還得先從第一類(lèi)錯(cuò)誤率α（又叫假陽(yáng)性率，顯著水平，是測(cè)試前的預(yù)設(shè)值，一般為5%）說(shuō)起。我在第2節(jié)課也講過(guò)，第一類(lèi)錯(cuò)誤率指的就是當(dāng)事實(shí)上兩組指標(biāo)是相同的時(shí)候，假設(shè)檢驗(yàn)推斷出兩組指標(biāo)不同的概率，或者說(shuō)由于偶然得到顯著結(jié)果的概率。而且，它在統(tǒng)計(jì)上的約定俗成是5%。5%看上去是個(gè)小概率，但是如果我們同時(shí)比較20個(gè)檢驗(yàn)（測(cè)試）呢？你可以先思考一下，如果每個(gè)檢驗(yàn)出現(xiàn)第一類(lèi)錯(cuò)誤的概率是5%，那么在這20個(gè)檢驗(yàn)中至少出現(xiàn)一個(gè)第要直接求出這個(gè)的概率不太容易，我們可以先求出這個(gè)發(fā)生情況的，也就是在這20個(gè)檢驗(yàn)中完全沒(méi)有出現(xiàn)第一類(lèi)錯(cuò)誤的概率，然后再用100%減去這個(gè)的這里我們用P（A）來(lái)表示出現(xiàn)A的概率。P（每個(gè)檢驗(yàn)出現(xiàn)第一類(lèi)錯(cuò)誤）=5%，那么P（每個(gè)檢驗(yàn)不出現(xiàn)第一類(lèi)錯(cuò)誤）=（1-5%）=95%，所以P（20個(gè)檢驗(yàn)中完全沒(méi)有第一類(lèi)錯(cuò)誤）=95%的20次方。P（至少出現(xiàn)一個(gè)第一類(lèi)錯(cuò)誤）FWER（Family-wiseError通過(guò)計(jì)算得出來(lái)的概率是64%。這就意味著當(dāng)同時(shí)比較20個(gè)檢驗(yàn)時(shí)，在這20個(gè)結(jié)果中，至少出現(xiàn)一個(gè)第一類(lèi)錯(cuò)誤的概率是64%。看看，這是不是個(gè)很大的概率了呢？事實(shí)圖中的藍(lán)線(xiàn)和橙線(xiàn)分別表示當(dāng)α=51FWER當(dāng)α越小時(shí)，F(xiàn)WER這就意味著，當(dāng)我們同時(shí)比較多個(gè)檢驗(yàn)時(shí)，就增加了得到第一類(lèi)錯(cuò)誤的概率（FWER），這就變成了一個(gè)潛在的多重檢驗(yàn)問(wèn)題。你可能會(huì)說(shuō)我平時(shí)都是一個(gè)測(cè)試一個(gè)測(cè)試去跑，不會(huì)同時(shí)跑多個(gè)測(cè)試，是不是就不會(huì)遇到這個(gè)問(wèn)題了呢？其實(shí)不是的，實(shí)踐中出現(xiàn)多重檢驗(yàn)問(wèn)題比你要普遍得多，它在實(shí)踐中主要以4種形式出現(xiàn)。第一種形式，當(dāng)A/B每個(gè)實(shí)驗(yàn)組只變化一個(gè)變量，在分析結(jié)果時(shí)分別用每個(gè)實(shí)驗(yàn)組和共同的對(duì)照組進(jìn)行比較，這種測(cè)試方法也叫做AB/n測(cè)試。比如要改變來(lái)提升其效果，那么想要改變的變量包括內(nèi)容、背景顏色、字體大小等等，這個(gè)時(shí)候我就要有相對(duì)應(yīng)的3個(gè)實(shí)驗(yàn)組，然后把它們分別和對(duì)照組進(jìn)行比較。3A/B第三種形式，當(dāng)你在分析A/B，按照不同的維度去做細(xì)分分析（Segmentation比如對(duì)于一個(gè)公司來(lái)說(shuō)，很多AB測(cè)試會(huì)在全球多個(gè)國(guó)家同時(shí)進(jìn)行，這時(shí)候如果我們想要看AB測(cè)試中的變化對(duì)于各個(gè)國(guó)家的具體影響時(shí)，就會(huì)以國(guó)家為維度來(lái)做細(xì)分的分析，會(huì)分別比較單個(gè)國(guó)家中的兩組指標(biāo)大小，那么此時(shí)分析每個(gè)國(guó)家的就是一個(gè)檢驗(yàn)，多個(gè)國(guó)家則是多個(gè)檢驗(yàn)。第四種形式，當(dāng)A/B這種情況我在第7節(jié)課中提到過(guò)，因?yàn)楫?dāng)測(cè)試還在進(jìn)行中，所以每次查看的測(cè)試都和首先我要提前說(shuō)明的是，接下來(lái)我介紹的解決方法，只適用于前3種表現(xiàn)形式。對(duì)于第47A/B保持每個(gè)檢驗(yàn)的P值不變，調(diào)整α保持α不變，調(diào)整每個(gè)檢驗(yàn)的P值。在第2節(jié)課，我們介紹了用P值來(lái)判斷假設(shè)檢驗(yàn)的結(jié)果是否顯著時(shí)，是用檢驗(yàn)中計(jì)算出的P值和α進(jìn)行比較的。當(dāng)P值<α?xí)r，我們才說(shuō)結(jié)果顯著。所以，我們要么調(diào)整α，要么調(diào)整P值。前面我也說(shuō)了，降低α是一種解決辦法，最常用的調(diào)整α的方法是 Bonferroni校正（BonferroniCorrection），其實(shí)很簡(jiǎn)單，就是把α其中nα=520α=5%/200.25%，此時(shí)的FWER=1?(1?

=4.88α=5Bonferroni校正由于操作簡(jiǎn)單，在A/B測(cè)試的實(shí)踐中十分流行，但是這種方法只是調(diào)整了α，對(duì)于不同的P值都采取了一刀切的辦法，所以顯得有些保守，檢測(cè)次數(shù)較少時(shí)還可以根據(jù)實(shí)踐經(jīng)驗(yàn)，在檢測(cè)次數(shù)較大時(shí)（A/B是做不同維度的細(xì)分分析時(shí)，比如對(duì)于公司來(lái)說(shuō)，有時(shí)會(huì)有上百個(gè)markets），Bonferroni校正會(huì)顯著增加第二類(lèi)錯(cuò)誤率β，這時(shí)候一個(gè)比較好的解決辦法就是去調(diào)整P值，常用的方法就是通過(guò)控制FDR（False 控制FDR的原理比較復(fù)雜，我就不展開(kāi)講了，你只需要記住它指的是一類(lèi)方法，其中最常用的是BH法（Benjamini-HochbergProcedure）就行了。BH考慮到每個(gè)P的大小，然后做不同程度的調(diào)整。大致的調(diào)整方法就是把各個(gè)檢驗(yàn)計(jì)算出的P值從小到大排序，然后根據(jù)排序來(lái)分別調(diào)整不同的P值，最后再用調(diào)整后的P值和α進(jìn)行比較。實(shí)踐中，我們一般會(huì)借助像Python這樣的工具來(lái)計(jì)算，Python中的multipletestsBonferroniBH法，我們使用時(shí)只需要把不同的P的P值。Bonferroni我會(huì)更推薦使用BH法來(lái)矯正P值。聊完了多重檢驗(yàn)問(wèn)題，我們?cè)倭囊幌翧/B(Learning當(dāng)我們想通過(guò)A/B測(cè)試檢驗(yàn)非常明顯的變化時(shí)，比如改變或者產(chǎn)品的交互界面和功能，那些或者產(chǎn)品的老客戶(hù)往往適應(yīng)了之前的交互界面和功能，而新的交互界面和功第一種是積極的反應(yīng)，一般也叫做新應(yīng)（NoveltyEffect），指的是老用戶(hù)對(duì)于變化有比如把點(diǎn)擊按鈕的顏色，由之前的冷色調(diào)變成了非常艷麗的大紅色，在短期內(nèi)可能會(huì)使諸如點(diǎn)擊率之類(lèi)的指標(biāo)提升，但是當(dāng)用戶(hù)適應(yīng)了新的大紅色后，長(zhǎng)期的指標(biāo)也可能回歸到之前的水平。第二種是消極的反應(yīng)，一般也叫做改變厭惡（ChangeAversion）。指的是老用戶(hù)對(duì)于變比如你經(jīng)常光顧的，之前的加入購(gòu)物車(chē)功能是在屏幕的左上方，但是交互界面改變后加入購(gòu)物車(chē)的位置變到了屏幕的右下方，這個(gè)時(shí)候你可能就需要在屏幕上找一陣子才能找到，甚至找了一圈沒(méi)找到，因?yàn)闊┰昃完P(guān)掉了頁(yè)面，那么這時(shí)候短期的指標(biāo)就會(huì)下降?？梢韵胂?，這些在學(xué)習(xí)適應(yīng)期的不同反應(yīng)一般是短期的，長(zhǎng)期來(lái)看這些短期反應(yīng)也是會(huì)慢慢消退的。但是要注意的是，這些短期的學(xué)習(xí)效應(yīng)確實(shí)會(huì)給A/B測(cè)試的結(jié)果帶來(lái)干擾，使結(jié)果變得過(guò)于好或者過(guò)于差。那么我們?nèi)绾蝸?lái)及時(shí)發(fā)現(xiàn)學(xué)習(xí)效應(yīng)，從而剔除學(xué)習(xí)效應(yīng)帶來(lái)的干擾呢？但是當(dāng)有學(xué)習(xí)效應(yīng)時(shí)，因?yàn)閷W(xué)習(xí)效應(yīng)是短期的，長(zhǎng)期來(lái)看慢慢會(huì)消退，那么實(shí)驗(yàn)組（有變化的組）的指標(biāo)就會(huì)有一個(gè)隨著時(shí)間慢慢變化的過(guò)程，直到穩(wěn)定。如果是新應(yīng)，實(shí)驗(yàn)組的指標(biāo)可能會(huì)由剛開(kāi)始的迅速提升，到隨著時(shí)間慢慢降低。當(dāng)然我們?cè)谑褂眠@個(gè)方法時(shí)需要注意：隨著時(shí)間表征實(shí)驗(yàn)組的指標(biāo)變化，但并不是讓你每天去比較實(shí)驗(yàn)組和對(duì)照組的大小。如果每天都去比較，就會(huì)出現(xiàn)我們剛才講的多重檢驗(yàn)的問(wèn)題。一定要記住，只有達(dá)到樣本量之后才可以去比較兩組大小，分析。學(xué)習(xí)效應(yīng)是老用戶(hù)為了學(xué)習(xí)適應(yīng)新的變化產(chǎn)生的，所以對(duì)于新用戶(hù)，也就是在實(shí)驗(yàn)期間才第一次登錄的用戶(hù)來(lái)說(shuō)，并不存在“學(xué)習(xí)適應(yīng)新的變化”這個(gè)問(wèn)題，那么我們可以先在兩組找出新用戶(hù)（如果是隨機(jī)分組的話(huà)，兩組中新用戶(hù)的比例應(yīng)該是相似的），然后只在兩組的新用戶(hù)中分別計(jì)算我們的指標(biāo)，最后再比較這兩個(gè)指標(biāo)。如果我們?cè)谛掠脩?hù)的比較中沒(méi)有得出顯著結(jié)果（在新用戶(hù)樣本量充足的情況下），但是在總體的比較中得出了顯著結(jié)果，那就說(shuō)明這個(gè)變化對(duì)于新用戶(hù)沒(méi)有影響，但是對(duì)于老用戶(hù)有影響，那么大概率是出現(xiàn)了學(xué)習(xí)效應(yīng)。在實(shí)踐中我們可以用以上方法檢測(cè)出學(xué)習(xí)效應(yīng)，不過(guò)要想真正排除學(xué)習(xí)效應(yīng)的影響，得到準(zhǔn)確的實(shí)驗(yàn)結(jié)果，還是要延長(zhǎng)測(cè)試時(shí)間，等到實(shí)驗(yàn)組的學(xué)習(xí)效應(yīng)消退再來(lái)比較兩組的結(jié)果。今天這節(jié)課我們重點(diǎn)講解了AB測(cè)試中兩個(gè)常見(jiàn)的實(shí)驗(yàn)誤區(qū)：多重檢驗(yàn)問(wèn)題和學(xué)習(xí)效應(yīng)。我把這兩個(gè)問(wèn)題出現(xiàn)的原理、在實(shí)踐中的多種表現(xiàn)形式，以及相應(yīng)的解決方法，都給你詳細(xì)講解了。不過(guò)我還想特別強(qiáng)調(diào)一下多重檢驗(yàn)問(wèn)題。多重檢驗(yàn)問(wèn)題的表現(xiàn)形式多種多樣，所以在A/B測(cè)試中尤為常見(jiàn)。我在剛接觸A/B測(cè)試時(shí)就已經(jīng)知道了這個(gè)問(wèn)題的存在，不過(guò)當(dāng)時(shí)了解到的是它會(huì)在A/B/n測(cè)試中出現(xiàn)，但后來(lái)才發(fā)現(xiàn)，原來(lái)在做細(xì)分分析時(shí)也會(huì)出現(xiàn)多重檢驗(yàn)的幸好這個(gè)問(wèn)題發(fā)現(xiàn)得及時(shí)，才沒(méi)有讓整個(gè)測(cè)試功虧一簣?，F(xiàn)在再去復(fù)盤(pán)，主要還是因?yàn)楫?dāng)時(shí)只知道多重檢驗(yàn)問(wèn)題的存在，了解其中一兩個(gè)表現(xiàn)形式。但對(duì)于為什么會(huì)出現(xiàn)多重檢驗(yàn)問(wèn)題，什么時(shí)候可能會(huì)出現(xiàn)多重檢驗(yàn)問(wèn)題，我都不清楚，所以在問(wèn)題出現(xiàn)新的表現(xiàn)形式時(shí)就沒(méi)有及時(shí)識(shí)別出來(lái)。結(jié)合自己的經(jīng)驗(yàn)，想過(guò)去有沒(méi)有在A/B測(cè)試中遇到多重檢驗(yàn)問(wèn)題和學(xué)習(xí)效應(yīng)？以及當(dāng)歡迎在評(píng)論區(qū)寫(xiě)下你學(xué)習(xí)本節(jié)課的收獲和深度思考，如果今天的內(nèi)容能幫你解答了一些困惑問(wèn)題，也歡迎點(diǎn)擊“請(qǐng)朋友讀”，和他一起學(xué)習(xí)、成長(zhǎng)。感謝你的收聽(tīng)，我們下節(jié)課再不得售賣(mài)。頁(yè)面已增加防盜追蹤，將依法其上一篇09｜不顯著，要怎么改善下一篇11|常見(jiàn)誤區(qū)及解決方法（下）：悖論和實(shí)驗(yàn)組/對(duì)照組的獨(dú)立言言A/B1.只要進(jìn)行了多個(gè)AB測(cè)試（而不論是不是由文中提到的四種產(chǎn)生形式）就必然產(chǎn)生多重檢作者回復(fù):你好1.于你的一個(gè)點(diǎn)百科里的來(lái)回答Noehtofrehelipleoprionsoblmistinryiionwheerlhohesarepiilly,

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

丨常見(jiàn)誤區(qū)及解決方法上多重檢驗(yàn)問(wèn)題和學(xué)習(xí)效應(yīng)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔