版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
可信實(shí)驗(yàn)白皮書(方法指南篇)前言為什么要寫AB實(shí)驗(yàn)白皮書?增長(zhǎng)與優(yōu)化是企業(yè)永恒的主題。面對(duì)未知的策略價(jià)值,數(shù)據(jù)驅(qū)動(dòng)的AB實(shí)驗(yàn)已經(jīng)成為互聯(lián)網(wǎng)企業(yè)在策略驗(yàn)證、產(chǎn)品迭代、算法優(yōu)化、風(fēng)險(xiǎn)控制等方向必備的工具。越來(lái)越多的崗位,如數(shù)據(jù)科學(xué)家、算法工程師、產(chǎn)品經(jīng)理以及運(yùn)營(yíng)人員等,要求候選人了解AB實(shí)驗(yàn)相關(guān)知識(shí)。然而,許多從業(yè)者由于缺乏有效的學(xué)習(xí)渠道,對(duì)AB
實(shí)驗(yàn)的理解仍停留在初級(jí)階段,甚至存在一些誤解。我們希望通過(guò)系統(tǒng)性地分享和交流AB
實(shí)驗(yàn)的理論基礎(chǔ)、基本流程、核心要素及其應(yīng)用優(yōu)勢(shì),能夠幫助更多相關(guān)人員深入了解實(shí)驗(yàn),提升實(shí)驗(yàn)文化的普及度,最終輔助企業(yè)在更多領(lǐng)域做出精確數(shù)據(jù)驅(qū)動(dòng)決策。除了廣泛傳播實(shí)驗(yàn)文化外,該白皮書在深度上也可給實(shí)驗(yàn)研究人員,提供復(fù)雜業(yè)務(wù)制約下進(jìn)行可信實(shí)驗(yàn)設(shè)計(jì)與科學(xué)分析評(píng)估的參考經(jīng)驗(yàn)和啟發(fā)。從美團(tuán)履約技術(shù)團(tuán)隊(duì)、美團(tuán)外賣業(yè)務(wù)的實(shí)踐來(lái)看,實(shí)驗(yàn)者常常面臨多種復(fù)雜的實(shí)驗(yàn)制約和難題,例如,在美團(tuán)履約業(yè)務(wù)中,實(shí)驗(yàn)往往需要應(yīng)對(duì)小樣本、溢出效應(yīng)(即實(shí)驗(yàn)單元間互相干擾)以及避免引發(fā)公平性風(fēng)險(xiǎn)等多重約束,需設(shè)計(jì)科學(xué)復(fù)雜的實(shí)驗(yàn)方案以克服相應(yīng)挑戰(zhàn)。通過(guò)撰寫白皮書,我們系統(tǒng)性地總結(jié)和分享應(yīng)對(duì)復(fù)雜實(shí)驗(yàn)約束的研究經(jīng)驗(yàn),進(jìn)而能夠促進(jìn)實(shí)驗(yàn)技術(shù)的傳播與升級(jí),推動(dòng)實(shí)驗(yàn)科學(xué)持續(xù)進(jìn)步。本白皮書以AB實(shí)驗(yàn)為中心,涵蓋AB實(shí)驗(yàn)概述與價(jià)值、實(shí)驗(yàn)方法基礎(chǔ)原理與案例剖析以及配套SDK代碼分析等,內(nèi)容豐富且易于理解和應(yīng)用。適合從事AB實(shí)驗(yàn)研究可信實(shí)驗(yàn)白皮書
<
iii的數(shù)據(jù)科學(xué)家、系統(tǒng)開發(fā)人員,以及需要實(shí)驗(yàn)驅(qū)動(dòng)策略決策的業(yè)務(wù)和產(chǎn)研團(tuán)隊(duì),同時(shí)也適合對(duì)數(shù)據(jù)驅(qū)動(dòng)增長(zhǎng)和數(shù)據(jù)科學(xué)等領(lǐng)域感興趣的讀者。若本白皮書存在不當(dāng)或者錯(cuò)誤之處,歡迎大家批評(píng)指正,我們將不斷完善與豐富內(nèi)容,跟大家一起理解AB實(shí)驗(yàn)和數(shù)據(jù)科學(xué),推動(dòng)技術(shù)進(jìn)步。iv
>
可信實(shí)驗(yàn)白皮書目錄第一部分AB實(shí)驗(yàn)概述
1第一章:走進(jìn)AB實(shí)驗(yàn)
11.1了解
AB實(shí)驗(yàn)
11.2深入
AB實(shí)驗(yàn)——以到家可信實(shí)驗(yàn)為例3第二部分基礎(chǔ)原理與案例剖析10第二章:AB實(shí)驗(yàn)基礎(chǔ)
102.1實(shí)驗(yàn)基礎(chǔ)原理概述102.2
AB實(shí)驗(yàn)統(tǒng)計(jì)學(xué)基礎(chǔ)132.3常用實(shí)驗(yàn)術(shù)語(yǔ)20第三章:隨機(jī)對(duì)照實(shí)驗(yàn)213.1
經(jīng)典隨機(jī)對(duì)照實(shí)驗(yàn)213.2
提高實(shí)驗(yàn)功效的辦法363.3
進(jìn)一步保證同質(zhì)性的實(shí)驗(yàn)方式423.4
解決溢出效應(yīng)難題的實(shí)驗(yàn)方式573.5
拓展與展望65第四章:隨機(jī)輪轉(zhuǎn)實(shí)驗(yàn)
684.1拋硬幣隨機(jī)輪轉(zhuǎn)694.2完全隨機(jī)輪轉(zhuǎn)724.3配對(duì)隨機(jī)輪轉(zhuǎn)754.4
拓展與展望77第五章:準(zhǔn)實(shí)驗(yàn)
825.1雙重差分法835.2
拓展與展望90第六章:觀察性研究
936.1合成控制法946.2匹配方法1006.3Causal
Impact
1096.4展望與拓展115第七章:高階實(shí)驗(yàn)工具1187.1統(tǒng)合分析1187.2多重比較1257.3拓展與展望127第三部分SDK
代碼應(yīng)用129第八章:開放式分析引擎1298.1產(chǎn)品特性1298.2系統(tǒng)設(shè)計(jì)1318.3系統(tǒng)接入1338.4
線下分析實(shí)戰(zhàn)134總結(jié)與展望
138致謝
138可信實(shí)驗(yàn)白皮書
<
v第一部分AB實(shí)驗(yàn)概述第一章:走進(jìn)
AB實(shí)驗(yàn)1.1了解
AB
實(shí)驗(yàn)工欲善其事,必先利其器。在這個(gè)數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,AB實(shí)驗(yàn)已經(jīng)成為洞察用戶行為、優(yōu)化產(chǎn)品體驗(yàn)的不可或缺的工具。AB實(shí)驗(yàn),又稱為在線對(duì)照實(shí)驗(yàn)(OnlineControlled
Experiment),
其概念源自生物醫(yī)學(xué)中的“雙盲測(cè)試”,即將病人隨機(jī)分為兩組,在不知情的情況下分別給予安慰劑(或舊藥物)和新藥治療,經(jīng)過(guò)一段時(shí)間實(shí)驗(yàn)后再比較兩組病人是否有顯著差異,
從而確定新藥的有效性。自2000年Google將A/B實(shí)驗(yàn)應(yīng)用于互聯(lián)網(wǎng)產(chǎn)品測(cè)試以來(lái),這一方法已在包括美團(tuán)在內(nèi)的各大互聯(lián)網(wǎng)公司得到了廣泛應(yīng)用。假設(shè)美團(tuán)履約側(cè)在可為某些(用戶,
商家)提供配送服務(wù)時(shí),
想驗(yàn)證在App
的C端產(chǎn)品上彈窗以及展示某標(biāo)簽是否能促進(jìn)用戶下單意愿。此時(shí),AB實(shí)驗(yàn)提供了理想的解決方案。如圖
1-1所示,其做法為通過(guò)圈選一部分用戶并隨機(jī)分配為實(shí)驗(yàn)組和對(duì)照組(隨機(jī)分流可確保兩組在諸多特征上無(wú)差異),實(shí)驗(yàn)組用戶施加新功能/新版本策略,而對(duì)照組用戶繼續(xù)使用舊功能/舊版本策略。一段實(shí)驗(yàn)周期后基于日志系統(tǒng)和業(yè)務(wù)系統(tǒng)收集的用戶指標(biāo)數(shù)據(jù)進(jìn)行分析,比較實(shí)驗(yàn)策略與對(duì)照策略是否有顯著收益,并以此為依據(jù)判斷新策略是否應(yīng)推廣到全部用戶。可信實(shí)驗(yàn)白皮書
<
1圖1-1:AB實(shí)驗(yàn)流程AB實(shí)驗(yàn)之所以能迅速成為工業(yè)界數(shù)據(jù)驅(qū)動(dòng)決策的黃金標(biāo)準(zhǔn),主要?dú)w功于其能定性驗(yàn)證因果關(guān)系以及定量評(píng)估增長(zhǎng)價(jià)值。某個(gè)策略的改變是否會(huì)導(dǎo)致產(chǎn)品指標(biāo)的改變,本質(zhì)上需要的是一種因果關(guān)系的判斷,即“策略迭代優(yōu)化”的因是否會(huì)帶來(lái)“產(chǎn)品質(zhì)量改變”的果。單憑經(jīng)驗(yàn)以及相關(guān)性分析難以做成正確的決策,
Google和
Microsoft相關(guān)統(tǒng)計(jì)表明,即使很有經(jīng)驗(yàn)的相關(guān)人士正確判斷產(chǎn)品策略的概率也只有1/3。依賴相關(guān)性同樣可能導(dǎo)致錯(cuò)誤的決策,例如提供訂閱服務(wù)的微軟Office365觀測(cè)到看到錯(cuò)誤信息并遭遇崩潰的用戶有較低的流失率,這是因?yàn)楦呤褂寐视脩敉吹礁噱e(cuò)誤信息以及流失率更低。但這并不意味著
Office365應(yīng)該顯示更多的錯(cuò)誤信息或者降低代碼質(zhì)量使得頻繁崩潰。另一個(gè)著名的相關(guān)性案例為國(guó)家的巧克力消耗量與獲得諾貝爾獎(jiǎng)的數(shù)量相關(guān)性高達(dá)2
>
可信實(shí)驗(yàn)白皮書0.79,但這并不意味著通過(guò)提高巧克力消耗量可以提高諾貝爾獎(jiǎng)數(shù)量。實(shí)際產(chǎn)品迭代過(guò)程中往往應(yīng)透過(guò)相關(guān)性尋找真正的因果關(guān)系。而AB實(shí)驗(yàn)作為目前已知的快速、低成本、科學(xué)驗(yàn)證因果關(guān)系的最有效手段,其可以通過(guò)隨機(jī)化過(guò)程等可有效控制除干預(yù)策略外,實(shí)驗(yàn)組、對(duì)照組間其他混雜變量與影響特征是均衡的,最終的結(jié)果差異可歸因于完全由干預(yù)貢獻(xiàn)。同時(shí)借助假設(shè)檢驗(yàn)等統(tǒng)計(jì)理論,能夠科學(xué)、定性地驗(yàn)證策略迭代是否會(huì)帶來(lái)業(yè)務(wù)的真實(shí)提升。因此,在產(chǎn)品迭代中通常采用
AB實(shí)驗(yàn)識(shí)別正確的因果關(guān)系,保障迭代優(yōu)化朝著正確方向前進(jìn)。AB實(shí)驗(yàn)同樣可通過(guò)精確量化策略收益、產(chǎn)品風(fēng)險(xiǎn)和成本,定量評(píng)估增長(zhǎng)價(jià)值。例如,當(dāng)某業(yè)務(wù)希望準(zhǔn)確評(píng)估新補(bǔ)貼策略帶來(lái)的下單規(guī)模提升時(shí),最理想的方案是面對(duì)同一撥用戶,假設(shè)存在兩個(gè)完全相同的平行時(shí)空,平行時(shí)空一中所有用戶體驗(yàn)新補(bǔ)貼策略B,類似的平行時(shí)空二中所有用戶體驗(yàn)舊補(bǔ)貼策略A,通過(guò)直接對(duì)比2個(gè)平行空間的用戶行為的平均表現(xiàn)(例如人均單量),則可觀測(cè)新補(bǔ)貼策略相比舊補(bǔ)貼策略的提升效果。然而現(xiàn)實(shí)世界中不存在兩個(gè)平行時(shí)空,針對(duì)同一用戶,我們只能觀察到其接受策略A或策略B下的一種表現(xiàn),在此約束下,
AB實(shí)驗(yàn)可為我們提供了理想平行時(shí)空的一個(gè)近似替代。具體的仍如圖1-1所示,現(xiàn)實(shí)世界中通過(guò)隨機(jī)實(shí)驗(yàn)手段可將用戶隨機(jī)均勻的分為實(shí)驗(yàn)組和對(duì)照組2個(gè)足夠相似群體,并分別施加新策略以及舊策略。由于在隨機(jī)分配機(jī)制下理論上實(shí)驗(yàn)組和對(duì)照組用戶的平均表現(xiàn)可以分別代表2個(gè)平行時(shí)空下所有用戶的平均表現(xiàn)(可參閱第2章實(shí)驗(yàn)基礎(chǔ)原理),因此通過(guò)對(duì)比實(shí)驗(yàn)組、對(duì)照組間差異可以有效估計(jì)策略迭代帶來(lái)的具體收益、風(fēng)險(xiǎn)與成本,幫助實(shí)驗(yàn)者做出更為理性的決策。1.2深入
AB實(shí)驗(yàn)——以到家可信實(shí)驗(yàn)為例1.2.1
錯(cuò)綜復(fù)雜的實(shí)驗(yàn)陷阱與挑戰(zhàn)以美團(tuán)到家業(yè)務(wù)實(shí)驗(yàn)為例,如圖
1-2所示,實(shí)驗(yàn)者可能會(huì)經(jīng)常面臨各種各樣復(fù)雜的陷阱與挑戰(zhàn),處理稍有不當(dāng)則可能損失實(shí)驗(yàn)的可信度,甚至帶來(lái)錯(cuò)誤的實(shí)驗(yàn)結(jié)論??尚艑?shí)驗(yàn)白皮書
<
3圖1-2:到家實(shí)驗(yàn)難題示例具體的,以下是到家?guī)讉€(gè)常見實(shí)驗(yàn)難題的簡(jiǎn)要介紹,這些問(wèn)題也經(jīng)常出現(xiàn)在其他業(yè)務(wù)實(shí)驗(yàn)中,更多案例與解決方案可詳見后面章節(jié)。案例一:小樣本和溢出效應(yīng)是制約履約場(chǎng)景下進(jìn)行可信實(shí)驗(yàn)的兩大難題。一方面,履約配送場(chǎng)景下樣本量稀少與地域差異明顯的現(xiàn)狀,使得隨機(jī)對(duì)照實(shí)驗(yàn)下難以保證分組的業(yè)務(wù)同質(zhì)性以及很難有效地檢測(cè)出實(shí)驗(yàn)提升效果。受自身業(yè)務(wù)形態(tài)和空間維度限制,部分配送策略的最小作用單元為區(qū)域/區(qū)域組(一個(gè)配送區(qū)域可以理解為某個(gè)地域空間)。因此在實(shí)驗(yàn)設(shè)計(jì)上,我們必須考慮區(qū)域或者更粗顆粒維度的分流。然而大部分城市區(qū)域/區(qū)域組很少,僅幾十個(gè)左右。并且同城市各地域間的差異也往往比較顯著,這在數(shù)據(jù)上體現(xiàn)為區(qū)域間指標(biāo)波動(dòng)劇烈。嚴(yán)峻的小樣本與地域間差異顯著的問(wèn)題,導(dǎo)致隨機(jī)分流下通常難以檢測(cè)到策略小的提升效果,并且與結(jié)果變量相關(guān)的特征在實(shí)驗(yàn)組、對(duì)照組的分布差距可能較大,放大業(yè)務(wù)上實(shí)驗(yàn)組對(duì)照組不同質(zhì)問(wèn)題的同時(shí)給實(shí)驗(yàn)結(jié)果帶來(lái)質(zhì)疑。另一方面,溢出效應(yīng)(Spillover
effects)引發(fā)的實(shí)驗(yàn)組、對(duì)照組間的不獨(dú)立性,也會(huì)導(dǎo)致一些履約實(shí)驗(yàn)效果估計(jì)不夠精確,甚至帶來(lái)顯著的估計(jì)偏差。AB
隨機(jī)實(shí)驗(yàn)中關(guān)鍵的個(gè)體處理穩(wěn)定性假設(shè)(SUTVA)假定實(shí)驗(yàn)單元的結(jié)果不受到其他單元分組的影響,簡(jiǎn)而言之,實(shí)驗(yàn)單元間相對(duì)獨(dú)立,然而美團(tuán)履約業(yè)務(wù)策略通常會(huì)涉及用戶、商家和騎手等多方協(xié)同以及各方的相互依賴,特別是用戶訂單和騎手存在多對(duì)一耦合關(guān)系,且騎手可以跨越多個(gè)區(qū)域甚至整個(gè)城市進(jìn)行接單和配送,在這種場(chǎng)景下無(wú)論運(yùn)單還是區(qū)域等粒度的實(shí)驗(yàn),實(shí)驗(yàn)單元間都往往存在溢出、干擾,進(jìn)而造成實(shí)驗(yàn)估計(jì)不準(zhǔn)4
>
可信實(shí)驗(yàn)白皮書確。關(guān)于小樣本與溢出效應(yīng)更多案例與解決方案將在第3~5章重點(diǎn)介紹。案例二:不可忽視的方差與
P值計(jì)算陷阱,以及求和型統(tǒng)計(jì)量、ROI指標(biāo)等高階評(píng)估方法訴求。AB實(shí)驗(yàn)主要是通過(guò)在某個(gè)設(shè)定的抽樣機(jī)制下,觀察抽樣的樣本來(lái)推斷總體的提升效果,并通過(guò)顯著性檢驗(yàn)輔助判斷實(shí)驗(yàn)組、對(duì)照組之間差異是真實(shí)策略還是抽樣噪音帶來(lái)的。在該過(guò)程中通常需涉及大量統(tǒng)計(jì)學(xué)理論,包括方差、檢驗(yàn)方式和P值計(jì)算等,稍有不慎容易掉入統(tǒng)計(jì)陷阱,難以得出可靠的實(shí)驗(yàn)結(jié)論。例如當(dāng)分流單元與分析單元不一致時(shí),錯(cuò)誤的方差計(jì)算方式容易低估實(shí)際方差,導(dǎo)致假陽(yáng)性。如圖1-3左側(cè)所示,在真實(shí)策略沒有任何提升的情況下,分析單元細(xì)于分流單元時(shí)出現(xiàn)錯(cuò)誤判別策略有效的概率接近50%。正確的做法應(yīng)該是先聚合到分流單位,再應(yīng)用Delta技術(shù)推導(dǎo)的正確方差計(jì)算公式,如圖
1-3右側(cè)所示,在正確方差計(jì)算下如果真實(shí)策略沒有任何提升,
P值近似服從均勻分布,以及假陽(yáng)性錯(cuò)誤率基本控制在指定的顯著性水平5%以內(nèi)。圖1-3:10000次AA模擬下P值分布圖許多場(chǎng)景同樣存在求和型統(tǒng)計(jì)量、ROI指標(biāo)等高階評(píng)估方法訴求。例如假設(shè)策略可能影響實(shí)驗(yàn)組和對(duì)照組間用戶的活躍度(留存)。如果實(shí)驗(yàn)組策略優(yōu)于對(duì)照組,邊緣用戶可能從對(duì)照組流失,而實(shí)驗(yàn)組會(huì)吸引新用戶。這種情況下,盡管實(shí)驗(yàn)組的下單量提升,但由于轉(zhuǎn)入實(shí)驗(yàn)組的是非活躍用戶,其均值可能低于對(duì)照組均值。基于均值統(tǒng)計(jì)量的顯著性分析會(huì)拉低策略效果,甚至出現(xiàn)相反結(jié)論,不再適用,需引入求和型評(píng)估統(tǒng)計(jì)量。不同于非營(yíng)銷場(chǎng)景下關(guān)注策略的絕對(duì)提升(實(shí)驗(yàn)組觀測(cè)值-對(duì)照組觀測(cè)值)與相對(duì)提升(實(shí)驗(yàn)組觀測(cè)值/對(duì)照組觀測(cè)值-1),營(yíng)銷場(chǎng)景下有時(shí)關(guān)注
ROI:(實(shí)驗(yàn)可信實(shí)驗(yàn)白皮書
<
56
>
可信實(shí)驗(yàn)白皮書組觀測(cè)值-對(duì)照組觀測(cè)值)/(實(shí)驗(yàn)組成本-對(duì)照組成本)。無(wú)論是求和型統(tǒng)計(jì)量還是ROI統(tǒng)計(jì)量,都需要重新推導(dǎo)和適配正確的方差計(jì)算和
P值計(jì)算公式,以確保實(shí)驗(yàn)結(jié)論的準(zhǔn)確性。更多詳情可參閱第3章。案例三:受限于公平性風(fēng)險(xiǎn)等與產(chǎn)品形態(tài)無(wú)法采用傳統(tǒng)AB實(shí)驗(yàn),需引入準(zhǔn)實(shí)驗(yàn)或者觀察性研究工具評(píng)估。當(dāng)運(yùn)營(yíng)策略或產(chǎn)品升級(jí)涉及實(shí)驗(yàn)對(duì)象公平性等風(fēng)險(xiǎn),或者產(chǎn)品分流與干預(yù)不受實(shí)驗(yàn)者控制時(shí),通常需要在整城范圍內(nèi)施加策略,并采用觀察性研究進(jìn)行評(píng)估。例如,在某個(gè)城市推廣線下廣告策略時(shí),由于無(wú)法控制部分用戶看到廣告的同時(shí)部分用戶看不到,無(wú)法進(jìn)行用戶隨機(jī)
AB實(shí)驗(yàn)。同樣的,即使可在實(shí)驗(yàn)城市內(nèi)干預(yù)分組,但受限于產(chǎn)品形態(tài)、運(yùn)營(yíng)管理難度甚至溢出效應(yīng),部分實(shí)驗(yàn)也只能運(yùn)行準(zhǔn)實(shí)驗(yàn)。例如考慮在保障整體覆蓋范圍不變的情況下,對(duì)所有不重疊的區(qū)域進(jìn)行邊界優(yōu)化(新配送區(qū)域邊界劃分規(guī)則)甚至合并。此時(shí)顯然不能考慮按區(qū)域隨機(jī)分流,因?yàn)?/p>
2個(gè)相鄰的區(qū)域,在保持覆蓋范圍(并集)不變且不重疊約束下,優(yōu)化A
區(qū)域邊界必然會(huì)導(dǎo)致
B邊界跟隨變化,從產(chǎn)品形態(tài)上無(wú)法實(shí)現(xiàn)A區(qū)域邊界變更但B
區(qū)域邊界維持不變。此時(shí)一種退而求其次的做法可以考慮將整個(gè)城市拆分為2個(gè)半城,在實(shí)驗(yàn)半城內(nèi)部調(diào)整優(yōu)化區(qū)域邊界,對(duì)照半城維持不變,然后再利用DID等準(zhǔn)實(shí)驗(yàn)手段評(píng)估新區(qū)域劃分規(guī)則帶來(lái)的提升效果。關(guān)于準(zhǔn)實(shí)驗(yàn)與觀察性研究基礎(chǔ)原理與更多應(yīng)用案例可參閱第5~6章。1.2.2
零門檻運(yùn)行可信實(shí)驗(yàn)范式與流程為了讓任何人都能擺脫AB測(cè)試重重困境,零門檻自主運(yùn)行科學(xué)可信的實(shí)驗(yàn),美團(tuán)履約技術(shù)團(tuán)隊(duì)制定了一套數(shù)據(jù)科學(xué)家、數(shù)倉(cāng)開發(fā)、系統(tǒng)開發(fā)多方協(xié)調(diào)保障的實(shí)驗(yàn)接入與運(yùn)營(yíng)機(jī)制,通過(guò)科學(xué)的實(shí)驗(yàn)方案、規(guī)范的實(shí)驗(yàn)流程和正確的指標(biāo)數(shù)據(jù)保證實(shí)驗(yàn)可信度。對(duì)于新業(yè)務(wù)場(chǎng)景實(shí)驗(yàn),尤其是重點(diǎn)或復(fù)雜實(shí)驗(yàn),數(shù)據(jù)科學(xué)團(tuán)隊(duì)全程參與,前置深入實(shí)驗(yàn)場(chǎng)景,明確實(shí)驗(yàn)痛點(diǎn),攻克置信難題,制定匹配的實(shí)驗(yàn)方案,并在實(shí)驗(yàn)平臺(tái)配置實(shí)驗(yàn)?zāi)0?。?shù)倉(cāng)開發(fā)為對(duì)應(yīng)場(chǎng)景訂閱和維護(hù)關(guān)注的實(shí)驗(yàn)指標(biāo)數(shù)據(jù)集,保障指標(biāo)定義規(guī)范與準(zhǔn)確。與此同時(shí)數(shù)據(jù)科學(xué)家與系統(tǒng)研發(fā)人員共同規(guī)范化、模塊化平臺(tái)實(shí)驗(yàn)流程,允許對(duì)應(yīng)算法場(chǎng)景后續(xù)可零門檻自主運(yùn)行可信實(shí)驗(yàn)。規(guī)范的實(shí)驗(yàn)流程和匹配的平臺(tái)能力幫助實(shí)驗(yàn)者快速驗(yàn)證策略并科學(xué)決策。整個(gè)實(shí)驗(yàn)流程實(shí)驗(yàn)者只需選擇實(shí)驗(yàn)場(chǎng)景模板新建實(shí)驗(yàn)設(shè)計(jì)、配置實(shí)驗(yàn)變體參數(shù)并查看實(shí)驗(yàn)報(bào)告。在實(shí)驗(yàn)設(shè)計(jì)環(huán)節(jié),實(shí)驗(yàn)者可自助選擇評(píng)估指標(biāo)以及圈選流量,并可通過(guò)
MDE分析與樣本量預(yù)估功能輔助判斷圈流樣本量是否足夠以及選擇實(shí)驗(yàn)周期。完成實(shí)驗(yàn)設(shè)計(jì)后直接輸出分流表達(dá)式,幫助用戶輕松完成分流配置,同時(shí)可查看同質(zhì)性、MDE(實(shí)驗(yàn)可有效檢測(cè)出的提升效果)等關(guān)鍵信息。實(shí)驗(yàn)者可直接基于實(shí)驗(yàn)設(shè)計(jì)快速創(chuàng)建、管理實(shí)驗(yàn),實(shí)驗(yàn)結(jié)束后自動(dòng)輸出顯著性、趨勢(shì)圖等實(shí)驗(yàn)報(bào)告,用戶無(wú)需再擔(dān)心包括異常值陷阱、方差計(jì)算陷阱、P值計(jì)算陷阱和多重比較陷阱在內(nèi)的各種統(tǒng)計(jì)陷阱對(duì)實(shí)驗(yàn)結(jié)論的影響。同時(shí)平臺(tái)還提供實(shí)驗(yàn)監(jiān)控與診斷結(jié)果衡量實(shí)驗(yàn)有效性,以及實(shí)驗(yàn)探究功能支持實(shí)驗(yàn)者按維度、日期、指標(biāo)等下鉆與查看實(shí)驗(yàn)結(jié)果,輔助實(shí)驗(yàn)者進(jìn)行決策。圖1-4:?jiǎn)蝹€(gè)實(shí)驗(yàn)流程圖在上述實(shí)驗(yàn)流程中,不難看出,即使沒有復(fù)雜的實(shí)驗(yàn)背景與專家知識(shí)的實(shí)驗(yàn)者也可零門檻自主運(yùn)行可信實(shí)驗(yàn)。這不僅歸功于數(shù)據(jù)科學(xué)家前置制定實(shí)驗(yàn)?zāi)0?,還得益于構(gòu)建了體系化的實(shí)驗(yàn)分析引擎,為用戶提供標(biāo)準(zhǔn)化的流程和多樣化的方法,并幫助用戶避開各類實(shí)驗(yàn)陷阱。分析引擎作為一個(gè)中心方法庫(kù),整合了數(shù)科同學(xué)的所有優(yōu)秀的實(shí)踐,并涵蓋學(xué)業(yè)界絕大部分實(shí)驗(yàn)方法。同時(shí)分析引擎也旨在促進(jìn)知識(shí)共享,它可以像“積木”一樣接入各種實(shí)驗(yàn)平臺(tái),服務(wù)不同角色的用戶。對(duì)于具有專家級(jí)統(tǒng)計(jì)理解的可信實(shí)驗(yàn)白皮書
<
7圖1-5:分析引擎架構(gòu)圖1.2.3
實(shí)驗(yàn)方法選擇指南考慮到各類評(píng)估方法的復(fù)雜度和準(zhǔn)確性上各有千秋,我們基于實(shí)驗(yàn)理論與實(shí)踐經(jīng)驗(yàn),沉淀了一套大體的實(shí)驗(yàn)方法選擇流程圖,如圖1-6所示,總體而言從可信度等級(jí)上優(yōu)先選擇隨機(jī)實(shí)驗(yàn)(包括隨機(jī)對(duì)照實(shí)驗(yàn)和隨機(jī)輪轉(zhuǎn)實(shí)驗(yàn)),其次是準(zhǔn)實(shí)驗(yàn),最后是觀察性研究。8
>
可信實(shí)驗(yàn)白皮書用戶,可以提供原子化工具組件,幫助他們?cè)跇I(yè)務(wù)場(chǎng)景約束下綜合權(quán)衡偏差和方差,制定適合其業(yè)務(wù)場(chǎng)景的實(shí)驗(yàn)方案。對(duì)于普通用戶,可以使用實(shí)驗(yàn)平臺(tái),輕松避開各類實(shí)驗(yàn)陷阱并輸出實(shí)驗(yàn)報(bào)告,零門檻運(yùn)行可信實(shí)驗(yàn)。圖1-6:實(shí)驗(yàn)方法選擇流程圖在上述大體流程下部分實(shí)驗(yàn)場(chǎng)景同樣存在方法升級(jí),下表簡(jiǎn)要展示實(shí)驗(yàn)方法庫(kù)及其適用場(chǎng)景,詳細(xì)方法內(nèi)容將在本白皮書后續(xù)第3~7章節(jié)中重點(diǎn)展開與討論。同時(shí)大部分方法也已集成于履約SDK分析引擎,線上調(diào)用與線下分析詳情,大家可參閱白皮書的第8章節(jié)??尚艑?shí)驗(yàn)白皮書
<
910
>
可信實(shí)驗(yàn)白皮書第二部分基礎(chǔ)原理與案例剖析第二章:AB實(shí)驗(yàn)基礎(chǔ)2.1實(shí)驗(yàn)基礎(chǔ)原理概述AB實(shí)驗(yàn)原理源于統(tǒng)計(jì)學(xué)中經(jīng)典的
Rubin潛在結(jié)果模型(也稱反事實(shí)因果推斷框架)。考慮最簡(jiǎn)單的情況,當(dāng)我們想要比較兩個(gè)策略的差異以獲得更優(yōu)策略時(shí)。如圖
2-1所示,最理想的方案是面向同一撥用戶或者全部用戶,假設(shè)存在兩個(gè)完全相同的平行時(shí)空,平行時(shí)空一中所有用戶體驗(yàn)實(shí)驗(yàn)策略
B,類似的平行時(shí)空二中所有用戶體驗(yàn)對(duì)照策略A,那么直接對(duì)比2個(gè)平行空間用戶行為指標(biāo)表現(xiàn),則可決定哪個(gè)策略勝出以及觀測(cè)真實(shí)的平均實(shí)驗(yàn)效應(yīng)。具體的,如果記
Yi
(1),Yi
(0)分別為第i個(gè)個(gè)體在實(shí)驗(yàn)策略B(平行空間
一)以及對(duì)照策略A(平行空間二)下的指標(biāo)表現(xiàn),則顯然可定義
Individual
causaleffects:
τi
=Yi
(1)-Yi
(0),以及策略真實(shí)平均提升效果:
圖2-1:Rubin潛在結(jié)果模型然而,現(xiàn)實(shí)世界中不存在兩個(gè)平行時(shí)空,針對(duì)同一用戶,我們只能觀察到其接受策略A或策略B下的一種表現(xiàn)。因此,現(xiàn)實(shí)世界中通??紤]先通過(guò)隨機(jī)實(shí)驗(yàn)手段,將用戶隨機(jī)均勻地分為實(shí)驗(yàn)組和對(duì)照組2個(gè)足夠相似的群體,并分別施加實(shí)驗(yàn)策略
B
以及對(duì)照策略
A。如圖2.2所示,在這種隨機(jī)分配下理論上實(shí)驗(yàn)組和對(duì)照組用戶的平均表現(xiàn)(在數(shù)學(xué)期望意義下)可以分別代表2個(gè)平行時(shí)空下所有用戶的平均表現(xiàn),因此通過(guò)對(duì)比實(shí)驗(yàn)組、對(duì)照組間差異可以有效估計(jì)策略迭代帶來(lái)的具體收益、風(fēng)險(xiǎn)與成本,幫助實(shí)驗(yàn)組精細(xì)成本收益,結(jié)合業(yè)務(wù)做出更為理性的決策。然而在單次實(shí)驗(yàn)中,盡管理論上實(shí)驗(yàn)組和對(duì)照組來(lái)自同一總體,但實(shí)際上每次隨機(jī)分配下2組間業(yè)務(wù)指標(biāo)通常存在一定的差異(樣本量越多差異越?。_@種差異可以理解為由抽樣機(jī)制或者是分組機(jī)制的隨機(jī)性貢獻(xiàn),即每次隨機(jī)分配下實(shí)驗(yàn)組、對(duì)照組個(gè)體未施加策略時(shí)的平均差異在真值0附近波動(dòng)。為準(zhǔn)確識(shí)別單次AB實(shí)驗(yàn)中兩組差異觀測(cè)值是由分組的隨機(jī)波動(dòng)還是真實(shí)策略效果貢獻(xiàn),通常需借助假設(shè)檢驗(yàn)、置信區(qū)間等統(tǒng)計(jì)工具進(jìn)行判斷和論證(相關(guān)內(nèi)容可參考2.2章節(jié))??尚艑?shí)驗(yàn)白皮書
<
11圖2.2:隨機(jī)對(duì)照實(shí)驗(yàn)原理12
>
可信實(shí)驗(yàn)白皮書然而,隨機(jī)對(duì)照實(shí)驗(yàn)準(zhǔn)確刻畫策略因果效應(yīng)存在2大關(guān)鍵前提:1.
個(gè)體處理穩(wěn)定性假設(shè)(SUTVA):實(shí)驗(yàn)單元的行為結(jié)果不受到其他單元分組的影響,即實(shí)驗(yàn)單元間相對(duì)獨(dú)立,不會(huì)因?yàn)橹苯雨P(guān)聯(lián)(如社交網(wǎng)絡(luò))或者間接關(guān)聯(lián)(如共享資源)而互相產(chǎn)生干擾或者溢出。SUTVA被破壞的典例包括:某打車App想要測(cè)試不同的溢價(jià)算法時(shí),如果效果很好以至于實(shí)驗(yàn)組乘客更愿意打車,則路上可供搭乘的司機(jī)數(shù)量會(huì)減少,進(jìn)而可能導(dǎo)致對(duì)照組難打上車,從而打車的對(duì)照乘客減少。又例如某通信工具上線增加通話時(shí)長(zhǎng)的新功能時(shí),如果實(shí)驗(yàn)組用戶通話時(shí)長(zhǎng)增加,而實(shí)驗(yàn)用戶通話對(duì)象包括對(duì)照用戶,從而也會(huì)提高對(duì)照組用戶的通話時(shí)長(zhǎng)。(信息源自:Ron
Kohavi,Diane
Tang,Ya
Xu
著作《關(guān)鍵迭代--可信賴的線上對(duì)照實(shí)驗(yàn)》)2.
分組隨機(jī)性:實(shí)驗(yàn)單元進(jìn)入實(shí)驗(yàn)組、對(duì)照組可完全由實(shí)驗(yàn)者隨機(jī)分配,不受限于實(shí)驗(yàn)單元自身行為選擇與表現(xiàn)。分組隨機(jī)性破壞的案例包括例如在測(cè)試吃藥是否對(duì)治療感冒有效時(shí),吃藥行為可能完全由病人自行決定,且感冒更嚴(yán)重的人更加偏向于吃藥,而不是隨機(jī)選擇。
SUTVA
假設(shè)以及分組隨機(jī)性的破壞會(huì)導(dǎo)致實(shí)驗(yàn)組(對(duì)照組)平均表現(xiàn)并不代表平行空間一(平行空間二)---全部個(gè)體接受實(shí)驗(yàn)(對(duì)照)策略下的平均表現(xiàn),因此對(duì)比實(shí)驗(yàn)群體與對(duì)照群體的表現(xiàn)不能準(zhǔn)確反映策略的真實(shí)效果。需引入更高階實(shí)驗(yàn)方法或因果推斷技術(shù)來(lái)解決,詳情請(qǐng)參閱后面章節(jié)。圖2-3:隨機(jī)對(duì)照實(shí)驗(yàn)不可用情形2.2
AB實(shí)驗(yàn)統(tǒng)計(jì)學(xué)基礎(chǔ)2.2.1
參數(shù)估計(jì)參數(shù)估計(jì)是數(shù)理統(tǒng)計(jì)中通過(guò)樣本數(shù)據(jù)推斷或估計(jì)總體未知參數(shù)的基本方法,在眾多實(shí)際領(lǐng)域中被廣泛應(yīng)用。例如基于某批產(chǎn)品的隨機(jī)抽樣檢查結(jié)果來(lái)估計(jì)總體廢品率;又或者在AB實(shí)驗(yàn)中基于實(shí)驗(yàn)組、對(duì)照組樣本表現(xiàn)差異去估計(jì)真實(shí)策略提升效果。大體而言,參數(shù)估計(jì)可劃分為兩大類:點(diǎn)估計(jì)和區(qū)間估計(jì)。點(diǎn)估計(jì)(Point
Estimation)點(diǎn)估計(jì),簡(jiǎn)而言之是使用樣本數(shù)據(jù)計(jì)算一個(gè)單一的數(shù)值來(lái)估計(jì)總體參數(shù)。例如為了調(diào)查某批產(chǎn)品的廢品率c,可以從該批產(chǎn)品中隨機(jī)抽取n個(gè)產(chǎn)品進(jìn)行檢查,記a為檢查產(chǎn)品中為廢品的個(gè)數(shù),則可考慮用a/n估計(jì)總體廢品率c。常用的構(gòu)造點(diǎn)估計(jì)的方法包括矩估計(jì)、極大似然估計(jì)、貝葉斯估計(jì)等,在此不詳細(xì)展開介紹。點(diǎn)估計(jì)作為明確告知“未知參數(shù)是多少”的基本手段,那么現(xiàn)實(shí)中怎么評(píng)估點(diǎn)估計(jì)準(zhǔn)不準(zhǔn)?進(jìn)一步的對(duì)于同一參數(shù),不同估計(jì)方法求出的估計(jì)量可能不一樣,那么如何判斷不同的估計(jì)量之間的優(yōu)劣。相合性、無(wú)偏性和有效性是常用的
3個(gè)標(biāo)準(zhǔn)。相合性指當(dāng)樣本量無(wú)限增加時(shí),點(diǎn)估計(jì)值趨近于總體參數(shù)值,即大樣本下估計(jì)量能夠準(zhǔn)確反映總體參數(shù)。無(wú)偏性指從樣本中得到的估計(jì)量的期望與總體參數(shù)相等,而有效性則指在樣本量相同情況下,點(diǎn)估計(jì)
A
方差<點(diǎn)估計(jì)B方差則代表估計(jì)量
A
更有效。實(shí)際上如果不失一般性,記為參數(shù)θ
的點(diǎn)估計(jì),那么估計(jì)量與總體參數(shù)真實(shí)值θ的均方誤差MSE(Mean
Squared
Error)可以拆解為偏差的平方與方差。其中偏差Bias
=
E[
]
-
θ:
從上式中不難看出一個(gè)好的估計(jì)需要滿足無(wú)偏性或者漸進(jìn)無(wú)偏性,即偏差
Bias
等于0或者隨著樣本量增加趨于0。與此同時(shí)在無(wú)偏條件下方差越小則點(diǎn)估計(jì)與參數(shù)真值越接近。通常而言,基于極大似然估計(jì)等方法構(gòu)造的點(diǎn)估計(jì)的方差項(xiàng)Var通常以1/nθ^θ^θ^可信實(shí)驗(yàn)白皮書
<
1314
>
可信實(shí)驗(yàn)白皮書階速度趨于0,其中n為樣本量。回到AB實(shí)驗(yàn),實(shí)驗(yàn)者通常感興趣策略總體提升效果ATE,旨在通過(guò)實(shí)驗(yàn)收集樣本構(gòu)造ATE的點(diǎn)估計(jì)。在SUTVA假設(shè)成立的隨機(jī)對(duì)照實(shí)驗(yàn)下直接對(duì)比實(shí)驗(yàn)組、對(duì)照組表現(xiàn)的點(diǎn)估計(jì)滿足相合性和無(wú)偏性/漸進(jìn)無(wú)偏性,并且隨著樣本量的增長(zhǎng)點(diǎn)估計(jì)值趨近于總體參數(shù)值,因?yàn)榉讲睿ǔ闃?分組隨機(jī)性貢獻(xiàn))隨著樣本量增加也趨向于0。然而對(duì)于SUTVA假設(shè)以及分組隨機(jī)性的破壞,會(huì)導(dǎo)致偏差Bias存在或者說(shuō)不收斂到0。因此此時(shí)需要一些復(fù)雜實(shí)驗(yàn)設(shè)計(jì)、建模分析與因果推斷技術(shù)著重消除、避免偏差項(xiàng),從而保證點(diǎn)估計(jì)的準(zhǔn)確性。置信區(qū)間(Confidence
Interval)對(duì)于總體的未知參數(shù),在有限樣本下點(diǎn)估計(jì)總存在一定的波動(dòng)或誤差,一個(gè)取而代之的自然想法為:兼顧波動(dòng)性考慮估計(jì)參數(shù)落在哪個(gè)區(qū)間范圍內(nèi),這便是統(tǒng)計(jì)學(xué)中經(jīng)典的置信區(qū)間模塊。置信區(qū)間顧名思義指的是總體參數(shù)的一個(gè)區(qū)間估計(jì),以95%置信區(qū)間[a,b]為例,其表明區(qū)間
[a,b]包含參數(shù)真值的概率在95%左右。例如假設(shè)我們要估計(jì)某城市中所有居民的平均收入。我們從這個(gè)城市中隨機(jī)抽取了一部分樣本,并計(jì)算了95%的置信區(qū)間結(jié)果為[5000元,7000元]。這意味著我們有
95%的信心認(rèn)為,整個(gè)城市中所有居民的平均收入在5000元到7000元之間。又例如在對(duì)比新App頁(yè)面設(shè)計(jì)與舊頁(yè)面設(shè)計(jì)AB實(shí)驗(yàn)中,考慮到單次實(shí)驗(yàn)下隨機(jī)分組波動(dòng)性,轉(zhuǎn)化率提升值點(diǎn)估計(jì)0.03與真實(shí)效果理論值存在一定的波動(dòng),此時(shí)可進(jìn)一步參考95%置信區(qū)間估計(jì)[-0.00136,0.06136],即判斷置信區(qū)間[-0.00136,0.06136]包含真實(shí)策略效果理論值的把握在95%以上,或者說(shuō)有
95%以上信心判斷真實(shí)提升效果在-0.00136~0.06136之間。通常而言在置信水平固定情況下區(qū)間長(zhǎng)度越短越好,學(xué)業(yè)界最經(jīng)典的95%置信區(qū)間構(gòu)造方式為,即在點(diǎn)估計(jì)基礎(chǔ)上增加一個(gè)波動(dòng)范圍。從置信區(qū)間構(gòu)造形式上也不難看出隨著樣本量的不斷增加,置信區(qū)間變得越來(lái)越窄并收斂到參數(shù)真值點(diǎn)。圖2-4:95%置信區(qū)間圖示2.2.2
假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)(Hypothesis
testing)是統(tǒng)計(jì)學(xué)中用數(shù)據(jù)論證某假設(shè)是否成立的方法,在工程、醫(yī)學(xué)、社會(huì)科學(xué)等多個(gè)領(lǐng)域廣泛應(yīng)用。假設(shè)檢驗(yàn)本質(zhì)可理解為反證法,有點(diǎn)類似于法庭的評(píng)理,想象法庭上有一名被告,在開始無(wú)信息時(shí)假設(shè)被告是清白的(原假設(shè)),而檢察官必須要提出足夠的證據(jù)去證明被告的確有罪。如果沒有足夠的信息和證據(jù)證明被告有罪,那么判定原假設(shè):被告清白成立。除非檢察官提供足夠的證據(jù)才判定被告有罪。統(tǒng)計(jì)學(xué)家
Fisher提過(guò)一個(gè)女士品茶的假設(shè)檢驗(yàn)著名例子,一名女士聲稱其可以品嘗出奶茶制作過(guò)程中是先加入茶還是先加入牛奶。
Fisher提議給她八杯奶茶,并告知其中四杯先加茶,四杯先加牛奶,但隨機(jī)排列,需要女士說(shuō)出這八杯奶茶中,哪些先加牛奶,哪些先加茶。原假設(shè)是該女士無(wú)法判斷奶茶中的茶先加入還是牛奶先加入,根據(jù)猜中的次數(shù)判斷該假設(shè)是否成立。結(jié)果女士測(cè)試結(jié)果為八杯品嘗都正確。在原假設(shè)下若單純以概率考慮,八杯都正確的概率為
1/70(因?yàn)?選4
的組合數(shù)是70),約
1.43%,即原假設(shè)成立下統(tǒng)計(jì)上完全猜對(duì)可能性極小,單次測(cè)試基本上不會(huì)發(fā)生,即幾乎排除女士完全盲猜正確的可能,因此我們有理由去拒絕“該女士無(wú)法判斷奶茶中的茶先加入還是牛奶先加入”的假設(shè)。類似的,假設(shè)檢驗(yàn)在AB實(shí)驗(yàn)中通常被作為基本工具論證新策略是否相對(duì)舊策略會(huì)帶來(lái)業(yè)務(wù)收益。例如當(dāng)測(cè)試一個(gè)新的App廣告設(shè)計(jì)是否能提高用戶點(diǎn)擊率時(shí),通常原假設(shè)新策略相對(duì)舊策略無(wú)效,然后收集現(xiàn)有證據(jù)--樣本數(shù)據(jù)去論證實(shí)驗(yàn)組和對(duì)照可信實(shí)驗(yàn)白皮書
<
1516
>
可信實(shí)驗(yàn)白皮書組之間是否具有顯著的差異,如果擁有足夠證據(jù)——實(shí)驗(yàn)組對(duì)照組差異很大(這在新策略無(wú)效下基本上不太可能出現(xiàn)),則推翻“新策略相對(duì)舊策略無(wú)效”的假設(shè),否則認(rèn)為在現(xiàn)有證據(jù)——樣本信息下接受原假設(shè)成立,除非收集更多證據(jù)(樣本數(shù)據(jù))再“重新開庭論證”。一個(gè)完整的假設(shè)檢驗(yàn)主要包括以下幾個(gè)步驟:1.提出假設(shè)●
原假設(shè)(Null
Hypothesis,通常選擇為默認(rèn)結(jié)論或者需推翻的結(jié)論)H0:實(shí)驗(yàn)組與對(duì)照組無(wú)差異,表示策略無(wú)效果?!?/p>
備擇假設(shè)(Alternative
Hypothesis,通常為想被證明的結(jié)論)H1:
實(shí)驗(yàn)組與對(duì)照組有差異,也可考慮單邊備擇假設(shè)H1:實(shí)驗(yàn)組>
對(duì)照組,或者H1:實(shí)驗(yàn)組<
對(duì)照組。但在
AB
實(shí)驗(yàn)中為同時(shí)兼顧收益和風(fēng)險(xiǎn)通常默認(rèn)選擇雙邊備擇假設(shè)。2.選擇顯著性水平顯著性水平(α)指能容忍的犯第一類錯(cuò)誤的概率,其中第一類錯(cuò)誤是指在原假設(shè)為真時(shí),拒絕原假設(shè)的犯錯(cuò),又稱假陽(yáng)性。顯著性水平是人為定義或指定的概率值,學(xué)業(yè)界常見的顯著性水平為0.05。3.構(gòu)造檢驗(yàn)統(tǒng)計(jì)量根據(jù)樣本數(shù)據(jù)和假設(shè)類型,選擇合適的檢驗(yàn)統(tǒng)計(jì)量,AB實(shí)驗(yàn)中最常用的方式為雙樣本t檢驗(yàn)。例如在探索某策略是否會(huì)帶來(lái)單量增長(zhǎng)時(shí),按用戶隨機(jī)對(duì)照試驗(yàn)可考慮構(gòu)造檢驗(yàn)統(tǒng)計(jì)量:
其中,
Yt
,Yc
分別為實(shí)驗(yàn)用戶人均單量、對(duì)照用戶人均單量。其中方差計(jì)算常用算法包括Delta方法、Bootstrap、Jackknife方法等,
當(dāng)然檢驗(yàn)方式也包括參數(shù)檢驗(yàn)、非參數(shù)檢驗(yàn)等。4.計(jì)算拒絕域和p值拒絕域是指在假設(shè)檢驗(yàn)中拒絕原假設(shè)的檢驗(yàn)統(tǒng)計(jì)量的取值范圍,其通常依賴于顯著性水平等。盡管可通過(guò)判斷檢驗(yàn)統(tǒng)計(jì)量觀測(cè)值是否落在拒絕域決策拒絕/接受原假設(shè),假設(shè)檢驗(yàn)實(shí)際應(yīng)用中通??紤]一個(gè)更常用的標(biāo)準(zhǔn)——P值。
P值表示在原假設(shè)為真時(shí),比所得到的統(tǒng)計(jì)量觀察結(jié)果更極端的概率。其計(jì)算邏輯為先推導(dǎo)出在原假設(shè)
H0成立條件下檢驗(yàn)統(tǒng)計(jì)量的概率分布(在AB實(shí)驗(yàn)場(chǎng)景可以想象為,在策略無(wú)效場(chǎng)景下,假設(shè)允許做無(wú)數(shù)次實(shí)驗(yàn),每次實(shí)驗(yàn)獨(dú)立執(zhí)行分組機(jī)制,并且得到一個(gè)檢驗(yàn)統(tǒng)計(jì)量,基于若干次實(shí)驗(yàn)得到的若干個(gè)檢驗(yàn)統(tǒng)計(jì)量觀測(cè)值畫圖,
即得到
H0下且在對(duì)應(yīng)實(shí)驗(yàn)分組機(jī)制下的檢驗(yàn)統(tǒng)計(jì)量的概率分布?,F(xiàn)實(shí)中可通過(guò)一些極限理論等統(tǒng)計(jì)定理性質(zhì)來(lái)基本近似獲得原假設(shè)
H0成立條件下檢驗(yàn)統(tǒng)計(jì)量的概率分布),然后再計(jì)算觀察到比當(dāng)前樣本下檢驗(yàn)統(tǒng)計(jì)量觀測(cè)值更極端的概率,直觀上也可理解為在原假設(shè)成立情況下,出現(xiàn)當(dāng)前觀測(cè)值及更極端場(chǎng)景的概率,如果很小則意味著原假設(shè)成立下單次實(shí)驗(yàn)不太能出現(xiàn)的小概率事件發(fā)生了,需質(zhì)疑甚至拒絕原假設(shè)。圖2-5:P值圖示5.作出決策假設(shè)檢驗(yàn)的核心思想反證法,理論上小概率事件在一次實(shí)驗(yàn)中幾乎不可能發(fā)生,如果發(fā)生了則說(shuō)明原假設(shè)不合理。因此可通過(guò)比較p
值與顯著性水平
α:可信實(shí)驗(yàn)白皮書
<
1718
>
可信實(shí)驗(yàn)白皮書●
如果p
值
≤
α,拒絕原假設(shè),支持備擇假設(shè)。●
如果p
值>
α,接受原假設(shè),拒絕備擇假設(shè)。2.2.3
極限理論極限理論是假設(shè)檢驗(yàn)與置信區(qū)間等過(guò)程中構(gòu)建統(tǒng)計(jì)量分布的理論基礎(chǔ),是統(tǒng)計(jì)學(xué)中一個(gè)龐大且內(nèi)容豐富的關(guān)鍵模塊。由于主題和篇幅的限制,本白皮書將不對(duì)其進(jìn)行深入探討,僅簡(jiǎn)要介紹幾個(gè)常用的原理。讀者也可選擇跳過(guò)本部分內(nèi)容。大數(shù)定律(Strong
Law
of
Large
Numbers):假設(shè)X1
,
X2
,
…
,
Xn
是一組獨(dú)立同分布的隨機(jī)變量,每個(gè)變量的期望值為μ且方差有限。根據(jù)強(qiáng)大數(shù)定律,當(dāng)樣本量
n
趨于無(wú)窮大時(shí),樣本均值幾乎必然收斂于總體均值:
其中:Xi
是樣本均值,
a.s.表示幾乎處處收斂(almost
sure
convergence),
μ是總體均值。強(qiáng)大數(shù)定律描述了獨(dú)立同分布隨機(jī)變量的樣本均值幾乎必然收斂于總體均值的現(xiàn)象。中心極限定理(Lindeberg-LevyCentralLimitTheorem):假設(shè)X1
,
X2
,
…
,
Xn是一組獨(dú)立同分布的隨機(jī)變量,每個(gè)變量的期望值為
μ和方差為
σ
2
。則當(dāng)
n趨于無(wú)窮大時(shí),樣本均值的標(biāo)準(zhǔn)化形式收斂于標(biāo)準(zhǔn)正態(tài)分布:
其中:Xi
是樣本均值,
N(0,1)
表示均值為0,方差為
1
的標(biāo)準(zhǔn)正態(tài)分布。上述中心極限定理表明樣本量足夠大時(shí),樣本均值的分布可以近似為正態(tài)分布,即使原始數(shù)據(jù)的分布不是正態(tài)的。Delta定理:Delta方法是統(tǒng)計(jì)學(xué)中用于近似計(jì)算函數(shù)的隨機(jī)變量的分布的一種方法。它通常用于推導(dǎo)復(fù)雜函數(shù)的漸近分布,尤其是在處理非線性變換時(shí)。
Delta方法的核心思想是使用泰勒展開來(lái)近似函數(shù)的變化。例如假設(shè)Xn
是一組隨機(jī)變量的樣本均值
(樣本量
n
),且收斂于某個(gè)正態(tài)分布,其中
θ
是參數(shù)。對(duì)于一個(gè)可微函數(shù)g(.)
:n
(g(Xn
)?
g(θ))
——d→
N(0,
σ
2
[g
′(θ)]2
)其
中:
g
′(θ)是函數(shù)g在θ
處的導(dǎo)數(shù)。σ
2
是Xn
的方差。該結(jié)論同樣可推廣到多元場(chǎng)景:假設(shè)我們有一
個(gè)
k-維隨機(jī)向量
Xn
=(Xn1,
Xn2,
…
,
Xnk
)T
,其均值為
θ=(θ1,
θ2,
…
,
θk
)T
,并且的分布收斂于一個(gè)正態(tài)分布。對(duì)于一個(gè)可微的向量值函數(shù)
g(X),Delta方法的多元版本可以表示為:n
(g(Xn
)?g(θ))
——d→
N(0,
GΣGT
)其
中:
g(X)是
一
個(gè)從
Rk
到
Rm
的
可微
函
數(shù)。
G是
在
θ處
的雅
可
比矩
陣(Jacobianmatrix),其元素為是
Xn
的協(xié)方差矩陣。
0
是m
-維零向量。Slutsky定理:Slutsky定理是概率論和統(tǒng)計(jì)學(xué)中的一個(gè)重要定理,它描述了在某些條件下隨機(jī)變量的極限行為。下面僅簡(jiǎn)單介紹涉及的以下三種情況:1.和的極限如果Xn
——d→
X(即
Xn
分布收斂于X),并且Yn
——p→
c(即Yn
以概率收斂于常數(shù)
c),那么Xn
+Yn
X
+
c
。2.積的極限如果Xn
——d→
X并且
Yn
——p→
c,那么Xn
Yn
——d→
cX。3.商的極限如果Xn
——d→
X并且
Yn
——p→
c,那么其中分布收斂
(——d→)
指的是隨機(jī)變量的分布函數(shù)收斂于某個(gè)極限分布函數(shù)。概率收斂
(——p→)指的是隨機(jī)變量依概率收斂于某個(gè)常數(shù)。可信實(shí)驗(yàn)白皮書
<
1920
>
可信實(shí)驗(yàn)白皮書2.3常用實(shí)驗(yàn)術(shù)語(yǔ)圖3-1:普通隨機(jī)分流示意圖圖3-2:完全隨機(jī)分流示意圖3.1
經(jīng)典隨機(jī)對(duì)照實(shí)驗(yàn)隨機(jī)對(duì)照實(shí)驗(yàn)是AB實(shí)驗(yàn)最基礎(chǔ)且最重要的實(shí)驗(yàn)方式。對(duì)于施加實(shí)驗(yàn)策略的對(duì)象,理想情況下,我們想要在完全相同的時(shí)間與外部環(huán)境下將其與不施加實(shí)驗(yàn)策略的對(duì)象進(jìn)行對(duì)比。但是我們沒有穿梭時(shí)空的超能力去直接觀測(cè)另一個(gè)平行時(shí)空中這些對(duì)象的表現(xiàn)。而隨機(jī)對(duì)照實(shí)驗(yàn)就是連通現(xiàn)實(shí)與平行世界的一個(gè)橋梁,使得我們可以人為模擬出平行世界中的情形。具體來(lái)說(shuō),以兩組為例,我們可以通過(guò)隨機(jī)分流的手段,將全體實(shí)驗(yàn)對(duì)象隨機(jī)分為實(shí)驗(yàn)組和對(duì)照組兩部分,其中實(shí)驗(yàn)組受到干預(yù),對(duì)照組未受到干預(yù)。根據(jù)反事實(shí)結(jié)果框架,隨機(jī)對(duì)照實(shí)驗(yàn)的一個(gè)重要前提是可交換性,即對(duì)于任意一個(gè)個(gè)體
i,其在未受干第三章:隨機(jī)對(duì)照實(shí)驗(yàn)在美團(tuán)到家業(yè)務(wù)場(chǎng)景中,經(jīng)常會(huì)碰到隨機(jī)分流的實(shí)驗(yàn)場(chǎng)景,比如全城AOI(Area
ofInterest,可以是小區(qū)、學(xué)校等點(diǎn)位,是按照社會(huì)功能定位,在地圖上將特定區(qū)域繪制成一個(gè)個(gè)電子圍欄的面狀地理信息)隨機(jī)分流或者訂單隨機(jī)分流。在隨機(jī)對(duì)照實(shí)驗(yàn)中,我們可以定量判斷A、B兩個(gè)策略是否有顯著的差異,如果有差異則進(jìn)一步探究哪個(gè)更有效,并依次對(duì)更優(yōu)的策略進(jìn)行推廣。因此,隨機(jī)對(duì)照實(shí)驗(yàn)是幫助業(yè)務(wù)和算法探索并迭代策略的重要工具??尚艑?shí)驗(yàn)白皮書
<
2122
>
可信實(shí)驗(yàn)白皮書預(yù)和受到干預(yù)的兩個(gè)平行時(shí)空的指標(biāo)表現(xiàn)
Yi
(0)
和
Yi
(1),與其實(shí)際是否受到干預(yù)
T無(wú)關(guān)。這意味著在隨機(jī)對(duì)照實(shí)驗(yàn)中,除了是否受到干預(yù),兩組在各個(gè)特征上都能從統(tǒng)計(jì)上完全代表總體。即使把實(shí)驗(yàn)組和對(duì)照組內(nèi)的對(duì)象進(jìn)行互換再進(jìn)行實(shí)驗(yàn),也并不會(huì)影響最后的實(shí)驗(yàn)結(jié)果。因此,根據(jù)第二章的框架,我們可以通過(guò)下列方式來(lái)近似計(jì)算總體的策略平均提升效果:ATE
=
E(Yi
(1))
?
E(Yi
(0))
≈
Yi
(1)
/
nt
?
Σ
Yi
(0)
/
nc
=
Yi
/
nt
?
Σ
Yi
/
nc即策略平均提升效果實(shí)際可以用實(shí)驗(yàn)組的平均值-對(duì)照組的平均值來(lái)替代,其中對(duì)于個(gè)體
i
,Yi
(0)和
Yi
(1)是未干預(yù)和受到干預(yù)的兩個(gè)反事實(shí)結(jié)果,Yi
為實(shí)際結(jié)果,Ti
為施加在個(gè)體上的干預(yù)情況。此外,
nt
為實(shí)驗(yàn)組樣本量,
nc
為對(duì)照組樣本量。另一個(gè)重要假設(shè)是個(gè)體處理穩(wěn)定性假設(shè),
即SUTVA假設(shè)(Stable
Unit
TreatmentValue
Assumption)。它要求實(shí)驗(yàn)單位的表現(xiàn)是獨(dú)立的,且干預(yù)效果穩(wěn)定,
實(shí)驗(yàn)單元的行為結(jié)果不受到其他單元分組的影響,不會(huì)因?yàn)閷?shí)驗(yàn)組和對(duì)照組的關(guān)聯(lián)而產(chǎn)生干擾或者溢出。3.1.1
隨機(jī)對(duì)照實(shí)驗(yàn)的限制與挑戰(zhàn)隨機(jī)化分組能使所有可能的混雜變量(包括未觀測(cè)到的混雜變量)在實(shí)驗(yàn)組和對(duì)照組之間呈均勻分布,消除混雜變量帶來(lái)的影響,提升結(jié)果可信度。因此,只要實(shí)驗(yàn)條件允許,隨機(jī)對(duì)照實(shí)驗(yàn)就是我們的首選選擇。在理想情況下,同一個(gè)個(gè)體在兩個(gè)平行時(shí)空完全一樣。但現(xiàn)實(shí)生活往往不如人所愿,在有限的樣本量下,隨機(jī)分出的兩部分對(duì)象會(huì)存在一定差異,也即可交換性無(wú)法嚴(yán)格滿足。此時(shí),我們需要一些定量標(biāo)準(zhǔn)來(lái)刻畫兩組之間的差異是否可以被忽略,即同質(zhì)性檢驗(yàn)。在隨機(jī)對(duì)照實(shí)驗(yàn)中,我們會(huì)選取一段實(shí)驗(yàn)前周期,對(duì)實(shí)驗(yàn)組和對(duì)照組兩組的需要考察的一些指標(biāo)值進(jìn)行差異是否顯著的檢驗(yàn)。當(dāng)兩組結(jié)果沒有檢驗(yàn)出顯著差異時(shí),我們可以認(rèn)為同質(zhì)性檢驗(yàn)通過(guò),也即可交換性近似滿足,此時(shí)使用隨機(jī)對(duì)照實(shí)驗(yàn)得到的結(jié)果是可信的。盡管隨機(jī)對(duì)照實(shí)驗(yàn)的可信性最高,我們也常常會(huì)面臨很多客觀上的限制與挑戰(zhàn):TTi
=0i
=1i
=0i
=11.
公平性:
在一些特殊業(yè)務(wù)場(chǎng)景,考慮到對(duì)用戶以及騎手等群體的公平性,無(wú)法對(duì)考察群體進(jìn)行隨機(jī)分組2.
溢出效應(yīng):
實(shí)驗(yàn)單元之間存在相互影響與干擾,造成結(jié)果偏差。例如,在調(diào)度算法等場(chǎng)景,分別在實(shí)驗(yàn)組和對(duì)照組的兩個(gè)區(qū)域往往會(huì)召回相同的騎手,即存在實(shí)驗(yàn)組和對(duì)照組兩組之間的相互干擾。3.
小樣本量情形:美團(tuán)履約業(yè)務(wù)中有很多通過(guò)地理單元分流的隨機(jī)對(duì)照實(shí)驗(yàn)。對(duì)于使用配送城市、配送區(qū)域、配送站點(diǎn)等面積較大單元的實(shí)驗(yàn),在可用流量有限的情況下,樣本量一般較少(幾十個(gè)甚至十幾個(gè))且地域差異明顯,分組難以保證同質(zhì)且難以檢測(cè)出顯著的策略提升效果。4.
業(yè)務(wù)影響:
在諸多業(yè)務(wù)場(chǎng)景會(huì)考量留對(duì)照組對(duì)實(shí)際業(yè)務(wù)影響的情況。如果對(duì)照組流量過(guò)多,可能存在影響當(dāng)前線上策略效率的風(fēng)險(xiǎn),從而對(duì)體驗(yàn)指標(biāo)造成影響,造成用戶端客訴。為了不影響正常業(yè)務(wù),
一些場(chǎng)景的實(shí)驗(yàn)組比對(duì)照組會(huì)采用95:5
等極端的分組比例,實(shí)驗(yàn)功效較低難以檢測(cè)出顯著的策略提升。5.
流量未全部觸發(fā)策略:
在履約業(yè)務(wù)中,存在很多圈選流量與實(shí)際策略觸發(fā)流量不完全一致的情況。為了準(zhǔn)確評(píng)估策略效果,我們應(yīng)該考察實(shí)際被策略觸發(fā)的流量。此時(shí)的同質(zhì)性需要進(jìn)一步重新驗(yàn)證。在美團(tuán)的實(shí)驗(yàn)應(yīng)用中,經(jīng)典的隨機(jī)對(duì)照實(shí)驗(yàn)通過(guò)普通隨機(jī)分組和完全隨機(jī)分組兩種方式來(lái)實(shí)現(xiàn),并相應(yīng)配套有同質(zhì)性檢驗(yàn)和顯著性檢驗(yàn)的評(píng)估方式。通常來(lái)說(shuō),我們會(huì)取實(shí)驗(yàn)前一段周期的實(shí)驗(yàn)組和對(duì)照組兩組指標(biāo)表現(xiàn),來(lái)進(jìn)行同質(zhì)性檢驗(yàn)以驗(yàn)證分組特征的均衡性,也即近似保證隨機(jī)對(duì)照實(shí)驗(yàn)的可交換性。而在實(shí)驗(yàn)完成后,
我們會(huì)取實(shí)驗(yàn)期間的指標(biāo)數(shù)據(jù)進(jìn)行顯著性檢驗(yàn),來(lái)判斷策略效果是否顯著有效。同質(zhì)性檢驗(yàn)和顯著性檢驗(yàn)實(shí)際上使用的都是下面同一套流程與方法,區(qū)別在于:我們希望同質(zhì)性檢驗(yàn)結(jié)果不顯著,則可以認(rèn)為兩組表現(xiàn)相似,而希望顯著性結(jié)果顯著,則可以認(rèn)為策略有效。本文主要詳細(xì)討論兩組的情況,多組情況下相應(yīng)的分組與評(píng)估方式可以類似推廣,這里不再過(guò)多地進(jìn)行闡述??尚艑?shí)驗(yàn)白皮書
<
2324
>
可信實(shí)驗(yàn)白皮書3.1.2
普通隨機(jī)分組正交的AB實(shí)驗(yàn),需要保證流量足夠的均勻分散,這就需要一個(gè)性能高、效果好的Hash算法來(lái)支撐,這里我們選用了MurmurHash3__32。1.分組機(jī)制從分組機(jī)制上來(lái)說(shuō),
Hash分流可以理解為伯努利實(shí)驗(yàn)。以兩組為例,對(duì)于實(shí)驗(yàn)中總的
n個(gè)實(shí)驗(yàn)單元,其中
n=nt
+
nc
。我們可以事先設(shè)定一個(gè)干預(yù)概率為p=nt
/n
,對(duì)于每個(gè)樣本,其在實(shí)驗(yàn)組的概率為p,在對(duì)照組的概率為(1
?p),滿足如下分組機(jī)制:
其中
t
=
(t1,
…
,
tn
)
,滿足
ti
=
nt
和
=
nc
。2.適用場(chǎng)景●
實(shí)驗(yàn)單位之間相互獨(dú)立;●
尤其適用于樣本量較大,隨著實(shí)驗(yàn)不斷進(jìn)行,可能有新的實(shí)驗(yàn)單位不斷進(jìn)入實(shí)驗(yàn)的場(chǎng)景。比如訂單分流、用戶分流、AOI
分流等實(shí)驗(yàn)場(chǎng)景。3.評(píng)估方式我們的評(píng)估建立在假設(shè)檢驗(yàn)的理論之上,原假設(shè)為實(shí)驗(yàn)組和對(duì)照組的均值相等,即H0
:μt
=μc
。我們可以依此構(gòu)造統(tǒng)計(jì)量,并計(jì)算實(shí)驗(yàn)結(jié)果的
p值,當(dāng)
p值小于0.05時(shí)即為有顯著差異,當(dāng)
p值大于等于0.05
時(shí)認(rèn)為沒有顯著差異。在顯著性評(píng)估中,我們主要采用Delta
和Bootstrap
兩大類方法(大規(guī)模數(shù)據(jù)情景還可考慮GroupJackknife,但需注意Jackknife不適合分位數(shù)評(píng)估等)。Delta方法是統(tǒng)計(jì)學(xué)中一種用于計(jì)算極限方差的有名方法,其基本原理為若隨機(jī)向量
Y
依分布地滿足
n
(Y?μ)→
N(0,
Σ),則對(duì)于任意可微函數(shù)
g,利用泰勒展開式和隨機(jī)變量的漸近分布可得
n
(g(Y)
?g(μ))→
N(0,(▽g(μ))T
Σ(▽g(μ)))。而Bootstrap方法是一種廣泛應(yīng)用于統(tǒng)計(jì)學(xué)的重采樣技術(shù),用于估計(jì)樣本相關(guān)的統(tǒng)計(jì)量(比如均值、標(biāo)準(zhǔn)差、分位數(shù)等)以及經(jīng)驗(yàn)分布,尤其在小樣本或者難以假設(shè)數(shù)據(jù)分布情況的時(shí)候使用。實(shí)際應(yīng)用中,我們會(huì)先區(qū)分需要考察的指標(biāo)類型,基本的主要分為連續(xù)型指標(biāo)和比率型指標(biāo),我們會(huì)在后面討論求和型指標(biāo)等特殊的指標(biāo)類型。其中連續(xù)型指標(biāo)主要指規(guī)模指標(biāo),比率型指標(biāo)主要指型
Y/Z的指標(biāo)。(1)連續(xù)型指標(biāo)Delta
方法對(duì)于連續(xù)型指標(biāo)
Y的評(píng)估,如果考慮絕對(duì)提升可以直接使用經(jīng)典的
Welch
T檢驗(yàn)進(jìn)行評(píng)估,可以按如下公式計(jì)算p
值:
其中
Φ為標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)。在業(yè)務(wù)層面,我們更多會(huì)關(guān)注實(shí)驗(yàn)組相對(duì)對(duì)照組的相對(duì)提升率:
使用Delta方法可以推出其漸近方差形式為:
我們可以通過(guò)如下估計(jì)量來(lái)估計(jì)這個(gè)方差:
可信實(shí)驗(yàn)白皮書
<
2526
>
可信實(shí)驗(yàn)白皮書其
中
nt
nc
分
別
為
實(shí)
驗(yàn)
組
和
對(duì)
照
組
的
樣
本
均
值,
分別為實(shí)驗(yàn)組和對(duì)照組的樣本方差。進(jìn)一步我們可以使用如下公式來(lái)計(jì)算p
值:
其中
Φ
為標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)。Bootstrap
方法Step1:
對(duì)于
b=1,
…
,
B
做B
次
Bootstrap抽樣,
每次從
n
個(gè)樣本里有放回抽取
n
個(gè)樣本
(Yb
,
Tb
),…,
(Yb
,
Tb
),其中Y為在第
b
次
Bootstrap抽樣中的第
i
個(gè)樣本,T為此樣本受到干預(yù)的情況。Step2:對(duì)于
b
=
1,
…
,
B
,計(jì)算Step3:
再基于
Δel,b
,
b=1,
…
,
B
計(jì)算方差估計(jì)量為:
Step4:如果使用
Bootstrap估分布的方式,
我們可以根據(jù)
Bootstrap
的抽樣結(jié)果進(jìn)一步給出p
值:p值
l,b
?
l
|≥|
l
|}
/
B(2)比率型指標(biāo)Delta
方法對(duì)于比率型指標(biāo)
Y的評(píng)估,我們主要關(guān)注實(shí)驗(yàn)組相對(duì)對(duì)照組的絕對(duì)提升率:r*bi*bi*n*n*1*1*
在顯著性評(píng)估中,
我們主要采用
Delta和
Bootstrap兩大類方法。Delta方法是統(tǒng)計(jì)學(xué)中一種用于計(jì)算極限方差的有名方法,其基本原理為若隨機(jī)向量
Y依分布地滿足
→
N(0,Σ),則對(duì)于任意可微函數(shù)
g,利用泰勒展開式和隨機(jī)變量的漸近分布可得
n
(g(Y)
?g(μ))→
N(0,(▽g(μ))T
Σ(▽g(μ)))。使用
Delta
方法可以推出其實(shí)驗(yàn)組方差估計(jì)形式為:
我們可以通過(guò)如下估計(jì)量來(lái)估計(jì)這個(gè)方差:
其
中
nt
Zi
/
nt
分
別
為
分
子
和
分
母
的
樣
本
均
值,
分別為分子和分母的樣本方差,
YZ
為分子分母的樣本協(xié)方差。對(duì)照組方差也同理可得,最終由實(shí)驗(yàn)組和對(duì)照組之間的獨(dú)立性,可以如下計(jì)算最后的方差估計(jì)量:
進(jìn)一步我們可以使用如下公式來(lái)計(jì)算p
值:p值
可信實(shí)驗(yàn)白皮書
<
2728
>
可信實(shí)驗(yàn)白皮書其中
Φ為標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)。Bootstrap
方法Step1:
對(duì)于
b=1,
…
,
B
做B
次
Bootstrap抽樣,
每次從
n
個(gè)樣本里有放回抽取
n
個(gè)樣本
(Yb
,
Z
1
,
Tb
),…,
(Yb
,
Z
n
,
Tb
),其中Y,
Z為在第
b
次Bootstrap抽樣中的第i個(gè)樣本指標(biāo)的分子與分母,T
為此樣本受到干預(yù)的情況。Step2:
對(duì)于
b=1,
…
,
B,計(jì)算
Step3:
再基于
Δbs,b
,
b=1,
…
,
B
計(jì)算方差估計(jì)量為:
Step4:如果使用
Bootstrap估分布的方式,
我們可以根據(jù)
Bootstrap
的抽樣結(jié)果進(jìn)一步給出:
3.1.3
完全隨機(jī)分組由于互聯(lián)網(wǎng)很多涉及訂單的實(shí)驗(yàn)有幾十萬(wàn)以上的海量數(shù)據(jù),這種大樣本情況下會(huì)廣泛使用哈希函數(shù)來(lái)進(jìn)行普通隨機(jī)分組。而在美團(tuán)的履約配送業(yè)務(wù)當(dāng)中,常常會(huì)涉及人群分流以及配送城市、區(qū)域、站點(diǎn)等地理單元的分流,圈選出的樣本量相對(duì)較少。例如,人群分流涉及的樣本量較少時(shí)在1000左右,且由于業(yè)務(wù)約束一般只能允許留有較少的對(duì)照組,會(huì)采用相對(duì)極端的分流比例(例如95:5)。此時(shí)如果采用普通隨機(jī)分組方式,一定概率會(huì)出現(xiàn)1000人的分組中對(duì)照組只有30~40人的情況,
實(shí)際會(huì)較大影響實(shí)驗(yàn)的檢驗(yàn)功效。同樣的,
對(duì)于較大面積的地理單元分流,
通常樣本量在bi*bi*bi*n*b*n*1*b*1*100以下,即使采用
5:5分流,也可能出現(xiàn)分組較不均勻的情況。因此,在這種情況下,我們會(huì)采用完全隨機(jī)分組的方式,以事先嚴(yán)格保證最終分組的比例與實(shí)驗(yàn)設(shè)定的比例一致,使實(shí)驗(yàn)符合預(yù)期設(shè)定。1.分組機(jī)制以兩組為例,對(duì)于實(shí)驗(yàn)中總的
n
個(gè)實(shí)驗(yàn)單元,其中n=nt
+
nc
。通俗來(lái)說(shuō),對(duì)于給定的
n
個(gè)實(shí)驗(yàn)樣本,和根據(jù)實(shí)驗(yàn)比例要求得到的實(shí)驗(yàn)組樣本量
nt
和對(duì)照組樣本量
nc
,從中隨機(jī)挑選
nt
個(gè)樣本施加干預(yù),剩下
nc
個(gè)樣本不施加干預(yù)。由于從
n
個(gè)樣本中選取個(gè)nt
樣本共有
種取法,且每種取法概率相同,滿足如下分組機(jī)制:
其中
t
=
(t1,
…
,
tn
),滿足
ti
=
nt
和
=
nc
。2.適用場(chǎng)景●
實(shí)驗(yàn)單位之間相互獨(dú)立;●
適用于實(shí)驗(yàn)前能夠確定全部進(jìn)入實(shí)驗(yàn)的實(shí)驗(yàn)單元的場(chǎng)景;●
對(duì)于小樣本的實(shí)驗(yàn)推薦采用,以確保分組比例與實(shí)驗(yàn)功效,尤其是分組比例不均衡的情形。3.評(píng)估方式評(píng)估方式與完全隨機(jī)輪轉(zhuǎn)的實(shí)驗(yàn)方式相同,都可以通過(guò)
Fisher方法和
Neyman方法來(lái)計(jì)算,其中
Fisher對(duì)小樣本情形的顯著性計(jì)算更為準(zhǔn)確但計(jì)算成本相對(duì)高,Neyman方法在大樣本情形中計(jì)算更為便捷。具體方法原理可以參見第四章隨機(jī)輪轉(zhuǎn)實(shí)驗(yàn)??尚艑?shí)驗(yàn)白皮書
<
29圖3-3:評(píng)估方法選擇流程圖3.1.4
評(píng)估中的統(tǒng)計(jì)陷阱在實(shí)驗(yàn)的評(píng)估中,常用的顯著性計(jì)算公式并不是放之四海而皆準(zhǔn)的,需要結(jié)合實(shí)際場(chǎng)景與使用方式精細(xì)判斷。實(shí)驗(yàn)者需要關(guān)注一些潛在的統(tǒng)計(jì)陷阱,防止得出錯(cuò)誤的顯著性結(jié)果:1.
分配機(jī)制陷阱:忽視樣本在實(shí)驗(yàn)組或?qū)φ战M的分配機(jī)制,可能會(huì)導(dǎo)致方差計(jì)算的錯(cuò)誤。例如業(yè)務(wù)上有時(shí)由于產(chǎn)品限制,會(huì)采用對(duì)流量
id奇偶分流進(jìn)行實(shí)驗(yàn),這時(shí)實(shí)際上沒有任何隨機(jī)性,且與其他隨機(jī)實(shí)驗(yàn)的流量不正交,容易影響其他進(jìn)行隨機(jī)分流實(shí)驗(yàn)的結(jié)果。又例如一些業(yè)務(wù)方可能會(huì)對(duì)實(shí)驗(yàn)單位進(jìn)行分層分組以確保各層表現(xiàn)相似,又或者通過(guò)多次分組來(lái)使兩組指標(biāo)差異小于一定的閾值。這時(shí)實(shí)際上已經(jīng)對(duì)分流的隨機(jī)性進(jìn)行了限制,使用常規(guī)公式進(jìn)行顯著性計(jì)算時(shí)會(huì)高估方差。在本章后續(xù)3.3節(jié)中會(huì)討論分層隨機(jī)分組相關(guān)內(nèi)容,在3.5中會(huì)提及重隨機(jī)化的顯著性計(jì)算方式。2.
計(jì)算口徑陷阱:
不同的指標(biāo)類型,比如連續(xù)型指標(biāo)、比率型指標(biāo)、求和型指標(biāo),或者不同的指標(biāo)差值口徑,比如計(jì)算絕對(duì)差值、相對(duì)差值或者
ROI差值,其顯著性計(jì)算的方式都有所不同。如果忽視這些差異,可能會(huì)導(dǎo)致方差30
>
可信實(shí)驗(yàn)白皮書計(jì)算的錯(cuò)誤。3.檢驗(yàn)方法陷阱:對(duì)于不同的樣本量和數(shù)據(jù)分布特性,應(yīng)該選用合理的分析方法。當(dāng)樣本量比較大時(shí),我們根據(jù)中心極限定理可以認(rèn)為數(shù)據(jù)的均值近似服從正態(tài)分布,從而可以使用
Delta方法評(píng)估;而當(dāng)樣本量很小或者數(shù)據(jù)分布離正態(tài)分布差異較大時(shí),此時(shí)使用
Delta方法評(píng)估可能會(huì)導(dǎo)致方差估計(jì)不準(zhǔn),我們需要采用更為穩(wěn)健的非參數(shù)檢驗(yàn)方式,如Bootstrap
估分布等方式。4.
多重比較陷阱:
當(dāng)指標(biāo)個(gè)數(shù)較多時(shí)或者有多個(gè)實(shí)驗(yàn)組時(shí),此時(shí)會(huì)涉及同時(shí)進(jìn)行多組假設(shè)檢驗(yàn)。單個(gè)假設(shè)檢驗(yàn)可以控制第一類錯(cuò)誤為
α
,而多個(gè)假設(shè)檢驗(yàn)中至少一個(gè)被錯(cuò)誤拒絕的概率卻是大于
α
的。因此如果不考慮使用多重比較對(duì)
p值進(jìn)行修正,可能出現(xiàn)假陽(yáng)性,影響對(duì)策略結(jié)果的判斷。在第七章的高階工具中我們會(huì)詳細(xì)論述多重比較的用法。5.
獨(dú)立性陷阱:分析單位與分流單位的不同,可能會(huì)帶來(lái)錯(cuò)誤的方差計(jì)算。通常來(lái)說(shuō)能使用隨機(jī)對(duì)照實(shí)驗(yàn)的情況中,分流單位之間是獨(dú)立的,但更細(xì)的分析單位無(wú)法保證獨(dú)立性,例如分流單位是用戶,但我們期望分析每個(gè)用戶下的訂單,這時(shí)訂單之間相互并不是獨(dú)立的。我們?cè)诜?/p>
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025 小學(xué)四年級(jí)科學(xué)下冊(cè)壓縮空氣玩具原理講解課件
- 2026湖北荊州市監(jiān)利市事業(yè)單位人才引進(jìn)64人參考考試試題附答案解析
- 2026福建南平市建陽(yáng)區(qū)文化體育和旅游局招聘1人備考考試試題附答案解析
- 2026年上半年黑龍江省人民政府黑瞎子島建設(shè)和管理委員會(huì)事業(yè)單位公開招聘工作人員4人參考考試試題附答案解析
- 建立有效的家屬溝通與教育
- 2026山東臨沂莒南縣部分事業(yè)單位招聘綜合類崗位29人備考考試題庫(kù)附答案解析
- 2026廣西柳州市融安縣公安局招聘警務(wù)輔助人員50人備考考試試題附答案解析
- 2026重慶銅梁區(qū)慶隆鎮(zhèn)人民政府向社會(huì)公開招聘1人參考考試試題附答案解析
- 2026“夢(mèng)工場(chǎng)”招商銀行重慶分行寒假實(shí)習(xí)生招聘?jìng)淇伎荚囶}庫(kù)附答案解析
- 2026年度菏澤鄄城縣事業(yè)單位公開招聘初級(jí)綜合類崗位人員備考考試試題附答案解析
- 2024-2025學(xué)年七年級(jí)語(yǔ)文上學(xué)期期末專題復(fù)習(xí):基礎(chǔ)知識(shí)運(yùn)用(含答案)
- 膠體與界面化學(xué)
- 高溫熔融金屬企業(yè)安全知識(shí)培訓(xùn)
- 深圳益電通變頻器說(shuō)明書TD90
- 2024至2030年中國(guó)公安信息化與IT行業(yè)發(fā)展形勢(shì)分析及運(yùn)行策略咨詢報(bào)告
- 機(jī)動(dòng)車商業(yè)保險(xiǎn)條款(2020版)
- 食管破裂的護(hù)理查房
- 民辦高中辦學(xué)方案
- 高教主賽道創(chuàng)業(yè)計(jì)劃書
- 一年級(jí)上冊(cè)生字練字帖(僅打印)
- 委托付款三方協(xié)議中英文版
評(píng)論
0/150
提交評(píng)論