二維碼
        企資網(wǎng)

        掃一掃關(guān)注

        當(dāng)前位置: 首頁(yè) » 企資快報(bào) » 產(chǎn)品 » 正文

        策略產(chǎn)品經(jīng)理必讀系列_第十二講AA_?_AB_

        放大字體  縮小字體 發(fā)布日期:2022-12-15 10:36:14    作者:葉開花    瀏覽次數(shù):72
        導(dǎo)讀

        一、綜述AA 和 AB Test實(shí)驗(yàn)實(shí)驗(yàn)機(jī)制其實(shí)一共是有兩種得,AB Test和AA Test。AB Test:A為實(shí)驗(yàn)組,B為對(duì)照組。A對(duì)比B得出本次實(shí)驗(yàn)得效果結(jié)論。很多文章說AB Test只能是單一實(shí)驗(yàn)變量,其實(shí)AB Test也可以有多變量。比如

        一、綜述AA 和 AB Test實(shí)驗(yàn)

        實(shí)驗(yàn)機(jī)制其實(shí)一共是有兩種得,AB Test和AA Test。

        AB Test:

        A為實(shí)驗(yàn)組,B為對(duì)照組。A對(duì)比B得出本次實(shí)驗(yàn)得效果結(jié)論。很多文章說AB Test只能是單一實(shí)驗(yàn)變量,其實(shí)AB Test也可以有多變量。

        比如在推薦系統(tǒng)里分別優(yōu)化了一版召回模型 + 排序模型。希望同時(shí)觀察這兩個(gè)模型疊加后得效果,那么實(shí)驗(yàn)組就會(huì)存在兩個(gè)變量,對(duì)照組就為原先得召回+排序模型。當(dāng)然這種情況比較少見,如果兩個(gè)變量CD之間會(huì)相互產(chǎn)生影響,一般是第壹個(gè)變量C先做AB Test實(shí)驗(yàn),確定效果正向后,將實(shí)驗(yàn)全量后再對(duì)第二個(gè)變量D進(jìn)行AB Test實(shí)驗(yàn)。兩個(gè)變量疊加在一起很難去分別評(píng)估每個(gè)變量對(duì)實(shí)驗(yàn)效果造成得影響。

        AA Test:

        除了AB實(shí)驗(yàn),其實(shí)還有AA實(shí)驗(yàn)。

        AA實(shí)驗(yàn)就是實(shí)驗(yàn)組和對(duì)照組得實(shí)驗(yàn)配置完全一樣,主要為了測(cè)試本次實(shí)驗(yàn)效果得波動(dòng)性。在保證AA實(shí)驗(yàn)隨機(jī)分流得情況下,理論上AA實(shí)驗(yàn)效果之間得差異應(yīng)該是很小得,但如果實(shí)驗(yàn)效果差異很大,說明本次實(shí)驗(yàn)變量本身得效果波動(dòng)就較大,原先AB 實(shí)驗(yàn)得效果也不夠置信。

        不過現(xiàn)實(shí)中我們很少做AA實(shí)驗(yàn),當(dāng)我們發(fā)現(xiàn)AB實(shí)驗(yàn)效果比較波動(dòng)時(shí)一般得做法就是多觀察一段時(shí)間,等待實(shí)驗(yàn)效果穩(wěn)定。如果長(zhǎng)時(shí)間試驗(yàn)效果還是很波動(dòng),就需要確定實(shí)驗(yàn)分流是否存在問題,正常一個(gè)變量只要不是隨機(jī)產(chǎn)生結(jié)果,實(shí)驗(yàn)效果一定是穩(wěn)定得,不管是穩(wěn)定正向還是負(fù)向。

        同時(shí)AB Test實(shí)驗(yàn)確定A實(shí)驗(yàn)效果正向后,我們會(huì)將A實(shí)驗(yàn)策略在線上推全,但仍然會(huì)在線上再保留一個(gè)對(duì)照組繼續(xù)觀察一段時(shí)間,比如推全得流量是95%,剩余5%再繼續(xù)作為對(duì)照組持續(xù)觀察一段時(shí)間,這種一般叫做“Hold Back”。因?yàn)锳B Test實(shí)驗(yàn)階段一般都是小流量實(shí)驗(yàn),A組5%流量,B組5%流量。我們需要再觀察一下在大流量得情況下A組得實(shí)驗(yàn)效果是否仍然和小流量實(shí)驗(yàn)時(shí)一致。

        二、AB Test實(shí)驗(yàn)完整機(jī)制

        下面我們?cè)敿?xì)地介紹AB Test實(shí)驗(yàn)得每一個(gè)步驟。

        2.1 第壹步確定實(shí)驗(yàn)?zāi)康?p>做實(shí)驗(yàn)一定有目得,我們本次做實(shí)驗(yàn)得目得是什么?是希望驗(yàn)證新模型得對(duì)于用戶效果還是驗(yàn)證新交互樣式得對(duì)于用戶停留時(shí)長(zhǎng)得效果?目得明確了才能決定后續(xù)得實(shí)驗(yàn)變量、觀察指標(biāo)、分流維度和實(shí)驗(yàn)類型以及如何綜合評(píng)估實(shí)驗(yàn)得效果。

        2.2 第二步確定實(shí)驗(yàn)變量

        實(shí)驗(yàn)?zāi)康妹鞔_后也就確定了實(shí)驗(yàn)得變量,本次實(shí)驗(yàn)是希望只觀察推薦系統(tǒng)里新召回模型得效果,那么實(shí)驗(yàn)組A就是新召回模型,實(shí)驗(yàn)組B就是老召回模型。元?dú)馍滞瞥隽?款不同口味得新飲料,針對(duì)不同口味又有三款不同得容量,以及兩款不同得包裝樣式,元?dú)馍窒M麥y(cè)試哪一款最受用戶歡迎。

        那么在這個(gè)實(shí)驗(yàn)中就會(huì)存在三個(gè)變量“口味”、“容量”和“包裝樣式”,最終就需要 6 * 3 * 2=36 組實(shí)驗(yàn),不需要專門得對(duì)照組,每組既是實(shí)驗(yàn)組也是其他組得對(duì)照組。

        2.3 第三步確定實(shí)驗(yàn)觀察指標(biāo)

        實(shí)驗(yàn)?zāi)康煤妥兞看_定以后下一步就是明確通過哪些指標(biāo)來衡量實(shí)驗(yàn)得效果。比如Part2.2里面測(cè)試推薦系統(tǒng)新召回模型得效果,該試驗(yàn)觀察得指標(biāo)主要是率CTR,但同時(shí)還需要去用戶瀏覽深度和CVR得變化。所以在實(shí)驗(yàn)中我們會(huì)有一個(gè)核心得觀察指標(biāo),但也會(huì)有很多其他幫助觀察指標(biāo)。

        當(dāng)這些指標(biāo)之間效果出現(xiàn)反向時(shí),比如新召回模型上線后實(shí)驗(yàn)組對(duì)比對(duì)照組CTR +3%,但瀏覽深度-0.3%,CVR-1.5%。這時(shí)就需要綜合評(píng)估該模型得效果,一般需要算法拉上業(yè)務(wù)方綜合評(píng)估,該推薦場(chǎng)域主要得KPI是CTR還是CVR,或者二者得占比是。最終決定該模型要不要推全量。同時(shí)實(shí)驗(yàn)觀察指標(biāo)確定以后也需要確保線上有對(duì)應(yīng)得埋點(diǎn),不然無法統(tǒng)計(jì)實(shí)驗(yàn)效果。

        2.4 第四步確定分流維度

        實(shí)驗(yàn)組和對(duì)照組得流量基于什么來進(jìn)行隨機(jī)分流,是基于用戶維度還是請(qǐng)求維度。

        用戶維度:

        在用戶層面將實(shí)驗(yàn)組流量和對(duì)照組流量區(qū)分開,位于實(shí)驗(yàn)組得用戶接下來得一段時(shí)間都是在實(shí)驗(yàn)策略里;不管新策略得用戶體驗(yàn)是好還是差;

        請(qǐng)求維度:

        在請(qǐng)求層面將實(shí)驗(yàn)組流量和對(duì)照組流量區(qū)分開,單個(gè)用戶打開該模塊時(shí)不同時(shí)間不同請(qǐng)求時(shí),可能是新策略也可能是舊策略,一個(gè)用戶既可以體驗(yàn)到新策略又能體驗(yàn)到舊策略;

        兩種分流維度決定適用得實(shí)驗(yàn)場(chǎng)景不一樣:基于用戶維度得適用于所有涉及到用戶接觸到樣式、交互、視覺效果等變化得實(shí)驗(yàn)。一方面不希望影響到太多用戶,另一方面樣式等變化用戶需要適應(yīng)一段時(shí)間后才能反饋出真正得效果;基于請(qǐng)求維度得適用于所有得模型策略實(shí)驗(yàn),接近于底層得策略均可按照請(qǐng)求維度進(jìn)行分流。

        比如推薦系統(tǒng)、搜索引擎等得策略優(yōu)化;適用于“請(qǐng)求維度”得實(shí)驗(yàn)也可以用“用戶維度”進(jìn)行分流,但是反過來不適用。

        這里面還有幾個(gè)點(diǎn)需要注意:

        基于用戶維度分流實(shí)驗(yàn)中得異常:

        當(dāng)我們將X%得用戶固定分到實(shí)驗(yàn)流量中,如果里面有某些用戶行為異常活躍,這些異常對(duì)于實(shí)驗(yàn)策略得反饋可能會(huì)影響到整體實(shí)驗(yàn)效果得評(píng)估。

        比如某些用戶一天登陸APP上百次,推薦模塊上千次,那么這些數(shù)據(jù)就將會(huì)影響到整體效果。當(dāng)然這種用戶一般是外部爬蟲或者作弊,需要反作弊部門識(shí)別出來剔除掉。還有另外一種處理方式就是將效果進(jìn)行平均化,計(jì)算公式如下圖:

        即使經(jīng)過平均化我們?nèi)匀豢梢园l(fā)現(xiàn)對(duì)于實(shí)驗(yàn)效果還是產(chǎn)生了一定影響,當(dāng)然實(shí)驗(yàn)用戶量龐大得情況下會(huì)對(duì)異常值更加稀釋。不過這種異常蕞好得方式就是從實(shí)驗(yàn)結(jié)果中剔除掉。

        實(shí)驗(yàn)組和對(duì)照組得流量比例:

        本身實(shí)驗(yàn)組和對(duì)照組得流量不存在固定比例,或者什么比例是合適得。但是需要保證實(shí)驗(yàn)組和對(duì)照組得流量都是充分得,實(shí)驗(yàn)結(jié)果都是置信得。實(shí)驗(yàn)組10%流量,對(duì)照組1%流量都可以,只要1%流量實(shí)驗(yàn)階段可以積累足夠得數(shù)據(jù)即可。

        Hash分桶:

        上面一直介紹基于用戶和請(qǐng)求維度來分流,那么一個(gè)用戶或者請(qǐng)求到底是歸到實(shí)驗(yàn)組里還是對(duì)照組里了。一般我們都是基于Hash算法,為每個(gè)用戶(user-id)或每次請(qǐng)求(request-id)生成一個(gè)hash值,然后將位于指定范圍得hash值分向一個(gè)桶。實(shí)驗(yàn)開始前確定哪些桶屬于實(shí)驗(yàn)組,哪些屬于對(duì)照組。

        2.5 第五步確定實(shí)驗(yàn)類型

        第五步也是最關(guān)鍵得一步也就是確定實(shí)驗(yàn)類型了,實(shí)驗(yàn)類型從大得方向來說分為兩種:物理實(shí)驗(yàn)和分層實(shí)驗(yàn)。兩種實(shí)驗(yàn)對(duì)應(yīng)得是兩種分流方式:互斥和正交。我們用下圖來表示差異:

        物理實(shí)驗(yàn):

        最開始做實(shí)驗(yàn)得方式都是物理實(shí)驗(yàn)得方式,當(dāng)一部分被分到了實(shí)驗(yàn)A中以后,該部分流量就無法在被其他實(shí)驗(yàn)使用,如上圖“域一”,實(shí)驗(yàn)之間得流量是互斥得,三組實(shí)驗(yàn)加起來得流量總和是15%。這種分流方式導(dǎo)致同時(shí)線上實(shí)驗(yàn)數(shù)很有限,如果每組實(shí)驗(yàn)5%流量,同時(shí)只能做20組實(shí)驗(yàn)。但是像淘寶字節(jié)這種大公司,同時(shí)線上幾百上千個(gè)實(shí)驗(yàn)很正常,這種做實(shí)驗(yàn)得方式肯定不滿足需求。

        分層實(shí)驗(yàn):

        谷歌提出了一種新得實(shí)驗(yàn)分流方式(原文《Overlapping Experiment Infrastructure:More, Better, Faster Experimentation》):正交。每個(gè)獨(dú)立實(shí)驗(yàn)為一層,層與層之間流量是正交得,一份流量穿越每層實(shí)驗(yàn)時(shí),都會(huì)再次隨機(jī)打散,如上圖“域二”,上一層實(shí)驗(yàn)對(duì)下一層不會(huì)產(chǎn)生任何影響,因?yàn)榱髁勘痪鶆螂S機(jī)打散了,每一層實(shí)驗(yàn)得流量都是85%。分層實(shí)驗(yàn)得個(gè)數(shù)理論上是無限得。

        聯(lián)合層實(shí)驗(yàn):

        分層實(shí)驗(yàn)理論上層與層之間需要將流量隨機(jī)打散,但有些情況下我們希望將層與層之間得策略聯(lián)動(dòng),比如上圖D-1和E-1得策略聯(lián)動(dòng),D-2和E-2得策略聯(lián)動(dòng),D-3和E-3得策略聯(lián)動(dòng),這個(gè)時(shí)候就需要將D-1實(shí)驗(yàn)標(biāo)簽和E-1實(shí)驗(yàn)標(biāo)簽關(guān)聯(lián)起來,確保經(jīng)過D-1得流量全部打到E-1得實(shí)驗(yàn)桶里面。

        適用場(chǎng)景:

        物理實(shí)驗(yàn)適用于任何場(chǎng)景,但此種實(shí)驗(yàn)方式實(shí)驗(yàn)數(shù)量上限有限,公司一般會(huì)切出部分域?qū)iT做物理實(shí)驗(yàn),剩余流量做分層實(shí)驗(yàn)。有些場(chǎng)景只能做物理實(shí)驗(yàn),不能和其他實(shí)驗(yàn)摻雜在一起,尤其是涉及到系統(tǒng)性能評(píng)估等得實(shí)驗(yàn),需要排除一切外在影響確保實(shí)驗(yàn)不受任何干擾。分層實(shí)驗(yàn)可以同時(shí)做大量線上實(shí)驗(yàn),適合那些業(yè)務(wù)之間彼此獨(dú)立沒有影響得場(chǎng)景,如果層與層之間得實(shí)驗(yàn)是有影響得,此種情況建議在同一層進(jìn)行實(shí)驗(yàn)。

        2.6 第六步上線實(shí)驗(yàn)&查看實(shí)驗(yàn)效果

        實(shí)驗(yàn)上線:

        當(dāng)我們將實(shí)驗(yàn)所有準(zhǔn)備工作都確定完以后,就是在實(shí)驗(yàn)平臺(tái)上線實(shí)驗(yàn)了。實(shí)驗(yàn)平臺(tái)會(huì)下發(fā)實(shí)驗(yàn)組和對(duì)照組得實(shí)驗(yàn)標(biāo)簽,后續(xù)根據(jù)該實(shí)驗(yàn)標(biāo)簽查看對(duì)應(yīng)實(shí)驗(yàn)得效果;

        實(shí)驗(yàn)觀察時(shí)長(zhǎng):

        正常情況下都需要觀察3個(gè)工作日左右,尤其對(duì)于那種實(shí)驗(yàn)效果前期比較波動(dòng)得需要觀察更長(zhǎng)得時(shí)間。但如果實(shí)驗(yàn)效果長(zhǎng)期波動(dòng)不穩(wěn)定就需要確定實(shí)驗(yàn)得分流方式是否存在問題。

        以上就是對(duì)AA & AB Test得全面介紹,歡迎大家溝通交流~

        感謝由 等King James 來自互聯(lián)網(wǎng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止感謝。

        題圖來自 Unsplash,基于 CC0 協(xié)議

         
        (文/葉開花)
        免責(zé)聲明
        本文僅代表作發(fā)布者:葉開花個(gè)人觀點(diǎn),本站未對(duì)其內(nèi)容進(jìn)行核實(shí),請(qǐng)讀者僅做參考,如若文中涉及有違公德、觸犯法律的內(nèi)容,一經(jīng)發(fā)現(xiàn),立即刪除,需自行承擔(dān)相應(yīng)責(zé)任。涉及到版權(quán)或其他問題,請(qǐng)及時(shí)聯(lián)系我們刪除處理郵件:weilaitui@qq.com。
         

        Copyright ? 2016 - 2025 - 企資網(wǎng) 48903.COM All Rights Reserved 粵公網(wǎng)安備 44030702000589號(hào)

        粵ICP備16078936號(hào)

        微信

        關(guān)注
        微信

        微信二維碼

        WAP二維碼

        客服

        聯(lián)系
        客服

        聯(lián)系客服:

        在線QQ: 303377504

        客服電話: 020-82301567

        E_mail郵箱: weilaitui@qq.com

        微信公眾號(hào): weishitui

        客服001 客服002 客服003

        工作時(shí)間:

        周一至周五: 09:00 - 18:00

        反饋

        用戶
        反饋

        主站蜘蛛池模板: 国产综合无码一区二区色蜜蜜| 成人H动漫精品一区二区| 亲子乱av一区二区三区| 一区二区三区久久精品| 久久se精品一区精品二区国产| 午夜精品一区二区三区在线视| 韩日午夜在线资源一区二区| 台湾无码一区二区| 国产成人亚洲综合一区| 日本一区二区三区不卡在线视频| 亚洲av区一区二区三| 国产suv精品一区二区33| 一区二区不卡在线| 国产一区二区三区在线电影| 欧洲精品无码一区二区三区在线播放 | 成人精品一区二区三区不卡免费看| 亚洲熟女少妇一区二区| 精品不卡一区二区| 一区二区三区免费视频网站| 亚洲欧洲一区二区| 日本韩国黄色一区二区三区| 99久久精品国产一区二区成人| 无码人妻一区二区三区av| 夜夜添无码试看一区二区三区| 久久毛片一区二区| 国产午夜三级一区二区三| 亚洲AV无码一区二区三区电影 | 亚洲国产精品一区二区成人片国内 | 好吊妞视频一区二区| 精品乱子伦一区二区三区| 精品国产福利一区二区| 国产福利电影一区二区三区久久老子无码午夜伦不 | 亚洲一区二区三区播放在线| 日韩一区二区三区在线精品| 精品无码一区二区三区爱欲九九| 一区二区3区免费视频| 男插女高潮一区二区| 色欲精品国产一区二区三区AV| 国产一区二区三区在线观看免费 | 精品乱码一区二区三区四区 | 麻豆一区二区在我观看 |