时间:2023-05-13 20:58:13 点击次数:12
AB Test 定义:AB Test的本质上是一个标准的独立双样本检验,最终基于大量用户的行为数据上的统计指标,得出对原假设的判断。
AB Test优点:小量抽样流量评估对整体的影响、有数据支撑新的决策、降低新策略或功能的成本、加快想法验证的速度。
ABTest核心价值:帮助业务定量增长(实现数据驱动精细化运营)、分析数据定性因果(验证因果关系确保迭代方向)
流量分配:为保证结果的可信度,最基本给到每个bucket(桶、组的概念)的流量是一样的,在保证外界变量的一致性的情况下,基础保证实验组与对照组的流量是对等的,可以采取(流量组、对照组和空白组)
分组原理:
实验时长:实验的时间时长,涉及到用户交互习惯的改动建议以月为单位【1-2个月左右】,涉及到逻辑策略的改动建议以周为单位【2周左右】
情况分类:AB Testing,主要针对的是产品当前的状态需要验证哪个方案更优,即AB Testing可以将产品从1到10,但是无法从0到1的创造产品。由于A/B的成本较高,若收入是确认的情况下无需做A/B来进行科学实验。以下举例不需要进行AB。
情况一:业务基础能力搭建;比如电商的黄金流程:首页——列表——商品详情页——购物车——提交订单——支付完成;再比如:游戏后台的搭建、CRM系统等【后台系统可以做埋点但一般情况下不会采取埋点用于A/B测试】情况二:业务战略需求:这类需求通常都是公司从长期战略方向需要支持的产品迭代,因此无论它是否能够给当前业务带来收益,都需要进行支持和上线如果流量不进行分层、分流可能会导致流量饥饿,即实验一在进行中占用了全站的 80% 的流量,实验二就只能使用 20% 的流量。因此良好的分层、分流规则可以充分使用网站的流量。常见的分流策略有:
Random – 随机分流,用于可变结果集;Partition By User – 按用户切分 ,同一用户永远看到同样结果;Partition By Category – 按分类计算器
AB测试样本数量计算器: https://www.eyeofcloud.com/abtest-widget/124.html小样本计算器: https://www.surveysystem.com/sscalc.htm正交分层: 同一份流量可以经过多个实验层,每个实验层的流量要遵循离散随机,以此保证实验层的用户实验数据都可以均匀的分布在各个实验层,从而达到用户正交。
所谓的正交分层和随机变量的概念吻合,都是互不影响的流量分层从而达到实验流量复用的效果。“正交”从字面上理解就是垂直不互相干扰的意思,实际上是上一层每一个实验的流量分布均匀的分布到下一层里面,从而不影响下一层的实验评估,因为实验中的每一层的效果都会影响另外一层层实验的结果,所以要极大程度上保证用户分层流量对每一层级的不用实验的影响效果是一致的,此时因为影响效果相同可以对等抵消。互斥原则:不同的实验层,逻辑要互斥。
简单来说就是,不同的业务逻辑需要放同不同的层,同时相同的业务逻辑只能在同一层进行。比如,广告的实验中调整样式形态和文案的,只能放在同一层里面进行实验。如果有两个层都进行样式形态或者文案的调整,那么这两个层就会相互影响。再直白点说就是,一个用户ID的请求,会同时命中多个实验ID,如果存在两个相同的逻辑在不同的层,就会导致逻辑混乱,开发同学在处理逻辑的时候发现有两个实验ID的逻辑都是调整广告样式,一个是调整为动态,一个调整为静态,最终只能有一个生效,就会出现逻辑混乱。简单来说就是保证各组用户属性分布均匀的情况下,根据业务实验逻辑将用户分层进行测试;
业务类指标:均值类指标、概率类指标
统计理论:概率抽样【流量分层】、全概率公式、大数定律和中心极限定理【样本估计总体】、置信区间/置信度【点估计、区间估计】、假设检验【显著性:单变量、双变量、多变量】
业务类指标
在AB Test中的数据指标其实可以与业务搭建数据指标体系强相关,在设计AB Test中的可量化的数据效果时,同样需要规定出此次试验的北极星指标(可以选择一个数据指标或事一组数据指标,当评估的效果数据是一组数据指标时,需要进行一些简单的数据聚合形成一个目标函数),可以将数据指标按照计算方式的不同分为三类:均值类、比率类、聚合类数据指标。
均值类指标:平均在线时长、平均GMV、平均购买次数均值类指标一般可以使用算数平均数来计算(指标是绝对值的数据)
eg:例如计算近 30 天日均 DAU、日均新增访客、月均收入等2.比率类指标:点击率、转化率
概率类指标一般可以分为两种:一类是满足二项分布的数据指标(若指标是百分比的数据,一般此时的数据会使用几何平均数来计算),一类是指根据业务抽象出定量的数据指标(例如点击成本CPC)
eg:不同渠道的平均转化率、不同客群的平均留存率、不同品类的平均付费率、月均增长率等;算数平均数和几何平均数的计算方式如下:3. 聚合类指标:活跃用户数、曝光数、点击数
聚合类数据指标一般指的是根据用户的唯一标识进行聚合后的数据指标。
聚合类指标一般可以用于测试某次活动或是某些改版的营销效果;统计理论
分布类型
正态分布、标准正态分布二项分布、泊松分布概率抽样:简单随机抽样、分层抽样、整群抽样、系统抽样、阶段抽样
简单随机抽样、分层抽样;整群抽样(先将总体中若干个单位合并为组,这样的组称为群,再直接对群进行抽样);系统抽样(将总体中所有单位按一定顺序排列,在规定的范围内随机抽取一个单位作为初始单位,然后再按事先指定好的规则确定其他样本单位);阶段抽样(先抽群,然后在群内进行二阶段抽样)。概率分布的前提是数据指标是随机【可以用概率分布来】的,数据指标都是来源于用户的行为且数据来源都是通过抽样完成的。实验流量分流原则:抽样的用户分布尽可能接近总体用户分布所以要满足数据均匀、数据随机、样本量充足
均匀:两个实验组中的用户的抽样尽可能地分布均匀、属性一致;比如地域,城市,年龄,男女比例,属性标签比例、操作系统等等。如果分布不均匀,就很容易出现“辛普森悖论”。随机:在满足均匀和实验需求的情况下,对于用户的抽样应该尽可能的随机。【目前互联网上比较常规的做法是使用HASH哈希md5算法根据用户的某个ID(通常是设备号,用户ID)进行取模,选取其中的一部分进行抽样。】样本充足,样本过小会使得实验数据波动过大从而不置信或者导致实验周期过长,最终影响实验的分析效率。不过大型的互联网公司的产品DAU都上千万,抽样2%或者5%已经比较多了,通常不会有什么问题。若不能满足也可以利用样本计算器中查询至少应该抽样多少数据。样本分流之后,如果实验用户只有一层,那么你同时可以做的实验非常得少。拿广告来说,有针对样式形态的实验,有针对广告位置策略的实验,有针对预估模型的实验。如果实验流量只有一层,在一些实验放量10%的情况下,一层的流量只能同时开展10个实验。这个实验的效率是非常低的。因此就有了用户分层的逻辑。
两个重要的知识点:
样本的平均值约等于总体的平均值。即每次的抽样样本获取的平均值都在总体均值的附近波动。任意分布总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。首先,不管总体的数据是怎样的一个分布,也不管总体的数据是否是正太分布或是非正太分布【三角形分布,矩形分布,梯形分布等等】,任意一个分布的样本的均值,都会围绕着其本身的整体均值周围波动,并且呈正太分布。简单理解来说就是,每一次我们抽样做实验得到的指标的均值都是实际整体均值的一个约数,并且随着实验次数的增多,把这些点的值描绘成一条曲线是一个正态分布曲线。【一般而言样本量>30即可定义为大样本量】
中心极限定理有什么用?
在没有办法得到全部数据的情况下,可以用样本估计总体。【就是指用抽样的样本数据来估计总体数据情况】特别是互联网产品,一个产品能力的上线影响上亿的用户量,必须经过较为严格的灰度和实验。我们所做的实验,其实就是使用这样的定理基础,通过某个百分比的用户量的实验,进行对照实验分析,来推断实验的策略对于整体用户的影响。举个例子,在某个推荐策略版本的能力上,我们优化了推荐算法,抽样10%用户的实验数据显示用户对内容的点击率对比对照组是显著提升10%,那么我们有理由相信,这个策略全量之后,对于整体的提升也是10%。因为样本的均值约等于总体的均值(当然要配合置信度验证)。对于其他领域,比如民意调查,国民消费水平调研等,更多也是通过抽样反应整体的逻辑来做的,依赖的理论基础也是这个。点估计:直接用抽样的具体数据来表示总体数据
常见的点估计指标有2个【平均值:比如抽样鸡腿的平均重量为150克。比例:比如抽样鸡腿的卫生合格率为99.9%。】区间估计(interval estimate)是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。即在点估计的基础上给了一个合理的取值范围
常见的区间估计指标【比如抽样鸡腿的平均重量为145克到155克之间,在这其中145-155就称为置信区间】置信区间
置信区间:根据误差得到的一个数值区间在统计概率中就叫做置信区间。即置信区间就是误差范围。误差范围理论上越小越好。比如预估中国人身高,你给的范围是0到10米,当然不能说你错,但是误差范围太大,区间太大了,太不靠谱。从上面所说的中心极限定理我们知道,抽样的均值一定在总体均值的左右范围波动,并且呈现正态分布。因此,我们需要通过给出足够小的误差范围,同时能明确的知道这个范围有多少的概率包含总体均值。
置信度
置信度/置信区间:在一定的误差范围内评估某个区间包含总体均值的概率的值【计算某个误差范围内包含总体均值的概率的值】假设我需要的置信水平是95%,也就是说如果我做100次抽样,会有95个置信区间包含了总体平均值—这个也是置信度的最直接的理解。更通俗的理解:这个范围有多大可信度呢?人们用置信置信水平来衡量,即:“我们有多大把握,真实值在置信区间内”。一般用(1-α)表示。如果α取0.05,则置信水平为0.95,即95%的把握。置信区间与置信水平连起来,完整的表达为:“我们有95%的把握,鸡腿平均重量在145至155克之间。”
这里必须重复明确下,有两个概念,一是误差范围所要表达的区间,是置信区间,置信区间这个数值范围包含总体均值的概率叫置信度或者置信水平。换个说法来说,就是置信区间并不是完全置信,实际上只是一个评估区间,需要有个评估指标来评估它的置信水平。置信水平越高,置信区间就会越宽;置信区间包含总体平均值统计量的概率越大。
当置信水平太高时,置信区间会变得非常大,从而产生一些正确但无用的结论。日常使用的置信水平大部分是95%。原因一:95%的置信度,在正态分布中,误差范围刚好是2个标准差σ(也被称为标准偏差,或者实验标准差,在概率统计中最常使用作为统计分布程度上的测量依据。)范围不算大,同时置信水平也相对较高。原因二:置信水平是95%。上图中一个标准差σ的范围,置信度则为68%。95%的置信区间基本形成了默认的规范。主要原因首先是误差范围不太大,只有2个标准差,其次,置信度有95%也比较高了。数据不置信怎么办?
实验由于数据积累较少,很可能无法快速收敛到置信区间出来。那么这个时候,就需要延迟实验时间或者多放一些流量进行实验。当前的产品,通常都有比较明显的周末与工作日效应,很多实验都建议能够累计超过7天的数据进行分析。公式如下:
简单举例:现需抽样,调查其目标客户的年龄是否符合“中老年”的范畴,抽样数据如下,请计算90%置信水平下的目标客户年龄置信区间。
再看个比例的例子。某公司想了解用户满意度,而有相当比例的用户没有在商品评价里打分,因此采用调查方法,抽300名未在网站打分用户调查,其中182名用户表示满意,求95%置信水平下,用户满意率的置信区间。通常将阈值(相当于P值)发生几率小于5%的事件称之为“不可能事件“,统计分析中,习惯上把<0.05的概率,称为具有“显著性”,即需要拒绝原假设。5%来自于我取得置信度。【通俗来讲:本来这个事件它是不可能小于0.05的,但是你算出来的p值是小于0.05的,说明这个不可能事件它发生了,所以我们就要拒绝原假设。】
实验指标区间上下限同为正,实验指标变化为正,那么实验指标显著增长;实验区间指标上下限同为负,指标也为负,那么实验指标显著下降。
例子:置信区间是一正一负,那么从置信区间可以看出,实际的整体指标会在这个区间之内都是有可能,所以放量之后不一定显著下降;但是如果是同为负的并且实验指标也是负,就可以比较肯定的说明实验指标显著下降.认识假设检验
场景一:推翻旧认知;场景二:验证新结论;字面意思解释:假设一种情况并作验证; 假设我很棒并利用数值来作验证我很棒是否为真。假设检验的适用范围
抽样检验小范围测试场景一个完整的假设检验必有的元素
原假设 H0被择假设 H1分布类型给定的显著性水平检验统计量文章参考资料:《阿里妈妈数据科学:离线抽样 AB Test篇》、《腾讯数据科学:AB实验驱动理性增长》、《应用回归分析》