A/B 测试 – Jeff的数据科学笔记

076 月 2020

实验效果不显著？不妨试试CUPED来缩减指标的方差

以后文章更新会先在微信公众号（公众号名：输出ING），欢迎大家来关注。

一、实验效果不显著怎么办

为了使A/B实验得到统计显著的结果，有三个思路：

上线对指标影响较大的策略，然而多数情况下这种策略可遇而不可求；
增加实验的样本量，应该是普遍用的最多的，可通过提高实验流量配比或者让实验持续更长时间来实现；
缩减指标的方差，根据前面样本量计算和显著性检验介绍的公式可以知道，指标方差越小，所需样本量越小，也越容易统计显著；

微软2013年发表过一篇论文（本文阅读原文点击可直达该论文pdf），介绍了一种利用实验前的数据来缩减指标方差，进而提高实验灵敏度的方法，这种方法就是本文要介绍的CUPED（Controlled-experiment Using Pre-Experiment Data）。

235 月 2020

A/B测试系列文章之两样本均值显著性检验

by Jefferson ⋅ Leave a Comment

以后文章更新会先在微信公众号（公众号名：输出ING），欢迎大家来关注。

前面Jeff专门介绍过A/B实验计算两样本比例是否存在显著差异的方法，但对两样本均值的显著性检验一直没讲到过。这主要有两个原因，一是平时工作中主要是对两样本比例类指标做检验，二是觉得两样本均值检验涉及到方差包括pooled variance等计算，看起来非常繁琐。

但近期了解到Welch's t-test，相比之前教科书介绍的Student's t-test，其t统计量的计算看起来更加简洁，检验的适用性也更强，因此准备再次回顾下这部分知识。

Welch's t-test简单介绍

如下图是Welch's t-test里t统计量的定义（来自维基百科）：

而Student's t-tes里t统计量定义（来自维基百科），看起来就复杂很多，如下所示：

不仅如此，Welch‘s t-test对于两样本大小不等、两样本方差不等等情况下的均值检验都很稳健，而对于两样本大小方差相等的情况下也可以与Student's t-test输出一样的结果，因此建议大家之后直接使用Welch's t-test做两样本均值的假设检验。

两样本均值检验实战

194 月 2020

之后本号内容更新方向的预告

by Jefferson ⋅ 5 Comments

以后文章更新会先在微信公众号（公众号名：输出ING），欢迎大家来关注。

又是好久没更新了，感谢还在默默关注我的108好汉^_^（正好是108个关注者）

按农历来算，今天是Jeff的生日，于是我立了个flag，让自己通过公众号输出更多内容，一方面是对自己阶段性地总结和归纳，另一方面也鞭策自己不断进步，毕竟有输入才会有输出嘛。

考虑到近2年的工作内容以及个人兴趣，之后本公众号内容更新将主要围绕实验、因果推断、用户增长这三块来进行。下面是本人简单列的一些要点，有些已经比较熟悉，但更多的还是需要去深入学习和实践。

实验相关
- 传统A/B Test之外的实验及适用的场景
  - MAB
  - Bayes Optimization
  - Interleaving
  - Sequential Test
  - Network
- 实验中容易忽视的问题及解决办法
  - SRM（Sample Ratio Mismatch）问题是什么意思？如何及时发现？
  - Peeking（频繁查看实验结果）会有什么问题？
  - 实验前两组就存在差异怎么办？
  - 实验策略实际生效比例很低，如何更好度量策略的效果？
  - 实验效果在被作用的各组细分人群中效果差异较大，该怎么识别及度量？
  - 存在多个实验组或观察的实验指标较多时更容易犯第一类错误，该如何校正？
因果推断相关
- 两个框架
  - SCM（Structural Causal Model）
  - RCM（Rubin Causal Model）
- 常用方法
  - RCT（Random Control Trial）
    - 如A/B Testing
  - Quasi-experiments
    - Difference in differences（DID）
    - Regression discontinuity designs（RDD）
    - Propensity score matching（PSM）
    - Instrumental variables（IV）
  - 其他
    - Sythetic control
    - Uplift model
    - Bayes additive regression trees（BART）
    - Doubly robust（DR）
    - Inverse propensity score weight（IPSW）
用户增长相关
- 新增渠道来源追踪
- DAU和LTV预估
- 应用内评分
- 隐藏剪贴板信息
- 调起去应用市场下载

在整理本文之前，我尝试理了一些实际工作中碰到的问题，有些已经有答案，有些还在持续探索，如果你对上面的话题有兴趣，不妨看看：

要跑一个A/B实验来看某个策略是否有效果，需要用多少用户来做实验？实验跑完后有微弱提升，这个提升是随机波动导致还是策略带来的，该如何判断？
实验策略对关注的核心指标并无显著影响，但某个看起来无关的指标却出现了显著提升，应该如何解读？
实验两组进组用户数跟预期设定有较大差异，实验数据是否可信，该怎么办？
策略虽然对整体无显著提升，但有无可能对某个细分人群有显著提升，如何及时发现并验证？
新上线的某功能，对产品是否有收益，如果有，收益是怎样的？在不能进行A/B实验的情况下，如何量化这里的收益？
有该行为的用户的留存明显要好于没有该行为的用户，能否说明该行为能提高用户的留存，让有该行为的用户比例提升就能促进留存的提升吗？
物质激励（如优惠券）对有些用户并没什么用，如何选择策略作用的人群使效果明显的同时减少对此类不敏感用户的投放（从而减少成本）？
产品开始的大规模线下广告投放，除了提升了用户对品牌的认知度，对获取新用户是否有明显增益？
Android端广告投放广泛存在厂商商店劫持，iOS不可分包，如何统计各个渠道带来的新增量？
一个新用户在使用产品之前可能被多个渠道触达，如何更合理的分配各个渠道的贡献？

P.S. 第一个问题可以翻翻本公众号前面几篇写的文章~

对于本公众号后续将更新内容方向或者文末问题有任何想法的同学欢迎给我留言。

077 月 2019

A/B测试系列文章之A/B测试背后的科学原理

by Jefferson ⋅ 7 Comments

以后文章更新会先在微信公众号（公众号名：输出ING），欢迎大家来关注。

前面Jeff 专门讨论了A/B测试里两个常见统计问题——样本量计算和显著性计算，这篇我们来看下A/B 测试背后的科学原理。

因果推断

因果推断是什么？维基百科是这么介绍的：

Causal inference is the process of drawing a conclusion about a causal connection based on the conditions of the occurrence of an effect.
https://en.wikipedia.org/wiki/Causal_inference

用中文翻译就是：因果推断是指在一种现象已经发生的情况下推出因果关系结论的过程。比如说全球气候变暖，需要分析是什么因素导致的，各个因素对全球气候变暖影响有多大。

166 月 2019

A/B测试系列文章之怎么判断实验结果是否显著

by Jefferson ⋅ 6 Comments

以后文章更新会先在微信公众号（公众号名：输出ING），欢迎大家来关注。

前面我们已经介绍了在开始一个A/B实验之前，计算实验所需样本量的方法。这篇文章Jeff 将介绍下，实验做完后，如何判断实验结果是否显著。

判断实验结果是否显著，一般来说有两种方法，一种是根据经验，你了解实验所关注指标一般的波动范围，而实验组该指标明显超出了一般波动范围，因而你判断实验得到了显著的结果。

显而易见，根据经验判断不够严谨，所以Jeff推荐使用第二种方法，即通过统计学的公式计算p 值是否小于设定的显著性水平α，从而判断实验结果是否显著的方法。

类似前面计算实验所需样本量，本文也仅讨论比例类指标A/B实验结果显著性判断问题，如果是均值类指标的A/B实验结果显著性判断不在本文讨论的范畴。

p 值计算的公式

要计算p值，我们需要先计算Z分数，可以使用统计学里两总体比例假设检验的Z分数计算公式，公式如下：

而p值和Z分数是可以相互推导的，得到检验统计量Z分数的值，p值就可以通过查统计教材对照表或者用已有工具内置的函数计算（可参考下面Excel部分的计算）。

265 月 2019

A/B测试系列文章之怎么计算实验所需样本量

by Jefferson ⋅ 36 Comments

注：2024.11.11 更新样本量计算公式

以后文章更新会先在微信公众号（公众号名：输出ING），欢迎大家来关注。

本文暂不介绍实验所需样本量公式的由来，而是先给出样本量计算常用的几个公式，以及在Excel、R、Python等工具中实现实验样本量计算的方法。

A/B 测试一般是比较实验组和对照组在某些指标上是否存在差异，当然更多时候是看实验组相比对照组某个指标表现是否更好。

这样的对比在统计学上叫做两样本假设检验，即实验组和对照组为两样本，假设检验的原假设Ho：实验组和对照组无显著差异；备择假设H1：实验组和对照组存在显著差异。

显然，如果实验选取的样本很小，实验结果可信度就不高，因为很可能抽取的样本不能代表真实的水平。而在实际中，因为各种成本的考量，实验样本量也不可能无限大。那么，一般至少需要多少样本才能得到可信的结论呢？

实验所需样本量的一般公式

统计学里有最小样本量计算的公式，公式如下：

其中n是每组所需样本量，因为A/B测试一般至少2组，所以实验所需样本量为2n；α和β分别称为第一类错误概率和第二类错误概率，一般分别取0.05和0.2；Z为正态分布的分位数函数；Δ为两组数值的差异，如点击率1%到1.5%，那么Δ就是0.5%；σ为标准差，是数值波动性的衡量，σ越大表示数值波动越厉害。

从这个公式可以知道，在其他条件不变的情况下，如果实验两组数值差异越大或者数值的波动性越小，所需要的样本量就越小。

比例类数值所需样本量的计算

实际A/B测试中，我们关注的较多的一类是比例类的数值，如点击率、转化率、留存率等。

这类比例类数值的特点是，对于某一个用户（样本中的每一个样本点）其结果只有两种，“成功”或“未成功”；对于整体来说，其数值为结果是“成功”的用户数所占比例。如转化率，对于某个用户只有成功转化或未成功转化。

比例类数值的假设检验在统计学中叫做两样本比例假设检验。其最小样本量计算的公式为：

Category Archives: A/b 测试

实验效果不显著？不妨试试CUPED来缩减指标的方差

A/B测试系列文章之两样本均值显著性检验

之后本号内容更新方向的预告

A/B测试系列文章之A/B测试背后的科学原理

A/B测试系列文章之怎么判断实验结果是否显著

A/B测试系列文章之怎么计算实验所需样本量