以后文章更新会先在微信公众号(公众号名:输出ING),欢迎大家来关注。

前面Jeff 专门讨论了A/B测试里两个常见统计问题——样本量计算显著性计算,这篇我们来看下A/B 测试背后的科学原理。

因果推断

因果推断是什么?维基百科是这么介绍的:


Causal inference is the process of drawing a conclusion about a causal connection based on the conditions of the occurrence of an effect.

https://en.wikipedia.org/wiki/Causal_inference

用中文翻译就是:因果推断是指在一种现象已经发生的情况下推出因果关系结论的过程。比如说全球气候变暖,需要分析是什么因素导致的,各个因素对全球气候变暖影响有多大。

Read More →

以后文章更新会先在微信公众号(公众号名:输出ING),欢迎大家来关注。

前面我们已经介绍了在开始一个A/B实验之前,计算实验所需样本量的方法。这篇文章Jeff 将介绍下,实验做完后,如何判断实验结果是否显著。

判断实验结果是否显著,一般来说有两种方法,一种是根据经验,你了解实验所关注指标一般的波动范围,而实验组该指标明显超出了一般波动范围,因而你判断实验得到了显著的结果。

显而易见,根据经验判断不够严谨,所以Jeff推荐使用第二种方法,即通过统计学的公式计算p 值是否小于设定的显著性水平α,从而判断实验结果是否显著的方法。

类似前面计算实验所需样本量,本文也仅讨论比例类指标A/B实验结果显著性判断问题,如果是均值类指标的A/B实验结果显著性判断不在本文讨论的范畴。

p 值计算的公式

要计算p值,我们需要先计算Z分数,可以使用统计学里两总体比例假设检验的Z分数计算公式,公式如下:

A/B实验显著性计算之Z分数

而p值和Z分数是可以相互推导的,得到检验统计量Z分数的值,p值就可以通过查统计教材对照表或者用已有工具内置的函数计算(可参考下面Excel部分的计算)。

Read More →

以后文章更新会先在微信公众号(公众号名:输出ING),欢迎大家来关注。

本文暂不介绍实验所需样本量公式的由来,而是先给出样本量计算常用的几个公式,以及在Excel、R、Python等工具中实现实验样本量计算的方法。

A/B 测试一般是比较实验组和对照组在某些指标上是否存在差异,当然更多时候是看实验组相比对照组某个指标表现是否更好。

这样的对比在统计学上叫做两样本假设检验,即实验组和对照组为两样本,假设检验的原假设Ho:实验组和对照组无显著差异;备择假设H1:实验组和对照组存在显著差异。

显然,如果实验选取的样本很小,实验结果可信度就不高,因为很可能抽取的样本不能代表真实的水平。而在实际中,因为各种成本的考量,实验样本量也不可能无限大。那么,一般至少需要多少样本才能得到可信的结论呢?

实验所需样本量的一般公式

统计学里有最小样本量计算的公式,公式如下:

样本量计算公式

其中n是每组所需样本量,因为A/B测试一般至少2组,所以实验所需样本量为2n;α和β分别称为第一类错误概率和第二类错误概率,一般分别取0.05和0.2;Z为正态分布的分位数函数;Δ为两组数值的差异,如点击率1%到1.5%,那么Δ就是0.5%;σ为标准差,是数值波动性的衡量,σ越大表示数值波动越厉害。

从这个公式可以知道,在其他条件不变的情况下,如果实验两组数值差异越大或者数值的波动性越小,所需要的样本量就越小。

比例类数值所需样本量的计算

实际A/B测试中,我们关注的较多的一类是比例类的数值,如点击率、转化率、留存率等。

这类比例类数值的特点是,对于某一个用户(样本中的每一个样本点)其结果只有两种,“成功”或“未成功”;对于整体来说,其数值为结果是“成功”的用户数所占比例。如转化率,对于某个用户只有成功转化或未成功转化。

比例类数值的假设检验在统计学中叫做两样本比例假设检验。其最小样本量计算的公式为:

Read More →