一、幸存者偏差

描述

关注于眼前那些经历了某些过程而幸存下来的人或物,却忽视了不在视线范围内的未幸存下来的人或物。

举例

二战中美国军方想加强飞机的防护,从而降低被敌军击落的几率。根据返航回来的飞机,可以看到弹孔主要分布于机翼和飞机尾部,而驾驶舱、发动机和油箱的弹孔则非常稀少。因为机翼和飞机尾部弹孔更多,军方认为应该加强这两个部位的防护。

但给美国海军提供智囊顾问服务的沃德教授却提出了加强机身防护的建议,他认为:

1. 此次统计的样本,仅包含没有因敌火射击而坠毁并安全返航的轰炸机。

2. 假设所有中弹的弹著点应该会平均分布在机身各处,而能安全返航的轰炸机机身中弹数量较多的区域,是即使被击中也比较不会导致坠机的部位。

3. 机翼被击中很多次的轰炸机,大多数仍然能够安全返航。

4. 机尾弹孔较少的原因并非真的不容易中弹,而是一旦中弹,其安全返航并生还的可能性就微乎其微。

维基百科

二、德州神枪手谬误

描述

在大量的数据中刻意挑选出对自己有利的数据,而将其余对自己不利的数据弃之不用

举例

该谬误名称来自于一个典故:有个德州人朝自己的谷仓射了很多子弹,在弹孔最密集的地方画一个圈,然后自称神枪手。

另一个知名的例子:

1992年瑞典有个研究试图找出电源线对健康的影响,他们收集了高压电源线300米范围内所有住户的样本长达25年,对超过800种疾病一一检查发生率的统计差异。他们发现幼年白血病的发病率是一般人的4倍,还推动政府为此采取行动。然而,当我们比对超过800种疾病时,有一种以上的疾病因为随机效应而呈现发病率增加是非常可能的。果不其然,后续的研究再也没有发现电源线和幼年白血病的相关及因果关系。

维基百科

三、辛普森悖论

描述

聚合数据被分解时其中模式可能发生逆转

举例

辛普森悖论示例

如上图是辛普森悖论的一个例子。当整体来看,产品A和产品B的次日留存率,显然有B<A。但对A和B按照渠道进行分解时,可以看到,不管是对于渠道C1还是渠道C2,都有B>A。

出现上述现象是因为,在产品A和产B的渠道构成相差较大,渠道C2相对渠道C1次留率低很多,但是产品B的新增大部分来自于渠道C2,而产品A的新增大部分来自于渠道C1。所以尽管单个渠道对比时,产品B次留率都比A要高,但整体来看时,产品B次留率却要低于产品A。

四、条件概率倒置

描述

给定A的情况下,B发生的概率,与给定B的情况下,A发生的概率,是不等价的

举例

某种特定癌症的患病率为0.1%,该癌症的检测方法显示,患上这种癌症的人有95%会被诊断为阳性,但不患该种癌症的人也有2%会被误诊断为阳性。那么一个人检查后被诊断为阳性时,其患该癌症的概率为多大?

是否是95%呢?答案是否定的。根据贝叶斯公式,其患该癌症的概率约为4.5%,远小于95%。当然,仍然是普通人患该癌症几率的45倍(4.5%/0.1%)。

对于疾病检测类概率,一般来说,检测为阳性时患病的概率,远小于患病时被检测出阳性的概率。

五、赌徒谬误和热手谬误

描述

某件事发生了很多次,因此接下来发生的可能性较小;某件事很久没发生了,因此接下来发生的可能性很大;某件事发生了很多次,因此接下来很可能再次发生。以上说法都是不正确的。

举例

一枚均匀的硬币被连抛4次,都是正面朝上,那么第5次正面朝上的概率有多大?答案当然还是1/2。虽然大数定律告诉我们,硬币出现正面的频率最终会接近于理论上的概率即1/2,但这这并不会使第5次的结果出现反面从而更接近于理论上的情况。

一个NBA球员连续2次3分投篮命中,在其他因素保持不变的情况下,其接下来3分投篮命中的概率并不会因前2次都中了而更高。因为理论上说,这几次投篮都是独立事件,相互之间是没有影响的。

One Thought on “几种常见的概率统计谬误

  1. 能具体展开讲讲这些概念的应用场景吗?比如在推荐系统中的应用场景

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

Post Navigation