您现在的位置是:首页 >

为什么有时各个部分均占优而整体不占优

火烧 2015-08-18 07:49:17 1039
有时候,统计数据会出现一些极其反常的现象。让我们来看一看下面这个有趣的例子。假设科学家们研发出了一种治疗某种疾病的新药。不过,实验结果表明,这种新药的效果并不比原来的药更好,如表所示: 药品 有效人数

有时候,统计数据会出现一些极其反常的现象。让我们来看一看下面这个有趣的例子。假设科学家们研发出了一种治疗某种疾病的新药。不过,实验结果表明,这种新药的效果并不比原来的药更好,如表所示:

药品 有效人数 无效人数 总人数
新药 80 120 200
原药 100 100 200

简单计算就能看出,新药只对40%的人有效,而原药则对50%的人有效。问题出在哪里呢?是否因为这种新药对某一类人有副作用?还是存在其他原因?于是研究人员把性别因素考虑进来,将男女分开来统计,如表所示:

药品 男性
有效人数
男性
无效人数
女性
有效人数
女性
无效人数
总人数
新药 35 15 45 105 200
原药 90 60 10 40 200

我们不妨实际计算一下:对于男性来说,新药对高达70%的人有效,而原药则只对60%的人有效;但对于女性来说,新药对30%的人有效,而原药则只对20%的人有效。矛盾的结果出现了:新药不但对男性更加有效,对女性也更加有效,但对整体人群则无效!1951年,英国统计学家辛普森首次发现了这种怪异的现象,因此这种现象就叫作“辛普森悖论”。

辛普森悖论也叫辛普森效应,它其实不是一个悖论。其数学原理是:当ab<cdab<cd时,并不一定总是a+ab+b<c+cd+d。如果a+ab+b>c+cd+d,就会产生辛普森效应。它在分组样本数据大小差异较大、发生频率差异较大时容易出现这种现象。比如,在上面的例子中,参与新药试验的女性人数远大于男性人数,原药则相反,而且,药品对男性的有效率远大于对女性的有效率。

饼图是展示统计结果的常用方式

在医药卫生领域的统计数据中,这样的现象时常会发生,如流行病学中的“混杂效应”实际上就是辛普森效应。类似的事情在人类社会其他领域中也有发生。美国劳工部曾发表过一份报告显示,于2009年爆发并影响之后多年的全球金融危机期间,美国总体失业率要低于20世纪80年代经济衰退期间的总体失业率。然而,分别统计大学毕业生、高中毕业生以及高中辍学生等各个群体的失业率数据后,会发现这些群体在全球金融危机期间的失业率,均高于20世纪80年代经济衰退期间。究其原因,是由于2009年以后美国每年大学毕业生人数占总人口的比例远高于20世纪80年代,而大学毕业生的失业率则远低于高中生或高中辍学生。

1973年,美国加利福尼亚大学伯克利分校曾因性别歧视被起诉,因为有统计数据显示,当年男性学生的录取率远远高于女性学生。然而,校方仔细检查了学校每个院系里的男女学生录取率,发现情况并不是那么回事。事实上,几乎所有院系的女性学生录取率都更高一些。最终,伯克利分校在这次诉讼中获胜。

永远跟党走
  • 如果你觉得本站很棒,可以通过扫码支付打赏哦!

    • 微信收款码
    • 支付宝收款码