忽视统计回归
“统计回归”和“均值回归”指在测量总体的平均值时体现的统计特性。例如,40岁男子的平均身高是5英尺10英寸,假如你要测量一群40岁男人的孩子的平均身高,这些父亲的平均身高高于6英尺4英寸,这些孩子的平均身高会更接近于5英尺10英寸。也就是说,父亲们超高的孩子们的平均身高会更接近于总体的平均值。有人会疑惑为什么父亲是高个子的,孩子们的平均身高会低于父亲的平均身高。对这个问题的解释与因果联系无关。事实上,上述孩子们的平均身高又会低于他们的孩子的平均身高,这显然也不能用因果联系来解释。
假如你给学校的新生测试判断正误的题目,让他们猜测题目的答案。一些测试者的成绩会在50%以上,一些测试者的水平会在50%以下,但总体成绩会在50%左右。如果对其中60%以上的人再进行一次判断正误的测试,让他们猜测题目的答案,他们第二次的测试成绩会比前一次更接近50%。这两个例子都是对统计回归原理的说明。
你也许会思考为什么常常会有这样的现象:如一个篮球队员在一场比赛中表现非凡之后往往难以在下一场比赛中再展雄风;一个安打率非常高的年度大联盟棒球新秀往往在他的第二个赛季中表现得略显逊色。通常人们对这种退步提出各种解释:是成功让他们不再专心?其他队员开始盯上他了?换教练啦?但有可能这只是统计回归。
上述现象中随时都有可能发生均值回归。再举两个例子:2007年7月每天死于伊拉克的美国士兵异常多吗?无论是否有增兵或其他干预因素,8月份的这个数字很可能会下降。从一组心脏病人中,选择那些平均血压读数异常高的人,给这些人服用一种药,再给他们量血压会发现,第二次的平均值会降低,即会接近整组人的平均值。(这个例子解释了之前我们举的Zicam的例子中为什么要把潜在的感冒患者随机地分为实验组和对照组。)
这并不是说增兵或治疗心脏病的药不起作用。在治疗心脏病的例子中,患者要随机地分在实验组和对照组,也就是说,血压读数异常高的人要大致均等地分在两个组。没有这一点做保障,很难从“治疗”之后的某些好转得出结论:治疗导致了好转;好转也许只是回归。