统计概率的坑(一):大规模随机抽样也不准!

假设一所只有 100 个学生的学校一共只开了 10 门课,每个学生只上一门课。请问平均每个班上有多少学生?

10 个学生?

THINK AGAIN ! 好好想想。

班级规模悖论(class size paradox)

你去问上面例题中的学校的校长,他一定会告诉你每个班平均只有 10 个学生。但是如果你去问学生,你将会得到完全不一样的答案。

假设这 10 门课中,有 1 门课有 30 名学生;有 2 门课每门有 20 名学生;2 门课每门 10 名学生;5 门课每门有 2 名学生。

学生数 课程数
30 1
20 2
10 2
2 5

你从 100 名学生中随机调查 50 名,根据简单的概率,预计会有 15 人来自 30名学生的那门课;20 人来自班级人数 20 人的那 2 门课;10 人来自班级人数 10 人的那 2 门课;5 人来自班级人数 2 人的那 5 门课

于是你让这 50 人报出自己班级人数,然后计算一下平均数:
15 30 + 20 20 + 10 10 + 5 2 50 = 19.2 \frac{15*30+20*20+10*10+5*2}{50}=19.2 人

比实际的平均数 10 人高出了 92% !!!

WHY?

师生比不是你想象中的师生比

很多国外大学非常强调师生比,比值越大,说明老师要照顾的学生数量少,每个学生也就能多分配一些精力。

但是 1:10 的师生比并不意味着每个老师大概只需要教 10 名学生。因为:

  • 首先,一个老师一学期可能只教 1-2 门课,但是一个学生一学期可能要上 3-4 门课乃至更多
  • 其次,上面的班级规模悖论在发挥着影响——客观准确的统计数字和你的个人经验可能相差万里

简单来说,你上了一个 30 名学生的课,别人上着 2 名学生的课,你被平均了呀!

更重要的是,在做班级人数抽样调查的时候,你和你的同学这种来自大班的人有更大概率被抽中,因为你们班人数多!

这就是为什么抽样调查 50 人得到的平均班级人数有 19.2 人,比实际数据高出了 92%——你们这些大班的人太容易被抽中去做调查了。

抽样计算真实

如果只有抽样得到的数据,要想算出实际情况,简单来说就是要坚持 / 总人数 / 班级数 这个算法。

在抽样的 50 人中,总人数 = 50,班级数也很好算。50 人中有 15 人来自班级人数=30的班级,相当于这 15 人占了 1 / 30 15 = 0.5 1/30*15=0.5 个班。同理计算其他情况。

简单来说正确算法是:
50 1 30 15 + 1 20 20 + 1 10 10 + 1 2 5 = 10 \frac{50}{\frac{1}{30}*15+\frac{1}{20}*20+\frac{1}{10}*10+\frac{1}{2}*5}=10

这个算法实际上就是“调和平均数(harmonic mean)”。在本案例中,样本的调和平均数才是总体的(算术)平均数,即 10人/班。


更多精彩内容