假设一所只有 100 个学生的学校一共只开了 10 门课,每个学生只上一门课。请问平均每个班上有多少学生?
10 个学生?
THINK AGAIN ! 好好想想。
你去问上面例题中的学校的校长,他一定会告诉你每个班平均只有 10 个学生。但是如果你去问学生,你将会得到完全不一样的答案。
假设这 10 门课中,有 1 门课有 30 名学生;有 2 门课每门有 20 名学生;2 门课每门 10 名学生;5 门课每门有 2 名学生。
学生数 | 课程数 |
---|---|
30 | 1 |
20 | 2 |
10 | 2 |
2 | 5 |
你从 100 名学生中随机调查 50 名,根据简单的概率,预计会有 15 人来自 30名学生的那门课;20 人来自班级人数 20 人的那 2 门课;10 人来自班级人数 10 人的那 2 门课;5 人来自班级人数 2 人的那 5 门课
于是你让这 50 人报出自己班级人数,然后计算一下平均数:
比实际的平均数 10 人高出了 92% !!!
WHY?
很多国外大学非常强调师生比,比值越大,说明老师要照顾的学生数量少,每个学生也就能多分配一些精力。
但是 1:10 的师生比并不意味着每个老师大概只需要教 10 名学生。因为:
简单来说,你上了一个 30 名学生的课,别人上着 2 名学生的课,你被平均了呀!
更重要的是,在做班级人数抽样调查的时候,你和你的同学这种来自大班的人有更大概率被抽中,因为你们班人数多!
这就是为什么抽样调查 50 人得到的平均班级人数有 19.2 人,比实际数据高出了 92%——你们这些大班的人太容易被抽中去做调查了。
如果只有抽样得到的数据,要想算出实际情况,简单来说就是要坚持 这个算法。
在抽样的 50 人中,总人数 = 50,班级数也很好算。50 人中有 15 人来自班级人数=30的班级,相当于这 15 人占了 个班。同理计算其他情况。
简单来说正确算法是:
这个算法实际上就是“调和平均数(harmonic mean)”。在本案例中,样本的调和平均数才是总体的(算术)平均数,即 10人/班。