第零讲:Grading Exams 评分标准

本学期,学校推出了学分绩改革,从原来的百分制改为等级制。学校这一创举的初衷我们无从揣测,也许主要是为了和国际接轨。不过,这么好的一个policy shock(政策冲击),不拿来琢磨琢磨实在有点可惜。

不过,我对于实证实在不太感冒,所以Event Study啊,Regression Discontinuity啊,Difference-in-difference啊之类的就留给后人了(其实只是因为不太可能从学校那边拿到大家在学分绩改革前后的成绩),作为一个立志跳进理论经济学大坑的本科僧,我就给大家说道说道,理论经济学家对这个问题有什么高见。

今天我要给大家介绍的paper是Dubey and Geanakoplos(2010) “Grading exams: 100, 99, 98,… or A, B, C?” 不得不说,这个名字起得就极为切合这一讲的主题。这篇论文发表在Games and Economic Behaviour上,在博弈论方向也算得上是除掉五大顶级期刊外的一流刊物。


不同于我们平时把这两种打分方式称为“百分制(percentage grading)”与“等级制(letter grading)”,作者在这篇文章中把这两种打分方式分别称为”fine”和”coarse”,也就是“精细打分”和“粗糙打分”。一般来说,我们总觉得精细比粗糙要好,首先看起来更有区分度,更何况在现行的学分绩计算方式下,差一分估计就差了好几个名次。其次,如果我告诉你90分及以上是A,85~89分是B,很多人都会拼尽全力去拿90分,但是却不会愿意花功夫去再多拿几分,所以一度广为流传这样一句话:“六十分万岁,多一分浪费”。在经济学上,这也是一个常见的现象,有时函数上会出现向外凸的折点(kinky points),效用最大化的结果往往就是大多数人都集中到这个折点上。

但这并不能说明粗糙就一定不能比精细要更好:区分度方面,有时92分和93分之间实际上并没有显著的差距,打出这样的分数对于某些课或是某些教授来说都是凭感觉,结果这一点感觉就主宰了同学们的命运,如果老师当时大笔一挥统统给A,反而没有这样的问题;更进一步地说,粗糙还有可能给所有人同时创造激励选择更努力的学习,比如说下面这个例子:

现在两个童鞋学霸A和学渣B马上面临只有这两个人参与的期末考试,他们不在乎具体的成绩高低,但在乎能不能超过对方。假定成绩不仅受到学生自己的特征(学霸还是学渣)和采取的行动(学习或者不学习)的影响,还会受到一些随机因素的干涉,因而会在一定范围内波动(假定是均匀分布),但学霸A即使是在不学习且成绩波动到最差的情况下,依然要比学渣B学习且成绩波动到最好的情况更好。如果我们直接打分,那两个人都不会好好学习,因为学渣B知道自己一定比学霸A差,学习也没用,所以索性不学,而学霸A意识到这一点,在学渣B有占优策略不学习的时候,学霸A的最优反应还是不学习。

但如果教授突然宣布,现在我们来采取等级制而不是百分制,而且成绩设定是这样的(假定他非常清楚学生们的各项波动的上下限等等),只有超过学霸A学习时的平均值才能得A,而只要超过学渣B学习时波动到的最差值就能拿B,而学生B不学习的情况拿的是C。学生仍然关注的是自己的相对成绩,但是他们只能看到等级而不知道分数,所以对B来说,选择学习有一定的概率和A拿到一样的等第,显然比不学习要好。同样的,对A来说,选不学习只能得到B,那就和学渣B一样了,但选择学习则仍有可能超过学渣B;最终双方都会选择学习。

当然,作者考虑的粗糙打分还是和我们所想的有那么一点不一样的,比如说,他给了教授更大的自主权,教授可以根据学生的实际情况,决定到底多少分到多少分是A,多少分到多少分是B,依此类推。这初看下来好像和咱们学分绩改革的规定内容不符,给的等级和相应的学分区间不是已经写出来了吗?但是细想想,教授完全可以先按照实际成绩(比如期中30%,期末60%,作业10%)给你打个分,然后根据这个分数估算各档等级成绩的分数段给出等级,然后再根据学校规定的什么等级在哪个分数区间给换算回来。说起来,不就是我们一直在经历的“调分”嘛!

说到调分,我们平时也称为“curve”,就是按照某种分布曲线(比如正态分布),根据同学的相对成绩高低,分别安排到曲线的不同位置上,从而调整得分;也就是说,这是根据相对成绩而非绝对成绩指定的打分标准。作者在论文中特意之处了这两种不同的打分方式:一种称为“绝对得分(absolute grading)”,你是多少分就打多少分(打相应的等第),上90分就是A,不管有多少人;另一种称为“相对得分”,或者作者更多地称为“调分得分(grading on curves)”,你是前百分之几,我给你打相应的等第,比如只有前5%才能拿A+,就算你考了99分,如果前5%的人拿了100,你就只能是A而不是A+。在这两种基本的打分机制之外,我们还能玩出更多的花样,下面我们还会讲到。


好了,以上这些大概就是背景知识,不过信息量还是很丰富的,接下来我们就可以开始看看这篇文章的各种结论了。先来罗列一下:

  1. 如果学生之间是“分离的(disparate)”,就像我上面举的那个例子,好学生就算不学习也比一般学生学习了要好,那么最优的绝对得分打分机制永远是粗糙的;
  2. 如果学生之间是“同质的(homogeneous)”,也就是说,如果一个学生学习,他的成绩总是服从某个对所有学生而言相同的分布,而不学习,也总是服从另一个对所有学生而言都相同的分布。在这种情况下,如果我们仍然考虑所有的绝对得分打分机制,一般粗糙打分会是更好的,但也有时精细打分会是最优解,取决于学习和不学习时这两个分布的性质。
  3. 无论是上面哪种情况,只要学生的成绩在相互之间是独立的,使用绝对得分都至少和使用相对得分一样好。
  4. 作者最后带过几笔有关不完全信息、异质学生和期中考作为拓展的一些讨论。

这里面,最不好理解但又最好解释的,是让我们感觉很奇怪的第三条。说它不好理解,是因为我们既然假设学生关注的就是自己的相对成绩而不是绝对成绩,那为什么不直接用相对得分的打分机制呢?更何况,在现实生活中,相对得分用的也是很广泛的。但说它好解释,是建立在作者允许教授根据学生的情况自由裁量每个等级对应的(原始)分数的区间的基础上。作者证明,在这种情况下,教授可以通过调整这些区间,使得自己使用绝对得分达成使用相对得分所得到的任意结果。而显然最优的绝对得分打分方式建立在最优的区间选择上,也即是说最优的绝对得分结果至少和相对得分结果一样好。


回过头来看一下第一条和第二条。首先是学生之间分离(disparate)的情况,上面给大家举了最简单的例子,说明粗糙打分能够激励学生学习。这种经过精心设计以激励学生学习的粗糙打分机制还有另一条隐含的性质,大致可以称为金字塔型(pyramiding),也就是说获得每个等级的学生数量,从顶至下是越来越少的;比如在上面这个例子中,即使学霸A选择学习,也只有1/2的概率获得A等级,而一般概率的学霸A加上学渣B,就一共有3/2人次可能获得B等级了。

对这种情况的推广,比如说有更多类型(即能力水平)的学生(仍然是分离的),或是每个类型的学生有多于一个,我们总能够合理地选择各等级的区间,构造出一个最优的粗糙绝对得分打分机制,满足以下两个性质:首先,每个学生在这个机制下,都会有选择学习而非不学习的激励;其次,由高到低,每个类型的学生中,只有一部分人能够得到对应顺序的那个等级,唯一的例外是最差的那个类型全部得到最差的等级;除此之外,最差的等级也还包含了一些次差类型的学生,这使得他们的人数遥遥领先其它等级,成为金字塔型夯实的地基。

既然我们已经知道,绝对得分比相对得分好,在所有绝对得分机制中,粗糙打分又是最优的,那是不是粗糙绝对得分打分机制就是所有机制中最优的呢?并非如此。正如我上面提到过的,我们还可以在机制上继续玩花样,特别地,可以在off-equilibrium path上放更加恶劣的情况,构造复合机制。作者举的例子正是一个复合机制:教授承诺,根据最后的考试结果,如果所有人都选择学习,那我们就选择实施粗糙绝对得分打分机制(也就是等级制),这样会有一半的学霸只能拿等级B;但如果发现有学霸选择不学习,那教授会给所有学习的学霸最后等级均为A。这时候,和不学习的学霸同样在等级B的将近一半学霸会成为等级A,只能导致他自己吃亏。这种复合机制并没有影响结果,但确实对学霸提供了更强的学习激励。


再来看学生之间同质(homogenous)的情况,作者首先引入了“随机占优(stochastic dominance)”的概念,大致可以理解为,当两个变量都在某个区间段上实现时,随机占优的那个更有可能取到更大的值。借用作者在另外的地方举的例子来说明一下,学霸和学渣去考试,学霸的得分稳定在90分上下,不外乎85。90、95这三种可能,而学渣背下了去年的卷子,不是0分就是100分。那么在90~100这个区间内,学渣的成绩是随机占优的,因为一旦学渣的成绩落在这个区间,那他一定是100分,而学霸的成绩落在这个区间,要么95要么90,都不如学渣高。

作者由此给出了两个结论:首先是说,如果选择学习一致随机占优选择不学习,那么精细绝对得分打分机制是所有机制中最好的;其次是说,粗糙绝对得分打分机制是最好的绝对得分打分机制的充要条件是存在一个区间划分P,使得在P以外,选择学习一致随机占优选择不学习,而在P的各个划分内,选择不学习随机占优选择学习。证明中有很多数学,虽然我确信我应该是能看懂的,但是这不是咱们的重点,所以也就不再赘述;单从直观上来理解,第一个结论大概是说,如果学习肯定比不学习要好,而且学习的回报通过精细打分体现出来了,所以大家都有激励选择学习;第二个结论则可以通过和分离类型时的现象做个对比,在每一个区间划分内,高分段是高类型而不学习的学生,低分段是低类型而学习的学生,这样就给予了学生学习的激励,因为他们从不学习转到学习,将能进入下一个等级,和一部分高类型(能力水平更高而不学习)的学生获得相同等级;由于整个模型是一个零和市场,这些人所获得的效用正是从那些选择不学习的人身上剥夺来的。


最后,我们进一步贴近现实,考虑以下三个扩展:不完全信息、异质学生和期中考。

不完全信息的状况,作者总结道:如果一共有有限种类型(作者此处隐含的假定是每个类型的学生是分离的),且每种类型出现的概率已知,而学生们是从这些类型中随机地抽取了一种类型,那么教授总是可以把这个不完全信息的问题转化为一个连续类型完全信息的问题,只需要使用分离情况下最优的粗糙绝对得分打分机制,把本来每个类型的人数替代为每个类型的概率,然后求对称纳什均衡就可以了。

有关异质学生的问题,作者做了一个非常有趣的假设:按学生的能力从小到大记为1至N,如果他们学习,那么每道题答对的概率就递进1/N,如果不学习,就和能力水平差一个等级的学生选择学习时一样;再假定一共有K道题。如果我们选择精细绝对得分打分机制,这时候最高能力和最低能力的学生都没有激励去学习,而中间段的学生则很有学习的欲望,如果我们此时引入粗糙绝对得分打分机制,虽然会压制中间段学生学习的欲望,但反之会激励最高能力和最低能力的学生去学习,总的来说提高了整体的最低努力值。不过,这些内容并不完全是理论分析的结果,而是作者所做的一个模拟实验,可以参见他们的工作论文Dubey and Gealakoplos(2005) “Grading in games of status: Marking exams and setting wages”

对于期中考,作者说的比较简单,只是表达了在有期中考的情况下,粗糙打分更加有必要,相关内容同样可以参阅他们的工作论文。


(2015.05.15 @ 微信公众号 @ 《第零讲:Grading Exams 评分标准》)

阅读 · 译介 · 创作