教育的种族差异源自何处?

本文是9月28日《经济学原理》小课的记录,本次小课主要讨论如何用经济学研究教育中的种族差异。


控制变量

一般而言,经济学家所说的控制某些变量,并不是完全地“控制住”变量。比如我们来研究父母教育水平对于孩子教育水平的影响,要控制父母的收入,并不是说把父母收入一样的一群小孩放在一组,然后分别进行比较:一方面所谓“收入一样”如何定义很成问题,可能结果是分成很多组,每组只有很少的样本;而另一方面,这样控制的结果只对每个组有效,相比之下,我们更希望找到一个对整体都有影响的解释。

再看一个经典的例子,就是研究价格和数量的关系。我们知道竞争市场上供求关系决定均衡价格和均衡数量,也就是说,价格和数量同时收到双重影响:给定供给不变,价格越高数量越高;给定需求不变,价格越高数量越低。假定我们采用完全控制住变量的方法,某几天供给曲线是完全一致的(这首先就很难做到),再观察这几天价格与数量的关系,发现其运动方向相反;然而这个结论是否适用于所有的供给情况下,还需要进一步的检验。

这就是我们为什么要引入回归分析,它相当于同时考察所有因素的影响,对每个因素进行回归都是控制了其它因素,是一个对整体的解释。

但是上述价格的例子在进行回归分析时,仍然是有问题的,因为我们不能够把供给作为一个自变量放入回归分析中。解决这种两个因素同时影响的常用手段之一是使用工具变量:有什么东西,它和供给有关,但和需求无关,而且能作为一个因变量使用?经济学家在研究农产品的过程中找到了一个工具变量,也就是天气。某一年天气的好坏(比如降雨天数)直接影响到粮食的供给,但是却不会因此改变人们对于粮食的需求,因此将降雨天数也作为自变量进行回归分析,控制降雨天数就是控制了供给。


回归分析

尽管回归分析很强大,但是也不是所有的回归分析都是有效的,有时候回归分析也会出现问题。

首先是多重共线性的问题,这一点在自变量很多的时候尤其明显。所谓多重共线性,是指某些自变量之间存在非常强的线性关系,比如我们在设置人种的变量的时候,假定有黑人白人两种人,那么我们只能设置一个变量Black[i](黑人为1白人为0),如果同时设置两个变量Black[i]和White[i],两者相加永远是1,就称为完全线性关系;存在多重共线性时,尽管回归得出的参数和非共线性的情况变化不大,但是方差会被扩大,因而有些本来应该是有影响的因素会被认为是没有影响的。

另一个问题在于回归分析只说明存在相关关系,并不说明两者的因果关系。这里面就有很多文章可以做:

首先是内生性,就是我们打算研究A对B有多大影响,但是同时B可能也在影响A。我在Berkeley的一篇term paper讨论一个城市的犯罪率对周边城市的房价的影响,显然这样的影响是存在的,但是反过来,周边城市的房价上升,有可能引来更多小偷,使得目标城市的犯罪率反而下降了,这样就有了内生性的问题。为了解决这个问题,我考虑了去年犯罪率对今年房价的影响,因为今年房价不会影响到去年的犯罪率,但是这并没有完全消除去年房价同时影响去年犯罪率和今年房价,也即lurking variable的问题。

排除了内生性,还要考虑偶然性的因素。比如我在课上演示了两个随机数列的显著相关的例子,显然从数列的生成方式上就说明它们的显著相关只是偶然误差;此外,在时间序列分析上,还有所谓的Spurious Regression的问题,大体意思是两个整体递增的数列很有可能正相关,即使它们完全没有关系,比如中国的GDP增长和我的岁数。为了避免这种偶然性引起的问题,首先要做的就是认识到这个问题的存在,有些研究就是拿了一大堆自变量,一群一群地试过去,试到某一组正好显著了,就拿出来说事儿,这是很难避免偶然性误差的;其次就是要多做稳健性检验(Robustness Check),比如选取不同地区、时间的数据,或者对变量换一种衡量方式(比如本次案例中,对于受欢迎程度如何测量,作者就提出了不同的指标)再重做回归,如果结果相同,或结果虽然不同但是有合理的解释,才能说明这里的相关关系不是偶然性造成的。

排除这些问题之后,才可以开始谈因果性的问题。用于辅助解释因果性的计量工具有Difference-in-Difference(常用于政策冲击,选择两组人,一组收到冲击一组没有,然后进行比较)、Fixed Effect(加一系列控制变量)、Instrumental Variable(即工具变量)等等,但是归根结底,是要有一个好的故事,而且故事有好的寓意,比如族群认同当中,我们说Sabotage Model就是一个故事,它的寓意是坏学生会拖好学生后腿,但是这个寓意并不正确,因为实验证明好学生也在拖好学生后腿,所以这就不是一个好的故事。

即使确认了存在因果关系,还存在有Decomposition,也即分解影响的问题。A具体如何影响B,会直接导致决策上的不同,比如我们已经知道,父母的教育水平影响孩子的教育水平,但是到底是因为父母教育水平越高,因此更重视教育,因此孩子的教育水平更高,还是因为父母教育水平越高,收入就越高,因此孩子营养丰富所以教育水平更高,抑或是因为父母教育水平越高,社会地位也越高,甚至存在一些灰色关系而使得孩子获得更高的教育水平,这三者是截然不同的。除此之外,有时Decomposition也能解释无关变量的问题,如果A对B有正向的影响(而且我们经常观察到),但同时A潜在地对B有负向的影响(通常被我们忽略),结果综合起来可能就相互抵销了。

与回归分析还稍微搭点边的另一个问题在于数据。数据本身是否合理可行?如果拿到的数据是有偏差的,比如存在人为选择数据的问题(注意,为了解释自己的理论刻意忽略一些数据或是伪造删改数据是严重的学术不端),或者是存在幸存者偏差、选择偏差,尽管回归本身没有错,但结论最终还是错的。比如案例中提到,父母打孩子屁股对孩子的教育水平没有影响,这是一个选择偏差的问题,因为父母是否打了孩子屁股,不是暗访得出的结果,而是询问父母的结果,会说出自己打了孩子屁股的家长是怎样的家长?既可能是觉得“棍棒底下出人才”,就是喜欢打孩子屁股的家长(导致教育水平更差),也可能是虽然打过但是并不以此为手段,而且敢于承认的开明家长(导致教育水平更好),两相抵消,可能因此就给出了没有影响的结论。


实验的可行性

经济学家很难进行实验,很多时候他们更倾向于利用自然实验的结果,比如政策改变、突发的自然事件或政治事件等等,这是由于经济学家所要研究的对象是人,对于人的研究往往要考虑到可操作性和伦理的问题。

有些实验是不可操作的,比如有同学在memo中提到建一所学校,选一批黑人白人去上课,并采取不同的政策,这样的学校是不会有人去的;再比如研究超速通货膨胀,经济学家不可能自己跑到哪个国家去主导发生一场超速通货膨胀,只可能是先有某个国家(比如津巴布韦)经济发生问题,或是像索罗斯狙击泰铢那样有大量热钱涌入炒作,经济学家才有机会跟上去进行观察并收集数据做出论证。

更为严重的是伦理问题:假如上面所说的学校真的成立了,而你的政策被证明确实会对学生产生影响,那么那些收到负面影响的学生该怎么办?他们未来收入的下降由你来负责吗?李宏彬教授讲过一个故事,他们拿到基金会的一笔钱,去乡村小学做双盲实验,随机选一批孩子,资助他们上大学,本来计划做很多年实验,结果第二年就没有做,为什么呢?因为孩子们问他们,为什么成绩最好的那个孩子没拿到钱去读书,而成绩很差家里有钱的那个孩子却拿到了资助?这就是以认为实验对象不可避免的问题。再比如Duflo领导下的J-PAL在贫穷地区搞微观革命,随机选一半人打蛔虫,最后验证打了蛔虫对未来收入是有影响的,我就一直在想剩下那一半人怎么办呢?虽然说起来他们和原来没有J-PAL,没有RCT的时候没有两样,但是很多时候个人的处境不是由绝对水平决定,而是由相对水平决定的,一开始只是收入差距,等到累积起来就可能是社会阶层差距,这并不是没有可能。

所以经济学家经常会面临这样的两难境地,如果顺应了民意,我们不要随机,可不可以呢?作为国家政策当然是可以的,但是这样做的结果并不是完全真实的,这涉及到经济学上所谓逆向选择和道德风险的问题。用保险来解释比较清楚,逆向选择的意思是,投保的人本身就比不投保的人更有可能发生意外(事前的扭曲),而道德风险的意思是,投保之后人们会更加不小心谨慎(事后的扭曲),存在着两种问题,保险公司就不能以社会上平均的意外发生率为标准设定投保的门槛或费用。在这里也是如此,加入我们要验证资助会使得孩子未来的发展更好,那么如果资助的就是成绩好的学生,我们怎么知道是由于资助所以他们更好,还是因为他们本来就爱学习,即使没有资助一样会过得很好呢?


理论与验证

对于大家在memo中提到的一些原因,我稍微做一些点评:

正面榜样:
这个在课上已经说了,实际上已经有人以“The Obama Effect”为题进行了一些研究。

优越感与自卑心理:
白人的优越感和黑人的自卑心理,造成白人更加努力学习,黑人更加自暴自弃,可以通过心理学量表给出相应的优越感或自卑心理的度量,然后对人种进行回归看是否有显著的差异,如果有的话再进一步作为成绩回归分析的自变量。

基因决定:
基因决定人的性格/智商,进一步决定教育水平。基因决定论之前炒得很火,尤其是有这样一个观点:有些环境因素本身也是基因造成的,更进一步扩大了基因对教育水平的影响。关于基因的研究,非常经典的一个做法就是使用双胞胎或多胞胎,尤其是比较同卵双胞胎和异卵双胞胎的不同。

近朱者赤近墨者黑:
这是一个非常trivial的解释,但是我觉得还是值得讨论的,首先是这个“近”、“朱”、“墨”到底如何衡量,指标的设计是很有意思的,不同的设计可能给出不同的结论;其次是到底这里面是如何影响的,是否有隐藏变量或反向因果(父母收入低同时导致子女教育水平低和住较差的小区),是否结合了其它因素,都需要进一步说明。

历史原因:
总的来说就是马太效应,贫者愈贫,富者愈富。如果真的是这样的话,我们是否可以推论,白人之间也应该存在分化?就是说白人如果在一代中有人富有有人贫穷,或是有人掌管大权有人苦逼打工,那么未来白人之间也划分出不同的阶层?

家庭结构:
黑人中有很多单亲家庭或是多子女家庭,因此影响了孩子的教育水平。这个观点在其它小班都有提到,可以用回归分析进行验证,不过我想到的一点是,孩子在多子女家庭中排行第几也是影响成绩的很大因素,值得注意。


阅读 · 译介 · 创作