面板数据分析在社会科学中的运用

2018-08-22 09:18 来源:中国社会科学网-中国社会科学报 作者:王森浒

  近些年来,面板数据(panel data)的蓬勃发展为定量社会科学研究(特别是因果推断)提供了重要基础。对于不熟悉定量研究的学者来说,面板数据是一个抽象而且难以从字面理解的概念。这主要是对英文单词panel翻译不准确导致的,使得面板数据这个词语没有体现它真正的含义。在英文中, panel有两层含义:1.一组特定的人群,比如它可以代指委员会、专家组等。2.长方形的板子,比如木板 (wooden panel)、配电板 (electric panel)等。很显然,panel data中panel指的是第一个意思。所以,面板数据的真实含义是对一组特定的人群进行长期追踪调查得到的数据,跟面板没有关系。但由于这个名词已经在定量社会科学的话语体系中广泛使用,本文中依然沿用这一词汇。与面板数据相对应的是截面数据(cross-sectional data)。顾名思义,它是对一个人群或样本进行一次性的调查,如果下一次再进行调查则重新选择样本。因此,面板数据的主要特征就是样本在时间上具有连续性。

  相比截面数据,面板数据样本在时间上的连续性对社会科学建立因果关系有什么帮助呢?众所周知,建立两个事件之间因果关系的条件至少有三个: 1.两个事件有一定的相关性,比如经常伴随发生。2.有因果时间顺序,即因在前,果在后。3.两个事件的关系是由于背后蕴藏的真实机制,而不是由于遗漏变量或干扰因素等原因造成。关于第一个条件,面板和截面数据都可以轻易地发现很多具有相关性的事件。所以,面板数据优势主要体现在后两个条件。关于第二个条件,面板数据样本的时间维度不仅可以让我们在考察不同变量关系的时候考虑时间顺序的因素,排除因果倒置的问题,也可以让我们发现事物变化的动态趋势。然而在截面数据中,想要建立时间顺序就不那么容易,主要依赖回顾数据(retrospective data,比如询问儿童时期的健康状况)和逻辑关系(比如性别在逻辑上比就业要早)。关于第三个条件,面板数据可以更好地让我们排除其他干扰因素,从而确定因果关系。假设我们想研究参加补习班是否可以提高学生的成绩。如果运用截面数据的话,我们可以比较两个不同的学生,一个参加过补习另一个没有,然后比较参加补习的学生是否比未参加补习的学生成绩更好。然而,由于参加补习的学生通常来自更加富有的家庭,父母受教育程度高,投入学习的时间更多,也学习更好。这些因素使得我们难以判断参加补习是否可以提高学生成绩。尽管我们可以尽可能地选择在这些方面都相似的学生(控制这些变量),但是总有一些难以测量的不明显的特征,比如父母教养方式。这使得我们无法考虑到所有的干扰因素。相比来说,使用面板数据的话,我们不再比较两个不同的学生,而只是比较同一个学生在不同时间的变化。显而易见,使用面板数据的方法更加可靠,因为我们只考察个人内部变异(即同一个人在不同时间点的变化), 忽略个人之间的变异。由于一个人的很多因素不随时间变化或者在很长时间内不变(比如性别、种族、家庭背景),我们就可以排除这些因素的干扰。

  在上一个例子当中,面板数据分析所用的逻辑叫作固定效应模型,它只研究个人内部的变异,忽略个人之间的变异,这样可以有效地排除其他时间固定因素的干扰,使得结果更加精确。另一种分析面板数据的方法是随机效应模型。和固定效应相比,随机效应对个人内部和之间的变异进行加权平均。同时考虑两种变异可以使得随机效应更充分地利用数据的信息,也就是在统计上更加有效率。然而,因为考虑了个人之间的变异,随机效应必须假设残差和自变量不相关(即模型不受其他遗漏变量或干扰因素的影响)。事实上,这种假设通常是不成立的,这就使得随机效应模型潜在误差风险更大。所以,尽管随机效应模型更有效率,但越来越多的学者(特别是经济学学者)倾向使用固定效应以保障模型结果的精确性。

查看余下全文
(责任编辑:于翠杰)
更多学术内容,请关注 www.cssn.cn
';?> ';?>