以机器学习方法助力因果推断

2018-08-22 09:20 来源:中国社会科学网-中国社会科学报 作者:胡安宁

  当代社会科学量化方法的新发展有两个新趋势。其一,学者们从传统的对相关关系的分析(或者偏相关)逐渐转向更为精细的研究设计与分析过程,从而达成对因果关系的考察;其二,以算法为基础的机器学习技术开始被引入进来,对各种具体的社会科学议题进行分析。那么,当这两种趋势汇流,会对当下社会科学研究产生什么影响呢?为了回答这个问题,我们可以了解一下机器学习的方法与传统的社会科学研究技术有何不同。

  简单来讲,机器学习方法的基本目的在于分类和预测。基于特定的数据信息,预测新的个体被归为A类或者B类的概率。然而,传统的社会科学研究的基本进路在于解释。这里可以举一个简单的例子,同样是拟合一个线性回归模型,传统的社会科学研究者将注意力放在这个模型中特定自变量的系数上(例如,将收入水平回归为教育成就和其他控制变量的函数,教育社会学者关心的是教育成就的回归系数的大小与显著性水平),而机器学习的目的则是看这个回归模型多大程度上可以预测因变量的取值(例如,各种变量组合起来如何预测收入)。这种关注点上的区分非常重要。因为我们在进行模型拟合时所需要特别关注的问题(例如共线性等)在机器学习的分析范式下便不再是问题。只要有助于提升预测的准确度,我们的模型拟合过程完全可以变得非常有弹性。正因为如此,很多时候,机器学习的算法所贡献的结果如黑箱一般,学者们知道黑箱的输入项,关心的是黑箱的输出项,但是中间内部是如何进行的,往往不是很在意(对于复杂的机器学习技术,这个黑箱是很难进一步了解的)。

  那么,这种以预测和分类为基本特征的机器学习方法如何能够和当下的因果推论分析技术结合起来呢?这里,大致可以有三个结合点。

  第一个结合点在于利用机器学习方法进行预测。比如,很多因果推论技术都是基于倾向值展开的。所谓倾向值,是指个体接纳自变量某个特定水平影响的概率。显然,这个概率需要研究者根据手头的数据进行估计,常用的是logistic回归方法。但是,除常规的广义线性模型之外,研究者完全可以采用诸如分类回归树、神经网络、支持向量机等机器学习方法进行倾向值的预测,因为这些方法本身的目的便是进行预测。目前,在这方面已经有一些建设性的研究。例如,如果自变量和混淆变量之间的关系呈现非常复杂的曲线关系(例如,混淆变量之间存在多重复杂的交互),那么,以算法为基础的机器学习技术便具有比较显著的优势。

查看余下全文
(责任编辑:于翠杰)
更多学术内容,请关注 www.cssn.cn
';?> ';?>