大数据相关关系的因果派生类型

2018-03-05 21:13 来源:《求实》 作者:王天思

The Causal Derived Types of Correlations in Big Data

 

  作者简介:王天思(1954- ),男,哲学博士,上海大学社会科学学部教授,博士生导师,主要从事马克思主义哲学、科学技术哲学等研究。上海 200444

  原发信息:《求实》第20177期

  内容提要:相关关系及其与因果关系的关联是大数据时代人们关注越来越多的难题。本文在重新刻画的因果概念基础上,由原因和结果是对因素相互作用过程与其效应之间关系的描述,通过表明相关关系是因果派生关系,探索了相关关系的因果派生的三种基本类型:(1)因素和结果间相关关系,包括直接因素和直接结果间、直接因素和间接结果间、间接因素与直接结果间、间接因素与间接结果间相关关系;(2)结果间相关关系,包括直接结果内部要素间、间接结果间相关关系;(3)因素间相关关系,包括现实因素间和潜在因素间相关关系。

  关键词:大数据/相关关系/因果关系

  标题注释:2017年国家社会科学基金重点项目“大数据相关关系和因果关系研究”。

 

  大数据的发展,一方面对因果关系的传统理解构成了全面挑战,凸显了深化相关关系理解的难题;另一方面又为深化理解相关关系创造了条件。大数据时代,物数据化和数据物化分别是因果关系转化为相关关系和相关关系向因果关系转化的重要环节。通过这两个对称的环节,大数据为充分展开重新刻画的因果概念,深入理解相关性和因果性之间的关系,提供了理论前提和实践基础。

  当我们把原因看作是对因素相互作用过程的描述,把结果则看作对因素相互作用效应的描述,就能看到相关关系的因果派生性质。当因素未进入相互作用过程时,它们构成了一种与潜在结果相联系的因素关系。这种因素关系与因果关系密切相连,因为因素不与潜在结果相联系,就不存在因素关系。这种与因素关系密切相连的因素相互关系,正是一种典型的相关关系。这种相关关系的生成表明,那是一种因果派生关系。同样原理,因素和结果之间及结果之间的关系等都是因果派生的相关关系。由此可以得到关于因果关系和相关关系的清晰理解:因果关系是为因素相互作用所确定的关系,由于因果关系事实上是一个过程的两个方面,所以不构成相关关系。而相关关系则是因果关系的派生关系,包括因素之间、结果之间以及因素和结果之间的关系等[1]。

  大数据是信息文明的基础,在信息文明时代,关于大数据相关关系及其因果派生类型的研究,不仅对哲学,而且对统计学、计量经济学、生物统计学(Biometrics)和心理测验学(Psychometrics)等学科都有重要意义。

  由于具有衍射性质,相关关系的因果派生至为复杂;由于因果派生方式的多样性,相关关系种类繁多。一方面,由于是因果派生关系,同样的变量相关关系可以为完全不同的因果关系所派生。另一方面,数据既可以反映原因和结果的关系,也可以反映因素和结果的关系,甚至反映因素之间、结果之间的关系。这也是现实生活中相关关系如此纷繁复杂的原因,只有把握了因果结构,才能对相关关系进行分类把握。根据重新刻画的因果概念所展示的因果结构,作为因果派生关系,相关关系有三大基本类型。

  一、因素和结果间相关关系

  这是一类相对于特定因果关系的相关关系。由于无论因素还是结果,从直接到间接实际上构成了一个区间,因而数据所反映的相关关系就呈现出非常复杂的情况。由于对于一个特定因素的相互作用过程来说,因素和结果都可以是间接的,因而又有4个亚类。

  (一)直接因素和直接结果间相关关系

  直接因素和直接结果间相关关系是一种由因果关系派生的直接相关关系。作为与其他因素以一定的方式参与相互作用的特定因素,其与结果的关系受其他因素及相互作用方式的影响。同样的因素与不同的其他因素相互作用,或者与同样的其他因素但以不同的方式相互作用,可以形成完全不同甚至在质上相反的结果。在庄稼施肥和产量的关系中,作为结果,产量与施肥的因素有关,不施肥产量上不去,适当施肥可能丰收,但施肥过量,不仅产量可能反降,甚至可能造成绝收的结果。作为典型的因素和结果间关系,无论在量上还是质上,直接因素和直接结果之间的关系正是典型的相关关系。

  典型的直接因素与直接结果间关系,表现为有直接关联,但不具有必然联系,更确切地说,不能是必然因素。因为因素只是作为原因的相互作用过程的构成要素,它不仅对结果的贡献有不同,而且其对结果生成的影响也与其作用方式及其他因素密切相关。如人的身高是体重的因素,但体重的原因是身高和其他因素相互作用的结果,身高并不能完全决定体重。这种相关关系的相关度可能不断变化,只有在某一瞬间才可以被认为是相对确定的。因此,动态过程横截面的数据反映,直接作为原因相互作用过程的因素,在结果生成过程中的影响或相关性是确定的。

  直接因素和直接结果之间相关关系的数据反映,可能构成非常有意义的变量相关关系。所谓间接因素,就是其参与特定因素相互作用过程不是直接的,而是通过其他因素——典型的如通过直接因素——起作用,比如杀人案中的教唆者。由此可以构成一个作用链条,正是这一链条构成因素的作用距离。因素的作用距离越近,作为其反映的数据相关关系就越确定。因为因素的作用距离越近,其作用及其方式的传导越取决于更少的其他因素;经过的环节更少,因而越可靠,越具有稳定性,相关程度也相应越高。变量之间关系的确定性达到一定程度,可以接近因果关系,这种相关关系所反映的通常就是直接因素作为主要因素起作用的因素相互作用过程。

  直接的因素和结果间相关关系,正是大数据中最接近因果关系性质的相关关系,也是日常生活、经典物理学和大数据中最易被误为因果关系的相关关系。

查看余下全文
(责任编辑:李秀伟)
更多学术内容,请关注 www.cssn.cn
';?> ';?>