董春雨/薛永红:数据密集型、大数据与“第四范式”

2018-01-25 10:29 来源:《自然辩证法研究》 作者:董春雨/薛永红

Critical Discussion on Data-intensive,Big Data & the Fourth Paradigm

 

  作者简介:董春雨(1963- ),辽宁鞍山人,北京师范大学哲学学院价值与文化研究中心教授,主要研究方向:物理哲学及系统与复杂性哲学等。北京 100875;薛永红(1980- ),甘肃秦安人,北京师范大学哲学学院价值与文化研究中心博士研究生。北京 100875;华北科技学院基础部副教授,主要研究方向:科学哲学及科学教育。北京 101601

  原发信息:《自然辩证法研究》第20175期

  内容提要:基于概念的起源和演变,区分了“数据密集型”和“大数据”两个相互联系的概念;结合库恩的“范式”理论,分析了将“数据密集型”研究方法作为“第四范式”、并将其与“大数据研究方式”混用的逻辑矛盾以及由此带来的相关问题;最后从库恩的“范式”和“不可通约”两个概念出发,分析了“大数据”与“小数据”的关系,并且从“范式”的认识论意义和纲领意义两个方面,阐述了将大数据作为与小数据不同的科学范式所具有的积极意义。

  From the perspective of the origination and evolution of the "Data-intensive" and "Big data,the differences and relations between the two concepts are discussed.Then,based on Kuhns theory of "paradigm",we analyzed the logical paradox and problems while "data-intensive" research method is mistakenly regarded as the "fourth paradigm" and confused it with the “Big data method”.In addition,according to the "paradigm" and "incommensurability",the relationship between "Big data" and "Small data" is discussed.In the end of this paper,we expound the positive significance of the new scientific paradigm of the big data.

  关键词:大数据/数据密集型/范式/小数据  Data-intensive/Big Data/Paradigm/Small data

  标题注释:北京市社会科学基金一般项目“复杂系统科学理论视域下‘大数据’的特征及其哲学意蕴”(项目批准号:14ZXB010)和“中央高校基本科研业务费专项资金资助”即北京师范大学2015年度自主科研基金项目“关于时间方向问题的当代科学与哲学研究”。

 

  关于“第四范式”的最初表述来自图灵奖获得者、微软研究院(Microsoft Research)的前雇员吉姆·格雷(Jim Gray,1944)于2007年在加州山景城召开的NRC-CSTB上的演讲。在这次演讲中他宣称:“科学世界发生了变化,对此毫无疑问。新的研究方式是通过仪器捕获数据或通过计算机模拟生成数据,然后用软件进行处理,并且将所得到的信息或知识存储在计算机中。科学家们只是在这个系列过程中的最后阶段才开始审视他们的数据。这种数据密集型科学的技术和方法是如此不同,因此值得将数据密集型科学与计算科学区分开来,作为科学探索的新的第四范式。”[1]“第四范式”是区别于经验、理论和计算机模拟的范式。此后,关于“第四范式”的提法被广泛引用。如今,学界又普遍将“第四范式”等价为大数据研究范式。如果大数据研究范式就是数据密集型范式,并且是第四范式,那么以下几个关键问题需要澄清:首先,若二者等价,那么“数据密集型”与“大数据”应该是同义的;其次,吉姆·格雷所说的数据密集型研究方式能否看成“范式”?它和库恩的“范式”有什么不同?第三,即使能在库恩的“范式”意义上使用,但是将人类的认识过程或者科学发展阶段分为经验、理论、计算机模拟以及数据密集型这四种并列的范式,是否合理?本文将针对以上问题作初步讨论。

  一、“数据密集型”与“大数据”

  1.“数据密集型”来源及问题

  “数据密集型(Data Intensive)”这一词汇最先来自于“数据密集型计算(Data Intensive Computing)”。它源自于科学研究本身,是科学家在科学研究中对所获得的海量数据集所采取的一种计算方式——数据密集型计算。从能检索到的最早关于“数据密集型计算”的文献来看,“数据密集型计算”包括了从数据获取到管理再到分析、理解的整个过程。[2]目前,“数据密集型计算”已经被严格定义为:以数据为中心,系统负责获取维护持续改变的数据集,同时在这些数据上进行大规模的计算和处理。通过网络建立大规模计算机系统,使现有的数据并行,关注对于快速的数据的存储、访问、高效编程、便捷式访问以及灵活的可靠性等。它不是根据已知的规则编写程序解决问题,而是去分析数据,从数据洪流中寻找问题的答案和洞察。[3]

  按照吉姆·格雷提出这一概念的语境:信息技术与科学家相遇催生了eScience——各门科学研究者通过不同的方法收集到了数据,如传感器、CCD、超级计算机、粒子对撞机等,如何处理这些数据就变成了各门学科所面临的亟须解决的问题。[4]虽然科学家针对具体问题对数据进行了相应的处理,但是吉姆·格雷却看到了问题的关键:(1)不具有普适性——都是针对具体问题构建处理机制,不宜普及或推广。(2)不经济——需要成百上千人写代码来分析数据,软件成本成为资产开支的主要方面,即使是在小规模数据中,科学家不得不投入比获得这些数据更多的精力来做分析。(3)数据浪费——收集到的数据没有妥善管理或者没有经过系统的发表(即使是发表的数据,也只是很少的一部分,即只是“冰山一角”),不能被共享和重复利用。正是基于此,吉姆·格雷才提出了“数据密集型”研究方法的范式以及格雷法则,其直接目的在于“创建一系列通用的工具以支持数据采集、验证、管理分析和长期保存等整个流程”[5]v。并且呼吁资助开发用于数据采集、管理和分析的工具以及交流与发布的基础设施;还强调要建立起与传统图书馆一样普及和强大的现代化数据与文件存储体系。目前,由于数据技术的不断发展,数据密集型研究已经向着一门新科学的方向发展:它已经形成了明确的目的、内容与任务。比如,数据密集型科学由三个基本活动组成:采集、管理和分析,[5]v它的目的和任务是推动当前技术前沿对大量、高速率数据的管理,分析和理解。[6]

查看余下全文
(责任编辑:李秀伟)
更多学术内容,请关注 www.cssn.cn
';?> ';?>