加强人文社科数据资源建设与管理

2018-07-05 08:58 来源:光明日报 作者:王晓光

  近年来,全球范围内掀起一场新的数字革命,人类步入大数据时代。数据正在成为人类社会最重要的资源和资产。大数据给人类社会的各个方面都带来了巨大变化,特别是在科研领域,大数据及其分析工具正在成为人类认识世界和改造世界的重要手段。然而,与自然科学领域相比,人文社科领域对数据资源的使用相对滞后。此前的社会科学研究虽然使用数据,但多数都是小规模抽样数据,而非海量或全量数据。随着社会数字化转型不断深入,数据资源在人文社科研究中的地位不断提升,人文社科研究范式和研究问题发生变革。如何加强人文社科数据资源建设与规范管理,以适应科研数字化转型这一趋势,成为当下值得研究并解决的一大问题。

  人文社科数据资源建设勃然兴起

  与文献信息一样,数据也是学术研究的基础性资源。2009年以来,我国人文社科领域数据资源建设开始加速。人文社科类基金资助的数据资源建设类科研项目也开始直线增长。统计显示,党的十八大以来,与数据资源建设相关的国家社科基金重点和重大项目数量有了显著增长。2017年,国家社科基金重大招标项目中,与数据资源建设有关的,数量更是可观。这些项目主要集中在语言学、历史学、文学、图书情报学等学科,从地域看,主要集中于北京、上海、广东、江苏、浙江等地区。近两年,在专题数据资源快速增长的同时,国内实力领先的研究型高校也纷纷开始建设人文社科数据中心或数据平台,以支撑人文社科研究范式的创新与转型,如清华大学中国经济社会数据中心、北京大学开放研究数据平台、复旦大学社会科学数据平台等。

  蓬勃发展的人文社科数据资源建设,昭示着我国人文社科领域的基础研究环境和组织架构都在向数字化方向转型,数据驱动的研究范式正在人文社科领域悄然兴起。伴随此范式的兴起,人文社科领域的开放思维、计算思维、量化思维、协同思维也更加受到学者重视,由此推动了文学领域的大尺度宏观研究、历史领域的长程量化研究、艺术领域的视觉计算研究、文化领域的时空可视化研究等的出现。这些新兴的研究课题都离不开强大的专题数据库和计算平台作保障。人文社科领域的可计算数据资源正伴随数字人文和计算社会科学的发展而发挥着越来越大的学术价值。

  诸多不足制约人文社科数据资源建设

  数据库建设过程不规范,系统平台可用性不强。目前,很多人文社科数据资源建设都由重大科研项目驱动,有一定的项目实施周期。在现有学术评价体系下,传统的印刷出版物,如专著和论文,是科研成果的首选形式,所以在项目实施过程中,学术研究是核心,这就导致项目团队以项目结题为目标,不太重视数据库建设的规范性和长期性。很多数据库系统选型落后,数据服务平台功能单一,检索效率低下,不支持机器读取和原始下载,系统平台整体上可用性较差,难以满足项目之外用户的实用性需求。

  数据资源质量控制不严格,内容可信性较弱。与自然科学类数据相比,人文社科类数据的生命周期较长,史料价值突出,后世使用概率高,所以质量要求更高。然而,由于人文社科领域数据来源广泛,既包括互联网上的用户行为数据,又包括结构化行业统计数据,还有从传统书报刊中抽取的非结构化文本片段,数据模型的差异极大。在数据库设计过程中,由于懂专业领域又懂数据库设计的复合型人才稀少,很多专题数据库的结构设计相当随意,结构十分不规范,常常不合乎数据库设计范式要求。在数据库内容采集过程中,往往也缺少质量控制标准和规范,导致数据内容的可信性与可靠性得不到保障。

  数据发布标准不统一,流通共享成本高。数据的自由流通和共建共享是发挥数据资源价值的关键。目前,人文社科数据资源主要由各领域的学术机构自主分散建设,缺乏像图书馆联盟一样的第三方机构进行技术协调。建成以后的数据库在互联网上也是自由发布,标准不一,普遍缺乏便于机器读取和交互操作的数据接口。用户无法查看其详细的数据结构,更无法通过关联数据的方式相互共享链接,由此导致数据难以跨域流通和自动汇聚,语义数据网络也无法通过自动勾连的方式构建和使用。

  关键数据资源缺乏界定,数据主权难有保障。随着大数据、物联网和数字中国建设的推进,人文社科领域的数据资源将逐渐从调查获取和人为发布向感知获取与自动发布转换,例如社交媒体数据、金融系统数据、用户隐私数据、商品流通数据等都可以借助网络媒体系统、电子政务系统、电子商务系统,以及日益强大的智慧城市基础运营设施自动获取。这些数据资源中有些属于“关键数据资源”,不仅涉及个人隐私,对于国家数据主权和国家总体安全也有潜在影响,不能随意流通和跨境传输。目前,人文社科领域还没有针对“关键数据资源”的清晰定义,但其潜在安全问题正随着数据资源的快速增长而浮现,有必要未雨绸缪、厘清概念。

查看余下全文
(责任编辑:张振)
更多学术内容,请关注 www.cssn.cn
';?> ';?>