首页 >> 社会学 >> 社会学头条
大数据时代,人口学如何积极作为
2017年11月13日 13:53 来源:中国社会科学网-中国社会科学报 作者:李丁 字号

内容摘要:北京市师范大学的高颖通过和北京市民政局数据信息中心的合作,利用北京市近年来的婚姻登记数据对北京市婚配模式及其变迁、人口结构及其变迁做出了系列研究,对我们认识北京户籍人口、常住人口的演变规律提供了非常重要的基础信息,为进一步的人口调控与政策调整提供了依据。未来各个地方的经济实力不仅支持大规模数据的采集和人口研究,数据的质量也会越来越好,随着人口转变的深化,地方也会越来越重视人口研究,为人口学者提供更大的舞台。人口学者可能需要更多地探索在相对中观或宏观的研究单位上,人口统计特征与其他汇总属性之间的关系,例如社区人口规模、人口密度、人口结构与社区社会经济形态、人口过程如死亡水平、出生水平、迁移状态之间的关系。

关键词:人口;学者;研究;样本;汇总;户籍;开放;分析;手机;智能设备

作者简介:

  几年很热门的大数据问题在主要研究数据、用数据说话的人口学界却很冷清。除王广州专门发文讨论过大数据时代人口学的创新问题(王广州,2015; 2017)外,其他人很少进行正式讨论。具体研究方面,仅有少数几个作者用户籍登记数据(王莉,2011)、婚姻登记数据(高颖等,2011到2016的系列文章)、手机信令数据(王德等,2016)、灯光遥感数据(高倩等,2017)、百度迁徙数据(赵梓渝,2017;蒋小荣,2017)做了些研究发表在人口学的几大期刊上。为什么会出现这种情况?

  一、人口学大数据研究讨论还较少的原因

  大体而言,这和中国大数据的开放现状、人口学研究取向以及人口学者的训练都有一定关系。

  一方面,人口学研究讲求量的准确,而能提供这种准确度的大数据不多。用南佛罗里达国际大学的赖庆博士的话说,人口学是“定于量”的,不像社会学“化为量”即可。关于中国的生育水平,人口学界争论了二十多年,就是为了确定中国的总和生育率到底是在大约1~2之间的哪个具体小数上。

  其次,近十多年来,确实有越来越多的信息被电子化,甚至量化,但是诸如普查数据、户籍数据、婚姻登记数据、出生数据、教育学籍数据,以及医保、交通、劳保、不动产、银行等公共部门掌握的微观个人数据开放获取的可能性仍很低。已开放的数据往往只是一些互联网企业有限开放或可公开爬取的异形数据或零碎的、不系统的文本、图片、视频数据。这些数据往往缺乏基础性的社会人口变量,而且大多没有解决样本的代表性和测量准确性问题,无法对人口学所关心的数量、结构、过程做出精确估计。因此,人口学者通常也不敢用这些数据。

  再者,人口学者不太擅长用这些新数据。人口学擅长年龄、队列分析,经常要求年龄别或者五岁组的统计指标,这就要求各年龄组都具有独立的代表性,样本规模要求很大。一直以来,人口学者主要依赖权威部门(统计局,卫计委)发布的汇总数据或者大规模的抽样数据(包括统计局的普查、小普查的样本数据,人口变动抽样调查数据,卫计委组织的流动人口动态监测调查数据和计生服务与生育状况调查数据等少数微观样本数据,以及各种教育、卫生、户籍、人口汇总数据,或各单位自己组织的小规模样本调查数据)来做研究。说人口学者会玩数据,是因为他们擅长于开发利用汇总数据,较早使用计算机处理微观数据,而且可能处理过体量比较大的数据(如普查数据)。 这些数据结构通常很简单,变量也不太多。但采集和处理异形数据(如访谈文本)的经验较少,比社会学家更挑数据,更依赖公共部门;另外,他们中真正接触到超大规模原始业务数据(样本量千万以上的如户籍数据、全员人口监测数据、学籍数据)的并不多,很多还需要依赖掌控这些数据的业务人员进行查询和汇总。可以说,在面对新型大数据、异形数据,国内人口学者的实际处理能力还有待提高。比方说,新型大数据中空间信息和社会网络信息越来越多,国内人口学者对这些新信息的理解和处理能力就还比较有限,相当部分研究主要由地理学专家贡献。

  总而言之,不能用、不敢用和不会用阻碍了在量化方法基础相对较好的人口学者对大数据的探索和发言。尽管社会上大数据的口号喊了很久,但国内基础性公共数据不可得的情况未明显改观,使得即便讨论也容易变成纸上谈兵,而夸夸其谈也不符合人口学者的形象。

分享到: 0 转载请注明来源:中国社会科学网 (责编:于翠杰)
696 64.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
wxgg3.jpg
内文页广告3(手机版).jpg
社会学~头条~模板.jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们