首页 >> 社会学 >> 编辑推荐
人口统计研究中方法的误用与滥用 ——以P/F比方法为例
2015年12月08日 09:25 来源:《中国人口科学》2015年第20153期 作者:郭志刚 字号

内容摘要:

关键词:人口统计;P/F比方法;方法适用性

作者简介:

  摘要:人口统计的方法和技术是帮助人们从数量上分析和认识人口现象的有力工具。但是,倘若运用不当,即使是科学的方法和技术,也有可能得出错误的结论,甚至会成为谬误的护身符。近年来,人口研究中误用或滥用统计分析方法的现象经常出现,并已影响到人口统计的严肃性和人口分析的准确性。文章以新近采用P/F比方法检验中国2010年第六次全国人口普查生育数据的一项研究为例,具体说明如果统计方法使用不当,特别是若无视方法内在包含的前提假定,便会得到误导性的结论。因此,人口研究中应当谨防方法的误用与滥用。

  关键词:人口统计P/F比方法 方法适用性

  作者简介:郭志刚,北京大学中国社会发展研究中心研究员、社会学系教授

 

  一、问题的缘起

  人口统计学一直被认为是擅于量化的一门社会科学学科,建立了相当完善的对生育、死亡、迁移等基本生命事件进行统计分析的方法和技术。人口学专业人才培养中必定需要开设人口统计学课程,对相关人口统计方法和技术进行专门训练。正是借助于这些方法和技术,人口学研究者们才能得以对人口现象进行科学严谨的统计分析,揭示其背后的规律,人口学研究才能得以不断繁荣和发展。

  从方法论上讲,任何模型、方法和技术都有其适用条件,或者说都包含内在的假定条件,只不过这些假定会存在或强或弱的差别。比如,近年来国内外人口学者关于进度效应对时期总和生育率影响的讨论提供了一个重要启示,就是当一个人口进入低生育率状态时,生育时机的改变会对常规总和生育率计算结果产生不可忽略的影响,从而显著扭曲其作为终身生育水平估计的功能。因此,Bongaarts等(1998)提出去进度效应总和生育率指标,以避免仅看总和生育率指标而得到误导性的认识。实际上,现有人口统计中有不少方法和技术都建立在稳定人口这个基本假定之上,特别是那些被称为间接估计的方法和技术。然而时至今日,很多发达国家,甚至像中国等不少发展中国家,其人口仍处于迅速转变时期,生育水平和存活水平仍在不断变化,明显是一种非稳定人口状态。换言之,这种人口现实与稳定人口在特征和属性上迥异,导致以往很多人口统计方法失去了应用的基础。所以,今天我们对“新常态”下的人口现象进行统计分析时,一个必须加以考虑的问题就是所用的人口模型、方法和技术是否仍合时宜?

  人口统计方法虽然是定量分析和认识人口现象的有力工具,但倘若运用不当,即使是科学的方法也有可能得出错误的结论。近年来,人口研究中误用或滥用统计方法的现象屡见不鲜,已经严重损害了人口统计的严肃性和人口分析结论的可信度。为此,本文以陈卫、杨胜慧(2014)用P/F比方法检验中国2010年第六次全国人口普查(以下简称六普)生育数据的研究为例,具体说明对处于“新常态”下的中国人口现象进行研究时,必须考虑所用技术方法的适用条件,尽量避免统计方法的误用或滥用,尽量避免得出误导性的错误结论。

  二、案例文章中的错误

  陈卫、杨胜慧(2014)采用P/F比方法检验了中国六普的生育数据。该文使用的是国际著名人口学家提出的成熟方法(Brass等,1968),而且未借助任何其他来源数据,仅使用“系统内”的2010年人口普查数据对生育率结果做了评价,发现六普生育统计的P/F比值在20~24岁到35~39岁之间各年龄组上都保持着较为平稳一致的值,即均在1.4左右。该文将这种结果解读为,在过去的15年里,中国的生育水平一直变化平稳,没有出现进一步的下降趋势。于是,这个比值1.4便可以表明六普收集的时期生育数据有严重漏报,导致其公布的总和生育率低报了40%。然后,他们再用这个比值作为调整系数对六普生育率结果加以调整,将六普总和生育率从公布的1.18提高到1.66。然而,对这一结论笔者感到不解。笔者承担过国务院人口普查办公室委托的六普生育分析课题(郭志刚,2014),研究结果不仅发现六普总和生育率比五普相应统计(1.22)又略有降低,而且六普数据还能反映出这种变化有着多种社会经济和人口原因。比如,21世纪前10年中,年轻一代的受教育程度有所提高;随着城镇化进程的加快,农村人口结婚和生育年龄明显推迟。城镇人口的婚育年龄早就处于不断推迟之中,2005-2010年,农村妇女的婚育年龄也出现了显著的变化。六普结果表明,20~35岁农村未婚女性比例明显提高,尤其是22~25岁,未婚比例提高均在10个百分点以上。此外,农村育龄妇女进城的比例已非常大。2000年和2010年全国人口普查表明,城镇化比例分别为36.9%和49.7%。育龄妇女人口城镇化比例分别达到40.7%和54.2%。而20~30岁生育旺盛期妇女城镇化比例更高,2010年六普时已达到56.8%。这些重要的变化不仅导致六普生育水平的降低,也导致生育年龄模式发生重大变化。

  P/F比方法的应用条件不仅要求生育水平稳定,而且要求生育模式稳定。陈卫、杨胜慧(2014)对此假定条件也有明确交代①,但该文仅凭六普数据的各年龄组P/F比值平稳一致便断定过去15年生育率变化平稳,完全没提及文献中关于近年中国生育模式变化的研究结果,自己不去具体分析中国生育模式是否有所变化,也没有认真分析六普的P/F比值的平稳会不会出于其他原因,就简单地将该指标结果作为调整漏报影响的系数。该文发表时仅用六普生育数据P/F比分析一个孤例,没有将中国1982、1990和2000年三次全国人口普查(以下简称三普、四普、五普)数据也进行同样的分析。按说有了对六普分析的计算模板,其他三次普查的各相应队列的曾生子女数和时期年龄别生育率统计都是现成的,只要套入计算程序很容易得出结果,但该文却没有进行这些分析。该文中还有其他一些评论或结论也是在论证不足情况下的唐突断言,难以令人信服。比如,该文显然很赞同“没有充分理由认为2010年普查开展时的社会环境和普查的登记办法,能够使2010年普查质量比2000年普查更好”的观点。但笔者觉得这种论证及结论均有些不可思议,因为现实是2000年以后社会经济迅速发展,教育水平提高,城镇化推进,因而城乡婚育模式有显著的变化。此外,2005年1%人口抽样调查试行了流动人口在户籍地和现住地双重登记,就是为了减少漏报。而六普延续了这种登记方法,在其他方面也采用很多办法来提高数据收集质量。有些学者居然视而不见,这不能不说是一种成见或偏见。近20年来,时期总和生育率不断走低,已远低于更替水平,甚至低于生育政策的要求。越来越多的学者认识到这种低生育水平已经不能简单归结为生育政策限制的结果,在很大程度上是出于社会环境的变化。然而,在各方面都迅速变化的总形势下,一部分人口学者却坚持认为社会环境没有变化,生育水平和生育模式也没有变,那么超生数量和比例也没有变,因而生育或出生的漏报和瞒报的必要性也不会变。但是,笔者认为这种推理逻辑难以成立,其实真正没变的是这些学者观察现实的眼光与思维。

  多年来,一些人口学者一看到调查数据与其他登记数据之间存在差别,或者某种调查数据内部之间的统计结果存在差异,不管各个系统的数据收集特点不同、服务目的不同、统计口径不同,便简单归结为调查数据漏报,而且一律按数大为准的标准来评判质量。陈卫、杨胜慧(2014)也是这样,一看到普查数据的低龄妇女组的曾生子女数小于计算相应年龄组生育率时所用的出生数,便认为不合逻辑,立刻视为出生漏报。实际上,只要认真查询便不难发现,普查低龄妇女组的曾生子女数小于前12个月内妇女的生育数本是正常的,因为这两种生育数的统计口径不一样。另外,陈卫、杨胜慧(2014)断定,“现在看来,无论使用什么数据和方法,2000年的生育率②不会低于1.5”,并且认为,“在上面所述的2010年普查和2000年普查得到的生育率类似,且从社会环境和普查登记办法看都没有支持2010年普查数据质量比2000年普查更好的证据的情况下,我们也有理由认为2010年普查的生育率不会低于1.5。”然而,该文一开始对中国普查生育率的类型出现概念错判,继而出现计算操作不当,最后又出现方法逻辑上混淆不清,因此其所有计算结果和推论也都失去了合理性。

  笔者重新研读了方法创建者的原文献,不仅计算了三普、四普、五普和六普的P/F值,还收集了其他一些人口的生育数据做了试算。尽管这些数据未必完美,试算结果也不一定都可靠,但是,试算可以帮助我们更好地理解P/F比方法背后的理论和逻辑,也可以增加一些实际感悟,再经过分析和归纳,大致可以得出P/F比方法并不适用于六普生育数据的结论。狭义的原因是由于几十年来中国的生育水平和生育模式一直在显著变化。广义的原因是该方法并不适用于生育水平很低的人口。因此,根据P/F比方法得到的六普生育率间接估计并无实际参考价值。

  下面笔者将分几个方面来报告自己应用P/F比方法的试算结果和其他相关分析的发现。

分享到: 0 转载请注明来源:中国社会科学网 (责编:李洁琼)
696 64.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
wxgg3.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们