2017年9月10日星期日

谢宇老师关于中国Gini系数的PNAS文章


(题图:https://www.economist.com/news/china/21570749-gini-out-bottle)

最近开学之后深陷作业的泥潭不能自拔……我选了一位中国工程院(外籍)院士的可持续发展课程,上课就在白板上配平燃烧反应的化学方程式,以及算各种单位换算(误),然后作业题里面让我们名词解释什么是自由主义、什么是民主……
其中一题让我们说明美国和何种程度上是平均主义的,何种程度上不是平均主义的。我想拿收入不平等来做例证,就查了一下美国的Gini系数,于是找到了谢宇老师的这篇旧文。这个文章当时出来的时候引起了广泛的、热烈的讨论,不过我和他们专业隔了太多,就没有找来看。正好刚刚收到通知后天因为刮飓风全校停课,due自然就后推了,我就读了一下这个文章,发现居然非常通俗。
记得2013年我在北大上研究生马克思主义与当代中国课,有一讲是社会学系的一位老师给我们讲中国基尼系数的问题。那个时候谢宇老师(和他在UMich的合作者)的文章还没见刊,但是他讲的基本观点倒是和本文非常重合。

这篇文章说了这么几件事情:
  1. 中国的Gini系数究竟是多少?
题图来自对华并不友好的The Economist,它2013年初引用的官方数据,说2012年中国的Gini系数是0.474,不过它也说有很多人怀疑这个数据。
国家统计局在2000年中断了Gini系数的提供,到2013年突然又提供了历年的数据。这个数据被很多人批评,认为有很严重的偏差。谢宇等人在本文中称,数据偏差的原因包括政治上的以及现实上的复杂困难,所以他也不信。13年那节课上老师引用了一个西南财大的报告,那份报告上对Gini系数的估计高达恐怖的0.611,该老师认为他们的方法有一定偏差。谢宇等人认为这个报告是促使统计局重新公布Gini系数的原因。
然后,本文作者从几份社会调查研究的结果中分析了中国近年来实际的Gini系数变化是怎样的。他们的数据源包括统计局的1%人口抽样调查(2004)、人大的中国综合社会调查(CGSS10/12),和北大的中国家庭追踪调查(CFPS10/12),双鸭山大学的一份调查(2012)和那份西南财大调查(2011)。(这里面CFPS的数据在2016年又帮我赢得一台iPad mini 2,主要感谢队友。)他们的结论是,以2012年为例,这几年的购买平价的Gini系数大概在0.515-0.531之间,不算那个西财的离群值(0.588)的话。
综合联合国大学的研究(UNU-WIDER)、国家统计局的数据等,他们绘制了这样一张图:

红线是他们用LOESS方法做的回归结果,蓝线是美国的LOESS回归结果。
从这个图上可以看出,国家统计局的趋势和若干份社会调查研究表现出的趋势并不一致。

2. 中国的Gini系数是不是在倒U型发展通道中?
所谓倒U型趋势也是2013年那节课上讲过的内容。意思就是,随着社会经济的发展,收入不平等会出现一个先上升再下降的过程。这是Kuznets于1955年提出的一个发展经济学理论。这一部分他们分析了倒U型趋势问题,但我觉得他们的计量工具用的不太漂亮。
他们首先从CIA World Factbook上查到世界各国1995-2012年间的人均GDP(购买力平价)和Gini系数,并以人均GDP为对数横坐标,Gini系数为纵坐标描绘出来,最后再用关于人均GPD的对数的二次函数去拟合Gini系数,发现果然是一个上凸的图像。我就不明白这个二次函数的函数原型他们是如何选择的,感到无语。
在这张图上重叠放置上面那张图,得到的效果就是这样的:

可以看到,中国和美国现在都处在拟合曲线的上方。只是中国有一个恐怖的overshoot趋势。但我觉得这个图的问题在于,经济发展毕竟是主观能动的,不是决定论的,所以外推无意义——但是我见到这张图就忍不住脑补外推是什么样的。灰度预测也只是一个合理化的猜测,并不保证效果。我想,一个改进的办法是只看发达经济体的历史数据,把横坐标换成历史人均GDP占现在人均GDP的比例,可能更有说明力一些——不过我不知道发展经济学上是不是有什么标准化的方法。

3. Gini系数的影响因素探讨和中美差异比较
他们说先从社会调查中抽提出了一系列反应地区、城乡类型、受教育程度、种族/民族和家庭结构的变量,然后对这些类别分别建立了对于家庭人均收入的线性回归模型:

其中Yi是第i个家庭的人均年收入,Xi是自变量,β是系数向量,εi是残差。
他们用各组R^2来表征该因素对总体趋势的贡献,这个指标成为“双边R^2”。看起来是非常朴素的思想。

可以看到,在美国,地区和城乡与家庭人均收入的回归优度是很差的,而中国这两个因素非常显著。美国单亲家庭的导致了家庭结构在收入不平等上起到了重要作用,而中国的影响却不大。
他们又用全部指标对人均收入做了一个多元回归,并每次剔除上面的一类指标,计算残余的R^2值。他们把这个称为部分R^2,并用这个指标进行鲁棒性的分析,发现依然反映了上述结果。

最后,谢宇等人分析,改革开放以来中国的收入不平等急剧增长。中国人认为经济发展必然伴随收入不平等的扩大,以及随着经济的进一步发展,收入不平等将会减小这样的说法不仅是历史的经验,也有社会学规律的作用。
我的一个反思就是,本文利用的数据都是公开的,没有自己做田野研究。我甚至有其中CFPS的授权。他们的统计手段也不见得高端,要让我还原他们的代码也似乎并不难,SPSS的话都不用写代码。我读这个文章的时候就有一种读数学建模比赛优秀论文的体验。
我们常说谁拥有了数据谁就拥有了一切。但是真的把数据拿手上,就开始考验学术视角了。