尹军琪:那些会说话的数据

作者:尹军琪 时间:2019/07/31 来源:和记娱乐怡情愽科技

        常常听人说,用数据说话,数据会说话。

        曾几何时,数据成为政客们的口头禅;数据是国家或企业制定政策的基础;数据更常常是写文章、论证问题的利器。因为人民相信数据说明真相。

        是的,在一个大数据时代,有谁还会怀疑数据的真实性呢?

        然而,我们可曾想到,数据也会说谎。而那些会说谎的数据,曾经扮演了多么重要的角色。他们会左右大选的结果,他们会左右和操纵民意,他们会给人以错误的概念。

        世界那么大,数据那么多,有谁知晓其中什么才是真相?

        关于电商数据

        先来看看一个会说话的数据:电商的销售数据。

        刚刚结束的618购物季,据说总规模超过了去年的双十一,销售额达到了惊人的3400亿。数据是明摆着的,有分时的统计,有各家的战报,其实也没有什么好怀疑的。但天猫也好,苏宁也好,京东也好,都不肯公布另一项数据:就是退货率有多少,刷单占比有多少,以及机构有多少大宗订单被保留到这一天才下单?据有关机构估计(当然,既然是估计,就不一定准确),退货应该在10~30%左右,早年的刷单占比应该也在10~30%,因此,所谓的数据就有了很大的水分。更有甚者,618是6月1日到18日总计18天的销售额,而非6月18日1天的销售数据!关于这一点,京东以前总是遮遮掩掩,欲说还休。今年总算如实公布了出来,也是一个进步。

        图1 京东2019年618下单1592亿

        中国人喜欢吹牛,因为吹牛不上税。几年前有一家叫“一亩田”的公司,数据完全造假,销售了100万,造假可以达到1个亿,但居然还是有人深信不疑。大跃进时,亩产10万斤稻子,也居然也有人信,结果饿死了很多人。

        电商的数据造假变得肆无忌惮。一方面是我国互联网企业(包括现在的电商及电商平台)长期以来烧钱的需要,因为要流量,要增长,要上市,要包装。另一方面则是源于电商没有纳税的顾虑。这显然不是税务部门的“失误”,而是经过大家深思后的有意为之。但这种造假不仅欺骗了广大的消费者,也给社会造成了很大的危害。很多互联网公司表面光鲜,其实干的是坑蒙拐骗的勾当。这样的公司数不胜数,如已经出事的共享单车,以及乐视等。骗子每朝每代都有,外国骗子也不比中国少,但监管部门如果不作为,往往使骗子们很容易得手。

        对于电商,还有一些与物流相关的会说谎的数据。比如在双十一,很多电商宣称自己的第一单花了多少时间送到客户手中。有一家单位宣称自己只花了24分钟,就将货物送达客户,这也说不上是造假,因为1个订单,总可以采用极端的手段去完成。其恶劣之处在于,他们并不肯客观的统计出所有订单平均履行时间。还有一些电商宣称可以当日达和次日达,其实没有告诉大家当日达的比例,在开始的时候,据说只有约30~70%达成。到了今年618,宣传口号变成了机器拣选。其实无论是苏宁、天猫,还是京东,采用机器人拣选的货物可能连1%也没有。但这并不影响大家的心情,媒体也乐于有这样的题材,至于事实,只能留给大家去想象。有些与物流相关的会说谎的数据,意义不大,危害也不大。但会给人民以误导。

        过去的电商大多是以烧钱过日子的。这样的商业模式虽然有其合理之处,可以通过砸钱而获得流量,但终究偏离了正常的商道,对社会是有害无利的,也是不可持续的。希望未来能有所改变。

        关于房价

        中国的房价,在过去20年间,上至决策层,下至黎民百姓,无不令人牵肠挂肚,寝食难安。同时也令全世界的经济学家多次大跌眼镜。有人说是奇迹,有人说是泡沫。有人赞叹,有人诋毁,更多的人是担心。不管怎么说,由政府主导,银行配合,在投机商人不断轮番炒作下,中国一线城市房价在20年间上涨30~40倍,这不能不令人瞠目结舌。

        如果说没有人看得懂中国过去的房价,那么对未来的房价走势,更是没有人敢预测。因为,过去预测错误的人太多了。

        图2 北京2019年6月房价分布图

        一方面是房价高得离谱,给北京的未来发展带来了灾难性的后果,其中之一就是年轻人无法在这里生存,北京将是一座失去活力和没有年轻人未来的城市。上海、深圳也是如此。另一方面,房屋的价格也是非常的怪异,在过去几十年中,几乎只涨不跌,完全与经济规律背道而驰。

        我国大部分地区的房价计算方法,与国外相比,可能有一点是大家不曾知道的,就是计算基础和统计方法是特别的。以北京为例,房价的计算依据是建筑面积,它包括了所谓的公摊面积。大部分情况下,公摊的比例会占到整个建筑面积的15~25%(这个数据不是十分准确)。据说国外的大部分数据是基于使用面积计算的房价,没有公摊。因此,中国的房价应比公布的价格高出15~25%,也就是说,如果公布的房价为10万每平方米,则与国外的数据相比较,实际相当于是11.5~12.5万每平方米,这个差异是非常很大的。不知道按照建筑面积计算是开发商的发明,还是政府平抑物价的需要,要给老百姓有一个好看的数据。但不管怎么说,这种忽悠人的算法的确给人的感觉是房价没有那么高。而由此带来的一系列问题将是严重的,如产权、税收等,未来将是一笔糊涂账。

        中国现有多少房屋,每个地区的价格如何,应该是可以说得清楚的。我们天天喊什么大数据,可就是连最简单的加减法和统计报表都不肯做。非不能也,是不为也。

        关于高考成绩

        高考被称为中国最公平的人才选拔机制之一。也正因为如此,几十年来很多寒门学子得到了宝贵的上学机会,并为社会做出了巨大贡献。但随着时间的推移,也逐渐变味。先是各种名目的加分,如特长生、三好学生、奥数获奖者、少数民族等。后来又有自主招生,生出了不少腐败。再后来,就是现在的自主命题,全国有不少省份是自主命题,而且打分机制也不尽一样,有的750分,有的900分。当然,录取的分数也就不一样了。

        对特长生、三好学生、奥数获奖者以及少数民族考生照顾,体现了高考合理的一方面,本来是一件好事。然而问题是,正如其它许多事情一样,这样一件好事被各地方办成了走后门、拉关系、弄虚作假的坏事。据几年前暴露出来的问题,有些地方的保送生,几乎都是关系户。不仅成绩造假,特长生造假,甚至于少数民族的证明也造假。这就是这项政策之所以受到大家诟病的原因。

        关于学校自主招生,我想一开始也是有其道理的,毕竟延续了几十年的高考制度也存在各种各样的弊端。但最终也演变成一种腐败的重灾区,应该是设计这一政策的部门所不曾料到的。

        很多人都抱怨自己省份的录取分数高不合理,其实这只是表面现象之一。真实的情况远比这个要复杂。

        首先,为了平息大众的怨气,是导致部分省市采用不同试卷的根本原因。因为不同的试卷,难易程度就不一样,所以,录取分数就不具备可比性。这一策略还真起到了“很好”的作用。

        另一方面,应该说,每个省的情况是大不一样的,教学条件、学生基础和水平也差异很大。要完全一刀切以一个分数线录取,不仅不可取,而且也是另一种不公平。此外,各地城市化水平不一样,学生入学率也存在差异,学生家庭经济条件更是差异悬殊,入学率直接关系到未来的就业乃至社会稳定。因此,采用不同的入学率应该是一种更加合理的方法。我国历来就采用了这一方法。至于这一方法是否就非常公平合理,不仅要从实际效果进行验证,更要从提高全社会的入学率和就业率,提高全社会的创造力、生产力、生活水平这一高度去考虑。

        大家看到的数据主要是参加考试人员的比例和录取比例,尤其是一本、二本、和专科的录取比例。下表就是2016~2018年三年间全国各省市一本录取的比例,差异还是非常大的。

        (数据来源于网络)

        问题是,这样一份数据就很真实吗?其实是不然的。这一份数据仅仅反映了各地参加高考考生的一本录取率。而真实的情况是,各地的入学率是不一样的,越是偏远地区和经济落后地区,学生顺利完成高中学业,参加高考的人数占比就越低。此外,各省市对考生分流的情况也千差万别,如初中毕业后直接分流到专科学校的比例就有很大差异。在我上学的年代,高考还采取了预考制,没有通过预考的学生甚至无权参加考试。当然,那时高考录取率非常低,采用预考制度也是为了减轻考试组织的压力。

        关于GDP增速

        这个话题会有一点难度。我国2018年GDP增速超过90万亿人民币。以下是历史数据:

        表1:1980~2017GDP变化,单位:亿美元

        如果要观察中国的名义GDP增长,可以分为两个阶段:第一阶段是1980年到1999年,第二个阶段是2000年到2018年。第一阶段,名义增长6.33倍,第二个阶段增长约10倍,明显高于第一阶段。其中原因,主要就是房地产政策的推出。由此也可以看出房地产的威力。

        如果以1980年作为基数,37年间增长了64倍(没有考虑美元的贬值因素,实际上美元在37年中的贬值是非常可观的,至少50%以上,因此,绝对值增长则只有32倍左右),这是一个了不起的数据。然而,如果考虑另一个数据的话,可能就不那么值得骄傲了,那就是物价。

        CPI指数是一个综合指标,如果仅考虑单个商品的价格变动,意义不大。例如,食品价格,一碗面的价格,1980年可能只有0.2元,而现在高达20元,增加了100倍,肉类的价格大概增加50倍。房价无法比较,2000年北京房价大致在2000元左右(1978~1999年没有数据,估计在几百元左右),同样地段现在8万元左右,约40倍(全时段估计在100倍以上),但汽车和电器的价格应该有很大的下降。而工资,1980年的大学生毕业,月薪不到50元,现在5000元是中位数,增长100倍。这是日常生活中的感觉。如果取CPI累计增长为30倍的话,那么GDP与物价可比增长也就2.1倍而已。这个成绩是不是很意外?

        另一方面,看看国家公布的所谓CPI,除了94年达到24%以外,其它年度并不高,大多数在5%以下,有的甚至负数。以下是统计结果:

        也就是说,从官方数据看,1990年到2015年的26年间,CPI累计增长293.1%,约3倍不到,即使考虑全部37年,也不过4~5倍而已。因此,GDP/物价的增长约12~16倍,考虑美元贬值因素,这一数值下降到约6~8倍左右。这个数据显然也不符合实际情况,因为最关键的住房价格并未计算在内,而住房的占比对物价的影响至少在40%以上。由此分析,我国40年间,GDP/物价实际增长应该在2.1到4倍之间。如果折算成每年的增长,其实只有2.0%~4.0%之间。这与美国的情况基本类似(当然,美国的GDP增长也没有考虑美元贬值,如果考虑的话,美国的实际GDP增长应该是目前的一半左右)。

        还有一个需要考虑的事实是,在过去40年间,中国人口增加了约4亿,即42%左右。这个就是我国人均GDP增长感觉更加低的原因。

        有人会说,中国经济的发展成果比以上分析的结果要大得多,人民的生活水平改善也是明显的。这话听上去是好像是有道理的。但要清楚的一点是,即使是增长4倍,也是非常了不起的成就。因为我们过去是吃不饱,现在这一问题应该早就解决了。对一个家庭来说,如果的日常开销是100保持平衡,如果收入只有80,则需要过苦日子,如果达到120,则日子会比较宽松,如果达到200,则非常好了。因为财富的积累会越来越多。一个国家也是如此。

        关于股市数据

        新中国的股市,始于90年代初期。30年间经历的大起大落,看尽了人间的悲喜剧。有人说,股市是经济的晴雨表,这句话在中国股市遭遇到了严重的打脸。

        图3 2003~2019沪市走势图

        如果仅仅从沪指大盘走势看,2007年10月31日达到顶峰的6100点,到2018年10月31日跌回到1600多点,再到2005年6月30日的5100点,再回到今天的约2900点,起起落落,完全不像是中国经济过往的轨迹。

        换一个角度,如果看看中国上市公司的业绩的话,那就是另一番景象。

        一个是资产,2018年末全行业总资产为2,423,994亿元,去掉金融行业后全行业总资产为606,553亿元。排第一位的是银行业,以1,601,054亿元的总资产占全行业的66.05%,怪不得大家有给银行打工的感觉。

        另一个是收入和利润,中国上市公司约3600家,占据了整个国民经济的半壁江山。2018年全年产值达到45万亿,全行业归母净利润为33,833亿元,其中银行业以14,893亿元的净利润占全行业的44.0%。也就是说,整个中国经济,50%的业绩是由上市公司创造的,利润为3.3万亿,而银行贡献了1.5万亿。

        图4 2018上市公司利润分布图

        总体看来,中国经济是向上的,但股市却背道而驰。其中逻辑,没有人能够说得清楚。但有一点是清楚的,就是银行赚了太多钱,这是中国企业尤其是民营企业的悲哀。

        有报道曾经统计,2017年中国约1500家上市公司(当然是最差的那一部分)的利润不够买北京的一套房子,而很多上市公司靠卖几套房子就可以扭亏为盈。中国证监会的不作为,或者是乱作为,使得中国股市成为全球笑话的同时,彻底沦为了全球资本和利益集团牟利的工具。而广大股民,只不过是一群待宰的羔羊而已。正如著名经济学家吴敬琏所言,A股市场连“赌场”都不如,因为赌场要守规矩,不能出老千,而A股市场却有人一直在出老千。中国的散户是悲催的,他们输多赢少,有的几十年混迹其中,或一夜归零。

        中国股市这一经济的晴雨表,应该是一只坏了的晴雨表,因为即使艳阳高照,或者大雨倾盆,它的反应总是不合拍的。

        简单的结语

        写文章是一项严肃认真的事情,可有时写着写着,连自己也不敢相信分析的结果。但话要说回来,我们说数据会说话,但不会说谎,世界上只有利用数据说谎的人。这些说谎的人,为了某种目的,或者操纵数据,或者断章取义,或者篡改数据,从而让民众产生一种错觉。

        但有时,明明知道是说谎,但时间长了,也就习惯了,并且还会有一点相信了。不仅是说的人信了,听的人也信了。这是人懒惰而生出的弱点。

        谁能借我们一双慧眼,识破这世间的一切谎言?

  • 联系我们

    Contact us

  • 电话:4000-103-808
    传真:010-82782140

    技术支持:北京网站建设 原创先锋

  • 和记娱乐怡情愽科技版权所有 ICP证:京13009665号-1

    注册地址:北京市通州区中关村科技园区通州园金桥科技产业基地环科中路5-72号

    办公地点:北京 | 苏州 | 西安 | 贵阳 | 河北