大数据估算,中国三年疫情死4亿(上)

作者:凤鸣、云侠

 

图 1:2020 年 1~2 月新冠爆发,中国手机用户骤减数量(网络截图合成)

在《武汉疫情2020,死亡被严重低估》中,我们以武汉骨灰盒实发半年,而不是12天,重估武汉2020年封城两个月,死亡至少25.3万人,是中共外宣数字的100倍。本篇开始,以大数据估算三年疫情的死亡数,揭开被中共掩盖的真相。

在重重造假中发现真相,得用破案的思维,要在蛛丝马迹中找端倪,如果随大流,只能是被中共的谎言淹没,就像这次打了毒疫苗加重了疫情。

(一)疫情前两个月,全国死了多少人?

1. 疫情迅速传遍全国、世界

图 2:2020年1月下旬武汉疫情初期,前线医生实名为医院募捐防护用品,播报病毒1传14(视频截图)

武汉原始毒株的传播力,中共官宣平均1人传给2~3.2个人,即R0=2~3.2。这个数字遭到世界质疑,美国洛斯阿拉莫斯国家实验室2020年研究表明武汉毒株R0=5.7[1],这还是在中国极力掩盖、造假后的数据基础上研究出来的。

上图一线医生透露的R0=14,应该真实可信。

图3:英国研究者大数据绘制6万武汉逃难者的旅行路线图,预测瘟疫的世界性爆发。

上图只是6万离汉人员手机漫游数据,武汉疫情期间离、逃的500万人,包括从武汉回家过年的130.1万各地大学生。在R0=14的超强传播力下,瘟疫迅速席卷各地。

2. 手机号骤减,辟谣两打脸

2020年3月22日,《中国手机用户暴减1400多万人去哪了?》引发了热议,1~2月,大陆手机用户减少1400万,因为与疫情大爆发高度相关,引起惊恐。

马上有人辟谣,说和疫情无关,应该是:“年底换工作,手机正常转网”——好像很有规律。因为当时中国联通2月份的业绩报表还没出来,如果他们的手机用户大大增加了,那就是转网了。于是惊恐暂歇,存疑待机。

这种维稳辟谣,显然又在掩盖真相,因为没有那样的规律。近年来大陆手机用户一直在上升,以2019年数据为例。

表1:2019年手机出帐用户增加量(万)

上表只有联通在后三个月用户小降(红色数字),但横向的移动、电信在增加,这就是“转网”,用户转到那两家去了。但是整体上,三大家的用户都在增加,而2020年极度反常。

随着2月联通数据的姗姗来迟:锐减-660.1万户,同比去年的增量,三家都在减少,往哪里转网呢?是纯消失!

号码海量消失,媒体又辟谣说是消号:很多人有两个手机号,到营业厅消了一个号。

——深入分析,这次辟谣也不成立,原因有四:

(1)双卡用户并不多,毕竟中国大陆有6亿人月收入不足1000元,养两个号养不起。

(2)中产阶级重视社交圈的信誉,长年不换手机号,大部分都只用一个号。

(3)异地打工的人、外地上学的人,常有双号,本地一个号,外地一个号,突来的疫情,前2个月并没有造成全国的失业潮,不会消号。而且怕传播疫情不回家过年,也无法在外地消掉老家的手机号。

(4)还有一部分收入比较高的年轻人用双号,既然收入高,会在乎“同网副卡”一个月多花10元钱吗?而用“异网双卡”的人是更有钱的,会在意每月多花二三十元钱吗?显然不会。

1~2月,在家过年,娱乐休闲、炫耀体面的时候,手机用户增加才正常(往年都是这样),减少就极为不正常,可见两者的关联。所以,手机号的消失,宏观上应该对应疫情减员死亡。

2月份的手机出帐账单,是3月份发出的。2月去世,手机当月销号,才不会在3月份再扣费,这样3月就没有该号的账单了。所以,2月手机号的锐减,一般是代表当月的死亡。

3. 1个手机号,对应几个人?

图1的手机号减少数量,纳入表4,这2107万手机号,代表多少人?

表2:2020年手机出帐用户,负值减少(万)

最直接的估算法,就是问卷调查,抽样一个涵盖各个年龄组的群体,调查出多少人有两个号、多个号,多少人只有1个号,多少人没有手机,算出平均值,就能估算2107万手机号代表多少人。但是很难做到,因为未成年、小学生、老人很难被抽样到,咋办?

其实有更简单的办法。因为取样地域分布越广、人数越大,越准确。当取样扩大到全国时,就成了全国手机号与全国人口之比例了,这个最大的大数据是有的。2019年12月手机出帐用户总数:移动9.503亿,电信3.356亿,联通3.185亿,总计16.044亿户,2019年末中国人口官宣14.0005亿人,所以:

全国平均:16.044亿号/14.0005亿人=1.146号/人。

4. 手机号估算,死亡几千万

至此可算出,2020年1月的-161.8万号,相当于减少141万人,2月的-1946万号,相当于减少1698万人,两个月减少人口141+1698=1839(万人)。

表3:2020年全国手机号与人口变化,负值减少(万)

同比2019年1、2月,同比历年都可以看出,手机号增加是趋势,而2020年在增加趋势上,手机号锐减,所以实际减员更多,如果减去2020年原本应该增加的数量的话(以2019年计),1、2月死亡就约965.2万、2222.7万!

大陆疫情期间,没有手机号寸步难行,所以,这些手机号的减少,应对应全国的疫情死亡。

(二)疫情、促销使手机号暴增,但疫情死亡仍在进行

1. 理想的4月份即结束的疫情峰

图4:假设2020年4月即结束的理想状态下的全国新冠疫情死亡人数模型。

在设想2020年4月即结束的理想状态下,新冠疫情死亡人数模型,应如上图的正态分布(钟形)曲线,两边对称,那么3月份的死亡人数,也应该是965.2万人,三个月共减少4153万人。

这样全国此次疫情峰的死亡率,3个月平均每月:(965.2万×2+2222.7万)/14.0005亿/3=0.99%

比2020年疫情武汉封城前两个月,月均死亡率1.68%低,是正常的。

注意,死亡率(mortality)和致死率(病亡率,fatality)是两个不同的概念,死亡率=致死率×染病率。不能用国外的致死率和这里的死亡率相比。在《武汉疫情2020,死亡被严重低估》中,已有详述。

2. 疫情封控,手机号大增

疫情封控,全国各地开始让学生在家上网课,导致2020年3月开始手机号大增。很多家庭从经济上考虑,让孩子用智能手机(迟早要用)上网课,不置备电脑。

表4:2020年3~12月手机出帐用户增加量(万)

从小学一年级到高三,全国各地都陆续开始上网课。加上健康码,行程码,逼得很多老年人不得不使用智能手机,手机号码再次暴增,已经无法从手机账号数量上估算疫情了。即使这样,到2020年底,3~12月共增加了1546.2万账户,也只有疫情前2019年增量的1/4,足见疫情减员、死亡仍然在继续。

2020年3~12月的总业绩,移动账号净减24.3万,联通净减少489.5万,只有电信大增2060万。用户下滑跌意味着未来发展下滑,事关三大公司的股票。2021年开始,三大家开始竞相促销拉人。

升级套餐送大礼,预存话费送大米,副卡号免费,双号互打免费,这等于白给一个号,给老人用做亲情号很划算……种种大礼促销下,很多人选择了加一个副卡,作为亲情号,导致手机号暴增。全国手机号2021年增4730万,2022年增3768万,还是赶不上2019年增加的6121.7万,可见疫情死亡还没停息。

3. 实际新冠死亡率,类似以色列致死率曲线

图5:以色列和印度的新冠疫情致死率曲线,类似中国实情。

上图印度、以色列的新冠疫情致死率曲线,并不是正态分布曲线的钟形,因为疫情没结束,死亡在延续。

中国的疫情实际情况也是这样,疫情持续,曲线右半部没有下来,如以色列的降峰后延伸,减员继续,只是再无法从手机号上判断具体数值。

(三)大数据估算的准确性

大数据估算不拘于细节,尽管会有不可避免的误差,但是可以迅速从宏观上把握方向。

圆周率π=3.141592653……,手工计算又繁又难,祖冲之的割圆术谁会?可是用大数据概率算法就简单,在一个圆筒里画个正方形,往里扔个豆子,计数落在方里还是方外,扔足够次数后,以概率就能算出π值,数据越大,结果越准确。这个实验也证明了,数据越大,越能抵消各种偏差,越接近真实。

(四)上海公安数据库泄露,震惊世界

1. 上海公安数据库泄漏

图6:上海公安数据泄漏事件的维基百科介绍截图。

2022年7月初,上海公安数据库泄露事件曝光,引起轩然大波。事发在2022年6月中旬,一个黑客盗取了上海公安一个开放的数据库,其中有9.7亿人的身份证号、电话、住址、性别,还有一些人的犯罪记录、报案记录等信息,他删除了该数据库,在网上以10比特币(约20万美元)价格出售。

2. 黑客放出样本,媒体率先访问

黑客还在网上发布了一个75万行的样本,分为三个文件,“身份证相关信息文件”、“报案记录文件”、“地址电话”文件,各25万行,互不重复,任凭买家核实准确性。

这三个文件大小之和只有560M,放大9.7亿/25万=3880倍后,只有2.07TB,不到黑客盗取数据23.88TB的9%,可见他只是从中筛选了部分数据,构建了这三个文件样本。

多家外媒开始验证。《纽约时报》通过样本的电话,联系到9个人,不但证实了姓名身份,还证实了其中记录的细节。澳广ABC中文电话采访询问20名中国公民,都确认了数据库记录的真实性。其它媒体也纷纷追逐这个新闻热点。

3. 聚焦人口锐减

这是有史以来最大的数据泄露事件,媒体聚焦在数据和个人信息安全,专家关注的却是人口锐减。如果中国公安赖以工作的动态数据库里,只有9.7亿行身份证信息,意味着只有9.7亿有身份证的人,中国人口就太少了——人口红利不在,经济就要滑坡,对华投资就会血亏。

于是各路专家展开了对“身份证相关文件”的真伪辨析。

图 7:黑客盗取数据库给出的25万人样本中,各年人口数量图。

(五)聚焦黑客样本,多方专家认证

1. 多方验证,各显神通

学者们对黑客样本的身份证信息,开启了多角度评估验证。

(1)数据真实性:随机选取100项经阿里API接口验证,结果皆为真(数据库放在阿里云上)。

(2)按姓氏分类,王李张最多,分别占7.32%、6.69%、6.56%,与公安部《二〇二〇年全国姓名报告》 中所列数据一致。

(3)1958~1960年大饥荒出生人口锐减,1990年代婴儿潮,近年来出生率降低,都在样本中反映出来。

笔者在制图中还发现:

(4)逝者占位,中国特色:看上图,101~122岁老人持续“增加”,岁数越大,“人”越多,明显是逝者身份证在“捣乱”。近些年来很多人有保险、社保,需要销户证明才能办理,早先没有这些,越往前制度漏洞越多,逝者占位越多。

有人不给去世老人销户口,导致逝者户口、逝者身份证常在。原因有:

①继续替老人领退休金,或凭户口领补贴,近几年才开始“刷脸认证”,堵住缺口。

②到派出所销户没有任何好处,以前有人到单位领完丧葬费,就不销户了。

③销户没有时间限制,心情不好拖来拖去,看到不销户也没人管,干脆就放着。

逝者占位,户籍警也头疼,以前也发文通知要清理,但是处理的比例很小,百姓不配合,公安公信力太低。

(6)16岁以下的比例符合国情:中国大陆16岁以上必须办身份证,16岁以下不要求办,1岁以下不建议办(不建议出国,一般不给办)。样本中1岁以下身份证为0,1~15岁身份证比例少(有些人给小孩办身份证,为买火车票方便,出国方便)。

(7)去掉样本中的16岁以下身份证数量,去掉101岁以上老人的身份证数量,以16~100岁年龄段比例,和当年中国人口比例对比,见下图,两者比例、升降趋势非常相近。

图8:样本16~100岁年龄段人口比例,与2022年中国人口年龄段比例极为近似(作者制图)

经过上述7方面和之前媒体的验证,可见这个25万数据库样本为真,在9.7亿行公民身份信息中取样随机性很强,很有代表性。

这个25万身份证信息的样本,只能是计算机随机抽取数据生成的,任何人为干预,都会干扰数据比例的真实性,会被识破、被质疑为假,那样数据库就卖不动了。因此,也能印证黑客盗走的9.7亿行身份信息的大数据是真实的。

2. 逝者占位,表明人口早已减少

根据大陆统计2020年10月中国大陆百岁老人40,592人,2020年人口以官宣的14.12亿计,百岁老人占0.00287%,以此为基础计算。

黑客样本中:100~122岁老人10,959人,占比4.384%,推算9.7亿数据库中,逝者占位人数至少:

9.7亿×(4.384%-0.00287%)=4,250万人,是2020年百岁老人的1,047倍!

中国平均年龄77岁,所以逝者占位不只是百岁老人才有,其它年龄段也有,这可能是人口学家长期质疑中国人口真实性的一个原因,长期灌水。

3. 挖掘信息,“丢”人3亿

这样,我们可以从9.7亿行身份证信息中,挖掘真相了。

(1)逝者占位,已存在几十年了,中共给出的数据,一直是包含它的灌水数据,所以有时计算还不能剔除它,只有计算最终真实人口时,才能剔除。

(2)去掉16岁以下身份证信息。黑客样本中,1~15岁占5.821%。

(3)25万人口样本,16岁以上人口为:25×(1-5.8212%)=23.545(万,含逝者占位)。

(4)据2022年人口统计,0~15岁占总人口的17.97%,那么16岁以上就占82.03%(含逝者占位)。

所以,根据25万人口样本,推算全年龄段人口为:23.545/82.03%=28.70(万,含逝者占位)。

因为样本分散性极好,能基本代表9.7亿行数据库情况,所以总数据库约代表全国全年龄段人口:

9.7亿/25×28.70=11.14亿(含逝者占位),与中共官宣的14.12亿人(含逝者占位)相比,“消失了”2.98亿人(不含逝者占位,两者相减,减掉它了)。

此时三胎已经开放,大力刺激人口增长,消失的人哪里去了?解释为疫情减员,类似下图的疫情实际曲线,死亡在持续。

图9:以色列和印度的新冠疫情死亡曲线,类似中国实情。

[1] Steven Sanche, et al., High Contagiousness and Rapid Spread of Severe Acute Respiratory Syndrome Coronavirus 2, Emerg Infect Dis., 2020 Jul;26(7):1470-1477.

doi: 10.3201/eid2607.200282

(未完,待续)

(转自大纪元/责任编辑:王馨宇)

相关文章
评论
新版即将上线。评论功能暂时关闭。请见谅!