数据过于完美就是造假?too sample,GDP数据更加完美!

这两天,天猫双十一交易额造假的事情持续发酵,因为曲线过于完美,所以受到了很多人的质疑。甚至有些人还用 Python 进行了拟合运算,最终的拟合结果和天猫发布的数据非常吻合,进而甚至已经预测出了明年双十一的预期交易金额,这可真的是出其不意,天外飞瓜啊!

下图就是通过多项式拟合得到的曲线,看起来还真是完美呢

不过天猫官方也出面澄清了:数据造假?没!必!要!哈哈哈,这真的是个门外吃瓜群众难以分辨的事情。

那么是否真的是当数据完美符合某种数学公式时,就会存在人为干涉的情况呢。

既然我们一时之间难以分辨天猫数据的真假,那么我们可以使用其他的数据来验证下呀,比如GDP!这个数据可是代表着一个国家经济实力的重要指标,当年我国GDP超越邻居的时候,还狠狠的自豪了一把呢!

那么如果我们把某些国家的历年GDP数据也通过相同的方式进行拟合,如果也得出完美的曲线,哎呀,不敢想,有点小激动!

我们暂且就把这种拟合曲线叫做“天猫曲线”吧,谁让它体量大,影响度强呢!

数据整理

我们现在手中有一份全球各国历年GDP的数据文件,我们先来查看下2018全球GDP总量排行前几名

我们就以前五名为研究对象吧,看看他们的GDP总量的分布情况是怎样的

各国GDP历年数据曲线

这前五个国家,就依次排列吧
美国

中国

日本

德国

英国

这一圈看下来啊,貌似符合“天猫曲线”的,就是前两位的美国和我国了,那么就开始拟合吧。

数据拟合

关于“天猫曲线”的拟合过程,已经有好多教程写了,无非就是多项式回归,强大的 Python 完全搞得定,我们直接来看结果

没有任何问题,完美符合“天猫曲线”,难道说,美国的GDP是?哈哈哈哈,我们再来看看再符合该曲线的情况下,2019年美国的GDP总量应该是

20.75 万亿美元

是非成败,我们等到2019年的GDP数据出炉的时候再说吧。

下面再来看看我们国家的GDP曲线情况

没有任何意外,同样比较符合多项式回归曲线!如果再预测2019年的GDP的话,应该会是

14.88 万亿美元

现在我们已经得到了世界上GDP总量最高的两个国家的走势曲线,竟然都惊奇的符合多项式归回,是不是能够说明一些问题呢。

萝卜说

我们都应该都知道,很多数学公式的出现与创造,都是自然科学规律的积累,比如我们常见的正态回归,就是因为在我们的生活中有太多的现象、数据拥有同样的规律走势,所以前辈们才发现总结了对应的公式定律,用于统一描述这类数据。所以当我们看到身边的某些数据是符合正态回归形式的时候,都没有太多的惊讶。

而此时,我们先是发现了天猫双十一的交易金额符合多项式归回,现在又对比美国和我国的GDP总量数据,也是符合多项式归回的,而且两者都可以归结为经济类数据,且都可以在一定方面反映出这个国家的经济水平。那么我们是不是可以大胆的推测下,双十一天猫交易金额,正是我国GDP总量在国内消费水平上的某种体现呢。而且从其他几个国家的增长曲线能够看出,当国家的经济出现大的波动时,曲线就没有那么平滑了,比如日本、德国等,都是在大幅增长之后,出现了不同程度的退步,而在维持经济平稳发展上来说,我国和美国无疑是做的最好的两个国家了。

哇咔咔,不是专业搞经济的,不敢也不会说的多么深入,但是无论怎样,数据在这里,有一点是可以肯定的,国家的GDP总量在增长,人们的总体生活水平就会有所提升,那么消费水平也会相应的提升,至于它们之间是否有某种特殊的关联,就留给经济学家去操心吧!

原文地址:https://blog.51cto.com/10487107/2450053

时间: 2024-11-10 11:15:45

数据过于完美就是造假?too sample,GDP数据更加完美!的相关文章

格智教育:人工智能与大数据的完美结合

人工智能(AI)已经存在几十年了.然而,最近随着"大数据"的出现,它得到了越来越多的关注.维基百科对人工智能的释义如下: 在计算机科学中,人工智能研究的领域将自己定义为"智能代理AI和大数据:完美结合"的研究:任何设备都能感知到它的环境,并采取一些行为最大化其在一些目标上获得成功的机会. 而将大数据描述如下: "大数据是如此的庞大或者复杂,以至于传统的数据处理应用软件不足以处理它们." 计算机已经变得如此强大,以至于我们现在有能力在每秒存储数百万

海量小文件存储最优解决方案,杉岩数据MOS完美解决

面对千亿量级的小文件,存储系统压力山大 所谓小文件,指的是存储占用空间相对较小的文件,一般来说低于64MB的文件就可以被认定为小文件,而大量的小文件大小则在几KB到几十KB之间.在云计算.大数据业务中,文本.图片.音乐等是典型的小文件应用场景. 随着数字化创新的加速,组织内部的数据呈现出指数级增长的趋势,特别是小文件更是随着业务增长到一个巨大的量级.与大文件的存储不同的是,大量磁盘在小文件存储场景中的性能极低,单块企业级SATA磁盘如果全部存储4KB左右的小文件,带宽只有520KB/s,远远小于

数据降维技术(1)—PCA的数据原理

PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章不会引入严格的数学推导.希望读者在

大数据入门基础系列之初步认识大数据生态系统圈(博主推荐)

之前在微信公众平台里写过 大数据入门基础系列之初步认识hadoop生态系统圈 http://mp.weixin.qq.com/s/KE09U5AbFnEdwht44FGrOA 大数据入门基础系列之初步认识大数据生态系统圈 1.概述 最近收到一些同学和朋友的邮件,说能不能整理一下 Hadoop 生态圈的相关内容,然后分享一些,我觉得这是一个不错的提议,于是,花了一些业余时间整理了 Hadoop 的生态系统,并将其进行了归纳总结,进而将其以表格的形式进行了罗列.涉及的内容有以下几点: 分布式文件系统

IOT大数据大世界大未来,物联网产业大数据应用简析

在物联网时代,面对PB级的数据,企业将难以以一己之力完成基础设施的建设.物联网所产生的大量数据不仅会驱动现在的数据中心发生根本性的变化,同时也会驱动相关企业采用新的大数据策略. 物联网的价值在于数据:企业对数据的分析工作启动地越快,挖掘出的业务价值就越多.而大数据服务提供商的目的就是通过加大相关的投入,消除数据收集.管理的风险以及复杂性,让企业能够专注于物联网数据分析. 如果你想了解大数据的学习路线,想学习大数据知识以及需要免费的学习资料可以加群:784789432.欢迎你的加入.每天下午三点开

袋鼠云数据中台专栏2.0 | 数据中台综述:三个维度看数据中台

一.关于数据中台的9个名词 数据中台是什么,当前有很多解释,但是它一定不是哈姆雷特. 新兴的事物总会被各种解读,但是当人们足够熟悉了以后,总会有一个公允的定义得到广泛的认可和接受.这个过程中,最可以用于度量的便是「功能定义」与「业务价值」.袋鼠云认为,数据中台表现出的最主要特征是一种企业数据化体系的架构,而且就目前而言,这种架构是最为有效的一种架构. 目前很多人把数据中台直接等同于企业数据化,AI和大数据,或者是直接的业务价值,甚至企业变革(比如新零售).这些都是不准确的,数据中台的价值被过于放

数据工程师必须掌握的7个大数据实战项目

简介: 值得收藏,数据工程师必须掌握的7个大数据实战项目 原创: Lenis 有关SQL 1作为一名电影爱好者,我阅片无数,有些片子还经常翻来覆去看个好几遍.小时候因为这事儿,没少被我妈抓耳朵,“看过的片子为啥还要倒二遍?”我也说不上来,就是单纯的爱看. 男人爱看的电影,以武侠,动作,科技为多,也认识了一帮明星,比如尼古拉斯凯奇,史泰龙,李小龙,成龙,李连杰,甄子丹等等.这些人很猛,有男人气.只要是他们的片儿,肯定不落下.在我眼里,他们就是好片代名词. 不知几何时,电影上开始出现一些不认识的男明

蔡先生论道大数据之十: 企业如何入手大数据战略(1)

今天之后的几章我们重点讨论企业如果要利用大数据应该从那几个方面入手,我粗粗的总结了一下大致分三个方面,这三个方面做到为了,恭喜你你的企业正开始享受和拥有大数据来的红利和价值. 具体入手之前,我们先要明确一点就是首先企业管理层需要有清晰思路然后从上到下认真贯彻,管理层还要对预期的业务影响要有个清晰的认识,能够给出从数据收集.模型建立到企业文化转型的一揽子方法,避免掉进"数据可以为企业做那些"这样的思维陷阱中去. 企业定制大数据战略,需要注意三个关键点,说白了也就根据前面文章总结出来的精髓

10.Solr4.10.3数据导入(DIH全量增量同步Mysql数据)

转载请出自出处:http://www.cnblogs.com/hd3013779515/ 1.创建MySQL数据 create database solr; use solr; DROP TABLE IF EXISTS student; CREATE TABLE student ( id char(10) NOT NULL, stu_name varchar(50) DEFAULT NULL, stu_sex int(1) DEFAULT NULL, stu_address varchar(20