如何应对大数据时代

近些年来,大数据逐步渗透到现实生活,从医疗到信贷,可谓是各个行业。
单从“大数据”这个词语来看,说明数据量很大。如果这些数据结果,不做处理,以单纯数字呈现,相信你看的超不过10秒中,你会头皮发麻。你都头皮发麻了,那我们的客户岂不更发麻,如果这个问题解决不了,将非常影响大数据的发展。由此一个职业必将会兴起,就是数据可视化工程师,而它的职责就是将大数据的结果做的一目了然,降低客户的阅读时间和阅读门槛。
此教程将会尽快的完善起来,形成培养数据可视化工程师的经典网络教程。
现在我们进入课程,如何应对大数据时代!我总结了三条有效的秘籍。
三条秘籍:
● 抛弃不精准的样本数据,统计分析全部数据
截止到现在,我们获取收集的数据仍很有限,因此更多的是“随机采样分析”。
随机采样分析的定义:对一个生物的总体,机会均等地抽取样本,估计其总体的某种生物学特性的方法。
按照随机的原则,即保证总体中每个单位都有同等机会被抽中的原则抽取样本的方法。
优点:在根据样本资料推论总体时,可用概率的方式客观地测量出推论值的可靠程度,从而使这种推论建立在科学的基础上。正因为此,随机采样分析在社会调查和社会研究中应用比较广。
缺点:只适用于总体单位数量有限的情况,否则编号工作繁重;对于复杂的总体,样本的代表性难以保证;不能利用总体的已知信息等。在市场调研范围有限,或调查对象情况不明,难以分类。并且必须对总体各单位的情况有较多的了解,否则无法作出科学的分类。而这一点在实际调查之前又往往难以做到,从而导致样本的代表性较差。
例如,要想知道中国公民对某项政策的满意度,不可能对所有中国公民做问卷调查。通常的做法是随机找10000个人,用这10000个人的满意度来代表所有人的。
为了使结果尽可能准确,我们会设计尽可能精确的问卷,并使样本足够随机。
这就是“小数据时代”的做法,在不可能搜集全部数据的情况下,随机采样分析在各领域取得了巨大的成功。
但是,问题也就来了:
1.依赖随机性,而随机性很难做到。例如,使用固定电话随机打给10000户人家,这样也是缺乏随机性的,因为没有考虑到年轻人都使用手机的情况。
2.远看不错,一旦聚焦到某一点,就模糊了。例如,我们用10000个人来代表全国,这1000个人是随机从全国选取的。但是,如果用此结果来判断西藏的满意度,却是缺乏精确的。也就是说,分析结果不能适用于局部。
3.采样的结果只能回答你事先设计好的问题,不能回答你突然意识到的问题。
而在”大数据时代“,样本=总体。如今,我们已经有能力搜集到全面而完整的数据。
通常我们所说的大数据就是建立在掌握所有数据、至少也是尽可能多的数据的基础上的。
● 着眼数据的完整性和复杂性,弱化单条数据的精确性
在“小数据”时代,我们首先要解决的就是减少测量的错误,因为本身收集的信息比较少,所以要保证结果尽可能的准确就必须先保证记录的信息是正确的,否则细微的错误会被无限放大。由此我们必须先要优化测量工具。而现代科学就是这么发展过来的,制定温度的国际单位的物理学家开尔文曾说过:“测量就是认知”。要成为一名优秀的科学工作者必须要能准确收集和管理数据。
在“大数据”时代,我们可以轻而易举地获得全部数据,并且数目庞大到上万亿个数据,也正因为此,如果追求每一个数据的精确性,将不可想象的。弱化了数据的精确性,那么数据的混杂性也就不可避免。
然而,如果数据量足够大时,它所带来的混乱也不一定会带来不好的结果。也正是这个原因,我们放松了数据的标准,所能搜集的数据就多了起来,我们就可以用这些数据来做更多的事。
举一个例子:
要测一个一亩土地的含盐量,如果只有一个测量仪,那必须保证这个测量仪精确且能一直工作。但是如果每平米土地就有一个测量仪,则虽然有些测量数据是错误的,但是所有数据合起来却能得到一个更准确的结果。
因此,“大数据”通常用更有说服力的概率说话,而不是依赖测量工具的精准。这就要求我们重新审视获取收集数据的思路。由于数据量特别大,我们放弃了个体精确性,当然也无法实现个体精确性。
比如,我们在电脑存储上可以看到,所有的文件可以通过一个路径找到它,例如,要找一首歌曲,必须先找到一个分区,然后再找到其文件夹,最后逐步找到所需要的歌曲,而这就是传统的方法。如果电脑上的分区或者文件夹较少,可以这么查找,但如果有1亿个分区呢?10亿个文件夹呢?网络上的数据可远比个人电脑上的文件多,动则数十亿,如果使用清晰的分类,那么不仅分类的人会疯,查询的人也会疯。因此,现在互联网上广泛使用”标签“,通过标签来检索图片、视频、音乐等。当然,有时人们会错标一个标签,这让习惯精确性的人很痛苦,但是,接受”混乱“也给我们带来了好处:
由于拥有了比”分类”数量多得多的标签,我们就能够获得更多的内容。
可以通过标签组合来过滤内容。
又例如,如果我们要搜索“白鸽”。而“白鸽”所关联的信息又有很多:比如一种动物,又或者是一个品牌,还可以是一个名人。一旦我们按照传统的分类法,“白鸽”就会被分到动物类,品牌类,名人类。导致一个结果就是查询的人不知道它还有其他的分类,还有可能就是只想查“白鸽”这种动物,所以就不会到品牌类或者名人类里查询。但是,如果使用”标签“,输入”白鸽“+”动物“,即可查到想要的结果;输入”白鸽“+”品牌“即可查到想要的结果;输入”白鸽“+”名人“即可查到想要的结果。
由此可见,使用”标签“代替”分类“,虽然有很多不精确的数据,但是得力于大量的标签,使得我们搜索更为方便。
● 思考数据的关联性,放弃单一的因果性
首要研究数据的本身,不必再深究数据的形成的原因,让数据自身发言。
举个例子:
沃尔玛是世界上最大的零售商,掌握了大量的零售数据。通过销售数据分析,沃尔玛得到,每当季节性飓风来临之前,手电筒和蛋挞的销售量都会增加。由此,当季节性飓风来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,促进顾客购买。
肯定会有人问“为什么飓风一来,人们都要买蛋挞呢?”
而这个“为什么”,是因果关系。而这个“因”,分析起来极难、并且很复杂,即便最后得出来了,意义也不大。对沃尔玛来说,当飓风来临时,摆好蛋挞,就行了。这就是数据自身发言。
而我们知道飓风与蛋挞有关,并且能赚钱就可以了。
这就是应对大数据时代的方式,即思考数据的关联性,放弃单一的因果关系。
这种方式能够帮助我们更好地理解世界。有时候,因果关系还会给我们带来一些错误的认知。
例如:
我们从父母那里得知,天冷时要带帽子和手套,否则就会感冒。但是,感冒的成因并非如此。又或者我们在餐馆里吃饭,突然肚子疼,可以想到原因食物有问题。可实际上很可能是接触到外界病菌的关系。
关联性在分析问题时提供了新的视角,让我们明白数据自身的发言。但是,因果性也不应该完全放弃,而是要以科学的关联性的立场来审视。

引来一个新的问题:大数据时代如何做到数据一目了然?答案在这里

原文地址:http://blog.51cto.com/11098813/2113224

时间: 2024-10-24 21:59:05

如何应对大数据时代的相关文章

大数据时代新闻采编人员职业能力培训

原文  http://datameng.com/info/2014/03/big-data-xinwen-caibian/ 据统计,到2013年,全世界储存的信息如果记录在光盘上,再把这些光盘叠加起来,高度等于从地球到月球的距离.美国互联网数据中心指出,目前世界 上90%以上的数据是近几年才产生的.互联网上的数据每年将增加50%,每两年翻一番.因此有学者认为,人类进入了大数据时代.一般意义上,大数据是指无 法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知.获取.管理.处理和服务的数据集合

票据扫描识别技术大数据时代的弄潮儿-助力财会行业变革

关键词:票据扫描识别.增值税发票扫描识别.机动车销售统一发票扫描识别 在2012年,大数据(big data)一词就越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新.数据正在迅速膨胀并变大,它决定着企业的未来发展. 大数据时代已然到来,大数据时代已然到来,大数据时代已然到来,重要的事情说三遍. 今天,置身于大数据时代的风潮浪尖,各个行业都不能再置身事外.本文分析关注的不是大数据,大数据在网络上已是铺天盖地,喊声一片了:不甚明了的朋友可以网络脑补下哈

大数据时代银行业应对策略

文|张建国(中国建设银行行长) 近十年来,中国银行业的改革发展取得了令世界瞩目的成就.在今年<银行家><福布斯>发布的大企业排行榜和市值排名上,五家大型商业银行均已跻身世界前列.随着以移动互联网.云计算.“大数据”和物联网为代表的信息革命的兴起,银行业又一次面临新的机遇和挑战.中国银行业能否用好大数据,实现经营.管理和服务创新,决定了其未来的可持续发展能力. 银行业已初步具备运用大数据的基础 大数据是信息技术与互联网产业发展到特定阶段的产物,从互联网到物联网,从云计算到大数据,信息

决胜大数据时代:Hadoop&amp;Yarn&amp;Spark企业级最佳实践(8天完整版脱产式培训版本)

Hadoop.Yarn.Spark是企业构建生产环境下大数据中心的关键技术,也是大数据处理的核心技术,是每个云计算大数据工程师必修课. 课程简介 大数据时代的精髓技术在于Hadoop.Yarn.Spark,是大数据时代公司和个人必须掌握和使用的核心内容. Hadoop.Yarn.Spark是Yahoo!.阿里淘宝等公司公认的大数据时代的三大核心技术,是大数据处理的灵魂,是云计算大数据时代的技术命脉之所在,以Hadoop.Yarn.Spark为基石构建起来云计算大数据中心广泛运行于Yahoo!.阿

大数据时代需要新安全分析平台-转载

毫无疑问,我们已经进入了大数据时代.人类的生产生活每天都在产生大量的数据,并且产生的速度越来越快.根据IDC和EMC的联合调查,到2020年全球数据总量将达40ZB.当前,网络与信息安全领域的安全数据同样具备大数据的特征,包括数据量越来越大.速度越来越快.种类越来越多. 安全数据的数量.速度.种类的迅速膨胀,导致的不仅仅是海量异构数据的融合.存储和管理的问题,甚至动摇了传统的安全分析体系和方法. 当前绝大多数安全分析工具和方法都是针对小数据量设计的,在面对大数据量时难以为继.新的攻击手段层出不穷

Hadoop大数据时代:Hadoop&amp;YarnSpark企业级最佳实践 (4天)

Hadoop.Yarn.Spark是企业构建生产环境下大数据中心的关键技术,也是大数据处理的核心技术,是每个云计算大数据工程师必修课. 大数据时代的精髓技术在于Hadoop.Yarn.Spark,是大数据时代公司和个人必须掌握和使用的核心内容. Hadoop.Yarn.Spark是Yahoo!.阿里淘宝等公司公认的大数据时代的三大核心技术,是大数据处理的灵魂,是云计算大数据时代的技术命脉之所在,以Hadoop.Yarn.Spark为基石构建起来云计算大数据中心广泛运行于Yahoo!.阿里淘宝.腾

大数据时代—— 一个创造超级竞争力企业的时代

这是一个快速发展的时代,随着互联网的普及,数据成指数倍增长,相同类型的企业也如雨后春笋般越来越多!那么如何在这个快速发展的时代,脱颖而出,把握时代的脉搏呢?答案就是:建立自己企业的大数据!提高企业的生存和竞争力,大数据无疑是一把利剑,通过数据分析,不仅可以让你知己知彼,更可以让自己的企业决胜千里之外,使企业在与同行竞争中,更具竞争力的一大利器,用的好,甚至能碾压竞争对手.大数据近年的崛起和发展已经初现其巨大的作用,据分析拥有优秀大数据能力的企业,做出正确决策的可能性高出竞争对手3倍.决策速度比竞

大数据时代:让数据洞察助力企业精细化管理

大数据时代来临,信息化建设对企业的生存发展的重要作用越发凸显,如何跨越信息孤岛,打破部门之间的联动壁垒,实现以大数据分析与应用为前提,成为企业提高市场竞争能力和应变能力成为关键所在.企业迫求"实用快上"  信息孤岛无可回避博为软件与企业合作时发现,几乎所有企业都会因为信息化建设缺乏总体规划,往往以实现某个特定应用.满足局部功能要求,在实践中关注某一个业务环节或者某一个管理功能的信息化,注重单元技术和短期效益,信息组织缺乏规范化,导致企业软件系统繁多.体系混乱,"信息孤岛&qu

智云通CRM:大数据时代,用简单方式让数据说话

数据会说话吗?在大数据时代,数据不光会说话,还会驱动企业决策,让企业往正确的方向发展. 信息化技术的飞速发展,造就了大量信息的爆发性增长,海量信息被IT系统所传输.使用.保留和存储,成为海量的数据,大数据时代已经来临.在大数据时代,数据不仅仅是信息的简单记录和保存,更是蕴藏着巨大商业价值的"宝藏",数据已经成为了企业的重要战略资产,数据分析则对企业的商业发展起着举足轻重的作用,成为企业重点关注的领域. 数据分析困局 据Gartner相关数据表明,2014年全球花费810亿美元在业务分析