近些年来,大数据逐步渗透到现实生活,从医疗到信贷,可谓是各个行业。
单从“大数据”这个词语来看,说明数据量很大。如果这些数据结果,不做处理,以单纯数字呈现,相信你看的超不过10秒中,你会头皮发麻。你都头皮发麻了,那我们的客户岂不更发麻,如果这个问题解决不了,将非常影响大数据的发展。由此一个职业必将会兴起,就是数据可视化工程师,而它的职责就是将大数据的结果做的一目了然,降低客户的阅读时间和阅读门槛。
此教程将会尽快的完善起来,形成培养数据可视化工程师的经典网络教程。
现在我们进入课程,如何应对大数据时代!我总结了三条有效的秘籍。
三条秘籍:
● 抛弃不精准的样本数据,统计分析全部数据
截止到现在,我们获取收集的数据仍很有限,因此更多的是“随机采样分析”。
随机采样分析的定义:对一个生物的总体,机会均等地抽取样本,估计其总体的某种生物学特性的方法。
按照随机的原则,即保证总体中每个单位都有同等机会被抽中的原则抽取样本的方法。
优点:在根据样本资料推论总体时,可用概率的方式客观地测量出推论值的可靠程度,从而使这种推论建立在科学的基础上。正因为此,随机采样分析在社会调查和社会研究中应用比较广。
缺点:只适用于总体单位数量有限的情况,否则编号工作繁重;对于复杂的总体,样本的代表性难以保证;不能利用总体的已知信息等。在市场调研范围有限,或调查对象情况不明,难以分类。并且必须对总体各单位的情况有较多的了解,否则无法作出科学的分类。而这一点在实际调查之前又往往难以做到,从而导致样本的代表性较差。
例如,要想知道中国公民对某项政策的满意度,不可能对所有中国公民做问卷调查。通常的做法是随机找10000个人,用这10000个人的满意度来代表所有人的。
为了使结果尽可能准确,我们会设计尽可能精确的问卷,并使样本足够随机。
这就是“小数据时代”的做法,在不可能搜集全部数据的情况下,随机采样分析在各领域取得了巨大的成功。
但是,问题也就来了:
1.依赖随机性,而随机性很难做到。例如,使用固定电话随机打给10000户人家,这样也是缺乏随机性的,因为没有考虑到年轻人都使用手机的情况。
2.远看不错,一旦聚焦到某一点,就模糊了。例如,我们用10000个人来代表全国,这1000个人是随机从全国选取的。但是,如果用此结果来判断西藏的满意度,却是缺乏精确的。也就是说,分析结果不能适用于局部。
3.采样的结果只能回答你事先设计好的问题,不能回答你突然意识到的问题。
而在”大数据时代“,样本=总体。如今,我们已经有能力搜集到全面而完整的数据。
通常我们所说的大数据就是建立在掌握所有数据、至少也是尽可能多的数据的基础上的。
● 着眼数据的完整性和复杂性,弱化单条数据的精确性
在“小数据”时代,我们首先要解决的就是减少测量的错误,因为本身收集的信息比较少,所以要保证结果尽可能的准确就必须先保证记录的信息是正确的,否则细微的错误会被无限放大。由此我们必须先要优化测量工具。而现代科学就是这么发展过来的,制定温度的国际单位的物理学家开尔文曾说过:“测量就是认知”。要成为一名优秀的科学工作者必须要能准确收集和管理数据。
在“大数据”时代,我们可以轻而易举地获得全部数据,并且数目庞大到上万亿个数据,也正因为此,如果追求每一个数据的精确性,将不可想象的。弱化了数据的精确性,那么数据的混杂性也就不可避免。
然而,如果数据量足够大时,它所带来的混乱也不一定会带来不好的结果。也正是这个原因,我们放松了数据的标准,所能搜集的数据就多了起来,我们就可以用这些数据来做更多的事。
举一个例子:
要测一个一亩土地的含盐量,如果只有一个测量仪,那必须保证这个测量仪精确且能一直工作。但是如果每平米土地就有一个测量仪,则虽然有些测量数据是错误的,但是所有数据合起来却能得到一个更准确的结果。
因此,“大数据”通常用更有说服力的概率说话,而不是依赖测量工具的精准。这就要求我们重新审视获取收集数据的思路。由于数据量特别大,我们放弃了个体精确性,当然也无法实现个体精确性。
比如,我们在电脑存储上可以看到,所有的文件可以通过一个路径找到它,例如,要找一首歌曲,必须先找到一个分区,然后再找到其文件夹,最后逐步找到所需要的歌曲,而这就是传统的方法。如果电脑上的分区或者文件夹较少,可以这么查找,但如果有1亿个分区呢?10亿个文件夹呢?网络上的数据可远比个人电脑上的文件多,动则数十亿,如果使用清晰的分类,那么不仅分类的人会疯,查询的人也会疯。因此,现在互联网上广泛使用”标签“,通过标签来检索图片、视频、音乐等。当然,有时人们会错标一个标签,这让习惯精确性的人很痛苦,但是,接受”混乱“也给我们带来了好处:
由于拥有了比”分类”数量多得多的标签,我们就能够获得更多的内容。
可以通过标签组合来过滤内容。
又例如,如果我们要搜索“白鸽”。而“白鸽”所关联的信息又有很多:比如一种动物,又或者是一个品牌,还可以是一个名人。一旦我们按照传统的分类法,“白鸽”就会被分到动物类,品牌类,名人类。导致一个结果就是查询的人不知道它还有其他的分类,还有可能就是只想查“白鸽”这种动物,所以就不会到品牌类或者名人类里查询。但是,如果使用”标签“,输入”白鸽“+”动物“,即可查到想要的结果;输入”白鸽“+”品牌“即可查到想要的结果;输入”白鸽“+”名人“即可查到想要的结果。
由此可见,使用”标签“代替”分类“,虽然有很多不精确的数据,但是得力于大量的标签,使得我们搜索更为方便。
● 思考数据的关联性,放弃单一的因果性
首要研究数据的本身,不必再深究数据的形成的原因,让数据自身发言。
举个例子:
沃尔玛是世界上最大的零售商,掌握了大量的零售数据。通过销售数据分析,沃尔玛得到,每当季节性飓风来临之前,手电筒和蛋挞的销售量都会增加。由此,当季节性飓风来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,促进顾客购买。
肯定会有人问“为什么飓风一来,人们都要买蛋挞呢?”
而这个“为什么”,是因果关系。而这个“因”,分析起来极难、并且很复杂,即便最后得出来了,意义也不大。对沃尔玛来说,当飓风来临时,摆好蛋挞,就行了。这就是数据自身发言。
而我们知道飓风与蛋挞有关,并且能赚钱就可以了。
这就是应对大数据时代的方式,即思考数据的关联性,放弃单一的因果关系。
这种方式能够帮助我们更好地理解世界。有时候,因果关系还会给我们带来一些错误的认知。
例如:
我们从父母那里得知,天冷时要带帽子和手套,否则就会感冒。但是,感冒的成因并非如此。又或者我们在餐馆里吃饭,突然肚子疼,可以想到原因食物有问题。可实际上很可能是接触到外界病菌的关系。
关联性在分析问题时提供了新的视角,让我们明白数据自身的发言。但是,因果性也不应该完全放弃,而是要以科学的关联性的立场来审视。
引来一个新的问题:大数据时代如何做到数据一目了然?答案在这里
原文地址:http://blog.51cto.com/11098813/2113224