大数据从无人谈及,到现在的大肆炒作,到底什么才是大数据,对于数据分析师,它又有意味着什么?用Google搜索了一下“Big Data”,你会得到了19,600,000个结果,而使用同样的词语,在两年前你几乎搜索不到什么内容,而现在大数据的内容被大肆炒作,内容多得让人眼花缭乱。而这些内容主要是来自IBM、麦肯锡和Reilly ,大多数文章都是基于营销目的的夸夸其谈,对真实的情况并不了解,有些观点甚至是完全错误的。我问自己,大数据之于数据分析师,它意味着什么呢?进步的一面体现在,大数据的概念正在促使内部组织的文化发生转变,对这时的“商务智能”形成挑战,并促进了“分析”意识的提升。基于大数据的创新技术可以很容易地被应用到类似数据分析的各种环境中。值得一提的是,企业组织通过应用先进的业务分析,业务将变得更广泛、更复杂,价值也更高,而传统的网站分析受到的关注将会有所减弱。
大数据的定义
什么是“大数据”,目前并没有统一的定义。维基百科提供的定义有些拙劣,也不完整:大数据,指的是所涉及的数据量规模巨大到无法通过主流的工具,在合理的时间内撷取、管理、处理、并整理成为人们所能解读的信息。
IBM 提供了一个充分的简单易懂的概述:
大数据有以下三个特点:大批量(Volume)、高速度(Velocity)和多样化(Variety)。大批量大数据体积庞大。企业里到处充斥着数据,信息动不动就达到了TB级,甚至是PB级。高速度大数据通常对时间敏感。为了最大限度地发挥其业务价值,大数据必须及时使用起来。
多样化大数据超越了结构化数据,它包括所有种类的非结构化数据,如文本、音频、视频、点击流、日志文件等等都可以是大数据的组成部分。MSDN的布莱恩·史密斯在IBM的基础上增加了第四点:变异性数据可以使用不同的定义方式来进行解释。不同的问题需要不同的阐释。