蔡先生论道大数据之一 , 大数据由来

我记得早在2001年,Gartner公司的一份研究报告首次出现“大数据(Big Data)”概念的提法。但是到今天业内对“大数据”一词的定义说法不一,但越来越多的研究机构和网络媒体开始关注它。大数据正成为继云计算之后新的热词。同云计算一样,大数据虽然也看不见摸不到,却与今天的IT技术发展如影随形,已经深入到当前的信息生产、加工、交换过程之中,我们已经享受到的某些信息服务,如在社交网站看到的是自己想关注甚至是感兴趣的广告而看不到不想关注的广告,这其实是大数据技术的功劳。

背景

移动互联网的带宽的增加和智能设备销售量的上升,互联网业迎来了“云计算”和“大数据”。世界经济论坛一份有关大数据的研究报告称,每天全球几十亿人使用计算机、GPS设备、电话和医疗设备,产生海量的数据信息。这些用户大部分来自发展中国家,他们的需求和习惯尚未被真正理解,如果能够借助大数据相关技术分析和挖掘数据背后的信息,将有助于认识需求、提供预测和防范危机。另有评述说,美国的汽车保有量是中国三倍,而其车祸死亡人数仅为中国的一半,这得益于信息社会的数据革命之功。

毫无疑问,现在我们比历史上任何时候拥有的数据信息都要多得多。这些数据来源各式各样:收集气候变化的传感器,社交媒体上的消息,数字照片和视频,交易记录,移动电话的GPS信号等等。中国移动研究院在一份简报中称,随着全球信息化的进程加快,数据量的增加已经到达了前所未有的速度,2011年创造的信息数据达到180亿GB,而且每年以60%增加,到2020年全球一年产生的数字信息将达到35ZB,相当于350万亿GB。数据在持续地增多变大,多到现有数据技术无法分析处理,我们需要专门来解读这些海量数据的技术,这就是“大数据技术”。

概念

如同Gartner公司的报告里提到的那样,业界普遍认同所谓“大数据”具有明显的“3V特征”:量级(Volume),速度(Velocity)和多样性(Variety)。大数据普遍具有量级大,要求处理速度快,数据本身具有丰富的多样性。在甲骨文公司和中国移动研究院的相关研究文档里,都追加了第四个V——Value,价值, 而IBM在其相关文档中给出的第四个“V”则是真实性(Veracity) 。

基于个人的观点,我给大数据技术的定义是:

在海量的规则或不规则数据集中,用新的数据处理手段,以很快的速度计算或分析出潜在规律性、根本性的判断、趋势或预见。也可以简单说是数据集太大以至于传统数据库软件无法处理,所以称为“大数据技术”。

从数据生成类型上区分,大数据可分为交易数据、交互数据和传感数据;从数据来源上分,大数据可分为社交媒体、银行/购物网站、移动电话和平板电脑、各种传感器/物联网等等;从数据格式可以分为文本日志、整型数据、图片、声音、视频等;还可从数据关系上区分为结构化数据(如交易流水帐)和非结构化数据(如图、表,地图等);从数据所有者可分为公司尤其巨型公司数据、政府数据、社会数据——网络数据。

根据美国白宫的“大数据开发计划”中的说,大数据开发也可指“从庞大而复杂的数字数据中发

掘知识及现象后的本质(extract knowledge and insights from large and complex collections of digital data)”。同时也看到,现在所讨论的大数据并不仅仅是数据尺寸的变大,它还可以被视作一个机会,籍此可以在新的正在生成的数据和内容中找到本质的东西,从而使商业运作更敏捷,帮助回答一些此前无法预知的问题。

主要技术

大数据的提出是为了解决现有数据技术无法满足快速增多、日益复杂化的数据集合,因此基于大数据的技术涉及层面较广,至少包括如下一些现有技术的综合运用。关联规则学习、分类、分组分析、众包技术、数据异构与同构、机器学习、自然语言处理、神经网络、模式识别、预测模型、情态分析、信号处理、时序分析和可视化处理等。

上述每一项技术如果展开来说,需要写很多篇文章来讨论。如关联规则学习,是数据挖掘的一个重要课题,用于从大量数据中挖掘出有价值的数据项之间的相关关系,由此产生了对基于大数据的推荐系统的应用研究。再如机器学习,机器学习算法是从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的、行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。

大数据的具体化、实例化的应用离不开Apache Hadoop项目,一种开源、可扩展、分布式的应用计算架构。它包括Common、Distributed File System、MapReduce三个组件部分。Hadoop 的 Map/Reduce 框架是一种主/从架构,机群中有单一的主服务器以及若干个从服务器,在每个节点都有一个从服务器,这些分布式的节点协同工作,共同完成一个整体的大数据处理任务。目前也出现了Spark框架,基于Hadoop技术之上的另一种未来很可能替代Map/Reduce框架,以后我们会详细讨论。

微信号:caimin_yyh

蔡先生论道大数据之一 , 大数据由来

时间: 2024-12-21 02:35:08

蔡先生论道大数据之一 , 大数据由来的相关文章

蔡先生论道大数据之(十五) :什么是数据化运营?

数据化运营讨论(1) 近现代营销理论代表思想是4P理论,4P是指产品.价格.渠道.促销,它的核心是产品,其他要素都是围绕产品这个核心来的,进入21世纪人们又提出了4C的营销理论,包括消费者.成本.方便性.沟通交流,它的核心是用户是消费者,一切以消费者为核心,这也是目前大多数企业市场营销战略核心思想. 社会在进步,4C理论之后来到了大数据时代,所面对的行业状况是,白热化的市场竞争,越来越严苛的营销预算.堆积如山的海量数据,迫使企业寻找更加适合的营销思路和方法.目前行业主流的理论是3P3C,包括概率

蔡先生论道大数据之(十六) :穷则思变

数据化运营讨论(2) 数据化运营的理念与技术对企业来说是革命性的,它能将现在"卖方市场"商业状态变成为"买方市场". "穷则思变"古话说的好,在当下传统营销方式手段很难明显提升业绩和市场竞争力时"数据化运营"的理念和技术就成为企业未来打破竞争,提升自我强有力地商业武器. 企业通过对数据的分析和挖掘,运营不在盲目,真正做到心中有数,有的放矢.举例,传统的营销活动带来的问题:"我知道投入的广告费有一半打了水漂,收效甚微,

蔡先生论道大数据之(十七) :全民动员

数据化运营讨论(3) 2010年和2013年分别提出各自的数据化运营的战略方针,大数据的运营时代已经来到,而如何整合海量数据成为关键任务. 业内,对数据化运营的定义有区别,但核心和要素都是一样的,那就是"以大数据分析挖掘为基础支撑企业以更加精细化的运营制度和战略". 落实到具体就是针对运营.销售.客服部门的线上线下的数据分析支持.举个例子,在互联网企业,运营部门就要通过"日志监控""流量监控分析"."目标用户行为监控分析".&

蔡先生论道大数据之十: 企业如何入手大数据战略(1)

今天之后的几章我们重点讨论企业如果要利用大数据应该从那几个方面入手,我粗粗的总结了一下大致分三个方面,这三个方面做到为了,恭喜你你的企业正开始享受和拥有大数据来的红利和价值. 具体入手之前,我们先要明确一点就是首先企业管理层需要有清晰思路然后从上到下认真贯彻,管理层还要对预期的业务影响要有个清晰的认识,能够给出从数据收集.模型建立到企业文化转型的一揽子方法,避免掉进"数据可以为企业做那些"这样的思维陷阱中去. 企业定制大数据战略,需要注意三个关键点,说白了也就根据前面文章总结出来的精髓

蔡先生论道大数据十九:王羲之与大数据

2013年德勤公司发布了一份<2013年艺术品在线交易报告>,显示艺术品投资交易方式由线下慢慢朝着线上交易的方式转变,过去几年至少有80%的藏家尝试过在线购买艺术品,这一趋势还在不断上升.对于艺术品电商来说是个好势头. 但艺术品电商如何找到潜在市场.定位目标客户,提高用户体验和转化率从而增加收益,首先,我们看一下艺术品电商和传统电商的区别,购买艺术品的人群属于高净值的精英阶层,相比淘宝用户数量来说比例非常小,购买特点具有明显的喜好性,比如有人喜欢收藏字画,而有人喜欢瓷器,其次艺术品非普通商品具

蔡先生论道大数据之十三:预测企业未来

每次技术变革企业包括个人都需要做出适应,现在我们处于新一轮实际革命的时代节点上,从小数据时代到大数据时代的前叶. 那么企业面对大数据需要做出什么样的变革呢? 又存在什么样的挑战呢? 首先, 决策方式的改变,传统运作管理在变成大数据管理,越来越多的传统决策在变成基于数据分析的决策.其次,企业不仅要关心内部信息整合,比如CRM\ERP 还要关心外部数据比如用户评论\口碑\商誉\留言等,现在出现的新的趋势就是通过内部和外部的数据整合来决定企业的管理决策.最后,过去企业关心能够创造什么价值,是生产电视机

蔡先生论道大数据之九: 要的就是&quot;快&quot;

前面几章节谈论了企业如何利用大数据帮助企业建立精准营销模型,大家了解了"大数据"\"小数据",那么数据本身的问题解决了,今天我说一下另外一个非常重要的概念,就是"即时性". 可以说大数据最重要的意义之一是解决了营销上的"实时性"问题,在当下手机.平板多屏运作,快速处理用户的点击信息,分析用户属性,放出购买信息,这样实时的能力在商业中越来越重要.也是大数据在实际应用中需要突破的瓶颈. 举个例子,2008年前某国每个月都要统计数据

蔡先生论道大数据之二 , 国外互联网公司的大数据应用

第一章我阐述了大数据的前世今生,今天我们来看看国外大公司如何利用和布局大数据的. IBM IBM是商业分析和大数据技术的最活跃厂商之一.早在大数据概念进入媒体视野之前,IBM就提出"智慧地球"的说法,其核心是把"智慧"嵌入系统和流程之中,使服务的交付.产品开发.制造.采购和销售得以实现,使亿万人生活和工作的方式变得更加智慧.现在,大数据技术为IBM提供了一种实现途径.近年来,IBM先后投资了SPSS.Clarity.penPages.i2.Algorithmics等

蔡先生论道大数据之三 , 国内互联网公司的大数据应用

上章,我简单描述了国外IT巨头在大数据方面的应用和战略,本章我们来看一下国内互联网公司如何理解大数据的. 随着互联网各类网络应用的不断深入,中国的大数据技术与应用的快速发展已成为不容忽视的事实.目前国内各IT企业,特别是大型互联网企业,都开始对大数据的存储.处理和应用进行战略布局. 国内BAT公司:) 百度 百度作为中国最大的搜索引擎,在中国和中文互联网领域各项排行中不是最大就是最多.2012年,百度日均抓取约10亿网页,处理超过100PB(1PB=1024TB)的数据.过去10年,百度网页搜索