大数据用到的技术

转自:http://www.jdon.com/bigdata/whatisbigdata.html

----------

你可能会问什么是大数据,它几乎是每一个业务领域的最新趋势?难道仅仅是炒作?

   事实上"大数据"是一个非常简单的术语 - 它只是说 - 一个非常大的数据集。有多大?确切答案是"你能想象的一样大"!

   这个数据集为何能如此大规模?因为数据可能来自无处不在,无时不变的: RFID传感器,流量数据,用于收集气象信息传感器,手机的GPRS包,社交媒体网站的发布,数码照片和视频,在网上购买的交易记录,你的名字!大数据是一个巨大的数据集,包含来自于每一个信息源产生的我们感兴趣的数据。

   大数据的特点是四个主要方面:数量,品种繁多,速度和准确性(价值)英文:Volume, Variety, Velocity,和 Veracity ,被称为"大数据的四大V" 。

Volume数量

   数量是指能够捕捉,存储和访问的业务数据量。仅在过去的两年中,产生全球90%的数据。目前大部分组织已经不堪重负如此巨大的数据量,已经积累至TB级甚至PB级,其中一些需要进行组织,保存和分析。

Variety品种

   全球80%的数据是半结构化的。传感器,智能设备和社交媒体都是生成此类数据,网站日志,社交媒体论坛,音频,视频,点击流,电子邮件,文件,传感器系统等也都是。传统的分析解决方案可以很好工作于结构化数据,例如关系型数据库中的数据以及形成的模式。支持各种数据类型的存储和分析在今天需求扩大,需要综合表示各种类型的数据,不能简单地捕获传统的关系数据库管理的数据,而且很容易地实现存储和数据分析的大数据技术呼之欲出。

Velocity速度

   速度就是需要实时的数据分析,"有时耽误2分钟为时已晚!" 。为获得竞争优势,意味着你的竞争对手可能会在你几分钟甚至几秒钟之前识别趋势或机会。另一个例子是对时间敏感的处理过程,例如,捕捉信息欺诈,因为它时刻会流进您的企业,因此必须实时加以分析。时间敏感的数据有一个很短的保质期;一些有名的织都在近实时对它们进行分析。

Veracity 真实性价值

   基于数据我们创造机会和获取价值。数据是所有决定的支持,所以如果你正在寻找可以对您的业务有重大影响的决策,你会希望尽可能多的信息来可以支持你的决策。然而,分离单独的数据量并不能提供足够的信任,数据的真实性和质量是最重要的,因此,建立在大数据解决方案的决策是最大挑战,是实现成功决策的坚实基础。

下面是基于Java支持大数据的产品:

Hadoop

   Hadoop分HDFS和Map/reduce,HDFS是Hadoop的主要分布式存储。一个HDFS集群主要由一个NameNode(管理文件系统的元数据)和存储实际数据的DataNode组成。 HDFS是专门设计用于存储大量的数据,实现了存取优化。

   Hadoop的MapReduce是一个软件框架,可方便地编写应用程序处理大量的数据(多是TB数据集),在服务器硬件数千个节点的大型集群上实现一个可靠的,容错的方式并行运行的系统。

详细进入:Hadoop大数据批处理架构

Apache HBase

   Apache HBase是Hadoop的数据库,一个分布式的,可扩展的数据存储。它提供了随机,实时读/写访问大数据,并进行了优化承载非常大的数据表 - 数十亿行乘以百万列 -,实现服务器硬件之上集群。在其核心Apache HBase是一个分布式的面向列的数据库,属于谷歌的Bigtable:Apache HBase在Hadoop和HDFS之上提供了类似于Bigtable的能力。

详细进入:NOSQL之旅---HBase

Apache Cassandra

   Apache Cassandra是一个高性能,可扩展性和高线性可用的数据库,可以运行在服务器或云基础设施上,为关键任务数据提供完美的平台,。 Cassandra支持多个数据中心之间复制是同类产品中最好,为用户提供更低的延迟,甚至不惧怕停电。 Cassandra的数据模型提供了便利的列索引,高性能试图和强大的内置缓存。

详细进入:Cassandra专题

Apache Hive

   Apache蜂巢Hive是Hadoop的数据仓库系统,方便简单的数据汇总工具,对存储在Hadoop兼容的文件系统上大型数据集实现查询和分析。Hive提供了查询数据类似SQL的语言称为HiveQL。同时,这语言也可以让传统的map / reduce程序员嵌入他们的自定义maperhe reducer.

详细进入:Hive架构

Apache Pig

   Apache Pig是一个用于分析大型数据集的平台。它包含一个高层次的编写数据分析程序的脚本语言,Pigde 程序的显着属性是它适合进行大量的并行化,轮流处理非常大的数据集。pig的基础设施层由产生的序列Map-Reduce程序的编译器组成。猪的语言称为Pig Latin,易于开发编程并考虑了扩展性与易用性。

Apache Chukwa

   是一个开源大型分布式系统的数据采集监视系统。它是建立在Hadoop分布式文件系统(HDFS)和Map/ Reduce框架之上,并继承了Hadoop的可伸缩性和健壮性。 Chukwa还包括一个灵活而强大的工具包,用于显示,监测和分析结果,以便做出最佳地使用所收集的数据。

Apache Ambari

  是一个基于Web的工具,用于配置,管理和监控的Apache Hadoop集群,包括支持HBase,Hadoop的MapReduce,Hadoop的HDFS,蜂房Hive,HCatalog的ZooKeeper,Oozie,Pig和Sqoop。还提供了仪表盘查看集群的健康,如热图,并能够虚拟化查看MapReduce,Pig和Hive应用,以用户友好的方式来诊断其性能特点。

Apache ZooKeeper

  是一种集中式的服务(负载平衡器),维护配置信息,提供命名,提供分布式的同步,并提供团体服务。Apache ZooKeeper协调运行在Hadoop集群上的分布式应用程序。

ZooKeeper在服务发现中应用

Apache Sqoop

  Apache Sqoop的是一个专为Apache Hadoop设计的转换工具,在与关系数据库的结构化数据存储之间高效地传输大量数据。

Apache Oozie

  Apache Oozie是一个管理Apache Hadoop作业的可扩展的,可靠的和可扩展的工作流调度系统。 Oozie工作流程的工作都是由DAG(irected Acyclical Graphs)指挥。Oozie协调工作常是由频繁的数据到达触发的Oozie工作流工作。 Oozie集成支持几种类型的Hadoop作业开箱(Java map-reduce, Streaming map-reduce, Pig, Hive, Sqoop and Distcp)以及系统的具体工作(shell脚本)。

Apache Mahout

  Apache Mahout是一个可扩展的机器学习和数据挖掘库。目前Mahout的支持主要是四个用例:
推荐挖掘:试图找到用户的行为和可能会喜欢的项目。
集群:找到文本文件相关处,然后将他们分为局部文件。
分类:从现有的分类中学习,能够分配到正确的类别。
频繁项集挖掘:需要项目组(查询会话中,购物车的内容),并确定,其中个别项目通常一起出现。

使用Mahout实现自然语言处理

Apache HCatalog

  Apache HCatalog是一个使用Apache的Hadoop创建的数据表和存储管理服务。这包括:

  • 提供一个共享的架构和数据类型的机制。
  • 提供一个表抽象,使用户不必关心在哪里或如何存储他们的数据。
  • 数据处理工具,如Pig,地Map Reduce,和Hive提供的互操作性。

结构化数据与非结构化数据

时间: 2024-10-01 04:19:18

大数据用到的技术的相关文章

成都大数据Hadoop与Spark技术培训班

成都大数据Hadoop与Spark技术培训班 中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师.开发设计人员的工作水平,旨在培养专业的大数据Hadoop与Spark技术架构专家,更好地服务于各个行业的大数据项目开发和落地实施. 2015年近期公开课安排:(全国巡回开班) 08月21日——08月23日大连 09月23日——09月25日北京 10月16日——10月18日成都 11月27日——11月2

网易大数据平台的Spark技术实践

网易大数据平台的Spark技术实践 作者 王健宗 网易的实时计算需求 对于大多数的大数据而言,实时性是其所应具备的重要属性,信息的到达和获取应满足实时性的要求,而信息的价值需在其到达那刻展现才能利益最大化,例如电商网站,网站推荐系统期望能实时根据顾客的点击行为分析其购买意愿,做到精准营销. 实时计算指针对只读(Read Only)数据进行即时数据的获取和计算,也可以成为在线计算,在线计算的实时级别分为三类:Real-Time(msec/sec级).Near Real-Time(min/hours

大数据用到哪些技术?

原地址:https://blog.51cto.com/12306609/2095719 大数据是对海量数据进行存储.计算.统计.分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算.高并发处理.高可用处理.集群.实时性计算等,汇集了当前IT领域热门流行的IT技术. 想要学好大数据需掌握以下技术: 1. Java编程技术 Java编程技术是大数据学习的基础,Java是一种强类型语言,拥有极高的跨平台能力,可以编写桌

实用干货!大数据入门的常用技术栈全在这里了

简介: 大数据自 2009 年走向人们的视野,亦如所有新技术的发展,经历了一波炒作后,由风口回归理性发展.我们可以看到,随着 IOT 技术的发展和成熟,以及 5G 业务的全面铺开,数据规模还将持续增长.新晋技术风口 AI.区块链.RPA 的发展也都离不开大数据技术.大数据技术将作为一项基础技术,应用在各个角落. 转自: Cassandra技术社区原文链接:https://mp.weixin.qq.com/s/Wv_DTdqLp7ExENNZefx4SQ 大数据自 2009 年走向人们的视野,亦如

文本挖掘:灵玖大数据汉语智能分词技术

汉语分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词.分词就是将连续的字序列按照一定的规范重新组合成词序列的过程.中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用.其他的比如机器翻译(MT).语音合成.自动分类.自动摘要.自动校对等等,都需要用到分词. 汉语自动分词是目前中文信息处理领域公认的一大难题,也是自然语言理解研究领域中最基本的一个环节.中文自动分词就是将用自然语言书写的文章.句段经计算机处理后,以词为单位逐词输出,为

大数据Spark与Storm技术选型

先做一个对比:   对比点 Storm Spark Streaming 实时计算模型 纯实时,来一条数据,处理一条数据 准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理 实时计算延迟度 毫秒级 秒级 吞吐量 低 高 事务机制 支持完善 支持,但不够完善 健壮性 / 容错性 ZooKeeper,Acker,非常强 Checkpoint,WAL,一般 动态调整并行度 支持 不支持 再来说说Spark Streaming与Storm的应用场景   先说一下Storm: 1.建议在那种需要纯

大数据时代下是数据思维重要,还是相应技术重要?

技术做到一定程度,逐步发现自己的瓶颈.不由得开始思考这一方面的问题!到底大数据时代下,是相应的数据分析技术重要,还是相应数据思维重要? 先来说数据思维吧!什么是大数据思维,个人感觉应该是互联网思维的一种.是考虑到全面,而不是局部.是考虑到多维,而不是单一维度.不是靠拍脑门做决定,而是让数据说话,用数据做决策. 先说第一点,考虑全面,而不是局部.众所周知,移动互联网催生了大数据的产生.每一个人每一天通过手机能够的数据总和会是一个巨大的量.而通过这些非结构化的数据,我们首先面对的是如何处理这些数据,

准独角兽袋鼠云:入围“浙江大数据灵杰榜”,获评“星禾奖创新技术企业”!

2018年7月15日,由工信部.科技部.民政厅等相关主管单位指导,浙江省大数据科技协会主办的"2018浙江省大数据产业峰会(Zhejiang Big Data Industry Conference 2018)"在杭州JW万豪酒店隆重召开. 本届"2018浙江省大数据产业峰会"以"聚智慧·创未来"为主题,内容涵盖大数据政策规划.技术创新.行业应用实践等议题,吸引了包括阿里云.科大讯飞.网易.百度.等各地知名企业参加,袋鼠云以浙江省大数据科技协会理

工业大数据应用技术国家工程实验室

一.简介工业大数据应用技术国家工程实验室于2017年2月经×××批复立项建设,由航天云网北京航天数据股份有限公司牵头,联合中国机械工业集团公司.哈尔滨电气集团公司.阿里云计算有限公司.中国沈阳自动化研究所.北京工业大学.中国质量认证中心.北京金隅股份有限公司.北京工业大学共同组建. 实验室以推动工业大数据产业发展,攻克重大技术难关为目标,是全国唯一的应用技术研发创新与产业推动的支撑机构.实验室的建成,将有利于强化产业技术原始创新能力,加强基础和产业研究之间的有机衔接:整合产学研资源,培养工业互联