大数据组件

一.大数据组件分类:

1.计算类: hadoop,spark,flink,hive

2.传输类:kafka,flume,redis

3.存储类:hbase,mongodb,Cassandra

4.调度类:zookeeper 5.配置类:mesos,yarn

二.流行的框架SMACK

Spark Mesos Akka Cassandra Kafka

三.Apache

Zookeeper 分布式调度

Spark 计算

Kafka 中心化传输整合数据,面向服务

Cassandra 线性增加容量,节省资源,consistency可调节

Mesos 分布式任务调度系统,智能调度硬件资源

四.大数据大数据对框架和工具的要求:

高可用性,高性能,高可扩展性

五.常见大数据架构包括:

数据注入层(webserver等)

数据存储层

数据处理层

六.大数据技术人员两个大方向

做大规模高并发的线上服务

做大数据分析

七.大数据指的是规模超过现有数据库工具获取、存储、管理和分析能力的数据集,并同时强调并不是超过某个特定数量级的数据集才是大数据

八.国际数据公司(IDC)用四个维度的特征来定义大数据,即数据集的规模(Volume)、数据流动的速度(Velocity)、数据类型的多少(Variety)和数据价值的大小(Value)

原文地址:https://www.cnblogs.com/fanshudada/p/10846485.html

时间: 2024-09-27 06:12:42

大数据组件的相关文章

大数据组件原理总结-Hadoop、Hbase、Kafka、Zookeeper、Spark

Hadoop原理 分为HDFS与Yarn两个部分.HDFS有Namenode和Datanode两个部分.每个节点占用一个电脑.Datanode定时向Namenode发送心跳包,心跳包中包含Datanode的校验等信息,用来监控Datanode.HDFS将数据分为块,默认为64M每个块信息按照配置的参数分别备份在不同的Datanode,而数据块在哪个节点上,这些信息都存储到Namenode上面.Yarn是MapReduce2,可以集成更多的组件,如spark.mpi等.MapReduce包括Job

docker容器与大数据组件的冲突点

1.容器里面安装spark,外面的程序(安装spark主机的容器)会连接不上集群.理由:这个组件用的akka,连接上集群,会提示: akka.ErrorMonitor: dropping message [class akka.actor.ActorSelectionMessage] for non-local recipient [Actor[akka.tcp://[email protected]:50071/]] arriving at [akka.tcp://[email protect

大数据组件常用命令

1.Hadoop常用命令 hdfs dfs -ls / # 查看hdfs根目录信息 hdfs dfs -ls -R / # 显示目录结构 hdfs dfs -put /home/a.txt / # a.txt文件上传到根目录 hdfs dfs -get /a.txt /home # 根目录下的a.txt文件下载到/home目录下 hdfs dfs -getmerge / /home # 根目录下的所有文件下载到/home目录下 hdfs dfs -cat /a.txt # 查看根目录下的a.tx

大数据学习总结(8)大数据场景

大数据场景一.各种标签查询 查询要素:人.事.物.单位 查询范围:A范围.B范围.... 查询结果:pic.name.data from 1.痛点:对所有文本皆有实时查询需求2.难点:传统SQL使用WHERE子句匹配LIKE关键词,在庞大的数据字段中搜索某些想要的字,需遍历所有数据页或者索引页,查询效率底,当出现千万级以上数据时,耗时较高,无法满足实时要求3.方案:使用全文检索方案,分布式架构,即使PB级量级也可做到毫秒级查询 大数据场景二.客户事件查询 查询条件:城市.区域.时间跨度(2017

大数据学习总结(7)we should...

大数据场景一.各种标签查询 查询要素:人.事.物.单位 查询范围:A范围.B范围.... 查询结果:pic.name.data from 1.痛点:对所有文本皆有实时查询需求2.难点:传统SQL使用WHERE子句匹配LIKE关键词,在庞大的数据字段中搜索某些想要的字,需遍历所有数据页或者索引页,查询效率底,当出现千万级以上数据时,耗时较高,无法满足实时要求3.方案:使用全文检索方案,分布式架构,即使PB级量级也可做到毫秒级查询 大数据场景二.客户事件查询 查询条件:城市.区域.时间跨度(2017

大数据工程师微职位学习分享

随着各行各业的数据量快速增长,无论是从对数据的存储.分析.处理和挖掘等方面提出了越来越高的要求.IT行业正在逐渐向"DT"行业转变,未来是以数据为驱动的.所以我认为大数据是未来一个主流方向,了解和学习大数据对我们以后的工作和生活都有一定帮助. 近期我个人学习了大数据工程师微职位这门课,并且已经通过了所有的考核.下面切入正题,分享一下我的学习心得,因为篇幅关系,不涉及具体知识点. 因为这门课是偏大数据分析的,基本上不涉及大数据组件的开发,所以这门课撇开了冗长的java课程.另外,因为涉及

关于BI商业智能的“8大问”|一文读懂大数据BI

这里不再阐述商业智能的概念了,关于BI,就从过往的了解,搜索以及知乎的一些问答,大家困惑的点主要集中于大数据与BI的关系,BI的一些技术问题,以及BI行业和个人职业前景的发展.这里归纳成8个问题点,每个问题都做了精心的解答,希望能给大家带来帮助. 问题1:商业智能BI和大数据是什么关系,如何选择? BI(BusinessIntelligence)即商业智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策. 大数据(B

Flume+Kafka+Storm+Redis构建大数据实时处理系统:实时统计网站PV、UV+展示

[TOC] 1 大数据处理的常用方法 前面在我的另一篇文章中<大数据采集.清洗.处理:使用MapReduce进行离线数据分析完整案例>中已经有提及到,这里依然给出下面的图示: 前面给出的那篇文章是基于MapReduce的离线数据分析案例,其通过对网站产生的用户访问日志进行处理并分析出该网站在某天的PV.UV等数据,对应上面的图示,其走的就是离线处理的数据处理方式,而这里即将要介绍的是另外一条路线的数据处理方式,即基于Storm的在线处理,在下面给出的完整案例中,我们将会完成下面的几项工作: 1

大数据之HDFS命令行基本操作

1. 课程简介 HDFS是Hadoop大数据平台中的分布式文件系统,为上层应用或其他大数据组件提供数据存储,如Hive,Mapreduce,Spark,HBase等. 本文章中所有命令均在CentOS-6.4-x86_64,hadoop-2.5.2,jdk1.8.0_152,zookeeper-3.4.11中运行通过,为减少linux权限对初学者造成影响,所有命令均在linux的root权限下进行操作. 2.理论回顾 Hadoop技术本身包含HDFS.Map/Reduce.HDFS作海量数据存储