Hadoop相关项目Hive-Pig-Spark-Storm-HBase-Sqoop

Hadoop相关项目Hive-Pig-Spark-Storm-HBase-Sqoop的相关介绍。

Hive

Pig和Hive的对比

摘要: Pig Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。 Hive Hive在Hadoop中扮演数据仓库的角色。Hiv阅读全文

hive的实现机制

摘要: hive利用hdfs存储数据文件,利用MapReduce查询数据。 数据库:支持在线联机业务(实时、事务控制) 数据仓库:存储历史数据,面向主题的。主要用于离线数据分析的。阅读全文

hive1.2.1安装步骤(在hadoop2.6.4集群上)

摘要: hive1.2.1在hadoop2.6.4集群上的安装 hive只需在一个节点上安装即可,这里再hadoop1上安装 1、上传hive安装包到/usr/local/目录下 2、解压 tar -zxvf /usr/local/hive-1.2.1.tar.gz 重命名 mv hive-1.2.1 hi阅读全文

Hive的安装和使用

摘要: 1.Hive1.1 在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为MapReduce中阅读全文

Pig

Pig和Hive的对比

摘要: Pig Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。 Hive Hive在Hadoop中扮演数据仓库的角色。Hiv阅读全文

Pig的安装和简单使用

摘要: 1.Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。2.Pig的数据处理语言是数据流方式的,类似于初中做的数学题。3.Pig基本数据类型:int、long、float、double、c阅读全文

Spark

win10下Spark的环境搭建

摘要: win10下Spark的环境搭建 2018-08-19 18:36:45 一、jdk 1.8.0 安装与配置 二、scala 2.11.8 安装与配置http://www.scala-lang.org/download/2.11.8.html 上面两步见《win10下安装scala》 三、spark阅读全文

Spark学习入门

摘要: Spark 是一种“One Stack to rule them all”通用的大数据计算框架,期望使用一个技术栈就完美地 解决大数据领域的各种计算任务。 Spark特点:速度快、容易上手开发、超强的通用性、集成Hadoop、极高的活跃度。 Spark的速度比MapReduce快:MR计算模型太死板阅读全文

Storm

Flume+Kafka整合

摘要: 脚本生产数据 >flume采集数据 >kafka消费数据 >storm集群处理数据 日志文件使用log4j生成,滚动生成! 当前正在写入的文件在满足一定的数量阈值之后,需要重命名!!! flume+Kafka整合步骤及相关配置:(先安装好zookeeper集群和Kafka集群) 配置flume: 1阅读全文

Kafka集群环境搭建

摘要: Kafka介绍 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 KAFKA + STORM +REDIS 1、Apache Kafka是一个开源消息系统,用Scala写成。 2、Kafka是一个分布式消息队列:生产者、消费者的功能。它提供了类似于JMS的特性,阅读全文

Storm消息容错机制(ack-fail机制)

摘要: storm消息容错机制(ack-fail) 1、介绍 在storm中,可靠的信息处理机制是从spout开始的。 一个提供了可靠的处理机制的spout需要记录他发射出去的tuple,当下游bolt处理tuple或者子tuple失败时spout能够重新发射。 Storm通过调用Spout的nextTup阅读全文

Storm通信机制(了解)

摘要: Worker间的通信:经常需要通过网络跨节点进行,Storm使用ZeroMQ或Netty(0.9以后默认使用)作为进程间通信的消息框架。 Worker进程内部通信:不同worker的thread通信使用LMAX Disruptor来完成。 不同topologey之间的通信:Storm不负责,需要自己阅读全文

Storm程序的并发机制(重点掌握)

摘要: 概念 Workers (JVMs): 在一个物理节点上可以运行一个或多个独立的JVM 进程。一个Topology可以包含一个或多个worker(并行的跑在不同的物理机上), 所以worker process就是执行一个topology的子集, 并且worker只能对应于一个topology Exec阅读全文

Storm目录树和任务提交过程

摘要: Storm组件本地目录树 Storm zookeeper目录树 Storm任务提交的过程阅读全文

Storm集群启动流程分析

摘要: Storm集群启动流程分析 程序员 1、客户端运行storm nimbus时,会调用storm的python脚本,该脚本中为每个命令编写了一个方法,每个方法都可以生成一条相应的Java命令。 命令格式:java -server xxx.ClassName -args nimbus >Running:阅读全文

Storm常用操作命令及WordCount

摘要: Storm常用操作命令 1、任务提交命令:storm jar 【jar路径】 【拓扑包名.拓扑类名】 【拓扑名称】 storm jar /export/servers/storm/examples/storm-starter/storm-starter-topologies-1.0.3.jar or阅读全文

Storm1.0.3集群部署

摘要: Storm集群部署 所有集群部署的基本流程都差不多:下载安装包并上传、解压安装包并配置环境变量、修改配置文件、分发安装包、启动集群、查看集群是否部署成功。 1、所有的集群上都要配置hosts vi /etc/hosts 192.168.33.201 storm1 hadoop1 zk1 192.16阅读全文

Storm介绍及核心组件和编程模型

摘要: 离线计算 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示 代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、azkaban/oozie任务调度 流式计算 流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示 代表阅读全文

JMS(Java消息服务)

摘要: JMS即Java消息服务(Java Message Service)应用程序接口是一个Java平台中关于面向消息中间件(MOM:指的是利用高效可靠的消息传递机制进行平台无关的数据交流,并基于数据通信来进行分布式系统的集成。)的API, 用于在两个应用程序之间,或分布式系统中发送消息,进行异步通信。J阅读全文

HBase

HBase0.99.2集群的搭建步骤(在hadoop2.6.4集群和zookeeper3.4.5集群上)

摘要: HBase介绍(NoSql,不是关系型数据库) HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase利用hadoop hdfs作为其文件存储系统,利用hadoop MapReduce来处理HBase中阅读全文

HBase集群的搭建

摘要: HBase集群的搭建(在《HBase伪分布式安装》基础上搭建) 1 集群结构,主节点(hmaster)是hadoop0,从节点(region server)是hadoop1和hadoop22 修改hadoop0上的hbase的几个文件 (1)修改hbase-env.sh的最后一行export HBA阅读全文

HBase结合MapReduce批量导入(HDFS中的数据导入到HBase)

摘要: HBase结合MapReduce批量导入 在eclipse中将上面代码运行成功后,就可以去HBase shell中查看结果:阅读全文

HBase的JavaAPI操作

摘要: 1 package hbase; 2 3 import org.apache.hadoop.conf.Configuration; 4 import org.apache.hadoop.hbase.HBaseConfiguration; 5 import org.apache.hadoop.hbase.HColumnDescriptor; 6 import org.apache.h...阅读全文

HBase shell操作

摘要: HBase shell 进入到HBase shell中:/usr/local/hbase/bin/hbase shell HBase shell的DDL操作 HBase shell的DML操作阅读全文

HBase伪分布式安装

摘要: HBase伪分布安装(前提条件:本机或集群环境下hadoop.1.1.2已经安装成功《hadoop集群的搭建(分布式安装)》 )1 解压缩、重命名、设置环境变量vi /etc/profile export HBASE_HOME=/usr/local/hbase export PATH=.:$HBAS阅读全文

HBase的基础知识

摘要: 1.HBase(NoSQL:不是关系型数据库)的逻辑数据模型 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统,利用阅读全文

Sqoop

sqoop1.4.6数据迁移

摘要: sqoop介绍 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库 sqoop工作机制 将导入或导出阅读全文

Sqoop的安装及简单使用

摘要: SQOOP是用于对数据进行导入导出的。 (1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中 SQOOP的安装(在hadoop0上) 解压缩 tar -zxvf sqoop...阅读全文

原文地址:https://www.cnblogs.com/boonya/p/10263219.html

时间: 2024-11-10 08:06:56

Hadoop相关项目Hive-Pig-Spark-Storm-HBase-Sqoop的相关文章

Hadoop自学笔记(一)常见Hadoop相关项目一览

本自学笔记来自于Yutube上的视频Hadoop系列.网址: https://www.youtube.com/watch?v=-TaAVaAwZTs(当中一个) 以后不再赘述 自学笔记,难免有各类错误纰漏.请看者谨慎. Hadoop的使用还有大数据时代什么的就不说了.Hadoop不是一个单独的工具,而是一整个生态系统.包括一系列工具.所以首先要先介绍一下Hadoop相关的工具和各类概念,是以后经常会接触到的. 1. Hadoop Core a) HDFS  Hadoop分布式文件系统,Hadoo

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解

引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集

引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭

升级版:深入浅出Hadoop实战开发(云存储、MapReduce、HBase实战微博、Hive应用、Storm应用)

      Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上.而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序

Spark集群框架搭建【VM15+CentOS7+Hadoop+Scala+Spark+Zookeeper+HBase+Hive】

目录 1 目的 2 准备工作 3 安装过程 3.1 在虚拟机中安装CentOS7 3.1.1 虚拟机设置 3.1.2 安装Linux系统 3.2 JAVA环境 3.2.1 卸载Linux自带的jdk 3.2.2 下载并安装最新版本的jdk 3.2.3 环境变量设置 3.3 SSH免密登陆 3.3.1 准备工作 3.3.2 设置免密登陆 3.4 Hadoop2.7.2安装及集群配置 3.4.1 Hadoop安装 3.4.2 伪分布式集群配置 3.4.3 启动hadoop 3.5 Spark安装及环

Hadoop、Spark、HBase与Redis的适用性讨论(全文)

最近在网上又看到有关于Hadoop适用性的讨论[1].想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业,估计不少人都在考虑各种"纷繁复杂"的大数据技术的适用性的问题.这儿我就结合我这几年在Hadoop等大数据方向的工作经验,与大家讨论一下Hadoop.Spark.HBase及Redis等几个主流大数据技术的使用场景(首先声明一点,本文中所指的Hadoop,是很"狭义"的Hadoop,即在HDFS上直接跑MapReduce的技术,下同). 我这几年实际研究和

王家林的云计算分布式大数据Hadoop征服之旅:HDFS&MapReduce&HBase&Hive&集群管理

一:课程简介: 作为云计算实现规范和实施标准的Hadoop恰逢其时的应运而生,使用Hadoop用户可以在不了解分布式底层细节的情况下开发出分布式程序,从而可以使用众多廉价的计算设备的集群的威力来高速的运算和存储,而且Hadoop的运算和存储是可靠的.高效,的.可伸缩的,能够使用普通的社区服务器出来PB级别的数据,是分布式大数据处理的存储的理想选择. 本课程会助你深入浅出的掌握Hadoop开发(包括HDFS.MapReduce.HBase.Hive等),并且在此基础上掌握Hadoop集群的配置.维

建立HBase的集群和HDInsight在Hadoop中使用Hive来查询它们

在本教程中,您将学习如何创建和查询HDInsight使用HiveHadoop的HBase的表.下列步骤描述:?如何使用提供在Azure门户的HBase的集群.?如何启用和使用RDP访问HBase的外壳,并使用HBase的外壳创建HBase的示例表,添加行,然后列出表中的行.?如何创建一个Hive表映射到一个现有的HBase的表,使用HiveQL查询数据在HBase的表.?如何使用Microsoft HBase的REST客户端库.NET创建一个新的HBase的表,列出您帐户中的HBase的表,以及

Hadoop+Hive(MySQL)+Hbase+zookeeper

一.hadoop安装 虚拟机(centos7) Master:192.168.0.228 Slave:192.168.0.207 软件 apache-hive-1.2.1-bin.tar.gz hadoop-2.6.0-cdh5.4.8.tar.gz jdk-8u65-linux-x64.tar.gz mysql-connector-java-5.1.31-bin.jar hbase-0.98.15-hadoop2-bin.tar zookeeper-3.4.6.tar 1.关闭防火墙 Syst