Apache NiFi之Kafka流数据到HBase

一.说明

在大数据平台的业务场景中,处理实时kafka数据流数据,以成为必要的能力;此篇将尝试通过Apache NiFi来接入Kafka数据然后处理后存储之HBase

二.开拔

Ⅰ).配置ConsumeKafka_0_10

测试使用了kafka0.10版本,所以NiFi中也选择对于版本

  

a).选择ConsumeKafka_0_10

在Processor中搜索ConsumeKafka_0_10

  

b).配置ConsumeKafka_0_10

1.Kafka Brokers: hostname1:9092,hostname2:9092:hostname3:9092
2.Topic Name(s): entry_index_nifi
3.Group ID: entry_index_nifi

  

Ⅱ).配置PutHBaseJSON

a).选择PutHBaseJSON

在Processor中搜索PutHBaseJSON

  

b).配置PutHBaseJSON

1.HBase Client Service: 选择匹配版本的HBaseClient
2.Table Name: 配置入库HBase表名
3.Row Identifier Field Name: 配置RowKey值
4.Column Family: 配置列簇

  

c).选择HBase_1_1_2_ClientService

在Processor中搜索HBase_1_1_2_ClientService

  

d).配置HBase_1_1_2_ClientService

1.Zookeeper Quorum: hostname1:2181,hostname2:2181,hostname3:2181
2.Zookeeper Client Port: 2181
3.Zookeeper ZNode Parent: /hbase

  


e).激活HBase_1_1_2_ClientService

Ⅲ).启动服务

可以点击选择单个Processor启动,也可以在空白处点击流程启动

  

Ⅳ).验证结果

a).Kafka源数据

./bin/kafak-console-consumer.sh --zookeeper hostname1:2181,hostname2:2181,hostname3:2181 ---topic entry_index_nifi

  

b).HBase入库数据

scan ‘kafka.entry_index_nifi‘,{LIMIT=>10}

  

三.HBase命令

## 创建表空间
create_namespace ‘kafka‘

## 查看表空间
list_namespace_tables ‘kafka‘

## 创建表
create ‘kafka.entry_index_nifi‘,‘cf1‘

## 查看表数据
scan ‘kafka.entry_index_nifi‘,{LIMIT=>10}

  

原文地址:https://www.cnblogs.com/felixzh/p/12149803.html

时间: 2024-08-22 20:09:53

Apache NiFi之Kafka流数据到HBase的相关文章

Apache NiFi之MySQL数据同步到HBase

一.说明 将Apache NiFi做为关系型数据与非关系型数据库的数据同步工具使用,在此场景中需要将mysql导出的avro数据格式转化为json入库HBase 二.开拔 Ⅰ).配置ExecuteSQLRecord a).选择ExecuteSQLRecord 在Processor中搜索ExecuteSQLRecord b).配置ExecuteSQLRecord 1.创建Database Connection Pool 2.创建JsonRecordSetWriter 3.配置SQL select

Apache nifi 第二篇(小白初试) nifi数据对接流程初次尝试

 一.准备工作 1.官网下载nifi 2.上传到linux随便哪里把,因为nifi是用java写的,所以首先要保证你的linux装了jdk 其次保证系统在装了zookeeper,因为nifi是一个分布式框架,需要zookeeper做协作支持,后面会具体讲讲zookeeper的作用. 3.解压缩 ,unzip nifi-1.3.0-bin.tar.gz 4.进入nifi.properties 配置web访问的ip和端口 5.sh bin/nifi.sh status 查看nifi状态 6.启动ni

Apache Beam实战指南 | 大数据管道(pipeline)设计及实践

Apache Beam实战指南 | 大数据管道(pipeline)设计及实践  mp.weixin.qq.com 策划 & 审校 | Natalie作者 | 张海涛编辑 | LindaAI 前线导读: 本文是 Apache Beam 实战指南系列文章第五篇内容,将对 Beam 框架中的 pipeline 管道进行剖析,并结合应用示例介绍如何设计和应用 Beam 管道.系列文章第一篇回顾 Apache Beam 实战指南 | 基础入门.第二篇回顾 Apache Beam 实战指南 | 玩转 Kaf

Apache NiFi 概述

Apache NiFi概述 Apache NiFi团队[email protected] 什么是Apache NiFi? 简单地说,NiFi是为了自动化系统之间的数据流而构建的.虽然术语“数据流”在各种环境中使用,但我们在此处使用它来表示系统之间自动化和管理的信息流.这个问题空间一直存在,因为企业有多个系统,其中一些系统创建数据,一些系统消耗数据.已经讨论并广泛阐述了出现的问题和解决方案模式.企业集成模式 [eip]中提供了一个全面且易于使用的表单. 数据流的一些高级挑战包括: 系统失败 网络故

Apache NiFi 入门指南

本指南使用于谁? 本指南适用于从未使用过,在NiFi中有限度接触或仅完成特定任务的用户.本指南不是详尽的说明手册或参考指南.“ 用户指南”提供了大量信息,旨在提供更加详尽的资源,并且作为参考指南非常有用.相比之下,本指南旨在为用户提供所需的信息,以便了解如何使用NiFi,以便快速轻松地构建强大而灵活的数据流. 一些因为本指南中的某些信息仅适用于初次使用的用户,而其他信息可能适用于那些使用过NiFi的人,本指南分为几个不同的部分,其中一些可能对某些部分没用读者.随意跳转到最适合您的部分. 本指南确

记一次OGG数据写入HBase的丢失数据原因分析

一.现象二.原因排查2.1 SparkStreaming程序排查2.2 Kafka数据验证2.3 查看OGG源码2.3.1 生成Kafka消息类2.3.2 Kafka配置类2.3.3 Kafka 消息发送类2.3.4 Kafka 分区获取方式三.结论 一.现象 目前我们的数据是通过OGG->Kafka->Spark Streaming->HBase.由于之前我们发现HBase的列表put无法保证顺序,因此改了程序,如果是在同一个SparkStreaming的批次里面对同一条数据进行操作,

java实现服务端守护进程来监听客户端通过上传json文件写数据到hbase中

1.项目介绍: 由于大数据部门涉及到其他部门将数据传到数据中心,大部分公司采用的方式是用json文件的方式传输,因此就需要编写服务端和客户端的小程序了.而我主要实现服务端的代码,也有相应的客户端的测试代码.这里须有一个需要提到的是,我在实现接收json文件的同时,而且还需将数据写到hbase中.写入到hbase当中采用的是批量插入的方式,即一次插入多条记录. 好了,有了前面的说明,下面来简单的说一下我实现的服务端的小程序把. 2.为了实现服务端能够监听客户端的行为,因此我在服务端采用多线程的技术

Apache Nifi 组件开发

Apache NiFi是由美国过国家安全局(NSA)贡献给Apache基金会的开源项目,其设计目标是自动化系统间的数据流.基于其工作流式的编程理念,NiFi非常易于使用,强大,可靠及高可配置.两个最重要的特性是其强大的用户界面及良好的数据回溯工具(官网吹的) nifi 使用起来还比较方便,基于web 的控制界面能够比较好的管理和控制数据流转,数据处理的业务流程也比较明确,下面说一下 如何定制开发一个基于我们自身业务的组件 1.工程结构 nifi对工程结构做了规范,我们只要按照他的格式创创建工程包

Apache NiFi Processor实战

1 前言 Apache NiFi是什么?NiFi官网给出如下解释:"一个易用.强大.可靠的数据处理与分发系统".通俗的来说,即Apache NiFi 是一个易于使用.功能强大而且可靠的数据处理和分发系统,其为数据流设计,它支持高度可配置的指示图的数据路由.转换和系统中介逻辑. 为了对NiFi能够表述的更为清楚,下面通过NiFi的架构来做简要介绍,如下图所示. 根据官网对各个组件的说明,做摘要翻译: ? WebServer:其目的在于提供基于HTTP的命令和控制API. ? Flow C