InfoSphere CDC 实时同步本地数据到云端的BigInsights

IBM InfoSphere CDC 是一款功能强大的数据实时复制软件,不仅广泛应用于传统ODS、数据仓库、数据集市及BI系统的异构平台集成,同时也提供对Cloud的全面支持;对于各种 Cloud 应用场景,CDC 不仅能提供低影响、近实时的海量数据复制,同时还可确保数据在传输过程中的完整性和安全性。

作为IBM重金打造的旗舰品牌,Bluemix 公有云平台是一个基于 Cloud Foundry 开源项目的平台即服务(PaaS)产品,它使得组织和开发人员能够快速而又轻松地在云上创建、部署和管理应用程序。Bluemix 为全球广大用户提供丰富的应用和服务,这其中也包括云端的 IBM Hadoop产品:BigInsights

通过IBM InfoSphere CDC,可以轻松将本地数据库(On Premise)的数据实时同步到位于 Bluemix 云端的
BigInsights,从而解决在大数据分析中所面对的几大问题:

  • 海量数据的处理
  • 数据来源的多样性
  • 数据分析的敏捷性
  • 数据分析的持久性

接下来,我们将通过以下步骤来演示如何利用CDC搭建本地数据库(例如DB2)到云端BigInsights的实时同步场景。

On Premise 系统配置

1. 配置并确认当前DB2数据库正常运行。

2. 安装InfoSphere CDC for DB2(位于源端的CDC引擎,通过实时解析DB2日志来捕获增量数据变化)。

3. 安装InfoSphere CDC for DataStage(位于目标端的CDC引擎,将源端的实时增量数据应用于目标端Hadoop平台/HDFS文件系统)。

4. 配置CDC服务器到Bluemix的内部网络连接(防火墙)。

5. 安装CDC配置管理监控平台(Management Console 和 Access Server)。

创建 BigInsights for Apache Hadoop 服务

1. 登录Bluemix平台(要求使用Bluemix ID)。

https://console.ng.bluemix.net/

2. 点击页面上方的"目录",并在页面左侧的"服务"栏中勾选"数据与分析",然后选择"BigInsights for Apache Hadoop"。

3. 进入"BigInsights for Apache Hadoop"页面,指定相关属性并创建服务。

检查 BigInsights for Apache Hadoop 服务

1. 从Bluemix的用户仪表盘中,点击新创建的"BigInsights for Apache Hadoop"服务。

2. 检查当前服务的有效期,通常免费使用一个月。

3. 检查当前服务的凭证及配置信息,例如用户名、密码。

启动 BigInsights for Apache Hadoop 服务

1. 在BigInsights for Apache Hadoop页面中点击"Launch" 以启动服务。

2. 检查BigInsights for Apache Hadoop的主机名,端口(8443)及URL前缀(/gateway/default/),以供CDC配置使用。

创建CDC预订和配置表映射

1. 在CDC配置管理监控平台(Management Console)中,创建预订并运行表映射向导。

2. 选择目标端交付方法为 Apache Hadoop -> Web HDFS。

3. 选择需要复制的DB2源表,并指定目标端BigInsights的Web HDFS目录路径。

配置CDC预订的Hadoop属性

1. 右键点击预订,选择Hadoop Properties。

2. 可修改Batch Size值(生成落地文件的触发条件),并输入通过Web HDFS连接BigInsights的连接信息。

3. 启动预订,开始实时复制。

验证数据实时同步结果

1. 在本地DB2数据库上运行若干个交易,使得CDC所监控的源表数据产生变更。

2. 在目标端BigInsights for Apache Hadoop主页上点击BigSheets,便可监控到数据从源端

DB2已实时同步过来,整个过程完全自动化,低延迟且准确无误。

对BigInsights感兴趣的朋友可以点击下面链接查看详情并下载:

http://bigdata.evget.com/product/385.html

时间: 2024-10-28 14:41:32

InfoSphere CDC 实时同步本地数据到云端的BigInsights的相关文章

使用maxwell实时同步mysql数据到kafka

一.软件环境: 操作系统:CentOS release 6.5 (Final) java版本: jdk1.8 zookeeper版本: zookeeper-3.4.11 kafka 版本: kafka_2.11-1.1.0.tgz maxwell版本:maxwell-1.16.0.tar.gz 注意 : 关闭所有机器的防火墙,同时注意启动可以相互telnet ip 端口 二.环境部署 1.安装jdk export JAVA_HOME=/usr/java/jdk1.8.0_181 export P

rsync与inotify实现数据实时同步

Rsync与Inotify 单一的rsync只可以进行数据同步,单一的inotify只可以实时监控文件,两者结合使用刚好满足数据实时同步的需求,下面就用一个数据发布服务器和两个web服务器实例解析rsync+inotify实现实时同步. 数据发布服务器 192.168.1.5 (rsync+inotify) web服务器 192.168.1.6 192.168.1.7 (rsync) 首先在web服务器上部署rsync 192.168.1.6配置 [[email protected]~]# yu

MongoDB -> kafka 高性能实时同步(采集)mongodb数据到kafka解决方案

写这篇博客的目的 让更多的人了解 阿里开源的MongoShake可以很好满足mongodb到kafka高性能高可用实时同步需求(项目地址:https://github.com/alibaba/MongoShake,下载地址:https://github.com/alibaba/MongoShake/releases).至此博客就结束了,你可以愉快地啃这个项目了.还是一起来看一下官方的描述: MongoShake is a universal data replication platform b

5、Sersync实时同步实战

1.实时同步概述 1.什么是实时同步, 只要当前目录发生变化则会触发一个事件,事件触发后将变化的目录同步至远程服务器. 2.为什么要实时同步, 保证数据的连续性, 减少人力维护成本, 解决nfs单点故障 3.实时同步实现原理, 实时同步需要借助 Inotify通知接口,用来监控目录的变化,如果监控的目录发生变更.则触发动作,这个动作可以是进行一次同步操作,或其他操作. 4.实时同步工具选择, 有sersync(√).inotify+rsync,通常我们会选择 sersync,因为 sersync

数据文件实时同步(rsync + sersync2)

因近期项目需求,需要同步云端服务器的数据给**方做大数据分析. 思路: 起初只要数据同步,准备开放数据采集接口.但实时性较差,会有延迟. 故而寻觅各种解决方案,最终确定使用 rsync 进行文件同步,otter(阿里的开源工具) 进行数据库同步 最终使用成功,同步效果显著! 本文先只介绍 rsync 的文件同步,otter 会在其他文章分享 一.简介 网上简介一堆,不过都写的很官方,下面的介绍是我自己使用后的感受. sersync 用于监控目录后调用 rsync 同步命令,进行文件传输! 可以监

烂泥:rsync与inotify集成实现数据实时同步更新

本文首发于烂泥行天下. 上篇文章我们介绍了如何使用rsync同步文件,这篇文章我们再来介绍下,如何把rsync与inotify集成实现数据的实时同步. 要达到这个目的,我们需要分以下几个步骤: 1.rsync的优点与不足 2.inotify是什么 3.检测OS是否支持inotify 4.inotify相关参数详解 5.inotify监控的文件事件类似 6.inotify-tools是什么 7.安装inotify-tools 8.inotifywait使用详解 9.inotifywatch使用详解

rsync+inotify实现数据的实时同步

一,简介: 1. rsync是类unix系统下的数据镜像备份工具--remote sync.一款快速增量备份工具 Remote Sync,远程同步 支持本地复制,或者与其他SSH.rsync主机同步.与传统的cp.tar备份方式相比,rsync具有安全性高.备份迅速.支持增量备份等优点,通过rsync可以解决对实时性要求不高的数据备份需求,例如定期的备份文件服务器数据到远端服务器,对本地磁盘定期做数据镜像等.随着应用系统规模的不断扩大,对数据的安全性和可靠性也提出的更好的要求,rsync在高端业

rsync + inotify 用来实现数据实时同步

一.简介 1.rsync 比其cp.tar备份的方法,rsync的优点是,安全性高.备份迅速.支持增量备份.只能做对实时性要求不高的数据备份,例如:备份文件服务到远端从服务器.在本地磁盘上做数据镜像等 增量备份:就是rsync同步数据时,需要扫描所有文件后进行比对,进行差量传输.但是对于大量文件达到千万量级别时,扫描所有文件是非常耗时的. 如果发生改变的只是其中的一小部分的话,这是非常低效的方式. rsync 不能实时的去监测,同步数据,虽然它可以通过 linux 守护进程的方式进行触发同步,两

rsync + inotify 实现数据实时同步

要求:两台Web服务器实现数据同步(我这里使用的是Centos 6.2-x64) 服务器一:172.16.11.126 服务器二:172.16.11.127 一.配置ssh备份源172.16.11.126(这里推荐使用专用的普通用户,注意相应的权限问题,如遇特殊情况使用root用户也可以,即不用考虑权限问题了. ) 1.新建备份用户rget rput 分别用来上传下载 [root@localhost ~]#  useradd rget [root@localhost ~]#  useradd r