IBM InfoSphere CDC 是一款功能强大的数据实时复制软件,不仅广泛应用于传统ODS、数据仓库、数据集市及BI系统的异构平台集成,同时也提供对Cloud的全面支持;对于各种 Cloud 应用场景,CDC 不仅能提供低影响、近实时的海量数据复制,同时还可确保数据在传输过程中的完整性和安全性。
作为IBM重金打造的旗舰品牌,Bluemix 公有云平台是一个基于 Cloud Foundry 开源项目的平台即服务(PaaS)产品,它使得组织和开发人员能够快速而又轻松地在云上创建、部署和管理应用程序。Bluemix 为全球广大用户提供丰富的应用和服务,这其中也包括云端的 IBM Hadoop产品:BigInsights。
通过IBM InfoSphere CDC,可以轻松将本地数据库(On Premise)的数据实时同步到位于 Bluemix 云端的
BigInsights,从而解决在大数据分析中所面对的几大问题:
- 海量数据的处理
- 数据来源的多样性
- 数据分析的敏捷性
- 数据分析的持久性
接下来,我们将通过以下步骤来演示如何利用CDC搭建本地数据库(例如DB2)到云端BigInsights的实时同步场景。
On Premise 系统配置
1. 配置并确认当前DB2数据库正常运行。
2. 安装InfoSphere CDC for DB2(位于源端的CDC引擎,通过实时解析DB2日志来捕获增量数据变化)。
3. 安装InfoSphere CDC for DataStage(位于目标端的CDC引擎,将源端的实时增量数据应用于目标端Hadoop平台/HDFS文件系统)。
4. 配置CDC服务器到Bluemix的内部网络连接(防火墙)。
5. 安装CDC配置管理监控平台(Management Console 和 Access Server)。
创建 BigInsights for Apache Hadoop 服务
1. 登录Bluemix平台(要求使用Bluemix ID)。
https://console.ng.bluemix.net/
2. 点击页面上方的"目录",并在页面左侧的"服务"栏中勾选"数据与分析",然后选择"BigInsights for Apache Hadoop"。
3. 进入"BigInsights for Apache Hadoop"页面,指定相关属性并创建服务。
检查 BigInsights for Apache Hadoop 服务
1. 从Bluemix的用户仪表盘中,点击新创建的"BigInsights for Apache Hadoop"服务。
2. 检查当前服务的有效期,通常免费使用一个月。
3. 检查当前服务的凭证及配置信息,例如用户名、密码。
启动 BigInsights for Apache Hadoop 服务
1. 在BigInsights for Apache Hadoop页面中点击"Launch" 以启动服务。
2. 检查BigInsights for Apache Hadoop的主机名,端口(8443)及URL前缀(/gateway/default/),以供CDC配置使用。
创建CDC预订和配置表映射
1. 在CDC配置管理监控平台(Management Console)中,创建预订并运行表映射向导。
2. 选择目标端交付方法为 Apache Hadoop -> Web HDFS。
3. 选择需要复制的DB2源表,并指定目标端BigInsights的Web HDFS目录路径。
配置CDC预订的Hadoop属性
1. 右键点击预订,选择Hadoop Properties。
2. 可修改Batch Size值(生成落地文件的触发条件),并输入通过Web HDFS连接BigInsights的连接信息。
3. 启动预订,开始实时复制。
验证数据实时同步结果
1. 在本地DB2数据库上运行若干个交易,使得CDC所监控的源表数据产生变更。
2. 在目标端BigInsights for Apache Hadoop主页上点击BigSheets,便可监控到数据从源端
DB2已实时同步过来,整个过程完全自动化,低延迟且准确无误。
对BigInsights感兴趣的朋友可以点击下面链接查看详情并下载:
http://bigdata.evget.com/product/385.html