canal接binlog

最近业务开始需要实时抽取数据，中间权限需要沟通，为了不让自己给DBA添加麻烦，还是补补关于这方面的基础：

来源：http://blog.csdn.net/heiyeshuwu/article/details/8619338

先介绍下背景吧，方便理解：

早期，阿里巴巴B2B公司因为存在杭州和美国双机房部署，存在跨机房同步的业务需求。不过早期的数据库同步业务，主要是基于trigger的方式获取增量变更，不过从2010年开始，阿里系公司开始逐步的尝试基于数据库的日志解析，获取增量变更进行同步，由此衍生出了增量订阅&消费的业务。

项目介绍

名称：canal [k?‘næl]

译意：水道/管道/沟渠

语言：纯java开发

定位：基于数据库增量日志解析，提供增量数据订阅&消费，目前主要支持了mysql

工作原理

mysql主备复制实现：

从上层来看，复制分成三步：

master将改变记录到二进制日志(binary log)中（这些记录叫做二进制日志事件，binary log events，可以通过show binlog events进行查看）；
slave将master的binary log events拷贝到它的中继日志(relay log)；
slave重做中继日志中的事件，将改变反映它自己的数据。

canal的工作原理：

canal模拟mysql slave的交互协议，伪装自己为mysql slave，向mysql master发送dump协议
mysql master收到dump请求，开始推送binary log给slave(也就是canal)
canal解析binary log对象(原始为byte流)

几点说明：

a:canal的原理是基于mysql binlog技术，所以一定要需要开启mysql的binlog写入功能，并且配置binlog模式为row.

b:canal的原理是模拟自己为mysql salave，所以这里一定需要做为mysql slave的相关权限。

时间： 2024-12-13 15:03:28

canal接binlog的相关文章

Canal订阅binlog变更并结合kafka实现消息缓冲

阿里Canal项目请先了解:canal 考虑可能binlog大批量变更,如果直接通过Canal订阅binlog变动,会造成CanaClient会瞬间爆掉.为了解决这个问题,我们可以引入kafka做一层封装,可以解决这个问题. 未完待续...... 原文地址:https://www.cnblogs.com/barrywxx/p/10850675.html

用canal同步binlog到kafka，spark streaming消费kafka topic乱码问题

canal 1.1.1版本之后, 默认支持将canal server接收到的binlog数据直接投递到MQ, 目前默认支持的MQ系统有kafka和RocketMQ. 在投递的时候我们使用的是非压平的消息模式(canal.mq.flatMessage =false //是否为flat json格式对象),然后消费topic的时候就一直无法正常显示和序列化,通过kafka-console-consumer.sh命令收到的消息如下图在github上也能找到相关问题 canal-kafka 数据同步到

缓存一致性和跨服务器查询的数据异构解决方案canal

当你的项目数据量上去了之后,通常会遇到两种情况,第一种情况应是最大可能的使用cache来对抗上层的高并发,第二种情况同样也是需要使用分库分表对抗上层的高并发...逼逼逼起来容易,做起来并不那么乐观,由此引入的问题,不见得你有好的解决方案,下面就具体分享下. 一:尽可能的使用Cache 比如在我们的千人千面系统中,会针对商品,订单等维度为某一个商家店铺自动化建立大约400个数据模型,然后买家在淘宝下订单之后,淘宝会将订单推送过来,订单会在400个模型中兜一圈,从而推送更贴切符合该买家行为习惯的

mysql 第三十九篇文章~canal的深度解读1

一简介:经过一段时间的研究,对canal有了一些见解二配置文件: 1 canal.properties (系统根配置文件) 主要参数列表 canal.properties (系统根配置文件) canal.destinations= example 当前server上部署的instance列表默认为example 在canal.properties定义了canal.destinations后,需要在canal.conf.dir对应的目录下建立同名的文件 canal.auto

Mysql + canal + zookeeper环境搭建

Mysql + canal + zookeeper环境搭建一.mysql集群搭建 1. mysql基本环境操作系统: Linux version 2.6.32-431.el6.x86_64 数据库:MySQL Community Server 5.7.20 主节点IP:10.60.81.157 主节点IP:10.60.81.158 从节点IP:10.60.81.159 2. 安装mysql 2.1．官网下载MySQL mysql-5.7.20-1.el6.x86_64.rpm-bundle.

Canal——增量同步MySQL数据到ES

1.准备 1.1.组件 JDK:1.8版本及以上: ElasticSearch:6.x版本,目前貌似不支持7.x版本: Canal.deployer:1.1.4 Canal.Adapter:1.1.4 1.1.配置需要先开启MySQL的 binlog 写入功能,配置 binlog-format 为 ROW 模式找到my.cnf文件,我的目录是/etc/my.cnf,添加以下配置: log-bin=mysql-bin # 开启 binlog binlog-format=ROW # 选择

数据异构解决方案缓存一致性和跨服务器查询

缓存一致性和跨服务器查询的数据异构解决方案canal 当你的项目数据量上去了之后,通常会遇到两种情况,第一种情况应是最大可能的使用cache来对抗上层的高并发,第二种情况同样也是需要使用分库分表对抗上层的高并发...逼逼逼起来容易,做起来并不那么乐观,由此引入的问题,不见得你有好的解决方案,下面就具体分享下. 一:尽可能的使用Cache 比如在我们的千人千面系统中,会针对商品,订单等维度为某一个商家店铺自动化建立大约400个数据模型,然后买家在淘宝下订单之后,淘宝会将订单推送过来,订单会在4

参数binlog_row_image设置MINIMAL，你今天被坑了吗？

今天网友"芬达"跟我讨论一个参数binlog_row_image,在什么场景下设置为MINIMAL,我觉得这个案例很有意义,尤其是在生产环境中,要慎重设置这个参数. 首先这个MINIMAL,只会在binlog里记录被影响的行,而不能像默认的FULL一样,记录完整的变更前和变更后的所有记录,这里就会产生一个问题,数据被误更改,无法用mysqlbinlog等工具闪回,另外大数据那边用canal抽binlog,会造成数据不准确等一系列问题. 下面通过模拟实验,看看binlog里记录的内容.

canal-随记001-吐血一个下午找bug

前天leader说,阿里的新版本canal支持 canal收集binlog直接发到kafka,你要不研究一下? ok,没问题. 昨天周六,在家搭了套环境.解决centos7安装mysql各种小细节,按照阿里github上的步骤来做.终于,还是没有跑起来.. 但是根据现象:一旦往mysql表中插入数据,查看canal.log就会有日志滚动更新,只是不是我想要的内容... 日志如下: 2019-04-28 05:24:06.242 [kafka-producer-network-thread | p