Elasticsearch mysql 增量同步 三表联合 脚本

从上方插件官网中下载适合的dist包,然后解压。进入bin目录,可以看到一堆sh脚本。在bin目录下创建一个test.sh:

bin=/home/csonezp/Dev/elasticsearch-jdbc-2.3.1.0/bin
lib=/home/csonezp/Dev/elasticsearch-jdbc-2.3.1.0/lib
echo ‘{
"type" : "jdbc",
"statefile" : "statefile.json",
"jdbc": {
"url" : "jdbc:mysql://myaddr",
"user" : "myuser",
"password" : "mypwd",
"type" : "mytype",
"index": "myindex",
"schedule" : "0 * * * * ?",
"metrics" : {"enabled" : true
},
"sql" : [{ "statement" : "select * from gd_actor_info where update_time > ?", "parameter" : [ "$metrics.lastexecutionstart" ]}
]
}
}‘ | java \
-cp "${lib}/*" \
-Dlog4j.configurationFile=${bin}/log4j2.xml \
org.xbib.tools.Runner \
org.xbib.tools.JDBCImporter

schedule现在设置成每分钟都执行一次,是为了方便观察行为。statefile这一句是一定要加的。$metrics.lastexecutionstart就是这个脚本的关键所在了,这个指的是上一次脚本执行的时间,可以通过比较这个时间和数据库里的字段来判断是否要更新。

上面简略的说了一下es同步数据脚本的大致情况,但是实际情况里肯定不会像上一篇里面的脚本那么简单。比如目前我就有三张表,两张实体表,一张关联表。大致实现如下:

bin目录建立一个statefile.json文件:

{
"type" : "jdbc",
"statefile" : "statefile.json",
"jdbc": {
"url" : "jdbc:mysql://",
"user" : "",
"password" : "",
"type" : "actor",
"index": "test",
"schedule" : "0 * * * * ?",
"metrics" : { 
"lastexecutionstart" : "0",
"lastexecutionend" : "0",
"counter" : "1" 
}, 
"sql" : [{ "statement" : "select a.actor_id as _id ,a.*,GROUP_CONCAT(b.tag_name ) as tag_name from ( ( gd_actor_info as a left join gd_actor_tag as ab on a.actor_id = ab.actor_id ) left join gd_tag_actor as b on ab.tag_id = b.tag_id) where a.update_time >? or ab.update_time > ? group by a.actor_id ", "parameter" : [ "$metrics.lastexecutionstart" ,"$metrics.lastexecutionstart" ]}
]
}
}

主要是lastexecutionstart设置为0,为了让第一次执行能进行一次全量备份。

其实sh脚本信息也就都在上面了,再写一个就好了

ElasticSearch 最新版本 2.20 发布下载了 http://www.linuxidc.com/Linux/2016-02/128166.htm

Linux上安装部署ElasticSearch全程记录 http://www.codesec.net/Linux/2015-09/123241.htm

Elasticsearch安装使用教程 http://www.codesec.net/Linux/2015-02/113615.htm

ElasticSearch 配置文件译文解析 http://www.codesec.net/Linux/2015-02/114244.htm

ElasticSearch集群搭建实例 http://www.codesec.net/Linux/2015-02/114243.htm

分布式搜索ElasticSearch单机与服务器环境搭建 http://www.codesec.net/Linux/2012-05/60787.htm

ElasticSearch的工作机制 http://www.codesec.net/Linux/2014-11/109922.htm

Elasticsearch的安装,运行和基本配置 http://www.codesec.net/Linux/2016-07/2881064151.htm

使用Elasticsearch + Logstash + Kibana搭建日志集中分析平台实践 http://www.codesec.net/Linux/2015-12/126587.htm

Ubuntu 14.04搭建ELK日志分析系统(Elasticsearch+Logstash+Kibana) http://www.codesec.net/Linux/2016-06/132618.htm

Elasticsearch1.7升级到2.3实践总结 http://www.codesec.net/Linux/2016-11/137282.htm

时间: 2024-10-31 02:11:57

Elasticsearch mysql 增量同步 三表联合 脚本的相关文章

Elasticsearch+MySQL数据同步示例

一.安装Elasticsearch下载 https://www.elastic.co/guide/en/elasticsearch/reference/current/setup.html 二.在MySQL上新建库表(若已有库表可跳过) 建库脚本如下: SET FOREIGN_KEY_CHECKS=0; -- ---------------------------- -- Table structure for contacts -- ---------------------------- D

MySQL主从同步状态监控脚本及邮件通知

网络版本 #!/bin/bash mysql_cmd="mysql -u root -pxxxxxxxxx" errorno=(1158 1159 1008 1007 1062) while true do array=($($mysql_cmd -e "show slave status\G"|egrep '_Running|Behind_Master|Last_SQL_Errno'|awk '{ print $NF }')) if [ "${array

Elasticsearch PHP MYSQL的同步使用

简介与用途 Elasticsearch是一个分布式,RESTful模式的高速搜索引擎,它使用标准的RESTful APIs和JSON,同时提供支持如java,python,php等的多种语言.下文将Elasticsearch简称ES. 一个简单的curl查询数据的示例如下: curl -XGET 'localhost:9200/sedoctorfeedback/feedback/_search?pretty&q=119' ES使用诸如XPUT,XDELETE,XPOST,XGET等RESTful

使用sqoop从mysql往hive中增量导数据shell脚本

一:sqoop增量导入的两种方式 Incremental import arguments: Argument Description --check-column (col) Specifies the column to be examined when determining which rows to import. (the column should not be of type CHAR/NCHAR/VARCHAR/VARNCHAR/ LONGVARCHAR/LONGNVARCHA

mysql主从同步监控脚本

mysql主从同步监控脚本,利用mysql从库中的IO和SQL进程以及延迟时间来监控主从同步是否正常,详细shell脚本如下: #!/bin/bash #author wangning #date 2017-7-17 #qq 1198143315 #Email [email protected] ################################## define variable############################# define_variable(){ ip

使用SyncNavigator进行SqlServer或者MYsql数据库的实时、增量同步

SyncNavigator是一款高效的数据库同步工具,支持sqlserver数据库和mysql数据库,采用增量同步的方式实时保存数据库数据. 因为是增量同步,记录每次同步时间戳,所以同步效率很高,不用每次整个数据库检查,每次只需要同步新修改的部分或者增加的部分,删除的部分本地也会删除,默认是同步增.删.改. 如果勾选只新增,那么同步时只会增加新内容,不会对修改和删除的老数据做任何操作,默认是不勾选的. 因为我们的数据库常规新产生的数据其实并不大,每一秒产生的数据也不会很多,原则上每一秒新产生的数

检查mysql主从同步结构中的从数据库服务器的状态-脚本shell

检查mysql主从同步结构(一主一从)中的从数据库服务器的状态          (ip授权.从服务器和IO是否正常.从mysql进程是否正常) 主mysql: 192.168.1.10 从mysql: 192.168.1.20 [[email protected] ~]# vi check_slave.sh #!/bin/bash master=192.168.1.10 i=1 service mysqld status &>/dev/null while [ true ] do echo

05: 实时增量备份 、 XtraBackup 备份 、 总结和答疑 、 MySQL 主从同步

day05 增量备份一.启用binlog日志 实现 实时增量备份二.使用第3方软件提供的命令做增量备份 +++++++++++++++++++++++++++++++++一.启用binlog日志 实现 实时增量备份1.1 binlog日志介绍:二进制日志, 是MySQL数据库服务日志文件中的一种,记录执行的除查询之外的sql命令.默认没有启用. 查询的sql命令 : show desc select 1.2 启用binlog日志?vim /etc/my.cnf[mysqld]server_id=

详解MySQL双活同步复制四种解决方案

目录 基于MySQL原生复制主主同步方案 基于Galera replication方案 基于Group Replication方案 基于canal方案 对于数据实时同步,其核心是需要基于日志来实现,是可以实现准实时的数据同步,基于日志实现不会要求数据库本身在设计和实现中带来任何额外的约束. 基于MySQL原生复制主主同步方案  这是常见的方案,一般来说,中小型规模的时候,采用这种架构是最省事的. 两个节点可以采用简单的双主模式,并且使用专线连接,在master_A节点发生故障后,应用连接快速切换