基于sersync海量文件实时同步

今天我们主要讲解海量文件实时同步,最近涉及到数百万图片数据迁移,为了使图片数据快速迁移,并保证数据数据的一致性,无缝切换。尝试了多种方案。

方案1:rsync+inotify同步,最先想到的是此方案,以前在多台服务器间的做代码同步就常用此方法,因为代码文件数并不多。现在用在海量文件同步时,其缺陷也暴露出来,分析原理后,我们知道,每次新增数据都会做一次全量同步,在数据量不大的情况下同步挺快,但当文件数达到数百万就相当慢,每次对比整个目录的数量庞大的文件;第二,inotify监听的事件也非常多,创建一个文件会产生open、modify、close_write和close事件,这样就触发4次全量同步,恐怖至极,因此此种方案最终被我放弃。 但对于同步代码这种文件数不多也是极快,特分享本如下:


#!/bin/bash

host02=10.104.162.233  #需要同步的目标主机2

#本地监听目录

src="/usr/local/apache-tomcat-6.0.39/webapps/"

 #同步的的rsync服务的模块名

dst="/usr/local/apache-tomcat-6.0.39/webapps/"       

 #rsync服务端认证用户

user=root      

rsync_passfile=/etc/rsyncd.pass   

inotify_home=/usr/local/inotify    

records="/scripts/logs/records.txt"

#judge

if [ ! -e "$src" ]
|| [ ! -e "${rsync_passfile}" ]
|| [ ! -e "${inotify_home}/bin/inotifywait" ]
|| [ ! -e "/usr/bin/rsync" ];

then

echo "Check File and Folder"

exit 9

fi

${inotify_home}/bin/inotifywait -mrq --timefmt ‘%d/%m/%y %H:%M‘ --format ‘%T %w %f %e‘  -e close_write,delete,create,attrib $src >>$records &

while true

do

        if [ -s $records ];then

                echo "-------$now_time--------" >>/var/log/rsync.log

                rsync  -avzc --exclude-from=/scripts/exclude.conf --delete $src [email protected]$host02:$dst >>/var/log/rsync.log

                if [ $? -ne 0 ];then

                        now_time=$(date "+%Y-%m-%d %H:%M:%S")

                        context="$now_time测试1同步到测试2失败"

                        recipients="[email protected]"

                        echo $context |mailx -s "rsync is error" $recipients

                fi

                cat /dev/null >/scripts/logs/records.txt

                #防止清空后,遗漏事件,再同步一次

                rsync  -avzc --exclude-from=/scripts/exclude.conf --delete $src [email protected]$host02:$dst >>/var/log/rsync.log

        else

                # 让循环休息1s,利于cpu

                sleep 1
        fi
done
exit 0

接着尝试了方案2:sersync,sersync由金山的一位同学开发,实际上是整合了在inotify和rsync上做了二次开发,对监听事件进行了过滤,并且同步时只同步单个文件或单个目录,对于数百万的文件或目录比较多的的情况,只用同步单个子目录而不是整个目录全部同步,并且支持多线程同步,也就是说可同时同步多个子目录,这样同步效率大大提高,并且达到实时同步,而不像方案1中每一次全量同步没完成时,新增文件也没同步,只能等下一次同步,没达到实时同步的效果。

海量文件同步推荐sersync

sersync下载

wget --no-check-certificate https://raw.githubusercontent.com/orangle/sersync/master/release/sersync2.5.4_64bit_binary_stable_final.tar.gz

2.配置sersync

<?xml version="1.0" encoding="ISO-8859-1"?>`

<head version="2.5">
    <host hostip="localhost" port="8008"></host>

    <debug start="start"/>

    <fileSystem xfs="false"/>

    <filter start="true">

        <exclude expression="^.glusterfs/*"></exclude>

    </filter>

    <inotify>

        <delete start="true"/>

        <createFolder start="true"/>

        <createFile start="false"/>

        <closeWrite start="true"/>

        <moveFrom start="true"/>

        <moveTo start="true"/>

        <attrib start="false"/>

        <modify start="false"/>

    </inotify>

    <sersync>

        <localpath watch="/data/brick1/Data">

            <remote ip="10.100.21.19" name="web_tomcat"/>

        </localpath>

        <rsync>

            <commonParams params="-artuz"/>

            <auth start="true" users="root" passwordfile="/etc/rsyncd.pass"/>

            <userDefinedPort start="false" port="874"/><!-- port=874 -->

            <timeout start="false" time="100"/><!-- timeout=100 -->

            <ssh start="false"/>

        </rsync>

        <failLog path="/tmp/rsync_fail_log.sh" timeToExecute="60"/><!--default every 60mins execute once-->

        <crontab start="true" schedule="600"><!--600mins-->

            <crontabfilter start="true">

                <exclude expression=".glusterfs/*"></exclude>

            </crontabfilter>

        </crontab>

        <plugin start="false" name="command"/>

    </sersync>

</head>

主要改下以上几项即可,.glusterfs是过滤的文件,此方法只能用rsync的daemon模式,也就是目标机得配置rsync daemon,不能rsync ssh方式。crontab定时任务每10小时,全量同步一次,为防止文件遗漏。

3.启动sersync

/usr/local/sersync/sersync2 -d -r -o /usr/local/sersync/confxml.xml

总结:经过实际检验,sersync的方式对海量文件同步速度快, 对我数百万的图片数据迁移,做到了实时同步,然后切换流量,几十G的数据无缝迁移完成。

原文地址:http://blog.51cto.com/jin544642965/2339314

时间: 2024-08-03 14:59:38

基于sersync海量文件实时同步的相关文章

windwos与linux基于inotify实现文件实时同步实战记录

cwRsync是基于cygwin平台的rsync软件包,支持windows对windows.windows对Linux.Linux对windows高效文件同步.由于CwRsync已经集成了cygwin类库,因此安装的时候可以省去cygwin包.Cwrsync还集成了OpenSSH for windows,可以实现Linux 下Rsync一模一样的操作.使用 cwRsync 来同步文件后,只需要对一台主服务器进行文件修改,其他镜像服务器可以自动同步,包括文件的更新.删除.重命名等. 正好符合我现在

rsync+sersync实现文件实时同步

一.准备 二.安装配置 三.启动 nohup /usr/local/sersync/sersync2 -r -d -o /usr/local/sersync/confxml.xml > /usr/local/sersync/rsync.log 2>&1 &

Rsync+inotify实现文件实时同步

数据备份.文件备份是运维.DBA等岗位最熟悉不过的话题,这里不介绍数据库的备份,简单介绍一下文件同步工具,这样的工具有很多,Windows环境下有Goodsync.FreeFileSync等,Linux下rsync.unison等,常用的实时同步,是几种工具的组合,经过组合的工具达到文件实时同步的效果. 一.常用实时同步方案 1.NFS网络文件系统 该方案是分布式架构中,解决不同节点对同一资源访问的问题,搭建NFS服务器,将其挂载在不同的节点,每个节点将公用的数据存储在NFS服务器上,实现文件的

rsync+inotify-tools文件实时同步

rsync+inotify-tools文件实时同步案例 全量备份 Linux下Rsync+sersync实现数据实时同步完成. 增量备份 纯粹的使用rsync做单向同步时,rsync的守护进程是运行在文件推送的服务器上,而接收的服务器是运行rsync客户端.使用sersync做文件实时同步刚好相反,用于接收文件的服务器运行rsync守护进程.

Linux下Rsync+sersync实现数据实时同步

inotify 的同步备份机制有着缺点,于是看了sersync同步,弥补了rsync的缺点.以下转自:http://www.osyunwei.com/archives/7447.html 前言: 一.为什么要用Rsync+sersync架构? 1.sersync是基于Inotify开发的,类似于Inotify-tools的工具 2.sersync可以记录下被监听目录中发生变化的(包括增加.删除.修改)具体某一个文件或某一个目录的名字,然后使用rsync同步的时候,只同步发生变化的这个文件或者这个

Rsync+sersync实现数据实时同步

前言: 一.为什么要用Rsync+sersync架构? 1.sersync是基于Inotify开发的,类似于Inotify-tools的工具 2.sersync可以记录下被监听目录中发生变化的(包括增加.删除.修改)具体某一个文件或某一个目录的名字,然后使用rsync同步的时候,只同步发生变化的这个文件或者这个目录. 二.Rsync+Inotify-tools与Rsync+sersync这两种架构有什么区别? 1.Rsync+Inotify-tools (1):Inotify-tools只能记录

(转)Linux下通过rsync与inotify(异步文件系统事件监控机制)实现文件实时同步

Linux下通过rsync与inotify(异步文件系统事件监控机制)实现文件实时同步原文:http://www.summerspacestation.com/linux%E4%B8%8B%E9%80%9A%E8%BF%87rsync%E4%B8%8Einotify%E5%BC%82%E6%AD%A5%E6%96%87%E4%BB%B6%E7%B3%BB%E7%BB%9F%E4%BA%8B%E4%BB%B6%E7%9B%91%E6%8E%A7%E6%9C%BA%E5%88%B6%E5%AE%9E

linux rsync远程同步+sersync+rsync实现实时同步

rsync是什么 rsync全称Remote Sync ,远程同步,是Linux/UNIX系统下的文件同步和数据传输工具,数据备份,它采用了"rsync算法"使一个客户机和远程文件服务器之间的文件同步. 作用 可以将同一个服务器的数据从一个分区备份到另一个分区,也可以将本地系统的数据通过网络传输方式备份到任何一个远程主机上: 优点 rsync可以在中断后恢复传输 rsync的功能特性 可以镜像保存整个目录树和文件系统:可以增量同步数据,文件传输效率高,因而同步时间很短:可以保持原文件的

sersync 配合rsync实时同步备份

sersync 配合rsync实时同步备份 sersync是基于Inotify开发的,类似于Inotify-tools的工具,基本上Inotify能实现的功能,sersync也具备,因此,sersync 也可以实时监听目录中发生变化的(包括增加.删除.修改) sersync 配合rsync实时同步备份 1. sersync 介绍 2. 部署rsync daemon 3. 安装sersync sersync 配合rsync实时同步备份 1. sersync 介绍 sersync是基于Inotify