数据表迁移数据一致性验证

  在迁移数据库的时候做一些必要的验证还是很有用的,比如说迁移前后的数据条数是否一致,数据是否一致,这个时候怎么办呢,验证条数还好说,要是验证数据是否一致呢,对于重要的数据当然要每条都不会有差错,随机抽样验证肯定是不行的,万一遗漏了就麻烦了,而且两张表不再同一台服务器上。这个时候该怎么办呢,有一种方法:

  1. 从表中选取几个重要字段,比如说A、B、C,用这几个字段作为比对的标尺。
  2. 从原表中导出每条数据的这三个字段到一个文件f1中。
  3. 从目的表中到处每条数据的这三个字段到文件f2中。
  4. 比对文件f1、f2文件中的每条数据是否相同。
  5. 得出结论

  上面这种方法是同时想出来的,也还不错,但我觉得还有改进的余地:

  • 首先就是不是所有字段,仍然有可能在非主要字段出现different。
  • 整体效率比较低

  我的想法是这样:

  1. 对表中的每n条数据进行拼接(直接连接起来,n取值取决于每条数据的数据量大小)。
  2. 计算这n条数据的md5值,添加到文件f1中,直到所有数据取值完成。
  3. 对目的表也一样,记录的文件f2中。
  4. 比对文件f1、f2文件的md5值,如果一致,ok,成功。
  5. 如果不一致,从上倒下比对每条md5值,找到第m条不一致。
  6. 得出结论,不一致的数据在m*(n-1)+1 ~ m*n之间,可以再次选择定位。

  第二种方法的好处就是输出文件会在一定范围缩小,比对方便,但是也有缺点,不能像第一种方法一样直接通过关键字段定位不同数据的位置。

  下面是第二种方法效果和的具体代码实现:

<?php
/**
 * 使用方法:
 * php -f mysql_diff.php 	yes 			dir 						10
 * 		               		是否计算条数	是否计算输出d5并保存到文件	合并数据的级别
 *
 */
if(php_sapi_name() != ‘cli‘)
{
	die("请在CLI模式下运行");
}

array_shift($argv);
if(empty($argv))
{
	die("at letase contain one info");
}

$is_count = array_shift($argv);
$is_md5 = empty($argv) ? false : array_shift($argv);
$conbine_num = empty($argv) ? 1 : intval(array_shift($argv));
if($is_md5 && !is_dir($is_md5) && !mkdir($is_md5, 777, true))
{
	die("error info : md5 info must be input to a file");
}
$dbinfos = array(
	‘host‘ => ‘localhost‘,
	‘port‘ => ‘3306‘,
	‘user‘ => ‘root‘,
	‘pswd‘ => ‘123456‘,
	‘charset‘ => ‘utf8‘,
	‘tables‘ => array(
		‘lagou.pos‘,
		‘lagou.pos_innodb‘,
	),
);

//验证格式
if(!$link = mysql_connect($dbinfos[‘host‘].":".$dbinfos[‘port‘],$dbinfos[‘user‘], $dbinfos[‘pswd‘]))
{
	die("connect to [{$host}@{$port}] failed!!");
}

if(!mysql_query("set names {$dbinfos[‘charset‘]}"))
{
	die("set charset error : ".mysql_error());
}

foreach ($dbinfos[‘tables‘] as $table)
{
	if($is_count)
	{
		$sql = "select count(*) as nums from {$table}";

		$ret = mysql_query($sql);
		if(!$ret)
		{
			die("error : ".mysql_error());
		}
		$ret = mysql_fetch_array($ret, MYSQL_ASSOC);
		echo "{$table} : {$ret[‘nums‘]}\n";
	}

	if($is_md5)
	{
		$path = $is_md5.DIRECTORY_SEPARATOR.$table;
		$sql = "select * from {$table}";
		$ret = mysql_query($sql);
		$flag = 0;
		$fields = ‘‘;
		while ($_ret = mysql_fetch_array($ret, MYSQL_NUM)) {
			$flag++;
			while($_ret)
			{
				$fields .= array_pop($_ret);
			}
			if($flag % $conbine_num == 0)
			{
				file_put_contents($path, md5($fields)."\n", FILE_APPEND);
				$fields = ‘‘;
			}
		}
		if($flag % $conbine_num != 0 && $flag > 0)
		{
			file_put_contents($path, md5($fields)."\n", FILE_APPEND);
		}
		echo "save to file info : ".realpath($path)."\n";
	}
}

  

时间: 2024-07-29 17:43:55

数据表迁移数据一致性验证的相关文章

针对数据量较大的表,需要进行跨库复制,采用navcat 实现sqlite数据库跨数据库的数据表迁移 [转载]

2014年12月13日 14:36 新浪博客 (转自http://www.cnblogs.com/nmj1986/archive/2012/09/17/2688827.html) 需求: 有两个不同的SQLite数据库 A.B,需要将B数据库中的表复制到A数据库中去,数据量较小的时候,可以在数据库可视化工具Navicat中直接将表导成.sql文件,然后将sql文件在另一个数据库运行即可.但是当数据量较大时,这样操作会丢失一部分数据.因此针对这种情况可采用下述方法: 解决办法: (1)使用软件:S

vertica从其他表迁移数据到新表(insert into 语句用法实例)

前面一篇开始学习solr的时候,做了个入门的示例http://blog.csdn.net/zjc/article/details/24414271 .虽然可以检索出内容,但总和想象的结果有差异--比如,检索"天龙"两个字,按常规理解,就应该只出来<天龙八部>才对,可是竟然也会把<倚天屠龙记>检出来.后来研究了一下,发现系统是这样处理的:无论是抽索引时还是分析检索词时,都把所有文字按单字拆开.这样,刚好<倚天屠龙记>里包含"天"和&

oracle 的一个大数据表 快速迁移到 Sqlserver2008数据库

"-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> oracle 的一个大数据表 快速迁移到 Sqlserver2008数据库 - HappyBinhaer的专栏 - 博客频道 - CSDN.NET HappyBinhaer的专栏 目录视图 摘要视图 订阅 [活动]2017 CSDN博客专栏评选 &nbsp [5月书讯

定制Asp.NET 5 MVC内建身份验证机制 - 基于自建SQL Server用户/角色数据表的表单身份验证

背景 在需要进行表单认证的Asp.NET 5 MVC项目被创建后,往往需要根据项目的实际需求做一系列的工作对MVC 5内建的身份验证机制(Asp.NET Identity)进行扩展和定制: Asp.NET内建的身份验证机制会使用Local DB(本地数据库)读写用户相关的信息,而在数据库驱动的项目中,管理业务信息的数据库通常是特定的数据库环境,比如远程SQL Server数据库实例或Access数据库等等,业务数据库中保存着一系列针对业务需求的数据表,因此需要定制MVC 5内建身份验证,使其操作

Validform和aui2.0结合使用的表单自定义验证提示和列表页异步获取数据Demo

二.添加自定义验证演示       Validform验证提示大多都是在输入框或下拉框的右边或下面.感觉就是不美观,特别是表单字段少的时候,这种在相应对象旁边的提示就没必要了,      它会给人一种不友好的感觉(只是自己的感觉).所以下面写了三种添加演示,希望大家能给出建议,以免下次用起来纠结,不知道用哪种好.        表单验证插件是我们经常使用的Validform_v5.3.2_min.js.先上添加1演示的表单验证js代码,这里我设置了点击提交按钮后才验证.其他添加演示的区别不大,详

【oracle11g,14】表空间管理3:临时表空间,表空间的脱机和只读,数据文件迁移,更改表空间数据文件的大小,表空间数据文件的迁移,使用非标准块的表空间,bigfile 表空间

一.临时表空间: 如果临时表空间不足会报ora-1652错误. 二.什么时候使用临时表空间: 排序和分组 索引create或rebuild order by 或group by distinct 操作 union或intersect或minus sort-merge joins analyze 用于排序.分组.索引等操作,在pga中的sort_area中排序,会将排序的中间结果存放到临时表空间中,如果想提高排序的效率可以提高sort_area_size参数值. 临时表空间不能存放持久化对象,推荐

mysql5.7 InnoDB数据表空间文件平滑迁移

[ERROR] [FATAL] InnoDB: Tablespace id is 14 in the data dictionary but in file ./mysql/innodb_index_stats.ibd it is 696! --先测试直接把.ibd文件拷贝过去   (这种方法失败,因为tablespace_id不一致) mysqld_safe --defaults-file=/usr/my-new.cnf &    --启库 总结: 对于innodb每个表都有各自的表空间来说,

验证一个值是否已经存在数据表中

前几天Insus.NET有写过一篇<angularjs自定义指令Directive>http://www.cnblogs.com/insus/p/6908815.html 仅是在程序中指定某些来值来匹配. 为你的数据表准备一个存储过程: 判断是否已经存在此值.只需写SELECT语句.如果没有记录返回,它将返回null. 有ASP.NET MVC程序中,创建model: 还要创建一个实体方法,是程序与数据协作与沟通的: 程序逻辑部分,还要写一个接口,供前端angularjs去读取: 返回给前端e

★★JSP+Struts+Mysql构建的MVC三层框架对一张数据表的CURD

项目实现流程 大体流程:搭建环境 à 开发后台 à 开发前台 建立工程(struts2CURD),拷贝jar包,建立struts.xml文件,搭建环境 建立数据库和数据源配置:dbcpconfig.properties 建立db.sql:里面全是数据库操作的一些语句 建立操作数据库的工具:*.util:DBCPUtil.java,用于加载数据源.getDataSource(); *.Domain:User.java 继承ActionSupport,实现Serializable接口. ????写好