分享一个百万数量级的测试学习用的mysql数据集

TEST_DB

带有集成测试套件的示例数据库,用于测试应用程序和数据库服务器

此存储库已从Launchpad迁移。

请参阅MySQL文档中的用法

它来自哪里

原始数据由西门子企业研究中心的Fusheng Wang和Carlo Zaniolo创建。数据采用XML格式。http://timecenter.cs.aau.dk/software.htm

Giuseppe Maxia制作了关系模式,Patrick Crews以关系格式导出数据。

该数据库包含大约300,000个员工记录,其中包含280万个工资条目。导出数据是167 MB,这不是很大,但是足够重,不足以进行测试。

生成了数据,因此存在不一致和微妙的问题。我们决定不更改内容,而是将其删除,并将这些问题用作数据清理练习。

先决条件

您需要一个MySQL数据库服务器(5.0+)并通过具有以下权限的用户运行以下命令:

SELECT, INSERT, UPDATE, DELETE,
CREATE, DROP, RELOAD, REFERENCES,
INDEX, ALTER, SHOW DATABASES,
CREATE TEMPORARY TABLES,
LOCK TABLES, EXECUTE, CREATE VIEW

安装:

  1. 下载存储库
  2. 将目录更改为存储库

然后跑

mysql < employees.sql

如果要使用两个大型分区表进行安装,请运行

mysql < employees_partitioned.sql

测试安装

安装后,您可以运行以下之一

mysql -t < test_employees_md5.sql
# OR
mysql -t < test_employees_sha.sql

例如:

mysql  -t < test_employees_md5.sql
+----------------------+
| INFO                 |
+----------------------+
| TESTING INSTALLATION |
+----------------------+
+--------------+------------------+----------------------------------+
| table_name   | expected_records | expected_crc                     |
+--------------+------------------+----------------------------------+
| employees    |           300024 | 4ec56ab5ba37218d187cf6ab09ce1aa1 |
| departments  |                9 | d1af5e170d2d1591d776d5638d71fc5f |
| dept_manager |               24 | 8720e2f0853ac9096b689c14664f847e |
| dept_emp     |           331603 | ccf6fe516f990bdaa49713fc478701b7 |
| titles       |           443308 | bfa016c472df68e70a03facafa1bc0a8 |
| salaries     |          2844047 | fd220654e95aea1b169624ffe3fca934 |
+--------------+------------------+----------------------------------+
+--------------+------------------+----------------------------------+
| table_name   | found_records    | found_crc                        |
+--------------+------------------+----------------------------------+
| employees    |           300024 | 4ec56ab5ba37218d187cf6ab09ce1aa1 |
| departments  |                9 | d1af5e170d2d1591d776d5638d71fc5f |
| dept_manager |               24 | 8720e2f0853ac9096b689c14664f847e |
| dept_emp     |           331603 | ccf6fe516f990bdaa49713fc478701b7 |
| titles       |           443308 | bfa016c472df68e70a03facafa1bc0a8 |
| salaries     |          2844047 | fd220654e95aea1b169624ffe3fca934 |
+--------------+------------------+----------------------------------+
+--------------+---------------+-----------+
| table_name   | records_match | crc_match |
+--------------+---------------+-----------+
| employees    | OK            | ok        |
| departments  | OK            | ok        |
| dept_manager | OK            | ok        |
| dept_emp     | OK            | ok        |
| titles       | OK            | ok        |
| salaries     | OK            | ok        |
+--------------+---------------+-----------+

免责声明

据我所知,这些数据是伪造的,并不符合真实的人。与现有人的任何相似之处纯属巧合。

源地址: https://github.com/datacharmer/test_db

原文地址:https://www.cnblogs.com/wangbaojun/p/11154515.html

时间: 2024-10-13 02:37:40

分享一个百万数量级的测试学习用的mysql数据集的相关文章

分享一个 Excel 做的三国杀 游戏 ,想学EXCEL的绝对受用。

分享一个  Excel 做的三国杀 游戏 ,想学EXCEL的绝对受用. 下载地址: http://www.400gb.com/file/81315129  ,保证无毒.

一个测试经理的分享:我是如何管理测试团队的

很多刚从测试人员转向测试管理岗的同学,肯定会有很多疑惑,不知如何下手 且一时观念无法转变 到底该如何管理测试团队? 很多同行已经写过N多类型专题文章 今天老徐主要分享自己的经验,以及老徐是如何管理测试团队的 仅个人经验分享 可参考.欢迎点评 --正文-- 测试管理,范围很广 带1-2人也是管理 带几十人也是管理 但是管理方法肯定会不一样 今天分享10人左右的测试团队,老徐是如何管理的 1. 首先,根据业务情况,或者项目情况,拆分成几个测试小组: 每个组,有一个测试负责人 老徐只需直接管理每个组的

我的2015测试之路 ——做一个很有想法的测试

我的2015测试之路 ——做一个很有想法的测试 不记得有多少次了,总是说等什么时候闲了,就回过头看看这一路跋涉.风尘仆仆的自己.可每次都只是想想而已,即使真的闲下来了,却又不太愿意剥开自己的心,怕看了会伤感.又怕看了会觉得失望,可能是我没有成为,当初那个我想要成为的样子吧.是该对自己说一句对不起了.对不起,我深爱的自己! 人们总是在歌谣里哀求时光慢些,不要再让亲人变老了.但它总也是不听话,于是2015年终究是被推进了历史.现在我们只能在回忆和指尖怀念2015了,诚然,2015对我们每个人来说都是

分享一个几年前写的代码生成器

该界面设计部分来自网络.版权归原作者所有. 该工具没有做完成.我只是学习用的.主要是为了熟悉Devexress控件的使用. 1系统主界面 2系统代码生成 3生成的详细代码查看 4该工具写的不是很智能. 如下生成WCF服务契约代码: 1 public class CreateWcfService 2 { 3 4 public static string GreateWcFserviceContract(List<Model> list) 5 { 6 var strsb = new StringB

对比学习用 Keras 搭建 CNN RNN 等常用神经网络

Keras 是一个兼容 Theano 和 Tensorflow 的神经网络高级包, 用他来组件一个神经网络更加快速, 几条语句就搞定了. 而且广泛的兼容性能使 Keras 在 Windows 和 MacOS 或者 Linux 上运行无阻碍. 今天来对比学习一下用 Keras 搭建下面几个常用神经网络: 回归 RNN回归 分类 CNN分类 RNN分类 自编码分类 它们的步骤差不多是一样的: [导入模块并创建数据] [建立模型] [定义优化器] [激活模型] [训练模型] [检验模型] [可视化结果

分享一个MySQL分库分表备份脚本(原)

分享一个MySQL分库备份脚本(原) 开发思路: 1.路径:规定备份到什么位置,把路径(先判断是否存在,不存在创建一个目录)先定义好,我的路径:/mysql/backup,每个备份用压缩提升效率,带上时间方便整理 2.取数据库:抓取数据库名称,我用的awk和grep配合取数据库的名称(如果想按照表备份可以再细化一下)注意要用mysql -e选项 这样才能做成脚本 3.系统环境变量:因为用到了函数,所以非系统内置的命令 最好在脚本里面用 . /etc/profile  把系统当前的环境变量传过来

学习用5W1H来管理自己的项目/工作

学习用5W1H来管理自己的项目/工作 ? 最近开始需要系统化的思维模型,这只是一个开始,一下用脑图的形式来简介5W1H的具体内容: 先写xmind思维树的文本导出,后面附上图片.^ _ ^ 5W1H ????WHAT? ????????首先定义是什么? ????????5W1H分析法是一种分析问题的方法,在解决问题时可以得到广泛的应用 ????????内容包括What?.where?.when?.who?.why?.how? ????WHERE? ????????用在哪里? ????????管理

分享一个搭建流量频道的经历

最近接触了一个很小众的行业,行业本身的搜索流量很小.朋友来问我SEO该怎么做. 于是有了这次经历,目前各项数据都还在测试观察中.好了开始. 仔细研究了一下他所在的行业,发现虽然是一个新兴的小众的行业,但是能跟娱乐类的信息扯上关系.于是准备搭建一个明星资料库来引入一批流量.由于这个朋友是技术出身,技术也比较牛,于是几乎把想到的东西都实现了. 首先从词库入手,既然是搭建明星资料库,那么从获取明星名字开始,这个从很多软件或者网站上都能够直接跑出来!经过对部分歌手的抽样分析,发现稍微热门一点的歌手,基本

分享一个批量导出当前实例下的所有linkedserver脚本

原文:分享一个批量导出当前实例下的所有linkedserver脚本 分享一个批量导出当前实例下的所有linkedserver脚本 很多时候,我们都需要导出实例下面的登录用户,job,linkedserver等等 导出job比较复杂,下午写了一个脚本把所有的linkedserver导出来,但是密码不会显示出来 下面脚本在SQL2008 R2下面测试通过 -- ============================================= -- Author: <桦仔> -- Blog