大数据测试笔记（1）-测试的3条建议

大数据，咋一听起来都觉得很神秘，很高大上，从2013年开始听得越来越多，什么数据挖掘，数据分析、机器学习、算法，让我等听起来天马行空，雾里看花，有幸接触到了大数据项目，让我拨开云雾，原来大数据其实简单，真的简单，大量数据嘛，就是我们说的大数据，基于数据分析，获得有价值的信息。

目前我理解大数据，有数据采集、数据存储、数据分析、数据应用，前两者是基础，后两者是价值，采集存储数据不是目的，利用数据分析有价值的信息，才是我们选择的。

我们不展开聊，作为测试，我关心的是我要测试什么，如何测试，怎么衡量产品的质量情况，拿数据采集来说，从文本、mysql数据库、oracle数据、接口等，采集数据，然后经过清洗，存在hdfs、hbase、solr、es等等位置，该如何做，需要注意什么？

建议三步：

1、学习知识点

虽然我们不是开发，但是作为大数据的测试，我们必须掌握编程能力，java和python、shell三者是少不了的，另外从hadoop、hdfs、hbase、solr、hive、hue、sqoop、flume、kafka、zookeeper、YARN、oozie、spark等基本的原理和api是必须学习和了解的，这些是我们和研发沟通、是我们自己测试的必要条件，有这些知识，我们才能明白自己测什么，怎么测，哪里有风险，才有信心。

2、开发小工具

如果说这个数据有3条，我可能人为处理，如果要我制造10G有格式要求的数据，我想我还是选择自己开发个小工具。做大数据测试，给自己开发合适的工具，才能事半功倍，才能降低测试的复杂度，才能更准确的测试。

3、调整思维

常规的测试，都是开发完了，提测，然后测试开始测试，作为大数据，很多场景是无法模拟的，比如数据采集时候出现异常，导致数据采集重置，这样的场景人为模拟很难搞定，这时候我们更需要调整思维，和研发一起探讨实现的逻辑，分析逻辑判断是否有bug，和研发一起做单元测试，做日志埋点策略。另外，时间是宝贵的，我们要尽力提高效率，比如我们针对部署做了一键化部署，研发测试都使用，分布式部署再也不是问题了，比如我们提前根据接口文档，写好接口脚本，快速测试，或者利用脚本做测试数据等等，但是千万别陷入到自动化测试的坑里面了，能则用，不能则选择用。