小白学习大数据测试之主流程和关键步骤

转发是对小编的最大支持

万变不离其宗,不论是什么测试ta的主流程基本都是一样的,就是我们刚开始学习测试的那一套流程。也许你会觉得简单,但你要明白,无规不成方圆,有时候没有推行好或者结果不好不一定是因为技术不行,也许是没有好的流程。就好像,一辆汽车的生产,如果没有好的流程你觉得最终出来的汽车质量会好吗?

明白这个道理之后,我们就先来看看大数据测试的主流程是个神马样子的。

  • 需求分析。这步考虑的越全面那么后续问题就会越少。
  • 测试计划。此处省略N个字。
  • 测试用例编写与评审。可以从数据库层面和页面层面考虑。这里要注意,虽然是大数据测试但也要保证页面功能的正确性啊(嗯,测试确实是个苦逼的活儿)
  • 执行测试。这块可以分享一些小建议,对于一些频繁迭代更新的我们还是以手工测试为主,工具验证为辅;对于一些较为稳定的,则可以通过UI、接口、SQL等方法进行验证。
  • 线上验收测试。
  • 测试总结。这步也是很多团队忽略的。其实测试很多的价值挖掘都在这步实现的哦。在《小强软件测试疯狂讲义》一书中详细讲解过。

知道主流程之后我们就来看看重点,在大数据测试中的关键步骤,这也是和传统数据库测试的区别。

1、pre-Hadoop阶段验证(预处理验证阶段),主要是对输入的数据进行处理并存储到hdfs上。

在这个阶段可能由于各种原因造成数据不正确,一般要进行如下的测试:

输入文件与源文件对比,保证正确性

根据需求确认获得数据的正确性

验证正确的文件被存入HDFS且被分割、复制到不同的节点

2、MapReduce验证阶段

当文件存入HDFS之后就要通过MapReduce进行处理了。这个阶段可能出现的问题包括但不限于编码不对、节点配置错误、聚合不正确、输出格式不对等问题。一般需要进行如下的测试:

MapReduce进程正常工作

数据处理完成,输出文件正确

验证map时生成的key-value是否正确

验证reduce结束后聚合是否正确

输出格式是否符合要求

3、输出阶段验证

此阶段主要是生成处理过的最终数据文件以及存放到数据仓库。一般需要进行如下的测试:

检查转换规则被正确应用

检查数据加载到目标系统中且完整

通过将目标数据与HDFS文件系统数据进行比较来检查没有数据损坏

这些过程中,你可以通过Hive得到分析报告来做进一步的验证。

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

你一定觉得是天书,各种不清楚,但是没关系,先做了解和记忆,等后续随着知识的积累自然就明白了,学习就是这样的,需要一个过程,不能太强求。

最后放一张图,总结上面的内容(一图胜千言)

其中ETL其实就是数据的处理、清洗、转换等,具体见文章《ETL大数据测试介绍》

原文地址:http://blog.51cto.com/xqtesting/2060921

时间: 2024-08-03 09:57:18

小白学习大数据测试之主流程和关键步骤的相关文章

小白学习大数据测试之ETL

之前发布过一篇关于ETL的文章,无奈被人说太简单....唉,小编也是刚接触啊,自然不能那么高深,所以只是对学习的过程做了记录转换为文章分享给大家,如果对你有帮助,不要吝啬点赞+转发,如果对你没有帮助,那就请转身离开....或者你写一篇更详细的给我,我申请红包给你(邪恶的笑~) 好啦,回归正题,这次作为补充在详细介绍下.ETL是什么?其实ta指的是一个过程,就是大数据中对数据处理的过程(抓取>转换>装载),并不是一个技术! 小编也是慢慢的学习大数据测试的知识,一直有个问题也困扰着我,就是怎么能判

小白学习大数据测试之hadoop初探

Hadoop的历史 这里就不多说了,网上很多资料,总而言之对于hadoop谷歌和雅虎对于ta的贡献功不可没.更多介绍请自行查看这里:https://baike.baidu.com/item/Hadoop/3526507?fr=aladdin Hadoop的应用场景 数据分析,如日志系统.推荐系统 离线计算 海量数据存储 Hadoop的核心 Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算. 这里特别需要注

小白学习大数据测试之揭秘大数据的背景与发展

大数据是个神马鬼 根据麦肯锡全球研究所给出的定义是:一种规模大到在获取.存储.管理.分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模.快速的数据流转.多样的数据类型和价值密度低四大特征. 简单点说就是指无法在一定时间范围内用传统的计算机技术进行处理的海量数据集. 大数据市场前景 阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技,显示大数据对于阿里巴巴集团来说举足轻重. 当前医疗行业.能源行业.通

湿货|小白学习大数据测试之Hive和Hbase

作为初学者经常会对Hive和Hbase产生疑问,不知道两者是干啥的,有啥区别,总觉得都是存储数据的.其实他们还真是有本质区别的,请听我慢慢道来~ Hbase是nosql数据库,以key-value形式存储数据的,主要用于海量数据的实时查询,比如日志信息. Hive是数据仓库,而非数据库,主要是用来解决数据处理.计算的.开发人员能够通过SQL来计算和处理HDFS上的结构化数据,适用于离线的批量数据计算 两者一般都是配合使用的,为了方便大家理解我简单画了下数据流图. 最后来一点小科普: 数据处理大致

小白学习大数据掌握这几个方法轻松入门

有很多学习大数据的朋友,在初期学习时,通常会对如何学习而感到迷茫.我经常在知乎上收到朋友关于如何入门.如何规划学习大数据.大数据的学习流程是什么的一些问题.今天我就粗浅的总结几点学习大数据方法. 一.兴趣建立 兴趣是可以让一个人持续关注一个事物的核心动力,那么兴趣的培养就非常重要了.如果你把写程序单纯作为赚钱手段,久而久之疲劳感会越来越强,会给今后的工作和生活带来很大的压力. 那么如何建立起对大数据的兴趣呢? 相信大家都有自己的兴趣爱好,而大数据的应用恰恰非常广泛,总能找到与你兴趣点符合的应用.

大数据学习|小白学习大数据需要满足这六个条件你就能学好大数据

有很多学习大数据的朋友,在初期学习时,通常会对如何学习而感到迷茫.我经常收到零基础的朋友关于如何入门.如何规划学习大数据.大数据的学习流程是什么的一些问题.今天我就粗浅的总结几点学习大数据方法. 大数据学习资料分享群119599574一.兴趣建立 兴趣是可以让一个人持续关注一个事物的核心动力,那么兴趣的培养就非常重要了.如果你把写程序单纯作为赚钱手段,久而久之疲劳感会越来越强,会给今后的工作和生活带来很大的压力. 那么如何建立起对大数据的兴趣呢? 相信大家都有自己的兴趣爱好,而大数据的应用恰恰非

小白学习大数据掌握这几个方法可轻松入门

有很多学习大数据的朋友,在初期学习时,通常会对如何学习而感到迷茫.我经常在知乎上收到朋友关于如何入门.如何规划学习大数据.大数据的学习流程是什么的一些问题.今天我就粗浅的总结几点学习大数据方法. 一.兴趣建立 兴趣是可以让一个人持续关注一个事物的核心动力,那么兴趣的培养就非常重要了.如果你把写程序单纯作为赚钱手段,久而久之疲劳感会越来越强,会给今后的工作和生活带来很大的压力. .在入门学习大数据的过程当中有遇见学习,行业,缺乏系统学习路线,系统学习规划,欢迎你加入我的大数据学习交流裙:52986

大数据开发经验分享:学习大数据开发的方法

学习新的知识,最重要的就是学习方法,有一个好的学习方法会起到事半功倍的效果.学习大数据开发的方法有哪些? 一.学会爱数据数据科学是一个广泛而模糊的领域,这使得它很难学习.没有动力,你最终会中途停止对自己失去信心.你需要些东西来激励你不断学习,即使是在半夜公式已经开始变的模糊,你还是想探究关于神经网络的意义.对于小白学习大数据需要注意的点有很多,但无论如何,既然你选择了进入大数据行业,那么便只顾风雨兼程.正所谓不忘初心.方得始终,学习大数据你最需要的还是一颗持之以恒的心. 二.在实践中学习学习神经

大数据为什么这么火?小白该如何去学习大数据

学习大数据之前,我们首先要知道的就是: 1.什么是大数据? 2.大数据是做什么的? 3.大数据就业领域,就业形势是怎么样的? 4.等明确以上三点之后,就可以开始着手学习大数据 要确定学习线路,零基础编程基础的小白怎么去学习? 仔细阅读完本文,你需要花大概20分钟 很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解. 第一:什么是大数据,大数据的作用 现代科技高速发展,一方面给人们生活带来了便利:另一方面也给人们工作.生活