大数据测试类型&大数据测试步骤

大数据是一个大的数据集合,通过传统的计算技术无法进行处理。这些数据集的测试需要使用各种工具、技术和框架进行处理。大数据涉及数据创建、存储、检索、分析,而且它在数量、多样性、速度方法都很出色。

什么是大数据?

大数据是一个大的数据集合,通过传统的计算技术无法进行处理。这些数据集的测试需要使用各种工具、技术和框架进行处理。大数据涉及数据创建、存储、检索、分析,而且它在数量、多样性、速度方法都很出色。

大数据测试类型

测试大数据应用程序更多的是验证其数据处理,而不是测试软件产品的个别功能。当涉及到大数据测试时,性能和功能测试是关键。

在大数据测试中,QA工程师使用集群和其他组件来验证对TB级数据的成功处理。因为处理非常快,所以它需要高水平的测试技能。处理可以是三种类型:批量、实时、交互。

与此同时,数据质量也是大数据测试的一个重要因素。在测试应用程序之前,有必要检查数据的质量,并将其视为数据库测试的一部分。它涉及检查各种字段,如一致性,准确性,重复,一致性,有效性,数据完整性等。

大数据测试步骤

下图给出了测试大数据应用程序阶段的高级概述:

大数据测试实现被分成三个步。

Step 1:数据阶段验证

大数据测试的第一步,也称作pre-hadoop阶段该过程包括如下验证:

?  来自各方面的数据资源应该被验证,来确保正确的数据被加载进系统
?  将源数据与推送到Hadoop系统中的数据进行比较,以确保它们匹配
?  验证正确的数据被提取并被加载到HDFS正确的位置

该阶段可以使用工具Talend或Datameer,进行数据阶段验证。

Step 2:"MapReduce"验证

大数据测试的第二步是MapReduce的验证。在这个阶段,测试者在每个节点上进行业务逻辑验证,然后在运行多个节点后验证它们,确保如下操作的正确性:

?  Map与Reduce进程正常工作
?  在数据上实施数据聚合或隔离规则
?  生成键值对
?   在执行Map和Reduce进程后验证数据

Step 3:输出阶段验证

大数据测试的最后或第三阶段是输出验证过程。生成输出数据文件,同时把文件移到一个EDW(Enterprise Data Warehouse:企业数据仓库)中或着把文件移动到任何其他基于需求的系统中。在第三阶段的活动包括:

?  检查转换(Transformation)规则被正确应用
?   检查数据完整性和成功的数据加载到目标系统中
?  通过将目标数据与HDFS文件系统数据进行比较来检查没有数据损坏

架构测试

Hadoop处理大量的数据,并且是非常耗费资源的。因此,架构测试对于确保您的大数据项目的成功至关重要。系统设计不当或设计不当可能导致性能下降,系统不能满足要求。至少,性能和故障转移测试服务应该在Hadoop环境中完成。

性能测试包括测试作业完成时间,内存使用率,数据吞吐量和类似的系统指标。而故障转移测试服务的动机是为了验证在数据节点发生故障的情况下数据处理是否无缝地发生

性能测试

大数据性能测试包括两个主要的行动

数据采集??和整个过程:在这个阶段,测试人员验证快速系统如何消耗来自各种数据源的数据。测试涉及识别队列在给定时间框架内可以处理的不同消息。它还包括如何快速将数据插入到底层数据存储中,例如插入到Mongo和Cassandra数据库中。

数据处理:它涉及验证执行查询或映射缩减作业的速度。它还包括在底层数据存储填充到数据集中时独立测试数据处理。例如,在底层HDFS上运行Map Reduce作业

子组件性能:这些系统由多个组件组成,而且必须单独测试每个组件。例如,消息的索引和消费速度有多快,mapreduce作业,查询性能,搜索等

性能测试方法

大数据应用性能测试涉及大量结构化和非结构化数据的测试,并且需要特定的测试方法来测试这些海量数据。

性能测试按此顺序执行

?  过程从设置要测试性能的大数据群集开始
?  确定和设计相应的工作量
?  准备个人客户(自定义脚本创建)
?  执行测试并分析结果(如果不满足目标,则调整组件并重新执行)
?  最佳配置

性能测试的参数

性能测试需要验证的各种参数

?  数据存储:数据如何存储在不同的节点中
?  提交日志:允许增长的提交日志有多大
?  并发性:有多少个线程可以执行写入和读取操作
?  缓存:调整缓存设置“行缓存”和“键缓存”。
?  超时:连接超时值,查询超时值等
?  JVM参数:堆大小,GC收集算法等
?  地图降低性能:排序,合并等
?  消息队列:消息速率,大小等

测试环境需求

测试环境需求取决于您正在测试的应用程序的类型。对于大数据测试,测试环境应该包含

?  它应该有足够的空间来存储和处理大量的数据
?  它应该有分布式节点和数据的集群
?  它应该有最低的CPU和内存利用率,以保持高性能

大数据测试面临的挑战

自动化

大数据的自动化测试需要具有技术专长的人员。另外,自动化工具不具备处理测试过程中出现的意外问题的能力

虚拟化

这是测试的一个不可缺少的阶段。虚拟机延迟会在实时大数据测试中造成计时问题。在大数据中管理图像也是一件麻烦事。

大数据集

?  需要验证更多的数据,并需要更快地完成
?  需要自动化测试工作
?  需要能够跨不同的平台进行测试

性能测试挑战

?  多种技术组合:每个子组件属于不同的技术,需要单独测试
?  不可用的特定工具:没有一个工具可以执行端到端的测试。例如,NoSQL可能不适合消息队列
?  测试脚本:需要高度的脚本来设计测试场景和测试用例
?  测试环境:数据量大,需要特殊的测试环境
?  监控解决方案:存在有限的解决方案,可以监控整个环境
?  诊断解决方案:需要定制解决方案来深入了解性能瓶颈区域

概要

?  随着数据工程和数据分析技术的不断进步,大数据测试是不可避免的。
?  大数据处理可以是批处理,实时或交互式处理

?  测试大数据应用程序的3个阶段是
       数据分级验证
       “MapReduce”验证
       输出验证阶段

?  架构测试是大数据测试的重要阶段,因为设计不佳的系统可能会导致前所未有的错误和性能下降
?  大数据的性能测试包括验证
        数据吞吐量
        数据处理
       子组件性能

?  大数据测试与传统数据测试在数据,基础架构和验证工具方面有很大的不同
?  大数据测试挑战包括虚拟化,测试自动化和处理大型数据集。大数据应用程序的性能测试也是一个问题。

原文地址:https://www.cnblogs.com/zgq123456/p/9805364.html

时间: 2024-10-12 15:09:56

大数据测试类型&大数据测试步骤的相关文章

hibernate 大对象类型的hibernate映射

基本知识: 在 Java 中, java.lang.String 可用于表示长字符串(长度超过 255), 字节数组 byte[] 可用于存放图片或文件的二进制数据. 此外, 在 JDBC API 中还提供了 java.sql.Clob 和 java.sql.Blob 类型, 它们分别和标准 SQL 中的 CLOB 和 BLOB 类型对应. CLOB 表示字符串大对象(Character Large Object), BLOB表示二进制对象(Binary Large Object) Mysql

java 操作数据库clob类型大字段

java 操作数据库clob类型大字段,处理工具类如下: package org.shefron.utils; import java.io.StringReader; import java.sql.Clob; import java.sql.PreparedStatement; import java.sql.SQLException; public class ClobUtils { public final static String getValueFromClob(Clob clob

oracle大字段类型clob和glob备忘

BLOB和CLOB都是大字段类型,BLOB是按二进制来存储的,而CLOB是可以直接存储文字的.其实两个是可以互换的的,或者可以直接用LOB字段代替这两个.但是为了更好的管理ORACLE数据库,通常像图片.文件.音乐等信息就用BLOB字段来存储,先将文件转为二进制再存储进去.而像文章或者是较长的文字,就用CLOB存储,这样对以后的查询更新存储等操作都提供很大的方便.

大整数类型!

下面是本人自己做的一个大整数类型,需要的可以拿走用,可以节约很多时间,用的时候注意没有负数,想要练习重载运算符也可以看一下,有不好的地方欢迎指出 1 //该Int 类型只能 ++i,不能i++ 2 //不支持负数运算 3 long long ten_pow (int x)//求出10的x次方 4 { 5 long long res=1,s=10; 6 while (x){ 7 if (x&1) res*=s; 8 s*=s; 9 x>>=1; 10 } 11 return res; 1

.git文件过大!删除大文件

在我们日常使用Git的时候,一般比较小的项目,我们可能不会注意到.git 这个文件. 其实, .git文件主要用来记录每次提交的变动,当我们的项目越来越大的时候,我们发现 .git文件越来越大. 很大的可能是因为提交了大文件,如果你提交了大文件,那么即使你在之后的版本中将其删除,但是, 实际上,记录中的大文件仍然存在. 为什么呢?仔细想一想,虽然你在后面的版本中删除了大文件,但是Git是有版本倒退功能的吧,那么如果大文件不记录下来, git拿什么来给你回退呢?但是,.git文件越来越大导致的问题

蔡先生论道大数据之一 , 大数据由来

我记得早在2001年,Gartner公司的一份研究报告首次出现"大数据(Big Data)"概念的提法.但是到今天业内对"大数据"一词的定义说法不一,但越来越多的研究机构和网络媒体开始关注它.大数据正成为继云计算之后新的热词.同云计算一样,大数据虽然也看不见摸不到,却与今天的IT技术发展如影随形,已经深入到当前的信息生产.加工.交换过程之中,我们已经享受到的某些信息服务,如在社交网站看到的是自己想关注甚至是感兴趣的广告而看不到不想关注的广告,这其实是大数据技术的功劳

大数据可视化大屏设计经验,教给你!

 前言    大数据产业正在用一个超乎我们想象的速度蓬勃发展,大数据时代的来临,越来越多的公司开始意识到数据资源的管理和运用,大数据可视化大屏展示被更多的企业青睐,身为UI设计师的我们,也要紧跟时代的步伐学习这方面的设计. 今天要跟大家分享我一年多设计大数据可视化大屏的经验和观点,下面从UI设计.交互设计.动效设计三个方面来分享.  UI设计   设计大屏一样要谨记要以展示数据为核心,在任何炫酷屌炸天表现都要建立在不影响数据的有效展示上!   下图是天猫可视化大屏设计,图中屌炸天的3D地球围绕粒

什么是大数据?大数据学习路线和就业方向

大数据又称巨量资料,就是数据量大.来源广.种类繁多(日志.视频.音频),大到PB级别,现阶段的框架就是为了解决PB级别的数据. 专业的来讲:大数据(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力.洞察力和流程优化能力的海量.高增长率和多样化的信息资产. 大数据的5V特点:Volume(大量).Velocity(高速).Variety(多样).Value(价值密度).Veracity(真实性). 二.学大数据需要什么语言基础? 首先,学习大数据是需要

【大数据】大数据时代--网络数据与科学的时代

大数据_大数据时代_大数据概念_网络大数据 随着大数据时代的来临,大数据也吸引了越来越多的关注.网络大数据(http://www.raincent.com)整合了大数据,大数据概念,大数据处理,大数据分析,cdn,cdn加速,idc,网络测量,网络监测,网络安全测量,网站性能监测,行业分析报告,行业研究报告,免费行业报告等服务为一体,力争打造中国最大的网络大数据中心. 这两个词最早出现是在上世纪90年代.按照当时的解释,大科学时代主要是指单打独斗的时代结束了,要搞集团军式的科研.也有一种说法是,