大数据测试技术研究

大数据的特征:

数据体量巨大(volume)

数据类型繁多(variety)

价值密度低(value)

处理速度快(velocity)

大数据测试的挑战:

平台软件的复杂性和发布节奏之间的矛盾

通用平台支持多种不同应用带来测试用例数的爆炸

对于大规模集群上的问题如何用小规模测试集群暴露

处理流程的5个阶段:

大数据采集

大数据导入/预处理

大数据统计分析

大数据挖掘

大数据分析

大数据测试——功能性测试方法:

数据导入/预处理验证阶段

MapReduce数据输出验证阶段

验证大数据ETL(数据提取、转换和加载)到数据仓库

验证分析报告

大数据测试——非功能性测试方法:

性能测试

容错性测试

可用性测试

扩展性测试

稳定性测试

部署方式测试

数据一致性测试

压力测试

大数据测试——针对“4V”特性的测试

大体量特性测试

多类型特性测试

高速度特性测试

低价值密度特性测试

大数据测试基准

TestDFSIO:用于测试HDFS的IO性能,使用一个MapReduce作业来并发地执行读写操作,每个map任务用于读或写每个文件,map的输出用于收集与处理文件相关的统计信息,reduce用于累积统计信息,并产生统计总结;

MRBench:会多次重复执行一个小作业,用于检查在机群上小作业的运行是否可重复以及运行是否高效;

NNBench:用于测试NameNode的负载,它会生成很多与HDFS相关的请求,给NameNode施加较大的压力。这个测试能在HDFS上模拟创建、读取、重命名和删除文件等操作;

HiBench:Intel开发的一个Hadoop benchmark suit,包含9个典型的Hadoop负载,benchmark程序负载的特点如下表所示;

Sleep:命令行程序是批处理延时用的,占用资源少。Sleep基准可以用来比较核调度和MapReduce处理的有效性,在Hadoop World 2011上被提出来,可以测试分配任务到网络平台的速度;

TeraSort :测试Hadoop的一个有效的排序测试。通过Hadoop自带的TeraSort 排序程序,测试不同的map任务和reduce任务数量对Hadoop性能的影响。实验数据由程序中的TeraGen程序生成,数据量为1GB和10GB。一个完整的TeraSort 测试需要按以下三步执行:用TeraGen 生成随机数据;对输入数据运行TeraSort; 用TeraValidate 验证排好序的输出数据;

大数据测试常用工具

LTP( Linux test project)

Locktests

IOzone

Postmark

Fio

Filebench

原文地址:https://www.cnblogs.com/ratels/p/10676019.html

时间: 2024-11-13 08:36:43

大数据测试技术研究的相关文章

【大数据论文笔记】大数据技术研究综述

大数据的基本概念: 1.大数据的产生 a.科学研究 b.物联网的应用 c.海量网络信息的产生 2.大数据概念的提出 3.大数据的"4V"特征 a.Volume(容量大):大数据巨大的数据量与数据完整性 b.Variety(种类多):要在海量.种类繁多的数据间发现其内在关联 c.Velocity(速度快):更快地满足实时性需求 d.Value(价值密度低):将信息转化为知识 4.大数据的应用领域 a.商业 b.金融 c.医疗 d.制造业 大数据的处理流程 1.数据采集 2.数据处理与集成

基于大数据技术的手机用户画像与征信研究

内容提要:手机用户画像是电信运营商实现“数据驱动业务与运营”的重要举措.首先,介绍了手机用户画像过程中对个人隐私保护的方法,然后分析手机用户画像的数据来源与大数据实现技术,最后,通过数据样本实例分析手机用户画像在个人征信中的应用. 引言 随着计算机网络技术的不断发展,“数据即资源”的大数据时代已经来临.用户画像是电信运营商为了避免管道化风险,实现“数据驱动业务与运营”的重要举措.用户画像与应用大数据技术对客户分类密切相关,是单个客户的众多属性标签的累积:另一方面,在运营商涉足的消费金融领域,对手

基于大数据分析的安全管理平台技术研究及应用

[引言]这篇文章原载于内刊,现发布于此.内容有所删减. Research and Application of Big Data Analysis Based Security Management Platform Last Modified By yepeng @ 2014-1-14 [内 容摘要]本文首先通过介绍大数据的起因,给出了大数据的定义和特征描述,并简要说明了当前大数据的研究概况.接下来,本文阐释了大数据分析技术,对大数据 在信息安全领域尤其是安全管理平台领域的应用做了深入分析,并

网络空间大搜索技术

由于泛在网络空间.网络应用模式和大数据的发展,国内研究人员对网络空间搜索技术有了新的认识,逐渐形成了网络空间智慧搜索暨网络空间大搜索技术. 国家自然科学基金委员会第120期双清论坛于9月28日-29日在北京召开.本次论坛主题为网络空间智慧搜索基础研究,共邀请了国内外25所大学和科研机构的41位著名专家参会.本次论坛由信息科学部.管理科学部.地球科学部.数理科学部和政策局联合主办,论坛主席由方滨兴院士.吴曼青院士.贾焰教授和陈熙霖研究员共同担任. 论坛开幕式由信息二处刘克处长主持,信息科学部常务副

<脱机手写汉字识别若干关键技术研究>

脱机手写汉字识别若干关键技术研究 对于大字符集识别问题,一般采用模板匹配的算法,主要是因为该算法比较简单,识别速度快.但直接的模板匹配算法往往无法满足实际应用中对识别精度的需求.为此任俊玲编著的<脱机手写汉字识别若干关键技术研究>在模板匹配算法的基础上,结合统计分析和统计信号处理的原理,对脱机手写汉字识别算法以及相关问题进行了研究,力求在基本不降低识别速度的基础上较大地提高识别的精度. 内容简介 书籍计算机书籍<脱机手写汉字识别若干关键技术研究>从脱机手写汉字识别为大类别数模式识别

中文事件抽取关键技术研究(谭红叶 博士毕业论文)

中文事件抽取关键技术研究(谭红叶 博士毕业论文) 事件抽取的定义 ACE2005 将该项任务定义为:识别特定类型的事件,并进行相关信息的确定和抽取,主要的相关信息包括:事件的类型和子类型.事件论元角色等.根据这个定义,可将事件抽取的任务分成两大核心子任务:(1)事件的检测和类型识别:(2)事件论元角色的抽取.除此以外,由于绝大部分的论元角色都是实体,因此实体的识别也是事件抽取的一项基本任务. 信息抽取的定义 Andrew McCallum所提出的定义具有普遍意义.他将信息抽取定义为(A.McCa

虚拟化技术研究及架构分析

什么是虚拟化 虚拟化是指计算机元件在虚拟的基础上而不是真实的基础上运行.虚拟化技术可以扩大硬件的容量,简化软件的重新配置过程.CPU的虚拟化技术可以单CPU模拟多CPU并行,允许一个平台同时运行多个操作系统,并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机的工作效率. 几种虚拟化软件介绍 RedHat KVM 虚拟化方式:完全虚拟化 架构:寄居架构(linux内核);祼金属架构RHEV-H 特点:祼金属架构RHEV-H或在关键的硬盘和网卡上支持半虚拟化VirtIO,达到最佳

每天4亿行SQLite订单大数据测试(源码)

SQLite单表4亿订单,大数据测试 SQLite作为嵌入式数据库的翘楚,广受欢迎!新生命团队自2010年以来,投入大量精力对SQLite进行学习研究,成功应用于各系统非致命数据场合. SQLite极致性能 关闭同步,Synchronous=Off,提升性能.添删改操作时不必同步等待写入磁盘,操作系统会延迟若干毫秒批量写入 设置WAL模式,Journal Mode=WAL,减少锁定.写入向前日志模式,避免多线程访问时锁定数据库,写入时不必使用排它锁影响其它线程读取,而是把事务操作写入到WAL文件

Azure IoT 技术研究系列5-Azure IoT Hub与Event Hub比较

上篇博文中,我们介绍了Azure IoT Hub的使用配额和缩放级别: Azure IoT 技术研究系列4-Azure IoT Hub的配额及缩放级别 本文中,我们比较一下Azure IoT Hub和Event Hub,同时启动Azure Event Hub(事件中心)的研究. Azure IoT Hub的另一个主要应用场景是从设备侧接收遥测数据. 与 Azure IoT Hub一样,Azure Event Hub是一个事件处理服务,主要用于向云端提供大规模的事件与遥测数据入口,并且具有较低的延