大数据项目之测试标准化

数据项目确保数据质量是最重要的事。

但作为开发人员的我,一直对代码的热情远高于数据,这是不应该的。

因为凡是涉及到数据的项目,数据质量的重要性远远比代码重要。

理解数据,比优化代码更重要,只有在保证数据质量的前提下,再优化代码才是锦上添花。

责任心是安全之魂,标准化是安全之本。

还有时候,开发周期比较短,开发人员一急躁,没有做完整的测试,或当时办公室温度比较燥,

引发其心理比较烦躁,就极容易造成代码质量的下降,但这些都不重要,最重要的是我们需要有一个

标准化的测试流程,无论在什么样的情况下,代码输出的数据需要确认,通过了检验才能算完成。

做到测试的标准化,才能让我们对自己的数据质量更放心。

我的一点小技巧,

使用excel拟造少量的数据,人工地根据自己对分析的流程,一步步做出正确的输出。

然后使用代码,一步一步生成数据,跟excel做对比。这样如果能通过代码测试,

在很大程度上就能确定数据的准确性。

因为大数据项目本身数据量比较大,你直接从数据表中去查看数据项目不容易发现的问题,

在数据量小的时候就容易发现了,但有些问题,数据量小的时候发现不了,数据量大的时候就

暴露出来了?这时该怎么办?

时间: 2024-10-05 16:52:03

大数据项目之测试标准化的相关文章

大数据项目中的QA需要迎接新的挑战

大数据项目中的QA需要迎接新的挑战 根据IDC全球半年度大数据和分析支出指南的最新预测,到2022年全球大数据和业务分析解决方案的收入将达到2600亿美元.在大数据和业务分析解决方案上投资增长最快的行业包括银行(复合年增长率13.3%).医疗.保险.证券和投资服务.电信,每个行业复合年增长率都是12.8%.由此可见,大数据类项目在未来的地位将会越发重要,而作为QA,在大数据项目急速扩张的大背景下,也将迎来新的机遇和挑战. 一.大数据项目的数据特点 大数据项目与传统交付项目的不同之处在于其关注的重

大数据项目如何更好应用用例规范管理测试用例

大数据项目如何更好的管理测试用例,其重要性不言而喻:其中最有效的一个方法就是强而有力的执行用例的编写规范:以下是经验总结的用例编写规范.用例编写规范分为两部分:第一部分:功能测试用例编写规范(一)测试用例编写规范:1.需求(算法)文档路径:2.ER-Win.数据字典: 测试目的: 前置条件: 操作步骤:1.2. 预期结果: (二)SQL用例编写规范:1)每个表必须要使用有意义的别名:2)当使用表连接时,要关联的从表字段必须要放在左边,主表字段放在右边: --要求,比例: 正确的示范: selec

阿里,腾讯内部十二个大数据项目,你都有做过吗?

随着社会的进步,大数据的高需求,高薪资,高待遇,促使很多人都来学习和转行到大数据这个行业.学习大数据是为了什么?成为一名大数据高级工程师.而大数据工程师能得到高薪.高待遇的能力在哪?自然是项目经验.下面给大家大概介绍一下在阿里的"双11"."双12"."双旦"即将到来的"618"与腾讯大数据都用上的十二个大数据项目:阿里,腾讯内部十二个大数据项目,你都有做过吗?一个大数据分析项目关键构成如下: 信息采集组.数据清洗组.数据融合

电商大数据项目(二)-推荐系统实战之实时分析以及离线分析

电商大数据项目-推荐系统实战(一)环境搭建以及日志,人口,商品分析http://blog.51cto.com/6989066/2325073电商大数据项目-推荐系统实战之推荐算法http://blog.51cto.com/6989066/2326209电商大数据项目-推荐系统实战之实时分析以及离线分析http://blog.51cto.com/6989066/2326214 五.实时分析Top IP(实时分析Top用户)一)模块介绍电商网站运营中,需要分析网站访问排名前N的IP,主要用来审计是否

电商大数据项目-推荐系统实战之推荐算法(三)

电商大数据项目-推荐系统实战(一)环境搭建以及日志,人口,商品分析http://blog.51cto.com/6989066/2325073电商大数据项目-推荐系统实战之推荐算法http://blog.51cto.com/6989066/2326209电商大数据项目-推荐系统实战之实时分析以及离线分析http://blog.51cto.com/6989066/2326214 (七)推荐系统常用算法协同过滤算法协同过滤算法(Collaborative Filtering:CF)是很常用的一种算法,

Spark 2.x企业级大数据项目实战(实时统计、离线分析和实时ETL)

Spark 2.x企业级大数据项目实战(实时统计.离线分析和实时ETL)全套课程下载:https://pan.baidu.com/s/1mje6bAoLLPrxUIrM-C2VMg 提取码: 9n1x 本门课程来源于一线生产项目, 所有代码都是在现网大数据集群上稳定运行, 拒绝Demo.课程涵盖了离线分析.实时分析绝大部分的场景,通过三个实际生产项目教授如何优雅地集成Hadoop.Spark.HBase.Kafka.Redis.MySQL等相关大数据技术,并实际落地 . 本门课程全程实操,不用担

JAVA 大数据内存耗用测试

JAVA 大数据内存耗用测试import java.lang.management.ManagementFactory;import java.lang.management.MemoryMXBean; public class MemoryTest { public static void main(String[] args) throws InterruptedException { int row = 50_000; int column = 20; String[] data = ne

大数据项目测试<二>项目的测试工作

大数据的测试工作: 1.模块的单独测试 2.模块间的联调测试 3.系统的性能测试:内存泄露.磁盘占用.计算效率 4.数据验证(核心) 下面对各个模块的测试工作进行单独讲解. 0. 功能测试 1. 性能测试 2. 自动化测试 3. 文档评审 4. 脚本开发 一.后台数据处理端 后端的测试重点,主要集中在数据的采集处理.标签计算效率.异常数据排查(功能),测试脚本编写(HiveQL).自动化脚本编写(造数据.数据字段检查等) 1.数据的采集处理(Extract-Transform-Load) ETL

说说这些年做的云计算和大数据项目

入行十几年了,做了不少分布计算.并行计算.内存计算.海量数据处理的项目,按照现在的分类,这些都属于云计算/大数据范畴.今天说说我做过的其中三个项目,只三个.         第一个是我们接到的视频分享网站的视频转码的订单,网站名字就不说了,有替人宣传嫌疑.他们情况是这样,视频网站的内容用MP4格式在网页上播放,但是上传的格式多种多样,我们必须把这些视频统一转换成MP4格式,视频转码的工作想必大家都在自己的电脑上试过,通常一个100M左右的视频转码需要20分钟以上(CPU是Pentium IV).