敏捷大数据流程

敏捷大数据流程利用了数据科学的迭代性本质和高效的工具,从数据中构建和抽取高阶的结构和价值。

数据产品团队技能多样,会产生多种可能性。由于团队覆盖了大量的领域,构建web 产品也自然是一个协作的过程。团队需要方向才能协作:每个成员都应该热情饱满而又顽强地追求一个共同的目标。要明确这个方向,需要一个共识。

在协作中达成共识是开发软件过程中最难的一个环节。软件开发团队最大的风险就是根据不同的蓝图进行开发。相互抵触的愿景会让产品缺乏专注,最终失败。

有时在实际开发应用之前会做一些样品(mock):产品经理进行市场调查,设计师根据目标用户的反馈不断改进这个样品。这些样品可以作为团队共享的蓝图。

即使数据本身是不变的,随着对用户的了解以及外界条件的改变,真实世界中的需求也会变化。所以蓝图也需要随着时间而变化。而敏捷方法就是为了更好的实现不断变化的需求,并尽快将样品转化成真正能运行的系统而发明的。

典型的web 产品是由表格驱动的,在后端由数据库中可预料、有约束的事务数据支撑,这和数据挖掘产品有根本上的差异。在CRUD 应用中,数据相对一致。数据模型是可以预知的SQL 表格或者文档,对它们进行改动是产品层面的决策。数据的“见解”则是不相关的,产品团队可根据意愿构建模型以符合应用的商业逻辑。

而对于由数据挖掘驱动的、可交互的数据产品,以上任何一条都不成立。现实数据都是脏的,要挖掘就要面对脏数据。假如数据不脏,那就不是数据挖掘了。即使是精心抽取、提炼出的信息,也可能是模糊的、不可预测的。将它们展示给消费者,还需要大量的工作和十分的细心。

对于数据产品,数据是冷酷无情的。无论希望数据能表达什么,数据对我们本身的意愿压根毫不关心,它只陈述事实。这意味着瀑布模型没有用武之地。也意味着,样品也是一个为了在软件团队中建立共识但不全面的蓝图。

数据产品的样品是应用程序的规格说明书,它没有产品最重要的特色——具有真正价值的信息。这些作为蓝图的样品会对复杂的数据模型做出毫无依据的假设。面对一个建议清单,样品经常会误导我们。一旦加上成熟的交互,样品甚至会抑制真相,放大假设。

然而我们知道好的设计和用户体验就是要最小化假设。那该如何是好?

敏捷产品开发的目标是辨识出产品最根本的特性,将这个特性先实现了,然后再添加其他特性。这将敏捷带到了项目里,让项目更有可能满足产品进化过程中最真实、最根本的需求。在数据产品中,最根本的特性会给人惊喜。假如不是这样,要么是你做错了,要么是你的数据没有太大意义。信息有它的背景,如果背景易变,就无法使用洞察进行预测。

时间: 2024-11-08 21:57:04

敏捷大数据流程的相关文章

你了解蒙娜丽莎(敏捷大数据)的真正面目吗

我在前文<论大数据的泡沫.价值与应用陷阱>有说到,大数据现象源于我们对未来不确定性的恐惧,和应对软件在加速吞噬世界(软件越来越庞杂,操作越来越自动化,数据越来越丰富,而大部分人却对其原理和特性却知之甚少)这一大背景下的管理失控问题.大数据规律的可预测性创造了一种新的知识体系和管理思维,但分析模型的黑箱和操作的自动化却削弱了人类对其深层规律的理解和探索能力,机器的量化能力与人的主观判断能力短时间内还难以有机融合,大数据应用不缺预测模型.计算资源和数据科学家,而是缺乏提出正确问题和利用大数据工具解

大数据独角兽Palantir之核心技术探秘

Palantir源起 B2B大数据 企业级Google ▼ Palantir(中文名帕兰提尔,源于<指环王>中可穿越时空.洞悉世间一切的水晶球Palantír)被誉为硅谷最神秘的大数据独角兽企业,短短几年内跻身百亿俱乐部,成为全球估值排名第四的初创公司.它的主要客户只在美剧和好莱坞里出现,如美国联邦调查局(FBI).美国中央情报局(CIA).美国国家安全局(NSA).美国军队和各级反恐机构,当然还有如JPMorgan这样的华尔街金融大鳄等等.关于Palantir的传奇故事很多,CIA通过他家的

WOT干货大放送:大数据架构发展趋势及探索实践分享

WOT大数据处理技术分会场,PingCAP CTO黄东旭.易观智库CTO郭炜.Mob开发者服务平台技术副总监林荣波.宜信技术研发中心高级架构师王东及商助科技(99Click)顾问总监郑泉五位讲师,分别针对时下热门的HTAP数据库TiDB.去ETL化的IOTA架构.数据工厂架构.实时敏捷大数据理念实践.基于场景的大数据营销等话题,展开实践分享. 作者:查士加来源:51CTO 2018年5月18-19日,由51CTO主办的全球软件与运维技术峰会在北京召开.来自全球企业的技术精英汇聚北京,畅谈软件技术

大数据时代下的生活

最近几年IT都成长在一个大数据的环境下,大家动不动就要分布式,想想就搞大数据.有的网站明明访问量几台普通的服务器就可以搞定,非要弄分布式,挂着云计算的名字,却做着屌丝的事情. 虽然,大环境如此,但是为了沾上这种高大上的气息,也着手看一下这方面的书. 刚刚看完<大数据时代>这本书,感觉收获也蛮多的.习惯性的整理了一下书籍的思维导图 这本书是国外人写的,但是内容上还比较符合国内目前的环境,毕竟国内的大数据发展起步还是要晚一点的. 个人吐槽 就从法律这方面来说,感觉国内的个人隐私方面法律就不怎么看重

不只是Hadoop:大数据技术的未来道路

在实时数据的世界当中,我们为什么还要执着于Hadoop这一片森林? 作为一套以批量处理为主要诉求的架构方案,Hadoop仍然堪称大数据技术领域的荣耀长子.然而根据451研究集团的调查数据显示,其实际普及效果仍然不及显赫的声誉. 那些已经率先部署了Hadoop解决方案的企业可能希望稍稍放慢自己的前进脚步.伴随着Apache Spark以及其它一系列技术方案的出台(包括Storm.Kafka等等),我们似乎与Hadoop的批量处理思路渐行渐远.转而踏上了一条真正通往实 时性未来的发展道路. 批量并非

杂记- 3W互联网的圈子,大数据敏捷BI与微软BI的前端痛点

开篇介绍 上周末参加了一次永洪科技在中关村 3W 咖啡举行的一次线下沙龙活动 - 关于它们的产品大数据敏捷 BI 工具的介绍.由此活动,我想到了三个话题 - 3W 互联网的圈子,永洪科技的大数据敏捷 BI 工具,微软 BI 工具的路应该如何去走. 3W 互联网的圈子 其实之前在中关村工作过很长的一段时间,每天吃饭的点基本上就包括中关村那一块,平时每天都从那个基督教堂门前走过来走过去.但是感觉在中关村那里白混了一年,因为从来没有注意到那里其实有一个人气很旺的 IT 互联网人的圈子 - 3W 咖啡屋

一周实现大数据可视化分析——敏捷BI助艾瑞咨询集团实现互联网的大数据分析

相对传统分析方法,通过敏捷BI和Hadoop的互补,艾瑞咨询集团的业务效率获得数倍的提升:线下报告交付周期从3至4周缩短至小于1周,软件交付从半年缩短至一个月. 当前,一提到大数据人们就会想Hadoop,它似乎成为大数据的"代言人".不可否认,Hadoop在集群扩展性和成本上都有巨大的优势,但是,Hadoop并不适合做实时分析系统. 因此,很多企业都会利用Hadoop实现数据存储,再通过其他工具实现对大数据的高速捕获和实时分析.这里,我们将通过艾瑞咨询集团的一个真实案例,解读一下敏捷B

一站式大数据敏捷分析平台

OpenFEA是一站式大数据敏捷分析系统,融合了内存计算.集群运算.机器学习.交互分析.可视化分析等技术,涵盖数据收集.数据探索.构建模型.模型发布等功能,分析性能卓越,使用简便,无需复杂编程即可快速实现大数据分析,助力数据分析师激扬数据,塑造业务标杆.          数据收集         OpenFEA能够融合更多类型的数据来进行运算,支持关系型数据源. Hadoop数据源.数据文件.第三方数据源. 支持数据源与接口/格式的双向自定义机制.表示各种复杂结构或LOAD和STORE各类数据

从大数据菜鸟走上大师的历程 第二讲:函数定义,流程控制,异常处理

Scala 第二讲 函数定义,流程控制,异常处理 For 循环  for(左边为单个对象obj  <-  右边为对象集合objs ) for 循环里把右边的对象赋给左边 现在正是学习大数据的最好机遇,不花一分钱就可以成为大数据高手,实现年薪50万的梦想. 王家林的第一个中国梦:免费为全社会培养100万名优秀的大数据从业人员! 如果您有兴趣请点击这个链接进入大数据的学习 http://blog.sina.com.cn/s/blog_8fbd39ee0102vto3.html 如果您确实感觉视频教程