对大数据知识架构的梳理

近期交接了前期的大数据项目,对之前的项目内容做一个总结。也算是梳理一下项目的架构,对前期也算是一个总结,为后期的学习打下一个基础。

清理数据

对传统行业来说,上来就说要搞大数据,一般都会是一种噱头,因为之前的数据量不会很大,所以基本上都是一些统计分析内容为主。在这一阶段,你对数据理解就尤为重要!这里边牵扯到的知识有数据清理,相关的ETL技术。也就是说你要做数据分析,数据在哪里很是重要,当你不清楚你的数据的位置的时候,你的分析也就无所谈起。而原始数据里边一定会有许多的问题。而此时,你的清理过程就是要深入了解原始数据。为什么说一个好的数据分析人员一定是一个好的业务人员,这点也尤为重要。因为只有你对数据更为了解的时候,你才能更好的补全,替代。说和通俗一点,就是你要将原始的数据转换成PC能读懂的数据。

这里也有一个4:3:3的原则,你原始的数据要从测试,训练,验证这三个维度来训练你的数据,这样构成一个循环,好让你的数据最终的成功度提高。而当你的数据入库的时候,就采用结构化还是非结构化的时候,这点也非常重要。也是决定着你后期读取的快慢!

分析数据

  这一步是要结合着业务来做的,你对业务理解多少。结合着业务需求来分析数据,而不是单纯理解数据,不同行业不同工种对同一数据的理解是不同的。相比之下,业务人员要对数据的理解更加深入几分。你如何分析你的数据,如何理解里边的特殊值。如何去找到你所要求的目标数据,这一点尤其重要。

  分析数据,这一点也关系到你的项目的成败。这一点个人感觉也是产品经理需要重要把握的地方。首先,做为产品经理,你不可能对所有行业都了解的很清楚,在这种情况下,就势必要求你能够最大限度的来理解数据的价值。在这一步,你要与业务人员深入交流,确保对数据的详细了解,然后才能够在接下的环节中脱颖而出。

算法选取

  有人说这一点都涉及研发了,作为产品经理是不需求去重点关注的。但从个人角度来说,这一点也同样重要。因为你初期的算法选取不当会造成后期的结果错误。也就相当于说,基本的东西,你一上来就要选好。

  而在算法选取方面,个人感觉也是要结合业务来实施。首先,要弄清楚业务那边主要关注的是什么指标。而与这一个指标相关的参数有那些,这些参数都是如何来影响这些指标的。至于算法的准确度,这一点,可以通过对数据颗粒度的细化来不断提高。不同的代码对系统的资源调度是不同的,而若你对算法的了解程度最大限度决定了你最终产品的反应快慢!

需求分析

  有人说,这一块是最为重要的。为什么你不是放在第一部分来讲,而是放在最后一部分了。因为深刻的感受到,在传统行业,用户的需求不明确,或者说不是那么明确。又或者是用户的需求是可以被引导的。一直以来,个人都将用户的需求分为四种:强需,弱需,真需,假需。

  有的时候,要分辩这些需求。是要求产品经理具有相关行业的背景的。因为不同行业,不同公司对人的需求是不同的。如何去挖掘用户的需求,并将这些需求转换成为可以落地实现的产品。这点对产品经理的要求是很高的。

部门沟通

  大数据产品,我将它分为三个线,一个是产品,一个是业务,一个是研发。这样就涉及到了部门之间的沟通。业务有许多的用户需求要经过产品的人来向研发反馈,而研发也需要产品的人把自己的工作落实到实际的项目中来。

  大数据,对上来说。领导层也许不懂大数据能够做什么。这就需要产品人员来给领导层以通俗的语言来讲明白。而对合作厂家来说,要有正确的引导,才能够让对方看到合作的可能。从而为项目的发展提供动力。

  大数据项目,以一个产品经理的角度来参于到这个项目中,才发现,自己曾经学到的内容到实际的应用中是那么的微乎其微。传统行业对大数据的渴求不再单单的基于概念而是真正的落地,真正的辅助业务创造价值。而这一方面,对一个产品经理的要求只会越来越高。

  很高兴前段时间论文的开题也顺利通过了,大数据的路还有很远,且行且珍惜吧!

时间: 2024-10-10 17:20:39

对大数据知识架构的梳理的相关文章

大数据平台架构设计探究

本文首发于 vivo互联网技术 微信公众号? 链接:https://mp.weixin.qq.com/s/npRRRDqNUHNjbybliFxOxA 作者:刘延江 近年来,随着IT技术与大数据.机器学习.算法方向的不断发展,越来越多的企业都意识到了数据存在的价值,将数据作为自身宝贵的资产进行管理,利用大数据和机器学习能力去挖掘.识别.利用数据资产.如果缺乏有效的数据整体架构设计或者部分能力缺失,会导致业务层难以直接利用大数据大数据,大数据和业务产生了巨大的鸿沟,这道鸿沟的出现导致企业在使用大数

深入浅出解析大数据平台架构

目录: 什么是大数据 Hadoop介绍-HDFS.MR.Hbase 大数据平台应用举例-腾讯 公司的大数据平台架构 "就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式--". 大数据的4V特征-来源 公司的"大数据" 随着公司业务的增长,大量和流程.规则相关的非结构化数据也爆发式增长.比如: 1.业务系统现在平均每天存储20万张图片,磁盘空间每天消耗100G: 2.平均每天产生签约视频文件6000个,每个平均2

大数据Lambda架构

1 Lambda架构介绍 Lambda架构划分为三层,分别是批处理层,服务层,和加速层.最终实现的效果,可以使用下面的表达式来说明. query = function(alldata) 1.1 批处理层(Batch Layer, Apache Hadoop) 批处理层主用由Hadoop来实现,负责数据的存储和产生任意的视图数据.计算视图数据是一个连续的操作,因此,当新数据到达时,使用MapReduce迭代地将数据聚集到视图中. 将数据集中计算得到的视图,这使得它不会被频繁地更新.根据你的数据集的

多图技术贴:深入浅出解析大数据平台架构

目录: 什么是大数据 Hadoop介绍-HDFS.MR.Hbase 大数据平台应用举例-腾讯 公司的大数据平台架构 "就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式--". 大数据的4V特征-来源 公司的"大数据" 随着公司业务的增长,大量和流程.规则相关的非结构化数据也爆发式增长.比如: 1.业务系统现在平均每天存储20万张图片,磁盘空间每天消耗100G: 2.平均每天产生签约视频文件6000个,每个平均2

DW(一):大数据DW架构参考

DW一直以来是企业信息与决策支持系统的核心组件,随着各类日志.社交.传感等非结构化数据的加入,企业内部数据按指数级增长,传统DW已经达到一个关键临界点——需要大量的资源投入到硬件.优化.支持和维护中,当前大部分使用Apache Hadoop来处理各种来源的大数据,但传统数据仓库不允许最终用户查询非结构化数据,此外,传统数据仓库并没有针对低延迟大容量数据负载和高吞吐量复杂分析工作负载进行优化——而这是大数据的需求之一. 下面例举当前互联网行业基于大数据的数据仓库技术构架参考 目录: 大数据DW逻辑

大数据平台架构技术选型与场景运用

一.大数据平台 大数据在工作中的应用有三种: 与业务相关,比如用户画像.风险控制等: 与决策相关,数据科学的领域,了解统计学.算法,这是数据科学家的范畴: 与工程相关,如何实施.如何实现.解决什么业务问题,这是数据工程师的工作. 数据工程师在业务和数据科学家之间搭建起实践的桥梁.本文要分享的大数据平台架构技术选型及场景运用偏向于工程方面. 如图所示,大数据平台第一个要素就是数据源,我们要处理的数据源往往是在业务系统上,数据分析的时候可能不会直接对业务的数据源进行处理,而是先经过数据采集.数据存储

大数据企业架构师精品课程(大数据篇)

视频课程包含: 大数据企业架构师精品课程(大数据篇)包含01.hadoop100集全.02.大数据_HBase视频教程.03.大数据_Hive视频教程.04.大数据_Spark_视频教程.05.大数据_zookeeper视频教程.06.R语言速成实战.07.python等等! 2017最火的可能就数大数据了,这里给大家按照一定思路整理了全套大数据视频教程,涵盖大数据全部知识点. 本视频属于作者原创搜集整理!下载方式:翻阅到文章底部 总目录 01.hadoop100集全 02.大数据_HBase视

大数据现状和未来展望--百度大数据主任架构师马如悦访谈

导读:6 月 1 ~ 2 日,GIAC 全球互联网架构大会将于深圳举行.GIAC 是一个面向架构师.技术负责人及高端技术从业人员的技术架构大会.今年的 GIAC 已经有腾讯.阿里巴巴.百度.今日头条.科大讯飞.新浪微博.小米.美图.Oracle.链家.唯品会.京东.饿了么.美团点评.罗辑思维.ofo 等公司专家出席. 在大会前夕,高可用架构采访了本届 GIAC大数据分论坛 出品人马如悦,就目大家广泛关注的大数据方面的问题进行了访谈. 马如悦,百度大数据主任架构师,当前是百度大数据技术总负责人,百

一个常见大数据平台架构

一个常见的大数据平台架构 这是一个典型的大数据架构,且对架构进行了「分层」,分为「数据源层」.「数据传输层」.「数据存储层」.「编程模型层」和「数据分析层」,如果继续往上走的话,还有「数据可视化层」和「数据应用层」. 原文地址:https://www.cnblogs.com/doit8791/p/9630765.html