我是如何入门、成长并进阶为数据分析师的?

前几天和一朋友A聊天,一个在我看来完全可以在大部分行业领域公司独当一面的数据分析师,目前仍谦虚的以“数据猿”自称。从事数据分析的他,半路出家,起初虽然懂一些数据库的知识,但仍然和很多人一样,艰难地上了路。于是我们就索性一起讨讨经,“一本正经”地聊起工作来,留下点感悟。

数据分析如何起步?

说入门很简单一定是骗你的,A说自己是从记数据开始的,记数据一方面是为了应付领导的提问,另一方面也是在培养数据的敏感度。确实,分析的源头一般是某些指标有了明显的变动,熟悉每天的交易数据或用户数据能让你一眼就看出问题在哪里,哪些数据有关联,然后再做分析。而我是从Excel做起的,大部分时间都是在取数,做“表哥”,还要抵挡来自业务的需求攻击。后来,他去做了数据挖掘,我从BI再从数据平台转做了技术。

万事开头难,但一旦数据分析有了动力,就要开始完善自己的知识体系,这也是真正入门的开端。那如何完善数据分析的知识体系?

1、基本的计算机知识和统计知识

数据库+SQL语言

一些常用的数据库如Oracle、SQL Sever、DB2、MySQL,这些数据库或者说日常接触的数据库都要有所了解,懂最常用的就好,最重要的还是要会写SQL。

数学/统计学知识

一些基本的数学统计方法如描述性统计、多元统计分析、回归分析等,重要性不言而喻。

数据挖掘知识:方差分析、回归分析、因子分析、聚类分析等等。这些东西作为入门多多少少都要会一些,虽然有可能不会全用到,但一旦用时方恨少。

数据分析可视工具

数据分析可视化工具很宽泛。首推Excel,中小公司很依赖,熟练使用数据透视表,这是必备技能。中大型公司都是用报表工具或者BI来做报表,但有了SQL+Excel的基础,这些工具上手都很快。

2、业务知识

数据分析师要与公司的各业务打交道,所以对于各部门的业务知识要有深入的了解。某业务领导需要知道某个指标,你需要知道这个指标由哪些数据构成?数据统计的口径是什么?数据怎么取出来?这个指标对于行业的意义是什么,处于什么范围分别对应什么样的情况,是好还是坏。然后慢慢摸索这个指标层面多维度的规律,如何设定最合理。

明确自己的位置,快速成长

附上网上的一张数据分析师能力体系图,用于参考。

数据分析是一向比较专业的工作,要时刻警惕自己能力是否有提升,目前是什么样的水平,习惯反思自己:

这里引用知乎上@任明远的回答

1、你了解你所整理的数据的来源吗?是自己公司的业务数据,还是与合作伙伴交换的数据?是自己公司相关部门采集的,还是从第三方获取的?获取过程中,具体的指标和逻辑是什么?

2、这些数据是真实的吗?采集和整理过程中会不会出现什么问题?技术上的逻辑和业务上的逻辑是不同的概念,有没有技术上没有瑕疵,但并不符合业务逻辑的数据流程?

3、到你手里的数据经过了什么处理?你又做了什么处理?为什么他们和你要做这些处理?

4、谁需要你的数据?你处理后的数据流向哪里?他们用数据做什么?这些数据最终又拿去做了什么?比如,为客户做了什么服务,公司发布了什么内容,或向管理层证明了什么KPI,或支持了哪个部门的评估?

5、你做整理的周期是什么?为什么是这样的周期?

6、公司有其他的部门在处理其他的数据吗?是什么样的数据?和你有什么关系?为什么这些数据要分开处理?

7、近一年,你自己的电脑上应该已经积累了不少数据,试试做个分析,从一段较长的时间来看,你负责的这一块数据发生了什么变化?为什么会有这个变化?和公司的产品、经营、业务有关,还是和行业有关?具体怎么有关?

如何进一步提升?

业务上

1.业务为核心,数据为王

  • 了解整个产业链的结构
  • 制定好业务的发展规划
  • 了解衡量的核心指标
  • 有了数据必须和业务结合才有效果

需要懂业务的整体概况,摸清楚所在产业链的整个结构,对行业的上游和下游的经营情况有大致的了解。然后根据业务当前的需要,指定发展计划,从而归类出需要整理的数据。最后一步详细的列出数据核心指标(KPI),并且对几个核心指标进行更细致的拆解,当然具体结合你的业务属性来处理,找出那些对指标影响幅度较大的影响因子。前期资料的收集以及业务现况的全面掌握非常关键。

2.思考指标现状,发现多维规律

  • 熟悉产品框架,全面定义每个指标的运营现状对
  • 比同行业指标,挖掘隐藏的提升空间
  • 拆解关键指标,合理设置运营方法来观察效果
  • 争对核心用户,单独进行产品用研与需求挖掘

业务的分析大多是定性的,需要培养一种客观的感觉意识。定性的分析则需要借助技术、工具、机器。而感觉的培养,由于每个人的思维、感知都不同,只能把控大体的方向,很多数据元素之间的关系还是需要通过数据可视化技术来实现。

3.规律验证,经验总结

发现了规律之后不能立刻上线,需要在测试机上对模型进行验证。

技能上

1.Excel是否精钻?

除了常用的Excel函数(sum、average、if、countifs、sumifs、offset、match、index等)之外,Excel图表(饼图、线图、柱形图、雷达图等)和简单分析技能也是经常用的,可以帮助你快速分析业务走势和异常情况;另外,Excel里面的函数结合透视表以及VBA功能是完善报表开发的利器,让你一键轻松搞定报表。

2.你需要更懂数据库

常用的数据库如MySQL,Sql Server、Oracle、DB2、MongoDB等;除去SQL语句的熟练使用,对于数据库的存储读取过程也要熟练掌握。在对于大数据量处理时,如何想办法加快程序的运行速度、减少网络流量、提高数据库的安全性是非常有必要的。

3.掌握数据整理、可视化和报表制作

数据整理,是将原始数据转换成方便实用的格式,Excel在协同工作上并不是一个好工具,报表FineReport比较推荐。项目部署的Tableau、FineBI、Qlikview一类BI工具,有没有好好培训学习,这些便捷的工具都能淡化数据分析时一些重复性操作,把精力更多留于分析。

时间: 2024-11-05 14:38:14

我是如何入门、成长并进阶为数据分析师的?的相关文章

CDA数据分析师协会等级认证证书

CDA数据分析师协会等级认证证书 (Certified Data Analyst  Certificate) CDA数据分析师证书由CDA数据分析师协会官方颁发,此证书在国内需通过人大经济论坛举办的CDA等级认证考试后获得.此证书可作为企业事业单位选拔和聘用专业人才的任职参考依据.  一.考试简介: CDA(Certified Data Analyst),全称"注册数据分析师",由"CDA注册数据分析师协会(Certified Data Analyst Institute)&

数据分析师教程_从小白到“数据分析师”大神进阶之路

课程学习地址:http://www.xuetuwuyou.com/course/231课程出自学途无忧网:http://www.xuetuwuyou.com 课程特色--成长六部曲小白脱白篇->数据分析篇->数据挖掘篇-> Python加薪冲刺篇->大数据分析师进阶篇-->精英项目实战篇 一.课程目标数据分析师秉承着总结凝练最先进的商业数据分析实践为使命,明晰各类数据分析从业者的知识体系为职责.本课程就是为了这个目标而量身订做的.旨在加强全球范围内正规化.科学化.专业化的大数

Spark进阶 大数据离线与实时项目实战 完整版

第1章 课程介绍&学习指南本章会对这门课程进行说明并进行学习方法介绍. 第2章 Redis入门Redis是目前最火爆的内存数据库之一,通过在内存中读写数据,大大提高了读写速度.本章将从Redis特性.应用场景出发,到Redis的基础命令,再到Redis的常用数据类型实操,最后通过Java API来操作Redis,为后续实时处理项目打下坚实的基础... 第3章 HBase入门HBase是一个分布式的.面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:

深度学习之TensorFlow:入门原理与进阶实战

深度学习之TensorFlow:入门原理与进阶实战 链接:https://pan.baidu.com/s/1wUos19e7qhm_fA52FV8gQg 提取码:nz8i 目录 · · · · · · 配套学习资源 前言 第1篇 深度学习与TensorFlow基础 第1章 快速了解人工智能与TensorFlow 2 1.1 什么是深度学习 2 1.2 TensorFlow是做什么的 3 1.3 TensorFlow的特点 4 1.4 其他深度学习框架特点及介绍 5 1.5 如何通过本书学好深度学

[WebGL入门]十二,模型数据和顶点属性

注:文章译自http://wgld.org/,原作者杉本雅広(doxas),文章中如果有我的额外说明,我会加上[lufy:],另外,鄙人webgl研究还不够深入,一些专业词语,如果翻译有误,欢迎大家指正. 顶点属性的意思 上次的文章中,介绍了一下从着色器的生成,编译,到程序对象的生成和着色器的连接.这次,简单的说一下模型数据的定义和顶点属性的处理.另外,介绍一下根据模型数据生成VBO的方法.VBO的使用要比生成难理解一些,但是不要担心,后面会慢慢说明.接下来看一下顶点属性.顶点属性,说的简单点,

ASP.NET MVC 入门8、ModelState与数据验证

数据验证包括服务器端验证和客户端的验证, 本文介绍的MVC数据库端的数据验证实现. 客户端的数制验证可以使用JQuery的验证插件来实现. Html.ValidationMessage()的时候,就是从ViewData.ModelState中检测是否有指定的KEY,如果存在,就提示错误信息. ValidationMessage(modelName) 指定控件的验证错误信息; ValidationSummary() 表单所有控件的验证错误信息. 验证未通过, 目标控件和验证错误信息HTML标签,都

ASP.NET MVC 入门7、Hellper与数据的提交与绑定

View视图 我们可以手写HTML代码, 也可以采用基类提供的Helper类完成HTM代码. 示例: <%=Html.ActionLink("首页","index","Home")%> 生成的HTML代码就是:<a href="/Home/Index">首页</a> 生成的HTML代码取决于Global.asax中配置的Route顺序. 数据显示 数据绑定 <p> <lab

Hadoop MapReduce编程 API入门系列之挖掘气象数据版本2(九)

下面,是版本1. Hadoop MapReduce编程 API入门系列之挖掘气象数据版本1(一) 这篇博文,包括了,实际生产开发非常重要的,单元测试和调试代码.这里不多赘述,直接送上代码. MRUnit 框架 MRUnit是Cloudera公司专为Hadoop MapReduce写的单元测试框架,API非常简洁实用.MRUnit针对不同测试对象使用不同的Driver: MapDriver:针对单独的Map测试  ReduceDriver:针对单独的Reduce测试    MapReduceDri

Sqoop2入门之导入关系型数据库数据到HDFS上(sqoop2-1.99.4版本)

sqoop2-1.99.4和sqoop2-1.99.3版本操作略有不同:新版本中使用link代替了老版本的connection,其他使用类似. sqoop2-1.99.4环境搭建参见:Sqoop2环境搭建 sqoop2-1.99.3版本实现参见:Sqoop2入门之导入关系型数据库数据到HDFS上 启动sqoop2-1.99.4版本客户端: $SQOOP2_HOME/bin/sqoop.sh client set server --host hadoop000 --port 12000 --web