第一章 数据分析那些事儿
1.1 数据分析是“神马”
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将他们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是
为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 帮助管理者进行判断和决策
探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于验证已有假设的真伪证明。
分析方法:对比分析法、平均分析法、交叉分析法等 高级:相关分析、因子分析、回归分析等。
作用:现状分析、原因分析、预测分析
1.2 数据分析六步曲
明确分析目的和思路→数据收集→数据处理(数据清洗、数据转化、数据提取、数据计算等)→数据分析→数据展现→报告撰写等6步。
1.3 数据分析的三大误区
1.分析目的不明确,为分析而分析
2.缺乏业务知识,分析结果偏离实际
3.一味追求使用高级分析方法,热衷研究模型
1.4 数据分析师的职业发展
职业要求:懂业务、懂管理、懂分析、懂工具、懂设计
基本素质:态度严谨负责、好奇心强烈、逻辑思维清晰、擅长模仿学习、勇于创新
1.5 几个常用指标和术语
1.平均数
1)算数平均数:将总体内各单位的数量差异抽象画,代表总体的一般水平,掩盖了总体内个单位的差异。
2)调和平均数
3)几何平均数
2.绝对数和相对数
绝对数是反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合性指标;也可以表现为在一定时间、地点条件下数量增减变化的绝对数。
相对数是指由两个有联系的指标对比计算而得到的数值,用以反映客观现象之间数量联系程度的综合指标。计算基本公式:相对数=比较数值(比数)/基础数值(基数).
3.百分比和百分点
百分点是指不同时期以百分数的形式表示的相对指标的变动幅度:如 45% 比28%提高了17个百分点。
4.频数和频率
5.比例和比率
6.倍数和番数 番数=2^n
7.同比和环比
第二章 结构为王-确定分析思路
2.1 数据分析方法论
方法论:5W2H、4P、逻辑树等分析思路
工具:Excel、SPSS、SAS等
技术:交叉分析、相关分析、回归分析、聚类分析等
2.2 常用的数据分析方法论
营销方面的理论模型:4P、用户使用行为、STP理论、SWOT等
管理方面的理论模型:PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等。
- PEST分析理论主要用于行业分析。
- 4P分析理论主要用于公司整体经营情况分析。
- 逻辑树分析理论可用于业务问题专题分析。
- 用户行为理论的用途较单一,就是用于用户行为研究分析。
- 5W2H分析理论的用途相对广泛,可用于用户行为分析、业务问题专题分析等。
第三章 无米难为巧妇-数据准备
3.1 理解数据
字段与记录、数据类型(字符型、数值型)、数据表
3.2 数据来源
文本、网页等
第四章 三心二意-数据处理
4.1 何为数据处理
“三心二意”:信心、细心、平常心、诚意、合意(满足需求方的分析目的和需求)
4.2 数据清洗
重复数据的处理:函数法Countif、高级筛选法、条件格式法、数据透视表法
缺失数据处理:定位输入(F5或Gtrl+G)、Ctrl+Enter快捷键(快速填充选中单元格)、查找(Ctrl+F)替换(Ctrl+H)
检查数据逻辑错误:利用IF函数检查错误、利用条件格式标记错误
4.3 数据加工
数据抽取:字段分列(菜单法分列、函数法left/right)、字段合并(&、CONCATENATE)、字段匹配(Vlookup)
数据计算:简单计算(+-*/ 自动求和等)、函数计算(平均值和总和、日期的加减法、用函数datedif计算工龄)
数据分组:Vlookup(近似匹配,<=查找值的最大匹配值)
数据转换:数据表的行列转换等
4.4 数据抽样
普查、抽样调查 rand函数
第五章 工欲善其事必先利其器-数据分析
5.1 数据分析方法
1.对比分析法
1)定义:指将两个或两个以上的数据进行比较,分析他们的差异,从而揭示这些数据所代表的事物发展变化情况和规律性。
特点:可以非常直观地看出事物某方面的变化或差距,并且可以准确、量化地表示出这种变化或差距是多少。
2)分类:静态比较实在同一时间条件下对不同总体指标的比较,如不同部门、不同地区、不同国家的比较,也叫横向比较,简称横比。
动态比较是在同一总体条件下对不同时期指标数值的比较,也叫纵向比较,简称纵比。
3)实践运用:与目标对比、不同时期对比(同比/环比)、同级部门/单位/地区对比、行业内对比、活动效果对比等
2.分组分析法:等距分组、不等距分组 组距 组数
3.结构分析法 占比
结构分析法是指被分析总体内的各部分与总体之间进行对比的分析方法,即总体内各部分占总体的比例,属于相对指标。
4.平均分析法
平均分析法就是运用计算平均数的方法来反映总体在一定时间、地点条件下某一数量特征的一般水平。
平均指标:算数平均数、调和平均数、几何平均数、众数、中位数等
5.交叉分析法
6.综合评价分析法
数据标准化:0-1标准化(离差标准化,就是对原始数据作线性变换,使结果落在[0,1]区间)、Z标准化
权重确定方法:专家访谈法、德尔菲法、层次分析法、主成分分析法、因子分析法、回归分析法等、目标优化矩阵
7.杜邦分析法 财务
8.漏斗图分析法 转化率、流失率
9.矩阵关联分析法 象限图分析法
10.高级数据分析方法
5.2 数据分析工具
1.数据透视表
第六章 给数据量体裁衣-数据展现
6.1 解开图表的真面目
作用:表达形象化、突出重点、体现专业化
通过关系选择图表:
图表制作五步法:确定所要表达的主题和目的、确定哪种图表最适合你的目的、选择数据制作图表、检查是否真实有效地展示数据、检查是否表达了你的观点
6.2 表格也疯狂
突出显示单元格、项目选取、数据条、图标集、迷你图
6.3 给图表换装
平均线图、双坐标图、竖行折线图、瀑布图、帕累托图、旋风图、人口金字塔图、漏斗图、矩阵图(散点图)