一.数据分析概述
1. 数据分析的概念
数据分析就是分析数据,从一大堆数据中提取你想要的信息。比较专业的回答:数据分析是有针对性的收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据的科学与艺术。比较客观的回答:从行业的角度看,数据分析是基于某种行业目的,有目的地对数据进行收集、整理、加工和分析,提炼有价值信息的过程。
理解数据分析的三个方面:目标、方法、结果。
2. 数据挖掘的概念
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。它是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。
3. 商业数据分析预测的本质
数据分析和业务是紧密联合在一起的,其目的就是满足商业决策的需求。预测未来发展情况,及早发现问题,对业务进行优化,制定最优的决策方案。
4. 数据分析的8个层次
常规报表
即席查询
多维分析
警报
统计分析
预报
预测型建模
优化
5. 大数据对传统小数据的拓展
(1)大数据与小数据,大量数据的区别与转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。
(2).还有一个重要的区别是在用途上,过去的数据很大程度上停留在说明过去的状态,拿数据说话,实际上是用过去的数据说明过去,而大数据的核心就是预测。大数据将为人类的生活创造前所未有的可量化的维度。使数据从原来停留在说明过去变为驱动现在,我以为预测对企业的作用从两个方向:
A.宏观是对趋势的预测,给企业做大势分析,
B.微观是对个体的精准分析,给企业做个性化精准营销
(3).从结构上,大数据更多的体现在海量非结构化数据本身与处理方法的整合
大数据与小数据判断原则:
A.数据的量
B.数据的种类、格式
C.数据的处理速度
D.数据复杂度
(4).分析基础不同,大数据是只有在大规模数据的基础上才可以做的事情,而这需要有从量变到质变的过程,也正因为科技的创新在方法上打下基础,而利用互联网展开的新的生活与工作方式,让信息积累到可以引发变革的程度,而很多事情在小规模数据的基础上是无法完成的
6. 明确数据分析目标的意义
数据分析的关键在于设定目标,专业上叫做“有针对性”。
数据分析的前提是有清晰的目标。对数据分析目的的把握,是数据分析成败的关键。只有对数据分析的目的深刻理解,才能整理出完整的分析框架和思路,因为根据不同的分析目标所选择的分析方法是不同的。
7. 数据分析的过程
明确分析的目的和内容——>数据收集——>数据预处理——>数据分析——>数据展现——>撰写报告
8. 统计分析和数据挖掘的区别和联系
联系:都来源于统计基础理论,数据挖掘中也经常会用到统计分析方法,如主成分分析、回归分析
区别:数据挖掘是统计分析方法的延伸和发展。统计分析常需要先做假设或判断,然后利用数据分析技术来验证假设是否成立。数据挖掘则不需要对数据内在的关系做任何假设和判断,而是让数据挖掘工具中的算法自动去寻找数据中隐藏的关系和规律。 统计分析在预测中的应用常表现为一个或者一组函数关系式,而数据挖掘在预测中有时候不会从结果中生产明确的函数关系,不知道哪些变量起作用,缺乏解释性,例如“神经网络”。
实际应用中,统计分析和数据挖掘是不可分割开来。
9. CRISP-DM
CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘标准流程".
CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段。
是一种数据挖掘项目关系方法论。
10. SEMMA
SAS公司的数据挖掘项目实施方法论。对CRISP-DM方法中的数据准备和建模环节进行了拓展。
Sample ─数据取样
Explore ─数据特征探索、分析和予处理
Modify ─问题明确化、数据调整和技术选择
Model ─模型的研发、知识的发现
Assess ─模型和知识的综合解释和评价
11. 数据分析中不同人员的角色与职责
一个大型数据分析项目会涉及行业学术专家、业务专家、数据分析师和IT人员。其中,业务专家提供业务目标,业务理解,并提供目前的营销和反馈信息;学术专家提供相关领域研究的最新进展,并进行维度分析;数据分析师进行数据理解、清洗和建模;IT人员提供数据支持和项目实施支持。
二、 描述性统计分析
1. 数据的计量尺度
定类尺度、定序尺度、定距尺度、定比尺度
2. 数据的集中趋势
集中趋势在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。集中趋势测度就是寻找数据水平的代表值或中心值。
常用的指标:平均数、中位数(分位数)、众数
平均值易受极端值影响,中位数和众数不受极端值影响。
3. 数据的离中趋势
离中趋势在统计学中是指一组数据向某一中心值分散的程度,它反映了各个数据远离中心点的程度。从侧面说明了集中趋势测度的代表程度。
常用指标:极差、四分位距、平均差、方差、标准差、离散系数
极差 = 最大值 - 最小值
四分位距 = (第三个四分位数 - 第一个四分位数) / 2
平均差
方差
· 标准差(一般68%在一个标准差,95%在2个标准差,其余5%远离)
离散系数(比较两组样本离中程度大小:离散系数越小,平均值越具有代表性)
4. 数据分布形态
一组或一系列数字,落在坐标图里的形态特征。比如:正态分布。
数据分布形态的测度主要以正态分布为标准进行衡量。
指标: 偏态、峰度
(1)偏态(数据分布的不对称性)
正偏态:平均数 > 众数>中位数 负偏态: 平均数< 众数<中位数
偏态系数 :计算方法有多种,在Excel中的计算公式为
SK=0 分布为对称的
SK>0 正偏态,值越大,正偏程度越高
SK<0 负偏态,值越小,负偏程度越高
(2)峰度
峰度系数:在Excel中的计算公式为
K=0 标准峰度
K<0 平顶峰度
K>0 尖顶峰度
(3)适度偏态时,中位数与平均数的距离,约等于众数与平均数距离的三分之一
已知两个,可以推导另一个。
5. 统计图
常用: 条形图 扇形图 折线图 箱线图 茎叶图 直方图
三、 抽样估计
1. 随机试验、随机事件、随机变量的概念
随机试验: 对随机现象的观测
随机事件:由随机现象的某些基本结果组成的集合
随机变量:用来表示随机现象结果的变量
2. 总体与样本的概念
总体:把研究对象的全体称为总体
样本:一般地,从研究的总体中按照一定规则抽取n个个体进行观察或试验,这n个个体称为总体的一个样本
3. 抽样估计的理论基础
抽样估计是利用抽样调查所获得的样本信息,根据概率论所揭示的随机变量的一般规律,对总体的某些数量特征进行估计的一种统计分析方法。
抽样估计是建立在大数定律和中心极限定理基础上的。大数定律论证了抽样平均数趋近于总体平均数的趋势。中心极限定理论证了抽样平均数和总体平均数的离差在一定范围的概率问题。
4. 正态分布及三大分布
(1)正态分布
正态分布的特征:
a. 正态分布有两个参数,即均数μ和标准差σ,可记作N(μ,σ2):均数μ决定正态曲线的中心位置;标准差σ决定正态曲线的陡峭或扁平程度。σ越小,曲线越陡峭;σ越大,曲线越扁平。
b. u变换:为了便于描述和应用,常将正态变量作数据转换。μ是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以X=μ为对称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于μ。
c. σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
d. 3σ原则:P(μ-σ<X≤μ+σ)=68.3%P(μ-2σ<X≤μ+2σ)=95.4%P(μ-3σ<X≤μ+3σ)=99.7%
(2) 卡方分布
卡方分布是从正态分布中衍生出的一种分布。其定义是若干个随机变量的平方和也服从一种分布,即卡方分布。
(3)t分布
(3)F分布
三大分布的用途:
卡方分布:常用于拟合优度检验
t分布: 多用于比例的估计和检验,用于方差分析,协方差分布和回归分析
t分布: 在信息不足的情况下,只能用t分布,比如在整体方差不知道的情况下,对总体均值的估计和检验常用t统计量
5. 抽样的组织形式
简单随机抽样
分层抽样
等距抽样
整群抽样
阶段抽样
6. 确定必要样本容量的原因
必要样本容量是指为了使抽样误差不超过给定的允许误差范围,至少应该抽取的样本个体数目。
如果抽样数目过大,尽管误差会减小,但是会增加调查的工作量,费时费力,体现不出抽样的优越性;抽样数目过少,误差变大,失去了抽样调查的意义。所以要选择合适的样本数量。
7. 必要样本容量的影响因素
总体方差(标准差σ)
允许误差范围
置信度(1-α)
抽样方法
抽样组织形式
8. 抽样平均误差
抽样平均误差是抽样平均数的标准差。反映了抽样平均数与总体平均数的平均误差程度。总体中多个样本的平均数的标准差。
9. 点估计与区间估计的特点及优缺点
参数估计就是通过样本来推断总体分布中的未知参数或者对未知参数的某些函数做出估计。
参数估计的两种基本形式:点估计 、 区间估计
点估计:是一种以点代面的估计方法。
特点 : 根据总体指标的结构形式设计样本指标,并以样本指标的实际数值直接作为总体指标的估计值。
优点: 简便易行,原理直观
缺点:没有标明点估计的误差,没有指出在误差在一定范围内的概念保证程度
区间估计:区间估计必须同时具备估计值、抽样误差范围、概率保证程度三个要素。
特点:不直接给出总体参数的被估计值,而是规定总体参数被估计值的上下限,即总体参数存在的区间范围,并给予一定概率的保证。
优点:明确了精度和可靠性
缺点:精度和可靠性是相互矛盾的。求出参数的置信区间,先保证可靠性,再提高精度。
10. 总体平均数和成数的区间估计方法
总体平均数的区间估计:
总体成数的区间估计:
11. 中心极限定理的意义和应用
中心极限定理的核心内容是只要n足够大,便可以把独立同分布的随机变量和的标准化当作正态变量,所以可以利用它解决很多实际问题,同时这还有助于解释为什么很多自然群体的经验频率呈现出钟形曲线这一值得注意的事实,从而正态分布成为概率论中最重要的分布,这就奠定了中心极限定理的首要功绩。其次,中心极限定理对于其他学科都有着重要作用。例如数理统计中的参数(区间)估计、假设检验、抽样调查等;进一步,中心极限定理为数理统计在统计学中的应用铺平了道路,用样本推断总体的关键在于掌握样本特征值的抽样分布,而中心极限定理表明只要样本容量足够地大,得知未知总体的样本特征值就近似服从正态分布。从而,只要采用大量观察法获得足够多的随机样本数据,几乎就可以把数理统计的全部处理问题的方法应用于统计学,这从另一个方面也间接地开辟了统计学的方法领域,其在现代推断统计学方法论中居于主导地位。
12. 样本可能数目
样本可能数目是指从总体红可能抽取的全部样本数目。与抽取方法和样本容量有关系。
重复抽样
不重复抽样
四、假设检验
1.假设检验的基本概念和基本思想
假设检验:从总体出发用样本尺度去检验,实现对总体指标分析的过程。目的是为了分析样本指标和总体指标之间是否存在显著性差异。
基本思想:(1)反证法 (2)小概率事件。
对总体指标进行某种假设,以小概率事件不发生为基准,运用反证法思想,按照总体的假设,并根据所获得的样本的数据,通过样本统计量的分布,得出小概率事件在某一次抽样中发生的错误现象,从而对总体指标的假设做出拒绝的判断。
2. 假设检验在数据分析中的作用
在总体情况未知,以历史经验对总体进行推测,利用样本的统计量对推测结果进行检验。假设检验的原理和方法是数据分析的基石之一。
3. 假设检验的基本步骤
(1)建立原假设
(2)选择检验统计量
(3)寻找拒绝域
(4)计算样本统计量的值,和临界值做比较,做出判断
4. 假设检验与区间估计的联系
假设检验是从对总体进行假设使用样本数据进行检验,而区间估计是从样本数据出发,估计总体的参数,但两者本质上是一致的。
在相同的显著性水平下,假设检验和区间估计得出的结果是一致的。
5. 假设检验中的两类错误
(1)在原假设为真得情况下,拒绝原假设
(2)在原假设为不真的情况下,接受原假设
事先给定显著性水平α,标明犯第一类错误的概率不超过α 。在样本容量一定的情况下,两类错误发生的概率是负相关。通常控制第一类错误发生的概率,一般情况下α取值为0.01、0.05、0.1等。
6. 利用P值进行假设检验
(1)P值的含义
P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。总之,P值越小,表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。
(2)P值的计算
一般地,用X 表示检验的统计量,当H0 为真时,可由样本数据计算出该统计量的值C ,根据检验统计量X 的具体分布,可求出P 值。具体地说:
左侧检验的P 值为检验统计量X 小于样本统计值C 的概率,即:P = P{ X < C}
右侧检验的P 值为检验统计量X 大于样本统计值C 的概率:P = P{ X > C}
双侧检验的P 值为检验统计量X 落在样本统计值C 为端点的尾部区域内的概率的2 倍: P = 2P{ X > C} (当C位于分布曲线的右端时) 或P = 2P{ X< C} (当C 位于分布曲线的左端时) 。若X 服从正态分布和t分布,其分布曲线是关于纵轴对称的,故其P 值可表示为P = P{| X| > C} 。
(3)使用P值进行判断
计算出P 值后,将给定的显著性水平α与P 值比较,就可作出检验的结论:
如果α > P 值,则在显著性水平α下拒绝原假设。
如果α ≤ P 值,则在显著性水平α下接受原假设。
在实践中,当α = P 值时,也即统计量的值C 刚好等于临界值,为慎重起见,可增加样本容量,重新进行抽样检验。
7. Z检验统计量
z检验,也称u检验。在原假设成立时,检验统计量服从标准正态分布。一般用于大样本(n>30)。
(1)单个正态总体平均数的检验
(2)两个正态总体平均数之差的检验
适用条件:
(1) 已知总体均数;
(2) 可得到样本均数及该样本标准误;
(3) 样本来自正态或近似正态总体。
8. T检验统计量
在原假设成立时,检验统计量服从t分布。