《BI那点儿事》数据挖掘的主要方法

原文:《BI那点儿事》数据挖掘的主要方法

一、回归分析
目的:
设法找出变量间的依存(数量)关系, 用函数关系式表达出来。
所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。
回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。
此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。
回归分析法是定量预测方法之一。它依据事物内部因素变化的因果关系来预测事物未来的发展趋势。由于它依据的是事物内部的发展规律,因此这种方法比较精确。测报工作中常用的是一元线性回归和多元线性回归模型。
一元线性回归是指事物发展的自变量与因变量之间是单因素间的简单线性关系,它的模型可以表示为: y=a+bx
其中y是因变量,x是自变量,a是常数,b是回归系数。
多元线性回归是指一个因变量与多个自变量之间的线性关系。模型的一般型式为:
y=a+b1x1+b2x2+…+bnxn
其中,y是因变量,x1、x2、…xn是自变量,a是常数,b1、b2、…bn是回归系数。
logistic回归(logistic regression)是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。
logistic回归的分类:
(1)二分类资料logistic回归:因变量为两分类变量的资料,可用非条件logistic回归和条件logistic回归进行分析。非条件logistic回归多用于非配比-对照研究或队列研究资料,条件logistic回归多用于配对或配比资料。
(2)多分类资料logistic回归:因变量为多项分类的资料,可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。

二、分类分析
(1)决策树
决策树方法的起源是概念学习系统CLS,然后发展到ID3方法而为高潮,最后又演化为能处理连续属性的C4.5。有名的决策树方法还有CART和Assistant。 决策树是应用最广的归纳推理算法之一,一种逼近离散值目标函数的方法,对噪声数据有很好的健壮性且能学习析取表达式。
决策树通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。树上的每一个节点说明了对实例的某个属性的测试,并且该节点的每一个后继分支对应于该属性的一个可能值。
决策树使用的问题:
1)实例是由属性-值对表示的;2)目标函数具有离散的输出值;3)可能需要析取的描述;4)训练数据可以包含错误;5)训练数据可以包含缺少属性值的实例。
决策树属性的选择:构造好的决策树的关键在于如何选择好的逻辑判断或属性。对于同样一组例子,可以有很多决策树能符合这组例子。人们研究出,一般情况下或具有较大概率地说,树越小则树的预测能力越强。要构造尽可能小的决策树,关键在于选择恰当的逻辑判断或属性。由于构造最小的树是NP-难问题,因此只能采取用启发式策略选择好的逻辑判断或属性。
决策树的优点:可以生成可以理解的规则;计算量相对来说不是很大;可以处理连续和离散字段;决策树可以清晰的显示哪些字段比较重要。
决策树的缺点:对连续性的字段比较难预测;当类别太多时,错误可能会增加的比较快;一般的算法分类的时候,只是根据一个属性来分类。;不是全局最优。
(2)人工神经网络
人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。人工神经网络是由人工建立的以有向图为拓扑结构的动态系统,它通过对连续或断续的输入作状态相应而进行信息处理。
人工神经网络的特点:可以充分逼近任意复杂的非线性关系;所有定量或定性的信息都等势分布贮存于网络内的各神经元,故有很强的鲁棒性和容错性;采用并行分布处理方法,使得快速进行大量运算成为可能;可学习和自适应不知道或不确定的系统;能够同时处理定量、定性知识。

三、相关性分析
研究现象A,B之间是的某种依存关系,或者研究变量X,Y之间的相互依存关系的密切程度。就是对总体中确实具有联系的标志进行分析,其主体是对总体中具有因果关系标志的分析。它是描述客观事物相互间关系的密切程度并用适当的统计指标表示出来的过程。例如:在一段时期内出生率随经济水平上升而上升,这说明两指标间是正相关关系;而在另一时期,随着经济水平进一步发展,出现出生率下降的现象,两指标间就是负相关关系。

四、聚类分析
聚类是一个将数据集划分为若干组或类的过程,并使得同一个组内的数据对象具有较高的相似度而不同组中的数据对象是不相似的。相似或者不相似描述的是基于数据描述属性的取值来确定的。通常是利用各对象间的距离来进行表示。
数据挖掘领域的聚类算法有很多种,其中k-means聚类算法是最简单而且非常有效的聚类算法。采用k-means聚类算法对整个用户空间进行聚类的主要步骤如下:
(1)随机选择k个用户作为种子节点,将k个用户对项的评分数据作为初始的聚类中心。
(2)对剩余的用户集合,计算每个用户与k个聚类中心的相似性,将每个用户分配到相似性最高的聚类中。
(3)对新生成的聚类,计算聚类中所有用户对项的平均评分,生成新的聚类中心。
(4)重复以上2到3步,直到聚类不再发生改变为止。
例如:通过分组聚类出具有相似行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。

五、判别分析
判别分析是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。例如:为了确诊某种疾病,需要将病人的各项检测指标同各种典型的病历做对照,从而判断其最可能属于哪种疾病。

六、主成分分析
设法将原来的变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。

七、因子分析
根据相关性的大小把变量分组,使得同组内的变量相关性高,不同组变量的相关性较低,然后在每一个组内提炼出一个公因子。
从大量的指标中提取有代表性的共性因子,比如客户忠诚度,满意度等。 主成份分析是寻找一种逼近,能够最大可能的描述数据的变化(variability)。因子分析可以理解为一个隐变量模型。由此可以说,因子分析某种程度上是一个参数模型

八、时间序列分析
根据系统观测得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。
常用在国民经济宏观控制、区域综合发展规划、企业经营管理、市场潜量预测、气象预报、水文预报、地震前兆预报、农作物病虫灾害预报、环境污染控制、生态平衡、天文学和海洋学等方面。

常见应用以及采用的分析技术:

  • 客户流失 (分类模型、Logistic回归算法)
  • 用户流失预测(分类模型、神经网络、Logistic回归算法)
  • 购买倾向预测(分类模型、Logistic回归算法)
  • 增量销售预测 (分类模型、Logistic回归算法)
  • 客户价值增长预测 (分类模型、Logistic回归算法)
  • 竞争对手流失预测 (分类模型、Logistic回归算法)
  • 客户级别打分 (分类模型、Logistic回归算法)
  • 点击率分析(聚类模型、偏差检测、Logistic回归算法)
  • 网站访问行为分析(聚类模型)
  • 客户分群 (聚类模型、K-Means算法)
  • 购物篮分析 (关联规则)
  • 。。。。
时间: 2024-12-26 11:41:39

《BI那点儿事》数据挖掘的主要方法的相关文章

《BI那点儿事》浅析十三种常用的数据挖掘的技术

原文:<BI那点儿事>浅析十三种常用的数据挖掘的技术 一.前沿 数据挖掘就是从大量的.不完全的.有噪声的.模糊的.随机的数据中,提取隐含在其中的.人们事先不知道的但又是潜在有用的信息和知识的过程.数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种,按功能可以分为两大类:预测性(Predictive)模式和描述性(Descriptive)模式.在应用中往往根据模式的实际作用细分为以下几种:分类,估值,预测,相关性分析,序列,时间序列,描述和可视化等. 数据挖掘涉及的学科领域和技术很多,有

《BI那点儿事—数据的艺术》目录索引

转自:http://www.cnblogs.com/Bobby0322/p/4052495.html 原创·<BI那点儿事—数据的艺术>教程免费发布 各位园友,大家好,我是Bobby,在学习BI和开发的项目的过程中有一些感悟和想法,整理和编写了一些学习资料,本来只是内部学习使用,但为了方便更多的BI开发者,推动BI企业级应用开发,决定整理成一部教程,并在网络上免费发布该教程,希望为BI时代贡献绵薄之力! 本教程是由Bobby参考官方文档,综合市面相关书籍,经过充分的吸收消化,结合开发实践的而创

《BI那点儿事》Microsoft 线性回归算法

原文:<BI那点儿事>Microsoft 线性回归算法 Microsoft 线性回归算法是 Microsoft 决策树算法的一种变体,有助于计算依赖变量和独立变量之间的线性关系,然后使用该关系进行预测.该关系采用的表示形式是最能代表数据序列的线的公式.例如,以下关系图中的线是数据最可能的线性表示形式. 关系图中的每个数据点都有一个与该数据点与回归线之间距离关联的错误.回归方程式中的系数 a 和 b 可以调整回归线的角度和位置.可以对 a 和 b 进行调整,直到与所有点都关联的错误总数达到最低值

《BI那点儿事》Microsoft 神经网络算法

原文:<BI那点儿事>Microsoft 神经网络算法 Microsoft神经网络是迄今为止最强大.最复杂的算法.要想知道它有多复杂,请看SQL Server联机丛书对该算法的说明:“这个算法通过建立多层感知神经元网络,建立分类和回归挖掘模型.与Microsoft决策树算法类似,在给定了可预测属性的每个状态时, Microsoft神经网络算法计算输入属性每个可能状态的概率.然后可以用这些概率根据输入属性预测被预测属性的输出.”什么时候用这个算法呢?推荐在其他算法无法得出有意义的结果时再用,如提

《BI那点儿事》数据流转换——透视

原文:<BI那点儿事>数据流转换--透视 这个和T-SQL中的PIVOT和UNPIVOT的作用是一样的.数据透视转换可以将数据规范或使它在报表中更具可读性. 通过透视列值的输入数据,透视转换将规范的数据集转变成规范程度稍低.但更为简洁的版本.例如,在列有客户名称.产品和购买数量的规范的 Orders 数据集中,任何购买多种产品的客户都有多行,每一行显示一种产品的详细订购信息.此时,如果对产品列透视数据集,透视转换可以输出每个客户只有一行的数据集.这一行列出该客户购买的所有产品,产品名称显示为列

《BI那点儿事》META DATA(元数据)

原文:<BI那点儿事>META DATA(元数据) 关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据.同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理.为数据仓库的发展和使用提供方便.关于数据的数据,用于构造.维持.管理.和使用数据仓库,在数据仓库中尤为重要.不同 OLAP 组件中的数据和应用程序的结构模型.元数据描述 OLTP 数据库中的表.数据仓库和数据集市中的多维数据集这类对象,还记录哪些应用程序引用不同

《BI那点儿事》Microsoft 顺序分析和聚类分析算法

原文:<BI那点儿事>Microsoft 顺序分析和聚类分析算法 Microsoft 顺序分析和聚类分析算法是由 Microsoft SQL Server Analysis Services 提供的一种顺序分析算法.您可以使用该算法来研究包含可通过下面的路径或“顺序”链接到的事件的数据.该算法通过对相同的顺序进行分组或分类来查找最常见的顺序.下面是一些顺序示例: 用来说明用户在导航或浏览网站时产生的点击路径的数据. 用来说明客户将商品添加到在线零售商的购物车中的顺序的数据. 该算法在许多方面都

《BI那点儿事》数据流转换——条件性拆分

原文:<BI那点儿事>数据流转换--条件性拆分 根据条件分割数据是一个在数据流中添加复杂逻辑的方法,它允许根据条件将数据输出到其他不同的路径中.例如,可以将TotalSugar< 27.4406的输出到一个路径,TotalSugar >= 27.4406的输出到另一个路径.如图.可以从上面的属性结构中拖放一个列或者代码段,然后根据逻辑重命名而不是使用默认值Case1,还可以编辑输出列的名字.

《BI那点儿事》数据流转换——百分比抽样、行抽样

原文:<BI那点儿事>数据流转换--百分比抽样.行抽样 百分比抽样和行抽样可以从数据源中随机选择一组数据.这两种task都可以产生两组输出,一组是随机选择的,另一组是没有被选择的.可以将这些选择出的数据发送到开发或者测试服务器上.这个Task的最合适的应用是建立数据挖掘模型然后,使用这些抽样数据来验证这个模型. 编辑这种task,选择要抽取的行数或者 百分比,如图.百分比抽样按百分比从数据源中随机选择数据,行抽样从数据源中随机选择具体的行数.可以对选中的数据和未被选择的数据命名.最后一个选择项