2.数据挖掘概述——《数据挖掘与数据化运营实战》

2.1 数据挖掘概念

数据挖掘(Data Mining)是知识发现(KDD)的核心部分,它指的是从数据集合众自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为规则、概念、规律及模式等。总体来说,数据挖掘融合了数据库、人工智能、机器学习、统计学、高性能计算、模式识别、神经网络、数据可视化、信息检索和空间数据分析等多个领域的理论和技术。

2.2 统计分析与数据挖据的主要区别

相对于传统的统计分析技术,数据挖掘有如下特点:

  • 数据挖掘擅长处理大数据,尤其是几百万行甚至更大的数据。
  • 数据挖掘在实践应用中会借助数据挖掘工具,这些挖掘工具很多并不需要特别专业的统计背景作为必要条件。
  • 数据挖掘工具的应用更符合企业实战的需要。
  • 从操作者看,数据挖掘技术更多的是企业数据分析师在使用,而不是统计学家用于检测。

数据挖掘与统计分析在如下几方面有显著差异:

  • 对数据统计分析时,常常需要对数据分析和变量关系做假设,确定用什么概率函数描述变量关系,以及如何检验参数的统计显著性;在数据挖掘应用中,不需要岁数据分布做任何假设,数据挖掘算法会自动寻找变量关系。
  • 统计分析在预测中的应用常表现为一组函数关系式,而数据挖掘在预测应用中的重点在于预测的结果,很多时候并不会从结果中产生明确的函数关系式。

2.3 数据挖掘的主要成熟技术

2.3.1 决策数(Decision Tree)

在决策树里,所分析的数据样本先是集成为一个树根,然后经过层层分支,最终形成若干个结点,每个结点代表一个结论。

决策树的构造不需要任何领域的知识,最大的优点在于所产生的一系列从树根到树枝的规则,可以很容易地被分析师理解,而且这些典型的规则甚至不用整理,就是现成的可以应用的业务优化策略。另外,决策树技术对数据分布甚至确实非常宽容,不容易受到极值的影响。

目前,最常用的决策树算法是CHAID,CART,ID3:

  • CHAID(Chi-square Automatic Interaction Detector):卡方自动相互关系检测。依据局部最优原则,即结点之间互不相关,一个结点确定了后,下面的生长过程完全在结点内进行;利用卡方检验来选择对因变量最有影响的自变量,应用前提是因变量为类别型变量;若自变量存在数据缺失情况,则把确实数值作为单独的一类数值。
  • CART(Classification and Regression Tree):分类与回归树。着眼于总体优化,即先让树尽可能地生长,然后再回过头对树进行修剪;采用的标准不是卡方检验,而是基尼系数等不纯度的指标;CART所产生的决策树是二分的,每个结点只能分出两支,并且在树的生长过程中,同一个自变量可以反复多次使用;若自变量存在数据缺失情况,则会寻找一个替代数据填充缺失值。
  • ID3(Iterative Dichotomiser):迭代的二分器。最大特点在于自变量的挑选标准是,基于信息增益的度量选择具有最高信息增益的属性作为结点的分裂属性,其结果就是对分割后的结点进行分类所需要的信息量最小,这也是一种划分纯度的思想;但是信息增益度有个缺点,就是倾向于选择具有大量值的属性,容易使得划分没有任何实际意义。对此,后来发展的C4.5采用信息增益率(Gain Ratio)代替ID3中的信息增益度量,增加了一个分裂信息(SplitInformation)对其进行规范化约束。

决策树技术在数据化运营中的用途体现在:作为分类、预测问题的典型支持技术,它在用户划分、行为预测、规则梳理等方面应用广泛,甚至可以作为其他建模技术前期进行变量筛选的一种方法。

2.3.2 神经网络(Neural Network)

神经网络就是通过输入多个非线性模型以及不同模型中间的加权互联,最终得到一个输出模型。目前主流的“神经网络”算法是反馈传播(Backpropagation),该算法在多层前向型神经网络上进行学习,而多层前向型神经网络又是由一个输入层、一个或多个隐蔽层以及一个输出层组成的,如下图:

由于神经网络拥有大规模并行结构和信息的并行处理等特点,因此它具有良好的自适应型、自组织性和高容错性,并且具有较强的学习、记忆和识别功能。主要缺点就是其知识和结果的不可解释性,没有人知道隐蔽层里的非线性函数到底是如何处理自变量的,但是这个缺点不影响其应用。

在神经网络技术建模过程中,有以下5个因素对模型结果有着重大影响:

  • 层数
  • 每层中输入变量的数量
  • 联系的种类
  • 联系的程度
  • 转换函数(也称激活函数或挤压函数)

神经网络技术在数据化运营中主要用途体现在:作为分类、预测问题的重要技术支持,在用户划分、行为预测、营销响应等方面应用广泛。

2.3.3 回归(Regression)

回归一般指多元线性回归和逻辑斯谛回归,在数据化运营中更多使用的是逻辑斯谛回归,它又包括响应预测、分类划分等内容。多元线性回归在统计分析中更为常见,在此不作介绍。

凡是预测“二选一”事件的可能性,都可以采用逻辑斯谛回归方程。其预测的因变量是介于0和1之间的概率,如果对这个概率进行换算,就可以用线性公式描述隐蔽哪里与自变量的关系了,具体公式如下:

逻辑斯谛回归采用最大似然法估计参数,此方法的优点是在大样本数据中参数的估值稳定、偏差小,估值方差小。

2.3.4 关联规则(Association Rule)

关联规则数据挖掘的主要目的是找出数据集中的频繁模式(Frequent Pattern),即多次重复出现的模式和并发关系(Cooccurrence Relationship),即同时出现的关系,频繁并发关系也称作关联。

应用关联规则最经典的案例就是购物篮分析,通过分析顾客购物篮中商品之间的关联,可以挖掘顾客的购物习惯,从而帮助零售商更好地制定有针对性的营销策略。以下举一个简单的例子:

婴儿尿不湿 → 啤酒 [ 支持度=10%,置信度=70% ]

支持度和置信度分别反映规则的有用性和确定性。这个规则表明,有10%的顾客同时购买了婴儿尿不湿和啤酒,而在所有购买了婴儿尿不湿的顾客中,占70%的人同时还购买了啤酒。发现这个关联规则后,就可以把尿不湿和啤酒摆放在一起进行促销,这就是发生在沃尔玛超市中“啤酒与尿不湿”的经典营销案例。

在众多关联规则数据挖掘算法中,最著名的是Apriori算法,该算法具体分为以下两步进行:

(1)生成所有的频繁项目集。一个频繁项目集是一个支持度高于最小支持度阈值(min-sup)的项目集。

(2)从频繁项目集中生成所有的可信关联规则。这里可信管理规则是指置信度大于最小置信度阈值(min-conf)的规则。

关联规则算法不但在数值型数据集的分析中有很大用途,而且在纯文本文档和网页文件中,也有重要用途。比如发现单词之间的并发关系以及web的使用模式等,这些都是数据挖掘、搜索及推荐的基础。

2.3.5 聚类(Clustering)

聚类分析的算法可以分为划分的方法(Partitioning Method)、层次的方法(Hierarchical Method)、基于密度的方法(Density-based Method)、基于网格的方法(Grid-based Method)、基于模型的方法(Model-based Method)等,其中前面两种方法最为常用。具体的聚类方法在大多数统计课本中有介绍,在此不再赘述。

2.3.6 贝叶斯分类方法(Bayesian Classifier)

贝叶斯分类方法主要用来预测类成员间关系的可能性。比如通过一个给定观察值的相关属性来判断其属于一个特定类别的概率。有研究表明,朴素贝叶斯方法甚至可以跟决策时和神经网络算法相媲美。

设X表示n个属性的测量描述;H为某种假设,比如假设某观察值x属于某个特定的类别C;对于分类问题,希望能通过给定的C的测量描述,来得到H成立的概率,计算出改观察知属于类别C的概率。相比于先验概率P(H),后验概率P(H|X)基于了更多的信息,而P(H)是独立于X的。如果给定数据集里面有M个分类类别,通过朴素贝叶斯分类法,可以预测给定观察知是否属于具有最高后验概率的特定类别,也就是说,朴素贝叶斯方法预测X属于类别Ci时,表示当且仅当:

P(CI|X)>P(Cj|X)  1≤j≤m  ,  ,j≠i

即最大化 P(CI|X),只需最大化P(X|Ci)P(Ci)。

2.3.7 支持向量机(Support Vector Machine)

与传统的神经网络相比,支持向量机不仅结构简单,而且各项技术的性能也明显提升,因此它成为当今机器学习领域中的热点之一。

支持向量机以结构风险最小为原则。在线性的情况下,就在原空间寻找两类样本的最优分类超平面。在非线性情况下,它使用一种非线性的映射,将原训练集数据映射到较高的维上。在新的维上,它偶所线性最佳分离超平面。使用一个适当的足够高维的非线性映射,两类数据总可以被超平面分开。

支持向量机的基本概念如下:

设给定的训练样本集为{(x1,y1),(x2,y2),...,(xn,yn)},其中xi属于Rn,y属于{-1,1}

再假设该训练集可被一个超平面线性划分,设该超平面记为(w,x)+ b = 0

支持向量机的基本思想可用下图的两维情况举例说明:

图中的加号和减号代表两类样本,H为分类线,H1和H2分别为过各类样本中离分类线最近的样本并且平行于分类线的直线,它们之间的距离叫做分类间隔(Margin)。所谓最优分类线就是要求分类线不但能将两类正确分开(训练错误为0),而且能使分类间隔最大。推广到高维空间,最优分类线就成了最优分类面。

其中距离超平面最近的一类向量被称为支持向量,一组支持向量可以唯一确定一个超平面。通过学习算法,SVM可以自动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器则可以最大化类与类的间隔,因而有较好的适应能力和较高的分类准确率。支持向量机的缺点是训练数据较大,但是它的优点也是很明显的——对于复杂的非线性的决策边界的建模能力高度准确,并且也不太容易过拟合。

2.3.8 主成分分析(Principal Components Analysis)

2.3.9 假设检验(Hypothesis Test)

以上两种方法,主成分分析和假设检验,在常见的统计分析书中都有详细论述,在此不再赘述。

原文地址:https://www.cnblogs.com/data-science-chinchilla/p/8973201.html

时间: 2024-08-30 09:33:53

2.数据挖掘概述——《数据挖掘与数据化运营实战》的相关文章

#数据挖掘与数据化运营实战#2.3数据挖掘的主要成熟技术以及在数据化运营中的主要应用

编号 数据挖掘技术 应用 算法 优势 劣势 1 决策树(Decision Tree) 用户划分.行为预测.规则梳理 CHAIDCARTID3.C4.5.C5.0 1.决策树的构造不需要任何领域的知识,很适合探索式的知识发掘,并且可以处理高维度的数据2.决策树所产生的一系列从树根到树枝(或树叶)的规则,可以很容易地被分析师和业务人员理解,而且这些典型的规则甚至不用整理(或稍加整理),就是现成的可以应用的业务优化策略和业务优化路径3.决策树技术对数据的分布甚至缺失非常宽容,不容易受到极值的影响 2

1.什么是数据化运营——《数据挖掘与数据化运营实战》

1.1 现代营销理论:3P3C理论 数据化运营来源于现代营销管理,所以我们首先从3P3C理论讲起. 在3P3C理论中,数据化运营6要素的内容如下: Probability(概率):营销.运营活动以概率为核心,追求精细化和精准率 Product(产品):注重产品功能,强调产品卖点 Prospects(消费者):目标用户 Creative(创意):包括文案.活动 Channel(渠道) Cost/Price(成本/价格) 而在这其中,目标响应概率(Probability)是核心,在此基础上将围绕产品

3.数据化运营中常见的数据分析项目类型——《数据挖掘与数据化运营实战》

3.1 目标客户的特征分析 在目标客户的典型特征分析中,业务场景可以是试运营之前的虚拟特征探索(来源历史数据模拟推测),也可以是试运营之后来自真实运营数据基础上的分析.挖掘和提炼,两者目标一致,只是思路不同.数据来源不同而已.另外,分析技术也有一定的差异. 3.2 目标客户的预测(响应.分类)模型 这里的预测模型包括流失预警模型.付费预测模型.续费预测模型.运营活动响应模型等,其中涉及的主要数据挖掘技术包括逻辑回归.决策树.神经网络.支持向量机等.没有哪个算法在任何场景下都总能最优胜任响应模型的

数据化运营概述

1. 数据化运营的概述 数据化运营是指通过数据化的工具.技术和方法,对运营过程中的各个环节进行科学的分析.引导和应用,从而达到优化运营效果和效率.降低运营成本.提高效益的目的.包括会员运营.商品运营.流量运营和内容运营四方面的内容. 2. 数据化运营的意义 数据化运营的核心是运营,数据化运营的价值体现在对运营的辅助.提升和优化上,将运营工作逐步数字化.自动化和智能化. 提高运营决策效率 提高运营决策正确性 优化运营执行过程 提升投资回报 3. 数据化运营的2种方式 (1) 辅助决策式数据化运营

第二章:数据挖掘概述

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为规则.概念.规律及模式等 2.1数据挖掘的发展历史 ..... 2.2数据分析与数据挖掘的主要区别 相对于传统的统计分析技术,数据挖掘有如下特点: 数据挖掘擅长处理大数据(几十几百万行或者更多的数据) 数据挖掘在实践应用中一般都会借助数据挖掘工具 数据分析应用的趋势是用大型数据库中抓取数据 数据挖掘是统计分析技术的延伸和发展 数据挖掘和统计分析的差别: 统计分析的基础之一就是概率论,对数据进行统计分析需要

如何搭建数据化运营知识体系

数据化运营的概念随着大数据时代的到来被炒得越来越火热,提到数据分析.数据运营让很多产品经理.运营新人觉得瞬间高大上很多.随着数据概念的火热,如增长黑客.GrowingIO等一系列的数据分析指导产品增长的书籍.产品变得越来越受人追捧. 对于互联网行业来说,无论是产品经理还是运营,都需要具备一定的数据运营能力,本文将帮助没有数据化思维的小伙伴搭建基础的数据化运营体系. 本文会按照上图中的数据化运营业务流程进行分析,从明确目标.数据指标制定.数据获取.数据分析.形成策略.验证优化这六个方面来搭建数据化

蔡先生论道大数据之(十五) :什么是数据化运营?

数据化运营讨论(1) 近现代营销理论代表思想是4P理论,4P是指产品.价格.渠道.促销,它的核心是产品,其他要素都是围绕产品这个核心来的,进入21世纪人们又提出了4C的营销理论,包括消费者.成本.方便性.沟通交流,它的核心是用户是消费者,一切以消费者为核心,这也是目前大多数企业市场营销战略核心思想. 社会在进步,4C理论之后来到了大数据时代,所面对的行业状况是,白热化的市场竞争,越来越严苛的营销预算.堆积如山的海量数据,迫使企业寻找更加适合的营销思路和方法.目前行业主流的理论是3P3C,包括概率

产品黑客特训营——产品构建&运营实战【7月6-9日姜大胡子】

<产品黑客>--产品构建&运营实战,由大胡子老师携手跨界引导师团队带来三天.两晚.四次线上分享,内容包含产品构建方法.产品运营.修炼全脑思维.视觉设计.跨界引导等,以及奔驰.阿里巴巴经典案例,为您呈现一种全新的课堂体验,7月6-8日 北京 不见不散. 互联网时代, 如何才能构建一款优秀的产品? 下?个趋势到底在哪里? 怎样才能构建?个高粘度的线上社群? 如何完成从0到1的冷启动? 『互联网+』,到底+的是什么?怎么+? 如何洞察用户心理,让用户无法不买? 怎么才能做到有效传播? 如何撰

第三章:数据化运营中常见的数据分析项目类型

3.1目标客户的特征分析 数据化运营的第一步(最基础的步骤)就是要找准你的目标客户.目标受众,然后才是相应的运营方案.个性化的产品和服务等. 在目标客户的典型特征分析中,业务场景可以是试运营之前的虚拟特征探索,也可以是试运营之后来自真实运营数据基础上的分析.挖掘与提炼,两者目标一致,只是思路不同.数据来源不同而已,另外分析技术也有一定的差异 3.2目标客户的预测(响应.分类)模型(核心是响应概率) 这里的预测(响应.分类)模型包括流失预警模型.付费预测模型.续费预测模型.运营活动响应模型等 根据