解读数据分析是神马?

1、什么是数据分析/挖掘

数据分析/挖掘的目的是为业务发展答疑解惑。他描述了“过去发生了什么”、“现在正在发生什么”和“未来可能发生什么”。根据分析的级别,分为常规报表、即席查询、多维分析(又称为钻取或者OLAP)、报警、统计分析、预报(或者时间序列预测)、预测性(predictive)模型和优化

常规报表:常规报表广为人知,它们通常按照一定的周期产生,对过去一段时间、一定范围内所发生的事实进行记录。它们对了解业务现状非常有用,但是却无法据此进行长期决策。标准报表主要用于回答“发生了什么”和“什么时候发生”这样的问题。典型的标准报表包括月度或季度的财务报告。

即席查询:即席查询往往通过对一系列数据(组合)的要求来“回答”一些常见的业务问题。即席报表主要用于解决类似“多少”、“频次如何”和“在哪里”这样的问题。记录每种产品每天销量的定制报表就属于即席报表。

多维分析(又称为钻取或者OLAP技术):OLAP技术可以帮助了解更多细节信息,它可以帮助客户自己操纵数据,找出诸如“多少”、“什么”和“哪里”之类问题的答案。OLAP技术主要解决的是“问题出在哪里”和“我如何找到问题的答案”这样的问题。例如,对不同类型的电话客户的通话行为进行排序,找出他们的通话特征就需要运用到OLAP技术。

报警:当问题发生时你可以通过告警及时获知,并且可以在将来发生类似情况时引起注意。告警可以通过电子邮件、网络频道、记分卡或者仪表盘的形式给出。报警的过程需要确认的是引起注意的触发点,以及一旦报警需要采取什么行动。比如,销售总监在销售情况与销售目标差距大时会收到告警信息。

统计分析:我们可以运行一些更加复杂的分析。例如,方差分析和回归分析模型等。我们可以基于数据提出一些假设,然后再利用数据构建统计分析模型来“回答”这些假设是否成立。统计分析解决的问题主要是“行为/事件为什么发生”和“我失去了怎样的机会”。例如,银行希望了解什么样的人,更可能对他们的房子进行转按揭操作,那么他们就会用到统计分析的方法。

预报(或者时间序列预测):它能够帮助建立恰当的库存,从而使得既不会脱销,也不会积压库存。时间序列预测主要解决的问题是“未来的趋势会怎样”和“如果这样的趋势继续会怎样”。例如,零售商可以根据销售历史,预测未来特定店铺的特定产品的销售量,而这样的预测过程就是时间序列预测。

预测性(predictive)模型:如果你有1000万个客户需要做一次直邮,谁最有可能响应?怎样对现有客户进行有效分群?哪些客户最可能流失?预测性模型可以回答这类问题。预测性模型主要关心的是将来可能发生的情况,以及不同的预测情况对业务的影响。例如,商户可以预测客户可能会对哪种产品更有兴趣,以及哪些客户会对特定产品更有兴趣。

优化:优化往往带来创新,它使企业可以在有限资源下实现收入(利润)最大化。优化强调的是更好地利用各种资源的途径。例如,在特定资源条件下,如何安排并使收入利润最大化,就是优化需要解决的问题。

前4类分析提供了关于以往和当前情况的描述,让业务人员对历史情况有一个深入的认识。但是这往往是不够的,这就像在驾驶的时候只看两边和后视镜,而挡住前面的玻璃,对前面发生的情况一无所知。第5类到第7类分析提供了向前看的途径,可以预测未来发展的情况,及早发现问题,做到提前准备。而最后一类分析是在掌握了未来发展状况之后,对业务进行优化,制定最优的决策方案。

从上面介绍中可以看到,数据分析是和业务紧密联系在一起的,其目的就是满足商业决策的需求。这种决策是以事实和数据分析的结果为基础,结合经验和行业的洞察作出决策。在解读和判断数据模型时,需要融入对业务的理解、融入基于经验的灵感,很多时候是无法用单纯的公式或规则来替代人的智慧和艺术灵感的。因此,数据分析是技术与艺术的结合。如果可以量化分析某些问题,那么就去分析,但别忘记加入你的经验、知识和理性的推断。

2、数据分析/挖掘的商业驱动

可以认为数据分析/挖掘涉及到公司运营的方方面面,这包括对企业部门经营情况的评估、内部员工的管理、生产流程的监管、产品结构优化与新产品开发、财务成本优化、市场结构的分析和客户关系的管理。其中,关于客户与市场的数据分析/挖掘的是“重头戏”。下面以客户全生命周期管理与为例介绍数据分析/挖掘运用场景和挖掘主题

(1)发掘潜在客户(市场细分):关于这个主题的分析,更多的是基于地区、性别和年龄段等粗粒度的指标,结合产品设计定位和目标客户群体进行匹配。比如,高档母婴产品的潜在客户应该是居住在新建的高档小区中的住户。这类分析是运用最早的,在广告投放、新店寻址等场景下打大量使用。

(2)客户获取:当客户初次了解我们的产品和服务后,有可能会犹豫不决,拖延很久才可能真正成为我们的客户,而大部分客户在这个期间会由于兴趣逐渐减退而最终流失。比如,信用卡新客户在填好个人信息,并收到信用卡后却迟迟没有开卡。这时就可以运用数据挖掘技术,对营销人员得到的客户基本信息进行一个初步筛选,找出购买倾向性较高的客户进行深度跟踪营销。这么做既减少了人工成本,又降低了打扰客户的次数,从而减少了投诉。同时客户在与潜在客户的交流中,也会为其制定更有用个性化的产品或服务组合。

(3)初始信用评分:当客户最终购买我们的产品时,如果在涉及赊销情况的时候,就会用到初始信用评分技术。这是根据客户的性别、年龄以及居住场所等基本信息对客户的信用进行预判。这类情况不只在银行信贷中会遇到,在很多企业中都会遇到。企业的应收帐款就是一种自然的商业信用,建立好优秀的初始信用评分体系,可以使企业在不提高增大财务风险的情况下快速开拓市场。比如,IBM全球融资部(IGF)是一个为赊购买入IBM产品的小公司提供金融服务的部门,其在上世纪80年代开发的客户信用评分模型对开拓全球市场功不可没。现在这个技术也成为了提高客户满意度的一种方式。比如,中国移动的先付费客户的欠费额度和京东的“打白条”服务。

(4)客户价值预测:为了更好地为客户提供服务的同时增加企业利润,需要根据客户的基本信息进行其价值预测。其中价值既包括以消费水平为代表的直接价值,也包括客户口碑宣传的间接价值。

(5)客户细分(市场细分):根据客户的基本信息,从人口学、工业统计信息、社会状态、产品使用行为等方面对客户进行细致的描述。这对分析客户类型结构、修正产品定位、满足细分群体需求开发新产品、提高客户满意度和分析客户需求变化趋势都是有意义的。

(6)交叉销售:分析产品之间的关联关系,发现产品销售中预期不到的模式。比如,“啤酒与尿布”的故事就是从客户在超市中的购物记录中获取的。这种技术目前被广泛运用在零售业、银行、保险等领域,大家对京东商场的推荐产品和淘宝的“猜你喜欢”两个模块应该有深刻的印象吧,这两个模块都是这个主题的运用。

(7)产品精准营销:这是客户价值提升的重要方面,目的在于扩大客户消费的范围。比如,公司开发了一款新产品,希望快速找到目标客户。这就可以通过分析现有客户的属性和产品消费行为,确定响应可能性最大的群体进行营销。

(8)行为信用评分:和初始信用评分的目的是一样的,这里分析的变量加入了客户产品消费行为的信息,这使得对客户信用的评估更为准确。比如,美国AT&T电信公司,其客户信用风险评级精确度明显高于一般的信用卡公司,这就是因为掌握了客户更多的通话、差旅等行为信息。

(9)欺诈侦测:也称为异常侦测。是对客户(包括内部员工)涉及洗钱、套现、盗用等异常行为进行的侦测,满足风险监管的需求。

(10)客户保留:有可能随着时间的变化,客户需求产生变化,如果不及时发现这种变化趋势,就会造成客户流失。客户保留的目的在于,及时发现客户在购买产品方面的行为变化和满意度情况,从而及时更换产品组合。比如,电信运营商发现客户的通话特征,从短途居多变为长途居多,而且从客户流失的模型中发现,有这种情况的客户流失的可能性很高。这主要是由于客户不了解电信运营商的套餐类型,只是听说其他运营商的长途套餐更便宜造成的。那么客服人员就需要了解这类客户的需求,从而提供更合理的套餐类型。

(11)客户关系网:客户的亲友圈、工作圈和兴趣圈的信息对客户管理、营销和产品开发有重要的意义。比如,可以很好地定位客户所处的自然生命周期。如果是婚恋中的人,可以推荐与其品位相似的产品信息。而且通过对客户关系网络结构的分析,可以明确网络中的重要节点,这对关键人营销有重大意义。

(12)流失客户时间判断:通过对已经流失客户的存续时间进行分析。一方面可以预判现有客户流失的高危期,另一方面为提高不同类型客户的存续时间提供技术支持。

(13)流失客户类型判断:对流失客户的细分可以对改进产品和服务起到重要的指导作用。

3、数据分析/挖掘方法分类介绍

数据挖掘是一种发现知识的手段,数据挖掘要求数据分析师通过合理的方法,从数据中获取与数据挖掘项目相关的知识。数据挖掘是一个多学科交叉的产物,其涉及统计学、数据库、机器学习、人工智能以及模式识别等多种学科。

按照数据分析与挖掘的方法来源,数据分析可以分类为简单数据分析、多元统计分析以及人工智能、数据库分析等,如表1-1所示。

表1-1 按照数据分析与挖掘方法来源分类


方法来源


主要方法


方法适用性与优势


简单的数据分析


集中趋势分析:众数、中位数、均数

离散趋势分析:极差、方差、标准差

分布形态:频数分布

交叉表


较容易掌握和使用,应用较广。对数据和使用者的要求较低,是培养业务知识的手段之一


多元统计分析


相关分析

回归分析

因子分析

聚类分析

……


用于分析变量间的关系、相似度等。多用于预测、 细分等场景,但是开发周期较慢。对使用者的要求较高,需要掌握基本的统计学知识和业务知识


人工智能、数据库等


神经网络

决策树

遗传算法

文本挖掘

……


可以定制算法满足个性化需求,具备自适应和自学习性

要求使用者具有较高的算法和对业务的理解

(表1-1摘自:SAS公司《SAS数据挖掘技术概览》)

按照数据分析与挖掘的方法来源进行分类显得过于庞杂,而且不便于理解和记忆。本书将按照其目的,将数据分析和挖掘技术分为描述性及预测性两大类,如表1-2所示。

表1-2 按照数据分析与挖掘技术目的分类


目的


定义


举例


主要算法


描述性


无监督学习,分析具有多个属性的数据集,找出潜在的模式,没有因变量


观察个体之间的相似程度,例如根据年龄、性别、收入等因素进行客户细分。根据客户对多个产品的购买发现产品之间的相关性


聚类、关联分析、因子分析、主成分分析、社交网络分析……


预测性


有监督学习,分类模型,用一个或多个自变量预测因变量的值


客户是否会违约是一个因变量,可以用客户的性别、年龄、收入、职位、经济状况、历史信用状况等因素进行预测


决策树、线性回归、Logistic回归、支持向量机、神经网络、判别分析……

时间: 2024-08-11 07:54:55

解读数据分析是神马?的相关文章

他们到底需要神马???——戏说“用户需求”

用户需求,做产品的都在乎这个,毕竟,产品做出来是给用户用的,用户为什么要用这个产品?这是产品经理最关心的事情之一.在研发产品前,市场调研,用户需求分析,竞争对手分析大家一定没少做,但是,很多产品为什么做出来,跟之前想象的美好前景不太一样?而有些根本都不屑一顾的产品,用户还怎么就趋之若鹜了捏? 这就是用户需求的高深之处,用户需求是个神马玩意儿?这说也说不清的东西确实是雾里看花,入门很简单,就是满足用户的某方面需求,但你若想真真切切明明白白滴看懂它,不简单呐. 相信网上盛传的那个小故事大家都看过:操

数字签名和数字证书到底是个神马玩意?

数字签名和数字证书到底是个神马玩意?通过以下图文有了更深的理解啊, (感谢阮一峰的翻译,转载了一篇好文章啊,感谢.) 1. 鲍勃有两把钥匙,一把是公钥,另一把是私钥. 2. 鲍勃把公钥送给他的朋友们----帕蒂.道格.苏珊----每人一把. 3. 苏珊要给鲍勃写一封保密的信.她写完后用鲍勃的公钥加密,就可以达到保密的效果. 4. 鲍勃收信后,用私钥解密,就看到了信件内容.这里要强调的是,只要鲍勃的私钥不泄露,这封信就是安全的,即使落在别人手里,也无法解密. 5. 鲍勃给苏珊回信,决定采用"数字签

课程14:get和post是神马

http://www.codeschool.cn/lesson/14.html get和post是神马? get和post是http中两种最常用到的请求类型 简单理解get请求 get请求多用于获取信息(无修改操作) 1. 常用于页面整体刷新 比如:浏览器现在是百度的首页www.baidu.com,点击 贴吧 后整体刷新到贴吧的页面tieba.baidu.com,整个浏览器页面都重新刷新了 2. 参数都在url中,常用于页面整体跳转 比如:http://tieba.baidu.com/f?kw=

【iOS开发每日小笔记(五)】实测copy到底是个神马玩意

这篇文章是我的[iOS开发每日小笔记]系列中的一片,记录的是今天在开发工作中遇到的,可以用很短的文章或很小的demo演示解释出来的小心得小技巧.该分类的文章,内容涉及的知识点可能是很简单的.或是用很短代码片段就能实现的,但在我看来它们可能会给用户体验.代码效率得到一些提升,或是之前自己没有接触过的技术,很开心的学到了,放在这里得瑟一下.其实,90%的作用是帮助自己回顾.记忆.复习.如果看官觉得太easy,太碎片,则可以有两个选择:1,移步[iOS探究]分类,对那里的文章进行斧正:2,在本文的评论

4G+又是神马鬼?和LTE-A有什么关系?

4G+又是神马鬼?和LTE-A有什么关系? 先说LTE 和LTE-A LTE全称long-term-evolution这个名字听怎么听怎么觉得有些仓促,它又称为3.9G,其上行峰值速率和最大带宽略低于4G标准,真正将网络带入4G的是LTE-Advanced,即LTE-A. LTE-A是一个LTE演进的代称,它满足ITU-R 的IMT-Advanced技术征集的需求,不仅是3GPP形成欧洲IMT-Advanced技术提案的一个重要来源,还是一个后向兼容的技术,完全兼容LTE,是演进而不是革命.它的

SQLSERVER 里经常看到的CACHE STORES是神马东东?

SQLSERVER 里经常看到的CACHE STORES是神马东东? 当我们在SSMS里执行下面的SQL语句清空SQLSERVER的缓存的时候,我们会在SQL ERRORLOG里看到一些信息 DBCC FREEPROCCACHE 大家可以看到cachestore.object plans.sql plan.bound tress等名词 cachestore flush for the 'Object Plans' cachestore (part of plan cache) cachestor

记一次数据库调优过程(IIS发过来SQLSERVER 的FETCH API_CURSOR语句是神马?)

记一次数据库调优过程(IIS发过来SQLSERVER 的FETCH API_CURSOR语句是神马?) 前几天帮客户优化一个数据库,那个数据库的大小是6G 这麽小的数据库按道理不会有太大的性能问题的,但是客户反应说CPU占用很高,经常达到80%~90% 我检查了任务管理器,确实是SQLSERVER占的CPU 而服务器的内存是16G内存,只占用了7G+ 客户的环境: Windows2008R2 SQLSERVER2005 SP3 64位 企业版 服务器内存:16G CPU:8核 RDS:阿里云主机

angularjs入门案例 新玩具-中午吃神马

angularjs 是一个用来开发单页webAPP的mvv框架,由Google 开发,如果不知道angularjs 的可以先google 下 按照angularjs 的开发一般顺序先搭建好需要做的视图,然后准备数据,最后绑定事件处理业务逻辑,操作DOM事件用户和程序的交互. 1.开始搭建界面,使用bootstrap作为UI框架,可以快速搭建清爽的界面效果,顺便引入 angular.js jquery.js 和我们需要写的app.js 作为业务逻辑 1 <!doctype html> 2 <

从神马搜索到阿里上市 马云到底想要干什么?

笔者注:不疯魔不成活,这句话往往形容那些处事怪异,最后却走向成功的人.而就目前来看全球绝大多数成功的名流,都属于这种偏执型的人.乔布斯.扎克伯格.马云等,莫不如此.而近来,在国内互联网领域,最引人注意的无疑就是马云及阿里巴巴.虽然马云已经在明面上隐居幕后,但在阿里巴巴上市的关键时刻,他依然为阿里定下了"增肥"的路子. 事实上,阿里巴巴"增肥"的路子早就已经可以看出端倪.在上市消息传出以前,投资新浪微博.收购高德.战略投资UC.在移动端布局"来往"