(原创)大数据时代:数据分析之基于微软案例数据库数据挖掘案例知识点总结

随着大数据时代的到来,数据挖掘的重要性就变得显而易见,几种作为最低层的简单的数据挖掘算法,现在利用微软数据案例库做一个简要总结。

应用场景介绍

其实数据挖掘应用的场景无处不在,很多的环境都会应用到数据挖掘,之前我们没有应用是因为还没有学会利用数据,或者说还没有体会到数据的重要性,现在随着IT行业中大数据时代的到来,让我一起去拥抱大数据,闲言少叙,此处我们就列举一个最简单的场景,一个销售厂商根据以往的销售记录单,通过数据挖掘技术预测出一份可能会购买该厂商产品的客户名单,我相信这也是很多销售机构想要得到的数据,当然这其中还有许多数据可供挖掘,比如:各种商品之间的关联是否能带来联动销售(啤酒和尿不湿、商品货架商品摆放、网站导航商品布局等)、影响每一种商品的属性值等等吧,这些伴随和数据挖掘的过程都会形成报告。

技术准备

这里有几点技术储备需要提到

(1)我们利用微软提供的案例数据仓库(AdventureWorksDW2008R2),当然其实我们应用的也就是两张事实表,一张已有的历史购买自行车记录的历史表,当然包括购买自行车顾客的一些供挖掘的属性,另外一张就是我们将要挖掘的收集过来可能发生购买自行车的人员信息表,从这里面挖掘出可能会买自行车的人。

晒历史销售表结构:

包含一个主键记录、顾客的生日、姓名、Email、婚姻状况、是否有房子、是否有车、年龄、上班距离远近等属性情况,这后面还有一列是是否发生购买自行车,当然从三范式上讲这种设计方式是不符合OLTP的,但此处是OLAP,也不是规范的事实表,这种结构一般通过一个view就能拼凑出来,咱这里就不提这些基础技术了。

另外一张表:

同样是一张人员信息表,也是记录的一些人员的属性,当然这里不会和已经销售人员记录的信息一样,但会包含相同的属性集合,比如:生日、年龄、年收入等等,我们要做的就是从这种表里面找到会买自行车的人。

(2)vs数据挖掘工具、安装好数据库配置好服务,这个都懂,没啥可说的,但要实现这种目的我们会使用三种数据挖掘算法,稍作介绍

Microsoft 决策树:对于离散属性,该算法根据数据集中输入列之间的关系进行预测。它使用这些列的值或状态预测指定的可预测列的状态。具体地说,该算法标识与可预测列相关的输入列。

Microsoft 聚类分析:该算法使用迭代技术将数据集中的事例分组为包含类似特征的分类。在浏览数据、标识数据中的异常及创建预测时,这些分组十分有用。简单点就是找出相同一部分属性的种类。

Microsoft Naive Bayes:Microsoft Naive Bayes 算法是由 Microsoft SQL Server Analysis Services 提供的一种基于贝叶斯定理的分类算法,可用于预测性建模。

这些算法有很多底层算法作支撑,我们只需要记住他们的应用场景和不同算法所具有的特性即可。下面的分步骤分析过程我会总结每种算法能干什么,能够分析出什么。



下面我们进入主题,通过简单的过程配置我们来实现整个数据挖掘的过程,依次步骤如下

1、新建工程,配置数据源

这个没有什么可分析的,基于微软案例数据库建立数据连接,简单的数据配置,实例名和用户名和密码连接数据仓库即可

2、创建数据源视图

这里就是筛选出我们想要数据挖掘的数据表,可以选择的是表或者视图,我们这里要做的事很简单,其实就是把上面的两张表从数据库里连接出来,VS工具配置很简单,根据它的提示我们就可以很轻松的配置出数据视图。

这里有几个技巧可以浏览两张表数据,在所选表中右键选择“浏览数据”,可以查看里面的列,还能分析数据中所占比情况,可以采用类似于Excel的透视表、透视图查看,也可以通过图表工具,例如:

此步骤是为了让我们理解里面的表数据,通过分析数据可以先分析出数据表中可以供我们挖掘的数据列属性有哪些,也可以简要推测影响我们目标(购买自行车)这种行为可能影响的属性,比如:家里有汽车的、年龄大于60或者小于10岁的、上班距离跨越好几个城区的(比如从朝阳——海淀上班)、年收入百万的等等吧按照常理会买自行车的几率还是挺小的,下一步我们用挖掘算法来逐一验证我们基于经验的这些推测是否合理。

3、创建挖掘结构

这一步我们分步骤细一点,逐过程讲解

(1)在解决方案中“数据结构”中,右键选择新建数据挖掘,这里我们选择“从现有数据库或数据仓库”来定义数据挖掘结构

(2)点击下一步,选择一种算法,这里列出了几种我们比较常用的数据挖掘算法,我们选择“Microsoft 决策树”算法

(3)点击下一步,选择我们可以应用的数据源视图

(4)我们选择上面的“vTargetMail”表作为事例来进行挖掘,所谓的事例就是以前我们所存在的历史记录表,点击下一步

(5) 进入指定定性数据模块,显示图如下,这里面有几列比较重要,先看图片

这里面有几列需要我们自己配置,键列:这个就是我们的主键列了,vs能自己识别出来,然后就是输入列:这一列就是根据我们要预测的目标,手动勾选的状态值列,这里我们勾选了年龄、通勤距离、英国学历、英国职位、婚姻状况、家庭汽车数、家庭孩子总数、在家里孩子数、所在地区、年收入等我们认为会影响预测目标的值列,当然这里有时候我们自己的推断不一定能准,但VS同样根据数据给你推算出了可能影响的列供参考选择,这里我们点击“建议”按钮,会弹出如下窗口:

看到了嘛,可爱的vs已经将肯尼个影响的列给你建议出来了,这里的分数就是评估的应该的概率,年龄是影响购买车辆影响最大的因素、其次是家庭车辆、再次是家庭孩子总数、当然这些值也是采样获取的,点击输入,就会选中相应的列,这里我们的可预测列就选择:购买自行车列“BikeBuyer”,这里最前面的一列就是要显示的明细列,数据挖掘的结果提供明细钻取,显示明细的时候需要的列,我们可以在这里面选中。

到这一步其实我们可以简要的推断买不买自行车看来与年龄还是关系比较大的,嗯...老年人和儿童估计骑自行车的可能性不大,呵呵...当然这仅是推测,咱们接着往下挖掘。

(6)点击下一步,进入数据挖掘模型机构,这里面会显示出各个列里面的值类型和值状态,是连续值、还是离散型,可以点击检测推断

(7)点击下一步,会进入数据集两个比较重要的参数配置,一个就是计算模型数据集所占比,一个就是最大实例数的值,先看图,然我我解释含义

在vs中已经有说明了,解释的比较清楚,第一个值就是用于计算数据挖掘模型的值占比,剩下的值作为后面验证我们数据挖掘模型的正确性,简单点就是留一部分测试数据稍后我们那它来测试测试我们建立的数据挖掘模型是否正确。第二个值就是每个挖掘回归所占的最大事例总数,这里我们做一个限制。

(8)点击下一步,给这个数据挖掘模型起一个名字,然后勾选上允许钻取明细

至此我们的Microsoft决策树数据挖掘模型已经建立完毕,看看图

下一步就是分析我们的挖掘结果了,这一步最精彩,我们来逐步分析。



结果分析

在分析之前我们先在解决方案中右键部署该解决方案到本地Analysis Services数据库中。

在我们数据挖掘模型中有四个选项卡一个就是我们的挖掘结构,第二个就是挖掘模型中我们设置的输入列、预测列、键列等信息,没啥可说的看图

接着才是我们重点要分析的数据挖掘模型查看器,这里面会有我们挖掘出来的结果值,形成我们的分析报告等选项,先看看图:

整幅图片中,整个显示结果是一种树状结构图,从顶端依次展开的横向图片,从图例中我们就可以看到,其中红色的也就是值为1的为购买自行车的比例,蓝色的就是没购买自行车的比例,这里有个选项比较重要,就是背景,默认为全部值,也就是说整个图中包含所有的事实,因为我们的需求是要分析购买自行车的顾客的状态,所以我们选择值为1(会发生购买)的进行分析,当然如果需求比较特别,你也可以选择不购买自行车的顾客这部分群体的特征,这里我们选择为1的背景:

看看分析结果:

整体树种,颜色最深的为我们最期望得到的值,而每个方块所代表的就是一种状态值区间,每个方块又可以依次展开看其子节点状态,最靠近根部的方块所代表的的因为即为影响结果值最重要的因素,从上图中我们可以看到家庭中汽车的数量(Number Cars Owned)是决定是否购买自行车最重要的因素,而这种因素中汽车数量为0的购买自行车的概率最高,也就说最想买自行车,其次是有一辆汽车的顾客,我们接着分析:

将鼠标移动到Number Cars Owned为0 的方块中,可以查看明细:

可以看到该部分顾客购买自行车的概率为63.15%,这里面共有4006个事例,发生购买的为2530个,所以这部分顾客应该是厂商最喜欢的,也是他们将要重点挖掘的对象,原因你懂的。当然家里有一汽车的也有很多想买自行车的,我们也不能放弃,同样我们点开这个节点接着分析。

嘿嘿,从图中可以看到我们上面推测的年龄因素已经浮出水面了,家里没有车,然后年龄在45岁以下购买自行车的概率已经飙升到73.49%,有图有真相,45岁以下,然后还没有小汽车,在大米国应该也算是屌丝一级别了,买辆自行车骑骑也正常,同样我们接着分析。

紧接着,影响的第三层因素也开始冒泡了,那就是地域位置,看图中,不在北美位置的顾客购买几率更高,而这里面在家里的孩子为0的购买几率已经达到了92.50%,汗,厂商还等什么,遇到这种顾客你就让你的销售坐等业绩就可,咱们来分析一下这部分人群:家里没有车、年龄在45岁一下、不在北美地区、家里也没有孩子......我那个去,这部分顾客什么情况,一种是直接型的屌丝级别,一种是绝对有品位的高富帅(孩子已经成家)。好吧,如果销售面对的是这群客户,你要做的就是升职、加薪、赢取白富美了...

咱们再来分析另外一种家里有一个汽车的情况,先看图:

结果:年龄在37到53之间,通勤距离小于10Miles,家里孩子既不等于3也不等于4,然后年收入在58000$以上,这部分顾客购买的几率在74.83%左右。

这里我们可以通过查看依赖关系网络图,了解一下我所有的这些元素对购买自行车这种行为的影响:

通过拖动左侧的滑动条可以依次查看所有的因素对买自行车所造成的影响大小,下面最重要,这里为家庭轿车数(Number Cars Owned)、其次是年龄(Age)、再次是地区(Region)....

以上是对决策树算法所推测出的结果进行分析,我们下一步要做的就是要验证我们的分析结果正确率有多高,还会增加其它不同的算法作对比,然后在根据正确率最好的算法推测上面我们已有的顾客列表中找到购买自行车概率最高的那群人。限于篇幅,后面的文章中我们继续详细的分析这些事情,下面我晒几个结果图,供大家玩味:

数据挖掘准确性图表:

图中有我们剩下的那部分测试数据做出的验证图表,还有理想的最佳模型、最烂的随机预测模型,和他们的概率,当然这中间就是我们决策树预测的模型,这图表中的维度和值就不分析了,自己品味。

同样我们还可以根据我们的预测模型绘出利润图:

所谓的利润图,就是通过这种分析能给我们带来的利润,嗯,这个也是厂商关注的。

到这里还剩下最后一步那就是将上面我们遗留下的顾客信息表中找出那些可能购买自行车的顾客,也就是数据挖掘的最高产物,推测以后将要发生的事情。这一步我们留着写一篇介绍。



结语:大数据的时代到来了,咱们作为底层的码农要时刻准备着,为自己保留饭碗的同时也能持续不断的发挥码农的能量,当我们修炼到一定的境界时,遇到大数据,我们也可以从容得喊道:畜生、放开那些数据,让我来!呵呵...国庆节了,祝大家国庆快乐。

部分内容参照微软官方案例展示,微软决策树算法详细参考http://technet.microsoft.com/zh-cn/library/ms175312.aspx

时间: 2024-10-27 11:47:04

(原创)大数据时代:数据分析之基于微软案例数据库数据挖掘案例知识点总结的相关文章

大数据时代已来,开发者该如何出击?

人工智能.大数据.物联网.区块链作为当今信息化发展的新兴技术,离我们的生活越来越近,他们之间也存在着本质的联系,如果将它们看做是我们身体,大数据则是这些触觉到外部信息的存储集合,而数据库则好比人的大脑的记忆系统,没有了数据库就没有了记忆系统. 数据指数级增长时代已经来临 易安信公布的第三期全球数据保护指数调查结果显示,数据量呈现爆炸式增长,增幅达569%.权威数据显示,预计2020年,我国大数据市场规模将超过8000亿元,未来中国将成为全球数据中心.IT技术的持续创新促使大数据时代加速到来,在此

大数据时代:深入浅出微软数据挖掘算法总结连载

本系列文章主要是涉及内容为微软商业智能(BI)中一系列数据挖掘算法的总结,其中涵盖各个算法的特点.应用场景.准确性验证以及结果预测操作等,所采用的案例数据库为微软的官方数据仓库案例(AdventureWorksDW2008R2),数据库基于Microsoft SQL Server 2008,主要涉及DM模块,目录整理如下: (原创)大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 决策树分析算法) (原创)大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft

数据分析变革 大数据时代精准决策之道——互动出版网

这篇是计算机类的优质预售推荐>>>><数据分析变革 大数据时代精准决策之道> 畅销书<驾驭大数据>作者.Teradata公司的首席分析官Bill Franks力作 内容简介 能够快速适应不断变化的市场环境的能力是获得成功的关键.本书旨在将数据分析嵌入运营流程,帮助读者将从数据(包括大数据和小数据)分析中获得的业务洞察与日常运营紧密集成在一起. 本书确切地讲述了使分析运营化到底意味着哪些变革,并告诉读者如何建立团队.创建文化.升级分析方法论并利用技术,使企业向

大数据时代,什么是数据分析的灵魂

让大数据区别于数据的,是其海量积累.高增长率和多样性 什么是数据?数据(data)在拉丁文里是“已知”的意思,在英文中的一个解释是“一组事实的集合,从中可以分析出结论”.笼统地说,凡是用某种载体记录下来的.能反映自然界和人类社会某种信息的,就可称之为数据.古人“结绳记事”,打了结的绳子就是数据.步入现代社会,信息的种类和数量越来越丰富,载体也越来越多.数字是数据,文字是数据,图像.音频.视频等都是数据. 什么是大数据呢?量的增多,是人们对大数据的第一个认识.随着科技发展,各个领域的数据量都在迅猛

做大数据时代的“淘宝”平台,IBM数据分析战略浮出水面

(上图为IBM研究人员在展示通过数据分析提高城市交通水平) 下个世纪是大数据的世纪,是从IT走向认知计算的时代.在IT时代成就了一家超级平台,这就是淘宝,而认知时代要做的是数据的生意,那是否有一个类似淘宝的超级数据平台呢?IBM正在做这件事情. IBM在全球布局了40多个基于Softlayer的数据中心,以Bluemix作为其主力云端开发平台, 在之上通过合作和收购网罗了从Twitter到The Weather Company以及这些年投入250亿美金收购的Cognos.SPSS.ILOG.Al

上海远丰:大数据时代 电商如何做好运营数据分析

2015年深圳互联网领袖论坛上,马云阐述了“DT时代”概念,提出我们已经从IT时代进入了数据时代,数据让一切变得透明.直观.大数据时代,依托于电子商务快速发展,数据分析已成为企业在电商混战中脱颖而出的关键.但很多企业意识到网站数据分析的重要性,往往却不知道怎么办. 互联网时代,用户习惯正在发生变革,只有充分了解用户才能打造符合用户预期的产品.电子商务相对于传统零售业来说,最大的优势在于一切都可以通过数据化来监控和改进.通过数据可以看到用户从哪里来.如何组织产品可以实现很好的转化率.投放广告的效率

【原创】搜索引擎在大数据时代中的变革

现代的人类学习.生活.工作都已经离不开搜索引擎,如今的数据大爆炸时代,搜索引擎已经不仅是帮助用户从海量信息中找到结果,更是一种互联网服务.搜索引擎成为一个数据工厂,通过大数据挖掘,抽象结构化有价值的信息,加速信息流动,促使搜索为用户提供更多服务以及更高价值. 让用户对搜索结果进行筛选的时代很快就会被抛弃在时代的浪潮中,当前大数据时代研究最多的深度学习也是研究搜索引擎能够直接命中用户答案的途径之一,『所搜即所得』成为搜索引擎在大数据时代变革中的必然发展趋势. 除此之外,在大数据背景下,搜索引擎可以

大数据时代的数据分析与挖掘

目前,无论是在社会用人单位或者是个体方面都会涉及与处理相关数据信息的问题,社会大众在应用数据信息之际也被社会诸多的数据信息所围绕,即使现代社会数据信息的发展情况较为良好.也让社会大众更为信服,然而在社会大众对大数据的印象观念中,数据形式的发展已经超过了他们所预想的.数据总量已经超过社会大众所理解的范畴,应当如何正确.有效地处理该部分数据信息已经变为现代社会大众共同面对的问题,需求人们谨慎地对待. 一.实施数据分析的方法 正确地对数据进行分析过程已经作为大数据时代对待信息量极大的数据处理的关键性环

读&lt;&lt;大数据时代&gt;&gt;的一些感想

第一次听说<<大数据时代>>这本书,是在网上看到的央视搞的一个2013中国好书评选活动推荐的25本"中国好书"的榜单中看到的.然后迅速上豆瓣上查看了一下对该书的评价,一看非常高,再加上央视的推荐是从2013在中国出版的40册图书中选出25本,可以说是精华了.果断定了一本,花了三天时间读完了.   大数据这个名词或者说概念从被提出开始,经过短短几年的发展,已经传的沸沸扬扬了,经常见诸媒体上.好像哪家媒体的科技板块每天不弄一些这样的新闻条,它就显得不够档次一样.这是