如何利用数据挖掘进行分析的方法

ps:作为目前人工智能和数据库领域研究的热点问题,数据挖掘从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。

数据挖掘(Data Mining,DM),又称数据库中的知识发现(Knowledge Discover in
Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。

——以上引自互动百科

数据挖掘(Data Mining)的十种分析方法:

1.记忆基础推理法(Memory-Based Reasoning:MBR)

记忆基础推理法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。

记忆基础推理法中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination
function)。距离函数的用意在找出最相似的案例;结合函数则将相似案例的属性结合起来,以供预测之用。记忆基础推理法的优点是它容许各种型态的数
据,这些数据不需服从某些假设。另一个优点是其具备学习能力,它能藉由旧案例的学习来获取关于新案例的知识。

较令人诟病的是它需要大量的历史数据,有足够
的历史数据方能做良好的预测。此外记忆基础推理法在处理上亦较为费时,不易发现最佳的距离函数与结合函数。其可应用的范围包括欺骗行为的侦测、客户反应预
测、医学诊疗、反应的归类等方面。

2.市场购物篮分析(Market Basket Analysis)

购物篮分析最主要的目的在于找出什么样的东西应该放在一起?商业上的应用在藉由顾客的购买行为来了解是什么样的顾客以及这些顾客为什么买这些产品,找出相关的联想(association)规则,企业藉由这些规则的挖掘获得利益与建立竞争优势。

举例来说,零售店可藉由此分析改变置物架上的商品排列或是设计吸引客户的商业套餐等等。

购物篮分析基本运作过程包含下列三点:

(1)选择正确的品项:这里所指的正确乃是针对企业体而言,必须要在数以百计、千计品项中选择出真正有用的品项出来。

(2)经由对共同发生矩阵(co-occurrence matrix)的探讨挖掘出联想规则。

(3)克服实际上的限制:所选择的品项愈多,计算所耗费的资源与时间愈久(呈现指数递增),此时必须运用一些技术以降低资源与时间的损耗。

购物篮分析技术可以应用在下列问题上:

(1)针对信用卡购物,能够预测未来顾客可能购买什么。

(2)对于电信与金融服务业而言,经由购物篮分析能够设计不同的服务组合以扩大利润。

(3)保险业能藉由购物篮分析侦测出可能不寻常的投保组合并作预防。

(4)对病人而言,在疗程的组合上,购物篮分析能作为是否这些疗程组合会导致并发症的判断依据。

3.决策树(Decision Trees)

决 策树在解决归类与预测上有着极强的能力,它以法则的方式表达,而这些法则则以一连串的问题表示出来,经由不断询问问题最终能导出所需的结果。典型的决策树
顶端是一个树根,底部有许多的树叶,它将纪录分解成不同的子集,每个子集中的字段可能都包含一个简单的法则。此外,决策树可能有着不同的外型,例如二元
树、三元树或混和的决策树型态。

4.基因算法(Genetic Algorithm)

基 因算法学习细胞演化的过程,细胞间可经由不断的选择、复制、交配、突变产生更佳的新细胞。基因算法的运作方式也很类似,它必须预先建立好一个模式,再经由
一连串类似产生新细胞过程的运作,利用适合函数(fitness
function)决定所产生的后代是否与这个模式吻合,最后仅有最吻合的结果能够存活,这个程序一直运作直到此函数收敛到最佳解。基因算法在群集
(cluster)问题上有不错的表现,一般可用来辅助记忆基础推理法与类神经网络的应用。

5.群集侦测技术(Cluster Detection)

这个技术涵盖范围相当广泛,包含基因算法、类神经网络、统计学中的群集分析都有这个功能。它的目标为找出数据中以前未知的相似群体,在许许多多的分析中,刚开始都运用到群集侦测技术,以作为研究的开端。

6.连结分析(Link Analysis)

连 结分析是以数学中之图形理论(graph
theory)为基础,藉由记录之间的关系发展出一个模式,它是以关系为主体,由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉
连结分析收集到顾客使用电话的时间与频率,进而推断顾客使用偏好为何,提出有利于公司的方案。除了电信业之外,愈来愈多的营销业者亦利用连结分析做有利于
企业的研究。

7.在线分析处理(On-Line Analytic Processing;OLAP)

严 格说起来,在线分析处理并不算特别的一个数据挖掘技术,但是透过在线分析处理工具,使用者能更清楚的了解数据所隐藏的潜在意涵。如同一些视觉处理技术一
般,透过图表或图形等方式显现,对一般人而言,感觉会更友善。这样的工具亦能辅助将数据转变成信息的目标。

8.类神经网络(Neural Networks)

类神经网络是以重复学习的方法,将一串例子交与学习,使其归纳出一足以区分的样式。若面对新的例证,神经网络即可根据其过去学习的成果归纳后,推导出新的结
果,乃属于机器学习的一种。数据挖掘的相关问题也可采类神经学习的方式,其学习效果十分正确并可做预测功能。

9.区别分析(Discriminant Analysis)

当 所遭遇问题它的因变量为定性(categorical),而自变量(预测变量)为定量(metric)
时,区别分析为一非常适当之技术,通常应用在解决分类的问题上面。若因变量由两个群体所构成,称之为双群体 — 区别分析 (Two-Group
Discriminant Analysis);若由多个群体构成,则称之为多元区别分析(Multiple Discriminant
Analysis;MDA)。

(1) 找出预测变量的线性组合,使组间变异相对于组内变异的比值为最大,而每一个线性组合与先前已经获得的线性组合均不相关。

(2) 检定各组的重心是否有差异。

(3) 找出哪些预测变量具有最大的区别能力。

(4) 根据新受试者的预测变量数值,将该受试者指派到某一群体。

10.罗吉斯回归分析(Logistic Analysis)

当 区别分析中群体不符合常态分配假设时,罗吉斯回归分析是一个很好的替代方法。罗吉斯回归分析并非预测事件(event)是否发生,而是预测该事件的机率。
它将自变量与因变量的关系假定是S行的形状,当自变量很小时,机率值接近为零;当自变量值慢慢增加时,机率值沿着曲线增加,增加到一定程度时,曲线协率开
始减小,故机率值介于0与1之间。

摘自《市场研究网络版》,作者谢邦昌教授

 

如何利用数据挖掘进行分析的方法,码迷,mamicode.com

时间: 2024-12-19 10:44:09

如何利用数据挖掘进行分析的方法的相关文章

数据挖掘案例分析

数据挖掘应用目前在国内的基本结论是“大企业成功案例少,中小企业需求小”.但是对于市场来说,如果不是真的“没有人买”所以“没有人卖”,那一定是创新的机会所在.个人的判断是,一个数据库只要有几十万以上记录,就有数据挖掘的价值. 搜集以下案例,希望有一定的启发和学习价值. 1. 哪些商品放在一起比较好卖? 这 是沃尔玛的经典案例:一般看来,啤酒和尿布是顾客群完全不同的商品.但是沃尔玛一年内数据挖掘的结果显示,在居民区中尿布卖得好的店面啤酒也卖得很好.原 因其实很简单,一般太太让先生下楼买尿布的时候,先

日志分析方法概述 & Web日志挖掘分析的方法

日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核.各种应用服务器等等.日志的内容.规模和用途也各不相同,很难一概而论. 本文讨论的日志处理方法中的日志,仅指Web日志.其实并没有精确的定义,可能包括但不限于各种前端Web服务器--apache.lighttpd.tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志. 在Web日志中,每条日志通常代表着用户的一次访问行为,例如下面就是一条典型的apache日志: 211.87.152.44 – - [

数据挖掘中的度量方法

??在数据挖掘中,无论是对数据进行分类.聚类还是异常检测.关联性分析,都建立在数据之间相似性或相异性的度量基础上.通常使用距离作为数据之间相似性或相异性的度量方法,常用的度量方法有欧式距离.曼哈顿距离.切比雪夫距离.闵可夫斯基距离.汉明距离.余弦距离.马氏距离.Jaccard系数.相关系数.信息熵. 欧式距离 ??$n$维空间中两个样本点$x$和$y$之间的欧几里得距离定义如下:$$d(x,y)=sqrt{Sigma_{k=1}^n (x_k-y_k)^2}$$标准化欧式距离公式如下:$$d(x

利用leaks模板分析app的内存泄露

虽然iOS 5.0版本之后加入了ARC机制,由于相互引用关系比较复杂时,内存泄露还是可能存在.所以了解原理很重要. 这里讲述在没有ARC的情况下,如何使用Instruments来查找程序中的内存泄露,以及NSZombieEnabled设置的使用. 本文假设你已经比较熟悉Obj-C的内存管理机制. 实验的开发环境:XCode 4.5.2 1.运行Demo. 先下载一个实现准备好的内存泄露的Demo吧:leak app 下载下来,打开运行,程序是一个寿司的列表,列出各种寿司卷.试着选择里面的几行,应

利用ArcGIS水文分析工具提取河网

转自原文 利用ArcGIS水文分析工具提取河网(转) DEM包含有多种信息,ArcToolBox提供了利用DEM提取河网的方法,但是操作比较烦琐(帮助可参看Hydrologic analysis sample applications),今天结合我自己的使用将心得写出来与大家分享.提取河网首先要有栅格DEM,可以利用等高线数据转换获得.在此基础上,要经过洼地填平.水流方向计算.水流积聚计算和河网矢量转化这几个大步骤. 1.洼地填平 DEM洼地(水流积聚地)有真是洼地和数据精度不够高所造成的洼地.

如何以客户为中心进行数据挖掘与分析(转)

数据挖掘与分析可以说是信息领域发展最快的技术,很多不同领域的专家都从中获得了发展的空间,使得数据挖掘成为企业界讨论的热门话题. 随着信息技术的发展,人们采集数据的手段越来越丰富,由此积累的数据日益膨胀,数据量达到GB甚至TB级,而且高位数据也成为了主流,于是数据挖掘这一融合多种分析手段,从大量数据中发现有用知识的方法就应运而生了,它的出现为商业决策提供了有价值的知识,让企业获得了利润,在客户内在需求管理中,数据挖掘正在起着导向的作用. 一.以客户为中心的数据分析框架思想 信息时代到今天已经发生了

【转】如何看懂源代码--(分析源代码方法)

如何看懂源代码--(分析源代码方法) --转至 https://blog.csdn.net/luka_ye/article/details/79565902[PS:不知道原作者是哪位大牛,受益了] 我们在写程序时,有不少时间都是在看别人的代码. 例如看小组的代码,看小组整合的守则,若一开始没规划怎么看, 就会"噜看噜苦(台语) " 不管是参考也好,从开源抓下来研究也好,为了了解箇中含意,在有限的时间下,不免会对庞大的源代码解读感到压力. 网路上有一篇关于分析看代码的方法,做为程序设计师

如何利用 JConsole观察分析Java程序的运行,进行排错调优(转)

如何利用 JConsole观察分析Java程序的运行,进行排错调优 博客分类: JAVA JavaOracleSUNEclipseJDK 一.JConsole是什么 从Java 5开始 引入了 JConsole.JConsole 是一个内置 Java 性能分析器,可以从命令行或在 GUI shell 中运行.您可以轻松地使用 JConsole(或者,它更高端的 “近亲” VisualVM )来监控 Java 应用程序性能和跟踪 Java 中的代码. 二.如何启动JConsole 如果是从命令行启

利用下拉框的方法进行txt列表中内容的左右切换

利用下拉框的方法实现两个txt列表内内容的左右切换 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title></title> </head> <body> <select id="left" size="10" multiple="multiple" style=