扫盲贴:数据挖掘(Data mining)是什么?

数据挖掘有什么用途?数据挖掘和数据仓库之间有什么样的联系?数据挖掘和市场调研、数据分析又有什么样的联系?……

 扫盲篇

研究结果表明,企业处理的数据每5年就会成倍增长,导致企业数据过度的重复和不一致,如何在这些数据中获取有利信息就促进数据挖掘技术发展。

1、数据挖掘的相关概念

谢邦昌教授在《数据挖掘 clementine应用实物》一书中提到,数据挖掘是指寻找隐藏在数据中的信息(如趋势、特征及相关性)的过程,也就是从数据中挖掘信息或知识KDD(knowledge discovery in databases)。

数据挖掘可以说汇合了以下六个领域:

a 数据库系统-数据仓库和联机分析(OLAP)

b 机器学习

c 统计与数据分析方法

d可视化

e 数学规划

f 高性能计算

数据挖掘和数据仓库有什么样的联系?我个人的理解是数据仓库的建立是数据挖掘的前提条件,因为数据仓库里的数据通常是整理过的数据,也就是我们通常所说的Clear Data,而从这些有用的数据中找出我们感兴趣或是有价值的信息的过程就是数据挖掘。

2、数据挖掘的应用领域

数据挖掘对每个公司来说都是一个重要的策略性计划,因而将它设为高度机密,所以要调查各公司用数据挖掘到底做什么样的事相当不容易。这里简单的说说数据挖掘的几个常用领域:

a 客户档案管理方面,通常公司都希望找出客户的一些共同特征,希望能借此预测哪些人可能成为他们的客户,以帮助营销人员找到正确的营销对象,以降低营销成本,提高成功率

b 购物篮分析,通常用来帮助零售从业人员了解客户的消费行为,譬如哪些客户会一起购买,哪些客户会购买某种产品后隔段时间会购买另外一种产品,利用数据挖掘,零售从业人员可以更有效的决定进货量或库存量,商品如何排放等等

c 客户关系管理,公司通常可以分析,原本一些属于自己的客户,后来却转变成竞争对象的客户,分析这一部分群体的特征,再根据这些特征到现有客户数据中找出有可能转向的客户,然后设计出相应的方案来留住这一部分客户群体(毕竟找一个新客户的成本要比留住一个原有客户的成本高的多)

除此之外,数据挖掘还运用到其他许多行业,如金融业、电信业、零售业、互联网等等,其常用情况汇总如下:


数据挖掘的应用


以客户为中心


以操作为中心


以研究为中心


终身价值

购物篮分析

档案细分

保留

目标市场

采集

知识门户

交叉销售

活动管理

电子商务


盈利能力分析

定价

欺诈检测

风险评估

投资组合管理

员工离职

现金管理

生产效率

网络性能

制造工艺


组合化学

遗传研究

流行病学

3、数据挖掘的进行步骤及常用分析方法

每个人数据挖掘过程都不一样,但可以肯定的一点是他们大部分时间都花在准备数据阶段,而其他步骤也只是这样一个大致流程:

1)理解数据与进行的工作

2)获取相关知识和技术

3)整合与检查数据

4)去除错误与不一致的数据

5)发展模型与假设

6)实际数据挖掘工作

7)测试与验证所挖掘的数据

8)解释与使用数据

数据挖掘分析方法是利用数据来建立一些模仿真实世界的模型,利用这些模型来描述数据中的模式以及关系,常用的数据挖掘分析方法主要有:

1)用于分类\聚类的分析方法,如:因子分析、判别分析、聚类分析等,除此之外还有决策树(常用分类方法为CART<classification and regression trees>及CHAID<chi-square automatic interaction detector>两种)

2)推算预测分析方法,如回归、时间序列、神经网络等

3)序列规则分析方法,如关联规则、序列规则等

4、主要数据挖掘软件

目前市面上比较常用的数据挖掘软件有不下于30种(当然都是老外开发的,目前为止还没发现国人开发的此类软件),例如MLC++,Clementine,Darwin,Intelligent Miner,SAS data Mining,S-plus,matlab等等。下面简单的介绍几种:

1)SPSS Clementine,SPSS公司发行,此工具结合了多种图形用户接口分析技术,包含神经网络、关联规则及规则生成技术。

2)Oracle Darwin,甲骨文公司发行,其优点是支持多重算法,可在多种主从式架构上执行,服务器端可以是单处理器、同步多处理器或大量平行处理器,定位在中、大范围的执行

3)SAS Enterprise Miner,SAS公司发行,目前数据挖掘市场上的领导者,适用于企业在数据挖掘的发展及整个CRM的决策支持应用

4)IBM Intelligent Miner,IBM公司发行,是市场上最大容量及功能强大的工具,在顾客评定报告中它的整体效能是最好的,定位于企业数据挖掘解决方案的先锋。

二、数据挖掘与市场分析

“统计分析给您以先机,分析报告给您后见之明,数据挖掘给您以洞察”这样一句话来形容市场分析与数据挖掘的关系再确切不过了。然而数据挖掘只是用来帮助业务分析策划人员从数据中发现各种可能的假设,这些假设是否正确,是否有价值还有待确定,为了得到更加确定的答案,企业不得不花费一些时间和经历来验证这些假设,从而导致企业提出调研目的,针对相关假设设计相应的调查问卷,根据调查结果,运用统计分析得出分析报告,从而推出一系列新的发展方案,发展新的客户,回头又继续数据挖掘,形成一个数据挖掘--市场调研--统计分析的良性循环。

除此之外,统计分析还给数据挖掘提高了许多新的分析方法,如神经网络技术应用中的---概率分析网(PLN),挖掘方法上的---贝叶斯网络,遗传算法中的---概率进化算法(PMEA)等等。

三、从事数据挖掘工作需掌握的相关知识

1、数据库技术数据挖掘是在大量数据中找出自己感兴趣或有用信息的过程,这其中涉及到数据库操作的相关功能,那么掌握一种数据库以上的知识就成了必然,这也是为什么目前国内许多企业数据挖掘从业人员是计算机专业的原因。

2、相关行业知识 也就是前面数据挖掘步骤中有提到相关知识和技术,没有行业背景知识,纯技术做出来的分析报告就好像"无根"之水

3、掌握一种以上的数据挖掘软件 其实许多的数据库也提供了相应的分析功能,比如前面提到的IBM、Oracle数据挖掘软件

4、相关统计及市场分析知识 没有这些知识做出来的报告可能犯下或多或少的错误,从而使分析结果出现严重的。

时间: 2024-10-29 23:20:39

扫盲贴:数据挖掘(Data mining)是什么?的相关文章

Python_DM_数据挖掘Data Mining方法

ipython 是一个 python 的交互式 shell Anaconda,打包的工具箱, 类型eclipse变J2EE,Android,可以自己一个一个的安装,也可以一次下个整理好的版本 SymPy 强大的符号数据工具 SciPy函数库在NumPy库的基础上增加了众多的数学.科学以及工程计算中常用的库函数.例如线性代数.常微分方程数值求解.信号处理.图像处理.稀疏矩阵.统计.优化.整合.傅里叶变换.常微分方程求解器等等. Numpy 苦力,数值计算扩展.这种工具可用来存储和处理大型矩阵 Pa

data mining,machine learning,AI,data science,data science,business analytics

数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics)之间有什么关系? 本来我以为不需要解释这个问题的,到底数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)有什么区别,但是前几天因为有个学弟问我,我想了想发现我竟然也回答不出来,我在知乎和博客上查了查这个问题,发现还没有人写过比较详细和有说服力的对比

Weka 3: Data Mining Software in Java

官方网站: Weka 3: Data Mining Software in Java   相关使用方法博客: WEKA使用教程(经典教程转载) Weka初步一.二.三.四 使用Weka进行数据挖掘 一个小时速度入门数据挖掘WEKA(一个完整的小例子)   百度文库: WEKA中文详细教程(全) WEKA 3-5-3 Experimenter 指南 数据挖掘工具(weka教程)

Big Data Analytics and Data Mining 第一天.

今天是上课的第一天.真心很感激导师能让我出来学习.今天突然觉得自己要好好学习英语.并不是上课的时候我看不懂裴教授的课件.而是觉得如果英语不好就很像乡巴佬那样,很难接触到高级的东西. 通过今天的听讲,我感觉对数据挖掘的理解更深刻些. 以前总觉得自己研究生的目标是要好好学习算法,好好学习相关的技术. 现在觉得除了要好好学习算法外,我也期待自己能做出一些研究. 记录下今天讲课的内容. 今天我觉得主要讲了三部分: 1,数据挖掘相关的概念及相关的学术期刊. 从广义上来定义数据挖掘:The art of d

搭建Data Mining环境(Spark版本)

前言:工欲善其事,必先利其器.倘若不懂得构建一套大数据挖掘环境,何来谈Data Mining!何来领悟“Data Mining Engineer”中的工程二字!也仅仅是在做数据分析相关的事罢了!此文来自于笔者在实践项目开发中的记录,真心希望日后成为所有进入大数据领域挖掘工程师们的良心参考资料.下面是它的一些说明: 它是部署在Windows环境,在项目的实践开发过程中,你将通过它去完成与集群的交互,测试和发布: 你可以部署成使用MapReduce框架,而本文主要优先采用Spark版本: 于你而言,

做Data Mining,其实大部分时间都花在清洗数据

做Data Mining,其实大部分时间都花在清洗数据 时间 2016-12-12 18:45:50  51CTO 原文  http://bigdata.51cto.com/art/201612/524771.htm 主题 数据挖掘 前言:很多初学的朋友对大数据挖掘第一直观的印象,都只是业务模型,以及组成模型背后的各种算法原理.往往忽视了整个业务场景建模过程中,看似最普通,却又最精髓的特征数据清洗.可谓是平平无奇,却又一掌定乾坤,稍有闪失,足以功亏一篑. 大数据圈里的一位扫地僧 说明:这篇文章很

看Cognos+SPSS如何无缝对接BI+Data Mining

随着大数据分析时代的到来,全方位的数据分析能力已经成为当今企业不可或缺的竞争力.企业全方位的数据分析能力根据分析的级别和功能领域的划分通常包括了:常规报表.即席查询.多维分析(又称为钻取或者OLAP).预警.统计分析.预测.预测型建模(预测性predictive模型)和优化.通俗点说,企业全方位的数据分析能力主要可以帮助企业分析:'过去发生了什么'.'现在正在发生什么'和'未来可能发生什么'的相关问题,也就是我们常说的过去.现在和未来. 但在实际应用中,'过去发生了什么'和'现在正在发生什么'的

数据可视化之&quot;Research on visualization techniques in data mining&quot;

Research on visualization techniques in data mining Jin, Hailiang (Key Laboratory of Mine Spatial Information Technologies of State Bureau of Surveying and Mapping, Henan Polytechnic University, Jiaozuo, China); Liu, Huijie Source: Proceedings - 2009

A web crawler design for data mining

Abstract The content of the web has increasingly become a focus for academic research. Computer programs are needed in order to conduct any large-scale processing of web pages, requiring the use of a web crawler at some stage in order to fetch the pa