扫盲贴：数据挖掘(Data mining)是什么？

数据挖掘有什么用途？数据挖掘和数据仓库之间有什么样的联系？数据挖掘和市场调研、数据分析又有什么样的联系？……

一 扫盲篇

研究结果表明，企业处理的数据每5年就会成倍增长，导致企业数据过度的重复和不一致，如何在这些数据中获取有利信息就促进数据挖掘技术发展。

1、数据挖掘的相关概念

谢邦昌教授在《数据挖掘 clementine应用实物》一书中提到，数据挖掘是指寻找隐藏在数据中的信息（如趋势、特征及相关性）的过程，也就是从数据中挖掘信息或知识KDD（knowledge discovery in databases)。

数据挖掘可以说汇合了以下六个领域：

a 数据库系统-数据仓库和联机分析（OLAP）

b 机器学习

c 统计与数据分析方法

d可视化

e 数学规划

f 高性能计算

数据挖掘和数据仓库有什么样的联系？我个人的理解是数据仓库的建立是数据挖掘的前提条件，因为数据仓库里的数据通常是整理过的数据，也就是我们通常所说的Clear Data，而从这些有用的数据中找出我们感兴趣或是有价值的信息的过程就是数据挖掘。

2、数据挖掘的应用领域

数据挖掘对每个公司来说都是一个重要的策略性计划，因而将它设为高度机密，所以要调查各公司用数据挖掘到底做什么样的事相当不容易。这里简单的说说数据挖掘的几个常用领域：

a 客户档案管理方面，通常公司都希望找出客户的一些共同特征，希望能借此预测哪些人可能成为他们的客户，以帮助营销人员找到正确的营销对象，以降低营销成本，提高成功率

b 购物篮分析，通常用来帮助零售从业人员了解客户的消费行为，譬如哪些客户会一起购买，哪些客户会购买某种产品后隔段时间会购买另外一种产品，利用数据挖掘，零售从业人员可以更有效的决定进货量或库存量，商品如何排放等等

c 客户关系管理，公司通常可以分析，原本一些属于自己的客户，后来却转变成竞争对象的客户，分析这一部分群体的特征，再根据这些特征到现有客户数据中找出有可能转向的客户，然后设计出相应的方案来留住这一部分客户群体（毕竟找一个新客户的成本要比留住一个原有客户的成本高的多）

除此之外，数据挖掘还运用到其他许多行业，如金融业、电信业、零售业、互联网等等，其常用情况汇总如下：

数据挖掘的应用

以客户为中心

以操作为中心

以研究为中心

终身价值

购物篮分析

档案细分

保留

目标市场

采集

知识门户

交叉销售

活动管理

电子商务

盈利能力分析

定价

欺诈检测

风险评估

投资组合管理

员工离职

现金管理

生产效率

网络性能

制造工艺

组合化学

遗传研究

流行病学

3、数据挖掘的进行步骤及常用分析方法

每个人数据挖掘过程都不一样，但可以肯定的一点是他们大部分时间都花在准备数据阶段，而其他步骤也只是这样一个大致流程：

1）理解数据与进行的工作

2）获取相关知识和技术

3）整合与检查数据

4）去除错误与不一致的数据

5）发展模型与假设

6）实际数据挖掘工作

7）测试与验证所挖掘的数据

8）解释与使用数据

数据挖掘分析方法是利用数据来建立一些模仿真实世界的模型，利用这些模型来描述数据中的模式以及关系，常用的数据挖掘分析方法主要有：

1）用于分类\聚类的分析方法，如：因子分析、判别分析、聚类分析等，除此之外还有决策树（常用分类方法为CART<classification and regression trees>及CHAID<chi-square automatic interaction detector>两种）

2）推算预测分析方法，如回归、时间序列、神经网络等

3）序列规则分析方法，如关联规则、序列规则等

4、主要数据挖掘软件

目前市面上比较常用的数据挖掘软件有不下于30种（当然都是老外开发的，目前为止还没发现国人开发的此类软件），例如MLC++,Clementine,Darwin,Intelligent Miner,SAS data Mining，S-plus，matlab等等。下面简单的介绍几种：

1）SPSS Clementine,SPSS公司发行，此工具结合了多种图形用户接口分析技术，包含神经网络、关联规则及规则生成技术。

2）Oracle Darwin,甲骨文公司发行，其优点是支持多重算法，可在多种主从式架构上执行，服务器端可以是单处理器、同步多处理器或大量平行处理器，定位在中、大范围的执行

3）SAS Enterprise Miner,SAS公司发行，目前数据挖掘市场上的领导者，适用于企业在数据挖掘的发展及整个CRM的决策支持应用

4）IBM Intelligent Miner,IBM公司发行，是市场上最大容量及功能强大的工具，在顾客评定报告中它的整体效能是最好的，定位于企业数据挖掘解决方案的先锋。

二、数据挖掘与市场分析

“统计分析给您以先机，分析报告给您后见之明，数据挖掘给您以洞察”这样一句话来形容市场分析与数据挖掘的关系再确切不过了。然而数据挖掘只是用来帮助业务分析策划人员从数据中发现各种可能的假设，这些假设是否正确，是否有价值还有待确定，为了得到更加确定的答案，企业不得不花费一些时间和经历来验证这些假设，从而导致企业提出调研目的，针对相关假设设计相应的调查问卷，根据调查结果，运用统计分析得出分析报告，从而推出一系列新的发展方案，发展新的客户，回头又继续数据挖掘，形成一个数据挖掘--市场调研--统计分析的良性循环。

除此之外，统计分析还给数据挖掘提高了许多新的分析方法，如神经网络技术应用中的---概率分析网（PLN），挖掘方法上的---贝叶斯网络，遗传算法中的---概率进化算法(PMEA)等等。

三、从事数据挖掘工作需掌握的相关知识

1、数据库技术数据挖掘是在大量数据中找出自己感兴趣或有用信息的过程，这其中涉及到数据库操作的相关功能，那么掌握一种数据库以上的知识就成了必然，这也是为什么目前国内许多企业数据挖掘从业人员是计算机专业的原因。

2、相关行业知识也就是前面数据挖掘步骤中有提到相关知识和技术，没有行业背景知识，纯技术做出来的分析报告就好像"无根"之水

3、掌握一种以上的数据挖掘软件其实许多的数据库也提供了相应的分析功能，比如前面提到的IBM、Oracle数据挖掘软件

4、相关统计及市场分析知识没有这些知识做出来的报告可能犯下或多或少的错误，从而使分析结果出现严重的。

时间： 2024-10-29 23:20:39

扫盲贴：数据挖掘(Data mining)是什么？

扫盲贴：数据挖掘(Data mining)是什么？的相关文章

Python_DM_数据挖掘Data Mining方法

data mining，machine learning，AI，data science，data science，business analytics

Weka 3: Data Mining Software in Java

Big Data Analytics and Data Mining 第一天.

搭建Data Mining环境（Spark版本）

做Data Mining，其实大部分时间都花在清洗数据

看Cognos+SPSS如何无缝对接BI+Data Mining

数据可视化之"Research on visualization techniques in data mining"

A web crawler design for data mining