数据挖掘基础

伴随着信息化系统建设的发展,各行各业的中大型企业都存储了大量的业务数据。很多的企业想要通过对这些数据的分析,来发现新的商机以及从这些数据中找到提高盈利的方法。大部分的企业,都是凭借管理人员的自身个人经验来开展这项工作。如果有一套系统,能够自动地或者半自动地发现相关的知识和解决方案,这样将会有效地提高企业的决策水平和竞争能力。从大量数据中挖掘出隐含的、未知的、对决策有价值的信息的方法、工具以及工作过程,就是数据挖掘。通过数据挖掘可以在这些数据中找到其中的规律、发现数据之间的关系。数据挖掘是统计学、数据库技术和人工智能的结合产物。

数据挖掘实施步骤

一般的数据挖掘的实施步骤通过以下几点来进行:

  1. 明确需求
  2. 数据抽样
  3. 数据探索
  4. 数据预处理
  5. 数据挖掘建模
  6. 模型评估

明确需求

在开展数据挖掘开发之前,要确定用户的需求是什么。也就是说,数据挖掘系统开发完了之后,能够达到什么样的效果呢?所以,此阶段需要去了解客户的业务背景、业务过程,弄清楚客户的真正需求。

例如:针对用户进行推荐、对销售数据进行预测分析等等。

数据抽样

真实的企业环境中,往往存在多种多样的数据。不是所有的数据都跟数据挖掘系统有关,我们需要从这些大量数据走过来,抽取到与目标相关的数据子集,从而减少数据处理量,节省系统资源。而且,有针对性的抽取数据,跟有利于发现真正有价值的数据。

数据探索

拿到抽样后的数据后,需要对数据有一个基本的认识。而不能拿到数据之后,就直接开展分析。所以,我们需要对抽样后的数据,进行初步地探索分析,去发现样本数据中是否存在某些明显的规律、或者趋势。这样方便后续对数据更有效地处理,保证后续数据的质量。例如:找到数据中的一些异常值、缺失的数据等等。

数据预处理

采样的数据中,往往都存在一些垃圾数据、或者是不完整、不一致的数据,这样会造成后续的分析结果是不准确的。所以,在进行数据挖掘之前,就应该对数据进行预处理来改善数据的质量。数据预处理包含了:

  • 数据筛选、过滤、清洗
  • 数据转换
  • 缺失值处理
  • 数据标准化
  • ….

数据挖掘建模

数据预处理之后,就可以开始来进行数据挖掘建模了。在建模之前,首先得明白,我们要解决是哪一类问题(例如:分类、聚类、关联、推荐…等等),针对该类问题,应该使用哪种算法构建模型?所以,简单理解,数据挖掘建模过程其实主要就是根据问题选择是用的算法

模型评估

建立数据挖掘模型之后,就可以使用该模型来进行预测、分析。预测分析的结果未必准确。我们需要对该结果进行评估或者评价。从而优化模型。要根据实际的业务情况来优化模型。

原文地址:https://www.cnblogs.com/ilovezihan/p/12240036.html

时间: 2024-08-30 16:48:42

数据挖掘基础的相关文章

2017.06.29数据挖掘基础概念第十,十一章

第十章63.什么是聚类分析 一个把数据对象划分成子集的过程.每一个子集市一个簇,使得簇中的对象彼此相似,但与其他簇中的对象不相似.由聚类分析产生的簇的集合称做一个聚类.64.数据挖掘对聚类的要求 1.可伸缩性 2.处理不同属性类型的能力 3.发现任意形状的簇 4.对于确定输入参数的领域知识的要求 5.出来噪声数据的能力 6.增量聚类和对输入次序不敏感 7.聚类高维数据的能力 8.基于约束的聚类 9.可解释性和可用性 10.划分准则 11.簇的分离性 12.相似性度量 13.聚类空间65.基本聚类

数据挖掘基础简介

一.什么是数据挖掘 随着alphago在围棋上横扫各路高手,轻松击败李世石使得人工智能大火,各种关于数据挖掘.人工智能.机器学习的文章络绎不绝.由此引发了大家的思考,什么是数据挖掘? 数据挖掘通俗点来讲是通过某种方式找出潜藏在大量数据中我们所需要的信息.数据挖掘包含了机器学习.统计学.数学等多个学科的知识.数据挖掘不仅可以在互联网行业中应用,还可以在传统行业中发挥重要的价值. 三国演义中诸葛亮和司马懿交手的次数非常多,下面就以此为案例来对比阐述什么是数据挖掘. 1. 简要分析 诸葛亮战斗指数:

一 数据挖掘基础

从大量数据(包括文本)中挖掘出隐含的.未知的.对决策有潜在价值的关系.模型和趋势,并用这些知识和规律建立用于决策支持的模型,提供预测性决策支持的方法.工具和过程,就是数据挖掘:它利用各种分析工具在大量数据中寻找其规律和发现模型与数据之间关系的过程,是统计学.数据库技术和人工智能技术的综合. 1. 数据挖掘的基本任务 数据挖掘的基本任务包括利用分类与预测.聚类分析.关联规则.时序模式.偏差检测.智能推荐等方法,帮助提取数据中蕴含的商业价值. 2. 数据挖掘建模过程 定义挖掘目标 数据取样 数据探索

2017.06.29数据挖掘基础概念第二.三章

第二章21.研究的属性类型标称属性:值是一些符号或事物的名称,代表某种类型.编码或状态二元属性:是一种标称属性,只有两个类别或状态,又称布尔属性序数属性:是一种属性,其可能的值之间具有有意义的序或秩评定,但是相续值之间的差是未知的数值属性:是定量的,即他是可度量的量,可用整数或实数值表示(区间和比率标度)22.数据散布常见的度量量(数据如何分散的方法/识别离群点)极差 四分位数.四分位数极差.五数概括图.方差和标准差23.审视数据的图形条形.饼图.线图.分位数图.分位数-分位数图.直方图和散点图

2017.06.29数据挖掘基础概念第六,八,九章

第六章51.关联规则的挖掘的两个过程1.找出所有的频繁项集2.由频繁项集产生强关联规则52.频繁项集挖掘方法 1.Apriori算法 2.挖掘频繁项集的模式增长方法 3.使用垂直数据格式挖掘频繁项集53.提高Apriori算法的效率 1.基于散列的技术 2.事务压缩 3.划分 4.抽样 5.动态项集计数 第八章54.如何进行分类 数据的分类是一个两阶段过程,包括学习阶段和分类阶段. 在第一阶段,建立描述预先定义的数据类或概念集的分类器 在第二阶段,使用模型进行分类,首先评估分类器的预测准确率55

2017.06.29数据挖掘基础概念第四章

第四章39.为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行 1.提高两个系统的性能 2.操作数据库支持多事务的并发处理,需要并发控制和恢复机制,确保一致性和事务的鲁棒性 3.两者有着不同的数据的结构.内容和用法40.什么是数据仓库 数据仓库是一种数据库,它与单位的操作数据库分别维护,数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持,是一个面向主题的.集成的.时变得.非易失的数据集合,支持管理者

数据挖掘基础:在数据中寻找相关的项目 Apriori算法

Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=?; k++) do begin Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are

R语言数据挖掘实战系列(1)

R语言数据挖掘实战(1) 一.数据挖掘基础 数据挖掘:从数据中"淘金",从大量数据(包括文本)中挖掘出隐含的.未知的.对决策有潜在价值的关系.模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法.工具和过程. 数据挖掘的任务 利用分类与预测.聚类分析.关联规则.时序模式.偏差检测.智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力. 数据挖掘建模过程 定义挖掘目标,即决定到底想干什么? 数据取样.抽取一个与挖掘目标相关的样本数据子集.抽取数据的

大数据时代的精准数据挖掘——使用R语言

老师简介: Gino老师,即将步入不惑之年,早年获得名校数学与应用数学专业学士和统计学专业硕士,有海外学习和工作的经历,近二十年来一直进行着数据分析的理论和实践,数学.统计和计算机功底强悍. 曾在某一世界500强公司核心部门担任高级主管负责数据建模和分析工作,在实践中攻克统计建模和数据分析难题无数,数据处理与分析科学精准,在实际应用中取得良好的效果. Gino老师担任数据分析培训师多年,探索出一套以实例讲解带动统计原理理解和软件操作熟悉的方法,授课的学生能迅速理解统计原理并使用统计软件独立开展数