数据挖掘流程

  1. 商业理解

    对现行商业问题的剖析,根据网络数据,文档等对商业问题的一个初步理解,为数据挖掘提供方向。

    比如对旧有商业模型的理解,对现行趋势的分析等。

  2. 数据理解

    对现有数据的初步分析,使用统计,探测等方法对现有数据有一个大致上的了解,为下一步骤做准备。

    比如根据统计结果查看属性的可用性与分布情况。

  3. 数据准备

    对现有数据采取过滤无效数据、转换数据值、生成新属性、异常处理等操作来产生出可用于数据挖掘模型建立的数据。

    具体流程:

    - 清洗数据:处理数据中缺失和无效值,

    - 构建数据:根据已有数据,构建更适合与数据挖掘的新数据字段,

    - 选择数据:分析与过滤掉与商业问题不相关的数据字段,

    - 格式化数据:根据算法不同改变数据形式

  4. 建立模型

    将数据分成训练集与检验集,使用训练集建立模型,使用检验集检验模型得出结果

时间: 2024-10-13 12:14:45

数据挖掘流程的相关文章

用 WEKA 进行数据挖掘 ——第一章:简介

1.简介数据挖掘.机器学习这些字眼,在一些人看来,是门槛很高的东西.诚然,如果做算法实现甚至算法优化,确实需要很多背景知识.但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西.他们的精力,集中在特征提取,算法选择和参数调优上.那么,一个可以方便地提供这些功能的工具,便是十分必要的了.而weka,便是数据挖掘工具中的佼佼者.Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化的,基于JAVA环境下

数据挖掘---介绍

数据挖掘(Data Mining)又称知识库知识发现(Knowledge-Discovery in Databases  简称KDD).   1.什么是DM?(what?) 简单点说,DM就是从海量数据中找到有价值的知识,这些知识可以是规则.约束.模式.规律等等. 这些知识可以使用图表,决策树,关联表等进行表示说明. 说到DM,感觉就应该说到数据库技术的发展.我们知道数据库技术从1960年代的简单收集数据到DBMS.关系型数据库等,一路发展过来的,也正是由于数据库技术的不断发展才会为DM的出现打

基于大数据的线上线下电商用户数据挖掘研究

From:http://www.thebigdata.cn/JieJueFangAn/11932p2.html Online-to-Offline( 简称 O2O)电子商务模式,是一个连接线上用户和线下商家的多边平台商业模式. O2O 商业模式将实体经济与线上资源融合在一起,使网络成为实体经济延伸到虚拟世界的渠道; 线下商业可以到线上挖掘和吸引客源,而消费者可以在线上筛选商品和服务并完成支付,再到实体店完成余下消费. 它最先由 TrialPay 创始人 AlexRampell提出,在 2006

Rattle:数据挖掘的界面化操作

R语言是一个自由.免费.源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具.这里的统计计算可以是数据分析.建模或是数据挖掘等,通过无数大牛提供的软件包,可以帮我们轻松实现算法的实施. 一些读者觉得R语言零碎的东西太多了,无法记住那么多函数和功能,于是就问R语言有没有一种类似于SAS之EM或SPSS之Modeler的界面化操作.很幸运,Graham等人特地为"偷懒"的分析师写了rattle包,通过该包就可以实现界面化操作的数据分析.数据挖掘流程.下面就跟大家详细介绍一些这款免费的

《数据挖掘:R语言实战》

<数据挖掘:R语言实战> 基本信息 作者: 黄文    王正林 丛书名: 大数据时代的R语言 出版社:电子工业出版社 ISBN:9787121231223 上架时间:2014-6-6 出版日期:2014 年6月 开本:16开 页码:292 版次:1-1 所属分类:计算机 > 软件与程序设计 > 综合 > 高级程序语言设计 更多关于>>><数据挖掘:R语言实战> 内容简介 书籍 计算机书籍 数据挖掘技术是当下大数据时代最关键的技术,其应用领域及前景

使用Weka进行数据挖掘

1.简介 数据挖掘.机器学习这些字眼,在一些人看来,是门槛很高的东西. 诚然,如果做算法实现甚至算法优化,确实需要很多背景知识.但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西.他们的精力,集中在特征提取, 算法选择和参数调优上.那么,一个可以方便地提供这些功能的工具,便是十分必要的了.而weka,便是数据挖掘工具中的佼佼者. Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化的,基于JAV

《SAS编程与数据挖掘商业案例》学习笔记之十八

接着以前的<SAS编程与数据挖掘商业案例>,之前全是sas的基础知识,现在开始进入数据挖掘方面笔记,本文主要介绍数据挖掘基本流程以及应用方向,并以logistic回归为例说明. 一:数据挖掘综述 衡量一个数据挖掘模型价值的唯一标准就是商业目标,为达到一个商业目标,有很多种方法,只有高效解决商业目标的方法才是最牛的方法,即使是看似简单的方法,只要能高效解决商业目标,我们就认为是牛的方法: 面对海量的数据,即使是使用了最先进的工具,最复杂的算法,但是如果挖掘出来的知识是无用的,或者挖掘的结果是无法

顶尖数据挖掘开发平台(TipDM-D2)产品白皮书

      顶尖数据挖掘开发平台 (TipDM-D2)           产  品  白  皮  书 广州泰迪智能科技有限公司 版权所有 地址: 广州市经济技术开发区科学城232号 网址: http://www.tipdm.com 邮箱: [email protected] 热线: 40068-40020 邮编: 510663 电话: (020)82039399 目  录 第1章 引言.......................................................

一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类、决策树和CRISP-DM概念

一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类.决策树和CRISP-DM概念 接前面系列4篇: 一小时了解数据挖掘①:解析常见的大数据应用案例 一小时了解数据挖掘②:分类算法的应用和成熟案例解析 一小时了解数据挖掘③:详解大数据挖掘の分类技术 一小时了解数据挖掘④:商务智能原理解读の数据挖掘九大定律 数据挖掘有很多不同的实施方法,如果只是把数据拉到Excel表格中计算一下,那只是数据分析,不是数据挖掘.本文主要讲解数据挖掘的基本规范流程.CRISP-DM和SEMMA是两种常用的数据挖掘流程. 数据