数据挖掘步骤

一.现在我主要讲解数据挖掘的基本规范流程

数据挖掘通常需要数据收集,数据集成,数据规约,数据清理,数据变换,数据挖掘实施过程,模式评估和知识表示

1.数据收集:根据所得的数据,抽象出数据的特征信息,将收集到的信息存入数据库。选择一种合适的数据存储和管理的数据仓库类型

2.数据集成:把不同来源,格式的数据进行分类

3.数据规约:当数据量和数据的值比较大的时候,我们可以用规约技术来得到数据集的规约表示,比如(数据值-数据平均值)/数据方差,这是数据就变小了很多但接近原数据的完整性,规约后数据挖掘的结果和规约前的结果基本一致。

4.数据清理:有些数据是不完整的如:有些有缺失值(值不存在),有些含噪音(错误,孤立点),有些是不一致的(如单位不同等),我们可以使用工具进行数据清理,得到完整,正确,一致的数据。

5.数据变换:通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的数据集。

6.特征提取或特征选择:特征提取多应用于计算机视觉和图像处理中,特征选择是提出不相关和冗余的特征,防止过拟合,提高模型精确度,常用方法有PCA等。

7.数据挖掘过程:分析数据仓库中的数据信息,选择合适的数据挖掘工具,应用统计方法,使用相应的数据挖掘算法。。

8.从业务上,验证数据分析和数据挖掘的结果正确性。

9.知识表示,将数据挖掘所得结果以可视化的方式呈现给用户。

在数据挖掘中如果没有得到理想的结果,需要重复执行以上步骤,步骤2,3,4,5均属于预处理过程,数据挖掘大部分花在数据预处理部分。

二.数据挖掘算法及实现

分类:随机森林用于多分类,决策树会产生过拟合,logistic回归常用于二分类,得到类的概率

聚类:常用的聚类有k-means.

预测:回归模型,变系数单指数模型

时间: 2024-10-10 05:27:13

数据挖掘步骤的相关文章

一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类、决策树和CRISP-DM概念

一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类.决策树和CRISP-DM概念 接前面系列4篇: 一小时了解数据挖掘①:解析常见的大数据应用案例 一小时了解数据挖掘②:分类算法的应用和成熟案例解析 一小时了解数据挖掘③:详解大数据挖掘の分类技术 一小时了解数据挖掘④:商务智能原理解读の数据挖掘九大定律 数据挖掘有很多不同的实施方法,如果只是把数据拉到Excel表格中计算一下,那只是数据分析,不是数据挖掘.本文主要讲解数据挖掘的基本规范流程.CRISP-DM和SEMMA是两种常用的数据挖掘流程. 数据

扫盲贴:数据挖掘(Data mining)是什么?

数据挖掘有什么用途?数据挖掘和数据仓库之间有什么样的联系?数据挖掘和市场调研.数据分析又有什么样的联系?…… 一 扫盲篇 研究结果表明,企业处理的数据每5年就会成倍增长,导致企业数据过度的重复和不一致,如何在这些数据中获取有利信息就促进数据挖掘技术发展. 1.数据挖掘的相关概念 谢邦昌教授在<数据挖掘 clementine应用实物>一书中提到,数据挖掘是指寻找隐藏在数据中的信息(如趋势.特征及相关性)的过程,也就是从数据中挖掘信息或知识KDD(knowledge discovery in da

数据挖掘相关免费软件

转载自http://reader.dashuai.net/?p=100 数据清理类工具 DataWrangler Google Refine 统计分析类工具 The R Project for Statistical Computing TimeFlow 数据展现类工具 Google Fusion Tables Impure Tableau Public Many Eyes VIDI Zoho Reports 代码帮助类工具 Choosel Exhibit 地图相关数据展示工具 Quantum

Scikit-learn使用总结

在机器学习和数据挖掘的应用中,scikit-learn是一个功能强大的python包.在数据量不是过大的情况下,可以解决大部分问题.学习使用scikit-learn的过程中,我自己也在补充着机器学习和数据挖掘的知识.这里根据自己学习sklearn的经验,我做一个总结的笔记.另外,我也想把这篇笔记一直更新下去. 1 scikit-learn基础介绍 1.1 估计器(Estimator) 估计器,很多时候可以直接理解成分类器,主要包含两个函数: fit():训练算法,设置内部参数.接收训练集和类别两

知识发现过程

1. 数据清理 (消除噪声和不一致数据) 2. 数据集成 (多种数据源可以组合在一起) 3. 数据选择 (从数据库中提取与分析任务相关的数据) 4. 数据变换 (数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作) 5. 数据挖掘 (基本步骤,使用智能方法提取数据模式) 6. 模式评估 (根据某种兴趣度度量,识别表示知识的真正有趣的模式) 7. 知识表示 (使用可视化和知识表示技术,向用户提供挖掘的知识) 步骤1-4是数据预处理的不同形式,为挖掘准备数据.数据挖掘步骤可能与用户或知识库交互.有

Scikit-learn技巧(拓展)总结

Scikit-learn技巧(拓展)总结 本文转载自:http://www.jianshu.com/p/516f009c0875 最近看了<Python数据挖掘入门与实战>,网上有说翻译地不好的,但是说实话,我觉得这本书还是相当不错的.作者Robert Layton是sklearn的开发者之一,书中介绍了很多sklearn使用的技巧和拓展的方法.这里就书中关于sklearn的部分,还有自己学习sklearn的知识,我做一个总结的笔记. 1 scikit-learn基础介绍 1.1 估计器(Es

数据归约

对于真正意义上的大型数据集,在应用数据挖掘技术之前,还需要执行一个中间的.额外的步骤-数据归约,虽然大型数据集可能得到最佳的挖掘结果,但是未必能获得比小型数据集更好的数据挖掘结果, 2.维归约,主要问题是不降低成果质量的前提下,可否舍弃一些已准备和已预处理的数据 3.数据的描述以及特征的挑选.归约或转换可能是决定数据挖掘质量的最重要问题,在实践中,特征的数量可达到数百个之多,如果只有上百条样本可用于分析,就需要进行恰当的维归约,以挖掘出可靠的模型或使其具有实用性,,另一方面,由高纬度引起的数据超

kaggle数据挖掘——以Titanic为例介绍处理数据大致步骤

Titanic是kaggle上的一道just for fun的题,没有奖金,但是数据整洁,拿来练手最好不过. 本文以 Titanic 的数据,使用较为简单的决策树,介绍处理数据大致过程.步骤 注意,本文的目的,在于帮助你入门数据挖掘,熟悉处理数据步骤.流程 决策树模型是一种简单易用的非参数分类器.它不需要对数据有任何的先验假设,计算速度较快,结果容易解释,而且稳健性强,对噪声数据和缺失数据不敏感.下面示范用kaggle竞赛titanic中的数据集为做决策树分类,目标变量为survive 读取数据

数据挖掘方法论及实施步骤

1.业界数据挖掘方法论 2.在工作中,我们进行数据挖掘实施指导方法: 应用建模的八步法:业务理解.指标设计.数据提取.数据探索.算法选择.模型评估.模型发布.模型优化 步骤一:业务理解 常见的误区:很多人以为不需要事先确定问题和目标,只要对数据使用数据挖掘技术,然后再对分析挖掘后的结果进行寻找和解释,自然会找到一些以前我们不知道的,有用的规律和知识. 过程:业务调研->问题定位->制定目标->业务分析 步骤二:指标设计 基于对业务问题的梳理分析,找到合适的分析方法或者方法论指导模型指标设