数据挖掘方法系列(一)数据探索

为什么要做数据探索?
了解数据的类型和人与人沟通过程中了解对方的性别一样重要,人与人沟通知道对方的性别才能用不同的方式与其沟通,不同的数据类型能做的操作也不一样。
探索数据探索哪些?数据的类型和数据的质量。
数据类型分为定性和定量的。
定性也可以说是分类的,包括标称和序数。标称很好理解,用户ID、用户的名称也属于标称,虽然也可以重复,但大致还是能代表一个个体;序数有类型{好,非常好,超级好},可以比较大小的,比如“超级好好”比“好”在好的程度要高,{高,较高,非常高}也属于序数。
定量可以说是连续的,包括区间和比率。区间是可以做差操作的。比如日期,可以求日期之间的区间,今年和去年相差一年;比率既可以求区间,又可以求比率。比如年龄是比率,20岁比30岁年轻10岁,还可以求年龄的均值,。
数据类型除了这种分类还有别的分类,但这样的分类是基础分类,掌握了就可以以不变应万变了。

数据的质量主要有:属性值缺失、对象重复、离群点、数据不一致以及数据错误。造成这些数据质量问题的原因有很多,比如操作员手工录入时发生错误、用户填写时造成的笔误和精准偏差(对一个问题的理解不到位或问卷设计不合理)、再比如传感器收集时失灵等问题。目前,很少有企业一开始收集大量的数据是为做挖掘,基本都是数据积累到一定量然后有了做挖掘的需求,不管是从数据还是从业务驱动上来说都是这样的,这样数据可能分散在各个业务系统中,缺失、不一致问题必然存在,需要通过各种预处理手段,将数据的质量提升到一定高度。

那么问题来了,如何做数据探索呢?
前面说了,需要探索数据类型和数据质量,接下来就讲运用两种工具来探索数据,商用数据挖掘软件IBM SPSS Modeler以及python语言。
IBM SPSS Modeler现在是IBM公司的一款数据挖掘工具,它能用拖拉拽的方式实现数据挖掘建模。使用方法在这里不介绍,只介绍探索的结果。
这是探索字段的数据类型,连续型,值范围,以及是否有缺失。

下面是探索数据质量,分为数据的描述统计信息和质量评估。
描述统计包括图形化/数据类型/最小值/最大值/平均值/标准差/偏度/是否唯一/有效值等等这些指标;

质量评估包括离群值/极值/完成率/有效记录数/无效值个数/字符型空值个数/空白个数/控制个数等

modeler是目前为止我用过的挖掘工具中最好的入门工具,尽管数据处理功能和支持挖掘算法不属于最多的,执行效率也不是最高的,但好在简单易懂;如果是公司内部使用有版权风险,或者是大数据量又穷那就还是用python吧。
Python语言是一门开源的编程语言,其中有很多大神贡献了很多模块,我们直接导入模块,就可以运用模块的功能,虽然是编程语言,但是学习成本真的很低,很多功能都是拿来就可以用。
#导入各个模块
from sklearn import datasets #导入机器学习库中的数据集
import pandas as pd   #导入pandas模块,用来处理数据,

iris=datasets.load_iris()
iris_X=iris.data
iris_Y=iris.target

iris_X1=pd.DataFrame(iris_X)
iris_Y1=pd.Series(iris_Y)    #因为下面用的数据探索的函数只有pandas中的DataFrame,Series

print(X1.describe(),X1.head(),X1.corr(),X1.corrwith(y1))   #引用数据探索的函数

工具永远都只是工具,只能帮助我们工作,不能替代我们思考,只有不断思考知道需要做什么,怎么做才能进步~

原文地址:https://www.cnblogs.com/xiaotangqiu/p/9490964.html

时间: 2024-10-09 19:52:24

数据挖掘方法系列(一)数据探索的相关文章

「数据挖掘入门系列」数据探索之数据特征分析

对数据质量进行简单的分析后,我们就可以开始来分析数据的特征分析了.数据的特征分析可以从以下几个方面开展: 分布分析 对比分析 统计量分析 周期性分析 相关性分析 通过以上5种方式,可以找到数据中存在的某种特征. 分布分析 分布分析很容易理解,就是理解数据的分布情况.例如:在0-100区间有多少数据.100-1000有多少数据等等.我们一般可以使用直方图.饼图来展示数据的分布情况. 分布分析可以分为两种类型: 定量数据分布分析 定性数据分布分析 定量数据分布分析就是把数据分成一个个固定的区间,然后

数据探索综合指南EDA 转发

数据探索综合指南 苏尼尔·雷(SUNIL RAY) 2016年1月10日 总览 有关数据探索(EDA)的完整教程 我们涵盖了数据探索的几个方面,包括缺失值估算,异常值去除和特征工程的技巧 介绍 没有数据浏览的捷径.如果您处于一种状态,那么机器学习可以使您摆脱每次数据风暴,相信我,事实并非如此.经过一段时间后,您将意识到自己正在努力提高模型的准确性.在这种情况下,数据探索技术将助您一臂之力. 我可以自信地说,因为我经历过很多这样的情况. 我从事业务分析专业近三年了.在我最初的日子里,我的一位导师建

R语言数据挖掘实战系列(1)

R语言数据挖掘实战(1) 一.数据挖掘基础 数据挖掘:从数据中"淘金",从大量数据(包括文本)中挖掘出隐含的.未知的.对决策有潜在价值的关系.模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法.工具和过程. 数据挖掘的任务 利用分类与预测.聚类分析.关联规则.时序模式.偏差检测.智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力. 数据挖掘建模过程 定义挖掘目标,即决定到底想干什么? 数据取样.抽取一个与挖掘目标相关的样本数据子集.抽取数据的

R语言数据挖掘实战系列(5)

R语言数据挖掘实战系列(5)--挖掘建模 一.分类与预测 分类和预测是预测问题的两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值. 1.实现过程 (1)分类 分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别.分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以方便地计算,所以分类属于有监督的学习. (2)预测 预测是建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制.

R语言数据挖掘实战系列(3)

三.数据探索 通过检验数据集的数据质量.绘制图表.计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索. 数据质量分析 数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据.常见的脏数据包括:缺失值.异常值.不一致的值.重复数据及含有特殊符号的数据. 缺失值分析 数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失.产生的原因有(1)有些信息暂时无法获取,或者获取信息的代价太大:(2)有些信息是被遗漏的:(3)属性不

智慧中国杯算法赛解读 | 精准资助数据探索(一)

智慧中国杯是由DataCastle(数据城堡)主办的全国大数据创新应用大赛,提供了百万的竞赛奖金,数据城堡的创始人周涛是<大数据时代>的中文翻译者,在业内享有很高的名气. OpenFEA将对此次大赛进行持续关注和报道,以推进大数据在国内的发展,让更多的人参与到大数据的应用创新当中来,为社会培养大数据人才出一份自己的力量. 此次大赛分为三个环节,第一是算法赛,任何个人和组织团体都可以参加,无资格限制,提交比赛结果即可.算法赛最后截止时间为2017年2月20日,在此之前提交结果都有效,现在报名还来

数据挖掘方法论及实施步骤

1.业界数据挖掘方法论 2.在工作中,我们进行数据挖掘实施指导方法: 应用建模的八步法:业务理解.指标设计.数据提取.数据探索.算法选择.模型评估.模型发布.模型优化 步骤一:业务理解 常见的误区:很多人以为不需要事先确定问题和目标,只要对数据使用数据挖掘技术,然后再对分析挖掘后的结果进行寻找和解释,自然会找到一些以前我们不知道的,有用的规律和知识. 过程:业务调研->问题定位->制定目标->业务分析 步骤二:指标设计 基于对业务问题的梳理分析,找到合适的分析方法或者方法论指导模型指标设

二 数据探索

1 数据质量分析 数据质量分析是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础.其主要任务是检查原始数据中是否存在脏数据: (1)缺失值 (2)异常值(outliers) (3)不一致的值 (4)重复数据及含有特殊符号的数据 1.1 缺失值分析 1.2 异常值分析 异常值是指样本中数值明显偏离其余观测值的个别值,也称为离群点. (1)简单统计量分析 先对变量做描述性统计,检查数据是否合理.常用的统计量是最大.最小值. (2)3σ 原则 (3)箱型图分析 1.3 一致性分析 数据不一致

数据挖掘入门系列教程(一)之亲和性分析

数据挖掘入门系列教程(一)之亲和性分析 教程系列简介 系列地址:https://www.cnblogs.com/xiaohuiduan/category/1661541.html 该教程为入门教程,为博主学习数据挖掘的学习路径步骤.教程为入门教程,从最简单的开始.使用的编程语言为Python3.8.1,使用JupyterNotebook作为开发环境(使不使用JupyterNotebook都没有关系). 在学习本教程之前,你需要: 有一点python编程基础 会用百度 or 谷歌 数学知识还是要一