数据挖掘(2)---数据

前篇文章我们大致的介绍了数据挖掘一些知识。现在说一下在数据挖掘中的数据问题。

毫无疑问,数据挖掘中,数据是重中之重,在数据挖掘中数据的前期工作基本上会耗费大量时间。 数据集可以看成是数据对象的集合,数据对象简单理解就是一组对象属性,而属性我们也可以称为变量,特性,字段或维,属性类型包括Nominal (名词性),Numberic(数值),当然还可以细分。

1、数据集

我们挖掘的数据集有好多种比如:

1)记录数据: 记录数据就是一条一条记录的汇集,每条记录包含固定的数据字段集,这种记录文件通常存放在关系数据库中。

a:Transaction(事务数据): 它是一种特殊类型的记录数据,其中每个记录(事务)涉及一系列的项,如购物篮数据,每一行代表一位顾客的购买商品:

b:Data Matrix(数据矩阵):  如果一个数据集中所有数据对象都有相同数值性集,就可以使用矩阵表示,比如文档-词矩阵。

2)基于图形的数据

3)有序数据,比如氨基酸序列、时序数据...

4)非记录数据(网页什么的)...

 2、数据集的问题和前期处理

数据集的质量很关键,但是往往我们收集到的数据集会有很多问题,这时候就需要对数据进行很多前期处理工作。

1、 Data Quality Problem:

  • Noise and outliers(噪声和离群点)
  • Missing value (缺失值,有的记录对象的属性值没有)
  • duplicate data (重复数据,会影响挖掘算法)

噪声:就是指测量误差的随机部分,因此常常假设为高斯分布。

离群点:是指某种意义上不同于数据集中大部分其他数据对象特征的数据对象,但其实它不是噪声,有时候我们更关心这些离群点,比如欺诈啊...

缺失值:一个对象遗漏一两个属性值很常见,但是我们在做数据分析的必须处理这些遗漏值。(可以删除遗漏属性值,填充遗漏属性值...)

   2、Preparing the input(Data Preparation)

(1)Data cleaning (数据清理), 就是指使用某些方法处理噪声,属性缺失值,离群点,方法可以使用聚类,线性分析,binning处理数据平滑等。

(2)Data integration(数据集成), 就是将两个或多个对象合并成单个记录对象,比如考虑某个国家的降雨量问题,可以把12个月的降雨量聚集成一年的降雨量。

(3) Data transformation (数据转换),将数据规范化或者标准化等等。一般来说两个属性值的区间相差很大的时候,会影响后期算法的挖掘性能,因此一般会将数据转换到同一个值区间。可以使用以下几种方法:

  • min-max normalization:  s=(s-min)/(max-min);
  • z-score normalization:  s=s-mean/ð
  • normalization by decimal scaling:  s=s/d

(4)Discretization etc 离散化等等  

      (5)Data reduction (数据约减)

        维灾难:

指的是随着数据维度的增加,许多数据分析变得非常困难,特别是随着维度增加,数据在它所占的空间越来越稀疏,对于分类问题,这就意味着没有足够多的数据用于创建模型。对于聚类问题,意味着点的密度,距离失去了意义。结果导致对于高维数据许多分类,聚类算法准确度下降。

解决办法:

1、维规约最经常使用线性方法,将高维数据映射到低维空间,比如PCA...

2、特征子集选择:还可以通过仅使用特征的一个子集对数据进行降维,可能看起来这样会丢失原数据信息,但是当数据集存在相关数据时,就很可靠了,其实决策树就是这样的选取子集特征。 特征子集提取流程:

一般来说,特征子集是搜索所有可能的特征子集过程,可以使用多种搜索策略,但是搜索的一个不可或缺的步骤就是评估步骤,根据已经考虑的子集评估当前  的特征子集,因为我们穷举特征子集需要很多时间,所以一般有个停止判断用于结束选取特征过程(比如迭代次数...)

    特征提取(feature extraction)

由原始的数据创建新的特征集,比如说照片原始特征属性是像素的集合,但是这种特征不适合很多分类算法,因此我们通过对这些像素数据进行处理,提取一些较高层次的特征,比如图像边等,就可以很好的使用一些算法用于分析这些特征。

时间: 2024-10-09 21:18:34

数据挖掘(2)---数据的相关文章

数据挖掘——认识数据

一.数据集有数据对象组成.一个数据对象(样本.实例.数据点.对象.数据元组)有代表一个实体. 二.属性类型 属性是一个数据字段,表示数据对象的一个特征.属性可以是:标称.二元.序数.数值 观测是给定属性的观测值. 1.标称属性:一些对象的名称. 2.二元属性:布尔属性. 3.序数属性:值之间存在有意义的程度评定. 4.数值属性:存在大小的定量.(区间标度.比率标度) { 区间标度:可以比较合定量之间的差.没有固有的零点. 比率标度:有固有的零点,可以计算倍数比例. } 5.离散属性:有限或者无限

数据挖掘-认识数据

数据对象与属性类型 数据集由数据对象组成.一个数据对象代表一个实体.例如销售数据库中,对象可以是顾客.商品.属性是一个数据字段,表示数据对象的一个特征. 属性类型 标称属性(nominal attribute):一些事物的名称,每个值代表某种类别.编码或者状态.不具有有意义的序,不是定量的,其均值和中位数无意义,总数有意义.例如,颜色这个对象的属性可能有黑色.红色.白色等,职业可能值有教师.医生等. 二元属性(binary attribute):一种标称属性,只有两个类别或状态:0或1.有对称和

数据挖掘:数据(数据对象与属性类型)

一.概述 现实中的数据一般有噪声.数量庞大并且可能来自异种数据源. 数据集由数据对象组成,一个数据对象代表一个实体. 数据对象:又称样本.实例.数据点或对象. 数据对象以数据元组的形式存放在数据库中,数据库的行对应于数据对象,列对应于属性. 属性是一个数据字段,表示数据对象的特征,在文献中,属性.维度(dimension).特征(feature).变量(variance)可以互换的使用. "维",一般用在数据仓库中. "特征",一般用在机器学习中. "变量

【数据分析&数据挖掘】数据合并和拼接案例

1 import pandas as pd 2 import numpy as np 3 4 # 加载数据——detail 5 detail_1 = pd.read_excel("./meal_order_detail.xlsx", sheetname=0) 6 detail_2 = pd.read_excel("./meal_order_detail.xlsx", sheetname=1) 7 detail_3 = pd.read_excel("./me

数据挖掘(数据可视化技术)

1.自组织映射(Self-Organizing Maps or Self-Organizing feature Maps, SOM or SOFM) 转Tom Germano写于1999年3月23日http://davis.wpi.edu/~matt/courses/soms/#Introduction 图片来自:paperuri:(b20e09ec9e801c4cc889f8d5ec4b53e5) 2.平行坐标可视化(Parallel-Coordinate Visualization,PCV)

(数据挖掘)大数据Flume+kafka+zookeeper+Strom/Spark/Fink......

图中黑点代表求婚注册者.假如是一个程序员 原文地址:https://www.cnblogs.com/curedfisher/p/12340087.html

大数据和「数据挖掘」是何关系?---来自知乎

知乎用户,互联网 244 人赞同 在我读数据挖掘方向研究生的时候:如果要描述数据量非常大,我们用Massive Data(海量数据)如果要描述数据非常多样,我们用Heterogeneous Data(异构数据)如果要描述数据既多样,又量大,我们用Massive Heterogeneous Data(海量异构数据)--如果要申请基金忽悠一笔钱,我们用Big Data(大数据) 编辑于 2014-02-2817 条评论感谢 收藏没有帮助举报作者保留权利 刘知远,NLPer 4 人赞同 我觉得 大数据

(原创)大数据时代:数据分析之基于微软案例数据库数据挖掘案例知识点总结

随着大数据时代的到来,数据挖掘的重要性就变得显而易见,几种作为最低层的简单的数据挖掘算法,现在利用微软数据案例库做一个简要总结. 应用场景介绍 其实数据挖掘应用的场景无处不在,很多的环境都会应用到数据挖掘,之前我们没有应用是因为还没有学会利用数据,或者说还没有体会到数据的重要性,现在随着IT行业中大数据时代的到来,让我一起去拥抱大数据,闲言少叙,此处我们就列举一个最简单的场景,一个销售厂商根据以往的销售记录单,通过数据挖掘技术预测出一份可能会购买该厂商产品的客户名单,我相信这也是很多销售机构想要

基于大数据的线上线下电商用户数据挖掘研究

From:http://www.thebigdata.cn/JieJueFangAn/11932p2.html Online-to-Offline( 简称 O2O)电子商务模式,是一个连接线上用户和线下商家的多边平台商业模式. O2O 商业模式将实体经济与线上资源融合在一起,使网络成为实体经济延伸到虚拟世界的渠道; 线下商业可以到线上挖掘和吸引客源,而消费者可以在线上筛选商品和服务并完成支付,再到实体店完成余下消费. 它最先由 TrialPay 创始人 AlexRampell提出,在 2006