数据归约

对于真正意义上的大型数据集，在应用数据挖掘技术之前，还需要执行一个中间的、额外的步骤—数据归约，虽然大型数据集可能得到最佳的挖掘结果，但是未必能获得比小型数据集更好的数据挖掘结果，
2.维归约，主要问题是不降低成果质量的前提下，可否舍弃一些已准备和已预处理的数据
3.数据的描述以及特征的挑选、归约或转换可能是决定数据挖掘质量的最重要问题，在实践中，特征的数量可达到数百个之多，如果只有上百条样本可用于分析，就需要进行恰当的维归约，以挖掘出可靠的模型或使其具有实用性，，另一方面，由高纬度引起的数据超负，会使一些数据挖掘算法不可用，唯一的方法是再进行维归约
4.数据归约过程的3个基本操作是删除列、删除行、减少列中值的数量（平整特征）
在准备数据挖掘时，要执行标准的数据归约操作，需要分析一下参数：A:计算时间 B:预测/描述精度 C: 数据挖掘模型的描述
5.数据归约算法的推荐特性
可测性
应用已归约的数据集可精确的确定近似结果的质量
可识别性
在应用数据挖掘程序之前，数据归约算法运行期间，很容易确定近似结果的质量
单一性
算法往往是迭代的，计算结果的质量是时间和输入数据质量的一个非递减的函数
一致性
计算结果的质量和计算时间及输入数据质量有关
收益递减
方案在计算的早期能获得大的改进，但随时间递减
可中断性
算法可以随时停止，并给出答案
优先权
算法可以暂停并以最小的开销重新开始
6.特征归约
高维数据可能包含许多不相关的干扰信息，显著降低了数据挖掘过程的性能，甚至一流的数据挖掘算法也不能处理大量弱相关特征和冗余特征，通常归因于“维数灾”或者因为非相关特征降低了信噪比，另外，维数非常高时，许多算法都无法执行
数据质量和已归约数据集性能的改善，不仅与干扰数据和污染数据有关，也与非相关、相关、冗余数据有关，收集具备响应特征的数据通常不仅仅用于数据挖掘，因此，仅处理相关特征可以提高效率，基本上，应选择与数据挖掘应用相关的特征，以获得最佳性能，且测量和处理的工作量最小，特征归约处理的结果是:更少的数据，以便数据挖掘算法更快的学习、更高的数据挖掘处理精度，以便更好的从数据中归纳出模型、简单的数据挖掘处理结果，以方便理解和使用、更少的特征，以便在下一轮数据收集中，去除冗余和不相关的特征，减少工作量
7.维归约技术作为数据预处理的一个步骤，这个过程可以识别适合于初始数据的低维表达式，减少维度，可以提高数据分析的计算效率和精确度，推荐使用的技术可分为有人监管和无人监管的技术
有人监管的算法需要一个带输出类标签信息的训练集，以便学习基于某个条件的低维表达，无人监管的方法把初始数据投射到一个新的低维空间上，但没有使用标签信息，维归约技术可以把已有的特征转换为一组新的归约特征，或者选择已有特征的一个子集，因此，要生成一组归约特征，有两个标准任务：
特征选择，分析人员可选择初始数据集中的一个特征子集，通过手动或通过一些自动化程序进行
特征选择方法应用于3个概念框架模型，过滤模型、封装模型、嵌入模型这三个基本框架并不是把学习算法和特征的评估与选择组合起来
在过滤模型中，特征的选择是一个预处理步骤，不需要优化某个数据挖掘技术的性能，为此，通常使用某个搜索方法进行评估，以选择出能最大化评估效果的特征子集，刚开始时，特征非常多，进行彻底的搜索通常是不可能的，因此需要适用不同的方法进行各种试探式搜索
在封装模型中，封装的方法在选择特征时，是封装所选的学习算法，根据数据挖掘技术的学习技能，评估每个候选的特征子集，主要缺点是其计算的复杂性
在嵌入模型中，嵌入式方法把特征搜索和学习算法组合到一个优化的问题表述中，样本和维数非常大时，通常应选择过滤方法，因为过滤算法的计算效率很高，且不偏向任何学习方法
特征提取/替换，一些数据转换对数据挖掘方法的结果有着惊人的影响，从这个意义上将，在数据挖掘结果的质量方法，特征的合成/转换是一个更有决定性的因素
8.特征选择，也称变量选择、特征归约、特征选择或变量子集选择，这个技术会从数据中删除大多数非相关特征和冗余特征，选择出相关特征的一个子集，以建立强壮的学习模型
特征选择的目标：提高数据挖掘模型的性能提供更快、性价比更高的学习过程、更好的理解生成数据的基本过程
特征选择算法一般分为两类：特征排列算法、子集选择算法
特征排列算法根据特定的标准排列所有的特征，去除没有获得足够分数的特征
子集选择算法会在所有的特征集中搜索最优子集，该子集中的特征是没有排序，不同的特征选择方法可以得出不同的归约数据集
9.特征选择的目标是找出特征的一个子集，此子集的数据挖掘性能比得上整个特征集
如果归约任务是生成一个子集，一种可能就是从空集开始，然后从初始的特征集中选择最相关的特征并写入——所谓的自下向上方法，这种方法基于一些试探式的特征评估标准，想法，自上向下方法从原始特征的完整集合开始，然后选择所选的试探式评论尺度，逐个去除不相关的特征，最优方法的其他近似方式：
只检查有前景的特征子集、用计算简单的距离度量值替换错误的度量值、只根据大量数据的子集选择特征，但随后的数据挖掘步骤将应用于整个数据集
如果一个特征描述了不同种类的实体，则可以检查不同种类的样本，用特征的方差进行特征的均值进行标准化，然后比较不同种类的标准化值，如果觉知相差很大，此特征的重要性就增加，因为他可以区分两类样本，如果均值相差不大，那么重要性就减弱
基于相关条件的算法展示了特征排列的一个近似方式，先考虑结果y的预测，使用的是皮尔逊系数
10.特征提取
特征转换技术的目标是将数据的维度减少到一个较小的数字，该维度是厨师维度的线性或非线性组合，因此，有两种主要的维归约方法：线性和非线性
特征提取额的其他方法包括因子分析（FA）、独立成分分析（ICA）、多维缩放（MDS），流行的距离度量值包括欧氏距离、曼哈顿距离、最大范数
PCA和度量MDS都是线性维归约的简单方法，MDS的一个替代方法是Fastmap，这是计算效率很高的算法，Isomap是非线性维归约的一个强大技术，主要基于图形
Relief算法
Relief算法是一个基于特征加权的特征选择算法，要点是为每个特征计算一个等级分数，表示每个特征区分邻近样本的能力，相关特征的等级分数大，而非相关特征的等级分数小，该算法会随机选择大小为m的样本自己，其中m是一个用户定义的参数，Relief算法会搜索他的两个最近的邻近点，一个邻近点与X类型相同，称为最近击点，另一个邻近点与X的类别不同，称为最近闪点
Relief算法是可以给特征空间很大、样本数很大的实际问题评估特征的几个算法之一，Relief算法也可以抑制早点，不受特征相互作用的影响，但是Relief算法无助于删除冗余特征
11.特征排列的熵变量
一种基于熵变量的无监督特征选择或排列方法是一个相当简单的技术，但如果特征非常多，其复杂性就会增加，
12.主成分分析
PCA也称为奇异值分解（SVD），PCA的方法是将以向量样本表示的初始数据集转换为一个带有导出维度的新向量样本集，转换的目标是将不同样本中的信息集中在少量的维度中
13.值归约
减少已知特征的离散值数目是基于数据归约阶段的第二套技术，即特征离散化技术，特征离散化技术是将连续型特征的值离散为少量的区间，每个区间映射到一个离散符号，这种技术的好处在于简化了数据的描述，数据和数据挖掘的最终结果易于理解
14.值归约的方法的着急要问题是给箱子找出最好的分割点，丽丽上，确定分割点时不能不考虑其他特征，在很多数据挖掘应用中，每个特征的试探性决策独立的给出了合适的结果，值归约问题可表述为选择k个箱的优化问题：给出箱的数量k，分配箱中的值，使这些值到箱子均值或均值的平均距离最小
15.特征离散化：ChiMerge
ChiMerge是一种自动化的离散算法，统计分析已知特征的多个区间的质量，此算法根据输出样本的分类来确定两个相邻区间的数据分布的相似性
16.案例归约
初始数据集中最大和最重要的维度是案例或样本的数目，换句话说就是数据表中的行数，因此可以通过取样进行案例的归约
取样的方法：
普通用途的取样方法、特殊领域的取样方法
系统化取样时最简单的取样技术
随机取样是一种初始数据集中的每个样本都有相同机会入选子集的方法，这种方法有两种变式：不回放随机取样，回放随机取样
随机取样的两种基本形式：
增量取样
子集的逐步增大进行数据挖掘，然后观察性能的走向
平均取样
对很多随机样本自己上建立起来的方案进行均化或表决
分层取样
分层取样技术将整个数据集分割为不相交的子集或层，层的取样都彼此独立
逆取样
当数据集中的一个特征出现概率极小，且即使很大的样本子集也不能为特征值的估计提供足够的信息时，可选用逆取样技术，此时，取样时动态的，他从最小的样本自己开始取样，知道满足特征值的必须数量的条件为止

原文地址：https://www.cnblogs.com/lgx-fighting/p/9380636.html

时间： 2024-10-29 00:02:12

数据归约的相关文章

第七篇：数据预处理(四) - 数据归约(PCA/EFA为例)

前言这部分也许是数据预处理最为关键的一个阶段. 如何对数据降维是一个很有挑战,很有深度的话题,很多理论书本均有详细深入的讲解分析. 本文仅介绍主成分分析法(PCA)和探索性因子分析法(EFA),并给出具体的实现步骤. 主成分分析法 - PCA 主成分分析(principal components analysis, PCA)是一种分析.简化数据集的技术. 它把原始数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次

数据预处理（完整步骤）

原文:http://dataunion.org/5009.html 一:为什么要预处理数据?(1)现实世界的数据是肮脏的(不完整,含噪声,不一致)(2)没有高质量的数据,就没有高质量的挖掘结果(高质量的决策必须依赖于高质量的数据:数据仓库需要对高质量的数据进行一致地集成)(3)原始数据中存在的问题:不一致 —— 数据内含出现不一致情况重复不完整 —— 感兴趣的属性没有含噪声 —— 数据中存在着错误.或异常(偏离期望值)的数据高维度二:数据预处理的方法(1)数据清洗 —— 去噪声和无关数据(2)数

数据挖掘概念与技术读书笔记(三)数据预处理

3.1 数据预处理数据质量的三个要素:准确性.完整性和一致性. 3.1.2 数据预处理的主要任务数据清理:填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来”清理“数据. 数据集成: 数据归约: 3.2 数据清理 3.2.1 缺失值 1.忽略元组 2.人工填写缺失值 3.使用一个全局常量填充缺失值 4.使用属性的中心度量填充缺失值:中位数 5.使用与给定元组属同一类的所有样本的属性均值或中位数 6.使用最可能的值填充缺失值:回归/贝叶斯/决策树第6种是最流行的策略 3.2.2

《数据挖掘概念与技术》--第三章数据预处理

一.数据预处理 1.数据如果能够满足其应用的要求,那么他是高质量的. 数据质量涉及许多因素:准确性.完整性.一致性.时效性.可信性.可解释性. 2.数据预处理的主要任务:数据清洗.数据集成.数据规约.数据变换. 二.数据清理:试图填充缺失值,光滑噪声.识别利群点.纠正数据中的不一致. 1.缺失值的处理: 1)忽略元组:缺少类标号时通常这么做.但是忽略的元组其他属性也不能用,即便是有用的. 2)人工填写:该方法很费事费时,数据集很大.缺失值很多时可能行不通. 3)使用一个全局常量填充缺失值:将缺失

数据预处理技术

数据预处理技术数据清理:空缺值处理.格式标准化.异常数据清除.错误纠正.重复数据的清除数据集成:将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成.数据变换:平滑.聚集.规范化.最小最大规范化等数据归约:维归(删除不相关的属性(维)).数据压缩(PCA,LDA,SVD.小波变换).数值归约(回归和对数线形模型.线形回归.对数线形模型.直方图)数据离散化和概念分层 1.数据清理:格式标准化.异常数据清除.错误纠正.重复数据的清除通过填写空缺值,平滑噪声数据,识别删除孤立

第四篇：数据预处理(一) - 缺失值处理

前言在对数据有了大致的了解以后,就需要对获取到的数据进行一个预处理了.预处理的过程并不简单,大致来说分成缺失值处理,异常值处理,数据归约等等 (可根据实际情况对这些阶段进行科学的取舍). 下面将对这几个阶段一个个讲解.(本文中测试数据集nhanes2来自包lattice) 缺失值处理 1. 首先要了解到数据集的缺失情况. 下面两行命令分别获取到缺失的字段数和完整样本数: 显然缺失字段个数为27,完整样本数为13. 2. 使用mice包的md.pattern函数来获取具体的缺失情况: 第一行第一

数据挖掘笔记（三）—数据预处理

1.原始数据存在的几个问题:不一致:重复:含噪声:维度高. 2.数据预处理包含数据清洗.数据集成.数据变换和数据归约几种方法. 3.数据挖掘中使用的数据的原则应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义:统一多数据源的属性值编码:去除惟一属性:去除重复性:去除可忽略字段:合理选择关联字段. 4.处理空缺值的方法:忽略该记录:去掉属性:手工填写空缺值:使用默认值:使用属性平均值:使用同类样本平均值:预测最可能的值. 5.噪声数据

数据挖掘——（二）数据预处理

数据预处理 1. 数据质量的三个要素:准确性.完整性.一致性 2. 数据预处理的主要任务: 数据清理.数据集成.数据归约.数据变换一. 数据清理数据清理主要:填补缺失的值,光滑噪声同时识别离群点,并纠正数据的不一致性. 通常是一个两步的迭代过程,包括偏差检测和数据变换注意:在某些情况下,缺失值并不意味着数据有误.在理想情况下,每个属性应当有一个或多个关于控制条件的规则.这些规则可以说明是否允许空值,并且/或者说明这样的空值应当如何处理或转换. 二. 数据集成数据集成将来自多个数据源的数据

ML：数据预处理知识图谱

pandas 强大的数据处理工具学习目标:无需记忆确切的api名称,需要知识pandas能做什么,并根据实际需要使用的功能可以快速索引查询. 速查手册: (1) pandas中文给出的教学文档 https://www.pypandas.cn/docs/getting_started/10min.html (2) pandas常用中文api文档说明:给出了常用的数据process的api集合 https://blog.csdn.net/weixin_44129250/article/detail