WEKA中的数据预处理

数据预处理包括数据的缺失值处理、标准化、规范化和离散化处理。

数据的缺失值处理：weka.filters.unsupervised.attribute.ReplaceMissingValues。对于数值属性，用平均值代替缺失值，对于nominal属性，用它的mode(出现最多的值)来代替缺失值。

标准化(standardize)：类weka.filters.unsupervised.attribute.Standardize。标准化给定数据集中所有数值属性的值到一个0均值和单位方差的正态分布。

规范化(Nomalize):类weka.filters.unsupervised.attribute.Normalize。规范化给定数据集中的所有数值属性值，类属性除外。结果值默认在区间[0,1]，但是利用缩放和平移参数，我们能将数值属性值规范到任何区间。如：但scale=2.0，translation=-1.0时，你能将属性值规范到区间[-1,+1]。

离散化(discretize):类weka.filters.supervised.attribute.Discretize和weka.filters.unsupervised.attribute.Discretize。分别进行监督和无监督的数值属性的离散化，用来离散数据集中的一些数值属性到分类属性。

转载自：http://blog.csdn.net/hunauchenym/article/details/5847314

WEKA中的数据预处理,布布扣,bubuko.com

时间： 2024-12-21 18:00:35

WEKA中的数据预处理的相关文章

Matlab中的数据预处理-归一化(mapminmax)与标准化(mapstd)

一.mapminmax Process matrices by mapping row minimum and maximum values to [-1 1] 意思是将矩阵的每一行处理成[-1,1]区间,此时对于模式识别或者其他统计学来说,数据应该是每一列是一个样本,每一行是多个样本的同一维,即对于一个M*N的矩阵来说,样本的维度是M,样本数目是N,一共N列N个样本. 其主要调用形式有: 1. [Y,PS] = mapminmax(X,YMIN,YMAX) 2. [Y,PS] = mapmin

数据挖掘过程中：数据预处理

原文:http://www.itongji.cn/article/0Q926052013.html 在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析.数据标准化也就是统计数据的指数化.数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面.数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果.数据无量纲化处理

Matlab中的数据预处理-归一化（mapminmax）与标准化（mapstd）

一.mapminmax 意思是将矩阵的每一行处理成[-1,1]区间,此时对于模式识别或者其他统计学来说,数据应该是每一列是一个样本,每一行是多个样本的同一维,即对于一个M*N的矩阵来说,样本的维度是M,样本的个数是N,一共N个样本. 其主要调用方式有: 1.[Y, PS] = mapminmax(X, Ymin, Ymax) 2.[Y, PS] = mapminmax(X, FP) 3.Y = 原文地址:https://www.cnblogs.com/LoganChen/p/9123746.ht

R语言caret包的学习（一）--数据预处理

caret包(Classification and Regression Training)是一系列函数的集合,它试图对创建预测模型的过程进行流程化.本系列将就数据预处理.特征选择.抽样.模型调参等进行介绍学习. 本文将就caret包中的数据预处理部分进行介绍学习.主要包括以下函数:model.matrix(),dummyVars(),nearZeroVar(),findCorrelation(),findLinearCombos(),preProcess(),classDist() 创建虚拟变

大数据预处理技术

一.大数据预处理的几个步骤 1.数据预处理 2.数据清洗 3.数据集成 4.数据归约 5.数据变换 6.数据离散化 7.大数据预处理二.数据预处理现实中的数据大多是“脏”数据: ①不完整缺少属性值或仅仅包含聚集数据 ②含噪声包含错误或存在偏离期望的离群值比如:salary=“-10”,明显是错误数据 ③不一致用于商品分类的部门编码存在差异比如age=“42”Birthday=“03/07/1997” 而我们在使用数据过程中对数据有如下要求: 一致性.准确性.完整性.时效性.可信性.

借助 SIMD 数据布局模板和数据预处理提高 SIMD 在动画中的使用效率

原文链接简介为发挥 SIMD1 的最大作用,除了对其进行矢量化处理2外,我们还需作出其他努力.可以尝试为循环添加 #pragma omp simd3,查看编译器是否成功进行矢量化,如果性能有所提升,则达到满意状态. 然而,可能性能根本不会提升,甚至还会降低. 无论处于何种情况,为了最大限度发挥 SIMD 执行的优势并实现性能提升,通常需要重新设计算法和数据布局,以便生成的 SIMD 代码尽可能高效. 另外还可收到额外的效果,即标量(非矢量化)版代码会表现得更好. 本文将通过一个 3D 动画算

Python初探——sklearn库中数据预处理函数fit_transform()和transform()的区别

敲<Python机器学习及实践>上的code的时候,对于数据预处理中涉及到的fit_transform()函数和transform()函数之间的区别很模糊,查阅了很多资料,这里整理一下: # 从sklearn.preprocessing导入StandardScaler from sklearn.preprocessing import StandardScaler # 标准化数据,保证每个维度的特征数据方差为1,均值为0,使得预测结果不会被某些维度过大的特征值而主导 ss = Standard

weka中算法说明[转]

1) 数据输入和输出WOW():查看Weka函数的参数.Weka_control():设置Weka函数的参数.read.arff():读Weka Attribute-Relation File Format (ARFF)格式的数据.write.arff:将数据写入Weka Attribute-Relation File Format (ARFF)格式的文件. 2) 数据预处理Normalize():无监督的标准化连续性数据.Discretize():用MDL(Minimum Descriptio

文本内容分析和智能反馈（2）－数据预处理和按纬度统计

书接上文,考虑4个核心功能的实现,先考虑:数据预处理和按纬度统计. 1.数据预处理 1.1.基本原则首先,考虑数据的格式. 业务数据是保存在关系型数据库中的.数据分析的部分,我们将使用Weka,虽然Weka习惯ARFF格式,为了实现数据分析和提取的自动化,我们将通过Weka的JDBC接口为其提供数据.这样,可以使用ETL工具或者通过程序代码执行SQL实现数据提取和格式转换. 在开发阶段,我们基本上可以将数据提取和转换逻辑固定下来,没有必要采用专门的ETL工具. 其次,考虑数据转换的要求. 我们

猜你喜欢

Android网络通讯简介

网络通信应该包含三部分的内容:发送方.接收方.协议栈.发送方和接收方是参与通信的主体,协议栈是发送方和接收方进行通信的契约.按照服务类型,网络通信可分为面向连接和无连接的方式.面向连接是在通信前建立通 ...

ECHOSRV.C中的main（）设立一个 I/O completion port

#include<Windows.h> int main(int argc, char* argv[]) { SOCKET listener; SOCKET newsocket; WSAD ...

Java的JDBC事务详解

一.事务的理解: 1.事务的特性: 1) 原子性(atomicity):事务是数据库的逻辑工作单位,而且是必须是原子工作单位,对于其数据修改,要么全部执行,要么全部不执行. 2) 一致性(consis ...

Hibernate（4）——主键生成策略、CRUD 基础API区别的总结和注解的使用

俗话说,自己写的代码,6个月后也是别人的代码……复习!复习!复习!涉及的知识点总结如下: hibernate的主键生成策略 UUID 配置的补充:hbm2ddl.auto属性用法注解还是配置文件 h ...

软件推荐列表（Recommand Software）

1.Nutstore(https://jianguoyun.com/) Nutstore是一款云端同步软件.类似的有微软的OneDrive(旧名SkyDrive).Google Cloud Drive ...

check update password time on linux

date -d @1410318382 "+%Y-%m-%d %H:%M:%S" @后面为从1970年一月一日计算的天数,通过上面命令转化为修改当天的时间.

CSS中继承，特殊性，层叠与重要性

继承 CSS的某些样式是具有继承性的,那么什么是继承呢?继承是一种规则,它允许样式不仅应用于某个特定html标签元素,而且应用于其后代.比如下面代码: <html><head> ...

流量主第一篇：001_如何提高微信公众号流量主收入

在公众号运营交流群里,一些人经常在晒流量主收入,最近由于流量主的单次点击单价下降,好多人叫苦不迭,但从大家晒收入的过程中,我发现了一个问题,为什么同样5W活粉的号,有的流量主月收入只能维持3000~4 ...

CentOS 7源码安装Apache

一.官方安装手册http://httpd.apache.org/docs/2.4/install.html#customize 下载最新版http://httpd.apache.org/downloa ...

Java的集合类

一.集合与数组数组(可以存储基本数据类型)是用来存现对象的一种容器,但是数组的长度固定,不适合在对象数量未知的情况下使用. 集合(只能存储对象,对象类型可以不一样)的长度可变,可在多数情况下使用. ...

js判断浏览器的版本（转）

function allinfo(){ var ua = navigator.userAgent; ua = ua.toLowerCase(); var match = /(webkit)[ \/]( ...

linux下查看线程数的几种方法

1. cat /proc/${pid}/status 2.pstree -p ${pid} 3.top -p ${pid} 再按H 或者直接输入 top -bH -d 3 -p ${pid} t ...

Lucene：基于Java的全文检索引擎简介

Lucene是一个基于Java的全文索引工具包. 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史全文检索的实现:Luene全文索引和数据库索引的比较中文切分词机制简介:基 ...

Java 8 新特性：Lambda 表达式之方法引用（Lambda 表达式补充版）——诺诺"涂鸦"记忆

---------- 诺诺学习技术交流博客.期待与您交流! ---------- 详情请查看:http://blog.csdn.net/sun_promise 方法引用 (注:此文乃个人查 ...

SharePoint JS Link 之（四）JSlink常见例子和代码下载

MSDN上有很多关于JSLink的示例代码可供下载. 下面举几个常用的例子. 1. 为文件加图标下载地址:https://code.msdn.microsoft.com/office/Cl ...

自定义View--一个简单地圆形Progress效果

先看效果图吧我们要实现一个自定义的再一个圆形中绘制一个弧形的自定义View,思路是这样的: 先要创建一个类ProgressView,继承自View类,然后重写其中的两个构造方法,一个是一个参数的,一 ...

支付宝SDK快速入口链接

支付宝快捷支付SDK官方网站

夺命雷公狗---Smarty NO:13 系统自定义函数（plugins）

1.counter函数实现自动计数功能 {counter start=0 skip=2 print=false} 参数说明: start:起始位置 skip:步阶 print:当前是否打印 demo ...

流程控制之 break ,continue,return的区别

首先文字描述一下区别: break 为终止当前循环.跳出当前循环,但是后面的语句(即当前方法中当前循环之外后面的语句)还是会执行. continue 为停止本次循环,继续执行后面的循环.当然后面的语句 ...

time元素定义的格式

time元素表示的是24小时中的某一个时刻或日期,表示时间时允许时差. time元素定义的格式如下: <time datetime="2016-6-15">2016年6 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.027 s.