独热编码OneHotEncoder简介

在分类和聚类运算中我们经常计算两个个体之间的距离，对于连续的数字（Numric）这一点不成问题，但是对于名词性（Norminal）的类别，计算距离很难。即使将类别与数字对应，例如{‘A’，‘B’，‘C’}与[0,1,2]对应，我们也不能认为A与B，B与C距离为1，而A与C距离为2。独热编码正是为了处理这种距离的度量，该方法认为每个类别之间的距离是一样的。该方法将类别与向量对应，例如{‘A’，‘B’，‘C’}分别与[1,0,0],[0,1,0],[0,0,1]对应，注意现在各个类别之间的欧式距离是相同的。

现在我们说明OneHotEncoder函数的使用

1 data=np.array([[1,0,3.25],
2                [0,0,5.2],
3                [2,1,3.6]])
4 enc=OneHotEncoder(categorical_features=np.array([0,1]),n_values=[3,2])
5 enc.fit(data)
6 data=enc.transform(data).toarray()
7 print(data)

运行结果为

[[ 0.    1.    0.    1.    0.    3.25]
 [ 1.    0.    0.    1.    0.    5.2 ]
 [ 0.    0.    1.    0.    1.    3.6 ]]

　　categorical_features是需要独热编码的列索引，n_values是对应categorical_features中各列下类别的数目，也就是原来的列拓展出新的列数。注意这里两个值可以不指定，直接使用fit_transform函数也可以，程序将统计各列中类别的多少。但是只对整数有效，对浮点数会转换为整数之后再统计，也就是对于3.5和3.6默认都是3，也就是同一类。如果指定了这两个参数，就要对未转换的数据提出要求，各列必须是以{0,1,2,3,4......}来编码，而不能以{1,10,100,200.........}这种随意的方式来编码。否则会出现数组越界的错误

　　

时间： 2024-11-09 09:25:26

独热编码OneHotEncoder简介的相关文章

独热编码

独热编码OneHotEncoder可以将分类字符串变量数值化,例如: 这里有三个样本,每个样本有三个特征,我们可以用独热编码将其转换成数字,代码如下 from sklearn import preprocessing X=[['male','USA','firefox'],['female','UK','google'],['male','China','ie']] enc=preprocessing.OneHotEncoder() enc.fit(X) #训练模型 print(enc.tran

OneHotEncoder独热编码和 LabelEncoder标签编码

学习sklearn和kagggle时遇到的问题,什么是独热编码?为什么要用独热编码?什么情况下可以用独热编码?以及和其他几种编码方式的区别. 首先了解机器学习中的特征类别:连续型特征和离散型特征拿到获取的原始特征,必须对每一特征分别进行归一化,比如,特征A的取值范围是[-1000,1000],特征B的取值范围是[-1,1].如果使用logistic回归,w1*x1+w2*x2,因为x1的取值太大了,所以x2基本起不了作用.所以,必须进行特征的归一化,每个特征都单独进行归一化. 对于连续性特征:

独热编码在数据处理中的作用

独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效. 例如对六个状态进行编码: 自然顺序码为 000,001,010,011,100,101 独热编码则是 000001,000010,000100,001000,010000,100000 原文链接:http://blog.csdn.net/dulingtingzi/article/details/51374487 问题由来在很多机器

机器学习实战：数据预处理之独热编码（One-Hot Encoding）

问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值. 例如,考虑一下的三个特征: ["male", "female"] ["from Europe", "from US", "from Asia"] ["uses Firefox", "uses Chrome", "uses Safari", "uses Internet

【转】数据预处理之独热编码（One-Hot Encoding）

原文链接:http://blog.csdn.net/dulingtingzi/article/details/51374487 问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值. 例如,考虑一下的三个特征: ["male", "female"] ["from Europe", "from US", "from Asia"] ["uses Firefox", "

数据预处理：独热编码（One-Hot Encoding）

http://blog.csdn.net/pipisorry/article/details/61193868 问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值. 例如,考虑一下的三个特征: ["male", "female"] ["from Europe", "from US", "from Asia"] ["uses Firefox", "uses Ch

机器学习：数据预处理之独热编码（One-Hot）

在机器学习算法中,我们经常会遇到分类特征,例如:人的性别有男女,祖国有中国,美国,法国等.这些特征值并不是连续的,而是离散的,无序的.通常我们需要对其进行特征数字化. 那什么是特征数字化呢?例子如下: 性别特征:["男","女"] 祖国特征:["中国","美国,"法国"] 运动特征:["足球","篮球","羽毛球","乒乓球"] 假如某个

逻辑回归--数据独热编码＋数据结果可视化

#-*- coding: utf-8 -*- ''' 在数据处理和特征工程中,经常会遇到类型数据,如性别分为[男,女](暂不考虑其他....),手机运营商分为[移动,联通,电信]等,我们通常将其转为数值带入模型,如[0,1], [-1,0,1]等,但模型往往默认为连续型数值进行处理. 独热编码便是解决这个问题,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效. 可以理解为对有m个取值的特征,经过独热编码处理后,转为m个二元特征(值只有

机器学习中为何要使用独热编码 one-hot

背景接触tensorflow时,学习到mnist,发现处理数据的时候采取one-hot编码,想起以前搞FPGA状态机遇到过格雷码与独热码. 解析: 将离散型特征使用one-hot编码,确实会让特征之间的距离计算更加合理. 比如,有一个离散型特征,代表工作类型,该离散型特征,共有三个取值. 不使用one-hot编码,其表示分别是x_1 = (1), x_2 = (2), x_3 = (3).两个工作之间的距离是,(x_1, x_2) = 1, d(x_2, x_3) = 1, d(x_1, x_

猜你喜欢

Fulltext Index Study3：Query

在query 语句中,可以使用 contains predicate来调用Fulltext Index,实现比like速度更快的查询.使用contains能够进行term的extract匹配查询或te ...

apache rewrite 出现死循环

方法一: 我的一条规则 1.RewriteRule ^(.*) /111/$1 [R,L] 使用curl测试,没有问题,但是使用浏览器访问时,出现了无限循环.本来访问的是 www.111.com 结果 ...

dsa

1 package com.yzy; 2 3 /** 4 * Synchronized功能说明类 5 * 6 * @author yinzhiyuan 7 * 8 */ 9 public class ...

DDoS ATTACK PROCESSING APPARATUS AND METHOD IN OPENFLOW SWITCH

An OpenFlow switch in an OpenFlow environment includes an?attack determination module to collect sta ...

create_workqueue和create_singlethread_workqueue【转】

本文转载自:http://bgutech.blog.163.com/blog/static/18261124320116181119889/ 1. 什么是workqueueLinux中的Workque ...

分数计算

import java.util.Scanner; public class test{ public static void main(String args[]){ Rational a=new ...

update Company set TFN=null where TFN='-2147483648'update Application set CompanyTFN=null where Comp ...

【随笔】一个郁闷的早晨

昨天还和同事们说家里的小车差点打不着火,结果今天就给我颜色看了.早晨启车时,发动机一如既往的执拗,经过和老婆将近一个小时的奋战,还是没能搞定.推测原因,就是这两天太冷了.没办法,让她打车走,我坐公交去 ...

10年后每个家庭都会用上直销产品

你不敢跨界,就有人跨过来打劫,未来十年,是一个海盗嘉华年,各种横空而出的马云.马化腾会遍布各个领域,他们两个是开了个头而已,接下来的故事是数据重构商业,流量改写未来,旧思想渐渐消失,逐渐变成数据代码. ...

同时读入几幅图像

int _tmain(int argc, _TCHAR* argv[]){ /************************************** ******用文件名打 ...

点云数据处理学习笔记

三维计算视觉研究内容包括: 三维匹配多视图三维重建 SLAM 目标识别形状检测与分类语义分类立体视觉与立体匹配 ZNCC SFM 1.点云滤波方法(数据预处理): 双边滤波.高斯滤波.条件滤波 ...

Hibernate中Criteria的完整用法

Hibernate中Criteria的完整用法转载 criteria 英[kra??t??r??] 美[kra??t?r??] 标准 1,Criteria Hibernate 设计了 Criteri ...

Loadrunner中参数化实战（9）-Unique+Once

参数化数据30条: 脚本如下,演示登录,投资,退出操作是,打印手机号: 首先验证Vugen中迭代: Unique+Once 设置迭代4次Action 结果如下:

php下session入memcached

windows7 32位环境下所需软件一.安装Apache2.4+PHP5.6Apache2.4配置httpd.conf 参考文章:http://jingyan.baidu.com/article/ ...

python内置函数收集

Python的zip函数 zip函数接受任意多个(包括0个和1个)序列作为参数,返回一个tuple列表.具体意思不好用文字来表述,直接看示例: 1.示例1: x = [1, 2, 3] y = [4, ...

Windows 7下硬盘安装Ubuntu 14.04图文教程第3页_Linux教程_Linux公社-Linux系统门户网站 - 猎豹安全浏览器

Windows 7下硬盘安装Ubuntu 14.04图文教程部分安装图: 下面的安装选择默认吧,不要改动什么(对菜菜鸟来说). 点击现在重启即可. 如果没有按本教程做的,看看下面的一些情况,可能 ...

树莓派 Linux备忘

//更新树莓派 sudo apt-mark hold raspberrypi-bootloader sudo apt-get update sudo apt-get upgrade //配置 rasp ...

<VR + Docker> 系列文章和視頻

<VR+Docker> 系列文章和視頻 << 視頻 >> ss ● VR整合许多新技术,也冒出许多新商业模 ...

MyBatis(3.2.3) - Mapped statements: The INSERT statement, Autogenerated keys

We can use the useGeneratedKeys and keyProperty attributes to let the database generate the auto_inc ...

19、慎用重载

这条目建议道"能够使用重载,并不意味着应该重载",一般情况下,对于多个具有相同参数数目的方法来说,应该尽量避免重载方法. 对于这条建议,我觉得不太理解,例如: 它说java的Str ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.