sklearn.preprocessing OneHotEncoder——仅仅是数值型字段才可以,如果是字符类型字段则不能直接搞定

>>> from sklearn.preprocessing import OneHotEncoder
>>> enc = OneHotEncoder()

>>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])  

>>> enc.n_values_
array([2, 3, 4])

>>> enc.feature_indices_
array([0, 2, 5, 9])

>>> enc.transform([[0, 1, 1]]).toarray()
array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.]])


注意:仅仅是数值型字段才可以,如果是字符类型字段则不能直接搞定

需要使用pandas get_dummies搞定

例如:

Using the get_dummies will create a new column for every unique string in a certain column:使用get_dummies进行one-hot编码

  1. pd.get_dummies(df)

还可以:
import pandas as pd
import numpy as np
from sklearn_pandas import DataFrameMapper
from sklearn.preprocessing import OneHotEncoder

data = pd.DataFrame({‘text‘:[‘aaa‘, ‘bbb‘], ‘number_1‘:[1, 1], ‘number_2‘:[2, 2]})

#    number_1  number_2 text
# 0         1         2  aaa
# 1         1         2  bbb

# SomeEncoder here must be any encoder which will help you to get
# numerical representation from text column
mapper = DataFrameMapper([
    (‘text‘, SomeEncoder),
    ([‘number_1‘, ‘number_2‘], OneHotEncoder())
])
mapper.fit_transform(data)


时间: 2024-10-10 18:32:14

sklearn.preprocessing OneHotEncoder——仅仅是数值型字段才可以,如果是字符类型字段则不能直接搞定的相关文章

sql:将字符类型字段转换成数字并排序

使用cast 函数可以把字符类型字段(数学形式)转换为数字 比如 1 SELECT c.unit_no, c.name,m.apply_no,m.MEETING_TYPE,m.meeting_no,m.BOOTH FROM nfrc.meeting_apply m,company c WHERE c.unit_no(+) = m.unit_no AND m.auth = 1 AND m.nfrc_meeting_no=? ORDER BY cast(m.BOOTH AS INT) ASC ";

报表开发技巧之根据点击次数奇偶性排序之数值型

进行排序的时,很多时候我们可能想实现根据点击的次数进行升降序排序,也就是说点击第一次点击标题升序排序,再次点击就降序,以此类推,而不是通过选择升序进行升序排列,选择降序进行降序排列. 示例工具:报表开发工具FineReport 解决思路 由扩展后排序可知,可以根据参数值的不同来决定升序还是降序,这里也可以此思路进行实现,定义一个参数,如果参数值为1的时候,就升序,参数值为0的时候,按照数据列的负数进行升序排序,即数据列降序. 注:该方法只适用于排序数据列数据类型为数字型的字段,如果数据类型为字符

数据预处理 | 使用 sklearn.preprocessing.OrdinalEncoder 将分类特征转换为数值型

from sklearn.preprocessing import OrdinalEncoder model_oe = OrdinalEncoder() string_data_array = model_oe.fit_transform(string_data) string_data_pd = pd.DataFrame(string_data_con,columns=string_data.columns) 说明: 1  string_data  是挑出来的 需要转成数值型特征的 分类特征

数据库新建数值型字段,初始化 @Column注解

当新添加数值型字段时,数据库默认字段值为 null.这样当访问有此字段的页面就会报空指针错误,例如:严重 [http-nio-80-exec-11] org.apache.catalina.core.ApplicationDispatcher.invoke Servlet.service() for servlet jsp threw exception 解决方案: 此种错误是由于jsp页面获得了一个空指针导致,即servlet传参数时有一个参数没穿过去或者传的参数和接受的参数不一致导致的,检查

第二节 数值型特征进行归一化或标准化处理

数值型特征处理:通过特定的统计方法将数据转换成算法要求的数据,归一化和标准化 # 归一化的计算公式决定了其对异常值很敏感,一旦出现异常值会导致鲁棒性较差,所以归一化只适合传统精确小数据场景 from sklearn.preprocessing import MinMaxScaler def mm(): # feature_range指定归一化后的数据范围,不指定就是0-1之间 mm = MinMaxScaler(feature_range=(2, 3)) # fit_transform接收数组

Python基本语法_基本数据类型_数值型详解

目录 目录 软件环境 Python变量调用的过程 数值型 删除一个数值类型对象 布尔型 Bool 标准整型 Int 长整型 双精度浮点型 Float 复数 数值类型对象的内建功能函数 absNumber 求Number的绝对值 coercex y 将x y转换为同一种数值类型 divmodx y 除法-取余运算的结合 pow 指数运算或将结果取余 round 浮点型的四舍五入运算和求精度 仅用于整型对象的函数 软件环境 系统 CentOS 7 软件 Python 2.7.5 IPython 5.

回归:预测数值型数据

何为回归? “回归”一词是由达尔文的表兄弟Francis Galton发明的.Galton于1877年完成了第一次回归预测,目的是根据上一代豌豆种子(双亲)的尺寸来预测下一代豌豆种子(孩子)的尺寸. Galton在大量对象上应用了回归分析,甚至包括人的身高预测.他注意到,如果双亲的高高度比平均高度高,他们的子女也倾向于比平均高度高,但尚不及双亲(笔者感觉未必,Galton并未考虑物质条件的发展会带来整体身高的增加,至少笔者感觉80,90的人普遍比父母高).孩子的高度向着平均高度“回归”. 在软件

机器学习——预测数值型数据:回归

线性回归 优点:结果易于理解,计算上不复杂 缺点:对非线性的数据拟合不好 适用数据类型:数值型和标称型数据 回归的目的就预测数值型的目标值.最直接的办法就是依据输入写一个目标值的计算公式.这个计算公式就是所谓的回归方程(regression equation),其中的参数就是回归系数,求这些回归系数的过程就是回归. 说道回归,一般都是指线性回归(linear regression). 一元线性回归的矩阵形式可以写成,其中 是噪声,b是回归系数(斜率) 或者 ,其中y.X.a.都是n维向量,而b是

VBA学习---字符串型数值和数值型字符串相互转换

一.数值转化为字符串函数Str.CStr Str函数将数值转换为字符串,即返回一个代表一个数值的字符串,其语法为: Str(number) CStr函数将数值表达式转换为字符串,其语法为: CStr(mynumberExpression)     注意:当一个数值转换成字符串时,总会在其前面保留一个空位来表示正负,即字符串的第一位一定是空格或正负号,Str将英文句号(.)作为有效的小数点.          演示代码: Sub StrTranfomationDemo() Dim myDouble