字典特征抽取

#特征抽取 feature_extraction
#导包
# from sklearn.feature_extraction.text import CountVectorizer
#
# vector = CountVectorizer()
#
# res = vector.fit_transform(["life is short,i like python ", "life is too long ,i dislike python"])
#
# print(vector.get_feature_names())
#
# print(res.toarray())

#导包 字典特征抽取
from sklearn.feature_extraction import DictVectorizer
#字典数据抽取:把字典中一些类别数据,分别进行转换成特征
def dictvec():
    #实例化
    dict = DictVectorizer(sparse=False) #sparse=False 取消稀疏矩阵
    data = dict.fit_transform([{‘city‘: ‘北京‘, ‘temp‘: 100}, {‘city‘: ‘上海‘, ‘temp‘: 60}, {‘city‘: ‘江西‘, ‘temp‘: 30}])
    print(data)#sparse格式 节约内存 便于读取处理
    # [[0.   1.   0. 100.]
    #  [1.   0.   0.  60.]
    #  [0.   0.   1.  30.]]
    print(dict.get_feature_names()) #读取特征值
    # [‘city=上海‘, ‘city=北京‘, ‘city=江西‘, ‘temp‘]
    return None

if __name__ == "__main__":
    dictvec()

运行结果:

原文地址:https://www.cnblogs.com/shixinzei/p/10162370.html

时间: 2024-10-09 22:38:06

字典特征抽取的相关文章

机器学习之路:python 字典特征提取器 DictVectorizer

python3 学习使用api 将字典类型数据结构的样本,抽取特征,转化成向量形式 源码git: https://github.com/linyi0604/MachineLearning 代码: 1 from sklearn.feature_extraction import DictVectorizer 2 3 ''' 4 字典特征提取器: 5 将字典数据结构抽和向量化 6 类别类型特征借助原型特征名称采用0 1 二值方式进行向量化 7 数值类型特征保持不变 8 ''' 9 10 # 定义一个

AI学习---特征工程(Feature Engineering)

为什么需要特征工程(Feature Engineering) 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已 什么是特征工程 帮助我们使得算法性能更好发挥性能而已 sklearn主要用于特征工程pandas主要用于数据清洗.数据处理 特征工程包含如下3个内容: 1.特征抽取/特征提取 |__>字典特征抽取 |__>文本特征抽取 |__>图像特征抽取(深度学习) 2.特征预处理 3.特征降维 特征抽取/特征提取 我们常说的机器学习算法实际上就是我们统计学上的统计方法也就是

02_特征工程和文本特征提取

02 特征工程和文本特征提取 数据集的构成 数据存放形式 CSV 文件 mysql: 性能瓶颈,读取速度: 格式不符合机器学习的格式 pandas:读取工具 numpy为什么读取速度快: 动态语言 全局解释性锁 GIL : 释放了 (GIL数据安全),真正的多线程 可用的数据集 Kaggle : 大数据竞赛平台.真实数据.数据量大 UCI: 数据集覆盖科学.生活.经济等领域 Scikit-learn: 数据量小,方便学习 数据集的结构组成 结构: 特征值 + 目标值 特征工程的定义 特征工程是什

python--15 字典:当索引不好用

字典是python唯一的影射类型 hash >>> brand = ['李宁', '耐克', '阿迪达斯'] >>> slogan = ['一切皆有可能', 'Just do it','Impossible is nothing'] >>> print('李宁的口号是:',slogan[brand.index('李宁')]) 李宁的口号是: 一切皆有可能 字典不是序列类型 ,是映射类型 字符串 列表 元组是序列类型 创建和访问索引   标志性符号--花

如何通过字典表来获取下拉数据的实现

①在web.xml中添加监听,启动的时候初始化. <!--Web ApplicationContext 载入,继承处Spring的ApplicationContextListener --> <listener> <listener-class>cn.sccl.common.web.StartupListener</listener-class> </listener> ②我们需要在启动Tomcat的时候,初始化bizCode数据 package

字典及其方法

常用操作: 索引 get,has_key, 新增 setdefalt,update, 删除 pop,popitem,clear 键.值.键值对 items,values,values 循环  for i in info: print(i,info[i])for k,v in info.items(): print(k,v) 长度 len 字典方法 dic.clear() #删除字典中所有项 dic.copy() #复制列表中所有项 dic.fromkeys(S[,v]) #新建字典,键为S,值为

SQL Server2005+、MySQL、Oracle 数据库字典生成工具

之前找的数据库字典生成工具基本上都依赖于 Office Com 组件,在不安装 Office的情况下无法使用.怒,于是自己用C# 写了一个. 特征如下:    一.支持的数据库 MS SQL Server 2005+.My Sql.Oracle    二.支持的文档类型 Html.CHM.Docx    三.无需安装Office即可生成 Docx 格式的Word文件    四.基于 .net framework 3.5 框架,电脑上需要安装 .net framework 3.5.       

python基础:python循环、三元运算、字典、文件操作

目录: python循环 三元运算 字符串 字典 文件操作基础 一.python编程 在面向过程式编程语言的执行流程中包含: 顺序执行 选择执行 循环执行 if是条件判断语句:if的执行流程属于选择执行:if语句有三种格式,如下: 在多分支的if表达式中,即使多个条件同时为真,也只会执行一个,首先测试为真: 选择执行 单分支的if语句 if CONDITION: 条件为真分支 双分支的if语句 if CONDITION 条件为真分支 else 条件不满足时分支 多分支的if语句 if CONDI

按照字典排序

按照字典排序, 按照字典的value排序,类似sort -k命令 import operator x = {1:2,3:4, 4:3, 2:1, 0:0} sorted x =sorted(x.iteritems(), key = operator.itemgetter(1)) 0表示根据key排序,1表示根据value排序 In [33]: sorted(x.iteritems(),key=operator.itemgetter(0))