sklearn学习:特征提取

http://cwiki.apachecn.org/pages/viewpage.action?pageId=10814137

sklearn.feature_extraction模块可用于从包含文本和图像等格式的数据集中提取机器学习算法支持的格式的特征。

注意: 特征提取与特征选择非常不同:前者包括将任意数据(如文本或图像)转换为可用于机器学习的数值特征。后者是应用于这些功能的机器学习技术。

从类型的字典加载功能

该类DictVectorizer可用于将表示为标准Python dict对象列表的功能数组转换为由Scikit-learn估计器使用的NumPy / SciPy表示。

虽然Python的处理速度并不是特别快,但Python dict具有使用方便,稀疏(缺少功能不需要存储)以及存储功能名称等优点。

DictVectorizer实现了所谓的一个K或“一热”编码,用于分类(也称为标称,离散)特征。分类特征是“属性值”对,其中该值被限制为不排序的可能性的离散列表(例如,主题标识符,对象类型,标签,名称...)。

在下文中,“城市”是一个分类属性,而“温度”是传统的数字特征:

>>> measurements = [

...     {‘city‘‘Dubai‘‘temperature‘33.},

...     {‘city‘‘London‘‘temperature‘12.},

...     {‘city‘‘San Fransisco‘‘temperature‘18.},

... ]

>>> from sklearn.feature_extraction import DictVectorizer

>>> vec = DictVectorizer()

>>> vec.fit_transform(measurements).toarray()

array([[  1.,   0.,   0.,  33.],

       [  0.,   1.,   0.,  12.],

       [  0.,   0.,   1.,  18.]])

>>> vec.get_feature_names()

[‘city=Dubai‘‘city=London‘‘city=San Fransisco‘‘temperature‘]

时间: 2024-10-12 20:05:50

sklearn学习:特征提取的相关文章

Sklearn -PCA 人脸识别 百度网盘sklearn学习API

PCA脸部识别现在让我们用PCA来解决一个脸部识别问题.脸部识别是一个监督分类任务,用于从照片中认出某个人.本例中,我们用剑桥大学AT&T实验室的Our Database of Faces数据集(http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html),这个数据集包含40个人每个人10张照片.这些照片是在不同的光照条件下拍摄的,每张照片的表情也不同.照片都是黑白的,尺寸为92 x 112像素.虽然这些图片都不大,但是每张

Feature extraction - sklearn文本特征提取

http://blog.csdn.net/pipisorry/article/details/41957763 文本特征提取 词袋(Bag of Words)表征 文本分析是机器学习算法的主要应用领域.但是,文本分析的原始数据无法直接丢给算法,这些原始数据是一组符号,因为大多数算法期望的输入是固定长度的数值特征向量而不是不同长度的文本文件.为了解决这个问题,scikit-learn提供了一些实用工具可以用最常见的方式从文本内容中抽取数值特征,比如说: 标记(tokenizing)文本以及为每一个

sklearn学习笔记(一)

简介   自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了.scikit-learn简称sklearn,支持包括分类.回归.降维和聚类四大机器学习算法.还包含了特征提取.数据处理和模型评估三大模块.  sklearn是Scipy的扩展,建立在NumPy和matplotlib库的基础上.利用这几大模块的优势,可以大大提高机器学习的效率.  sklearn拥有着完善的文档,上手容易,具有着丰富的API,在学术界颇受欢迎.sklearn已经封装了大量的机器学习算法,

Sklearn学习笔记

主要记python工具包sklearn的学习内容: 链接点击这里. 一.Regression 1.1. Generalized Linear Models 1.2. Linear and Quadratic Discriminant Analysis 1.3. Kernel ridge regression 二.Classification 三.Clustering 四.Dimensionality reduction 五.Model selection 六.Preprocessing

sklearn学习笔记之简单线性回归

简单线性回归 线性回归是数据挖掘中的基础算法之一,从某种意义上来说,在学习函数的时候已经开始接触线性回归了,只不过那时候并没有涉及到误差项.线性回归的思想其实就是解一组方程,得到回归函数,不过在出现误差项之后,方程的解法就存在了改变,一般使用最小二乘法进行计算. 使用sklearn.linear_model.LinearRegression进行线性回归 sklearn对Data Mining的各类算法已经有了较好的封装,基本可以使用fit.predict.score来训练.评价模型,并使用模型进

sklearn学习笔记之开始

简介 ??自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了.scikit-learn简称sklearn,支持包括分类.回归.降维和聚类四大机器学习算法.还包含了特征提取.数据处理和模型评估三大模块.??sklearn是Scipy的扩展,建立在NumPy和matplotlib库的基础上.利用这几大模块的优势,可以大大提高机器学习的效率.??sklearn拥有着完善的文档,上手容易,具有着丰富的API,在学术界颇受欢迎.sklearn已经封装了大量的机器学习算法,

sklearn学习 第一篇:knn分类

K临近分类是一种监督式的分类方法,首先根据已标记的数据对模型进行训练,根据模型对新的数据点进行预测,预测新数据的标签(label),也就是该数据所属的分类. 一,KNeighborsClassifier函数 使用KNeighborsClassifier创建K临近分类器: sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, weights=’uniform’, algorithm=’auto’, leaf_size=30, p=2, metr

sklearn学习随笔1

快速入门: 加载数据集 In [1]: from sklearn import datasets In [2]: iris = datasets.load_iris() In [3]: digits = datasets.load_digits() In [4]: print(digits.data) [[ 0. 0. 5. ..., 0. 0. 0.] [ 0. 0. 0. ..., 10. 0. 0.] [ 0. 0. 0. ..., 16. 9. 0.] ..., [ 0. 0. 1. .

sklearn学习笔记2

Text classifcation with Na?ve Bayes In this section we will try to classify newsgroup messages using a dataset that can be retrieved from within scikit-learn. This dataset consists of around 19,000 newsgroup messages from 20 different topics ranging