莫烦scikit-learn学习自修第四天【内置训练数据集】

1. 代码实战

#!/usr/bin/env python
#!_*_ coding:UTF-8 _*_

from sklearn import datasets
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

# 从内置训练数据集中加载房价数据
loaded_data = datasets.load_boston()
data_X = loaded_data.data
data_y = loaded_data.target

model = LinearRegression()
model.fit(data_X, data_y)

print model.predict(data_X[:4])
print data_y[:4]

X, y = datasets.make_regression(n_samples=100,
                                n_features=1,
                                n_targets=1,
                                noise=1)

plt.scatter(X, y)
plt.show()

结果:

[ 30.00821269  25.0298606   30.5702317   28.60814055]
[ 24.   21.6  34.7  33.4]

scikit-learn 的 datasets 模块包含测试数据相关函数,主要包括三类:

  • datasets.load_*():获取小规模数据集。数据包含在 datasets 里
  • datasets.fetch_*():获取大规模数据集。需要从网络上下载,函数的第一个参数是 data_home,表示数据集下载的目录,默认是 ~/scikit_learn_data/。要修改默认目录,可以修改环境变量SCIKIT_LEARN_DATA。数据集目录可以通过datasets.get_data_home()获取。clear_data_home(data_home=None)删除所有下载数据。
  • datasets.make_*():本地生成数据集。

数据集格式

  • tuple(X, y)
    本地生成数据函数 make_* 和 load_svmlight_* 返回的数据是 tuple(X, y) 格式
  • Bunch
    load_*和 fetch_* 函数返回的数据类型是 datasets.base.Bunch,本质上是一个 dict,它的键值对可用通过对象的属性方式访问。主要包含以下属性:
    • data:特征数据数组,是 n_samples * n_features 的二维 numpy.ndarray 数组
    • target:标签数组,是 n_samples 的一维 numpy.ndarray 数组
    • DESCR:数据描述
    • feature_names:特征名
    • target_names:标签名

获取小数据集

  • load_boston():
    房屋特征-房价,用于regression
  • load_diabetes():
    糖尿病数据,用于 regression
  • load_linnerud():
    Linnerud数据集,有多个标签,用于 multilabel regression
  • load_iris():
    鸢尾花特征和类别,用于classification
  • load_digits([n_class]):
    手写数字识别
  • load_sample_images():
    载入图片数据集,共两张图
  • load_sample_image(name):
    载入图片数据集中的一张图
  • load_files(container_path, description=None, categories=None, load_content=True, shuffle=True, encoding=None, decode_error=‘strict‘, random_state=0):
    从本地目录获取文本数据,并根据二级目录做分类

获取大数据集

  • load_mlcomp(name_or_id, set_=‘raw‘, mlcomp_root=None, **kwargs):
    从 http://mlcomp.org/ 上下载数据集
  • fetch_california_housing(data_home=None, download_if_missing=True)
  • fetch_olivetti_faces(data_home=None, shuffle=False, random_state=0, download_if_missing=True):
    Olivetti 脸部图片数据集
  • fetch_lfw_people(data_home=None, funneled=True, resize=0.5, min_faces_per_person=0, color=False, slice_=(slice(70, 195, None), slice(78, 172, None)), download_if_missing=True):
  • fetch_lfw_pairs(subset=‘train‘, data_home=None, funneled=True, resize=0.5, color=False, slice_=(slice(70, 195, None), slice(78, 172, None)), download_if_missing=True):
    Labeled Faces in the Wild (LFW) 数据集,参考 LFW
  • fetch_20newsgroups(data_home=None, subset=‘train‘, categories=None, shuffle=True, random_state=42, remove=(), download_if_missing=True)
  • fetch_20newsgroups_vectorized(subset=‘train‘, remove=(), data_home=None):
    新闻分类数据集,数据集包含 ‘train’ 部分和 ‘test’ 部分。
  • fetch_rcv1(data_home=None, subset=‘all‘, download_if_missing=True, random_state=None, shuffle=False):
    路透社新闻语聊数据集
  • fetch_mldata(dataname, target_name=‘label‘, data_name=‘data‘, transpose_data=True, data_home=None):
    从 mldata.org 中下载数据集。参考 PASCAL network
  • mldata_filename(dataname):
    将 mldata 的数据集名转换为下载的数据文件名
  • fetch_covtype(data_home=None, download_if_missing=True, random_state=None, shuffle=False)
    Forest covertypes 数据集

本地生成数据

回归(regression)

  • make_regression(n_samples=100, n_features=100, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)
  • make_sparse_uncorrelated(n_samples=100, n_features=10, random_state=None)
  • make_friedman1(n_samples=100, n_features=10, noise=0.0, random_state=None)
  • make_friedman2(n_samples=100, noise=0.0, random_state=None)
  • make_friedman3(n_samples=100, noise=0.0, random_state=None)

分类(classification)

单标签

  • make_classification(n_samples=100, n_features=20, n_informative=2, n_redundant=2, n_repeated=0, n_classes=2, n_clusters_per_class=2, weights=None, flip_y=0.01, class_sep=1.0, hypercube=True, shift=0.0, scale=1.0, shuffle=True, random_state=None):
    生成 classification 数据集。包含所有的设置,可以包含噪声,偏斜的数据集
  • make_blobs(n_samples=100, n_features=2, centers=3, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None):
    生成 classification 数据集。数据服从高斯分布
    centers 可以是整数,表示中心点个数,或者用列表给出每个中心点的特征值
    cluster_std 可以是浮点数或浮点数列表
    random_state 可以是整数,表示随机起始 seed,或者 RandomState 对象,默认使用 np.random
  • make_gaussian_quantiles(mean=None, cov=1.0, n_samples=100, n_features=2, n_classes=3, shuffle=True, random_state=None):
  • make_hastie_10_2(n_samples=12000, random_state=None):
  • make_circles(n_samples=100, shuffle=True, noise=None, random_state=None, factor=0.8):
  • make_moons(n_samples=100, shuffle=True, noise=None, random_state=None):

    多标签

  • make_multilabel_classification(n_samples=100, n_features=20, n_classes=5, n_labels=2, length=50, allow_unlabeled=True, sparse=False, return_indicator=‘dense‘, return_distributions=False, random_state=None):
    生成 multilabel classification 数据集。

    双聚类(bicluster)

  • make_biclusters(shape, n_clusters, noise=0.0, minval=10, maxval=100, shuffle=True, random_state=None):
  • make_checkerboard(shape, n_clusters, noise=0.0, minval=10, maxval=100, shuffle=True, random_state=None):

流形学习(manifold learning)

  • make_s_curve(n_samples=100, noise=0.0, random_state=None)
  • make_swiss_roll(n_samples=100, noise=0.0, random_state=None)、

可降维(decomposition)数据

  • make_low_rank_matrix(n_samples=100, n_features=100, effective_rank=10, tail_strength=0.5, random_state=None)
  • make_sparse_coded_signal(n_samples, n_components, n_features, n_nonzero_coefs, random_state=None)
  • make_spd_matrix(n_dim, random_state=None)
  • make_sparse_spd_matrix(dim=1, alpha=0.95, norm_diag=False, smallest_coef=0.1, largest_coef=0.9, random_state=None)

处理 svmlight / libsvm 格式数据

提供 svmlight / libsvm 格式数据的导入或导出。

    • load_svmlight_file(f, n_features=None, dtype=numpy.float64, multilabel=False, zero_based=‘auto‘, query_id=False):
      返回 (X, y, [query_id]),其中 X 是 scipy.sparse matrix,y 是 numpy.ndarray
    • load_svmlight_files(files, n_features=None, dtype=numpy.float64, multilabel=False, zero_based=‘auto‘, query_id=False)
    • dump_svmlight_file(X, y, f, zero_based=True, comment=None, query_id=None, multilabel=False)

原文地址:https://www.cnblogs.com/liuzhiqaingxyz/p/9589933.html

时间: 2024-08-30 11:04:47

莫烦scikit-learn学习自修第四天【内置训练数据集】的相关文章

【Python】Java程序员学习Python(四)— 内置方法和内置变量

<假如爱有天意> 当天边那颗星出现,你可知我又开始想念,有多少爱恋只能遥遥相望,就像月光洒向海面,年少的我们曾以为,相爱的人就能到永远,当我们相信情到深处在一起,听不见风中的叹息,谁知道爱是什么,短暂的相遇却念念不忘,用尽一生的时间,竟学不会遗忘,如今我们已天各一方,生活的像周围人一样,眼前人给我最信任的依赖,但愿你被温柔对待,多少恍惚的时候,仿佛看见你在人海川流,隐约中你已浮现,一转眼又不见,短暂的相遇却念念不忘,多少恍惚的时候,仿佛看见你在人海川流,隐约中你已浮现,一转眼又不见,当天边那颗

JavaWeb学习(三)----JSP内置对象详解

[声明] 欢迎转载,但请保留文章原始出处→_→ 生命壹号:http://www.cnblogs.com/smyhvae/ 文章来源:http://www.cnblogs.com/smyhvae/p/4065790.html 联系方式:[email protected] [系列]JSP学习系列文章:(持续更新) JavaWeb学习(一)----JSP简介及入门(含Tomcat的使用) JavaWeb学习(二)----JSP脚本元素.指令元素.动作元素 JavaWeb学习(三)----JSP内置对象

Python学习(五)函数 —— 内置函数 lambda filter map reduce

Python 内置函数 lambda.filter.map.reduce Python 内置了一些比较特殊且实用的函数,使用这些能使你的代码简洁而易读. 下面对 Python 的 lambda.filter.map.reduce 进行初步的学习. lambda 匿名函数 lambda语句中,冒号前是参数,可以有多个,用逗号隔开,冒号右边的返回值. lambda语句构建的其实是一个函数对象,参考下例来感受下 lambda 匿名函数: 1 def f(i): # 用户自定义返回平方数 2 retur

jsp基础学习(二)----jsp内置对象

JSP 9 大内置对象详解 内置对象特点: 1.            由JSP规范提供,不用编写者实例化. 2.            通过Web容器实现和管理 3.            所有JSP页面均可使用 4.            只有在脚本元素的表达式或代码段中才可使用(<%=使用内置对象%>或<%使用内置对象%>) 常用内置对象: 1.            输出输入对象:request对象.response对象.out对象 2.            通信控制对象

机器学习-scikit learn学习笔记

scikit-learn官网:http://scikit-learn.org/stable/ 通常情况下,一个学习问题会包含一组学习样本数据,计算机通过对样本数据的学习,尝试对未知数据进行预测. 学习问题一般可以分为: 监督学习(supervised learning) 分类(classification) 回归(regression) 非监督学习(unsupervised learning) 聚类(clustering) 监督学习和非监督学习的区别就是,监督学习中,样本数据会包含要预测的标签(

中医内科学习自修第四天【不寐】

不能获得正常睡眠为特征的疾病,轻者入睡困难,寐而不憨,时寐时醒,醒后不能再寐,重则彻夜不眠 一. 病因 1 情志失常(喜怒忧思悲恐惊) 2 饮食不节(导致食滞,导致痰热) 3 劳逸失调(导致气虚血虚) 4 病后体虚 二. 病机 总属阳盛阴衰,阴阳失交:病位在心,与肝脾肾有关 三. 辩证要点 应先辨虚实 四.治疗原则 补虚泻实,调整阴阳 五. 证治分类 1. 肝火扰心证 症状:不寐多梦,急躁易怒,头晕头胀,目赤耳鸣,口干而苦,便秘溲赤,舌红苔黄,脉弦而数 证机:肝郁化火,上扰心神 治法:疏肝泻火,

Python学习之旅 —— 基础篇(四)内置函数、装饰器

本篇要点: 内置函数 装饰器 一.内置函数 # abs() :取绝对值 >>> res = abs(-10) >>> print(res) 10 # 0,None,"",{},[],() 布尔值都为空 # all(),any() 判断值的真假 # all() 所有为真才为真 p = all([0,1,2,3]) # 0为False,所有p 是False print(p) # any() 任意一个为真即为真 p = any((0,""

动态网站开发技术学习4:ASP.NET内置对象之Request对象

Request对象的作用是与客户端交互,收集客户端的Form.Cookies.超链接,或者收集服务器端的环境变量. request对象是从客户端向服务器发出请求,包括用户提交的信息以及客户端的一些信息.客户端可通过HTML表单或 在网页地址后面提供参数的方法提交数据,然后通过request对象的相关方法来获取这些数据.request的各种方法主 要用来处理客户端浏览器提交的请求中的各项参数和选项. Request对象用于封装客户端请求信息,检索浏览器向服务器发送的消息.当用户访问网站时,服务器从

android菜鸟学习笔记23----ContentProvider(三)利用内置ContentProvider监听短信及查看联系人

要使用一个ContentProvider,必须要知道的是它所能匹配的Uri及其数据存储的表的结构. 首先想办法找到访问短信及联系人数据的ContentProvider能接受的Uri: 到github上找对应ContentProvider的源码:https://github.com/android 有好多个,哪一个才是短信数据的ContentProvider呢? 在filters输入框:输入telephony. 现在只有一个了,打开: 装有git的话,可以选择clone到本地,没有的话,就选择下载