《python机器学习—预测分析核心算法》:理解数据

参见原书2.1-2.2节

新数据集就像一个包装好的礼物,它充满了承诺和希望!

但是直到你打开前,它都保持神秘!

一、基础问题的架构、术语,机器学习数据集的特性

通常,行代表实例,列代表属性特征

属性,实例中用于预测的数据
其他名称:预测因子 特征 独立变量 输入

标签,需要预测的数据
其他名称:结果 目标 依赖变量 响应

2.1.1属性和标签的不同类型决定模型的选择
数值变量 类别变量/因素变量

惩罚回归算法只能处理数值变量:SVM 核方法 K最近邻
转换:类别变量->数值变量

当标签是数值的,就叫作回归问题
当标签是类别的,就叫作分类问题
转换:回归问题 170 210 分类问题 >200?

分类问题也可能比回归问题简单

2.1.2新数据集的注意事项
需要检查的事项:
行数、列数
类别变量的数目、类别的取值范围
缺失的值
属性和标签的统计特性

处理缺失值:
1.有大量数据,直接丢弃缺失值
2.数据比较昂贵,难以获得,填充缺失值
遗失值插补:最简单的方法,每行所有此项的平均值代替缺失值

2.2分类问题

实例:用声呐发现未爆炸的水雷

(1)确定数据集的规模

数据规模的影响:
1.可以大致判断训练所需的时间

惩罚线性回归 集成方法
1000 * 1000 1min 几分钟
10000 * 10000 3-4 hour 12-24 hour

2.如果数据集的列数远远大于行数,那么采用惩罚线性回归的方法很可能获得最佳的预测

(2)确定每个属性的特征
哪些列是数值型,哪些列是类别型

(3)获得属性的统计信息
数值型 描述性统计信息
类别型 具体类别的数量分布

原文地址:https://www.cnblogs.com/feinaio2017/p/8504196.html

时间: 2024-10-29 05:08:38

《python机器学习—预测分析核心算法》:理解数据的相关文章

分享《Python机器学习—预测分析核心算法》高清中文版PDF+高清英文版PDF+源代码

下载:https://pan.baidu.com/s/1sfaOZmuRj14FWNumGQ5ahw 更多资料分享:http://blog.51cto.com/3215120 <Python机器学习-预测分析核心算法>高清中文版PDF+高清英文版PDF+源代码高清中文版,338页,带目录和书签,文字能够复制粘贴.高清英文版,361页,带目录和书签,文字能够复制粘贴.中英文两版对比学习.配套源代码.经典书籍,讲解详细. 其中,高清中文版如图所示: 原文地址:http://blog.51cto.c

《Python机器学习—预测分析核心算法》高清中文版PDF+高清英文版PDF+源代码

资源链接:https://pan.baidu.com/s/1J61jH-fqwGceoId6F8mr5Q<Python机器学习-预测分析核心算法>高清中文版PDF+高清英文版PDF+源代码高清中文版,338页,带目录和书签,文字能够复制粘贴.高清英文版,361页,带目录和书签,文字能够复制粘贴.中英文两版对比学习.配套源代码.经典书籍,讲解详细.其中,高清中文版如图所示: 原文地址:http://blog.51cto.com/14063572/2317037

分享《Python机器学习—预测分析核心算法》+PDF+源码+Michael Bowles+沙嬴

下载:https://pan.baidu.com/s/1JnyeiZwh74MIWo1LB4pIqA 更多资料分享:http://blog.51cto.com/14087171 <Python机器学习-预测分析核心算法>高清中文版PDF+高清英文版PDF+源代码高清中文版,338页,带目录和书签,文字能够复制粘贴.高清英文版,361页,带目录和书签,文字能够复制粘贴.中英文两版对比学习.配套源代码.经典书籍,讲解详细. 其中,高清中文版如图所示: 原文地址:http://blog.51cto.

学习《Python机器学习—预测分析核心算法》高清中文版PDF+高清英文版PDF+源代码

在学习和研究机器学习的时候,面临令人眼花缭乱的算法,机器学习新手往往会不知所措.从算法和Python 语言实现的角度,认识机器学习.专注于两类核心的"算法族",即惩罚线性回归和集成方法,并通过代码实例来展示所讨论的算法的使用原则.详细讨论预测模型的两类核心算法.预测模型的构建.惩罚线性回归和集成方法的具体应用和实现. 参考: <Python机器学习-预测分析核心算法>高清中文版PDF+高清英文版PDF+源代码 高清中文版,338页,带目录和书签,文字能够复制粘贴. 高清英文

《python机器学习—预测分析核心算法》:构建预测模型的一般流程

参见原书1.5节 构建预测模型的一般流程 问题的日常语言表述->问题的数学语言重述重述问题.提取特征.训练算法.评估算法 熟悉不同算法的输入数据结构:1.提取或组合预测所需的特征2.设定训练目标3.训练模型4.评估模型在训练数据上的性能表现 机器学习:开发一个可以实际部署的模型的全部过程,包括对机器学习算法的理解和实际的操作 通常,有非常切实的原因,导致某些算法被经常使用,了解背后的原因 (1)构造一个机器学习问题审视数据集中的数据,确定需要做何种形式的预测如,这些数据代表什么?如何与预测任务关

python好书推荐:【A028】[异步图书].Python机器学习:预测分析核心算法

Python机器学习:预测分析核心算法pdf获取方式:点这里 请注意,本并没有直接告诉薇姬,他认为她是一个具有奉献精神和坚定信念的人.然而,对于薇姬来说,她不难承认自己具备这些特征,也很容易将其应用于自己的工作中.即使薇姬认为自己并不具备奉献精神和坚定信念,也无损这种新关系.Python机器学习:预测分析核心算法. 不管薇姬的自我评价如何,本说的都是实话,所以他的观点在最坏的情况下则会被忽视,在最好的情况下则会促使薇姬对自己(和本)感觉良好.基于人的本性,即便薇姬在现实中并不具有奉献精神和坚定信

吴裕雄 python 机器学习——集成学习AdaBoost算法分类模型

import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklearn.model_selection import train_test_split def load_data_classification(): ''' 加载用于分类问题的数据集 ''' # 使用 scikit-learn 自带的 digits 数据集 digits=datasets.load_d

吴裕雄 python 机器学习——集成学习AdaBoost算法回归模型

import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklearn.model_selection import train_test_split def load_data_classification(): ''' 加载用于分类问题的数据集 ''' # 使用 scikit-learn 自带的 digits 数据集 digits=datasets.load_d

Python机器学习:6本机器学习书籍推荐

机器学习是实现人工智能的一种途径,它和数据开掘有一定的相似性,也是一门多领域交叉学科,触及概率论.核算学.逼近论.凸剖析.核算复杂性理论等多门学科.对比于数据开掘从大数据之间找互相特性而言,机器学习愈加注重算法的设计,让核算机可以白动地从数据中“学习”规则,并利用规则对不知道数据进行猜测.因为学习算法触及了很多的核算学理论,与核算揣度联络尤为严密. 今天为大家推荐有关机器学习的书籍: 1.<Python机器学习实践指南> Python机器学习实践指南 书籍介绍: 机器学习是近年来渐趋热门的一个