第一章 特征工程-------------《百面机器学习》

今天打算看看《百面机器学习》,打好基础,方便日后找工作,同时也是打发最近无聊的心情(闲下来就喜欢多想导致心情terrible)。

第一章    特征工程

第一节  特征归一化

Q1:为什么需要对数值的特征做归一化?

A1:对数据类型的特征作归一化可以将所有的特征都统一到一个大致相同的数值区间内。避免因量纲的不同带来的影响。

最常用的方法有:1)线性函数归一化。即 对原始数据进行线性变换,使结果映射到[0,1]的范围,实现对原始数据的等比缩放。

          2)零均值归一化。将原始数据映射到均值为0,标准差为1的分布

  进行归一化后的数据,能更快地通过梯度下降找到最优解。但是数据归一化并不是万能的。在实际应用中,通过梯度下降法求解的模型通常是需要归一化的,包括线性回归、逻辑回归、支持向量机、神经网络等模型。但是对决策树模型则并不适用(具体原因后续在做补充)

第二节 类别型特征

Q1:在对数据进行预处理时,应该怎样处理类别型特征?

A1:出了决策树等少数模型能直接处理字符串形式的输入,对于逻辑回归、支持向量机等模型来说,类别型特征必须经过处理转换成数值型特征才能正确工作。通常包括以下几种类型:

1)序号编码   2)one-hot编码   3)二进制编码     其中,对于one-hot encoding,类别取值较多的情况下,①使用稀疏向量来节省空间 ②配合特征选择来降低维度

第三节 高维组合特征的处理

Q1:什么时组合特征?

A1:为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征。

Q2:如何处理高维组合特征?

A2:若用户的数量为m、物品的数量为n,那么需要学习的参数的规模为m*n。在互联网环境下,用户数量和物品数量都可以达到千万量级,几乎无法学习m*n规模的参数。在这种情况下,一种行之有效的方法是将用户和物品分别用k维的低维向量表示(k<<m, k<<n)。这样就可以是的模型的参数量变为(m*k + n*k)。 类似于矩阵分解

第四节 组合特征

Q1:怎样有效地找到组合特征?

A1:在实际情况中,会遇到很多高维特征,简单的两两组合会导致参数过多,过拟合等问题。本节介绍了一种基于决策树的特征组合寻找方法。

Q2:给定原始输入该如何有效地构造决策树呢?

A2:可以采用梯度提升决策树,该方法的思想是每次都在之前构造的决策树的残差上构建下一棵决策树。XGBoost或LightGBM等。

第五节 文本表示模型

Q1:有哪些文本表示模型?它们各有什么优缺点?

A1:词袋模型(Bag of Words), TF-IDF(Term Frequency-Inverse Document Frequency),主题模型(Topic model),词嵌入模型(Word Embedding)

  词袋模型:就是将每篇文章看成一袋子词,并忽略每个词出现的顺序。具体地说,就是将整段文本以词为单位切分开,然后每篇文章可以表示成一个长向量,向量中的每一维代表一个单词,而该维对应的权重则反映了该词在文章中的重要程度,常用TF-IDF来衡量

  TF-IDF:如果一个单词在非常多的文章里都出现,那么它可能是一个比较通用的词汇,对于区分某篇文章特殊语义的贡献较小,因此,对权重做一定惩罚。

  主题模型:用于从文本库中发现有代表性的主题(得到每个主题上面词的分布特性),并且能够计算出每篇文章的主题分布。(后续章节有介绍)

  词嵌入与深度学习模型:词嵌入是一类将词 向量化的模型的统称,核心思想是将每个词都映射成低维空间(通常K=50~300维)上的一个稠密向量。K维空间的每一维也可以看成一个隐含的主题,只不过不像主题模型中的主题那样直观。   深度学习模型中的每个隐层都可以认为对应着不同抽象层次的特征。

第六节 Word2Vec

Word2Vec是google于2013年提出的词嵌入模型,目前较为常用。本节介绍了其工作原理,以及于LDA(隐狄利克雷模型)。详见P13-15

第七节 图像数据不足时的处理方法

Q1:在图像分类任务中,训练数据不足会带来什么问题?如何缓解数据量不足带来的问题?

A1:数据量不足会因过拟合或者欠拟合导致模型的泛化能力不好。解决办法主要分类以下两类:

  1)基于模型的方法,主要是采用降低过拟合风险的措施,包括简化模型(例如将非线性模型简化为线性模型)、添加约束项以缩小假设空间(L1/L2正则项)、集成学习、Dropout超参数等

  2)基于数据的方法,主要通过数据扩充,即根据一些先验知识,在保持特征信息的前提下,对原始数据进行适当变换以达到扩充数据集的效果。

  此外,还可以用GAN合成一些新样本;借助已有的其他模型或数据进行迁移学习等。

原文地址:https://www.cnblogs.com/guohaoblog/p/11192464.html

时间: 2024-11-08 03:22:58

第一章 特征工程-------------《百面机器学习》的相关文章

百面机器学习

百面机器学习是一本记录面试问题的书,一方面,学习里面的问题和解答有助于我们更好的掌握机器学习,另一方面,以目录为索引,可以扩展我们的知识面,掌握应届生从事机器学习必备的技能.下面以章节为单位,记录书本的大纲内容. 第1章 特征工程 01 为什么要对数值类型的特征做归一化? 对数值类型的特征做归一化可以将所有特征统一到一个大致相同的区间,加快梯度下降更新速度.最常用的有:线性函数归一化(Min-Max Scaling)(将原始数据映射到[0,1]的范围)以及零均值归一化(Z-Score Norma

【特征工程】特征工程技术与方法

引言 在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应用到实际问题的时候,常常不知道怎么提取特征来建模. 特征是机器学习系统的原材料,对最终模型的影响是毋庸置疑的. 特征工程的重要意义 数据特征会直接影响你使用的预测模型和实现的预测结果.准备和选择的特征越好,则实现的结果越好. 影响预测结果好坏的因素:模型的选择.可用的数据.特征的提取. 优质的特征往往描述了数据的固有结构. 大多数模型都可

特征工程之降维

真理之言 特征工程决定了机器学习的上限,而算法和模型只是逼近这个上限. 特征工程是什么 模型设计.算法训练之前的所有针对数据的准备工作,都称之为特征工程. 特征工程包含哪些工作 分析任务.获取数据.特征数据处理-异常值.空值.重复值.标准化等.特征处理-衍化.二值化.哑编码.降维等.这个过程中很多环节都要依赖高度的业务理解程度. 降维前面的都不再细说了,该如何已了然于心.至于降维,工作过程中用的最多的还是根据经验人工识别后手动删除或者赋不同权重.其实这是非常有效的方法:二八法则保留黄金特征,往往

第一章:机器学习基础

第一部分:分类 本书前两部分主要探讨监督学习(supervisedieaming).在监督学习的过程中,我们只需要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果.监督学习相对比较简单,机器只需从输入数据中预测合适的模型,并从中计算出目标变量的结果.      监督学习一般使用两种类型的目标变量:标称型和数值型.标称型目标变量的结果只在有限目标集中取值,如真与假.动物分类集合{爬行类.鱼类.哺乳类.两栖类.植物.真菌};数值型目标变量则可以从无限的数值集合中取值,如0.100.42.0

Hulu机器学习问题与解答系列 | 二十二:特征工程—结构化数据

听说最近冒出的大批呱儿子个个都是撑着眼皮也要看书的无眠小青蛙.我们学习Machine Learning的脚步又怎能停下来?动动手指,上滑开始~ 今天的内容是 [特征工程-结构化数据] 场景描述 特征工程是指结合问题寻找有效的特征并进行处理成适合模型的输入形式.机器学习中有句经典的话叫做"Garbage in, garbage out",意思是如果输入的数据是垃圾,那么得到的结果也是垃圾.可以看出模型成败的关键并不仅仅取决于模型的选取,还取决于我们是否有根据特定的问题找到了行之有效的输入

机器学习-特征工程-Feature generation 和 Feature selection

概述:上节咱们说了特征工程是机器学习的一个核心内容.然后咱们已经学习了特征工程中的基础内容,分别是missing value handling和categorical data encoding的一些方法技巧.但是光会前面的一些内容,还不足以应付实际的工作中的很多情况,例如如果咱们的原始数据的features太多,咱们应该选择那些features作为咱们训练的features?或者咱们的features太少了,咱们能不能利用现有的features再创造出一些新的与咱们的target有更加紧密联系

机器学习:特征工程

特征选择直接影响模型灵活性.性能及是否简洁. 好特征的灵活性在于它允许你选择不复杂的模型,同时运行速度也更快,也更容易理解和维护. 特征选择 四个过程:产生过程,评价函数,停止准则,验证过程. 目的:过滤特征集合中不重要特征,挑选一组最具统计意义的特征子集,从而达到降维的效果. 选择标准:特征项和类别项之间的相关性(特征重要性). - - -搜索特征子空间的产生过程- - - 搜索的算法分为完全搜索(Complete),启发式搜索(Heuristic), 随机搜索(Random) 3大类. 完全

《机器学习》读书笔记-第一章 引言

<Machine Learning>,作者Tom Mitchell,卡内基梅隆大学. 第一章 引言 1.1 学习问题的标准描述: 机器学习的定义: 如果一个计算机程序针对某类任务T的用P衡量的性能根据经验E来自我完善, 那么我们称这个计算机程序在从E中学习,针对某类任务T,它的性能用P来衡量. 例子: 对于学习下西洋跳棋的计算机程序,它可以通过和自己下棋获取经验: 它的任务是参与西洋跳棋对弈: 它的性能用它赢棋的能力来衡量. 学习问题的三个特征: 任务的种类, 衡量性能提高的标准, 经验的来源

机器学习之(四)特征工程以及特征选择的工程方法

关于特征工程(Feature Engineering),已经是很古老很常见的话题了,坊间常说:"数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已".由此可见,特征工程在机器学习中占有相当重要的地位.在实际应用当中,可以说特征工程是机器学习成功的关键.纵观Kaggle.KDD等国内外大大小小的比赛,每个竞赛的冠军其实并没有用到很高深的算法,大多数都是在特征工程这个环节做出了出色的工作,然后使用一些常见的算法,比如LR,就能得到出色的性能.遗憾的是,在很多的书籍中并没有直接