Feature Engineering

1. remove skew

Why:

Many model built on the hypothsis that the input data are distributed as a ‘Normal Distribution‘(Gaussian Distribution). So if the input data is more like Normal Distribution, the results are better.

Methods:

  • remove skewnewss: log function.

2. standardization

Why:

Different data have different scale, to avoid give to high weight to those data with large scale.

Methods:

  • min-max = (data - min) / (max - min)
  • z-score = (data - mean) / (sd), sd standard deviation

3. manual remove

Why:

sometimes we know that some columns are meanless, so we just remove it manually.

Method:

  • columns like "ID", "timestamp"

4. remove columns with too many nulls

Why:

if a feature has too many nulls, it‘s not reliable.

Method:

  • count the percentage of nulls.

5. drop outlier

Why:

outliers are the special cases for a set of data. they don‘t represent the common experience. so they will not contribute to a model, on the contrary, they will be harmful for our models.

Methods:

  • remove data that >= an extreme value, or <= an extreme value.

6. to be continued

时间: 2024-08-04 13:11:36

Feature Engineering的相关文章

Feature Engineering versus Feature Extraction: Game On!

Feature Engineering versus Feature Extraction: Game On! "Feature engineering" is a fancy term for making sure that your predictors are encoded in the model in a manner that makes it as easy as possible for the model to achieve good performance.

AI学习---特征工程(Feature Engineering)

为什么需要特征工程(Feature Engineering) 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已 什么是特征工程 帮助我们使得算法性能更好发挥性能而已 sklearn主要用于特征工程pandas主要用于数据清洗.数据处理 特征工程包含如下3个内容: 1.特征抽取/特征提取 |__>字典特征抽取 |__>文本特征抽取 |__>图像特征抽取(深度学习) 2.特征预处理 3.特征降维 特征抽取/特征提取 我们常说的机器学习算法实际上就是我们统计学上的统计方法也就是

[特征选择] DIscover Feature Engineering, How to Engineer Features and How to Get Good at It 翻译

本文是对Jason Brownlee的特征设计文章的翻译, 原文链接在这里. 特征设计是一个非正式话题, 但它毫无疑问被认为是成功应用机器学习的关键. 创建这个导文的时候, 我尽我所能的广泛而深入的学习和分析了所有材料. 你将发现什么是特征设计, 它解决了什么问题, 它为什么重要, 如何设计特征, 谁在这方面做的很好和你可以去哪里学到更多并擅长它. 如果你读一篇关于特征设计的文章, 我希望是这一篇. "特征设计是另一个话题, 它似乎并不值得在任何评论文章或者书籍, 甚至书中的章节中称誉, 但它绝

【转】[特征选择] An Introduction to Feature Selection 翻译

中文原文链接:http://www.cnblogs.com/AHappyCat/p/5318042.html 英文原文链接: An Introduction to Feature Selection 下面的中文译文侧重从原理上进行解释,但是在实际的应用中往往侧重的是实现过程, 可以看考这个链接,描述的比较详细,需要细细的学习:http://blog.csdn.net/bryan__/article/details/51607215 [中文原文] 你需要哪些特征来构建一个预测模型? 这是一个困难的

机器学习-特征工程-Feature generation 和 Feature selection

概述:上节咱们说了特征工程是机器学习的一个核心内容.然后咱们已经学习了特征工程中的基础内容,分别是missing value handling和categorical data encoding的一些方法技巧.但是光会前面的一些内容,还不足以应付实际的工作中的很多情况,例如如果咱们的原始数据的features太多,咱们应该选择那些features作为咱们训练的features?或者咱们的features太少了,咱们能不能利用现有的features再创造出一些新的与咱们的target有更加紧密联系

大数据vs计算机

大数据有两个方向,一个是偏计算机的,另一个是偏经济的.你学过Java,所以你可以偏将计算机 基础1. 读书<Introduction to Data Mining>,这本书很浅显易懂,没有复杂高深的公式,很合适入门的人.另外可以用这本书做参考<Data Mining : Concepts and Techniques>.第二本比较厚,也多了一些数据仓库方面的知识.如果对算法比较喜欢,可以再阅读<Introduction to Machine Learning>.当然,还

特征选择, 经典三刀

        [特征工程]特征选择与特征学习        特征选择(Feature Selection,FS)和特征抽取(Feature Extraction, FE)是特征工程(Feature Engineering)的两个重要的方面.  他们之间最大的区别就是是否生成新的属性.  FS仅仅对特征进行排序(Ranking)和选择, FE更为复杂,需要重新认识事物, 挖掘新的角度, 创新性的创立新的属性, 而目前深度学习这么火, 一个很重要的原因是缩减了特征提取的任务. 不过, 目前特征工程

如何调整随机森林的参数达到更好的效果。

原文地址: https://www.analyticsvidhya.com/blog/2015/06/tuning-random-forest-model/ A month back, I participated in a Kaggle competition called TFI. I started with my first submission at 50th percentile. Having worked relentlessly on feature engineering f

(转) Deep learning architecture diagrams

FastML Machine learning made easy RSS Home Contents Popular Links Backgrounds About Deep learning architecture diagrams 2016-09-30 Like a wild stream after a wet season in African savanna diverges into many smaller streams forming lakes and puddles,