机器学习-特征工程-Feature generation 和 Feature selection

概述：上节咱们说了特征工程是机器学习的一个核心内容。然后咱们已经学习了特征工程中的基础内容，分别是missing value handling和categorical data encoding的一些方法技巧。但是光会前面的一些内容，还不足以应付实际的工作中的很多情况，例如如果咱们的原始数据的features太多，咱们应该选择那些features作为咱们训练的features？或者咱们的features太少了，咱们能不能利用现有的features再创造出一些新的与咱们的target有更加紧密联系的features呢？这些都是咱们feature engineering中经常遇到的场景，这里涉及到的一些常用技术也是每一个做机器学习或是数据分析的工程师必须要掌握的。上面提到的技术，咱们通常叫做：feature generation和feature selection。下面咱们就来说一说这两个技术点吧
Feature generation。对于这个技术点，其实没有什么诀窍，就是一个，深刻理解咱们的数据的意义再加上一点点创造力。大家是不是很懵逼，哈哈，这就完啦？？？？哈哈当然不是啦，但是这一块缺失没有一个统一的模式，具有一定的随机性。但是通过总结，咱们可以总结一下常用的模式，方便大家在应用的时候参考。 2.1 Interaction。这个其实就是相当于交叉的意思，咱们可以将几个features直接的拼接在一起，形成一个“有意思”的新的feature，记住一定要有意义的，否则你不但白搞了，甚至原来好好的数据都被你搞砸了，不要为了装逼而装逼，咱要装逼于无形之中。那么这个有什么意义呢？首先它能将多个columns装换成一个column，方便咱们的数据处理；其次在有些特定的数据中，这种interaction更加能反映出数据的本质。具体怎么操作了，咱们通过一个简单的代码来展示，注意我只截取了我代码的一部分，默认数据都已经加载完毕，所以不要纠结我的代码的变量和数据哈，大家主要看过程和思路
```
interactions = data_raw["category"]+"_"+data_raw["country"]
baseline_data = baseline_data.assign(category_country = label_encoder.fit_transform(interactions))
```
上面的第一句代码就是咱们interaction的部分，第二句是讲interaction过后的数据label encoding并且加入到咱们的数据集里面，简单明了。上面是将原始数据中的category 和 country连接在一起从而形成一个新的feature 2.2 numerical transforming。这是什么意思呢，对于有些numerical data的columns，他们的数据分布是很不均匀的，或者说他们的数值太大或者太小，有的时候不适合咱们的数据的训练，可能会出现vanishing gradient或者gradient explode的情况。具体啥叫vanishing gradient和gradient exploding，咱们在后面的内容在慢慢解释。暂时只需要知道这是个很麻烦的事情就好了，会导致咱们训练的模型不那么牛逼就行了。那么咱们通过什么方法解决呢？这里主要通过一些常见的数学的方式来解决，例如用log 或者 sqrt等等方式。咱们可以通过下面的代码来简单的展示一下
```
np.sqrt(baseline_data[‘goal‘])
np.log(baseline_data[‘goal‘])
```
从上面咱们可以看出，这里咱们主要还是通过numpy里面提供的API进行处理的，非常简单，简单跟1一样，好了这里就说到这了。对了，忘记一个事儿，就是numerical transforming在tree-based模型中没有什么卵用的，因为tree-based的所有模型都是scale invariant的，就是tree-based模型都是不care数据的大小分布的。 2.3 rolling。这个就比较高级一点啦（相比前两种方式），首先咱们先要明白rolling的概念，其实rolling就是相当于在咱们的数据（series）上面卡上一个fixed-size的小window，然后对于这个window覆盖的数据进行一些简单的计算，例如：counting，mean，sum等等。如果大家还是觉得不懂，我把它的官方链接贴在这里，大家自己去看看，里面还有很多实例：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.rolling.html#pandas.Series.rolling 。那么我先写一个简单的小例子给大家参考一下哈
```
launched = pd.Series(data_raw.index,data_raw.launched,name="count_7_days").sort_index()
count_7_days = launched.rolling(‘7d‘).count()
count_7_days.index = launched.valuescount_7_days = count_7_days.reindex(data_raw.index)
```
我先简单解释一下上面代码的意思哈，第一句是让时间作为这个series的index，第二句rolling是计算最近7天的的数量，第三第四句是讲数据还原到之前的index的顺序，房间重新join到原来的数据集中。那么rolling这种方式一般在什么情况下用呢？一般在你的数据有datetime的时候，或者前面数据会影响到后面的结果的时候，大家可以考虑一下下，但是这个是不一定的，还是需要大家有一定的creativity的。例如上面的例子就是统计最近7天一共上传的APP的数量，来判断某一个APP是否被下载的应用场景。一般情况下，最近上传的APP数量太多，被下载的概率就越低，所以他们还是有一定关联关系的。所以我generate一个新的feature还是有一定道理的。 2.4 Time delta。从这个命名中咱们可以知道，这个跟time肯定有关系，这个大家猜的很对。time delta也是有一定随机性的，有时需要有时也不需要，也是要根据实际的数据的特性来决定的，甚至是根据工程师自己来决定的，跟上面的rolling有点相似。为了方便解释这其中的细节，我也是直接来一个例子然后慢慢解释
```
def time_since_last_project_same_category(series):
    return series.diff().dt.total_seconds()/3600
df = data_raw[[‘category‘,‘launched‘]].sort_values(‘launched‘)
group_category = df.groupby(‘category‘)
timedeltas = group_category.transform(time_since_last_project_same_category)
timedeltas = timedeltas.fillna(timedeltas.mean()).reindex(baseline_data.index)
```
上面前两行是一个计算相邻datatime之间的相差多少个小时，第三行创建一个按照排序好的launched time为index的dataframe，第四行是按照category的条件来group前面创建的df, 第五行是计算group里面相邻数据之间的time delta，并且返回一个series，第六行是填充这些空数据，并且按照原始数据的方式index重新排序方便加入到原始数据。流程就这样结束了。上面的场景是计算同一个category相邻app上传的时间差，这个其实也是会影响到咱们的APP是否被下载的因素。所以这个也是咱们的一个creativity，实际情况中千变万化，一定要根据实际情况来定，不能为了装逼而装逼，一定要根据实际的业务需要，否则适得其反。好了，其实关于feature generation还有很多种方式，例如有些事计算两个columns之间的差值，取模等等，这里没有统一的标准，唯一的捷径和key就是咱们一定得理解咱们每一个columns和dataset的实际业务的意思，否则再牛逼的generation也拯救不了你。下面咱们进入到这一章的最后一节feature selection吧。
Feature selection。当咱们吧missing value, categorical data handling, feature generation这个繁杂的步骤都走完了，咱们就来到了feature engineering的最后一步了，那就是feature selection。根据意思就是咱们到底咱们最后选择哪些数据来训练咱们的模型，数据选的好，模型的适用范围，效率，准确性都更好，否则咱们前面的努力可能会毁于一旦。关于feature selection我个人觉得是个人经验和一些selection技术的结合，才能选出最好的features作为训练的样本。个人经验，就是工程师自己对于数据的理解程度，有些features一看就和target没有半毛钱的关系，咱们肯定直接排除这些features，例如咱们的手机设备号和手机价格一看就一点关系都没有，咱们肯定直接删除手机设备号这个feature；有些features一看就和target有很强的关系，例如手机内存大小和手机的价格一看就有很强的关联性，所以咱们肯定要选择这个内存的feature。个人经验之外还有很多模棱两可的features怎么办呢？就跟我前面说的那样，咱们还可以用一些技术手段来选择。下面咱们来介绍两种常用的feature selection的技术。 3.1 F-classification method。这种方式是单独计算每一个column和target的关联性，然后选出关联性最强的f个columns，这里f的值是咱们自定义的。具体的实现细节咱们不需要了解的那么深，因为sklearn已经帮助咱们造好轮子了，从下面的代码，咱们来感受一下它的魅力吧
```
from sklearn.feature_selection import SelectKBest, f_classif
selector = SelectKBest(score_func = f_classif, k = 5)
train,valid,test = get_data_splits(baseline_data, 0.1)
feature_cols = train.columns.drop("outcome")
X_new = selector.fit_transform(train[feature_cols],train["outcome"] )
```
#get back to the features we kept
features = pd.DataFrame(selector.inverse_transform(X_new), index = train.index, columns = feature_cols)
#drop the columns that the values are all 0s
feature_cols_final = features.columns[features.var()!=0]
features_final = features[feature_cols_final]

从上面的代码咱们可以看出来，首先得从sklearn.feature_selection这个模块中引进SelectKBest和f_classif两个子模块；第二步就是创建一个Selector实例对象，这个selector最终返回多少个features是通过咱们的参数K来控制的，selector的最终选择哪些features也是通过f_classif这个函数来控制的；最后就是这个selector的transform了，将features和target作为参数分别传递给他，他会自动搞定，并且返回K个features，然后再将numpy array返回到dataframe的格式。这种方式的只能计算出每一个feature和target的linear dependency，并不能一次性包括所有的features进行关联性计算。 3.2 L1 Regression。L1 Regression可以直接包括所有的features一次性的计算这个columns和target的关联性。关联性越强，数值越大。它不需要制定最后返回多少个features，它是根据L1的结果自动帮助咱们features。但是它的运行速度要远远慢于上面k-classif的方法，可是好处就是一般情况下L1 Regression的运行结果要好于K-classif, 但也不一定澳，只能说大部分情况是这样的。
```
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SelectFromModel
train,valid,test = get_data_splits(baseline_data, 0.1)
X, y = train[train.columns.drop("outcome")], train["outcome"]
logistic_model = LogisticRegression(C=1, penalty="l1", random_state=7).fit(X,y)
selector = SelectFromModel(logistic_model,prefit=True)
X_new = selector.transform(X)
features = pd.DataFrame(selector.inverse_transform(X_new),index = train.index, columns = feature_cols)
feature_cols_final = features.columns[features.var()!=0]
```
总结：上面就是一般的的特征工程的feature selection和feature generation的一般方法，咱们上面讲了很多种的方式，实际情况中具体选择哪一种还是要根据实际情况，一定不要死读书。feature generation一般就是interaction，numerical generation，rolling和time delta四种方式。feature selection一般用到的技术手段就是就是f-classif和L1 regression几种方式。

原文地址：https://www.cnblogs.com/tangxiaobo199181/p/12210734.html

时间： 2024-10-10 10:59:36

机器学习-特征工程-Feature generation 和 Feature selection的相关文章

机器学习 | 特征工程- 超参数调优方法整理

特征工程是机器学习当中很重要的部分,可以帮助我们设计.创建新特征,以便模型从中提取重要相关性.本文将记录并持续更新相关特征工程的工具包介绍,包括自动模型选择和超参数调优等各方面. · Featuretools Featuretools 是一个开源的Python 库,用于自动化特征工程.自动特征工程能够缩减时间成本,构建更优秀的预测模型,生成更有意义的特征,还能防止数据泄漏(data leakage). 目标任务:从数据表格集中获取所有的数据信息并整合到一张表中,再创建特征. 解决方案:采用深度特

机器学习-特征工程-Missing value和Category encoding

好了,大家现在进入到机器学习中的一块核心部分了,那就是特征工程,洋文叫做Feature Engineering.实际在机器学习的应用中,真正用于算法的结构分析和部署的工作只占很少的一部分,相反,用于特征工程的时间基本都占70%以上,因为是实际的工作中,绝大部分的数据都是非标数据.因而这一块的内容是非常重要和必要的,如果想要提高机器学习应用开发的效率,feature engineering就像一把钥匙,一个加速器,能给整个项目带来事半功倍的效果.另外,feature engineering做的好不

机器学习特征工程之特征选择

概念首先看一下维基百科中关于特征选择的介绍: 在机器学习和统计学中,特征选择也被称为变量选择.属性选择或变量子集选择 .它是指:为了构建模型而选择相关特征(即属性.指标)子集的过程. 在机器学习中,每个特征对于目标类别的影响并不相同,所以需要从特征集中挑选出一组最具统计意义的特征子集,把其他无用数据删掉,达到降维的目的. 特征选择的目标是寻找最优特征子集.特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目

快速入门特征工程

有一句话在业界广为流传:特征工程决定了模型的上界,调参决定模型能够有多逼近这个上界. 这里以sklearn为例讲讲特征工程. 一图概览特征工程虽然说分了这么多部分,但特征工程最重要的部分还是特征处理,特征处理主要包含三个方面,特征预处理,特征选择和降维度. 数据预处理数据预处理一方面把特征转为合适的编码喂给我们学习算法,另一方面就是把数据都转化到一个同一个规格.我们平时会用公制单位,那么对于特征也要转化到这样的公制单位.都是身高体重的数据,转化到公制下比较方便. 无量纲化即把特征转化到"公

特征工程(Feature Enginnering)学习记要

最近学习特征工程(Feature Enginnering)的相关技术,主要包含两块:特征选取(Feature Selection)和特征抓取(Feature Extraction).这里记录一些要点,作为备忘. 特征选取 R中的FSelector包实现了一些特征选取的算法,主要分两大类: Algorithms for filtering attributes: cfs, chi.squared, information.gain, gain.ratio, symmetrical.uncertai

AI学习---特征工程(Feature Engineering)

为什么需要特征工程(Feature Engineering) 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已什么是特征工程帮助我们使得算法性能更好发挥性能而已 sklearn主要用于特征工程pandas主要用于数据清洗.数据处理特征工程包含如下3个内容: 1.特征抽取/特征提取 |__>字典特征抽取 |__>文本特征抽取 |__>图像特征抽取(深度学习) 2.特征预处理 3.特征降维特征抽取/特征提取我们常说的机器学习算法实际上就是我们统计学上的统计方法也就是

机器学习之（四）特征工程以及特征选择的工程方法

关于特征工程(Feature Engineering),已经是很古老很常见的话题了,坊间常说:"数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已".由此可见,特征工程在机器学习中占有相当重要的地位.在实际应用当中,可以说特征工程是机器学习成功的关键.纵观Kaggle.KDD等国内外大大小小的比赛,每个竞赛的冠军其实并没有用到很高深的算法,大多数都是在特征工程这个环节做出了出色的工作,然后使用一些常见的算法,比如LR,就能得到出色的性能.遗憾的是,在很多的书籍中并没有直接

机器学习：特征工程

特征选择直接影响模型灵活性.性能及是否简洁. 好特征的灵活性在于它允许你选择不复杂的模型,同时运行速度也更快,也更容易理解和维护. 特征选择四个过程:产生过程,评价函数,停止准则,验证过程. 目的:过滤特征集合中不重要特征,挑选一组最具统计意义的特征子集,从而达到降维的效果. 选择标准:特征项和类别项之间的相关性(特征重要性). - - -搜索特征子空间的产生过程- - - 搜索的算法分为完全搜索(Complete),启发式搜索(Heuristic), 随机搜索(Random) 3大类. 完全

（七）机器学习里的特征工程

不管是工业界还是学术界,机器学习都是一个炙手可热的方向,但是学术界和工业界对机器学习的研究各有侧重,学术界侧重于对机器学习理论的研究,工业界侧重于如何用机器学习来解决实际问题.我们结合美团在机器学习上的实践,进行一个实战系列的介绍,介绍机器学习在解决工业界问题的实战中所需的基本技术.经验和技巧.本文主要结合实际问题,概要地介绍机器学习解决实际问题的整个流程,包括对问题建模.准备训练数据.抽取特征.训练模型和优化模型等关键环节:另外几篇则会对这些关键环节进行更深入地介绍. 下文分为: 1)机器学习