机器学习漫谈

机器学习漫谈

数据挖掘/机器学习项目一般包括四个关键部分，分别是，数据分析，特征工程，建立模型，验证。

1 数据分析

从广义上讲，数据分析包括数据收集，数据处理，数据清洗，探究性数据分析，建模和算法设计，数据可视化等等[1]。从狭义上讲，数据分析指的是探究性数据分析（EDA）。

所谓探索性数据分析（Exploratory Data Analysis，以下简称EDA），是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法[2]。

数据分析常用工具有Excel，SPSS，python，R等等。我常用的工具是Excel和python。

数据分析可以做什么？

1、计算数据中每个属性的范围，四分位点，百分位点等。

2、单属性排序，多属性排序，取Top N或Bottom N。

3、按条件过滤。多个条件联合过滤，做交并差。

4、利用图表查看某个属性值在给定数据集上的分布情况。比如箱线图，直方图，折线图。

5、利用散点图查看两个属性的相关性。

6、聚类分析，通过可视化数据发现相似的对象。聚类是将相似的对象划为同一组，使得组内对象相似度高，组间对象差异大[3]。

7、利用散点图查看异常点。

2 特征工程

特征工程与领域知识紧密相关，需要深入理解当前业务。特征可以分为两类，稀疏特征和紧密特征。稀疏特征是指只有极少的属性值非零的特征。

2.1 设计特征

以商品推荐为例，首先构建三类基本特征。

1、用户对商品的行为特征。最近3天（7天/14天/30天/总的）用户点击（收藏/加入购物车/购买）商品的次数；最后一次点击时间；点击（收藏/加入购物车/购买）的天数……

2、品牌自身的特征。最近7天（30天/总的）被点击（收藏/加入购物车/购买）次数，最近7天（30天/总的）点击（收藏/加入购物车/购买）该商品的用户数目，回头客的数目……

3、用户自身的特征。购买的商品件数；第一次（最后一次）访问时间（购买时间）……

由基本特征衍生出一些特征，其中包含很多强相关特征。例如，转化率，回头率，最近一个月用户点击（购买）该商品的次数除以用户对所有商品的点击（购买）次数……

特征的扩充通常是将基本特征两两相除、相乘、求交、求并等等，获得新的特征。将单特征的属性值用0-1编码扩充成多个特征也是常用的技术之一，俗称“哑变量”。也可以将多个特征的属性值按一定的权值相加，构成新的特征。

2.2 特征归一化

通常情况下，SVM和GBDT模型需要预先进行特征归一化，而RF不需要。常用特征归一化方法有三种。

1、最大最小值归一化。x‘ = (x - min) / (max - min)

2、Z-score归一化。x‘ = (x -μ) /σ

3、对数归一化。x‘ = log(1+x)

2.3 特征选择

非正式地说，特征选择是从大量原始特征集合中，选择一个子集，使得模型简单有效。特征选择有三大好处：1、增强了模型的泛化能力，改善了预测器的性能；2、缩小了算法消耗的空间，缩短了算法消耗的时间；3、模型更容易解释。

特征选择算法分三类。

1、特征排序，又称筛选器特征选择方法（Filter Methods）。不考虑特征间的依赖性，按一定的标准为每个特征打分，从高到低选取特征。例如，分别计算每个特征与目标变量的相关系数，取绝对值最大的Top N个变量。常见的标准包括卡方检验（卡方值越大越相关），信息增益（信息增益最大越好），基尼指数（基尼指数越小越好），相关系数（相关系数越大越好）。三类经典决策树模型的主要区别在于特征选择算法不同，ID3采用信息增益，C4.5采用信息增益率，CART
采用基尼系数。

2、包装器方法（Wrapper Methods）。包装器方法主要有三种，向前贪心算法，向后贪心算法，向前向后算法。向前贪心算法，即从空特征集合起，每次向集合中添加一个特征，直到模型性能不再改善为止。向后贪心算法，即从满特征集合起，每次从集合中删除一个特征，直到模型性能不再改善为止。该类方法的缺点有两个，分别是容易过拟合和计算时间比较长。

3、嵌入式方法（Embedded Methods）。嵌入式方法和包装器方法类似，但是嵌入式方法不容易过拟合且消耗时间较短。举一个嵌入式方法的例子，引入L1正则项，训练后权重为0的特征就是被丢弃的特征。

“scikit-learn”文档[5]中介绍的特征选择方法包括，丢弃低方差的特征，卡方检验，用交叉检验的方法递归消除特征，用带L1正则项的线性模型训练然后选择权重非0的特征，基于树的特征选择等等。

3 建立模型

常见的四种模型分别是LR（线性回归/ logistic回归）、SVM、RF、GBDT。每种模型有自己的损失函数，损失函数由损失项和正则项两部分构成。线性回归采用平方误差损失函数，logistic回归采用log损失函数，SVM采用hinge损失函数。对于分类问题，RF通常采用基尼指数作为损失函数，又称评价标准，有时也选择将信息增益率作为评价标准。对于回归问题，RF通常将均方误差作为损失函数。对于分类问题，GBDT通常将负的二项式对数似然函数作为损失函数。对于回归问题，GBDT通常采用的损失函数包括平方误差损失函数，Huber
损失函数（对异常值不敏感），指数损失函数，对数损失函数等。

3.1 LR（线性回归/logistic回归）

一般来讲，线性回归适用于回归问题，logistic回归适用于分类问题。LR（线性回归/logistic回归）模型非常简单，不容易过拟合，适合做baseline。线性拟合好不好一般看R²，R²越接近1越好。LR计算速度很快，与L1正则化配合使用，可以处理包含成千上万维特征的海量数据。LR模型的可解释性很强，应用广泛，是其他模型的基石。

3.2 SVM

通俗点讲，线性SVM是在给定的数据集上找一个超平面，使得支持向量（超平面两边距离超平面最近的点）到超平面的距离最大。线性SVM不仅适用于大样本，也适用于小样本的分类问题。核函数使得SVM能够解决非线性问题，最常用的核函数是径向基核函数。

3.3 RF

学习随机森林模型前，一定要先了解决策树模型。树越深，模型越复杂。

决策树模型的优点如下。

1、容易理解和解释，树可以被可视化。

2、不需要太多的数据预处理工作，即不需要进行数据归一化，创造哑变量等操作。

3、隐含地创造了多个联合特征，并能够解决非线性问题。

决策树模型最大的缺点是容易过拟合。

随机森林由很多棵不同的决策树构成，对于一个给定的预测对象，每棵决策树都输出一个label，最后采取“投票”的方式，选择得票最多的label作为最终结果。随机森林是一种集成方法，也被认为是最近邻预测器的一种。集成方法是将一组弱分类器以一定的方式组合起来，形成一个强分类器。

构建单棵树的步骤：

1、有放回的随机采样，样本数占总数的2 / 3。

2、对于每一个结点，随机选择m个特征，从中选择能提供最好划分的特征和划分点，在下一个结点重复前两个步骤直到所有训练样例都属于同一类。

随机森林的错误率依赖两件事。

1、树之间的相关性越大，整体错误率越高。

2、单棵树的错误率越高，整体错误率越高。

随机森林的优点：

1、容易理解和解释，树可以被可视化。

2、不需要太多的数据预处理工作，即不需要进行数据归一化，创造哑变量等操作。

3、隐含地创造了多个联合特征，并能够解决非线性问题。

4、和决策树模型，GBDT模型相比，随机森林模型不容易过拟合。

5、自带out-of-bag (oob)错误评估功能。

6、易于并行化。

随机森林的缺点：

1、不适合小样本，只适合大样本。

2、大多数情况下，RF模型的精度略低于GBDT模型的精度。

3、适合决策边界是矩形的，不适合对角线型的。

3.4 GBDT

GBDT的优点：

1、能够解决非线性问题。

2、精度较高，特别是在回归问题上，GBDT的效果通常要好于RF。

GBDT的缺点：

1、需要做一些数据预处理工作，例如特征归一化。

2、与RF模型相比，GBDT模型的参数较多，且模型对参数较敏感。

3、与RF模型相比，GBDT模型更容易过拟合。

4、不容易并行化。

4 验证

最常用的验证方式是交叉验证。有时为了方便，我们也可以进行一个简单的验证：把原始数据随机拆分成两部分，一部分作训练集，另一部分作验证集。先在训练集上训练出一个模型，然后将这个模型用在验证集上，根据验证集上的预测结果和“标准答案”就可以计算出准确率、召回率或者其他指标了。

参考资料

【1】https://en.wikipedia.org/wiki/Data_analysis

【2】http://blog.sciencenet.cn/blog-350729-662859.html

【3】https://en.wikipedia.org/wiki/Cluster_analysis

【4】http://www.jmlr.org/papers/volume3/guyon03a/guyon03a.pdf

【5】http://scikit-learn.org/stable/supervised_learning.html#supervised-learning

时间： 2024-08-07 08:37:12

机器学习漫谈

1 数据分析

2 特征工程

2.1 设计特征

2.2 特征归一化

2.3 特征选择

3 建立模型

3.1 LR（线性回归/logistic回归）

3.2 SVM

3.3 RF

3.4 GBDT

4 验证

参考资料

机器学习漫谈的相关文章

漫谈机器学习

漫谈：机器学习中距离和相似性度量方法

漫谈机器学习经典算法—人工神经网络

[转载]从机器学习谈起

转载计算机的潜意识的文章：机器学习的入门级经典读物

推荐文章：机器学习：“一文读懂机器学习，大数据/自然语言处理/算法全有了

一文读懂机器学习，大数据/自然语言处理/算法全有了……

科普：关于机器学习——《从机器学习谈起》

从机器学习谈起