SVM 参数选择

-g g ：设置核函数中的g ，默认值为1/ k ；其中-g选项中的k是指输入数据中的属性数。

惩罚因子

在式子1中

注意其中C的位置，也可以回想一下C所起的作用（表征你有多么重视离群点，C越大越重视，越不想丢掉它们）。这个式子是以前做SVM的人写的，大家也就这么用，但没有任何规定说必须对所有的松弛变量都使用同一个惩罚因子，我们完全可以给每一个离群点都使用不同的C，这时就意味着你对每个样本的重视程度都不一样，有些样本丢了也就丢了，错了也就错了，这些就给一个比较小的C；而有些样本很重要，决不能分类错误，就给一个很大的C。
对付数据集偏斜问题的方法之一就是在惩罚因子上作文章，想必大家也猜到了，那就是给样本数量少的负类更大的惩罚因子，表示我们重视这部分样本（本来数量就少，再抛弃一些，那人家负类还活不活了），因此我们的目标函数中因松弛变量而损失的部分就变成了：

其中i=1…p都是正样本，j=p+1…p+q都是负样本。libSVM这个算法包在解决偏斜问题的时候用的就是这种方法。

　　那C₊和C_-怎么确定呢？它们的大小是试出来的（参数调优），但是他们的比例可以有些方法来确定。咱们先假定说C₊是5这么大，那确定C_-的一个很直观的方法就是使用两类样本数的比来算，对应到刚才举的例子，C_-就可以定为500这么大（因为10，000：100=100：1嘛）。

　　但是这样并不够好，回看刚才的图，你会发现正类之所以可以“欺负”负类，其实并不是因为负类样本少，真实的原因是负类的样本分布的不够广（没扩充到负类本应该有的区域）。说一个具体点的例子，现在想给政治类和体育类的文章做分类，政治类文章很多，而体育类只提供了几篇关于篮球的文章，这时分类会明显偏向于政治类，如果要给体育类文章增加样本，但增加的样本仍然全都是关于篮球的（也就是说，没有足球，排球，赛车，游泳等等），那结果会怎样呢？虽然体育类文章在数量上可以达到与政治类一样多，但过于集中了，结果仍会偏向于政治类！所以给C₊和C_-确定比例更好的方法应该是衡量他们分布的程度。比如可以算算他们在空间中占据了多大的体积，例如给负类找一个超球——就是高维空间里的球啦——它可以包含所有负类的样本，再给正类找一个，比比两个球的半径，就可以大致确定分布的情况。显然半径大的分布就比较广，就给小一点的惩罚因子。

但是这样还不够好，因为有的类别样本确实很集中，这不是提供的样本数量多少的问题，这是类别本身的特征（就是某些话题涉及的面很窄，例如计算机类的文章就明显不如文化类的文章那么“天马行空”），这个时候即便超球的半径差异很大，也不应该赋予两个类别不同的惩罚因子。

http://blog.csdn.net/zhzhl202/article/details/7583464

参考文献以及进一步阅读：

1. http://www.blogjava.net/zhenandaci/archive/2009/03/15/259786.html 讲解了SVM引入松弛变量的原因及好处

2. http://www.blogjava.net/zhenandaci/archive/2009/03/06/258288.html SVM中核函数的特性以及在SVM中的作用

3. http://blog.pluskid.org/?tag=support-vector-machine Kid的关于SVM经典文章

时间： 2025-01-03 22:22:48

SVM 参数选择

惩罚因子

SVM 参数选择的相关文章

机器学习 libsvm交叉验证与网格搜索（参数选择）

libSVM 参数选择

机器学习中的范数规则化 L0、L1与L2范数核范数与规则项参数选择

OpenCV中的SVM参数优化

paper 36 ：[教程] 基于GridSearch的svm参数寻优

libsvm交叉验证与网格搜索（参数选择）

SVM→8.SVM实战→3.调节SVM参数

桥堆的参数选择以及滤波电容的选择

paper 27：机器学习中的范数规则化之（二）核范数与规则项参数选择