Spark机器学习(5)：SVM算法

1. SVM基本知识

SVM(Support Vector Machine)是一个类分类器，能够将不同类的样本在样本空间中进行分隔，分隔使用的面叫做分隔超平面。

比如对于二维样本，分布在二维平面上，此时超平面实际上是一条直线，直线上面是一类，下面是另一类。定义超平面为：

f(x)=w₀+w^Tx

可以想象出，这样的直线可以有很多条，到底哪一条是超平面呢？规定超平面应该是距离两类的最近距离之和最大，因为只有这样才是最优的分类。

假设超平面是w₀+w^Tx=0，那么经过上面这一类距离超平面最近点的直线是w₀+w^Tx=1，下面的直线是w₀+w^Tx=-1。其中一类到超平面的距离是

然后采用拉格朗日函数，经过一系列运算以后，得到

这也意味着，只用计算新点x与训练数据点的内积就可以对新点进行预测。

2. MLlib的SVM

MLlib只实现了线性SVM，采用分布式随机梯度下降算法。将SVM二分类的1和-1转化为1和0，因此y变成了(2y-1)，梯度为g=-(2y-1)x，梯度更新公式

直接上代码：

import org.apache.log4j.{ Level, Logger }
import org.apache.spark.{ SparkConf, SparkContext }
import org.apache.spark.mllib.classification.SVMWithSGD
import org.apache.spark.mllib.util.MLUtils

object SVMTest {
  def main(args: Array[String]): Unit = {
    // 设置运行环境
    val conf = new SparkConf().setAppName("SVM Test")
      .setMaster("spark://master:7077").setJars(Seq("E:\\Intellij\\Projects\\MachineLearning\\MachineLearning.jar"))
    val sc = new SparkContext(conf)
    Logger.getRootLogger.setLevel(Level.WARN)

    // 读取样本数据并解析
    val dataRDD = MLUtils.loadLibSVMFile(sc, "hdfs://master:9000/ml/data/sample_svm_data.txt")
    // 样本数据划分,训练样本占0.8,测试样本占0.2
    val dataParts = dataRDD.randomSplit(Array(0.8, 0.2))
    val trainRDD = dataParts(0)
    val testRDD = dataParts(1)

    // 建立模型并训练
    val numIterations = 100
    val model = SVMWithSGD.train(trainRDD, numIterations)

    // 对测试样本进行测试
    val predictionAndLabel = testRDD.map { point =>
      val score = model.predict(point.features)
      (score, point.label, point.features)
    }
    val showPredict = predictionAndLabel.take(50)
    println("Prediction" + "\t" + "Label" + "\t" + "Data")
    for (i <- 0 to showPredict.length - 1) {
      println(showPredict(i)._1 + "\t" + showPredict(i)._2 + "\t" + showPredict(i)._3)
    }

    // 误差计算
    val accuracy = 1.0 * predictionAndLabel.filter(x => x._1 == x._2).count() / testRDD.count()
    println("Accuracy = " + accuracy)
  }
}

运行结果：

时间： 2024-10-10 01:43:51

Spark机器学习(5)：SVM算法的相关文章

机器学习笔记—svm算法（上）

本文申明:本文原创,如转载请注明原文出处. 引言:上一篇我们讲到了logistic回归,今天我们来说一说与其很相似的svm算法,当然问题的讨论还是在线性可分的基础下讨论的. 很多人说svm是目前最好的分类器,那我们就来看看我们的svm好在哪里. 一:初识svm 问题:用一条直线把下图的圆球和五角星分离开来. 解答:有N种分法,如下图: 附加题:找出最佳分类? 解答:如图: Exe me?鬼知道哪一条是最佳?? 等等这个最佳分类是不是等价于,地主让管家给两个儿子分地,是不是只要让两家之间一样多就可

程序员训练机器学习 SVM算法分享

http://www.csdn.net/article/2012-12-28/2813275-Support-Vector-Machine 摘要:支持向量机(SVM)已经成为一种非常受欢迎的算法.本文主要阐述了SVM是如何进行工作的,同时也给出了使用Python Scikits库的几个示例.SVM作为一种训练机器学习的算法,可以用于解决分类和回归问题,还使用了kernel trick技术进行数据的转换,再根据转换信息在可能的输出之中找到一个最优的边界. [CSDN报道]支持向量机(Support

Spark机器学习系列之13：支持向量机SVM

基本公式推导理论部分:SVM涉及的理论知识太多太繁杂了,大家直接看: 支持向量机通俗导论(理解SVM的三层境界) http://blog.csdn.net/v_july_v/article/details/7624837 下面摘抄一小部分内容(不考虑推导细节的话,基本上能理解SVM方法推导的整个流程),对偶问题(包括KKT条件)在SVM起到很重要的作用,如果对此不很了解,则难以理解SVM推导过程.关于对偶分析,可以参考我的另一篇文章:http://blog.csdn.net/qq_345318

Spark MLlib SVM算法

1.1 SVM支持向量机算法支持向量机理论知识参照以下文档: 支持向量机SVM(一) http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982639.html 支持向量机SVM(二) http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982684.html 支持向量机(三)核函数 http://www.cnblogs.com/jerrylead/archive/2011/03/18/

Spark机器学习(8)：LDA主题模型算法

1. LDA基础知识 LDA(Latent Dirichlet Allocation)是一种主题模型.LDA一个三层贝叶斯概率模型,包含词.主题和文档三层结构. LDA是一个生成模型,可以用来生成一篇文档,生成时,首先根据一定的概率选择一个主题,然后在根据概率选择主题里面的一个单词,这样反复进行,就可以生成一篇文档:反过来,LDA又是一种非监督机器学习技术,可以识别出大规模文档集或语料库中的主题. LDA原始论文给出了一个很简单的例子.Arts.Budgets.Children.Educatio

Spark机器学习解析下集

上次我们讲过<Spark机器学习(上)>,本文是Spark机器学习的下部分,请点击回顾上部分,再更好地理解本文. 1.机器学习的常见算法常见的机器学习算法有:l 构造条件概率:回归分析和统计分类:l 人工神经网络:l 决策树:l 高斯过程回归:l 线性判别分析:l 最近邻居法:l 感知器:l 径向基函数核:l 支持向量机:l 通过再生模型构造概率密度函数:l 最大期望算法:l graphical model :包括贝叶斯网和 Markov 随机

SVM算法

摘要:SVM(支持向量机)算法是一种典型的监督式学习算法.介绍SVM算法的思想和应用. 关键词:机器学习 SVM 支持向量机 SVM(Support Vector Machine)支持向量机,简称SV机,一种监督式学习算法,广泛地应用于统计分类和回归分析中. SVM算法的思想可以概括为两点. 第一点:SVM是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本映射到高维特征空间使其线性可分,从而使得高维特征空间采用采用线性算法对样本的非线

Spark机器学习实战视频

深入浅出Spark机器学习实战(用户行为分析) 课程观看地址:http://www.xuetuwuyou.com/course/144 课程出自学途无忧网:http://www.xuetuwuyou.com 一.课程目标熟练掌握SparkSQL的各种操作,深入了解Spark内部实现原理深入了解SparkML机器学习各种算法模型的构建和运行熟练Spark的API并能灵活运用能掌握Spark在工作当中的运用二.适合人群适合给,有java,scala基础,想往大数据spark机器

机器学习十大算法（二）

文章来源:https://www.dezyre.com/article/top-10-machine-learning-algorithms/202 本人自行翻译,如有错误,还请指出.后续会继续补充实例及代码实现. 3.机器学习算法概述 3.1 朴素贝叶斯分类器算法手动分类网页,文档,电子邮件或任何其他冗长的文本注释将是困难且实际上不可能的. 这是朴素贝叶斯分类器机器学习算法来解决. 分类器是从可用类别之一分配总体的元素值的函数. 例如,垃圾邮件过滤是朴素贝叶斯分类器算法的流行应用程序. 此处

Spark机器学习

Spark机器学习 Pipelines中的主要概念 MLlib 提供的API可以通过Pipelines将多个复杂的机器学习算法结合成单个pipeline或者单个工作流.这个概念和scikit-learn里的概念类似,根据官方的说法是,此抽象概念的设计灵感来自于scikit-learn. · DataFrame:通过Spark SQL 组件里的DataFrame作为机器学习的数据集.支持多种数据类型.比如 DataFrame 可以将文本,数据库等外部数据源划分为不同的列,包含特征向量