Spark机器学习中ml和mllib中矩阵、向量

1：Spark ML与Spark MLLIB区别？

Spark MLlib是面向RDD数据抽象的编程工具类库，现在已经逐渐不再被Spark团队支持，逐渐转向Spark ML库，Spark ML是面向DataFrame编程的。

2：Spark ML与Spark MLLIB中矩阵、向量定义区别？

这两个类库中的矩阵与向量对比可以发现几乎都是一样的，就是为了以后维护Spark ML方便。

3：Spark ML中稀疏向量与稠密向量区别？

稠密向量存储：底层存储使用完成的Double Array存储。

稀疏矩阵：底层存储非0的元素值以及该值的index以及向量的size。（也就是三维信息，存储效率高）

4：稠密向量示例:

 import org.apache.spark.ml.linalg.{DenseVector => MLDenseVector}
  val mlDv = new MLDenseVector(Array[Double](1, 1, 1, 1, 1))

  println(mlDv.argmax)

  //压缩矩阵，底层根据0的个数进行判断是稀疏存储还是稠密存储。稀疏存储就是存储非0的元素值以及索引以及向量的大小（也就是三维）
  println(mlDv.compressed)
  val copy = mlDv.copy //深拷贝

  copy.foreachActive {
    (x, y) =>
      println("index = " + x + " ,  value = " + y)
  }

  //Number of active entries. An "active entry" is an element which is explicitly(明确地) stored,
  // regardless of its value. Note that inactive entries have value 0.
  println(copy.numActives)
  println(copy.numNonzeros)
  println(copy.size)
  println(copy.values)
  println(copy.toSparse)

5：稀疏矩阵

 import org.apache.spark.ml.linalg.{SparseVector => MLSparseVector}
  val mlDv = new MLDenseVector(Array[Double](1, 0, 0, 0, 0))
  println(mlDv.toSparse)  //(5,[0],[1.0])
  //SparseVector构造器：向量维度，非零索引，非零索引对应的值
  val mlSv = new MLSparseVector(5, Array[Int](0, 3), Array[Double](1, 2))
  println(mlSv) //(5,[0,3],[1.0,2.0])
  println(mlSv.toDense) //[1.0,0.0,0.0,2.0,0.0]
  println(mlSv.indices.toBuffer)//返回稀疏向量的索引

对于mllib下的向量可以使用asML直接转成ML中的向量

  //稀疏矩阵
  import org.apache.spark.mllib.linalg.{DenseVector => MLLIBDenseVector}
  val mlDv = new MLLIBDenseVector(Array[Double](1, 0, 0, 0, 0))
  mlDv.asML //直接转成spark ml的向量

6：ML中矩阵

import org.apache.spark.ml.linalg.{DenseMatrix => MLDenseMatrix}
  import org.apache.spark.ml.linalg.{SparseMatrix => MLSparseMatrix}

  // 默认以列为主的稠密矩阵。
  val notTranspose = new MLDenseMatrix(3, 2, Array[Double](1, 3, 5, 2, 4, 6))
  // 第三个参数为是否允许转至，默认不允许，如果允许则按行存储
  val mlDMtx = new MLDenseMatrix(3, 2, Array[Double](1, 2, 3, 4, 5, 6), true)

  println(notTranspose)

  println("-------------------------------------------------")
  println(notTranspose.isTransposed)
  println(notTranspose.transpose)
  println(mlDMtx.isTransposed)
  println("-------------------------------------------------")
  println(mlDMtx)
  println(mlDMtx.compressed)
  println("-------------------------------------------------")
  //转为按照列存储的稠密矩阵
  println(mlDMtx.toDenseColMajor)

  //转为按照行存储的稠密矩阵
  println(notTranspose.toDenseRowMajor)

时间： 2024-11-06 03:51:14

Spark机器学习中ml和mllib中矩阵、向量的相关文章

Spark机器学习(8)：LDA主题模型算法

1. LDA基础知识 LDA(Latent Dirichlet Allocation)是一种主题模型.LDA一个三层贝叶斯概率模型,包含词.主题和文档三层结构. LDA是一个生成模型,可以用来生成一篇文档,生成时,首先根据一定的概率选择一个主题,然后在根据概率选择主题里面的一个单词,这样反复进行,就可以生成一篇文档:反过来,LDA又是一种非监督机器学习技术,可以识别出大规模文档集或语料库中的主题. LDA原始论文给出了一个很简单的例子.Arts.Budgets.Children.Educatio

Spark MLlib中分类和回归算法

Spark MLlib中分类和回归算法: -分类算法: pyspark.mllib.classification -朴素贝叶斯 NaiveBayes -支持向量机(优化:随机梯度下降)SVMWithSGD -逻辑回归 LogisticRegressionWithSGD // 从Spark 2.0开始,官方推荐使用BFGS方式优化LR算法 LogisticRegressionWithBFGS // 针对流式数据实时模型训练算法 StreamingLogisticRegressionWithSGD

Apache Spark源码走读之22 -- Spark MLLib中拟牛顿法L-BFGS的源码实现

欢迎转载,转载请注明出处,徽沪一郎. 概要本文就拟牛顿法L-BFGS的由来做一个简要的回顾,然后就其在spark mllib中的实现进行源码走读. 拟牛顿法数学原理代码实现 L-BFGS算法中使用到的正则化方法是SquaredL2Updater. 算法实现上使用到了由scalanlp的成员项目breeze库中的BreezeLBFGS函数,mllib中自定义了BreezeLBFGS所需要的DiffFunctions. runLBFGS函数的源码实现如下 def runLBFGS( data:

机器学习中的数学-强大的矩阵奇异值分解(SVD)及其应用《5》

版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系[email protected] 前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的.在上篇文章中便是基于特征值分解的一种解释.特征值和奇异值在大部分人的印象中,往往是停留在纯粹的数学计算中.而且线性代数或者矩阵论里面,也很少讲任何跟特征值与奇异值有

机器学习中的矩阵向量求导(三) 矩阵向量求导之微分法

在机器学习中的矩阵向量求导(二) 矩阵向量求导之定义法中,我们讨论了定义法求解矩阵向量求导的方法,但是这个方法对于比较复杂的求导式子,中间运算会很复杂,同时排列求导出的结果也很麻烦.因此我们需要其他的一些求导方法.本文我们讨论使用微分法来求解标量对向量的求导,以及标量对矩阵的求导. 本文的标量对向量的求导,以及标量对矩阵的求导使用分母布局.如果遇到其他资料求导结果不同,请先确认布局是否一样. 1. 矩阵微分在高数里面我们学习过标量的导数和微分,他们之间有这样的关系:$df =f'(x)dx$.

求一个矩阵中最大的2*2矩阵(元素和最大)的和

编程题在线编程题30分2/2最大子矩阵Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Problem Description:求一个矩阵中最大的2*2矩阵(元素和最大)的和.如:1 2 0 3 42 3 4 5 11 1 5 3 0中最大的是:4 55 3和为17输入m*n的矩阵输出该m*n矩阵的最大2*2子矩阵(元素和最大)的和样例输入 1 2 0 3 4 ; 2 3 4 5 1

DeepLearning tutorial（2）机器学习算法在训练过程中保存参数

我是小白,说的不是很好,请原谅 @author:wepon @blog:http://blog.csdn.net/u012162613/article/details/43169019 参考:pickle - Python object serialization.DeepLearning Getting started 一.python读取"***.pkl.gz"文件用到Python里的gzip以及cPickle模块,简单的使用代码如下,如果想详细了解可以参考上面给出的链接. [p

【c语言】二维数组中的查找，杨氏矩阵在一个二维数组中，每行都依照从左到右的递增的顺序排序，输入这种一个数组和一个数，推断数组中是否包括这个数

// 二维数组中的查找,杨氏矩阵在一个二维数组中.每行都依照从左到右的递增的顺序排序. // 每列都依照从上到下递增的顺序排序.请完毕一个函数,输入这种一个数组和一个数.推断数组中是否包括这个数 #include <stdio.h> #define col 4 #define rol 4 int yang(int(*p)[col], int num) { int i = 0; int j = col - 1; while (j+1) { int *q = &(p[i][j]); if

matlab中如何求某一个矩阵的标准差和均值

方法: 先reshape成行向量或者列向量然后,利用mean函数,std函数. 构造测试数据,可以利用random函数,就好.利用这个函数,可以构造不同分布的随机数列(或矩阵). 如: >> y =random('norm',2,0.3,3,4) y = 2.1391 2.2945 2.0769 2.1751 1.9334 1.6805 1.9315 1.8912 1.8775 1.8126 1.9733 1.7686 >> rows = reshape(y,3*4,1) ro