1. 概括统计 summary statistics
MLlib
支持RDD[Vector]
列式的概括统计,它通过调用 Statistics
的 colStats
方法实现。
colStats
返回一个 MultivariateStatisticalSummary
对象,这个对象包含列式的最大值、最小值、均值、方差等等。
import org.apache.spark.mllib.linalg.Vector import org.apache.spark.mllib.stat.{MultivariateStatisticalSummary, Statistics} val observations: RDD[Vector] = ... // define an RDD of Vectors // Compute column summary statistics. val summary: MultivariateStatisticalSummary = Statistics.colStats(observations) println(summary.mean) // a dense vector containing the mean value for each column println(summary.variance) // column-wise variance println(summary.numNonzeros) // number of nonzeros in each column
2. 相关性
时间: 2024-10-10 23:31:03