本篇博客主要讲述如何利用spark的mliib构建机器学习模型并预测新的数据,具体的流程如下图所示: 加载数据 对于数据的加载或保存,mllib提供了MLUtils包,其作用是Helper methods to load,save and pre-process data used in MLLib.博客中的数据是采用spark中提供的数据sample_libsvm_data.txt,其有一百个数据样本,658个特征.具体的数据形式如图所示: 加载libsvm JavaRDD<LabeledPo
一.特征规约/降维:去掉可分性不强和冗余的特征 特征选择:去掉可分性不强的特征 特征抽取/变换:去掉多余的特征,即抽取出来的特征不存在线性or非线性关系 ============================================================================= 二.特征选择:根据在特征选择过程有无使用学习算法,特征选择可以分为: Filter:criterion为根据subset evolution or term evolution 的好坏 So