情感分析-R与spark机器学习库测试分类比较

1     环境

R 3.0以上版本

安装机器学习软件包:

说明:此两个包是R机器学习包。RTextTools包含文本处理,e1071包含分类器。

> install.packages("RTextTools")

> install.packages("e1071")

2     实验步骤

研究对象:http://www.xueqing.tv/cms/article/107#rd?sukey=3903d1d3b699c20870d8c0b36a06c8665d146b24b47f8953d7202230c1ad9c9dd368d27959ec776c4cd0e2c94248f632

此篇博文(最上面图是word2vec的图,与本篇博文无关)使用R语言,对文本进行分类,并且使用多种分类器。

其包含两部分,都是对句子进行情感分类。一部分使用手工添加的少量数据进行。

另一部分使用80条happy数据,80条sad数据,10条happy测试数据,10条sad测试数据(代码路径:sentiment_analyse.R)。

3     试验结果

实验一:对各个分类器初步比较,作者手工添加数据,进行预测(代码文件:sentiment_compare.R):

预测准确率:


分类器


准确率


随机森林


60%


最大熵


60%


决策树


60%


BAGGING


60%


SVM


20%

实验二(代码文件sentiment_analyse.R):

数据文件:http:///sentiment/data/

采用bayes, MAXENT, SVM, SLDA, BAGGING, RF, TREE分类器,进行分类

结果如下:


分类器名称


准确率(R)


准确率(spark)


贝叶斯


65%


95%


随机森林


95%


90%


SVM


95%


SLDA


75%


 


BAGGING


95%


决策树


100%


85%


MAXENTROPY


95%


GBT


90%


Vord2vec


70%

时间: 2024-10-28 12:35:27

情感分析-R与spark机器学习库测试分类比较的相关文章

掌握Spark机器学习库 大数据开发技能更进一步

第1章 初识机器学习在本章中将带领大家概要了解什么是机器学习.机器学习在当前有哪些典型应用.机器学习的核心思想.常用的框架有哪些,该如何进行选型等相关问题.1-1 导学1-2 机器学习概述1-3 机器学习核心思想1-4 机器学习的框架与选型.. 第2章 初识MLlib本章中,将介绍Spark的机器学习库,对比Spark当前两种机器学习库(MLLib/ML)的区别,同时介绍Spark机器学习库的应用场景以及行业应用优势.2-1 MLlib概述2-2 MLlib的数据结构2-3 MLlib与ml2-

掌握Spark机器学习库 大数据开发技能更进一步 高清无密

掌握Spark机器学习库 大数据开发技能更进一步 "大数据时代"已经不是一个新鲜词汇了,随着技术的商业化推广,越来越多的大数据技术已经进入人们的生活.与此同时,大数据技术的相关岗位需求也越来越多,更多的同学希望向大数据方向转型.本课程主要讲解Spark机器学习库,侧重实践的讲解,同时也以浅显易懂的方式介绍机器学习算法的内在原理.学习本课程,可以为想要转型大数据工程师或是入行大数据工作的同学提供实践指导作用.欢迎感兴趣的小伙伴们一起来学习. 第1章 初识机器学习 在本章中将带领大家概要了

掌握Spark机器学习库-07-回归分析概述

1)回归与分类算法的区别 回归的预测结果是连续的,分类的预测结果是离散的. 2)spark实现的回归算法有: 3)通过相关系数衡量线性关系的程度 原文地址:https://www.cnblogs.com/moonlightml/p/9787938.html

掌握Spark机器学习库-07.6-线性回归实现房价预测

数据集 house.csv 数据概览 代码 package org.apache.spark.examples.examplesforml import org.apache.spark.ml.feature.VectorAssembler import org.apache.spark.ml.regression.LinearRegression import org.apache.spark.sql.SparkSession import org.apache.spark.{SparkCon

掌握Spark机器学习库-07-回归算法原理

1)机器学习模型理解 统计学习,神经网络 2)预测结果的衡量 代价函数(cost function).损失函数(loss function) 3)线性回归是监督学习 原文地址:https://www.cnblogs.com/moonlightml/p/9787988.html

掌握Spark机器学习库-02-mllib数据格式

MLlib 1.MLlib介绍 1)MLlib特点 2)哪些算法 3)阅读官方文档 MLlib提供了哪些: 算法 特征工程 管道 持久化 2.MLlib数据格式 1)本地向量 2)标签数据 3)本地矩阵 4)分布式矩阵 5)分布式数据集:RDD,DATASET,DATAFRAME 原文地址:https://www.cnblogs.com/moonlightml/p/9783591.html

掌握Spark机器学习库-07-线性回归算法概述

1)简介 自变量,因变量,线性关系,相关系数,一元线性关系,多元线性关系(平面,超平面) 2)使用线性回归算法的前提 3)应用例子 沸点与气压 浮力与表面积 原文地址:https://www.cnblogs.com/moonlightml/p/9787971.html

常用python机器学习库总结

开始学习Python,之后渐渐成为我学习工作中的第一辅助脚本语言,虽然开发语言是Java,但平时的很多文本数据处理任务都交给了Python.这些年来,接触和使用了很多Python工具包,特别是在文本处理,科学计算,机器学习和数据挖掘领域,有很多很多优秀的Python工具包可供使用,所以作为Pythoner,也是相当幸福的.如果仔细留意微博和论坛,你会发现很多这方面的分享,自己也Google了一下,发现也有同学总结了"Python机器学习库",不过总感觉缺少点什么.最近流行一个词,全栈工

情感分析简述

情感分析,我研究了也有半年有余了,号称看遍ACL上关于情感分析的论文,但是到目前还没有什么成就的.以下是我为一位同学毕业设计写的情感分析方面的综述,引用的论文基本上是ACL和COLING还有EMNLP上历年关于情感分析的论文,本文应该学术性比较强一点,本文虽不打算发表,但由于将来可能还有用,以及关于学术上的原因,请大家如果要引用请务必标明出处(http://blog.sina.com.cn/s/blog_48f3f8b10100irhl.html). 概述 情感分析自从2002年由Bo Pang