(1)文本倾向性分析综述

酒店评论情感分析系统(一)——文本倾向性分析综述

题目:对酒店的评论进行文本倾向性分析,分析对酒店的评价(包括总评和细评,细评包括价格、卫生、服务、环境四个方面)是褒还是贬。

  在学《搜索引擎》这门课的时候,老师布置的一个小型project。本科的时候一直没接触过这块,所以现在只能是从一只菜鸟一步步慢慢摸索。想在学习的过程中,对搜索引擎,文本倾向性分析,网络舆情有个初步的认识与了解。

  由于处在摸索阶段,所以文中难免会出现一些表述错误、公式错误、理解错误等等,故千万不要认为里面的思路都正确,如发现有问题,欢迎共同探讨。

  本节主要介绍文本倾向性分析的综述。

  感谢以下论文对理论知识的帮助:

a. 历小军,戴霖等,文本倾向性分析综述,浙江大学学报,2011.07

b.   单大甫,基于网络评论的文本倾向性分类技术的研究与实现,国防科技大学,2010.10

一、文本倾向性分析的定义与主要任务

  定义:文本倾向性分析(Sentiment Classification)就是对用户对某个事物(如产品)的看法或评论文本的挖掘,从而得到该看法或评论是属于对该事物的积极或消极意见。文本情感通常分为两类(正面、反面)或三类( 正面、反面和中立)。其中正面类别(positive)是指主题中持有积极的(支持的、健康的)态度和立场; 负面类别(negative)是指文本中持有消极的(反对的、不健康的)态度和立场;中立类别(neutral)是指文本中持中立态度和立场。从当前的研究来看,以考虑两类的研究居多。

  主要任务: (1)找出文档中能够体现情感的词或短语;

  (2)判断所找出的词或短语的倾向性极性以及强度;

  (3)找出所抽取的词或短语与主题的关系。

二、文本倾向性分析与主题挖掘的区分

  基于文本倾向性分析的意见挖掘,相对于主题挖掘,需要对文本进行一定的智能化理解——倾向性分析,在此基础上提取作者的意见、情感和态度等信息。

三、文本倾向性分析的主要流程

1)   原始素材的收集整理。一般采用爬虫工具定时进行材料搜集,例如:开源的Java爬虫软件有heritrix、nutch等;

2)   文本预处理.对收集来的素材进行噪音消除、标签过滤、分词等工作,为后续分析提供较好的原始分析文本.例如:具有良好容错性的网页分析工具Htm1Parser,分词软件有中国科学院计算机所研究室编写的ICTCLAS .

3)   主观性文本识别.利用事先建立好的语料数据库或分类器进行主客观文本识别,剔除一些不含情感元素的客观性文本,提高精确度.

4)   文本倾向性判别.针对提取的主观性文本,结合语料库,采用简单统计方法或基于机器学习或基于相关性分析的方法判断主观性文本的褒贬倾向.

四、文本倾向性分析的主要方法

4.1  基于语义的文本倾向性研究方法

  目前的方法主要是通过适当的词语提取和倾向计算,对倾向值进行简单统计求得文本的整体倾向度。

  A.先对待分析文本中的形容词或能够体现主观色彩的短语进行抽取,然后对抽取出来的形容词或短语逐一进行倾向性判断并赋予一个倾向值,最后将上述所有倾向值累加起来得到文章的总体文本倾向性。

  B.预先建立一个倾向性语义模式库,有时还会附带一个倾向性字典。然后将待估文档参照语义模式库做模式匹配,最后累加所有匹配模式对应的倾向性值从而得到整个文档的倾向性。

4.2 基于机器学习的文本倾向性研究方法

基于机器学习的文本倾向分类流程大致如下:先对文本倾向性进行人工标注,提取文本特征表示,并将其作为训练集,通过机器学习的方法构造分类器,待测文本可以通过分类器得到文本倾向性类别信息。常用的特征表示方法有:n-gram特征表示、评价词组特征表示和单个词语特征表示等。常用的特征提取方法有:MI、信息增益((IG ), CHI统计量(CH I)和文档频率(DF)等。常用的分类方法有:中心向量分类法、KNN分类法、感知器分类法、贝叶斯分类法、最大嫡分类法和支持向量机分类法等。

4.3 基于相关性的文本倾向性研究方法

       基于相似度的方法的基本思想与K-近邻方法类似,即利用K个已标记的样本点,通过样本之间的相似度,来对新的样本进行标记。基于相似度的方法采用语句间公共单词、短语的数量以及语义词典中的词语相似度来计算语句的语义相似度。

时间: 2024-08-11 05:43:41

(1)文本倾向性分析综述的相关文章

(5)【整合】基于机器学习的酒店评论文本倾向性分析

酒店评论情感分析系统(五)—— [整合]基于机器学习的酒店评论文本倾向性分析 本文主要是对之前的第三.四节所介绍的各分块进行整合. 流程: 对GUI界面输入的评论文本,先进行中文分词和去停用词,然后再按“环境,价格,卫生,服务”四个方面分类:同时通过调用LingPipe中的DynamicLMClassifier,对已标注的“中文情感挖掘酒店评论语料”库的学习,构造一个基本极性分析的分类器.最后用此分类器分别对整个评论文本给出总体评价和对四个方面分别给出相应的情感评价. 环境: 1. 操作系统:w

文本倾向性分析

package test; import java.sql.PreparedStatement; import java.sql.ResultSet; import java.sql.SQLException; import java.util.HashSet; import java.util.Iterator; import java.util.Set; import java.util.Vector; public class OpinionAnalyser { //倾向词表 public

主题模型及其在文本情感分析中的应用

随着Web2.0技术的出现和发展,互联网上(包括门户网站.电子商务网站.社交网站.音/视频分享网站.论坛.博客.微博等)产生了海量的.由用户发表的对于诸如人物.事件.产品等目标实体的评论信息.例如,下面这两个短文本评论:(1)“比较了多个智能手机后选择了8150,性价比还可以.另外,就是考虑到它是3.7的屏幕,大小比较合适,否则携带很不方便.”(京东商城用户,2011.11.25):(2)“我以前在杭州做二手房地产,用温州炒房客的话说:全世界房价降了,杭州的房价永远不会降,因为他们有一道坚不可摧

性能分析之-- JAVA Thread Dump 分析综述

性能分析之-- JAVA Thread Dump 分析综述 一.Thread Dump介绍 1.1什么是Thread Dump? Thread Dump是非常有用的诊断Java应用问题的工具.每一个Java虚拟机都有及时生成所有线程在某一点状态的thread-dump的能力,虽然各个 Java虚拟机打印的thread dump略有不同,但是大多都提供了当前活动线程的快照,及JVM中所有Java线程的堆栈跟踪信息,堆栈信息一般包含完整的类名及所执行的方法,如果可能的话还有源代码的行数. 1.2 T

LSTM 文本情感分析/序列分类 Keras

LSTM 文本情感分析/序列分类 Keras 请参考 http://spaces.ac.cn/archives/3414/ neg.xls是这样的 pos.xls是这样的neg=pd.read_excel('neg.xls',header=None,index=None) pos=pd.read_excel('pos.xls',header=None,index=None) #读取训练语料完毕 pos['mark']=1 neg['mark']=0 #给训练语料贴上标签 pn=pd.concat

python实例:三国演义TXT文本词频分析

0x00 前言 找不到要写什么东西了!今天有个潭州大牛讲师  说了个  文本词频分析 我基本上就照抄了一遍 中间遇到一些小小的问题 自我百度 填坑补全了  如下 : 效果演示 0x01   准备环境及介绍 python3.x版本   随意 安装jieba库 pip install jieba jieba三种模式: 1.精准模式 lcut函数,返回一个分词列表 2.全模式 3.搜索引擎模式 词频: <单词>:<出现次数>的键值对 IPO描述 imput output process

文本情感分析(一):基于词袋模型(VSM、LSA、n-gram)的文本表示

现在自然语言处理用深度学习做的比较多,我还没试过用传统的监督学习方法做分类器,比如SVM.Xgboost.随机森林,来训练模型.因此,用Kaggle上经典的电影评论情感分析题,来学习如何用传统机器学习方法解决分类问题. 通过这个情感分析的题目,我会整理做特征工程.参数调优和模型融合的方法,这一系列会有四篇文章.这篇文章整理文本特征工程的内容. 文本的特征工程主要包括数据清洗.特征构造.降维和特征选择等. 首先是数据清洗,比如去停用词.去非字母汉字的特殊字符.大写转小写.去掉html标签等. 然后

用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践

转自https://zhuanlan.zhihu.com/p/25928551 近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路.做法和部分实践的经验. 业务问题描述: 淘宝商品的一个典型的例子见下图,图中商品的标题是"夏装雪纺条纹短袖t恤女春半袖衣服夏天中长款大码胖mm显瘦上衣夏".淘宝网后台是通过树形的多层的类目体系管理商品的,覆盖叶子类目数量达上万个,商品量也

文本情感分析(二):基于word2vec和glove词向量的文本表示

上一篇博客用词袋模型,包括词频矩阵.Tf-Idf矩阵.LSA和n-gram构造文本特征,做了Kaggle上的电影评论情感分类题. 这篇博客还是关于文本特征工程的,用词嵌入的方法来构造文本特征,也就是用word2vec词向量和glove词向量进行文本表示,训练随机森林分类器. 一.训练word2vec词向量 Kaggle情感分析题给出了三个数据集,一个是带标签的训练集,共25000条评论,一个是测试集,无标签的,用来做预测并提交结果,这两个数据集是上一篇文章里我们用过的. 此外还有一个无标签的数据