微博情感分析(三)

接着上一篇的撒~

上一篇提到了微博的几个特点,下面继续说一下微博的第三个特点:

(3)表达情感强烈而理性评价淡化

由于传播空间的相对自由和匿名评论的相对隐秘,因而网友在表达观点时会采用一些比较极端和激烈的形式,又因微博字数的限制,无法以逻辑鲜明的论述方式进行理性表达,所以在话题型微博中,观点句的表达往往感情色彩强烈,而理性评价淡化,脏话、粗话等表现力强的不雅语汇大量出现,这也成为话题型微博观点句在表达情感和态度时一种较广泛的表达方式。

匿名评论是网络最大的市场之一。为什么社交网络这么流行?我认为很大一部分程度是因为我们可以没有太大顾忌的在网络上随便说点什么。现在的社会生活压力太大,很多人无法也不愿将自己的心里话随便说出来。所以匿名网络的出现直接满足了我们的需求。但是因为可以随意的说点什么,所以网络上就多了好多不该说而且又极端的内容。当然这是站在社会一员的角度来说的。反过来看,如果我们作为分析者来看的话,这种极端而又激烈的表达方式恰恰反映出了用户的真实情感。所谓情感的程度,就是情感的极端性,越富有情感色彩的话语,越会极端。比如:我爱你。很深刻的一句话,为什么?因为这句话完全表达了恋人之间的情感——我喜欢你到了极致。这就是一种极端。所以,虽然微博存在了字数限制,但是在网友强大的造词能力下,这个问题就不是问题了。

(4)口语色彩浓重,情感因子颗粒度加大

微博虽然用的是书面形式,但交际的实时性、互动性,使得它具有浓重的口语色彩,人们往往会使用一些口语化词语把自己内心的真实感受直接表达出来,体现句子观点的情感因子颗粒度加大,往往不再是词,而是短语。

这是在构建情感词典时所有考虑的问题了。情感词典只是针对于词汇,但对于口语等日常用语来讲,词并不完全是词,字并不完全是字,甚至句子都不完全是句子。比如:你几点吃饭?——再说吧。什么叫再说吧?什么再说吧?再怎么说吧?为什么要说吧?所以根本没法进行分词后进行判定。这个时候,建立一个包含最新词汇的情感短语字典就显得很重要了。

(5)隐晦表达观点

在话题型微博中,除了用一些很“给力”的词语明确表达观点外,人们还会采用一种隐晦的、非直接的方式,以言外之意表达观点。如:

<1>#食用油涨价#我可以说脏话吗?

这是一个疑问句,字面上看没有表达任何观点,然而在“食用油涨价”这一语境下,可以理解为说话者表达的是一种想用说脏话来发泄的冲动,因而也就间接地表达了对话题不满的情绪和贬斥的态度。

<2>#三亚春节宰客#当地的政府部门这么做的用意是什么? 掩耳盗铃? 越抹越黑? 还是让游客永远不去三亚? 应该去测测智商了!“

应该去测测智商”表达了说话者对“当地政府部门”的不满。

对这种问题分析,标签的作用就很大了。首先要分析出标签内容是否是消极的,然后去找评论中的消极词汇,如果评论根据算法得出是消极的,那么才是消极的。比如第一个,实用油涨价,对所有评论分析后得出这是个对大众消极的事件。而后评论者说他想说脏话,对谁说呢?对标签内容说。所以”对食用油涨价说脏话“这句话是一个消极的了。

(6)评价对象省略

由于话题型微博的话题标签与文本存在着密切的关联,网友在发布微博时,往往可以直接对整个话题或话题的某一部分进行评价和表达态度,因而标签或者标签的一部分甚至标签外事物也就成为了评价对象。所以,话题型微博的评价对象常在文本中省略,观点句更加短小精悍,甚至短小到一个短语、一个词,也可以被人理解,不会造成传播上的歧义。如:

<1>#菲军舰恶意撞击#抗议!

<2>#菲军舰恶意撞击#真可恶

上面这些观点句都缺省了评价对象,在表达评价时只用了极简短的话语,但读者仍然能够理解它们评价的对象:<1>的评价对象是整个标签“菲军舰恶意撞击”这件事,<2>是标签中的“菲军舰”。为什么我们理解这句话的意思?是因为标签。标签的作用在这里无所替代,第一句中,标签内容是宾语,第二句是主语。也就是:抗议菲军舰恶意撞击、菲军舰恶意撞击真可恶。

(7)语言不够规范

微博中含有大量非规范性的语言文字,也是话题型微博语言的一个特点。这种非规范性可能有几个方面的原因:一方面,是非人为的原因造成的输入失误或常识上的汉字书写错误;另一方面,微博表达自由,加之敏感话题在法律上的限制,会人为地加入一些噪声、非规范词、非规范符号和非规范语言格式。例如:

<1>#疯狂的大葱#找点空闲,找点时间! 带着钱包常去 http://***********淘宝小店去看看!

<2>#假和尚搂女子#真TM不要 Face。

例<1>加入网站链接等噪声;例<2>中英文混用,TM 是“他妈”的拼音缩写,不要 Face 是“不要脸”;

这也是我们大多数网友的习惯了,我认为这是一件好事,说话真的未必非要局限于一种语言。每一种语言都有自己的特点,很有可能一种语言能表达出其他语言所表达不出的含义,甚至两种语言结合也可能会表达出完全不同的含义。比如第二句虽然与“真他妈不要脸”的语义完全相同,但表达的程度是不一样的。第二句中加入了英文,反映了作者并不想出口脏话,但是“假和尚搂女子”这件事情引起了评论者的强烈不满,既能表达情感,又不想说脏话,这就是两种语言相结合的结果。

时间: 2024-10-12 20:48:26

微博情感分析(三)的相关文章

微博情感分析(一)

话说微博面世已经很久了,但对于微博信息的挖掘却才刚刚起步,这其中的原因当然有信息挖掘的技术还不成熟,但我觉得主要问题还是在于中文信息处理的技术还处于萌芽的阶段.中文语言本身信息量就很大,歧义性词汇多,再加上微博语言语义不整.微博媒介本体中夹杂着大量的标签,导致微博技术发展缓慢.在现在的网络上,用户通过网络主动地表达自己的观点或对其他人或事件的态度,主观性强:微博载体规定的语言只有140字,使信息在微博中呈现出碎片化.即时化和移动化的特性,而不再是具有完整的上下文信息.通过微博自由.便捷.即时地抒

思路总结-----对微博情感分析的的挖掘

一朋友由于工作需要,准备对新浪微博进行相关的抓取挖掘.特别是情感分析这一块,便于他后期的实验实践.实际上,文本挖掘及分析在未来都会产生较大的效果.举一个简单的例子,现在地铁里的每个人每天都会去刷新自己的人人好友圈,微信好友消息.而这些消息大部分是基于文本的.如何对这些原始的消息进行挖掘.进而为相应的精准营销做准备.在以后的营销中将会产生重大效果. 原始数据 这一部分的内容,我们可以通过爬虫技术来抓取.通过聚类算法,找到相同话题的所有微博.然后拿来做为原始数据.还有就是用户好友圈内的评价消息,还有

微博情感分析(二)

上一篇提到了情感分析几个疑问,也许这些疑问可以给大家带来些启发,不过在研究这些疑问之前,我们还是需要详细了解一下微博的特征是怎么样的,会不会对我们对其进行情感分析产生影响. 除了一些很牛X的人,其实大多数的微博用户都是草根,甚至像笔者一样,草根都算不上,只是个小屌丝~微博的主人很少有用真名字的,大都是网名,由于是虚拟化的环境,所以发表意见可以无所顾忌:微博的传播往往是蒲公英式的,也就是一个微博主发出一条引人瞩目的微博,就会形成一个主题,体现为标签,其他的微博会围绕这个主题发表意见,下一轮微博还可

微博情感分析

每个文本文件包含相对应类的数据(0:喜悦1:愤怒2:厌恶3:低落对应不同类别的感情) 文本读取 用均值的方差,在高斯分布里面计算某个词的概率. 对文本特征进行提取,提取词频. 通过词频在各种词频目录里面进行匹配. 对模型的准确率的预测. main.py 1 # -*- coding: utf-8 -*- 2 import os 3 import pandas as pd 4 import nltk 5 from tools import proc_text, split_train_test,

主题模型及其在文本情感分析中的应用

随着Web2.0技术的出现和发展,互联网上(包括门户网站.电子商务网站.社交网站.音/视频分享网站.论坛.博客.微博等)产生了海量的.由用户发表的对于诸如人物.事件.产品等目标实体的评论信息.例如,下面这两个短文本评论:(1)“比较了多个智能手机后选择了8150,性价比还可以.另外,就是考虑到它是3.7的屏幕,大小比较合适,否则携带很不方便.”(京东商城用户,2011.11.25):(2)“我以前在杭州做二手房地产,用温州炒房客的话说:全世界房价降了,杭州的房价永远不会降,因为他们有一道坚不可摧

短文本情感分析

一.什么是情感分析: 情感分析(SA)又称为倾向性分析和意见挖掘,它是对带有情感色彩的主观性文本进行分析.处理.归纳和推理的过程,其中情感分析还可以细分为情感极性(倾向)分析,情感程度分析,主客观分析等. 情感极性分析的目的是对文本进行褒义.贬义.中性的进行判断. 情感程度分析主要是对同一情感极性中再进行划分或者细分,以描述该极性的强度.例如"喜爱"和"敬爱"都是褒义词,但是"敬爱"相对来说褒义的程度更加强烈一些. 主客观分析主要目的是识别文本中

使用Spark MLlib进行情感分析

使用Spark MLlib进行情感分析 使用Spark MLlib进行情感分析 一.实验说明 在当今这个互联网时代,人们对于各种事情的舆论观点都散布在各种社交网络平台或新闻提要中.我们可以在移动设备或是个人PC上轻松地发布自己的观点.对于这种网上海量分布地数据,我们可以利用文本分析来挖掘各种观点.如下图中,CognoviLabs利用Twitter上人们发布对于美国大选两个候选人的推特,进行情感分析的结果.从这张图我们也可以直观地感受到民意所向(此图发表日期为10月10日,早于今年美国大选的日子)

自然语言11_情感分析

http://blog.csdn.net/erli11/article/details/23918751 斯坦福大学自然语言处理第七课"情感分析(Sentiment Analysis)" 转自:52opencourse.com/ http://52opencourse.com/235/%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E7

文本情感分析的基础在于自然语言处理、情感词典、机器学习方法等内容。以下是我总结的一些资源。

词典资源:SentiWordNet<知网>中文版中文情感极性词典 NTUSD情感词汇本体下载 自然语言处理工具和平台:哈尔滨工业大学社会计算与信息检索研究中心isnowfy/snownlp · GitHub 汉语分词:自然语言处理与信息检索共享平台 NLPIR.orgfxsjy/jieba · GitHub 语料资源:信息分类与情感发现 课程:斯坦福大学自然语言处理第七课"情感分析(Sentiment Analysis)" 网站和博客:Text Classification