基于社交网络的情绪化分析IV

基于社交网络的情绪化分析IV

By 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢。

前面进行了微博数据的抓取,简单的处理,相似度分析,后面两篇进行学校微博的情感分析。


微博情感分析

这里试图通过字典分析的方式计算学校微博的情感倾向,主要分为积极情感,消极情感,客观。

这里字典分析的情感分析和机器学习方式进行情感分析均参考rzcoding的博客,这里只是根据他的思路和代码改装成了微博的情感分析。

字典分析

字典分析的原理是,给定一句微博,判断这句微博中是否出现过积极或者消极的情感词,如果出现,那么寻找修饰该情感词的程度副词,然后依据定义的规则计算积极和消极情感分值。

字典分析结果

使用了matplotlib模块进行结果的显示。

图表示字典分析dlut(大连理工大学)的一个用户的情感分析结果,其中红色表示积极的值(依次为总值,均值,方差),绿色表示消极的值(依次为总值,均值,方差)

字典分析所有学校的结果。

学校名称 积极的微博 消极的微博 客观的微博
大连理工大学 32.7% 25.5% 41.8%
清华大学 32.8% 23.6% 43.7%
北京大学 33.9% 24.0% 42.1%
南京大学 31.2% 25.6% 43.3%
华东政法大学 32.4% 29.0% 38.6%

从上表可以看出,一个学校所发的微博积极的微博数目较大于消极的微博数目,积极的微博比例一般在32%左右,而消极的微博一般在24%左右。忽略掉客观的微博,那么积极的微博和消极微博数目比例大体在1:1的水平上。

机器学习

利用机器学习的方法对微博进行情感分析,即使用相关监督的学习算法,如贝叶斯算法,使用标注的情感文本进行学习,训练得到分类器,最后使用该分类器进行情感分类并进行图形化显示。

具体步骤为:首先手工标注微博,以积极,消极和客观三种状态来标识。接着,使用所有词,双词和卡方统计等方式获取词的特征,然后,使用多种机器学习模型进行训练,筛选得到最佳精度的分类器,最后,使用该分类器进行微博的情感分类,如:如果积极的情感概率则为积极微博。

机器学习分析结果

机器学习分析所有学校的结果。

学校名称 积极的微博 消极的微博 客观的微博
大连理工大学 12.6% 28.4% 59.0%
清华大学 8.7% 20.3% 70.9%
北京大学 8.5% 19.0% 72.6%
南京大学 9.8% 23.6% 66.6%
华东政法大学 11.9% 30.6% 57.4%

这里的结果与用词典分析的结果不太一样,在词典分析中,用户发的积极的微博数目大于消极的微博数目,而这里,五所大学中,所有的学校所发的积极的微博比例均小于消极的微博,积极微博大概占到10%左右,消极的微博约占到22%左右,客观的微博占到65%左右。除去客观的微博,积极微博和消极的微博的比例大体相当于1:2。实验中分类器的准确度达到70%。

影响实验结果的因素:其一,该结果是基于分类器得出的结果,而分类器又是基于标注的微博数据,所以,自己标注的微博数据会对分类器的判定有着一定的影响;其二,由于中文语义丰富,在不同的语境下有着不同的含义,这样会导致分类器的判别有一定的难度从而造成相关的误差。

相关代码链接

总结

本次毕设研究的主题为分析和了解不同的群体在社交网络上是如何表达情绪的及其表达情绪的倾向。为此,本研究设计并实施了一整套从数据抓取到分析的流程,设计了爬虫去抓取数据,设计了相应的算法去分析和统计和处理数据。最终,本研究做到了在一定层面上展现了社交网络用数据的特性,不同群体用词的差异性,也给出了在社交网络上不同的群体是如何表达情绪及其倾向这一问题的解答。

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-09 06:38:32

基于社交网络的情绪化分析IV的相关文章

基于社交网络的情绪化分析II

基于社交网络的情绪化分析II By 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢. 上一篇进行了微博数据的抓取,这一篇进行数据的处理介绍. 无意义微博的定义 观察发现微博中有很多的微博是用户参与某些活动而转发的微博,比如:"SmashHit,作者:MediocreAB.推荐!"http://t.cn/8Fkgg9k":"刚刚下载了豆丁文档:项目公司运营简报模板"http://t.cn/RPjFZKf&qu

基于社交网络的情绪化分析III

基于社交网络的情绪化分析III By 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢. 前面进行了微博数据的抓取,简单的处理,这一篇进行学校微博的相似度分析. 微博相似度分析 这里试图计算任意两个学校之间的微博用词的相似度. 思路:首先对学校微博进行分词,遍历获取每个学校的高频用词词典,组建用词基向量,使用该基向量构建每个学校的用词向量,最后使用TF-IDF算法和余弦函数计算两个学校微博之间的相似度. 注:TF-IDF算法和余弦函数使用可以参照我

团队项目推荐:基于社交网络的自动音乐推荐系统——by ZhongXia

来到微软亚洲研究院不知不觉已近两个月,大家都在慢慢适应这紧凑的研究氛围,常听师兄提及的高级软件工程(ASE)也如期开始.上周课后我们完成了组队,而经过初步的调研与思考,我推荐“基于社交网络的自动音乐推荐系统”作为我们团队项目的题目. 音乐是我们生活中重要的一部分,工作中,我们可能需要轻音乐让自己静下心来保持专注:下班后,我们可能需要舒缓的音乐全方位的放松身心.开心时,我们乐于听到一些欢快的乐曲:悲伤时,我们可能需要一些悲伤之音宣泄自己:低潮时,我们想用激昂的声音振奋自己.可见,一个人所处的状态和

基于tiny210的barebox分析(二)

代码分析 在上一篇文章中,我们已经对barebox的编译.烧写和运行有了一个大致的了解, 现在我们就要开始学习代码了. arch/arm/cpu/start.c line126 void __naked __section(.text_entry) start(void) { barebox_arm_head(); } 一般的bootloader都会以一个汇编文件作为起始,但是barebox没有这样. 这个c函数作为了整个iamge的入口,关键是__section(.text_entry)和ld

基于Qt的信号分析简单应用软件的设计

一.需求描述: 1.读取data.asc文件,分析其连续性: 2.绘制信号图像,并保存. 二.UI界面组成: 该应用的UI由以下几个控件组成: 3个PushButton:打开文件.图像保存.退出: 1个Combox:下拉框用于信号的选择: 1个Widget:用于确定绘图区域的坐标,并在Widget部件上绘制图像曲线. 3个Label:用于标注注释,及坐标轴 三.主要功能的实现 信号分析结果如下: 其中最主要的涉及信号数据的标准化处理,标准化处理计算公式: std=(当前信号值-此类信号的最小值)

转:基于内容的视频分析与检索

摘要 文章简要介绍了从基于内容的视频分析与检索问题的提出到所涉及的关键技术以及目前研究状况,并简要介绍了现阶段在这方面的研究热点及以后要做的工作. 一.问题的提出: 互联网的出现给人类带来了很大的便利,特别是实现资源共享之后的互联网,但面对这浩如烟海的资源到底哪些是对自己有利用价值的呢?而90年代以来,多媒体技术和网络技术的突飞猛进,人们正快速的进入一个信息化社会.现代技术已能运用各种手段采集和生产大量各种类型的多媒体信息数据,出现了数字图书馆.数字博物馆.数字电影.可视电话.交互电视.会议电视

基于SQL的日志分析工具myselect

基本介绍 程序开发人员经常要分析程序日志,包括自己打印的日志及使用的其它软件打印的日志,如php,nginx日志等,linux环境下分析日志有一些内置命令可以使用,如grep,sort,uniq,awk等,其中最强大的是awk,是作为一门小巧的文本处理语言存在的,但由于它是一门语言,功能强大,但在命令行下使用并不那么方便,因为awk是面向计算而不是面向统计的.awk可以定义变量,可以进行计算,命令行下就是一个包含隐式for循环的语言. awk如果很长时间不用,它的一些语法就忘了,要分析线上日志时

VSTO学习笔记(七)基于WPF的Excel分析、转换小程序

原文:VSTO学习笔记(七)基于WPF的Excel分析.转换小程序 近期因为工作的需要,要批量处理Excel文件,于是写了一个小程序,来提升工作效率. 小程序的功能是对Excel进行一些分析.验证,然后进行转换. 概述 小程序主界面如下: 首先选择一个日期和类别,从命名上对待分析的Excel文件进行过滤.点击[浏览]选择待分析的Excel文件所在的目录, 程序中会获取所有子目录.然后点击[执行分析]就会按照左边CheckBox中的选择进行分析,分析结果显示在每一行中间.[修改配置]可以对分析规则

基于tiny210的barebox分析(一)

barebox是一个bootloader,虽然不如uboot那么出名,但是相对uboot风格上更像linux kernel,而且相对简单,更有利于我们对启动做一个详细深入的学习. 全文分析的barebox的版本是barebox-2014.05.0 编译 首先是下载并解压barebox-2014.05.0, 默认这个版本就对tiny210有不错的支持,我们只需要用下面这些命令就可以了 export ARCH=arm export CROSS_COMPILE=/home/panzhenjie/too