基于社交网络的情绪化分析II

基于社交网络的情绪化分析II

By 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢。

上一篇进行了微博数据的抓取,这一篇进行数据的处理介绍。


无意义微博的定义

观察发现微博中有很多的微博是用户参与某些活动而转发的微博,比如:“SmashHit,作者:MediocreAB。推荐!“http://t.cn/8Fkgg9k”;“刚刚下载了豆丁文档:项目公司运营简报模板“http://t.cn/RPjFZKf”;“#张亮的红包#红包最暖心~[心]我在张亮Sean的红包中抽到了@快的打车提供的“快的打车6元红包”,快来试试手气,你与幸福之间只有一个红包的距离!“http://t.cn/RZg7iXL”。

将这些微博定义为无意义微博。并通过一个简单的处理,判断其是否为无意义微博,并计算该类微博在整个微博里的比重。

简单的判断

通过上面给的例子,我们可以看出这类微博多半具有两个特征:

  • 带有链接,如:“http://t.cn/RPjFZKf
  • 带有特定关键字,如:“推荐”,“红包”,“专享”,“交友”等

借助这些特征,我设计了一个简单的判断。思路大致为:首先对微博进行分词,获取该微博中TF-IDF权重最大的几个关键词,如果这几个关键词中含有上述的几个特征,那么就将这个微博定义为无意义微博。(当然也判断分词后的所有词中是否包含这些特征)

注:这里分词使用的是结巴分词

伪码如下:

# 定义了一组无意义的关键词组
malWords =[u‘红包‘, u‘领取‘, u‘点击‘, u‘专享‘, u‘加号‘, u‘交友‘, u’http‘]
# 分词得到8个权值最大的词组
tags = jieba.analyse.extract_tags(content, 8, False)
# 集合判断两个集合是否重复,若有即包含无意义词组,该微博定义为无意义微博
myset = set(malWords) & set(tags)
is_meaningful = 1 if myset.__len__() == 0 else 0

结果

这里使用了matplotlib模块进行了饼状图显示,如图:

上图表示的是大工的微博情况。

然后所有学校的数据处理结果如下表格所示:

学校名称 有意义的微博 无意义的微博
大连理工大学 80.0% 20.0%
清华大学 79.0% 21.0%
北京大学 78.0% 22.0%
南京大学 79.0% 21.0%
华东政法大学 83.0% 17.0%

从上表可以看出,这五个学校所发微博中,有意义的微博所占的比例大致相当,约占80.0%左右,其中华东政法大学的比例最高,达到了83.0%,北京大学所占据的比例最低,占了78.0%。

相关代码链接:

总结

这里使用的判定方式过于简单,存在漏判和错误的情况,但是能够判断出大多数的无意义微博。

下一篇,微博的相似度分析。

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-08-07 13:05:16

基于社交网络的情绪化分析II的相关文章

基于社交网络的情绪化分析IV

基于社交网络的情绪化分析IV By 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢. 前面进行了微博数据的抓取,简单的处理,相似度分析,后面两篇进行学校微博的情感分析. 微博情感分析 这里试图通过字典分析的方式计算学校微博的情感倾向,主要分为积极情感,消极情感,客观. 这里字典分析的情感分析和机器学习方式进行情感分析均参考rzcoding的博客,这里只是根据他的思路和代码改装成了微博的情感分析. 字典分析 字典分析的原理是,给定一句微博,判断这句

基于社交网络的情绪化分析III

基于社交网络的情绪化分析III By 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢. 前面进行了微博数据的抓取,简单的处理,这一篇进行学校微博的相似度分析. 微博相似度分析 这里试图计算任意两个学校之间的微博用词的相似度. 思路:首先对学校微博进行分词,遍历获取每个学校的高频用词词典,组建用词基向量,使用该基向量构建每个学校的用词向量,最后使用TF-IDF算法和余弦函数计算两个学校微博之间的相似度. 注:TF-IDF算法和余弦函数使用可以参照我

团队项目推荐:基于社交网络的自动音乐推荐系统——by ZhongXia

来到微软亚洲研究院不知不觉已近两个月,大家都在慢慢适应这紧凑的研究氛围,常听师兄提及的高级软件工程(ASE)也如期开始.上周课后我们完成了组队,而经过初步的调研与思考,我推荐“基于社交网络的自动音乐推荐系统”作为我们团队项目的题目. 音乐是我们生活中重要的一部分,工作中,我们可能需要轻音乐让自己静下心来保持专注:下班后,我们可能需要舒缓的音乐全方位的放松身心.开心时,我们乐于听到一些欢快的乐曲:悲伤时,我们可能需要一些悲伤之音宣泄自己:低潮时,我们想用激昂的声音振奋自己.可见,一个人所处的状态和

基于tiny210的barebox分析(二)

代码分析 在上一篇文章中,我们已经对barebox的编译.烧写和运行有了一个大致的了解, 现在我们就要开始学习代码了. arch/arm/cpu/start.c line126 void __naked __section(.text_entry) start(void) { barebox_arm_head(); } 一般的bootloader都会以一个汇编文件作为起始,但是barebox没有这样. 这个c函数作为了整个iamge的入口,关键是__section(.text_entry)和ld

基于Qt的信号分析简单应用软件的设计

一.需求描述: 1.读取data.asc文件,分析其连续性: 2.绘制信号图像,并保存. 二.UI界面组成: 该应用的UI由以下几个控件组成: 3个PushButton:打开文件.图像保存.退出: 1个Combox:下拉框用于信号的选择: 1个Widget:用于确定绘图区域的坐标,并在Widget部件上绘制图像曲线. 3个Label:用于标注注释,及坐标轴 三.主要功能的实现 信号分析结果如下: 其中最主要的涉及信号数据的标准化处理,标准化处理计算公式: std=(当前信号值-此类信号的最小值)

转:基于内容的视频分析与检索

摘要 文章简要介绍了从基于内容的视频分析与检索问题的提出到所涉及的关键技术以及目前研究状况,并简要介绍了现阶段在这方面的研究热点及以后要做的工作. 一.问题的提出: 互联网的出现给人类带来了很大的便利,特别是实现资源共享之后的互联网,但面对这浩如烟海的资源到底哪些是对自己有利用价值的呢?而90年代以来,多媒体技术和网络技术的突飞猛进,人们正快速的进入一个信息化社会.现代技术已能运用各种手段采集和生产大量各种类型的多媒体信息数据,出现了数字图书馆.数字博物馆.数字电影.可视电话.交互电视.会议电视

基于SQL的日志分析工具myselect

基本介绍 程序开发人员经常要分析程序日志,包括自己打印的日志及使用的其它软件打印的日志,如php,nginx日志等,linux环境下分析日志有一些内置命令可以使用,如grep,sort,uniq,awk等,其中最强大的是awk,是作为一门小巧的文本处理语言存在的,但由于它是一门语言,功能强大,但在命令行下使用并不那么方便,因为awk是面向计算而不是面向统计的.awk可以定义变量,可以进行计算,命令行下就是一个包含隐式for循环的语言. awk如果很长时间不用,它的一些语法就忘了,要分析线上日志时

VSTO学习笔记(七)基于WPF的Excel分析、转换小程序

原文:VSTO学习笔记(七)基于WPF的Excel分析.转换小程序 近期因为工作的需要,要批量处理Excel文件,于是写了一个小程序,来提升工作效率. 小程序的功能是对Excel进行一些分析.验证,然后进行转换. 概述 小程序主界面如下: 首先选择一个日期和类别,从命名上对待分析的Excel文件进行过滤.点击[浏览]选择待分析的Excel文件所在的目录, 程序中会获取所有子目录.然后点击[执行分析]就会按照左边CheckBox中的选择进行分析,分析结果显示在每一行中间.[修改配置]可以对分析规则

基于tiny210的barebox分析(一)

barebox是一个bootloader,虽然不如uboot那么出名,但是相对uboot风格上更像linux kernel,而且相对简单,更有利于我们对启动做一个详细深入的学习. 全文分析的barebox的版本是barebox-2014.05.0 编译 首先是下载并解压barebox-2014.05.0, 默认这个版本就对tiny210有不错的支持,我们只需要用下面这些命令就可以了 export ARCH=arm export CROSS_COMPILE=/home/panzhenjie/too