论文阅读 | CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data

CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data

论文地址

1 Abstract

这是一个可以预测未来一段时间内所发生事情的可视化系统,使用的是twitter数据进行分析。

2 Introduction

识别一个未来的事件并不可以依靠消息量的突增来判断(一般一个很大的事件的到来会引发交际圈的热烈讨论),一个未来时间的发生并不一定可以激发消息量的增加。识别未来事件的挑战在于筛选大量社交媒体数据,并识别埋在关于过去和正在进行的事件,个人状态更新等的压倒性信息中的小信号。

作者看来,未来事件的定义是"与将来的位置和日期/时间(跨度)相关联的事件。 这种情况的特点是地点和时间,通常与特定主题和社交网络相关联。" 位置和时间是定义未来事件的主要属性

通过这个系统。我们既可以发现各种未来事件,也可以对特定的时间地点进行重点调查。

3 Related Work

未来事件提取可视化交互是两个主要的方面

4 System overview and pipeline

CrystalBall集成了多个组件,包括来自Twitter Streaming API ,实体提取,未来事件标识 和排名以及交互式可视化界面。 所有的数据收集和分析都是在线进行的。接口每天刷新以显示未来几天或几周内可能发生的事件的结果。

5 CrystalBall: future event identifiction and characterization

(如何处理数据)

因为未来数据在所有的数据占比小,怎么提取是个问题

NPMI得到了位置和时间之间的相关性,相比PMI,将其正则化到1和-1之间。

除了上面所说到的NPMI,还有一些其他特征,这些其他属性包括

链接和比例,我们衡量包含链接的推文与所有与可能的未来事件相关的推文的比例

主题标签比例。同样,我们测量与一个可能的未来事件相关的推文的标签比率

用户可信度,我们选择一个简单的度量,即Twitter追随者朋友(TFF)比率来表示用户的可信度。TFF是追随者与朋友的比率。 1.0到2.0之间的比率表示用户具有平衡的跟随/跟随者关系

用户多样性,如果关于一个潜在的未来事件的所有推文都来自一个账户,那么这些推文很可能来自被编程为定期发送某些推文的机器人。

除此之外有些信息并不包括完整的信息,比方说纽约在4.3会有一场音乐会,但是推文里只会提到“我将在4月3日访问我在纽约的朋友”,其实可能是和朋友一起看音乐会。所以我们可以设计一些关于相似推文的内容。

中心性。高度连接的推特网络将具有接近1的程度中心性,而分散的推特网络产生接近于0的中心性。

推特相似性。但是并不是所有推文都有@和转发相关联。所以我们还计算了每篇推文的相似性

我们已经提出了确定可能的未来事件(NPMI)的措施,以及六个额外措施来描述事件的特征。下一步是结合这些措施来评估已确定的未来事件的质量。我们希望对事件进行排名,以便CrystalBall首先直观地表示高质量的事件。

我们使用RankSVM进行排序。为了训练RankSVM,我们开发了一个标签数据集,其中包含三天内提取的未来事件(约1000个事件)。我们为表2列出的事件定义了5个类别。标注决定表明我们重视地缘政治和基层性质的事件。

五位编码者独立完成了1000次提取的未来事件,并使用上述分类对事件进行了排名。然后,我们使用标记的数据集来训练RankSVM,并开发了一个可应用于无标签事件排序的模型。在CrystalBall可视化界面中,事件列表视图中每天显示的事件顺序(如图3所示)反映了RankSVM的结果。

5 CrystalBall: Visual Interface(可视化分析)

按时间检索

日期纵览

我们从整个时间轴进行查看

上图是未来事件的总揽,首先每行该日期所发生的事件,实线连接的是有相同的地点的事件。虚线连接的是具有同样的关键词的事件。

每个事件都有自己的颜色,颜色代表整个事件的感情属性,而颜色的深浅表达了置信度。

单个日期查看

我们也可以查看一天的信息

A图,花瓣的红色占比代表了这个指标的大小,中间的数字是该日共有几个未来事件。

B图中,1表是每个时刻的时间数,2表是近30天内将会发生的相似事件,3表是按照感情属性分类的结果。

C图中,未来事件中的关键词。

D按钮可以用来收藏

按地点检索

A图中可以放缩不同尺寸的地点,中间的数字表示的是事件数,不同深浅表达了在不同时间点内的事件。

B图中当我们点击华盛顿图表,就会跳出所有事件的映像。

上图词云显示的是当前区域当中过的关键词

上图这种模式下,每个节点代表一个事件,节点之间的链接表示两个事件共享相同的位置和时间。节点中的数字表示事件的推文数量。

上图每个点是一个用户,颜色代表了TTF比例,越深代表跟随者越多。聚集在一起表示同样的时间地点。点击这个区域,所有这块有的词语都会被标红

可视化系统的互动方式有 按照 时间,地点,关键词,类型

7 Case Study

上面介绍了一件北卡罗来纳州夏洛特市2016年9月抗议活动有关的一周活动。图1中的实现代表了三个有同样的地点的事物,分析这个时间线,可以发现这个时间线中有很多关于抗议的关键词。关注9.24一天,可以发现很多人的情绪都转变为恐慌,愤怒。与此同时一个有趣的现象就是大家的视线都转向了trump的一篇推文(最右边的一张图)。

该系统还可以搜索潜在的用户。用户通过关键词(爱国的欧洲人反对西方的伊斯兰化)搜索,可以非常详细的认识一个活动的开始,组织,和最后收到大家的报道。

8 Validation studies

我们希望通过我们的系统预测于2011年9月17日在纽约市开始的占领运动。CrystalBall分析了大约123,000条推文,其中根据我们的初步数据分析,只有120条推文包含标签“占据”。但是CrystalBall可以找到这些蛛丝马迹。下图显示了这个寻找的过程。

随着事件的组织,CrystalBall可以识别早期信号。用户从事件日历视图开始,发现了一系列的选举后事件。在确定了多个大型全球地点(例如印度,英国,加拿大,伦敦,以色列)后,她发现跨越多个日期的“华盛顿”。选择那个地点后,她在就职典礼日(1月20日)之前发现了多个未成年人事件。描述未来事件的关键词包括“million womenmarch”,“washton”,“1月”等。查看与这些事件有关的推文显示3月份的妇女组织活动在选举后不久发生。

9 Limitation

  • 使用 时间-地点 组合进行编码,比较局限。
  • 识别未来事件错误,关于过去事件的新闻头条的推文可能会被错误地视为未来事件,而且很多转发是在很多天之后才收到转发。
  • 时间位置的提取算法还是不准确

10 Future Work

处理多个数据源的流量(fb, ins, wiki, google),新的nlp算法

原文地址:https://www.cnblogs.com/Basasuya/p/9058033.html

时间: 2024-10-05 12:35:07

论文阅读 | CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data的相关文章

Google File System 论文阅读笔记

核心目标:Google File System是一个面向密集应用的,可伸缩的大规模分布式文件系统.GFS运行在廉价的设备上,提供给了灾难冗余的能力,为大量客户机提供了高性能的服务. 1.一系列前提 GFS的系统构建针对其自身使用的特点在传统的分布式系统的基础上又进行了一些创新,基于的前提假设主要包括以下方面: 1.由于系统由廉价的商用机构成,组件失效被认为是一种常态,系统必须可以持续监控自身的状态. 2.系统存储以大文件为主,小文件也支持,但是没有进行特别的优化处理. 3.系统的工作负载主要包含

论文阅读方法

论文阅读方法 别先读摘要,从导言部分入手 找出大问题 这个领域正在设法解决什么问题? 以不超过5句话的篇幅总结背景 为解决这一"大问题",这一领域做过什么努力?之前的工作有什么局限?在作者看来,下一步需要做什么?简洁地解释为什么要进行这项研究. 找出具体问题 作者在他们的研究中究竟想回答什么问题?把这些问题(不一定是一个)写下来.如果是那种研究一个或者多个零假设的研究,把零假设辨别出来. 弄清解决手段 为了回答这些具体的问题,作者要怎么做? 阅读方法部分 为每一个实验画出一个图表,画出

深度学习论文阅读笔记--Deep Learning Face Representation from Predicting 10,000 Classes

来自:CVPR 2014   作者:Yi Sun ,Xiaogang Wang,Xiaoao Tang 题目:Deep Learning Face Representation from Predicting 10,000 Classes 主要内容:通过深度学习来进行图像高级特征表示(DeepID),进而进行人脸的分类. 优点:在人脸验证上面做,可以很好的扩展到其他的应用,并且夸数据库有效性:在数据库中的类别越多时,其泛化能力越强,特征比较少,不像其他特征好几K甚至上M,好的泛化能力+不过拟合于

论文阅读--Scalable Object Detection using Deep Neural Networks

Scalable Object Detection using Deep Neural Networks 作者: Dumitru Erhan, Christian Szegedy, Alexander Toshev, and Dragomir Anguelov 引用: Erhan, Dumitru, et al. "Scalable object detection using deep neural networks." Proceedings of the IEEE Confere

论文阅读记录: Automatic Image Colorization sig16

sig论文阅读记录 Let there be Color!: Joint End-to-end Learning of Global and Local Image Priorsfor Automatic Image Colorization with Simultaneous Classification ( siggraph 2016 ) 论文简介 论文主页:http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/en/ 作者是来自Wa

论文阅读 | FCOS: Fully Convolutional One-Stage Object Detection

论文阅读——FCOS: Fully Convolutional One-Stage Object Detection 概述 目前anchor-free大热,从DenseBoxes到CornerNet.ExtremeNet,以及最近的FSAF.FoveaBox,避免了复杂的超参数设计,而且具有很好的检测效果.本文作者提出了一种全卷积的单阶段目标检测算法,类似于语义分割的做法使用像素级预测.该检测框架简单有效,而且可以方便地用于其他任务. 简介 再啰嗦一下基于anchor的检测算法的缺陷: 1.检测

论文阅读:Adaptive NMS: Refining Pedestrian Detection in a Crowd

论文阅读:Adaptive NMS: Refining Pedestrian Detection in a Crowd 2019年04月11日 23:08:02 Kivee123 阅读数 836 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/qq_37014750/article/details/89222334 Adaptive-NMS(CVPR 2019) 文章  又是一篇在NMS上

论文阅读:《Bag of Tricks for Efficient Text Classification》

论文阅读:<Bag of Tricks for Efficient Text Classification> 2018-04-25 11:22:29 卓寿杰_SoulJoy 阅读数 954更多 分类专栏: 深度学习 自然语言处理 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/u011239443/article/details/80076720 https://blog.csdn.ne

论文阅读与模型复现——HAN

论文阅读论文链接:https://arxiv.org/pdf/1903.07293.pdf tensorflow版代码Github链接:https://github.com/Jhy1993/HAN 介绍视频:https://www.bilibili.com/video/av53418944/ 参考博客:https://blog.csdn.net/yyl424525/article/details/103804574 文中提出了一种新的基于注意力机制的异质图神经网络 Heterogeneous G