R语言对推特数据进行文本情感分析

美国调查公司盖洛普公司(Gallup poll found)民调显示,至少51%美国人不赞同总统特朗普的政策。据外媒报道,特朗普上任8天以来引发51%美国人的不满,42%美国人赞同新总统的政策。该项调查共有1500名成年美国人,误差为3%。

为了验证美国民众的不满情绪,我们以R语言抓取的特朗普推特数据为例,对数据进行文本挖掘,进一步进行情感分析,从而得到很多有趣的信息。

找到推特来源是苹果手机或者安卓手机的样本,清理掉其他来源的样本

tweets <-trump_tweets_df>%select(id, statusSource, text, created) %>%extract(statusSource, "source", "Twitter for (.*?)<")>%filter(source %in%c("iPhone", "Android"))对数据进行可视化计算不同时间,对应的推特比例.

并且对比安卓手机和苹果手机上的推特数量的区别

从对比图中我们可以发现,安卓手机和苹果手机发布推特的时间有显著的差别,安卓手机倾向于在5点到10点之间发布推特,而苹果手机一般在10点到20,点左右发布推特.同时我们也可以看到,安卓手机发布推特数量的比例要高于苹果手机

然后查看推特中是否含有引用 ,并且对比不同平台上的数量

ggplot(aes(source, n, fill = quoted)) +geom_bar(stat ="identity", position ="dodge") +labs(x ="", y ="Number of tweets", fill ="") +ggtitle(‘Whether tweets start with a quotation mark (")‘)

从对比的结果来看,安卓手机,没有引用的比例要明显低于苹果手机。而安卓手机应用的数量要明显大于苹果手机。因此可以认为,苹果手机发的推特内容大多为原创,而安卓手机大多为应用内

然后查看推特中是否有链接或者图片,并且对比不同平台的情况

ggplot(tweet_picture_counts, aes(source, n, fill = picture)) +geom_bar(stat ="identity", position ="dodge") +labs(x ="", y ="Number of tweets", fill ="")

从上面的对比图中,我们可以看到安卓手机没有图片或者链接的情况要多与苹果,也就是说,使用苹果手机的用户在发推特的时候一般会发布照片或者链接

同时可以看到安卓平台的用户把推特一般不使用图片或者链接,而苹果手机的用户恰恰相反

spr <-tweet_picture_counts>%spread(source, n) %>%mutate_each(funs(. /sum(.)), Android, iPhone)rr <-spr$iPhone[2] /spr$Android[2]

然后我们对推特中的异常字符进行检测,并且进行删除

然后找到推特中关键词,并且按照数量进行排序library(tidytext)reg <- "([^A-Za-z\\d#@‘]|‘(?![A-Za-z\\d#@]))"tweet_words <-tweets>%filter(!str_detect(text, ‘^"‘)) %>%mutate(text =str_replace_all(text, "https://t.co/[A-Za-z\\d]+|&", "")) %>%unnest_tokens(word, text, token ="regex", pattern = reg) %>%filter(!word %in%stop_words$word,str_detect(word, "[a-z]"))tweet_words

tweet_words %>%count(word, sort =TRUE) %>%head(20) %>%mutate(word =reorder(word, n)) %>%ggplot(aes(word, n)) +geom_bar(stat ="identity") +ylab("Occurrences") +coord_flip()

从图中我们可以看到希拉里这个关键词的排名是第一,随后是特朗普2016这个关键词。同时在后面的关键词中,我们还看到了特朗普,以及克林顿等。

对数据进行情感分析,并且计算安卓和苹果手机的相对影响比例

通过特征词情感倾向分别计算不同平台的情感比,并且进行可视化

在统计出不同情感倾向的词的数量之后,绘制他们的置信区间。从上面的图中可以看到,相比于苹果手机,安卓手机的负面情绪最多,其次是disgust,然后是悲伤。表示积极的情感倾向很少。

然后我们对每个情感类别中出现的关键词的数量进行统计

android_iphone_ratios %>%inner_join(nrc, by ="word") %>%filter(!sentiment %in%c("positive", "negative")) %>%mutate(sentiment =reorder(sentiment, -logratio),word =reorder(word, -logratio)) %>%

从结果中我们可以看到,负面词大多出现在安卓手机上,而苹果手机上出现的负面词的数量要远远小于安卓平台上的数量

原文地址:https://www.cnblogs.com/tecdat/p/11133427.html

时间: 2024-11-03 20:26:15

R语言对推特数据进行文本情感分析的相关文章

主题模型及其在文本情感分析中的应用

随着Web2.0技术的出现和发展,互联网上(包括门户网站.电子商务网站.社交网站.音/视频分享网站.论坛.博客.微博等)产生了海量的.由用户发表的对于诸如人物.事件.产品等目标实体的评论信息.例如,下面这两个短文本评论:(1)“比较了多个智能手机后选择了8150,性价比还可以.另外,就是考虑到它是3.7的屏幕,大小比较合适,否则携带很不方便.”(京东商城用户,2011.11.25):(2)“我以前在杭州做二手房地产,用温州炒房客的话说:全世界房价降了,杭州的房价永远不会降,因为他们有一道坚不可摧

R语言系列:生成数据

R语言系列:生成数据 (2014-05-04 17:41:57) 转载▼ 标签: r语言 教育 分类: 生物信息 生成规则数据1.使用“:“,如x=1:10,注意该方法既可以递增也可以递减,如y=10:12.seq,有两种用法:①seq(起点,终点,步长); ②seq(length=9, from=1, to=5)    seq还有一种简写:seq(x)    #相当于1:length(x),但当length(x)为0时,返回integer(0)3.c(1,2,8)4.使用scan(),可以等待

LSTM 文本情感分析/序列分类 Keras

LSTM 文本情感分析/序列分类 Keras 请参考 http://spaces.ac.cn/archives/3414/ neg.xls是这样的 pos.xls是这样的neg=pd.read_excel('neg.xls',header=None,index=None) pos=pd.read_excel('pos.xls',header=None,index=None) #读取训练语料完毕 pos['mark']=1 neg['mark']=0 #给训练语料贴上标签 pn=pd.concat

用R语言实现对不平衡数据的四种处理方法

https://www.weixin765.com/doc/gmlxlfqf.html 在对不平衡的分类数据集进行建模时,机器学**算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性那么,这种结果是为何发生的呢?到底是什么因素影响了这些算法的表现? 在不平衡的数据中,任一算法都没法从样本量少的类中获取足够的信息来进行精确预测因此,机器学**算法常常被要求应用在平衡数据集上那我们该如何处理不平衡数据集?本文会介绍一些相关方法,它们并不复杂只是技巧性比较强 本文会介绍处理非

R语言实战(五)方差分析与功效分析

本文对应<R语言实战>第9章:方差分析:第10章:功效分析 ==================================================================== 方差分析: 回归分析是通过量化的预测变量来预测量化的响应变量,而解释变量里含有名义型或有序型因子变量时,我们关注的重点通常会从预测转向组别差异的分析,这种分析方法就是方差分析(ANOVA).因变量不只一个时,称为多元方差分析(MANOVA).有协变量时,称为协方差分析(ANCOVA)或多元协方差分析

R语言和数据分析十大:购物篮分析

提到数据挖掘,我们的第一个反应是之前的啤酒和尿布的故事听说过,这个故事是一个典型的数据挖掘关联规则.篮分析的传统线性回归之间的主要差别的差别,对于离散数据的相关性分析: 常见的关联规则: 关联规则:牛奶=>卵子[支撑=2%,置信度=60%] 支持度:分析中的所有事务的2%同一时候购买了牛奶和鸡蛋,需设定域值,来限定规则的产生. 置信度:购买了牛奶的筒子有60%也购买了鸡蛋,需设定域值,来限定规则的产生. 最小支持度阈值和最小置信度阈值:由挖掘者或领域专家设定. 与关联分析相关的专业术语包含: 项

R语言与数据分析之十:购物篮分析

提到数据挖掘,我们第一反应就是之前听到的啤酒和尿不湿的故事,该故事就是典型的数据挖掘中的关联规则.购物篮分析区别于传统的线性回归的主要区别为,关联分析针对离散数据: 常见关联规则: 关联规则:牛奶=>鸡蛋[支持度=2%,置信度=60%] 支持度:分析中的全部事务的2%同时购买了牛奶和鸡蛋,需设定域值,来限定规则的产生: 置信度:购买了牛奶的筒子有60%也购买了鸡蛋,需设定域值,来限定规则的产生: 最小支持度阈值和最小置信度阈值:由挖掘者或领域专家设定. 与关联分析相关的专业术语包括: 项集:项(

文本情感分析(一):基于词袋模型(VSM、LSA、n-gram)的文本表示

现在自然语言处理用深度学习做的比较多,我还没试过用传统的监督学习方法做分类器,比如SVM.Xgboost.随机森林,来训练模型.因此,用Kaggle上经典的电影评论情感分析题,来学习如何用传统机器学习方法解决分类问题. 通过这个情感分析的题目,我会整理做特征工程.参数调优和模型融合的方法,这一系列会有四篇文章.这篇文章整理文本特征工程的内容. 文本的特征工程主要包括数据清洗.特征构造.降维和特征选择等. 首先是数据清洗,比如去停用词.去非字母汉字的特殊字符.大写转小写.去掉html标签等. 然后

文本情感分析(二):基于word2vec和glove词向量的文本表示

上一篇博客用词袋模型,包括词频矩阵.Tf-Idf矩阵.LSA和n-gram构造文本特征,做了Kaggle上的电影评论情感分类题. 这篇博客还是关于文本特征工程的,用词嵌入的方法来构造文本特征,也就是用word2vec词向量和glove词向量进行文本表示,训练随机森林分类器. 一.训练word2vec词向量 Kaggle情感分析题给出了三个数据集,一个是带标签的训练集,共25000条评论,一个是测试集,无标签的,用来做预测并提交结果,这两个数据集是上一篇文章里我们用过的. 此外还有一个无标签的数据