R语言文本分析(2)

在获得了数据之后，通常需要对文本中的每个词出现的频次进行统计，以便获得出现频次较高的词汇。当然，在英文中，冠词以及be动词可能是出现次数最多的一部分词汇了，后续的学习和处理中通常需要将这部分的词汇移除之后再进行处理。

初学者，先统计之，后续处理以待明天。

下面代码，简单统计频次，进行排序，找出指定词汇出现的频次，绘制在文本中出现的时间，并根据章节对novel进行分节处理。

代码来自上篇提到的书。

# 使用table统计每个单词出现的频数
moby.freqs <- table(moby.words)
# 使用sort将单词按照出现的频数由大到小进行排序
sorted.moby.freqs <- sort(moby.freqs, decreasing = TRUE)
head(sorted.moby.freqs)
# 使用plot绘制图形
plot(sorted.moby.freqs[1:10])

sorted.moby.freqs["he"]
sorted.moby.freqs["she"]
sorted.moby.freqs["him"]
sorted.moby.freqs["her"]
moby.words[4:6]

sorted.moby.rel.freqs <- 100*(sorted.moby.freqs/sum(sorted.moby.freqs))

plot(sorted.moby.rel.freqs[1:10], type="b",
     xlab="Top Ten Words", ylab="Percentage of Full Text", xaxt ="n")
axis(1,1:10, labels=names(sorted.moby.rel.freqs [1:10]))

n.time <- seq(1:length(moby.words))
whales <- which(moby.words == "whale")
w.count <- rep(NA, length(n.time))
w.count[whales] <- 1
plot(w.count, main="Dispersion Plot of `whale‘ in Moby Dick",
     xlab="Novel Time", ylab="whale", type="h", ylim=c(0,1), yaxt=‘n‘)

chapter.position <- grep("^CHAPTER \\d", novel.lines)
novel.lines[chapter.position]

时间： 2024-10-29 03:20:38

R语言文本分析(2)的相关文章

R语言︱情感分析文本操作技巧汇总（打标签、词典与数据匹配等）

笔者寄语:情感分析中对文本处理的数据的小技巧要求比较高,笔者在学习时候会为一些小技巧感到头疼不已. 主要包括以下内容: 1.批量读取txt字符文件(导入.文本内容逐行读取.加入文档名字). 2.文本清洗(一级清洗,去标点:二级清洗去内容:三级清洗,去停用词) 3.词典之间匹配(有主键join.词库匹配%in%) 4.分词之后档案id+label的加入 5.情感打分(关联情感词join.情感分数aggerate.情感偏向) -------------------------------------

R语言︱情感分析—词典型代码实践（最基础）（一）

笔者寄语:词典型情感分析对词典要求极高,词典中的词语需要人工去选择,但是这样的选择会很有目标以及针对性.本文代码大多来源于<数据挖掘之道>的情感分析章节.本书中还提到了监督算法式的情感分析,可见博客: R语言︱情感分析-基于监督算法R语言实现笔记. 可以与博客 R语言︱词典型情感分析文本操作技巧汇总(打标签.词典与数据匹配等)对着看. 词典型情感分析大致有以下几个步骤: 训练数据集.neg/pos情感词典.分词+数据清洗清洗(一.二.三级清洗步骤).计算情感得分.模型评价 ----------

用R进行文本分析初探——以《红楼梦》为例

刚刚接触R语言和文本分析,为了将二者结合,试着对<红楼梦>进行分析,首先对<红楼梦>进行分词处理,并统计词频,同时画出标签云. 其实文本分析还可以分析其它很多东西,我的下一步打算分析新浪微博.现在先写一个小的分析,作为学习用. 文本分析是指对文本的表示及其特征项的选取:文本分析是文本挖掘.信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息. 一.需要加载的包需要用到rJava,Rwordseg,wordcloud 安装步骤: 1.安装java: http:/

R语言空间分析功能简介

大家知道,R语言的软件包都是各领域专家贡献而来,通过一个统一的开放的语言环境神奇地组装到了一起,然后开始产生化学反应,为大数据分析立下汗马功劳. R中已经有一个Spatial软件包.通过library(sp)即可加载,如果提示没有安装,使用install.packages("sp")进行安装即可,安装过程中需要选择一个软件分发站的镜像. 然后使用getClass("Spatial")即可查看类的信息.返回信息如下: > getClass("Spati

R语言关联分析之啤酒和尿布

关联分析概述啤酒和尿布的故事,我估计大家都听过,这是数据挖掘里面最经典的案例之一.它分析的方法就关联分析. 关联分析,顾名思义,就是研究不同商品之前的关系.这里就发现了啤酒和尿布这两个看起来毫不相关的东西直接存在的微妙关系. 最经典的关联分析算法之一就是Apriori算法,也是数据挖掘十大算法之一.在R中就有一个包可以做关联分析--arules和arulesViz,前者用于关联规则的数字化生成而后者是前者的扩展包,它提供了几种对关联分析结果可视化技术,从分析到可视化一站式完成. 在了解学习关

R语言生存分析可视化分析

完整原文链接:http://tecdat.cn/?p=5438 生存分析对应于一组统计方法,用于调查感兴趣事件发生所花费的时间. 生存分析被用于各种领域,例如: 癌症研究为患者生存时间分析, “事件历史分析”的社会学在工程的“故障时间分析”. 在癌症研究中,典型的研究问题如下: 某些临床特征对患者的生存有何影响? 个人三年存活的概率是多少? 各组患者的生存率有差异吗? 基本概念在这里,我们从定义生存分析的基本术语开始,包括: 生存时间和事件生存功能和危险功能癌症研究中的生存时间和事件类型

R语言--关联分析

经典段子--"啤酒与尿布",即很多年轻父亲在购买孩子尿布的时候,顺便为自己购买啤酒.关联分析中,最经典的算法Apriori算法在关联规则分析领域具有很大的影响力. 项集这是一个集合的概念,每个事件即一个项,如啤酒是一个项,尿布是一个项,若干项的集合称为项集,如{尿布,啤酒}是一个二元项集. 关联规则关联规则一般记为 \(X\rightarrow Y\) 的形式,X称为先决条件,右侧为相应的关联结果,用于表示出数据内隐含的关联性.如:关联规则尿布 \(\rightarrow\) 啤

R语言︱监督算法式的情感分析笔记

笔者寄语:本文大多内容来自未出版的<数据挖掘之道>的情感分析章节.本书中总结情感分析算法主要分为两种:词典型+监督算法型. 监督算法型主要分别以下几个步骤: 构建训练+测试集+特征提取(TFIDF指标)+算法模型+K层交叉验证.可与博客对着看:R语言︱词典型情感分析文本操作技巧汇总(打标签.词典与数据匹配等) ------------------------------------------------ 一.TFIDF算法指标的简介监督式算法需要把非结构化的文本信息转化为结构化的一些指标,

R语言重要数据集分析研究——需要整理分析阐明理念

1.R语言重要数据集分析研究需要整理分析阐明理念? 上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候如何下手分析,数据分析的第一步,探索性数据分析. 统计量,即统计学里面关注的数据集的几个指标,常用的如下:最小值,最大值,四分位数,均值,中位数,众数,方差,标准差,极差,偏度,峰度先来解释一下各个量得含义,浅显就不说了,这里主要说一下不常见的众数:出现次数最多的方差:每个样本值与均值的差得平方和的平均数标准差:又称均方差,是方差的二次方根,用来衡量一个数据集的集中性极差:最大值