R语言—日常随笔

1.字符处理函数:paste()

　需求：将字符向量中的字符串，用逗号隔开，合并为一句话。

> ##字符向量
> ls_1
[1] "天津" "上海" "安徽" "福建" "四川" "重庆" "陕西" "青海" "新疆"
> ##用逗号隔开字符串，并合并为一句话
> paste(ls_1, sep = "",collapse=",")
[1] "天津,上海,安徽,福建,四川,重庆,陕西,青海,新疆"

2.在数据整合过程中，数字转换为带百分号（%）的形式，使用的方法。

> paste(20.21,"%",sep="")
[1] "20.21%"

可以通过上面的方式实现将数字带上%号，但数字也就变成了字符串。

3.如果表格结构为三列，想根据其中两列对第三列数字进行汇总。可采用下面方法。

> ##生成案例数据
> names<-c("a","b","b","c","c")
> sex<-c("男","女","女","男","男")
> score<-c(1.56,1.78,1.82,1.32,1.21)
> man<-data.frame(names,sex,score)
> ##查看数据结构
> man
names sex score
1 a 男 1.56
2 b 女 1.78
3 b 女 1.82
4 c 男 1.32
5 c 男 1.21
> ##根据姓名与性别汇总成绩
> aggregate(man$score~man$names+man$sex,man,mean)
man$names man$sex man$score
1 a 男 1.560
2 c 男 1.265
3 b 女 1.800

4.字符串去空格

##将sd中的空格去除
> sd<-("as db ")
> gsub(" ","",sd)
[1] "asdb"

注：sub与gsub的区别在于sub只替换第一次发现的字符，而gsub是不计匹配到的次数，发现符合匹配都会被替换。

5.单列去重（unique）

> ##创造案例数据
> x <- c(3:5, 11:8, 8 + 0:5)
> ##查看数据样式
> x
 [1]  3  4  5 11 10  9  8  8  9 10 11 12 13
> ##查看去重后效果
> unique(x)
[1]  3  4  5 11 10  9  8 12 13

时间： 2024-08-07 04:33:26

R语言—日常随笔的相关文章

[R语言]关联规则1---不考虑items之间的时序关系

本文介绍的是关联规则,分为两部分:第一部分是---不考虑用户购买的items之间严格的时序关系,每个用户有一个“购物篮”,查找其中的关联规则.第二部分--- 考虑items之间的严格的时序关系来分析用户道具购买路径以及关联规则挖掘.此文为第一部分的讲解.(本文所需的代码和数据集可以在这里下载.) 关联规则最常听说的例子是“啤酒与尿布”:购买啤酒的用户通常也会购买尿布.在日常浏览电商网站时也会出现“购买该商品的用户还会购买….”等提示,这其中应用的就是关联规则的算法. 本文重点讲解的是关联规则的R

基于R语言的数据分析和挖掘方法总结——均值检验

2.1 单组样本均值t检验(One-sample t-test) 2.1.1 方法简介 t检验,又称学生t(student t)检验,是由英国统计学家戈斯特(William Sealy Gosset, 1876-1937)所提出,student则是他的笔名.t检验是一种检验总体均值的统计方法,当数据中仅含单组样本且样本数较大时(通常样本个数≧30的样本可视为样本数较大),可用这种方法来检验总体均值是否大于.小于或等于某一特定数值.当数据中仅含单组样本但样本数较小时(通常样本个数<30的样本可视为

R语言：用简单的文本处理方法优化我们的读书体验

前言延续之前的用R语言读琅琊榜小说,继续讲一下利用R语言做一些简单的文本处理.分词的事情.其实就是继续讲一下用R语言读书的事情啦,讲讲怎么用它里面简单的文本处理方法,来优化我们的读书体验,如果读邮件和读代码也算阅读的话..用的代码超级简单,不涉及其他包这里讲两个示例,结尾再来吐槽和总结. 1)R-Blogger订阅邮件拆分 2) R代码库快速阅读方法不在博客园上阅读时才会看到的,这篇博文归 http://www.cnblogs.com/weibaar所有仅保证在博客园博客上的排版干净利索

R 语言的优劣势是什么？

R 语言的优劣势是什么? 2015-05-27 程序员大数据小分析 R,不仅仅是一种语言本文原载于<程序员>杂志2010年第8期,因篇幅所限,有所删减,这里刊登的是全文. 工欲善其事,必先利其器,作为一个战斗在IT界第一线的工程师,C/C++.java.perl.python.ruby.php.javascript.erlang等等等等,你手中总有一把使用自如的刀,帮助你披荆斩棘. 应用场景决定知识的储备与工具的选择,反过来,无论你选择了什么样的工具,你一定会努力地把它改造成符合自己应用场

R语言︱决策树族——随机森林算法

笔者寄语:有一篇<有监督学习选择深度学习还是随机森林或支持向量机?>(作者Bio:SebastianRaschka)中提到,在日常机器学习工作或学习中,当我们遇到有监督学习相关问题时,不妨考虑下先用简单的假设空间(简单模型集合),例如线性模型逻辑回归.若效果不好,也即并没达到你的预期或评判效果基准时,再进行下换其他更复杂模型来实验. ---------------------------------------------- 一.随机森林理论介绍 1.1 优缺点优点. (1)不必担心过度拟合

R语言解读一元线性回归模型

前言在我们的日常生活中,存在大量的具有相关性的事件,比如大气压和海拔高度,海拔越高大气压强越小:人的身高和体重,普遍来看越高的人体重也越重.还有一些可能存在相关性的事件,比如知识水平越高的人,收入水平越高:市场化的国家经济越好,则货币越强势,反而全球经济危机,黄金等避险资产越走强. 如果我们要研究这些事件,找到不同变量之间的关系,我们就会用到回归分析.一元线性回归分析是处理两个变量之间关系的最简单模型,是两个变量之间的线性相关关系.让我们一起发现生活中的规律吧. 由于本文为非统计的专业文章,所

快速生成R语言实现Genetic Linkage Model参数估计方法的报告

第一篇随笔,打算把搞过的东西整理一下-test- 基于Rstudio与Markdown可以快速生成R语言报告,结果可直接发布在RPubs,当然,你应当注册一个RPubs账号. 先来一发已发布的报告[Genetic Linkage Model],主要介绍了利用Newton-Raphson.EM.Gibbs这三种经典算法对Genetic Linkage Model做参数估计的方法和R代码.

R语言基础编程技巧汇编 - 前言

前言 R语言是近年来迅速崛起的用于数据分析和数据挖据的编程语言,它由一批统计学家开发,进而广泛应用于各种需要进行统计分析的行业.在大数据时代,其优雅的编码风格.包罗万象的开发包.强大的数据处理能力,吸引了来自各个领域从事数据分析相关工作的人员. R语言是强大自由的,但是其学习曲线也是陡峭的.本人具有C/C++,C#,Python等多种语言的开发经验,就本人的体会,从R语言初级开发水平进阶到中级开发水平,要比其他编程语言更加困难,往往很多初学者就在这个阶段放弃了,相当可惜.另外,对于大量没有很多

数据分析和R语言的那点事儿_1

最近遇到一些程序员同学向我了解R语言,有些更是想转行做数据分析,故开始学习R或者Python之类的语言.在有其他编程语言的背景下,学习R的语法的确是一件十分简单的事.霸特,如果以为仅仅是这样的话那就图样图森破. 首先,数据分析是一个非常庞杂的职能,也许岗位抬头均为数据分析师的两人,做的事情却大不相同——比如使用hadoop做日志统计和使用Excel处理报表,这简直是两个领域,相互之间的职能了解,可能仅为对方工作的冰山一角. 其次,无论任何行业的数据分析,其日常工作主要为以下几块: 数据获取——数