让R与Python共舞

转载:http://ices01.sinaapp.com/?p=129   
   
R(又称R语言)是一款开源的跨平台的数值统计和数值图形化展现 工具。通俗点说,R是用来做统计和画图的。R拥有自己的脚本语言和大量的统计、图形库(得益于开源社区),这让她看起来既美又实用。与其他同类软件(如 SPSS)相比,R的特点是纯命令行的,这倒也好,我们更应该把注意力放在数据本身,而非统计工具的UI。
   
R虽说有一套自己的语言,还挺完备,但她最专业的还是做统计和画图,而像连接数据库、文本处理、文件操作等这些脏活可不能委屈R来干哪,这些得有其 他语言来负责,我的选择是咱最熟悉的、做这些脏活最棒的Python。那接下来的问题很清楚了,R和Python如何一起工作?拍拍脑袋,想到可能有下面 几种办法:
   
1. R和Python只共享文件,Python把源数据处理干净,生成格式化的文件放在预定的目录下,做个定时器让R去读文件,最终输出统计结果和图表。
   
这种做法一定程度上可行,除了做定时器外,还可以让Python即时执行”rscript”命令调用R脚本来工作,只是这种办法限制太大,只能够交换文件,Python不能对R进行精确的控制。
   
2. 让Python直接调用R的函数,R是开源项目,肯定会有一些第三方库实现Python与R互通。
   
果然,我找到了rpy2,可以实现使用python读取R的对象、调用R的方法以及Python与R数据结构转换等。实际上除了Python,其他语言与R互通的第三方包也大大的有。
   
最后我选择第2种方法,来让R与Python共舞。
   
模块 rpy2.robjects 是rpy2对R的一个高级封装,该模块里包含了一个r对象和一系列的R数据结构。使用rpy2的大多数情况,只需要跟这个模块打交道即可。rpy2的安装 在此不多讲了,有兴趣的同学看文档去,直接体验一下R如何与Python无缝整合吧。
了解r实例r实例是指rpy2.robjects.r,它是在Python中的嵌入式R进程,把r当作从python走向R的通道来看就可以了。通过r实例,我们可以读取R的内置变量、调用R的函数、甚至,直接把它当作R的解析器来用。
   
访问R的对象在R的命令行中,我们直接输入对象名来访问R的内置对象,如pi、letters:
   
在R控制台中访问R对象

而使用r实例,python访问R对象也很简单,而且方法很多:
在python中访问R对象

在这段代码中,我们用了三种方式来访问R对象,把r实例当作字典,把r实例当作方法,把r实例当 作一个类对象(真是神喻呀~)。在实际中,使用哪一种方式要因习惯而异,我喜欢的方法是使用第三种,把r实例当作自己人,直接使用”.”来访问R对象。但 这种方法有一个缺陷,就是不能访问带名字空间的R对象或函数,而其他两种方式是可以的,这点将在随后说明。
调用R函数通过r实例,我们可以轻易地实现用Python调用R的函数。下面我们分别在R控制台和python命令行下读一个数据文件并画一张点图。
R控制台读取文件画点图

代码解读:
data.csv 的内容就是上面代码的3到7的内容。
data = read.table(‘data.csv’) :把文件读进一个数据框变量data中。
mtx = data.matrix(data):把data转变成矩阵。
dotchart(mtx)用矩阵的数据画点图。
结果如下:

接下来用python来做一遍同样的事情,我们之前了解到,使用r实例可以直接访问R对象,还可 以直接调用R的函数,其实在Python看来,对象和函数是相同的东西,函数也是一种对象罢了。现在来试一下调用”read.table()”函数读入一 个数据文件data.csv:

出错了!怎么回事?在上面我提到过了,使用“.”引用的方式不能访问带有名字空间的R对象和函数,read.table 是表示在read包下面的table函数,通过”.”的形式调用失败,必须要用字典的方式或参数的方式来获得:

这段代码得到的结果与在R控制台下画点图的效果是一样的。最后一行 r.dotchart(mtx)是直接通过”.”来调用R的函数dotchart的,在没有名实空间的情况下,是正常的。如果你为了避免太多不可控制的出 错机会,你可以统一地使用字典的方式来访问R对象和方法,这是最保险的方法,虽然我个人认为看起来有点别扭。
    
r实例就是一R控制台其实r实例就是一个可交互的R控制台,只不过交互对象是Python与R罢了,为了证明r实例具有R控制台的特性,来做个实验,写一串R脚本,作为Python一个字符串变量的内容,把该字符串传给r实例,然后把r实例当作方法来调用:

出来的结果这样:

注意,把r实例当作控制台,只能够通过r(r代码)的方式来使用r实例,字典的方式行不通。
   
加载自定义函数在实际应用中,使用R语言来编写自己的函数同样是不可避免的,在R控制台中,可以使用source(‘script_path’)的方法来加载自定 义R脚本。而在Python中使用自己义R脚本中的函数也同样方便:使用r.source(‘script_path’)即可把自定义函数加载到全局环境 中,再使用r.自定义方法名就可以实现调用,我就是这样做的,在此不再详述,同学们自己动手玩一下。
   
R Vector与Python list向量(Vector)是R的一个最重要的也是最常用的数据类型,可以理解为一个二维数据,对应Python的list。在R控制台中,声明一个变 量:“x <- 1”,X会被声明成一个向量,而其第一个值是1。R常常用c()函数来声创建一个由多个值组成的向量,例如c(1,2,3,4)。Python要与R打交 道,除了访问R对象和调用R函数,还有就是要学会如何转换常见的数据类型。
    
rpy2提供了几个类,供我们把Python的list转换成R的Vector。分别是 robjects.IntVector,robjects.Boolvector,robjects.StringVector,robjects.FloatVector. 以IntVector为例,将Python的list转换成R的Vector:robjects.IntVector([1,2,3,4,5]),毕!
   
下面来使用刚学到的类型转换知识画上一个例子的散点图来结束此次体验:

还在继续…..rpy2提供的不仅仅是上面这些,上面的知识只是rpy2所提供的20%,但是已经足以解决80%的问题。rpy2还提供了更低级的API,你可以做更多的事情,例如你可以实现另一个robjects对象来支持使用”.”来访问带名字空间的对象和函数。更多的知识,请移步官方文档

时间: 2024-10-10 06:53:05

让R与Python共舞的相关文章

与调试器共舞 - LLDB 的华尔兹

你是否曾经苦恼于理解你的代码,而去尝试打印一个变量的值? 1 NSLog(@"%@", whatIsInsideThisThing); 或者跳过一个函数调用来简化程序的行为? 1 NSNumber *n = @7; // 实际应该调用这个函数:Foo(); 或者短路一个逻辑检查? 1 if (1 || theBooleanAtStake) { ... } 或者伪造一个函数实现? 1 2 3 4 5 6 int calculateTheTrickyValue {   return 9;

随机森林入门攻略(内含R、Python代码)

随机森林入门攻略(内含R.Python代码) 简介 近年来,随机森林模型在界内的关注度与受欢迎程度有着显著的提升,这多半归功于它可以快速地被应用到几乎任何的数据科学问题中去,从而使人们能够高效快捷地获得第一组基准测试结果.在各种各样的问题中,随机森林一次又一次地展示出令人难以置信的强大,而与此同时它又是如此的方便实用. 需要大家注意的是,在上文中特别提到的是第一组测试结果,而非所有的结果,这是因为随机森林方法固然也有自己的局限性.在这篇文章中,我们将向你介绍运用随机森林构建预测模型时最令人感兴趣

与熊共舞思维导图及杂谈

关于<与熊共舞>这本书是年前读的,第一天上班翻查看到就想和大家分享一下 早上在公交上阅读了常高伟的一篇文章,引起共鸣.文中说作为领导不该在解决下属的问题中得到成就感和自豪感,应该培养下属解决问题的能力.但在当今这个社会,总是充斥这一种观念:“教会徒弟饿死师傅”.所以在一些公司中别人是不愿意将自己的一些经验方法什么拿出来分享.

R 调用 python

上一篇说了python使用 rpy2 调用 R,这里介绍R如何调用python.R的强项在于统计方面,尤其是专业的统计分析,统计检验以及作图功能十分强大,但是在通用性方面,就远不如Python了,比如python可以做web,可以开发GUI,可以爬虫,甚至可以开发游戏,这些R其实也不是完全不行,但是在易用性方面实在是难以与Python相匹敌.所以如果要是能将R与Python相结合,充分发挥二者的优势,那么无疑我们会得到一个更加强大的武器.幸运的是,R 为我们提供了这么一个工具,rPython.

人与“幽灵”共舞,提升生活质量

细细想来,当前,我们的日常生活.工作的节奏越来越快.我们似乎被越来越多的数据包围着,整天忙于处理事务,心身疲惫.怎么办? 三十多年前,人工智能(AI)的思想进入我国,我开始"追梦".但是,让我万万没有想到的是:近年来,互联网渗透到我们生活的方方面面,使得我们的生活.工作的节奏越来越快,压得人几乎透不过气来,身心极为疲惫.人工智能能否拯救我们? 扪心自问,我们当前所最需要的不是机器人帮助我们做一些具体的事情,而是需要一个"幽灵",无时不刻地伴随着我们,替我们处理海量数

数据科学中R VS Python:获胜者是...

数据科学中R VS Python:获胜者是- 在"最佳"数据科学工具的比赛中,R和Python都有自己的优缺点.对二者的选择取决于使用背景,学习花费和其它经常使用工具的须要 Martijn Theuwissen发表于DataCamp. 在DataCamp,学生经常问我们他们日常数据分析任务使用R或Python.尽管我们主要是提供交互式R教程,我们总是回答这个问题取决于他们所面对的数据分析挑战的类型. R和Python都是流行的统计编程语言.R的功能由统计学家开发(想想R强大的数据可视化

与中国最顶尖sharepoint工程师共舞

最近又跳了,来到某家外企.自以为善能称心如意,谁知乃井里之蛙. 给我的最大感触是,做sharepoint一定要做过非常大型的部署开发,没有经过这种淬炼,天天闷声研究,做一些页面功能,对技术提升毫无帮助. 对于精通projectserver的我,一直想精通 sharepoint,终于得到了机会,与国内sharepoint真正的大牛一起共舞. 可以这么讲,这些大牛从来不上 QQ,不进入所谓的技术群,不开博客园,对MVP称号毫无兴趣,所以如果想从我们的博客园,csdn上学习也永远只是学点皮毛. 这个项

R、Python、Scala 和 Java,到底该使用哪一种大数据编程语言?

有一个大数据项目,你知道问题领域(problem domain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一个决定迟迟未能做出:我该选择哪种语言?(或者可能更有针对性的问题是,我该迫使我的所有开发人员和数据科学家非要用哪种语言?)这个问题不会推迟太久,迟早要定夺. 当然,没有什么阻止得了你使用其他机制(比如XSLT转换)来处理大数据工作.但通常来说,如今大数据方面有三种语言可以选择:R.Python和Scala,外加一直以来屹立于企业界的Java.那么,你该选

Data manipulation primitives in R and Python

Data manipulation primitives in R and Python Both R and Python are incredibly good tools to manipulate your data and their integration is becoming increasingly important1. The latest tool for data manipulation in R is Dplyr2 whilst Python relies onPa