四种武器--大数据与R,python,SAS,SPSS的关系?

武林中人很多都要求自己各种兵器都能够使用,但每个人都会有一个自己最擅长的兵器。以前这四种软件就如大数据里的“刀枪棍棒”。兵器只是一部分,重要的还是我们自身对于大数据的理解,也就相当于是内功。毕竟,双方比武,兵器取胜的部分是很大,但不是决定因素!试想,一个内功高深的人跟一个只会使枪的人来比试,说不定对方摘叶就可以伤到那个只会使剑的人..........

好吧!我们就一一揭开这四种“武器”的面纱!

先说R,与其说是一门语言,不如说是一个软件。他更多的应用是在数据量在中小型公司的运用。个人感觉,它也将会是国内下一门比较热的语言。从大数据的角度来看,什么样的数据最有价值,首当其冲的是运营商的数据,再者是银行数据,再者是微信数据,电商数据........而这些数据对于数据所有部门来说,大都是以地市为单位来存储的。就相当于将数据划小成为一个个的分片,这样有利于R的施展。在做数据挖掘及可视化的时候,我的导师说过,在国内,最好要在两周内要让客户看到你数据挖掘的价值。而要达到这样的目标,用R就会有很好的效果。特别是在数据展示方面。

而对于R的学习,是要有一定的代码逻辑及调用规范的。因为小众,它就要不断的与其它的语言对接,就相当于一个说中文,一个说洋文,中间的翻译很重要。

再来说说Python,有人说早晚运维要用到这个语言,因为它在大数据时代下,有着太多的应用场景。它基于LINUX。这就首先方便了大家的使用,他可以和任何语言又能够互相调用接口。这就大大的便利它在大数据时代下运维人的工作。这么说牵扯到一个问题:运维人员是否要掌握一两门开发语言?新时期的运维,将会大面积为自动化运维,变被动维护为主动防护。这样就要求运维人员除了装机器外,要能够简单的对服务器及相关网络设备有一定的开发定制能力。

对于Python,我的学习计划就是在R的魔鬼训练完之后再开始学。力争避免学的多而都不精的现像,先学精一门语言,而触类旁通的学另一门语言。

对于SAS,这个就先放一放吧!毕竟,这个软件是要收费的,它里边的内置算法较多,对一些数据的相关统计效果较好。适用于一些科研机构对于大量数据的收集,统计使用。这个软件,我以前在自己的虚拟机上装过,运行起来很费内存。而且他的代码,总体感觉跟C类似。大数据用它来处理是很好,但是这个软件收费较高。依当下国内的情况,不建议初创公司使用。

最后再说一下SPSS,这一个IBM的软件。有人说它跟SAS齐名,但这个软件,个人感觉最好用它来得理EXCEL的数据,又或者向领导及客户展示你的数据挖掘过程的时候演示来使用。但这个软件具体还没有使用过,只是见老师链好线,去跑数据,它对原始数据的要求较高。所以也可以结全R与SAS在处理好原始数据后,再用SPSS来走流程会更好一些。

以上,是对自己所知道的这四个软件的理解,在大数据的领域,都会多少用到这四个软件的。而怎么去用,取决于我们个人。

鄙人才疏学浅,若有同道中人,如有冒犯,还望不吝赐教!技术切磋,共同成长!

时间: 2024-10-06 00:39:28

四种武器--大数据与R,python,SAS,SPSS的关系?的相关文章

四种典型大数据可视化交互模式及实例

大数据可视化交互设计中,有四种比较典型的交互模式,解决数据的复杂性问题.分别是动态改变视图.多视图关联.视图内容约减.焦点+上下文. 动态改变视图 动态改变视图:导航 动态改变视图:多属性排序 多视图关联 多视图是指将显示区域划分为多个视图或图层,是降低数据复杂性的一种方式.它包括采用同一编码方式编码多个数据子集的小多组图,以及采用不同的编码方式编码同一数据集的多样式图(多视图). 并列放置:便于对比,但需要更大的显示空间 图层叠加:图层数量有较大的限制 概览图和细节图采用相同的编码方式,解决数

大数据时代,Python是最好的语言!

随着大数据疯狂的浪潮,新生代的工具Python得到了前所未有的爆发.简洁.开源是这款工具吸引了众多粉丝的原因.目前Python最热的领域,非数据分析和挖掘莫属了.从以Pandas为代表的数据分析领域开始,便是Python的天下:一边以实际项目实操,一边跟着已有的资料学习,再辅以相关的理论知识,势必将集Python技能于大成.在图灵世界里,Python被赋予的形象是蟒蛇,而蟒蛇不仅仅是灵活的象征,更有一招制敌的大杀器.Python是一条大蟒蛇,自然算是编程语言中灵活,且有灵性的.在现阶段的数据体系

大数据之R语言速成与实战,送给数据分析爱好者

课程介绍 R是用于统计分析.绘图的语言和操作环境,属于GNU系统的一个自由.免费.源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具. R语言语法通俗易懂,很容易学会和掌握语言的语法.而且学会之后,我们可以编制自己的函数来扩展现有的语言.这也就是为什么它的更新速度比一般统计软件,如SPSS.SAS等快得多.大多数最新的统计方法和技术都可以在R中直接得到. 作为当前在世界范围内最受欢迎的数据挖掘开发语言--R语言以其特有的开放性.高可扩展性以及顶尖的制图功能吸引了越来越多的数据分析爱好者.

大数据和「数据挖掘」是何关系?---来自知乎

知乎用户,互联网 244 人赞同 在我读数据挖掘方向研究生的时候:如果要描述数据量非常大,我们用Massive Data(海量数据)如果要描述数据非常多样,我们用Heterogeneous Data(异构数据)如果要描述数据既多样,又量大,我们用Massive Heterogeneous Data(海量异构数据)--如果要申请基金忽悠一笔钱,我们用Big Data(大数据) 编辑于 2014-02-2817 条评论感谢 收藏没有帮助举报作者保留权利 刘知远,NLPer 4 人赞同 我觉得 大数据

Python3 模拟MapReduce处理分析大数据文件——《Python宝典》

最近买了一本<Python宝典>在看,此书所讲Python知识的广度明显,但是深度略显不足,所以比较适合入门及提高级的读者来看.其中对于Python大数据处理一章的内容比较有兴趣,看明白了以后,我根据书上提供的案例对源代码进行了修改,也实现了模拟MapReduce的过程. 目标:从Apache的用户访问日志access.log中统计出页面资源的访问量.我们假设这个文件体积十分巨大. access中的信息结构:66.249.68.43 - - [04/Aug/2011:01:06:48 +080

大数据基础--R语言(刘鹏《大数据》课后习题答案)

1.R语言是解释性语言还是编译性语言?   解释性语言 2.简述R语言的基本功能.   R语言是一套完整的数据处理.计算和制图软件系统,主要包括以下功能: (1)数据存储和处理功能,丰富的数据读取与存储能力,丰富的数据处理功能. (2)数组运算工具 (3)完整连贯的统计分析工具 (4)优秀的统计制图功能 3.R语言通常用在哪些领域?   人工智能.统计分析.应用数学.计量经济.金融分析.财经分析.生物信息学.数据可视化与数据挖掘等. 4.R语言常用的分类和预测算法有哪些?   (1)K-近邻算法

java 抽取 word,pdf 的四种武器

转自:https://www.ibm.com/developerworks/cn/java/l-java-tips/     感谢作者发布的文章 用 jacob 其实 jacob 是一个 bridage,连接 java 和 com 或者 win32 函数的一个中间件,jacob 并不能直接抽取 word,excel 等文件,需要自己写 dll 哦,不过已经有为你写好的了,就是 jacob 的作者一并提供了. jacob jar 与 dll 文件下载: http://www.matrix.org.

四种类型的数据节点 Znode ?

1.PERSISTENT-持久节点 除非手动删除,否则节点一直存在于 Zookeeper 上 2.EPHEMERAL-临时节点 临时节点的生命周期与客户端会话绑定,一旦客户端会话失效(客户端与 zookeeper 连接断开不一定会话失效),那么这个客户端创建的所有临时节点都 会被移除. 3.PERSISTENT_SEQUENTIAL-持久顺序节点 基本特性同持久节点,只是增加了顺序属性,节点名后边会追加一个由父节点维 护的自增整型数字. 第 52 页 共 485 页4.EPHEMERAL_SEQ

程序员想玩转大数据:需要知晓的12种工具

转自 :http://www.csdn.net/article/2012-12-20/2813054-Database 无论是在构建大数据的应用程序,还是仅仅只想从开发的移动应用中得到一点点启发,程序员现在比以往任何时候都需要数据分析工具.这绝对是一个好东西,所以很多公司从程序员的需求和技能出发,构建了一些数据分析工具.GigaOm的记者Derrick Harris列举了十二个工具,CSDN进行了编译整理: 在过去的几年里,Derrick看到了很多初创公司,各类项目以及开发工具等等,它们都旨在为