武林中人很多都要求自己各种兵器都能够使用,但每个人都会有一个自己最擅长的兵器。以前这四种软件就如大数据里的“刀枪棍棒”。兵器只是一部分,重要的还是我们自身对于大数据的理解,也就相当于是内功。毕竟,双方比武,兵器取胜的部分是很大,但不是决定因素!试想,一个内功高深的人跟一个只会使枪的人来比试,说不定对方摘叶就可以伤到那个只会使剑的人..........
好吧!我们就一一揭开这四种“武器”的面纱!
先说R,与其说是一门语言,不如说是一个软件。他更多的应用是在数据量在中小型公司的运用。个人感觉,它也将会是国内下一门比较热的语言。从大数据的角度来看,什么样的数据最有价值,首当其冲的是运营商的数据,再者是银行数据,再者是微信数据,电商数据........而这些数据对于数据所有部门来说,大都是以地市为单位来存储的。就相当于将数据划小成为一个个的分片,这样有利于R的施展。在做数据挖掘及可视化的时候,我的导师说过,在国内,最好要在两周内要让客户看到你数据挖掘的价值。而要达到这样的目标,用R就会有很好的效果。特别是在数据展示方面。
而对于R的学习,是要有一定的代码逻辑及调用规范的。因为小众,它就要不断的与其它的语言对接,就相当于一个说中文,一个说洋文,中间的翻译很重要。
再来说说Python,有人说早晚运维要用到这个语言,因为它在大数据时代下,有着太多的应用场景。它基于LINUX。这就首先方便了大家的使用,他可以和任何语言又能够互相调用接口。这就大大的便利它在大数据时代下运维人的工作。这么说牵扯到一个问题:运维人员是否要掌握一两门开发语言?新时期的运维,将会大面积为自动化运维,变被动维护为主动防护。这样就要求运维人员除了装机器外,要能够简单的对服务器及相关网络设备有一定的开发定制能力。
对于Python,我的学习计划就是在R的魔鬼训练完之后再开始学。力争避免学的多而都不精的现像,先学精一门语言,而触类旁通的学另一门语言。
对于SAS,这个就先放一放吧!毕竟,这个软件是要收费的,它里边的内置算法较多,对一些数据的相关统计效果较好。适用于一些科研机构对于大量数据的收集,统计使用。这个软件,我以前在自己的虚拟机上装过,运行起来很费内存。而且他的代码,总体感觉跟C类似。大数据用它来处理是很好,但是这个软件收费较高。依当下国内的情况,不建议初创公司使用。
最后再说一下SPSS,这一个IBM的软件。有人说它跟SAS齐名,但这个软件,个人感觉最好用它来得理EXCEL的数据,又或者向领导及客户展示你的数据挖掘过程的时候演示来使用。但这个软件具体还没有使用过,只是见老师链好线,去跑数据,它对原始数据的要求较高。所以也可以结全R与SAS在处理好原始数据后,再用SPSS来走流程会更好一些。
以上,是对自己所知道的这四个软件的理解,在大数据的领域,都会多少用到这四个软件的。而怎么去用,取决于我们个人。
鄙人才疏学浅,若有同道中人,如有冒犯,还望不吝赐教!技术切磋,共同成长!