机器学习研究与开发平台的选择

    目前机器学习可以说是百花齐放阶段,不过如果要学习或者研究机器学习,进而用到生产环境,对平台,开发语言,机器学习库的选择就要费一番脑筋了。这里就我自己的机器学习经验做一个建议,仅供参考。

    首先,对于平台选择的第一个问题是,你是要用于生产环境,也就是具体的产品中,还是仅仅是做研究学习用?

1. 生产环境中机器学习平台的搭建

    如果平台是要用于生产环境的话,接着有一个问题,就是对产品需要分析的数据量的估计,如果数据量很大,那么需要选择一个大数据平台。否则的话只需要一个单机版的平台就可以了。

1.1 生产环境中机器学习大数据平台的搭建

    生产环境里面大数据平台,目前最主流的就是Spark平台,加上辅助的分布式数据处理容器,比如YARN,或者Mesos.如果需要实时的收集在线数据,那么就加上Kafka。简言之,一个通用的大数据处理平台就是集成Spark + YARN(Mesos) + Kafka. 我现在做的产品项目都是基于Spark + YARN+ Kafka的,目前来看,这个平台选择基本上是主流的方向。

    当然,有人会说,这么多开源软件,一起集成起来好麻烦,大坑肯定不少,有没有一个通用的平台,可以包括类似Spark + YARN+ Kafka的大数据平台功能呢?目前据我所知,做的比较好的有CDAP(http://cdap.io)。它对Spark, YARN, Kafka还有一些主流的开源数据处理软件进行了集成,开发者只需要在它上面封装的一层API上做二次开发就可以了。这应该是一个不错的点子,不过目前还没有看到商用的成功案例,所以我们在构架选型的时候就没有考虑CDAP。

    因此,围绕Spark + YARN+ Kafka的大数据平台还是首选。由于Spark MLlib的机器学习算法并不丰富好用,因此如果你的产品中需要一些MLlib中没有的算法,就需要自己去找开源实现了。

1.2 生产环境中机器学习单机数据平台的搭建

    生产环境里面如果数据里不大,大数据平台就显得有点over design了,此时我们有更多的选择。首选,仍然是Spark平台,不过我们不需要分布式的容器YARN和分布式数据分发的路由Kafka了。为什么首选还是Spark呢?因为我们要考虑扩展,现在数据量不大,不代表以后数据量不大。这也是我参与的一些小型数据分析项目也是选择Spark的原因。当然我觉得还有一些原因是Spark同时支持了Python, Java, Scala和R。这降低了很多程序员的参与门槛。我参与的Spark项目中,开发语言主要是Java和Scala。Python没有选择是因为一些速度的原因和系统其它部分都是用Java写的。

    第二个选择是以scikit-learn为主的一系列python工具,包括 numpy, scipy, pandas, MatplotLib等等。特点是类库丰富,尤其是scikit-learn的机器学习库,可以说是十八般武器,样样都有。另外就是由于可以交互式的编写程序,方便快速开发原型。我参与的有两个项目在可行性分析阶段,都是用scikit-learn来做原型和给客户做demo。

    因此,生产环境中机器学习单机数据平台, Spark是做产品首选,而scikit-learn家族适合做快速的原型开发验证。

2. 研究环境中机器学习平台的搭建

    如果只是做研究,那么选择就很多了,主流的有三种。

    第一种是基于Spark MLlib来学习。好处是学到的东西用到生产环境可以无缝切换,但是坏处也很明显,Spark东西很多,在自己的单机上跑很吃内存,比较慢,而且MLlib的类库并不丰富,很多算法需要自己再去找类库。根据周围同事的反馈,比较吃力,因此基于Spark MLlib来学习机器学习,我个人觉得不是一个好的选择。

    第二种是基于scikit-learn为主的一系列python工具来学习,包括上面提到的numpy, scipy, pandas, MatplotLib等等。好处是类库多,API强大,可以让你专注于数据的分析,例子也多,学习起来不难。当然也有缺点,就是这一大堆的python库,要熟练的用起来需要一段时间。 个人比较推荐这种方法,周围同事来说,用scikit-learn学习交流也是主流。

    第三种是基于R的平台来做机器学习(不包括Spark R),主要平台是R studio。由于R是一门比较老的语言,因此他的数据处理和机器学习的API比较丰富,尤其是对于之前做数据分析师的人来说更是熟悉不过。但是R是一门相对封闭的语言,社区远远没有Python的活跃,而且对于程序员来说, R的那种语法让人难受。几年前,一般会认为R的机器学习比Python的好,但是现在Python已经将R远远甩在了后面。因此,除非你之前已经很熟悉R语言,否则完全不推荐用R来研究机器学习,BTW,这里没有歧视R的意思。

    总之,如果你想研究学习机器学习,并且没有特殊的R背景,scikit-learn是你的首选。当然,有人会说,我喜欢自己去一点点的实现机器学习的算法,不喜欢直接调用类库,这样不行吗? 当然,这样肯定是非常不错的,并且对加深各个算法理解很有好处。只是这样比较的花时间,如果你和我一样时间不太多的话,还是直接调用API来研究数据比较直接。

(欢迎转载,转载请注明出处。欢迎沟通交流: [email protected])

时间: 2024-10-12 03:15:20

机器学习研究与开发平台的选择的相关文章

HybridApp简介以及开发平台的选择

原文网址:http://mi.chinabyte.com/378/12600378.shtml Hybrid App在过去的两年中已经成为移动界的核心话题,但是作为一名Web开发者来说要如何站在移动互联网的浪潮之巅呢?是选择学习原生开发,研究Java.Object-C.C#等语言,还是选择继续使用网页开发,容忍HTML5功能的局限性?就在开发者左右为难的情况下Hybrid App作为一个折中的解决方案诞生了.那么究竟什么才是Hybrid App呢? HybridApp概念 Hybrid App:

HFun.快速开发平台(三)=》通用系统用户选择

系统中用户的选择使用特别多,将该功能统一实现可提升系统效率. 用户的选择实现相对简单,系统中基本都会提供,HFun.快速开发平台中的实现特点主要有: 1.用户的选择分为单用户选择和多用户选择. 2.用户的选择可通过部门进行筛选. 3.可通过用户名进行筛选. 4.提供Url传递默认选中项处理 5.提供全选.反选.取消选择操作. 6.提供回调方法供引用程序自定义数据处理. 7.数据加载.查询筛选使用jquery框架实现. 系统界面如下: 1.单人选择: 2.多人选择:

如何选择电商app开发平台

选择电商app开发平台取决于多种因素.接下来,我们就一起探讨一番,如何选择出一个好的电商app开发平台吧! 一.  App价格 首先,人们常考虑的第一因素就是App开发费用,毕竟谁家的钱都不是大风刮来的. 从大体上来讲,刨除App开发的差异性所产生的不同费用,对比App开发的不同方式,传统App开发,开发流程繁冗复杂,费用成本高,开发周期长,是中小企业和创客无法承担的. 但是新兴起的SaaS技术,将功能组件模块化,可以提前开发好(原生开发),大幅度降低成本费用,缩短时间周期,让客户开发 App的

开发平台是未来软件开发的不二选择

当我们最开始接触软件开发的时候,我们大都是采用记事本来编写程序,运用JDK.MFC等提供的API自己编写代码来完成想要的功能,编写完之后还要编译成可执行的文件,然后再运行.这种方式虽然通俗,但是一点也不方便,慢慢的,编程人员开始寻求比较方便开发的工具,于是诸如eclipse.jbuilder.VC++等等一系列的开发工具便出现在了市面上,这些工具的出现,大大方便了开发人员的编程工作,减少了编程人员很多不必要的麻烦.像包括编译.异常处理.发布.模拟运行等等操作,都可以在这些开发工具上完成. 但是,

如何在程序开发项目中选择合适的 JavaScript 框架,节省时间和成本的9款极佳的JavaScript框架介绍

从技术上来看,iOS,Android 和 Windows Phone 上的移动应用是使用不同的程序语言开发的,iOS 应用使用 Objective-C,Android 应用使用 Java,而 Windows Phone 应用使用 .NET. .随着 JavaScript,CSS 和 HTML 知识技能的提升,相信你也可以构建一个超赞的移动应用.在这篇博客里,我们将会介绍一些极好的 JavaScript 移动应用程序开发框架. 说到网络开发,就不得不说 JavaScript,这是一款很有前途的程序

基于FPGA的图像开发平台 其他摄像头附件说明(OV5642 OV9655)

基于FPGA的图像开发平台 其他摄像头附件说明 FPGA_VIP_V101 编者 奇迹再现 个人博客 http://www.cnblogs.com/ccjt/ 联系邮箱 [email protected] 淘宝网址 http://ccjt.taobao.com 修订记录 见下页 版权归奇迹再现所有,抄袭请注明出处, 参考文献:CrazyBingo原创相关文档.请尊重原创. 前言: 本系统方案理论适合DVP绝大部分摄像头测试,调试及开发,针对其他摄像头,因为寄存器参数不同,需要进行相应移植. 目前

混合开发模式下主流移动开发平台分析

关键字:AppCan 移动开发平台 移动应用 Hybrid App在过去的两年中已经成为移动界的核心话题,但是作为一名Web开发者来说要如何站在移动互联网的浪潮之巅呢?是选择学习原生开发,研究Java.Object-C.C#等语言,还是选择继续使用网页开发,容忍HTML5功能的局限性?就在开发者左右为难的情况下Hybrid App作为一个折中的解决方案诞生了.那么究竟什么才是Hybrid App呢?HybridApp概念Hybrid App:Hybrid App is a mobile appl

机器人开发平台

导言 本文对目前现役实用机器人的软件开发平台进行整体的评测.其中的主要内容是根据本人对这些平台的实际使用经验编写的. 什么是机器人软件开发平台? 所谓的"机器人软件开发平台"我们指的是用来给多种机器人设备开发程序的软件包.它一般包括下列内容: 统一的编程环境 统一的编译执行环境 可重用的组建库 完备的调试/仿真环境 对多种机器人硬件设备的"驱动"程序支持 通用的常用功能控制组件,例如计算机视觉技术.导航技术和机械手臂控制等. 大家可以看到,一个机器人软件开发平台需要

区块链开发技术路线选择的思考(之一)

现在整个技术社区的注意力主要还是在 Web 和移动开发上面,相关人才供销两旺.不过个别有心人已经开始转向大数据分析.深度学习.VR/AR 这些前景看好的技术.最近几个月区块链非常火,所以也有极少数开发者在关注区块链的开发技术. 应该比较客观的看待现在区块链的这一把火.目前无论在中国还是在国外,讨论区块链最积极最热闹的主要是政府官员.金融政策研究者.技术未来学家和学院派学者,跟他们相比,真正在写代码的人发出的声音很小.官员们重视,说明这个技术的潜在影响力巨大,学者重视,说明还有很多技术问题有待解决