更快找到正确的机器学习算法

(此文章同时发表在本人微信公众号“dotNET每日精华文章”,欢迎右边二维码来关注。)

题记:机器学习无疑是现在一个高大上的热点,而且微软在Azure提供了机器学习的服务。那么如何更快找到正确的机器学习算法呢?微软也给大家提供了建议。

随着大数据的深入应用,机器学习也从学术界逐步走入到工业界,现在电子商务、社交、广告、智能硬件都有机器学习的身影。微软作为一家有着深厚科研实力的公司,不仅在Azure中提供了机器学习的服务供大家选用,还提供了一个名为Azure Machine Learning Studio的在线工具让大家更方便的学习和使用机器学习。

这个工具提供了大量的算法让你用于自己的分析解决方案当中,这些算法大致分为如下几类:回归、归类、聚集、异常检测。每种算法都是为了解决机器学习中遇到的特定问题而设计的。那么问题来了,如何为自己的问题选择正确的算法呢?微软在《Microsoft Azure Machine Learning Algorithm Cheat Sheet》给我们提供了一个很好的指南。这是一个选择流程图,大致流程文字描述如下:

  1. 是否要预测未来的数据点
  2. 如果否,那么选择聚集算法(只有k近邻算法可选)
  3. 如果是,那么看要预测的是分类还是值
  4. 如果是值,那么需要到回归类别的算法中去选用
  5. 如果是分类,还要看分类数量
  6. 大于两类,那么需要到多级归类类别的算法中去选用
  7. 小于两类,要到异常检测算法中去选用
  8. 等于两类,要到两级归类类别的算法中去选用

当然整个流程图远不是以上简单文字能完全解释清楚的,有兴趣深入研究的读者可以“阅读原文”来访问这个文档的介绍页面。在这个页面中,也有这个流程图的pdf格式下载。

原文地址:http://azure.microsoft.com/en-us/documentation/articles/machine-learning-algorithm-cheat-sheet

时间: 2024-08-24 14:55:53

更快找到正确的机器学习算法的相关文章

更快的求整数幂算法

相信整数幂运算作为一个算法演变的例子是再合适不过的了为了节省访客们宝贵的学习时间省去介绍递归等可能涉及到的初级概念的定义.同时如果发现文中有错误的地方请敞开衣服指正. 因为在测试性能时合适的测试数据是必要的,所以本文用C++的大数类进行演示. 点击获取C++大数类源码 这里我们先列一下会提到的算法分析技术: 动态规划 减治法 测试平台: Linux g++ 4.7 原始递归方法 这就不花时间赘述什么了. BigInteger pow(BigInteger x, int N) { if (N ==

西蒙算法在量子计算机上“跑”得更快

来自南非的一组研究团队近日成功地在量子计算机上运行了西蒙算法(Simon’s algorithm),且这一算法在量子计算机上的运行表现比电子计算机表现得更好.相关论文刊登在<物理评论快报>上. 量子计算机是一种基于量子力学的计算设备,用来存储数据的对象是量子比特而非经典计算机的电子比特. 科学界普遍认为,由于量子计算机能够利用量子纠缠和叠加等独特的量子物理属性,在运行某些特定算法时,它会比现有计算机更为快速和高效.遗憾的是,到目前为止,还没有办法在量子计算机上运行这些量子算法来检验这一理论.

8种常见机器学习算法比较

机器学习算法太多了,分类.回归.聚类.推荐.图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验.通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择.假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(cross-validation)对各个算法一个个地进行测试,进行比较,然后调整参数确保每个算法达到最优解,最后选择最好的一个.但是如果你只是在寻找一个

(转)8种常见机器学习算法比较

机器学习算法太多了,分类.回归.聚类.推荐.图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验.通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择.假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(cross-validation)对各个算法一个个地进行测试,进行比较,然后调整参数确保每个算法达到最优解,最后选择最好的一个.但是如果你只是在寻找一个

机器学习算法比较

原文地址:http://www.csuldw.com/2016/02/26/2016-02-26-choosing-a-machine-learning-classifier/ 本文主要回顾下几个常用算法的适应场景及其优缺点! 机器学习算法太多了,分类.回归.聚类.推荐.图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验.通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错

机器学习算法与Python实践之(四)支持向量机(SVM)实现

机器学习算法与Python实践之(四)支持向量机(SVM)实现 机器学习算法与Python实践之(四)支持向量机(SVM)实现 [email protected] http://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书.因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法.恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了. 在这一节我们主要是

机器学习算法基础概念学习总结

转自:http://blog.csdn.net/lantian0802/article/details/38333479 1.基础概念: (1) 10折交叉验证:英文名是10-fold cross-validation,用来测试算法的准确性.是常用的测试方法.将数据集分成10份.轮流将其中的9份作为训练数据,1分作为测试数据,进行试验.每次试验都会得出相应的正确率(或差错率).10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证,在求其平均值,对算法的准

与阿里云整个生态体系共同成长,更快更好的为房地产行业客户提供高价值的服务。

免费开通大数据服务:https://www.aliyun.com/product/odps "最早是新业务要做,但是买服务器来不及,管理员没到位,而且新业务的成本很高,是否能成功也是未知,因此明源决定采用阿里云,等资金和人到位再搬到自己内部.然而就是这种误打误撞,却让明源抓住了一个很好的机会走在了正确的轨道上."--副总裁童继龙"阿里云数加的覆盖面很广,从存储.计算到上层应用,提供了一整套的解决方案,确实起到了马总说的普惠大数据.此外,数加也在不断的迭代,不停的有新产品出现,

机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)

机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书.因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法.恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了. 这节学习的是逻辑回归(Logistic Regression),也算进入了比较正统的机器学习算法.啥叫正统呢?我概念里面机器学习算法一般是这样一个步骤: 1)对于一个问题,我们用数学语言来描述它,然后建立一个模型,例如回归模型或者分类模型等