挑选合适的机器学习资料

挑选合适的机器学习资料

  • 商业人群

    • 对机器学习感兴趣的商务人士
    • 在项目中应用机器学习的经理人
  • 学术人群
    • 机器学习专业的本科生或研究生
    • 机器学习领域的研究人员
    • 利用机器学习建模的其他领域的研究人员
  • 工程人群
    • 实现算法的编程人员
    • 交付一次性预测信息的开发人员
    • 改进软件和服务的工程师
  • 数据人群
    • 希望获得商业问题优化方案的数据科学家
    • 希望能更好地解释数据的数据分析师

商业人群

通常来讲,这类人群希望在商业上有效地使用机器学习,但并不需要掌握其算法或工具的实现细节。在商业领域,机器学习技术已经广泛地用于预测分析。

对机器学习感兴趣的商务人士

这类人群包括总经理及咨询顾问,对他们而言,机器学习会对以后的项目和策划起到战略指导的作用。

以下资源对此类人群做战略思考会有帮助:

  1. Gartner‘s Magic Quadrant for Advanced Analytics Platforms, 2015
  2. Gartner‘s Machine Learning Drives Digital Business, 2014
  3. McKinsey’s An executive’s guide to machine learning, 2015

项目经理人

机器学习对于这类人群负责的项目非常适用。对他们来说,有用的资料是关于各种问题和算法的全面概括,而不需要关注太多细节。

可以参考以下书籍:

  1. Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die
  2. Data Science for Business: What you need to know about data mining and data-analytic thinking
  3. Data Smart: Using Data Science to Transform Information into Insight

学术人群

通常来讲,这类人群主要指学生,包括本科生、研究、博士后、研究助理等。

学术人群可能会花大量时间研究他们论文中的某个机器学习算法。 在此,我推荐他们看一篇文章 How to Research a Machine Learning Algorithm,了解关于算法方面的研究。

机器学习专业的本科生或研究生

机器学习专业的学生通常会上一些关于技术和算法的课程,因此他们对相关的具体问题会更感兴趣。学生一般比较专注,也有时间深入去钻研。这类人群最好阅读教科书。

以下是机器学习领域里最好的教科书:

  1. Learning from Data
  2. Machine Learning: A Probabilistic Perspective
  3. Pattern Recognition and Machine Learning
  4. The Elements of Statistical Learning: Data Mining. Inference. and Prediction

机器学习领域的研究人员

机器学习领域的研究人员会深入了解机器学习的某个方面,并努力去扩展该领域。研究人员对本专业的研究论文、期刊、组织、网络等很感兴趣。教科书对他们来说,可就不适用了。他们需要参考一些知名度高的期刊和论文集:

  1. Journal of Machine Learning Research (JMLR)
  2. Neural Information Processing Systems (NIPS)
  3. Knowledge Discovery and Data Mining (SIGKDD)
  4. International Conference on Machine Learning (ICML)

看一下 Quora 上关于 What are the best conferences and journals about machine learning?

这儿有一个排名前 50 位的人工智能期刊列表

利用机器学习建模的其他领域的研究人员

其他领域的研究人员可能也会对机器学习感兴趣,但是是把它当作工具。他们更关注用自己的数据建造描述性或预测性的模型。例如,客户研究、地质学、或者生物学领域的科学家有他们自己的数据集。他们会用建模的方法来预测未来可能会发生的问题。

相比于模型的准确度,他们更关注模型的可解释性。因此,从统计学借鉴过来的简单易懂的方法更易被接受,例如线性回归和逻辑回归。

当然,好的系统化过程仍然是必要的。

我会推荐“工程人群”里提到的资源,尤其是针对交付一次性预测信息的开发人员的部分。另外可以看一下“数据人群”里数据科学家那部分。

工程人群

工程人群基本上是开发人员,他们希望将机器学习用于自己项目的解决方案中。对于开发人员,推荐一篇很好的文章 Machine Learning for Programmers

工程人群可以从答疑网站的机器学习社区中获得很多帮助和支持。更多的信息,可以参考文章 Machine Learning Communities

实现算法的编程人员

对于编程人员来说,一个很好的掌握机器学习技能的方法是:从零基础开始,利用现有的编程能力实现机器学习的算法。

这个方法我讲过很多次,也在我的博文 Understand Machine Learning Algorithms By Implementing Them From Scratch 中提供了很棒的小窍门和资源。

在这篇博文中,我还针对这个方法推荐了三本书

  1. Data Science from Scratch: First Principles with Python
  2. Machine Learning in Action
  3. Machine Learning: An Algorithmic Perspective

交付一次性预测信息的开发人员

一个开发人员不一定得是很棒的程序员,而编程也不需要交付一个准确可靠的预测模型。

一个一次性的预测模型可以在商业环境中提供一套预测信息。在自学、处理实际数据集甚至在机器学习竞赛中,这种模型都算是非常理想的。

如果你经历过系统地解决问题的全部过程,并提供出一个独立的模型,你将获益良多。

  1. Data Mining: Practical Machine Learning Tools and Techniques
  2. Applied Predictive Modeling

你可以从我的博文 Process for working through Machine Learning Problems 中了解到端对端的解决机器学习问题的系统流程。

改进软件和服务的工程师

一个工程师要想在他们的软件项目中加入机器学习,需要掌握的知识包括算法、端对端解决问题、以及在软件实际运转的情况下如何让算法可靠执行。这类人群是从前面的两类人群成长而来的,称他们为机器学习工程师可能更恰当。他们致力于使用高速的算法来提供准确可靠的结果,并在二者中寻求平衡。这类人群也大量使用了机器学习书库和基础架构。

在启动中的机器学习书库中,包括如下有用的资源:

  1. Building Machine Learning Systems with Python
  2. Learning scikit-learn: Machine Learning in Python
  3. Practical Data Science with R
  4. Machine Learning with R

另外,还可以参阅文章 Building a Production Machine Learning Infrastructure

数据人群

通常来说,这类人群主要跟数据打交道,但可能也需要用到机器学习的知识。

希望获得商业问题优化方案的数据科学家

一名优秀的数据科学家,绝不能停止学习。你必须了解最新的数据流、技巧和算法。这包括你需要用来描述数据和创建预测模型的机器学习技能。无论是“工程人群”项下列出的更为实用的资源中,还是“学术人群”项下列出的更为理论化的资源,数据科学家都可以获取自己需要的资源。

但是一些以数据科学为主的机器学习资源既有实用性又有理论性,这些资源包括:

  1. Applied Predictive Modeling
  2. An Introduction to Statistical Learning: with Applications in R
  3. Machine Learning for Hackers

希望能更好地解释数据的数据分析师

数据分析员主要对商业利益背景下的数据解释感兴趣。有时,机器学习算法有助于得出性能更好的模型。这些模型大多为描述模型,但是有时也包括预测模型。和“其他领域的研究人员”这个群体一样,这个群体可能在统计学和统计推论上有着良好的基础。另外,由于他们对描述模型最感兴趣,因此掌握线性回归和逻辑回归之类的经典算法可能就足够了。相对于准确性,所得模型的解释能力更好。

从统计推论的角度而言,上文提到的资源很很有用。

原文地址:https://www.cnblogs.com/syq666/p/8706454.html

时间: 2024-10-14 04:54:10

挑选合适的机器学习资料的相关文章

机器学习资料与攻略超强整理吐血推荐(二)

在前文<机器学习资料与攻略超强整理吐血推荐(一)>中,我们讲到要进入人工智能的圈子,数学是不可逾越的第一关,然后我们又推荐了一些你必须掌握的数学方面的资料.接下来,在这一篇中,我们将介绍关于机器学习的理论与工具方面的资料. 二.工具篇 工欲善其事,必先利其器.大数据时代,人工智能的工具趋势是显而易见且确定无疑的.作为一名数据科学家,其实你可以选择的工具非常多,其实随着时代的发展和技术的演进,传统的SPSS.STATA和SAS等这些老牌数据分析工具都已经集成了机器学习和数据挖掘的模块.当然,这不

机器学习资料收集

Harvard机器学习资料(video) http://cm.dce.harvard.edu/2011/02/23101/publicationListing.shtml 1. ml-class.org 级别相当于S校的CS229A,注重Application,适合大二的学生学习,产生兴趣.但这个理论性差的太多,按Ng的说法是计算机系的学这个只能给个C 2. CS229 see.stanford.edu有SCPD的视频作业等等,我现在正在学习,正常的Advanced Undergraduate/

如何挑选合适的项目管理系统?

对于一些想要引进或者购买项目管理系统的企业和事业单位,是一个需要提前了解清楚的问题.要想买到合适自己并且物有所值的项目管理系统,在挑选项目管理系统的时候,要先了解清楚这三方面信息.分别是:软件性能特点.软件功能.软件供应商背景. 一.软件性能特点 软件性能特点包括这几方面:容量.操作简易性.兼容性.安装要求.容错性和可靠性. 二.软件功能 软件功能,项目管理系统的核心内容,必须符合贵公司购买项目管理系统的需求. 三.软件供应商背景 软件供应商背景,可以查看该公司的主要业务.该公司在同行中评价.公

史上最全的机器学习资料(上) 转

转自:http://www.afenxi.com/post/18593 摘要: 机器学习牵涉的编程语言十分之广,包括了MATLAB.Python.Clojure.Ruby等等.为了让开发者更加广泛.深入地了解机器学习,云栖社区组织翻译了GitHub Awesome Machine Learning 资源,涵盖24种编程语言的机器学习的框架.库以及其他相关资料. 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.

转:机器学习资料书籍

链接:http://suanfazu.com/t/topic/15 入门书单 <数学之美> PDF586作者吴军大家都很熟悉.以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用. <Programming Collective Intelligence>(<集体智慧编程>)PDF343作 者Toby Segaran也是<BeautifulData : The Stories Behind Elegant Data Solutions>(<数

神经网络和机器学习资料整理

公开课Andrew Ng 的机器学习公开课Geoffrey Hinton 的神经网络的公开课 学习和参考书 常用网址 Referencetornadomeet整理的学习资料和常用链接

【转】机器学习资料汇总

想做机器学习,推荐下面资料: C++计算机视觉 CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库 OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, Linux, Android and Mac OS操作系统. 通用机器学习 MLPack DLib ecogg shark Closure通用机器学习 Closure Toolbox—Clojure语言库与工具的分类目录 Go自然语言处理 go-porterstemmer—

史上最强机器学习资料------来自个人心血总结-----5星级

数据集:公开数据集    100+有趣的数据集的统计数据     http://rs.io/100-interesting-data-sets-for-statistics/    数据集 subreddit                     https://www.reddit.com/r/datasets    UCI机器学习库                        http://archive.ics.uci.edu/ml/ 资料:来自于个人博客               

机器学习资料《分布式机器学习算法理论与实践》+《白话机器学习算法》+《Python机器学习基础教程》

机器学习正在迅速改变我们的世界.我们几乎每天都会读到机器学习如何改变日常的生活. 人工智能和大数据时代,解决最有挑战性问题的主流方案是分布式机器学习! <分布式机器学习:算法.理论与实践>电子书资料全面介绍分布式机器学习的现状,深入分析其中的核心技术问题,并且讨论该领域未来的发展方向. 我认为第3章到第8章是核心,讲解分布式机器学习的框架及其各个功能,分别针对其中的数据与模型划分模块.单机优化模块.通信模块.数据与模型聚合模块加以介绍.最有用的是第9章,学习由分布式机器学习框架中不同选项所组合