收藏 | 数据分析师最常用的10个机器学习算法!

在机器学习领域,有种说法叫做“世上没有免费的午餐”,简而言之,它是指没有任何一种算法能在每个问题上都能有最好的效果,这个理论在监督学习方面体现得尤为重要。

举个例子来说,你不能说神经网络永远比决策树好,反之亦然。模型运行被许多因素左右,例如数据集的大小和结构。

因此,你应该根据你的问题尝试许多不同的算法,同时使用数据测试集来评估性能并选出最优项。

当然,你尝试的算法必须和你的问题相切合,其中的门道便是机器学习的主要任务。打个比方,如果你想打扫房子,你可能会用到吸尘器、扫帚或者拖把,但你肯定不会拿把铲子开始挖坑吧。

对于渴望了解机器学习基础知识的机器学习新人来说,这儿有份数据科学家使用的十大机器学习算法,为你介绍这十大算法的特性,便于大家更好地理解和应用,快来看看吧。

1. 线性回归

线性回归可能是统计学和机器学习中最知名和最易理解的算法之一。

由于预测建模主要关注最小化模型的误差,或者以可解释性为代价来做出最准确的预测。 我们会从许多不同领域借用、重用和盗用算法,其中涉及一些统计学知识。

线性回归用一个等式表示,通过找到输入变量的特定权重(B),来描述输入变量(x)与输出变量(y)之间的线性关系。

Linear Regression

举例:y = B0 + B1 * x

给定输入x,我们将预测y,线性回归学习算法的目标是找到系数B0和B1的值。

可以使用不同的技术从数据中学习线性回归模型,例如用于普通最小二乘和梯度下降优化的线性代数解。

线性回归已经存在了200多年,并且已经进行了广泛的研究。 如果可能的话,使用这种技术时的一些经验法则是去除非常相似(相关)的变量并从数据中移除噪声。 这是一种快速简单的技术和良好的第一种算法。

2. 逻辑回归

逻辑回归是机器学习从统计领域借鉴的另一种技术。 这是二分类问题的专用方法(两个类值的问题)。

逻辑回归与线性回归类似,这是因为两者的目标都是找出每个输入变量的权重值。 与线性回归不同的是,输出的预测值得使用称为逻辑函数的非线性函数进行变换。

逻辑函数看起来像一个大S,并能将任何值转换为0到1的范围内。这很有用,因为我们可以将相应规则应用于逻辑函数的输出上,把值分类为0和1(例如,如果IF小于0.5,那么 输出1)并预测类别值。

由于模型的特有学习方式,通过逻辑回归所做的预测也可以用于计算属于类0或类1的概率。这对于需要给出许多基本原理的问题十分有用。

与线性回归一样,当你移除与输出变量无关的属性以及彼此非常相似(相关)的属性时,逻辑回归确实会更好。 这是一个快速学习和有效处理二元分类问题的模型。

3. 线性判别分析

传统的逻辑回归仅限于二分类问题。 如果你有两个以上的类,那么线性判别分析算法(Linear Discriminant Analysis,简称LDA)是首选的线性分类技术。

LDA的表示非常简单。 它由你的数据的统计属性组成,根据每个类别进行计算。 对于单个输入变量,这包括:

  • 每类的平均值。
  • 跨所有类别计算的方差。

LDA通过计算每个类的判别值并对具有最大值的类进行预测来进行。该技术假定数据具有高斯分布(钟形曲线),因此最好先手动从数据中移除异常值。这是分类预测建模问题中的一种简单而强大的方法。

4. 分类和回归树

决策树是机器学习的一种重要算法。

决策树模型可用二叉树表示。对,就是来自算法和数据结构的二叉树,没什么特别。 每个节点代表单个输入变量(x)和该变量上的左右孩子(假定变量是数字)。

树的叶节点包含用于进行预测的输出变量(y)。 预测是通过遍历树进行的,当达到某一叶节点时停止,并输出该叶节点的类值。

决策树学习速度快,预测速度快。 对于许多问题也经常预测准确,并且你不需要为数据做任何特殊准备。

5. 朴素贝叶斯

朴素贝叶斯是一种简单但极为强大的预测建模算法。

该模型由两种类型的概率组成,可以直接从你的训练数据中计算出来:1)每个类别的概率; 2)给定的每个x值的类别的条件概率。 一旦计算出来,概率模型就可以用于使用贝叶斯定理对新数据进行预测。 当你的数据是数值时,通常假设高斯分布(钟形曲线),以便可以轻松估计这些概率。

朴素贝叶斯被称为朴素的原因,在于它假设每个输入变量是独立的。 这是一个强硬的假设,对于真实数据来说是不切实际的,但该技术对于大范围内的复杂问题仍非常有效。

6. K近邻

KNN算法非常简单而且非常有效。KNN的模型用整个训练数据集表示。 是不是特简单?

通过搜索整个训练集内K个最相似的实例(邻居),并对这些K个实例的输出变量进行汇总,来预测新的数据点。 对于回归问题,新的点可能是平均输出变量,对于分类问题,新的点可能是众数类别值。

成功的诀窍在于如何确定数据实例之间的相似性。如果你的属性都是相同的比例,最简单的方法就是使用欧几里德距离,它可以根据每个输入变量之间的差直接计算。

KNN可能需要大量的内存或空间来存储所有的数据,但只有在需要预测时才会执行计算(或学习)。 你还可以随时更新和管理你的训练集,以保持预测的准确性。

距离或紧密度的概念可能会在高维环境(大量输入变量)下崩溃,这会对算法造成负面影响。这类事件被称为维度诅咒。它也暗示了你应该只使用那些与预测输出变量最相关的输入变量。

7. 学习矢量量化

K-近邻的缺点是你需要维持整个训练数据集。 学习矢量量化算法(或简称LVQ)是一种人工神经网络算法,允许你挂起任意个训练实例并准确学习他们。

Learning Vector Quantization

LVQ用codebook向量的集合表示。开始时随机选择向量,然后多次迭代,适应训练数据集。 在学习之后,codebook向量可以像K-近邻那样用来预测。 通过计算每个codebook向量与新数据实例之间的距离来找到最相似的邻居(最佳匹配),然后返回最佳匹配单元的类别值或在回归情况下的实际值作为预测。 如果你把数据限制在相同范围(如0到1之间),则可以获得最佳结果。

如果你发现KNN在您的数据集上给出了很好的结果,请尝试使用LVQ来减少存储整个训练数据集的内存要求。

8. 支持向量机

支持向量机也许是最受欢迎和讨论的机器学习算法之一。

超平面是分割输入变量空间的线。 在SVM中,会选出一个超平面以将输入变量空间中的点按其类别(0类或1类)进行分离。在二维空间中可以将其视为一条线,所有的输入点都可以被这条线完全分开。SVM学习算法就是要找到能让超平面对类别有最佳分离的系数。

Support Vector Machine

超平面和最近的数据点之间的距离被称为边界,有最大边界的超平面是最佳之选。同时,只有这些离得近的数据点才和超平面的定义和分类器的构造有关,这些点被称为支持向量,他们支持或定义超平面。在具体实践中,我们会用到优化算法来找到能最大化边界的系数值。

SVM可能是最强大的即用分类器之一,在你的数据集上值得一试。

9. bagging和随机森林

随机森林是最流行和最强大的机器学习算法之一。 它是一种被称为Bootstrap Aggregation或Bagging的集成机器学习算法。

bootstrap是一种强大的统计方法,用于从数据样本中估计某一数量,例如平均值。 它会抽取大量样本数据,计算平均值,然后平均所有平均值,以便更准确地估算真实平均值。

在bagging中用到了相同的方法,但最常用到的是决策树,而不是估计整个统计模型。它会训练数据进行多重抽样,然后为每个数据样本构建模型。当你需要对新数据进行预测时,每个模型都会进行预测,并对预测结果进行平均,以更好地估计真实的输出值。

随机森林是对决策树的一种调整,相对于选择最佳分割点,随机森林通过引入随机性来实现次优分割。

因此,为每个数据样本创建的模型之间的差异性会更大,但就自身意义来说依然准确无误。结合预测结果可以更好地估计正确的潜在输出值。

如果你使用高方差算法(如决策树)获得良好结果,那么加上这个算法后效果会更好。

10. Boosting和AdaBoost

Boosting是一种从一些弱分类器中创建一个强分类器的集成技术。 它先由训练数据构建一个模型,然后创建第二个模型来尝试纠正第一个模型的错误。 不断添加模型,直到训练集完美预测或已经添加到数量上限。

AdaBoost是为二分类开发的第一个真正成功的Boosting算法,同时也是理解Boosting的最佳起点。 目前基于AdaBoost而构建的算法中最著名的就是随机梯度boosting。

AdaBoost常与短决策树一起使用。 在创建第一棵树之后,每个训练实例在树上的性能都决定了下一棵树需要在这个训练实例上投入多少关注。难以预测的训练数据会被赋予更多的权重,而易于预测的实例被赋予更少的权重。 模型按顺序依次创建,每个模型的更新都会影响序列中下一棵树的学习效果。在建完所有树之后,算法对新数据进行预测,并且通过训练数据的准确程度来加权每棵树的性能。

因为算法极为注重错误纠正,所以一个没有异常值的整洁数据十分重要。

写在最后

初学者在面对各种各样的机器学习算法时提出的一个典型问题是“我应该使用哪种算法?”问题的答案取决于许多因素,其中包括:

  • 数据的大小,质量和性质; 
  • 可用的计算时间; 
  • 任务的紧迫性; 
  • 你想要对数据做什么。

即使是一位经验丰富的数据科学家,在尝试不同的算法之前,也无法知道哪种算法会表现最好。 虽然还有很多其他的机器学习算法,但这些算法是最受欢迎的算法。 如果你是机器学习的新手,这是一个很好的学习起点。

来源:https://medium.com/@james_aka_yale

原文地址:https://www.cnblogs.com/jpld/p/11241475.html

时间: 2024-10-11 01:22:25

收藏 | 数据分析师最常用的10个机器学习算法!的相关文章

诸葛:数据分析师必需具备的10种分析思维

诸葛认为数据分析师应具备的10种分析思维 : 一.逻辑思维逻辑思维即明白价值链,明白各项数据中的关系; 该方法的关键在于明白其中的关系要求你对这项工作要了解.熟悉,要细致和慎密,要清楚充分性和必要性的关系. 实际上也就是指:你需要哪些数据?如何获得这些数据?数据之间的关系如何? 二.向上思维在看完数据之后,要站在更高的角度去看这些数据,站在更高的位置上,从更长远的观点来看,从组织.公司的角度来看,从更长的时间段(年.季度.月.周)来看,从全局来看,你会怎样理解这些意义呢?也许向上思维能让你更明白

数据科学家应该掌握的12种机器学习算法

算法已经成为我们日常生活的一个重要组成部分,它们几乎出现在商业的任何领域.调查公司 Gartner 称这种现象为「算法化商业」,算法化商业正在改变我们经营和管理公司(应有的)的方式.现在,你可以在「算法市场」上买到这些适用于各个商业领域的多种算法.算法市场为开发者提供了包括声音和视觉处理.机器学习以及计算机视觉等领域在内的超过800种算法,这些成熟的算法帮助开发者节省宝贵的时间与金钱. 然而,算法市场上可用的算法可能并不符合你的特定需求.毕竟,你需要不同的算法来应付不同的情况,而相同的算法在不同

搜索系统10:机器学习算法浅析

很多网站都有猜你喜欢,我对淘宝的推荐还是比较满意的.很多算法都可以实现推荐功能,下面来看一看机器学习的算法: 1.回归算法. 回归的意思大概是,估计这堆数据这个规律,然后找出这个规律,这个过程就是回归.spark的MLlib中有线性回归.逻辑回归.保序回归三种. 比如, 假设订单数与价格有f(x)=wx+b这么一个关系(线性模型),那我就收集一大堆订单和订单的价格.但我并不知道w和b这两个参数是啥,那么我就可以用mllib来通过我的数据计算出这两个参数来. 2.聚类与分类算法. 聚类与分类的区别

CDA数据分析师认证培训 北京&深圳11月班开始报名

CDA数据分析师认证培训上海10月班.北京&深圳11月班开始报名,推荐就业,颁发证书! 大 数据,一个热的发烫.众人论调.甚至有些让人厌恶的词  眼.是忽悠?是炒作?还是一个难题!聊了3年的“大数据”,  似乎每个人都爱上了或被迫关注到这样一个技术的巨大商业价  值,但幻想始终是幻想,数据分析师默默工作的背影却难以诉  说!扎实的技术,业务的精通,靠谱的团队,接地气的策略,  才是你我应该关注的领域! CDA给你的就是让你冷静下来,一步一步学好技术,一步一步自我净(进)化! CDA课程体系包含了

七周成为数据分析师02_业务分析指标

成为一名合格的数据分析师,业务知识很重要.光有分析技巧但没有业务知识支撑,分析出的结果也只会是空中楼阁,难以落地推行. 只有理解业务,才能建立业务数据模型. 经典的业务分析指标 指标:如果你不能衡量它,你就无法增长它. 将业务场景用指标来衡量,更有利于对业务知识的把握. 指标建立的要点: 建立核心指标(明确当前核心需求) 好的指标应该是比率 好的指标应该能带来显著效果(易于执行落地) 好的指标不应该虚荣(纯粹为了数字好看,没有考虑实际情况) 好的指标不应该很复杂(直接干净简单利落) 1. 市场营

年薪50万的大数据分析师养成记【摘抄】

以下是一位在数据分析领域打滚了N年后,写下的一些体会,一定能给新人一些借鉴的地方.(总结的不错,大家可以借鉴学习哦) 一.数据分析师有哪些要求? 1.理论要求及对数字的敏感性,包括统计知识.市场研究.模型原理等. 2.工具使用,包括挖掘工具.数据库.常用办公软件(excel.PPT.word.脑图)等. 3.业务理解能力和对商业的敏感性.对商业及产品要有深刻的理解,因为数据分析的出发点就是要解决商业的问题,只有理解了商业问题,才能转换成数据分析的问题,从而满足部门的要求. 4.汇报和图表展现能力

年薪50万的大数据分析师养成记

以下是一位在数据分析领域打滚了N年后的分析师写下的一些总结和体会大家可以借鉴学习! 一.成为数据分析师有哪些要求? 1.理论知识要宽泛,涉及数学.市场和技术.要求及对数据敏感,包括统计知识.市场研究.模型原理等. 2.常规分析工具的使用,包括数据库.数据挖掘.统计分析工具,常用办公软件(Excel.PPT.思维导图)等等. 3.有一定的业务理解能力,能理解业务背后的商业逻辑.因为只有理解了商业问题,才能转换成数据分析的问题,从而满足部门的要求. 4.数据报告和数据可视化的能力.数据分析得再好,如

合格大数据分析师应该具备的技能

阶段一.业务数据分析师 课程一.数据挖掘/分析师之硬技能 - 必备常用工具使用与高级技巧 本部分内容主要介绍了数据挖掘.分析师.数据产品经理必备的常用工具的,主要有 Excel,Visio,Xmind,PPT的涉及图表数据分析方面的高级技巧,包括但不限于:数据透视表演练.Vision跨职能流程图演练.Xmind项目计划导图演练.PPT高级动画技巧等! 一.Excel 1)数据分析工具EXECL入门介绍2)数据透视表演练 3) 数据处理4) EXECL报告自动化5) PPT报告数据自动化 二.Vi

数据分析师如何构建自己的网气 IP

说明:以下经验来自爱数圈老大 邓凯的2019年年会分享,总结的很好.很多地方深有共鸣,保留下来也借以时刻提醒自己前行的路上不要走偏. 12月28日,咱们圈子在上海举行了一次年底聚会,有山西来的.有厦门来的,还有一些杭州.江苏来的小伙伴,本来聚会后本想请外地的圈友一起来吃饭,结果小雪忘记了是哪些人,所以只通知了几个外地的小伙伴,这里非常感谢大家的信任和支持. 聚会结束后,也邀请了现场帮忙的圈友们一起吃了饭,又畅聊了一番,大家纷纷表示与我结缘的故事,让我很有成就感,所以当天又喝了几杯(连续三天喝),