机器学习常见算法个人总结(面试用)

By Kubi Code

朴素贝叶斯

参考[1]

事件AB同时发生的概率为在A发生的情况下发生B或者在B发生的情况下发生A
P(A∩B)=P(A)?P(B|A)=P(B)?P(A|B)
所以有:
P(A|B)=P(B|A)?P(A)P(B)

对于给出的待分类项,求解在此项出现的条件下各个目标类别出现的概率,哪个最大,就认为此待分类项属于哪个类别

工作原理

  1. 假设现在有样本x=(a1,a2,a3,…an)这个待分类项(并认为x里面的特征独立)
  2. 再假设现在有分类目标Y={y1,y2,y3,y4..yn}
  3. 那么max(P(y1|x),P(y2|x),P(y3|x)..P(yn|x))就是最终的分类类别
  4. 而P(yi|x)=p(x|yi)?P(yi)P(x)
  5. 因为x对于每个分类目标来说都一样,所以就是求max(P(x|yi)?p(yi))
  6. P(x|yi)?p(yi)=p(yi)?∏i(P(ai|yi))
  7. 而具体的p(ai|yi)和p(yi)都是能从训练样本中统计出来
    p(ai|yi)表示该类别下该特征出现的概率
    p(yi)表示全部类别中这个这个类别出现的概率
  8. 好的,就是这么工作的^_^

工作流程

  1. 准备阶段
    确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本。
  2. 训练阶段
    计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计
  3. 应用阶段
    使用分类器进行分类,输入是分类器和待分类样本,输出是样本属于的分类类别

属性特征

  1. 特征为离散值时直接统计即可(表示统计概率)
  2. 特征为连续值的时候假定特征符合高斯分布:g(x,n,u)
    那么p(ak|yi)=g(xk,ni,ui)

Laplace校准(拉普拉斯校验)

当某个类别下某个特征划分没有出现时,会有P(a|y)=0,就是导致分类器质量降低,所以此时引入Laplace校验,就是对没类别下所有划分的计数加1。

遇到特征之间不独立问题

参考改进的贝叶斯网络,使用DAG来进行概率图的描述

优缺点

朴素贝叶斯的优点:

    1. 对小规模的数据表现很好,适合多分类任务,适合增量式训练。
      缺点:
    2. 对输入数据的表达形式很敏感(离散、连续,值极大极小之类的)。
时间: 2024-10-10 19:47:22

机器学习常见算法个人总结(面试用)的相关文章

机器学习常见算法优缺点总结

机器学习常见算法优缺点总结 K近邻:算法采用测量不同特征值之间的距离的方法进行分类. 优点: 1.简单好用,容易理解,精度高,理论成熟,既可以用来做分类也可以用来做回归: 2.可用于数值型数据和离散型数据: 3.训练时间复杂度为O(n):无数据输入假定: 4.对异常值不敏感 缺点: 1.计算复杂性高:空间复杂性高: 2.样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少): 3.一般数值很大的时候不用这个,计算量太大.但是单个样本又不能太少 否则容易发生误分. 4.最大的缺点是无法给

机器学习常见算法分类汇总

机器学习常见算法分类汇总 机器学习无疑是当前数据分析领域的一个热点内容.很多人在平时的工作中都或多或少会用到机器学习的算法.这里 IT 经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考. 机器学习的算法很多.很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的.这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性. 学习方式 根据数据类型的不同,对一个问题的建模有不同的方式.在机器学习或者人工智能领域,人们首先会考虑算法的学习

[Machine Learning] 机器学习常见算法分类汇总

声明:本篇博文根据http://www.ctocio.com/hotnews/15919.html整理,原作者张萌,尊重原创. 机器学习无疑是当前数据分析领域的一个热点内容.很多人在平时的工作中都或多或少会用到机器学习的算法.本文为您总结一下常见的机器学习算法,以供您在工作和学习中参考. 机器学习的算法很多.很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的.这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的分类. 博主根据原创基础上加入了遗

人工智能之机器学习常见算法

摘要 之前一直对机器学习很感兴趣,一直没时间去研究,今天刚好是周末,有时间去各大技术论坛看看,刚好看到一篇关于机器学习不错的文章,在这里就分享给大家了. 机器学习无疑是当前数据分析领域的一个热点内容.很多人在平时的工作中都或多或少会用到机器学习的算法.这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考. 机器学习的算法很多.很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的.这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法

机器学习常见算法个人总结(面试用)【转载】

朴素贝叶斯 参考[1] 事件A和B同时发生的概率为在A发生的情况下发生B或者在B发生的情况下发生AP(A∩B)=P(A)∗P(B|A)=P(B)∗P(A|B) 所以有:P(A|B)=P(B|A)∗P(A)P(B) 对于给出的待分类项,求解在此项出现的条件下各个目标类别出现的概率,哪个最大,就认为此待分类项属于哪个类别 工作原理 假设现在有样本x=(a1,a2,a3,…an)这个待分类项(并认为x里面的特征独立) 再假设现在有分类目标Y={y1,y2,y3,y4..yn} 那么max(P(y1|x

机器学习常见算法及原理总结(干货)

朴素贝叶斯 参考[1] 事件A和B同时发生的概率为在A发生的情况下发生B或者在B发生的情况下发生A P(A∩B)=P(A)?P(B|A)=P(B)?P(A|B) 所以有: P(A|B)=P(B|A)?P(A)P(B) 对于给出的待分类项,求解在此项出现的条件下各个目标类别出现的概率,哪个最大,就认为此待分类项属于哪个类别 工作原理 1.假设现在有样本x=(a1,a2,a3,-an)这个待分类项(并认为x里面的特征独立) 2.再假设现在有分类目标Y={y1,y2,y3,y4..yn} 3.那么ma

机器学习常见算法总结(面试用)

朴素贝叶斯 参考[1] 事件A和B同时发生的概率为在A发生的情况下发生B或者在B发生的情况下发生A P(A∩B)=P(A)?P(B|A)=P(B)?P(A|B) 所以有: P(A|B)=P(B|A)?P(A)P(B) 对于给出的待分类项,求解在此项出现的条件下各个目标类别出现的概率,哪个最大,就认为此待分类项属于哪个类别 工作原理 1.假设现在有样本x=(a1,a2,a3,-an)这个待分类项(并认为x里面的特征独立) 2.再假设现在有分类目标Y={y1,y2,y3,y4..yn} 3.那么ma

机器学习 常见算法分类

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能. 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳.综合而不是演绎. 综合分类 综合考虑各种学习方法出现的历史渊源.知识表示.推理策略.结果评估的相似性.研究人员交流的相对集中性以及应用领域等诸因素.将机器

【361】机器学习常见算法

K-近邻算法(K Nearest Neighbors) 参考:机器学习实战教程(一):K-近邻算法(史诗级干货长文) 决策树算法(Decision Tree) 参考:机器学习实战教程(二):决策树基础篇之让我们从相亲说起 参考:机器学习实战教程(三):决策树实战篇之为自己配个隐形眼镜 朴素贝叶斯算法(Naive Bayes) 参考:机器学习实战教程(四):朴素贝叶斯基础篇之言论过滤器 参考:机器学习实战教程(五):朴素贝叶斯实战篇之新浪新闻分类 参考:朴素贝叶斯分类器的应用 —— 阮一峰 参考: