机器学习基础统计学(频率派与贝叶斯派)

一、频率派

  假设X为随机数据,其矩阵表示维度为N,假设θ为X随机数的特征,频率派认为在一次实验中,如果时间A发生了,那么则认为事件A的发生一定是事件A的概率最大,记为P(x=A)最大,由假设可知事件A发生的概率和θ有关。



  极大似然是指一次试验就发生的事件,这个事件本身发生概率最大,极大似然估计具体求解与推导公式如下:

  假设:x是服从某个概率的分别,可以用概率P =p(x|Θ),其中Θ为概率分布的某个特征值,p(x|Θ)为事件x发生的概率。现在进行一次关于x的试验,得到样本值为(x1,x2,x3,···,xn)时,依据极大似然估计原理可以得出;

          L(Θ) = L(x1,x2,x3,···,xn;Θ)  

            = p(x1|Θ)·p(x2|Θ),···,p(xn|Θ)

  由极大使然估计原理可知:L(Θ)最大,则可以改写如下:

              

  为了表示计算方便,等式双方取对数:

  令对数释然函数

求解:

   设  

  为了使Θ参数值最大,则方程可为:

                                                                   

 令其偏导数为0求偏微分解方程组,求解方程可以采用梯度下降法

   梯度下降法原理如下:(这里采用例子进行说明)

         假设求下列函数最小值 :           

        采用梯度下降法:我们假设初始点为为(1,1),学习率为0.1,对Θ求导,则Θ = 2Θ1+2Θ2

         则函数的梯度为:                 

          计算过程如下:

        其数学原理可以参考如下博客链接:
          https://blog.csdn.net/weixin_42278173/article/details/81511646

                  若可导:



二、贝叶斯统计学                

先了解相关概念“先验概率”与“后验概率”,以一个例子来说明:假设喜欢打球的人在人群中的占比为30%,即100人中会有30个人爱好球类。

  则有: P(球) = 30%,这个就叫作"先验概率"。

  设:现在从爱好球类的人中,已知50%的人喜欢喝可乐。也就是说,如果从爱好球类的人抽样,该检测法有50%的概率会喜欢和可乐,但也有50%的概率不爱喝可乐。

     用概率条件概率表示即为:P(爱喝可乐|喜爱球类)=50%

  现在我们想知道的是:在随机抽样一个人,某人的爱喝可乐P(爱喝可乐|人群中),这个称为"后验概率"。

“贝叶斯公式”其实就是已知先验概率求解后验概率,具体公式推导如下:

    基础公式1:

      

                                       

      注:P(B|A)为在A条件下B发生的概率

          

    则全概率公式为:



机器学习基础统计学(频率派与贝叶斯派)

原文地址:https://www.cnblogs.com/fanshaoxiang/p/11982740.html

时间: 2024-08-30 05:19:09

机器学习基础统计学(频率派与贝叶斯派)的相关文章

理解频率派和贝叶斯派

频率派 \(vs\) 贝叶斯派 一.前言 在使用各种概率模型时,比如极大似然估计 \(logP(X|\theta)\),已经习惯这么写了,可是为什么这么写?为什么X在前,为什么 \(\theta\) 在后,分别代表了什么?这些更深一层的逻辑和理由不是特别清晰,故此梳理一下频率派与贝叶斯派的区别. 本文参考了网络上诸多资料,特别时B站Up shuhuai008和知乎上的贝叶斯学派与频率学派有何不同? 二.理解 贝叶斯派以人为主体,已经观测到的客观事件会对人的认知产生改变(客观事件为人服务) 频率派

机器学习理论基础学习1——频率派 VS 贝叶斯派

频率派 贝叶斯派 theta是个未知的常量,X是随机变量, theta是个随机变量,X是随机变量 MLE最大似然估计 MAE最大后验概率 统计机器学习,优化问题 1)建立模型.概率 2)定义损失函数 3)梯度下降/牛顿法求解 概率图模型 求积分(用蒙特卡洛方法取样) 原文地址:https://www.cnblogs.com/nxf-rabbit75/p/10272391.html

机器学习基础——带你实战朴素贝叶斯模型文本分类

本文始发于个人公众号:TechFlow 上一篇文章当中我们介绍了朴素贝叶斯模型的基本原理. 朴素贝叶斯的核心本质是假设样本当中的变量服从某个分布,从而利用条件概率计算出样本属于某个类别的概率.一般来说一个样本往往会含有许多特征,这些特征之间很有可能是有相关性的.为了简化模型,朴素贝叶斯模型假设这些变量是独立的.这样我们就可以很简单地计算出样本的概率. 想要回顾其中细节的同学,可以点击链接回到之前的文章: 机器学习基础--让你一文学会朴素贝叶斯模型 在我们学习算法的过程中,如果只看模型的原理以及理

统计学中的频率学派与贝叶斯学派

对于技术应用人员来说,我们更看重方法的应用,但有时候对知识的背景做一些了解,我觉得还是挺有必要的,能帮助我们理解一些东西.这篇博文里,不会呈现任何计算公式,只是讨论一下贝叶斯学派与频率学派之间的问题. 贝叶斯学派与频率学派是当今数理统计学的两大学派,基于各自的理论,在诸多领域中都起到了重要作用.自20世纪初数理统计学大发展开始,一直到20世纪中叶,频率学派一直占据主导地位,当时诸多大咖如Fisher.K.Pearson等都属于频率学派,而从20世纪中叶以后,贝叶斯学派迅速发展壮大起来,可与频率学

机器学习实战0:评论爬虫+贝叶斯模型标注恶意评论+分布式形式

一 引言 本程序是一个完整的机器学习过程,先编写基于python的爬虫脚本,爬取目标论坛网站的评论到本地存储,然后使用贝叶斯分类模型对评论进行分类,预测新 的评论是否为垃圾评论.如果遇到大数据量的问题,可以把贝叶斯算法写成mapreduce模式,map负责把数据集划分成键值对格式,类序号为key,属 性向量为value,reduce进行汇总每类的先验概率和条件概率,主server汇总所有类的统计量. 二 爬虫脚本 1 编写爬虫脚本,爬取目标论坛的评论.其中,headers是必须的,因为我们需要伪

机器学习算法整理(六)— 贝叶斯算法_拼写纠正实例_垃圾邮件过滤实例

(p(h): 先验概率) 垃圾邮箱过滤实例 原文地址:https://www.cnblogs.com/douzujun/p/8457806.html

机器学习算法整理(六)— 贝叶斯算法_实现垃圾邮件过滤

垃圾邮件过滤实例 原文地址:https://www.cnblogs.com/douzujun/p/8457865.html

机器学习基础系列--先验概率 后验概率 似然函数 最大似然估计(MLE) 最大后验概率(MAE) 以及贝叶斯公式的理解

目录 机器学习基础 1. 概率和统计 2. 先验概率 3. 后验概率 4. 似然函数 5. 有趣的野史--贝叶斯和似然之争-最大似然概率(MLE)-最大后验概率(MAE)-贝叶斯公式 总结:先验概率 后验概率以及似然函数的关系 机器学习基础 1. 概率和统计 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反. 顾名思义: 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等). 统计研究的问题则相

从贝叶斯方法谈到贝叶斯网络

0 引言 事实上,介绍贝叶斯定理.贝叶斯方法.贝叶斯推断的资料.书籍不少,比如<数理统计学简史>,以及<统计决策论及贝叶斯分析 James O.Berger著>等等,然介绍贝叶斯网络的中文资料则非常少,中文书籍总共也没几本,有的多是英文资料,但初学者一上来就扔给他一堆英文论文,因无基础和语言的障碍而读得异常吃力导致无法继续读下去则是非常可惜的(当然,有了一定的基础后,便可阅读更多的英文资料). 11月9日上午,机器学习班第9次课,邹博讲贝叶斯网络,其帮助大家提炼了贝叶斯网络的几个关