第八章 采样

所谓的采样就是从特定的概率分布中抽取相应样本点的过程。

这一章涉及的数学知识偏多,比较枯燥,个人只对最后一节 《07 不均衡样本集的重采样》 重点看了下

1 采样的作用

采样本质上是对随机现象的模拟,根据给定的概率分布,来模拟产生一个对应的随机事件。

2 均匀分布随机数

Q1:如何编程实现均匀分布随机数生成器?

A1:一般可采用线性同余法来生成离散均匀分布伪随机数,计算公式为

  Xt+1 ≡ a · Xt + c (mod m)

3 常见的采样方法

从某种意义上说,采样时概率密度函数的逆向应用。

Q1:抛开那些针对特定分布而精心设计的采样方法,说一些你所知道的通用采样方法或采样策略,简单描述它们的主要思想以及具体操作步骤。

A1:几乎所有的采样方法都是以均匀分布随机数作为基本操作。均匀分布随机数一般用线性同余法来产生。。。。P176-179

4 高斯分布的采样

5 马尔可夫蒙特卡洛采样法

Q1:简述MCMC采样法的主要思想。

A1:从名字看,MCMC采样法主要包括两个MC,即蒙特卡洛法和马尔科夫链。蒙特卡洛是指基于采样的数值型近似求解方法,而马尔科夫链则用于进行采样。MCMC采样法基本思想是:针对待采样的目标分布,构造一个马尔科夫链,使得该马尔科夫链的平稳分布就是目标分布;然后,从任何一个初始状态出发,沿着马尔科夫链进行状态转移,最终得到的状态转移序列会收敛到目标分布,由此可以得到目标分布的一系列样本。

Q2:简单介绍几种常见的MCMC采样法。

A2:Metropolis-Hastings采样法、吉布斯采样法   P186-187

Q3:MCMC采样法如何得到相互独立的样本?

A3:与一般的蒙特卡洛算法的不同,MCMC采样法得到的样本序列中相邻的样本不是独立的,因为后一个样本呢是由前一个样本根据特定的转移概率得到的,或者有一定概率就是前一个样本。如果仅仅是采样,并不需要样本之间相互独立。如果需要产生独立同分布的样本,可以同时运行多条马尔科夫链,这样不同链上的样本是独立的;或者在同一条隐马尔可夫链上每隔若干个样本呢才选取一个,这样选取出来的样本也是近似独立的。

6 贝叶斯网络的采样

7 不均衡样本集的重采样

Q1:对于二分类问题,当训练集中正负样本非常不均衡时,如何处理数据以更好地训练分类模型?

A1:为什么很多分类模型在训练数据不均衡时会出现问题?本质原因是模型在训练时优化的目标函数和人们在测试时使用的评价标准不一致。这种“不一致”可能是由于训练数据的样本分布与测试时期望的样本分布不一致。

基于数据的方法、基于算法的方法      两种方法详见P195-196

原文地址:https://www.cnblogs.com/guohaoblog/p/11229246.html

时间: 2024-11-02 10:53:26

第八章 采样的相关文章

MiS603开发板 第十八章 模拟视频输入及测试

作者:MiS603开发团队 日期:20150911 公司:南京米联电子科技有限公司 论坛:www.osrc.cn 网址:www.milinker.com 网店:http://osrc.taobao.com EAT博客:http://blog.chinaaet.com/whilebreak 博客园:http://www.cnblogs.com/milinker/ MiS603开发板 第十八章 模拟视频输入及测试 18.1模拟视频概述 大自然的信号都是模拟的,视频信号也不例外.视频信号是指电视信号.

《Linux内核设计与实现》读书笔记 第十八章 调试

第十八章调试 18.1 准备开始          需要准备的东西: l  一个bug:大部分bug通常都不是行为可靠而且定义明确的 l  一个藏匿bug的内核版本:找出bug首先出现的版本 l  相关内核代码的知识和运气 最好能让bug重现,有一些bug存在而且有人没办法让他重现,因为内核与用户程序和硬件间的交互很微妙. 18.2内核中的bug 可以有无数种原因产生,表象也变化多端.代码中的错误往往引发一系列连锁反应,目击者才看到bug. 18.3通过打印来调试 内核提供了打印函数printk

第八章、Linux 磁盘与文件系统管理

第八章.Linux 磁盘与文件系统管理 1. 认识 EXT2 文件系统 1.1 硬盘组成与分割的复习 1.2 文件系统特性: 索引式文件系统 1.3 Linux 的 EXT2 文件系统(inode): data block, inode table, superblock, dumpe2fs 1.4 与目录树的关系 1.5 EXT2/EXT3 文件的存取与日志式文件系统的功能 1.6 Linux 文件系统的运行 1.7 挂载点的意义 (mount point) 1.8 其他 Linux 支持的文

Java 第八章 类的方法(一) 笔记

Java 第八章 类的方法(一) 一.类的方法语法: 访问修饰符 返回值类型 方法名(){             方法体:      } 二.方法名的规范:     1.必须以字母."_"或"$"开头     2.可以有数字,但不能以数字开头.     3.如果方法名是多个单词组成 ,第一个单词的首字母小写,      其后单词首字母单词大写.     4.方法名都采用动词. 三.方法的返回值     1.有返回值:必须告知返回值的数据类型,并且返回相应的值. 

转载:奈奎斯特采样定理

原文:http://xilinx.eetrend.com/article/10399 现实世界接触到的诸如电信号.光信号.声音信号等这些信号都是随时间连续变化的,称之为连续信号.但对于计算机来说,处理这些连续的信号显然是无能为力,要使计算机能够识别.计算.处理这些连续信号就必须将其转化为离散信号,将连续信号转换为离散信号的过程就叫采样.常用的mp3.数码照片.视频等都是经过了采样,才能应用于计算机上.采样后,计算机得到的是离散的点,用这些离散的点来代替连续的线就势必会产生误差,那么这个误差是不是

18位采样意义

面前寻找18位Σ-Δ音频A/D芯片几乎没有,或是早期停产的,基本都是24位的,还有少量16位的.24位十分难以实现,其中之一就是片内外干扰,对于片外干扰容限计算公式如下: 分辨电压 = (基准电压 / 采样位数) * 换算单位(微伏) 多数24位音频采样A/D芯片工作电压不高,但输入端故意拉宽电压,且采用低阻差分方式,以提高信噪比.大多基准电压为2Vrms,要换算为峰峰值,公式为: 峰峰系数(peak-to-peak)= 2√2 V  (≈2.828 V). 峰峰电压 = 有效值 * 峰峰系数,

ROS机器人程序设计(原书第2版)补充资料 (捌) 第八章 导航功能包集入门 navigation

ROS机器人程序设计(原书第2版)补充资料 (捌) 第八章 导航功能包集入门 navigation 书中,大部分出现hydro的地方,直接替换为indigo或jade或kinetic,即可在对应版本中使用. 本章三个非常重要概念:TF,SLAM,AMCL.务必掌握. 补充内容:http://blog.csdn.net/zhangrelay/article/details/50299417 第216页: 简介本章要点. 第217页: 导航综合功能包组成架构等. 补充如下: 目录 配置并使用导航功能

分层贝叶斯模型——采样算法

1. 蒙特卡洛估计 若$\theta$是要估计的参数,$y_{1},...,y_{n}$是从分布$p(y_{1},...,y_{n}|\theta) $中采样的样本值,假定我们从后验分布$p(\theta|y_{1},...,y_{n})$中独立随机采样$S$个$\theta$值,则$$ \theta^{(1)},...,\theta^{(S)}\sim^{i.i.d.}p(\theta|y_{1},...,y_{n}) $$ 那么我们就能够通过样本$\{\theta^{(1)},...,\th

内置了高精度的采样、补偿电路SIC9554A BP2833A 方案

SIC9552A/9553A/9554A/9555A/9556A内置了高精度的采样.补偿电路,  Q Q 2892715427 使得电路能够达到±3% 以内的恒流精度, 并且能够实现输出电流对电感与输出电压的自适应,从而取得优异的线型调整率和负 载调整率. SIC9552A/9553A/9554A/9555A/9556A内部集成了500V功率MOSFET,无需次级反馈电路,也无需补 偿电路,加之精准稳定的自适应技术,使得系统外围结构十分简单,可在外围器件数量少,参数范围宽 松的条件下实现高精度恒