数学知识点查漏补缺(卡方分布与卡方检验)

一、卡方分布

若k个独立的随机变量Z1,Z2,?,Zk,且符合标准正态分布N(0,1),则这k个随机变量的平方和,为服从自由度为k的卡方分布。

卡方分布之所以经常被利用到,是因为对符合正态分布的随机变量的处理过程中,很容易出现其平方和的统计量。

正如在卡方检验问题中出现这个统计量一样自然。

二、卡方检验

卡方检验主要用于,根据样本数据推断总体的分布与期望分布是否有显著性差异,或者推断两个分类变量是否相关或者独立。

样本数据推断的分布与理论分布的差值,如果只考虑随机取样误差影响,自然符合标准正态分布。而其平方和就属于卡方分布了。

其中,A为实际值,T为理论值。

χ2用于衡量实际值与理论值的差异程度,这也是卡方检验的核心思想。χ2包含了以下两个信息: 
1.实际值与理论值偏差的绝对大小。 
2.差异程度与理论值的相对大小。

三、卡方检验做特征选择

一个特征对分类变量的影响,如果特征对应的分类变量数量与理论值没什么区别,说明特征对分类变量没什么影响。而该特征对分类变量有明显影响,其对应分类变量数量应该与分类变量理论分布值有较大偏离。

所以可以说:卡方值越大,说明关联越强,特征越需要保留。卡方值越小,说明越不相关,特征需要去除。

原文地址:https://www.cnblogs.com/hugh-tan/p/8595683.html

时间: 2024-11-06 07:39:57

数学知识点查漏补缺(卡方分布与卡方检验)的相关文章

机器学习知识点查漏补缺(随机森林和extraTrees)

随机森林 对数据样本及特征随机抽取,进行多个决策树训练,防止过拟合,提高泛化能力 一般随机森林的特点: 1.有放回抽样(所以生成每棵树的时候,实际数据集会有重复), 2.以最优划分分裂 Given a standard training set D of size n, bagging generates m new training sets D_i, each of size n′, by sampling from D uniformly and with replacement. Thi

机器学习知识点查漏补缺(朴素贝叶斯分类)

一.基本模型 朴素贝叶斯分类模型的基本思想就是贝叶斯公式,对以特征为条件的各类别的后验概率. 贝叶斯公式如下: 对标朴素贝叶斯分类模型的公式如下: 分子中的第二项为每个类别的概率(实际运算即频率),如下: 第一项为每个类别内部(即以类别为条件)特征的联合概率,如下: 但随着特征的每个维度取值增加,模型参数也会指数级增加.所以朴素贝叶斯的朴素也就在这儿体现,朴素的(简单的)假设以上每个特征维度都是条件独立的,而让其联合概率可化简为每个特征的条件概率积,如下: 朴素贝叶斯分类模型也即是最大化后验概率

[面试 C++] 知识点查漏补缺

基础知识 看c++ primier (直接网上刷题) 一些关键字的作用的使用场景,static, protected, private 几种 cast 的区别 static_cast For “well-behaved” and “reasonably well-behaved” casts, including things you might now do without a cast (such as an automatic type conversion). const_cast To

Leetcode刷题--知识点查漏补缺

python3-列表-字典 1.列表1作为key,列表2作为value,组成一个字典 1 #定义两个列表 2 list1 = ["a","b","c"] 3 list2 = ["红","绿","蓝"] 4 5 #合并为字典,调用dict(zip()) 6 dict_name = dict(zip(list1,list2)) 7 8 print(dict_name) 9 10 运行结果:

《CSS权威指南》基础复习+查漏补缺

前几天被朋友问到几个CSS问题,讲道理么,接触CSS是从大一开始的,也算有3年半了,总是觉得自己对css算是熟悉的了.然而还是被几个问题弄的"一脸懵逼"... 然后又是刚入职新公司,事情不算多,于是拿起<CSS权威指南>进行"基础学习"+"查漏补缺",本篇文章主要是总结了些自己认为CSS中值的注意的几个知识点(本文知识点仅限本书范围内,若要讲CSS全部样式,那本兽还是选择慢慢懵逼去~). 选择器 这里要说明的是类选择器的嵌套选择与多类

查漏补缺1

前言 Java的部分有基础.设计模式.IO.NIO.多线程,之后有时间还会把集合这 部分补上去,这么多内容里面,难免有一些知识点遗漏,本文主要是讲解这些遗漏的知识点.这些知识点,不是特别大的难点,所以没有必要专门写一篇文章讲解: 但是这些知识点,也不是一两句话就说得清楚的,所以放在这里.查漏补缺系列文章,每篇5个知识点,只要有值得研究的问题就会写上来. Thread.sleep(XXX)方法消耗CPU吗? 这个知识点是我之前认识一直有错误的一个知识点,在我以前的认识里面,我一直认为 Thread

近来的java小总结(2.1):类的知识的查漏补缺

首先,我是一名新手,所以,要带着批判的眼光来看下面的文章   这篇文章说了些什么? 这文章是我近来8.6号来在编程思想上打的代码,从0~200页的源码接近到在这里,下文正是总结这0~200页的的知识,涉及到接口,内部类.初始化,数值计算的一些细节.此文章不会一下子写完,可能隔一天可能再补下来.因为代码确实有点多.. 注意 1 我的注释不一定正确(不过各小标题和代码一定是正确的,因为是书本上的原话,但是注释不一定正确),如果你确信我的内容的话,你可能会损失很大,因为我只是个菜鸟,我只是来补救一些知

查漏补缺——java多态

---恢复内容开始--- 刚学完java,开始了查漏补缺阶段阶段,为了巩固自己的知识和为别人提供一些微末的帮助决定开通博客,求各位大牛们指出我的不足,不要吝惜言语,也希望我的总结可以对别人有帮助,对自己对他人负责. 开始正文:术语多态:可以定义为“有多种形态”,多态引用是一个一个在不同时刻可以指向不同类型对象的引用变量.通过多态引用可以调用不同的具体的方法. 类方法的多态性的实现有两种方式: 1:方法重载:可以声明多个同名但是参数不同(个数.类型和顺序)的方法.注意呵呵重载方法只能声明在一个类里

近来的java小总结(2.2):类的知识的查漏补缺

1 首先,我是一名新手,所以,要带着批判的眼光来看下面的文章   这篇文章说了些什么? 这文章是我近来8.6号来在编程思想上打的代码,从0~200页的源码接近到在这里,下文正是总结这0~200页的的知识,涉及到接口,内部类.初始化,数值计算的一些细节.此文章不会一下子写完,可能隔一天可能再补下来.因为代码确实有点多.. 注意 1 我的注释不一定正确(不过各小标题和代码一定是正确的,因为是书本上的原话,但是注释不一定正确),如果你确信我的内容的话,你可能会损失很大,因为我只是个菜鸟,我只是来补救一