B-经济学-基尼指数

目录

  • 基尼指数
  • 一、基尼指数简介

更新、更全的《机器学习》的更新网站,更有python、go、数据结构与算法、爬虫、人工智能教学等着你:https://www.cnblogs.com/nickchen121/

基尼指数

一、基尼指数简介

基尼指数(gini coefficient)代表了模型的不纯度,基尼指数越小,则不纯度越低;基尼指数越大,则不纯度越高,这和信息增益比是相反的。

假设一个训练集有\(K\)个类别,样本属于第\(k\)个类别的概率为\(p_k\),则它的基尼指数为
\[
G(p) = \sum_{k=1}^K p_k (1-p_k) = 1 - \sum_{k=1}^K p_k^2
\]
如果是二分类问题,其中一个分类的概率为\(p\),则它的基尼指数为
\[
G(p) = 2 p(1-p)
\]
对于某一个训练集\(D\),假设训练集有\(K\)个类别,并且第\(k\)个类别有\(C_k\)个样本,则\(D\)的基尼指数为
\[
G(D) = 1 - \sum_{k=1}^K ({\frac {|C_k|} {|D|}})^2
\]
对于某一训练集\(D\),如果根据特征\(T\)的某个特征值是否等于\(t\)把\(D\)分成两个子集\(D_1\)和\(D_2\)
\[
D_1 = \{(x,y)\in{D}|A(x)=t\},\quad D_2 = D-D_1
\]
则\(D\)的基尼指数为
\[
G(D,A) = ({\frac {|D_1|} {|D|}})G(D_1) + ({\frac {|D_2|} {|D|}})G(D_2)
\]
基尼指数\(G(D)\)表示\(D\)的不确定性,基尼指数\(G(D,A)\)表示经过\(T=t\)分割后\(D\)的不确定性。基尼指数越大,样本集合的不确定性也就越大,不纯度越高。

原文地址:https://www.cnblogs.com/nickchen121/p/11686701.html

时间: 2024-10-09 14:01:49

B-经济学-基尼指数的相关文章

决策树中的熵和基尼指数

决策树是一种很基本的分类与回归方法,但正如前面博文机器学习排序算法:RankNet to LambdaRank to LambdaMART中所讲的LambdaMART算法一样,这种最基本的算法却是很多经典.复杂.高效的机器学习算法的基础.关于什么是决策树,网上一搜就会有很多博客文章,所以本文并不想讨论这个话题.本文想讨论的是决策树中两个非常重要的决策指标:熵和基尼指数.熵和基尼指数都是用来定义随机变量的不确定性的指标.下面先介绍什么是随机变量的不确定性. 1. 随机变量的不确定性 什么是随机变量

决策树系列三——基尼指数,减枝和

-- coding: utf-8 -- """ Created on Tue Aug 14 17:36:57 2018 @author: weixw """ import numpy as np 定义树结构,采用的二叉树,左子树:条件为true,右子树:条件为false leftBranch:左子树结点 rightBranch:右子树结点 col:信息增益最大时对应的列索引 value:最优列索引下,划分数据类型的值 results:分类结果 s

比基尼美女_人像摄影吧主题 - 云寻觅云贴吧

云贴吧 首页 注册 登录 首页 贴吧分类 人像摄影吧 比基尼美女 比基尼美女 回复主题 楼主 佚名 比基尼美女 比基尼美女 这是在地下3层的洗车房的群拍作品. [器材]:佳能数码相机佳能 5D Mark III [参数] 光圈: F/1.6 焦距:35 毫米 感光度:160 2楼 匿名用户 比基尼美女 [器材]:佳能数码相机佳能 5D Mark III [参数] 光圈: F/1.6 焦距:35 毫米 感光度:800 2014-12-02 16:20 3楼 匿名用户 比基尼美女 [器材]:佳能数码

物化时代:“美国小姐”取消比基尼比赛

感谢雪梨! 今日导读 一年一度的"美国小姐"大赛,总能吸引大批观众和粉丝的目光.最近外媒官方宣布,过往最吸睛的项目之一:比基尼选秀,从明年度(2019)大赛开始将被取消.<纽约时报>新刊登的一篇新闻就对此事进行了独到的评论,语言讽刺有深意,很值得一读,今天就让我们跟着雪梨老师一起来读一读其中的节选. 新闻正文 The bikini contest is over, but we are living inside the beauty pageant 比基尼选美结束了,但我

JASFKD比基尼DSG秀大长腿F彩虹股

http://www.iliangcang.com/i/usermain/favour/?id=800396012 http://www.iliangcang.com/i/usermain/favour/?id=279243458 http://www.iliangcang.com/i/usermain/favour/?id=115256356 http://www.iliangcang.com/i/usermain/favour/?id=537438345 http://www.iliangc

决策树-预测隐形眼镜类型 (ID3算法,C4.5算法,CART算法,GINI指数,剪枝,随机森林)

1. 1.问题的引入 2.一个实例 3.基本概念 4.ID3 5.C4.5 6.CART 7.随机森林 2. 我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? 一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话: 女儿:多大年纪了? 母亲:26. 女儿:长的帅不帅? 母亲:挺帅的. 女儿:收入高不? 母亲:不算很高,中等情况. 女儿:是公务员不? 母亲:是,在税务局上班呢. 女儿:那好,我去见见. 决策过程: 这个女孩的决策过程就是典型的分类树决策.

决策树学习基决策树学习基本算法

决策树学习基本算法 输入:训练集; ???? 属性集. 过程:函数 1: 生成结点node; 2: if 中样本全属于同一类别 then 3: ????将node标记为类叶结点; return 4: end if 5: if 中样本在上取值相同 then 6: 将node标记为叶结点,其类别标记为中样本数最多的类; return 7: end if 8: 从中选择最优化分属性 9: for 的每一个值 do 10: 为node生成一个分支; 令表示中在上取值为的样本子集; 11:???? if

决策树(理论篇)

定义 由一个决策图和可能的结果(包括资源成本和风险组成),用来创建到达目的的规划.——维基百科 通俗理解 给定一个输入值,从树节点不断往下走,直至走到叶节点,这个叶节点就是对输入值的一个预测或者分类. 算法分类 ID3(Iterative Dichotomiser 3,迭代二叉树3代) 历史 ID3算法是由Ross Quinlan发明的用于生成决策树的算法,此算法建立在奥卡姆剃刀上.奥卡姆剃刀又称为奥坎的剃刀,意为简约之法则,也就是假设越少越好,或者“用较少的东西,同样可以做好的事情”,即越是小

基尼系数(Gini coefficient),洛伦茨系数

20世纪初意大利经济学家基尼,于1922年提出的定量测定收入分配差异程度的指标.它是根据洛伦茨曲线找出了判断分配平等程度的指标(如下图). 设实际收入分配曲线和收入分配绝对平等曲线之间的面积为A,实际收入分配曲线右下方的面积为B.并以A除以A+B的商表示不平等程度.这个数值被称为基尼系数或称洛伦茨系数.如果A为零,基尼系数为零,表示收入分配完全平等:如果B为零则系数为1,收入分配绝对不平等.该系数可在零和1之间取任何值.收入分配越是趋向平等,洛伦茨曲线的弧度越小,基尼系数也越小,反之,收入分配越