互信息 信息增益 召回率

information gain

在信息增益中,衡量标准是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。对一个特征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量,就是熵。

在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度
直观上,互信息度量 X 和 Y 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 X 和 Y 相互独立,则知道 X 不对 Y 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 X 是 Y的一个确定性函数,且 Y 也是 X 的一个确定性函数,那么传递的所有信息被 X 和 Y 共享:知道 X 决定 Y 的值,反之亦然。因此,在此情形互信息与 Y(或 X)单独包含的不确定度相同,称作 Y(或 X)的熵。而且,这个互信息与 X 的熵和 Y 的熵相同。

召回率(Recall Rate,也叫查全率)是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率

1. 正确率 = 正确识别的个体总数 / 识别出的个体总数
2. 召回率 = 正确识别的个体总数 / 测试集中存在的个体总数
3. F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) (F 值即为正确率和召回率的调和平均值)综合这二者指标的评估指标,用于综合反映整体的指标

推荐系统评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)

时间: 2024-10-04 07:16:05

互信息 信息增益 召回率的相关文章

文本分类之情感分析– 准确率和召回率

Accuracy不是评估分类器的有效性的唯一度量.另外两个有用的指标是precision和recall.这两个度量可提供二元分类器的性能特征的更多视角. 分类器的 Precision Precision度量一个分类器的正确性.较高的精确度意味着更少的误报,而较低精度意味着更多的误报.这经常与recall相反,作为一种简单的方法来提高精度,以减少召回. 分类器的 Recall 召回度量分类器的完整性,或灵敏度.较高的召回意味着更少的假负,而较低的召回意味着更多的假负.提高召回率往往可以降低精确度,

推荐系统评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)

下面简单列举几种常用的推荐系统评测指标: 1.准确率与召回率(Precision & Recall) 准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量.其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率:召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率. 一般来说,Precision就是检索出来的条目(比如:文档.网页等)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了. 正确率.召回

信息检索的评价指标、准确率、召回率

信息检索(IR)的评价指标介绍 - 准确率.召回率.F1.mAP.ROC.AUC 分类: 1.自然语言处理/机器学习 2011-07-06 22:15 9817人阅读 评论(7) 收藏 举报 performance算法fp工具2010c 在信息检索.分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总. 准确率.召回率.F1 信息检索.分类.识别.翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rat

精确率与召回率,RoC曲线与PR曲线

在机器学习的算法评估中,尤其是分类算法评估中,我们经常听到精确率(precision)与召回率(recall),RoC曲线与PR曲线这些概念,那这些概念到底有什么用处呢? 首先,我们需要搞清楚几个拗口的概念: 1. TP, FP, TN, FN True Positives,TP:预测为正样本,实际也为正样本的特征数 False Positives,FP:预测为正样本,实际为负样本的特征数 True Negatives,TN:预测为负样本,实际也为负样本的特征数 False Negatives,

Recall(召回率);Precision(准确率);F1-Meature(综合评价指标);true positives;false positives;false negatives.

Recall(召回率);Precision(准确率);F1-Meature(综合评价指标);在信息检索(如搜索引擎).自然语言处理和检测分类中经常会使用这些参数. Precision:被检测出来的信息当中正确的或者相关的(也就是你想要的)信息中所占的比例(预测的正样本数占总样本的比例): Recall:所有正确的信息或者相关的信息(wanted)被检测出来的比例(总样本中的正样本数占预测总样本数的比例).   表格中的翻译比较重要,可以帮助理解. true positives (纳真)    

[搜索]一种改进的召回率准确率公式计算方式

 在信息检索系统中,召回率和准确率的定义为: 召回率:(Recall Ratio,简称R)是衡量信息检索系统在实施某一检索作业时检出相关文献能力的一种测度指标,其计算方法为:Recall=检出的相关文献量/检索系统中的相关文献总量. 准确率:(Precision Ratio,简称P)是衡量系统在实施某一检索作业时检索精准度的一个测度指标,其计算方法为: Precision=检出的相关文献量/检出的文献总量. 比如一个系统中有100篇文档,对于某一次查询,有10篇相关的文档,在这次检索中,共检

好记性不如烂笔头——关于精确度、召回率、F值、准确率

将数据挖掘中这些评测指标的基本概念做一整理,忘了的时候还可以来查一查. 精确度,有时也叫正确率,是英文中的precision而不是accuracy.表示正确识别为此类的样本数目(TP)/识别为此类的样本总数目(TP+FP).FP就是那些原本不是此类但被错误的分为此类的样本数目. 召回率,这个名称容易使人把它和召回缺陷产品的比率联想到一起,完全不是一码事.所以另外一种翻译的名称更合适:查全率.表示正确识别为此类的样本数目(TP)/真实情况下的此类的样本数目(TP+FN).那么真实情况包括哪些呢?一

正确率、召回率和 F 值

正确率.召回率和 F 值是在鱼龙混杂的环境中,选出目标的重要评价指标.不妨看看这些指标的定义先: 1. 正确率 = 正确识别的个体总数 /  识别出的个体总数 2. 召回率 = 正确识别的个体总数 /  测试集中存在的个体总数 3. F值  = 正确率 * 召回率 * 2 / (正确率 + 召回率) (F 值即为正确率和召回率的调和平均值) 不妨举这样一个例子:某池塘有1400条鲤鱼,300只虾,300只鳖.现在以捕鲤鱼为目的.Seaeagl e撒一大网,逮着了700条鲤鱼,200只虾,100只

详细讲解准确率、召回率和综合评价指标

为了对实验结果进行评价,用到准确率.召回率和F值,下面对此进行详细介绍. 1.准确率与召回率(Precision & Recall) 准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量.其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率:召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率. 一般来说,Precision就是检索出来的条目(比如:文档.网页等)有多少是准确的,Recall就是所有准确的条目有