kappa系数在评测中的应用

版权声明:本文出自胖喵~的博客,转载必须注明出处。

转载请注明出处:http://www.cnblogs.com/by-dream/p/7091315.html

前言



  最近打算把翻译质量的人工评测好好的做一做。

  首先废话几句,介绍下我这边翻译质量的人工评测怎么做。先找一批句子,然后使用不同的引擎对其进行翻译,然后将原文和译文用下面的方式进行呈现,把这些交给专业的人士去进行打分,打完分之后,对结果进行统计,得出评测结果。

  看似流程很顺利,且结果也有参考价值。然而实际操作的过程中发现如果一个用户的能力或者态度有问题的话,就会影响一个打分的效果。因此评测人员究竟是否靠谱也成了我们需要考虑的一项因素。

  通过向专业人士请教,得知了kappa系数可以进行一致性的校验且可用来衡量分类精度。因此我决定试试它。

  好了先看看kappa系数的概念和计算公式。

kappa系数概念



  它是通过把所有地表真实分类中的像元总数(N)乘以混淆矩阵对角线(Xkk)的和,再减去某一类地表真实像元总数与被误分成该类像元总数之积对所有类别求和的结果,再除以总像元数的平方减去某一类中地表真实像元总数与该类中被误分成该类像元总数之积对所有类别求和的结果所得到的。

——来自百科

  kappa计算结果为-1~1,但通常kappa是落在 0~1 间,可分为五组来表示不同级别的一致性:0.0~0.20极低的一致性(slight)、0.21~0.40一般的一致性(fair)、0.41~0.60 中等的一致性(moderate)、0.61~0.80 高度的一致性(substantial)和0.81~1几乎完全一致(almost perfect)。

  计算公式:

  po是每一类正确分类的样本数量之和除以总样本数,也就是总体分类精度

  假设每一类的真实样本个数分别为a1,a2,...,aC

  而预测出来的每一类的样本个数分别为b1,b2,...,bC

  总样本个数为n

  则有:pe=a1×b1+a2×b2+...+aC×bC / n×n

运算举例



  为了更好的理解上述运算的过程,这里举例说明一下:

  学生考试的作文成绩,由两个老师给出 好、中、差三档的打分,现在已知两位老师的打分结果,需要计算两位老师打分之间的相关性kappa系数:

  Po = (10+35+15) / 87 = 0.689

  a1 = 10+2+8 = 20; a2 = 5+35+5 = 45; a3 = 5+2+15 = 22;

  b1 = 10+5+5 = 20; b2 = 2+35+2 = 39; b3 = 8+5+15 = 28;

  Pe = (a1*b1 + a2*b2 + a3*b3) / (87*87) = 0.455

  K = (Po-Pe) / (1-Pe) = 0.4293578

  这样我们就得到了kappa系数。

  

实际应用



  像开头说的一样,真实的问卷回收回来后,我一般都会对用户的结果进行kappa系数计算之后才会发放奖励,因为我的奖励价格不低,也算是为了公司节省成本吧。

  一般一个问卷我会让5个人去做,当然人越多越准确,但是为了考虑成本且就能得到有效的结果,我这里选了5个人,起初我的想法是用5个人的平均分做为标砖答案,然后让每个人的打分去和平均分算kappa,后来思考后发现这样有些不太合理,如果有一个人乱答,那么他的结果就会影响平均分,从而影响到整个结果。于是最终换成了一个人和所有人直接计算kappa,然后再求平均。这样当一个人乱作答的时候,我们在算出两两kappa的时候就可以发现这个人,然后在最终计算平均kappa的时候,去掉这个所有人和这个人之间的值即可。

  刚开始我用python实现了kappa系数计算的代码,直接算出了一组结果,然后发现大家相互之前的kappa系数都非常的低,大概在0.1-0.2左右,后来分析是由于5分制导致数据太离散,因此针对翻译引擎的评测,我将用户打分的5分制换算成了3分制,1、2分归为一类,2为一类,4、5为一类。

  当然在完成了这些之后,为了再多一轮保险,每一份问卷中的5个人中,有一个我非常信任的专业评测者,因此我还会计算所有人和她直接的kappa,这样更加的保证每一个打分的结果合理性和相关性都竟在掌握之中。

  下面是我实现的python脚本。

  (代码。。。。

  。。。待添加

  说明:输入文件****  待加入)

  

  下面是其中一次问卷,我计算的 “所有人之间kappa的平均分” 和 “所有人和优秀评测者之间的kappa” 不言而喻,很明显下图中标红的这位用户的打分就不合格,经过我人工筛查,果然这个用户的打分的确非常的不合理。

  (待加入图)

  有了kappa系数的计算规则后,对于一些类似这样的打分规则,我们就有了更多的把握以及更了解我们的评测结果是否准确可靠。

时间: 2024-08-07 04:30:57

kappa系数在评测中的应用的相关文章

10. 混淆矩阵、总体分类精度、Kappa系数

一.前言 表征分类精度的指标有很多,其中最常用的就是利用混淆矩阵.总体分类精度以及Kappa系数. 其中混淆矩阵能够很清楚的看到每个地物正确分类的个数以及被错分的类别和个数.但是,混淆矩阵并不能一眼就看出类别分类精度的好坏,为此从混淆矩阵衍生出来各种分类精度指标,其中总体分类精度(OA)和卡帕系数(Kappa)应用最为广泛. 总体分类精度(OA):指被正确分类的类别像元数与总的类别个数的比值:OA值虽然能很好的表征分类精度,但是对类别像元个数极度不平衡的多类地物来说,其值收到像元数据较多类别的影

关于评测中的各种错误原因

一.WA 1.一般情况下都是你真的WA掉了 2.我曾经有一次数组开小了,评测给出的结果是WA 3.该long long没开,越界之后可能也会WA掉 4.有可能你数组开小了,电脑可能自动就占了下一个数组的内存,这个时候就相当于你的数组中的值就错了,也会WA掉 二.TLE 1.一般情况下都是你真的T掉了 2.我还是因为数组开小了T过 3.某个循环对于某些数据死循环了 4.递归的函数之类的重复搜,死在里面了 三.MLE 1.目前只碰到过真的是开太大,开炸了 四.RE 1.数组开小了 2.栈溢出 3.取

图像分类中混淆矩阵精度验证法中的几个指标说明

ToolBox->Classification->PostClassification->Confusion Matrix->Using Ground Truth ROIs,可以得到如下的分类精度验证的混淆矩阵. 要看懂这个精度验证结果,需要了解几个混淆矩阵中的几项评价指标: 1.总体分类精度(Overall Accuracy) 等于被正确分类的像元总和除以总像元数.被正确分类的像元数目沿着混淆矩阵的对角线分布,总像元数等于所有真实参考源的像元总数,如本次精度分类精度表中的Over

多万兆、全万兆交换机系列评测——S6500&S6200

当前计算机虽然普遍具备千兆的网络接口,但实际的传输速率往往无法达到.即便如此,也已经令企业的千兆网络不堪重负.如何才能令企业网络平滑向万兆过渡,这个问题也一直困扰着企业的网络管理者们.多万兆.全万兆交换机是为满足城域网超高带宽设计的一系列高密度万兆汇聚,40G上行的盒式交换产品,其1U的紧致设计遵从全业务IP承载网以及数据中心的设计理念,满足高密度万兆承载网业务接入以及汇聚的部署要求.多万兆.全万兆交换机凭借丰富的数据中心特性.完善的可靠性.先进的易维特性.丰富的业务特性,适应未来承载网大规模高

RF电路设计中降低寄生信号的八大途径

RF电路板设计最重要的是不该有信号的地方要隔离信号,而该有信号的地方一定要获得信号.这就要求我们有意识地采取措施,确保信号隔离于其路径适当的部位.音调.信号.时钟及其在电路板上任何地方生成的所有谐波都可能作为寄生信号混入输出信号,甚至可能会进入混频器和转换器进而被转换.反映并混淆为寄生信号.传输掩模(Transmit mask)要求表明即便最微小的寄生信号也会阻碍产品的发布. 宽带器件支持软件定义无线电(SDR)的这一当前趋势将进一步强调降低寄生信号的重要性.由于可部署统一信号平台设计来满足多种

手机评测怎么看?

关注手机行业三年多了,用过的手机也好几部,玩过的手机更是多了,每次出新手机都会去搜索和看相关的评测,有几个团队做的评测每一期都会看,因此对于手机评测我有一些不一样的看法. 首先是很多评测团队所做的评测样本太少.很多做评测的团队限于成本的考虑,所用于评测的手机一般只是一两部,像zealer刚开始做评测的时候使用只是一部自己买的手机,后来做的越来越大了,用于评测的手机也就两部或三部, 比如zealer在T1的抗摔环节说,他们没有足够的样本,要测试一台机子的抗摔能力需要的手机要几十部,他们暂时做不了.

信用评级模型实例分析(以消费金融为例)-中

信用评级模型实例分析(以消费金融为例)-中 原创 2016-10-13 单良 亚联大数据 点击"亚联大数据"可关注我们! 第五章 自变量的初步分析与处理 模型变量有两种类型,分别是连续型变量 .连续型变数系指该变数为观察数据所得的实际数值,并没有经过群组处理 .间断型变数则系指质性变量或类别型变量 . 两种变数类型都适用于评分模型,但建议变量使用间断型态进行开发评分模型,主要原因如下: 1. 间断型变量有助于处理极端值或是样本数量较少的变量. 2. 非线性的因变量 (dependenc

互联网征信中的信用评分模型(转)

摘要:面向小微商户以及个人消费的小微信贷是当前互联网金融的重要发展方向,并且正在经历爆发式增长.在这个增长过程中,如何在没有实物抵押的情况下,通过互联网大数据分析实现快速准确征信是一个非常重要的问题.为此,不同的数据来源将各显神通地为信用评估提供依据.本文将通过一个真实的案例出发,进行分析和探讨,针对用户历史行为数据建立信用评分模型,并通过该模型改进信用评估的预测效果. 关键词: 小微信贷:互联网征信:信用评分:Logistic回归模型 一.业务介绍 行业介绍 小微信贷,我们定义为金额较小,并且

分页条中显示数字页码的计算方法

摘要:在做web分页的时候,分页条中数字显示个数的计算方法.没有用现成的分页组建来做分页条.自己写了段简单的计算分页的代码. 2014-8-8 15:56:46 fix one bug. detailDesc: 使用 calcPage(4, 5, 4);将会导致分页异常. 页码多的时候,当前页始终保持是分页条中显示的最中间那页. public static void main(String[] args) { for (int i = 1; i <= 10; i++) { for (int j