bilingual evaluation understudy

BLEU is designed to approximate human judgement at a corpus level, and performs badly if used to evaluate the quality of individual sentences.

https://en.wikipedia.org/wiki/BLEU

To produce a score for the whole corpus the modified precision scores for the segments are combined using the geometric meanmultiplied by a brevity penalty to prevent very short candidates from receiving too high a score.

时间: 2024-10-16 11:13:06

bilingual evaluation understudy的相关文章

DL4NLP —— 看图说话(Image Caption)任务的论文笔记(一)评价指标和NIC模型

看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.应用场景:比如说用户在拍了一张照片后,利用Image Caption技术可以为其匹配合适的文字,方便以后检索或省去用户手动配字:此外它还可以帮助视觉障碍者去理解图像内容.类似的任务还有Video Caption,输入是一段视频,输出是对视频的描述. (一)任务描述 目前来说,Image Caption任务主要集中在英文上,数

机器翻译评价指标

评价机器学习系统是的指标同样适用于图像或者视频描述领域.BELU.Meteor.ROUGE.CIDEr和SPICE.前两个是评测机器翻译的,第三个是评测自动摘要的,最后两个应该是为caption定制的. 1.BLEU Bilingual Evaluation Understudy用于分析候选译文(待评价的译文)和参考译文中N元组共同出现的程度,IBM于2002年提出的. 对于一个待翻译的句子,候选译文用Ci表示,而对应的一组参考译文表示为Si={Si1,Si2,Si3,...,Sim}€S N-

机器翻译评测--BLEU与Perplexity详解

前言 近年来,在自然语言研究领域中,评测问题越来越受到广泛的重视,可以说,评测是整个自然语言领域最核心和关键的部分.而机器翻译评价对于机器翻译的研究和发展具有重要意义:机器翻译系统的开发者可以通过评测得知系统存在的问题而不断改进,用户也可以根据评测报告选择满足自己需求的产品,而对于机器翻译的研究人员来说,评测能够给他们的技术发展方向提供最可靠的依据. --摘自北京邮电大学信息工程系张剑博士在微软亚洲研究院访问期间完成的一篇论文中的一段话. 早在90年代初,美国国家自然基金委员会和欧盟就资助的国际

deeplearning.ai 序列模型 Week 3 Sequence models & Attention mechanism

1. 基础模型 A. Sequence to sequence model:机器翻译.语音识别.(1. Sutskever et. al., 2014. Sequence to sequence learning with neural networks.   2. Cho et. al., 2014. Learning phrase representations using RNN encoder-decoder for statistical machine translation.) B

Sequence Models

Sequence Models This is the fifth and final course of the deep learning specialization at Coursera which is moderated by deeplearning.ai Here are the course summary as its given on the course link: This course will teach you how to build models for n

[C7] Andrew Ng - Sequence Models

About this Course This course will teach you how to build models for natural language, audio, and other sequence data. Thanks to deep learning, sequence algorithms are working far better than just two years ago, and this is enabling numerous exciting

make[2]: *** No rule to make target `/root/.pyenv/versions/anaconda3-2.4.0/lib/libpython3.5m.so', needed by `evaluation.so'. Stop.

当出现No rule to make target ,肯定是Makefile有问题. 有的makefile是脚本生成的,你得看脚本的配置文件对不对. 我的是这个脚本生成的.发现是Pythondir的配置不对: PYTHON_DIR=/home/zgq/anaconda3cmake \-DPYTHON_LIBRARY=$PYTHON_DIR/lib/libpython3.5m.so \-DPYTHON_INCLUDE_DIR=$PYTHON_DIR/include/python3.5m \-DPY

More Effective C++ 条款17 考虑使用lazy evaluation(缓式评估)

1. lazy evaluationg实际上是"拖延战术":延缓运算直到运算结果被需要为止.如果运算结果一直不被需要,运算也就不被执行,从而提高了效率.所谓的运算结果不被执行,有时指只有部分运算结果被需要,那么采用拖延战术,便可避免另一部分不被需要的运算,从而提高效率,以下是lazy evaluation的四种用途. 2. Reference Counting(引用计数) 如果要自己实现一个string类,那么对于以下代码: String s1="Hello"; S

scikit-learn:3. Model selection and evaluation

参考:http://scikit-learn.org/stable/model_selection.html 有待翻译,敬请期待: 3.1. Cross-validation: evaluating estimator performance 3.1.1. Computing cross-validated metrics 3.1.1.1. Obtaining predictions by cross-validation 3.1.2. Cross validation iterators 3.