文本摘要评估 - BLEU vs ROUGE

通过两个不同的摘要系统（sys1和sys2）和相同的参考摘要的结果，我用BLEU和ROUGE对它们进行了评估。问题是：sys1的所有ROUGE评分都高于sys2（ROUGE-1，ROUGE-2，ROUGE-3，ROUGE-4，ROUGE-L，ROUGE-SU4等），但sys1的BLEU评分较低比sys2的BLEU得分（相当多）。文本摘要评估 - BLEU vs ROUGE

所以我的问题是：ROUGE和BLEU都是基于n-gram来衡量系统总结和人类总结之间的相似性。那么为什么这样的评估结果有差异呢？ ROUGE和BLEU解释这个问题的主要不同之处是什么？

任何意见和建议，将不胜感激！谢谢！

来源

2016-06-27 Chelsea_cole

一般来说：

布鲁测量精度：在机器生成摘要词语（和/或n-克）多少出现在人类参考摘要。

胭脂措施召回：在人参照摘要词语（和/或n-克）多少出现在机器生成的摘要。

自然 - 这些结果被补充，这是常有的精密VS召回的情况。如果系统结果中出现的许多单词出现在人类参考文献中，则您将拥有较高的Bleu，并且如果系统结果中出现的人类参考文献中有很多单词，则您将拥有较高的Rouge。

在你的情况下，看起来sys1比sys2有更高的Rouge，因为sys1中的结果始终比从sys2得到的人类引用中出现更多的单词。但是，由于你的Bleu评分显示sys1比sys2具有较低的召回率，这表明sys1结果中没有那么多单词出现在人类参考文献中，就sys2而言。

例如，如果您的sys1输出的结果中包含引用中的单词（加大胭脂），还会引用很多引用不包括的单词（降低Bleu），则可能发生这种情况。看起来，sys2给出的结果是大多数输出的单词出现在人类参考文献中（增加蓝色），但是也从结果中丢失了许多单词，这些单词出现在人类参考文献中。

顺便说一句，有一种叫做简洁惩罚，这是非常重要的，并已被添加到标准的蓝色实现。它惩罚的系统结果是短于比参考的一般长度（更多地了解它here）。这补充了n-gram度量行为，因为分母越长，系统结果越长，实际上惩罚的时间长于参考结果。

你也可以实现对高棉类似的东西，但这次惩罚制度成果，这是长比一般基准长度，否则就会使他们能够获得通过人为干预提高高棉分数（因为较长的结果，高您可能会在参考文献中出现某些词的机会）。在Rouge中，我们除以人类参考的长度，所以我们需要额外的惩罚来获得更长的系统结果，这可能会人为地提高他们的Rouge分数。

最后，你可以使用F1措施使指标一起工作： F1 = 2 *（布鲁*高棉）/（布鲁+日）

来源

2016-08-28 10:35:06

您已经发布了两个问题的确切答案。如果你认为其中一个是另一个的重复，你应该将它们标记为（而不是两次发布相同的答案）。 – Jaap

答案并不完全一样，问题也不完全一样。其中一个答案包含另一个答案是正确的，但我无法看到一个明确的方法来收敛这两个问题。 –

*'other'*答案应该被标记为重复的imo。 – Jaap

两个ROUGE和BLEU基于n-gram来度量系统总结和人类总结之间的相似性。那么为什么这样的评估结果有差异呢？ ROUGE和BLEU解释这个问题的主要不同之处是什么？

存在ROUGE-n精度和ROUGE-n精度回忆。引入ROUGE {3}的论文中的原始ROUGE实现计算两者，并得出F1得分。

从http://text-analytics101.rxnlp.com/2017/01/how-rouge-works-for-evaluation-of.html（mirror）：

ROUGE召回：

ROUGE精度：

（原始ROUGE从引入ROUGE {纸张执行1}可能会执行几个月（例如词干）

与BLEU不同的是，ROUGE-n的精确度和召回率很容易解释（请参阅Interpreting ROUGE scores）。

ROUGE-n精度和BLEU的区别在于BLEU引入了一个简短的惩罚项，并且还计算了几个n-gram大小的n-gram匹配（不同于ROUGE-n，其中只有一个选择n-gram大小）。堆栈溢出不支持LaTeX，所以我不会进入更多的公式来与BLEU进行比较。 {2}清楚地解释了BLEU。

参考文献：

{1}林，展耀。 “Rouge：用于自动评估摘要的软件包。”在文本摘要分支：ACL-04研讨会，卷。 8. 2004. https://scholar.google.com/scholar?cluster=2397172516759442154&hl=en&as_sdt=0,5; http://anthology.aclweb.org/W/W04/W04-1013.pdf
{2} Callison-Burch，Chris，Miles Osborne和Philipp Koehn。 “重新评估Bleu在机器翻译研究中的作用”。在EACL，第一卷。 6，pp.249-256。 2006. https://scholar.google.com/scholar?cluster=8900239586727494087&hl=en&as_sdt=0,5;

来源

2017-11-07 02:01:33

文本摘要评估 - BLEU vs ROUGE

回答

相关问题