我的系统从一组句子中生成问题。根据句子的质量,可以为单个句子生成多个问题。人类也被赋予相同的句子来产生问题。如何计算产生问题的系统的精度和召回率?
例如:
句子:俄罗斯的首都是莫斯科。
============#系统生成的问题#=============
问题1:俄罗斯的首都是什么?
问题2:什么是莫斯科?
============#人类产生的问题#=============
问题1:什么是俄罗斯的首都?
问题2:什么是莫斯科?
问题3:俄罗斯首都莫斯科?
我想评估我的系统的精度,召回率和准确性。但我不知道如何计算问题生成系统案例中的这些措施。
数据
- 注释一套系统生成的问题(接受,不接受)
- 人类产生的问题(同组的句子)
鉴于这一数据,怎么办我计算这些措施?
注释过的系统生成的问题集是否包含_all_可能的问题? – gudok
系统为特定的WH-词生成问题。它遵循以下策略:在句子中查找_answers_,然后为每个_answer_生成_question_。 – dryleaf
你能假设人为问题包含该句子的所有可能问题吗? – NBartley