给定查询列表并给出一个文档,我想根据它们与给定文档的相关程度对查询进行排名。根据相关性对一个文档排列多个查询
对于每个查询,我计算了查询中每个单词的词频。 (术语频率定义为单词在文档中出现的次数除以文档中的单词总数)
现在,我总结了查询中每个术语的术语频率。
例如:
search query: "Hello World"
document: "It is a beautiful world"
tf for 'Hello': 0
tf for 'World': 1/5 = 0.2
total tf for query 'Hello World' = 0 + 0.2 = 0.2
我的问题是,什么是我的正常化词频每个查询的最佳方式?所以长查询不会导致较大的相关性分数。
而且,有没有更好的方法让我评分查询,而不仅仅是使用tf分数?
我不能在我的场景中使用tf-idf,因为我只对一个文档进行排名。