我试着为查询和文档计算TF-IDF,并使用COS距离对结果进行排名并得到Top50类似文档。 同样,我计算BM25得分并将最高BM25得分评为No.1,并获得前50个相似文件。 但是,对于TF-IDF和BM25,结果都不好。 (数据集是标签测试数据集的大小为1400的文档。): For example in the testing dataset judgment
the queryID=1
我想使用Mallet作为专家查找项目的一部分。我几乎是马利特的新手,但我知道它从一组文档中培养主题。假设我有50个由Mallet培训的主题。我想计算这个概率:p(topic|q)或者p(q|topic) q是查询。这是一个词(如算法,机器人等),我希望找到指定区域的专家。 当我读到这篇文章:how to get word-topic probability using mallet,其中一位用户说