我目前正试图在Java中实现标签引擎,并搜索解决方案以从文本(文章)中提取关键字/标签。我发现了一些建议使用Pointwise Mutual Information的stackoverflow解决方案。如何从文本中提取关键字(标签)
我不能使用pyton和NLTK所以我要实现它自己。但我不知道如何计算概率。 的计算公式如下:
PMI(term, doc) = log [ P(term, doc)/(P(term)*P(doc)) ]
什么,我想知道的是如何计算P(长期,DOC)
我已经有一个兰格文本语料库和文章的集合。文章不是语料库的一部分。该语料库使用lucene索引。
请帮我一把。 此致敬礼。
你要提取的标签或计算概率?你的标题建议提取标签,但你的问题说你不知道如何计算概率 - 你为什么关心概率? – Bohemian
我想提取标签,因此我必须计算P(term,doc),但我不知道如何去做 – BauerMitFackel
为什么你必须计算任何东西?请定义“提取标签”。 – Bohemian