2013-01-15 80 views
5

我目前正试图在Java中实现标签引擎,并搜索解决方案以从文本(文章)中提取关键字/标签。我发现了一些建议使用Pointwise Mutual Information的stackoverflow解决方案。如何从文本中提取关键字(标签)

Solution 1

Solution 2

我不能使用pyton和NLTK所以我要实现它自己。但我不知道如何计算概率。 的计算公式如下:

PMI(term, doc) = log [ P(term, doc)/(P(term)*P(doc)) ] 

什么,我想知道的是如何计算P(长期,DOC)

我已经有一个兰格文本语料库和文章的集合。文章不是语料库的一部分。该语料库使用lucene索引。

请帮我一把。 此致敬礼。

+0

你要提取的标签或计算概率?你的标题建议提取标签,但你的问题说你不知道如何计算概率 - 你为什么关心概率? – Bohemian

+0

我想提取标签,因此我必须计算P(term,doc),但我不知道如何去做 – BauerMitFackel

+0

为什么你必须计算任何东西?请定义“提取标签”。 – Bohemian

回答

0

有很多算法这样做:

开源工具:

KEA(http://www.nzdl.org/Kea/)监督方法使用训练数据和控制词汇

茂宜索引(http://code.google.com/p/maui-indexer/)是基本上是为提供关键短语提取使用百科全书提供便利的kea的扩展。

carrot2(http://project.carrot2.org/)用于关键短语提取的无监督方法。它支持许多关键词提取的输入,输出格式和参数的变化。

槌主题建模模块(http://mallet.cs.umass.edu/topics.php

斯坦福主题建模工具(http://nlp.stanford.edu/software/tmt/tmt-0.3/

Mahout的聚类算法(http://mahout.apache.org/

商业API:

炼金术API(http://www.alchemyapi.com/api/keyword-extraction/

Zemanta的API(http://www.zemanta.com/developer/

雅虎术语提取API(http://developer.yahoo.com/contentanalysis/

+1

此答案复制自 https://www.quora。COM /什么,是好工具对提取键字 - 和 - 或 - 主题标签,从-A-随机段落的文本/答案/维尼特-亚达夫?SRID = kKqE – MFARID