2013-10-24 57 views
1

我正在研究一个项目,我正在使用elasticsearch来分析微博。我正在制作一个热门话题列表(人们的兴趣爱好),这是他们最经常发布的推文。从elasticsearch api获取词干

由于tweets大多数时候都有单词需要在可以用作列表(兴趣)名称之前进行剔除。

Elasticsearch擅长从数据库中搜索处理停用词的删除;药品;等在后台,但我想知道是否有一种方法,我可以从弹性搜索api的推特中得到干扰词。

我认为apache lucene可以做到这一点,但我想坚持elasticsearch。

任何人都可以建议我一种在弹性搜索中实现这一点的方法。

在此先感谢!

  • 编辑: -

让我们假设有3个字如。播放,播放,播放等

所有这些词在词干后都是相同的(所以),所以我想在这里增加只播放(阻止词)的计数,而不是3个非词干单词的个别计数。

希望这个例子让我的目的更加清晰。

+0

茎是不是真的很高兴看到,你确定你想他们回来呢? – javanna

+0

@javanna Yaa我想干的话他们很重要我已经更新了一个例子的问题,请检查。 –

+0

对不起,但我不明白,你想增加什么计数?你是不是已经在索引时间应用了词干? – javanna

回答