2014-03-04 32 views
2

我有一个大型数据库,存储在elasticsearch数据库中的图像注释。我想用这个数据库进行关键字提取。输入是文字(通常是报纸文章)。我的算法的基本思想是遍历文章中的每个术语,并使用elasticsearch来发现术语在图像注释中的频率。然后从不频繁的文章中输出词语(以便选择人物或地方的名字而不是普通的英语单词)。弹性搜索中的快速关键字提取

我不需要一些非常复杂的东西,这些关键字只是用于用户输入的建议,但我希望更快一些,然后询问N个搜索查询(其中N是文本中的术语数)到elasticsearch,这可能会很慢在大文本上。在elasticsearch中有关于提取关键字的一些强大且快速的技术?

回答

1

您可以使用弹性搜索term aggregations。他们可以返回带有关键字的关键字,并显示相对频率的文档数量。以下是YML中的示例查询。

query: 
    match: 
     annotation: 
      query: text of your article 
aggregations: 
    term_frequencies: 
     terms: 
      field: annotation 
+0

这对我的数据非常有效..获取一堆停用词。这需要不同的方法。 – aclokay