2016-03-30 112 views
1

我有很多文档(带有分析文本字段标题)。他们已被索引在Elasticsearch中,现在我只需要获得术语频率TF和逆文档频率IDF,该字段在标题内的每个术语没有任何查询。 (只是索引文件和检索该领域中所有术语的倒排索引标题在Elasticsearch中获取索引文档的倒排索引

Elasticsearch有可能吗?

回答

1

我写了一个tutorial关于如何从ES获取术语文档矩阵。这包括获得TF但不包括IDF。这是用于使用Python的ES 1.6.0。

欲了解更多,你应该看看TermVector API

+0

谢谢@Animesh Pandey,那么令牌呢?我在字段*标题*上应用了分析器,我可以轻松获得每个文档的结果标记吗? –

+0

我也在寻找这个。你现在有什么信息吗? – osager

+0

或者你可以使用:_termvectors来获得TF – mel

0
GET /YOUR_INDEX/YOUR_DOC_TYPE/YOUR_ID/_termvectors 
{ 
    "fields" : ["YOUR_FIELD"], 
    "term_statistics" : true, 
    "field_statistics" : true 
} 

这将为您的文档中的每个单词获得TF。