我有很多文档(带有分析文本字段标题)。他们已被索引在Elasticsearch中,现在我只需要获得术语频率TF和逆文档频率IDF,该字段在标题内的每个术语没有任何查询。 (只是索引文件和检索该领域中所有术语的倒排索引标题)在Elasticsearch中获取索引文档的倒排索引
Elasticsearch有可能吗?
我有很多文档(带有分析文本字段标题)。他们已被索引在Elasticsearch中,现在我只需要获得术语频率TF和逆文档频率IDF,该字段在标题内的每个术语没有任何查询。 (只是索引文件和检索该领域中所有术语的倒排索引标题)在Elasticsearch中获取索引文档的倒排索引
Elasticsearch有可能吗?
我写了一个tutorial关于如何从ES获取术语文档矩阵。这包括获得TF但不包括IDF。这是用于使用Python的ES 1.6.0。
欲了解更多,你应该看看TermVector API。
不,你可能会找到一种方法来一起破解它。并且在每个查询的基础上,您可以使用EXPLAIN api,例如https://www.elastic.co/guide/en/elasticsearch/reference/2.3/search-explain.html但是没有API返回此信息。
GET /YOUR_INDEX/YOUR_DOC_TYPE/YOUR_ID/_termvectors
{
"fields" : ["YOUR_FIELD"],
"term_statistics" : true,
"field_statistics" : true
}
这将为您的文档中的每个单词获得TF。
谢谢@Animesh Pandey,那么令牌呢?我在字段*标题*上应用了分析器,我可以轻松获得每个文档的结果标记吗? –
我也在寻找这个。你现在有什么信息吗? – osager
或者你可以使用:_termvectors来获得TF – mel