2017-09-07 46 views
3

我正在写一个基本上是字符串的RDD的火花程序。我需要做的是基本上创建一个查询每个字符串和基于弹性搜索索引做查询。所以基本上查询会不同的字符串。我想用elasticsearch-hadoop来做搜索,所以我可以进行优化。该RDD可能很大,我寻找任何可能的优化Elastisearch-Hadoop如何在火花程序中进行批量搜索

例如RDD是列表[印度,IBM公司,Netflix,勒布朗詹姆斯]。我们将在所有这些术语上创建更多像这样的搜索,并在索引维基百科上进行搜索并找回结果。例如,我们将为印度和IBM以及Netflix和Lebron James创建四个类似的查询,并为他们获得点击率

我确实有可以在其中使用HTTP Rest API调用批量搜索来取回点击,但我会在我自己的优化。我想看看我们是否可以使用火花弹性连接器来创建查询并以优化的方式进行搜索

+0

您是否试过https://www.elastic.co/guide/en/elasticsearch/hadoop/current/spark.html#火花阅读?我发现它有一个查询选项,不知道你可以用它来运行更多的样子 – aclokay

+1

我需要运行一个查询来形成rdd,而不是一组查询。像多搜索查询。我现在认为你不能通过连接器进行批量查询,并且可能会自行实施 –

回答

0

此用例是不可能的。弹性搜索基本上假定一个或多个查询,但不适用于n =批量查询模式