2016-04-29 83 views
0

我正在建立一个使用Elasticsearch作为索引器和Nutch作为抓取工具的小型垂直搜索引擎。我正在使用HTML标题字段为使用edge n gram策略的ES构建搜索建议,认为标题字段应该很好,因为它应该包含页面主题内容的相关术语,并且它会使索引在搜索方面更小建议,他们是单个单词或短语。然而,到目前为止,在测试中,它并不像想象中那样工作......只是没有那么多建议出现。Elasticsearch更多搜索推荐

目前我只使用约10个网站进行测试,但最终将达到约500个左右。我在想,由于数据集很小(10个站点,只有HTML标题栏),可能没有足够的术语或短语可以提出好的建议,至少短语建议无论如何。

在标题字段中使用edge n gram策略抓取更多站点以创建更多建议(术语和短语)还是应该使用内容字段(显然比标题字段大得多)是明智的。

我试图对此进行微调以获得更多的搜索建议,尤其是短语建议,同时注意索引大小 - 这样性能不会受到影响。有任何想法吗?

回答

0

现在人们可以说,建议比搜索结果本身更重要---这是有点无意义的,我知道。但用户往往会预期,如果没有建议,就没有搜索结果。因此,请确保每个可搜索字段都适当地反映在您的建议中 - 特别是您的内容。和“优化后”!不要过早看你的表现。 500个网站听起来不像你会得到很多文件索引无论如何。你使用什么样的硬件?

+0

开发,只是我的本地Ubuntu机器,但是当开发完成后,我打算使用aws。 – user3125823

+0

我同意你的看法,建议可能比结果更重要,至少在最初时。你说什么是有道理的,最好先提出建议,以后再担心表现 – user3125823