2017-03-02 28 views
1

因此,我正在研究一个具有非常特定的全球站点搜索功能的站点,这些站点使用GSS,正如许多人已经知道的那样,GSS将在四月份离开。我需要抓取网站并将XML发送到Cloudsearch,但是我对如何解决这个问题感到困惑,并且我没有发现很多关于在互联网搜索后使用AWS Cloudsearch构建全球网站搜索的材料几天。到目前为止,我正在计划使用Apache Nutch来抓取该网站,但我真的很感激一些输入。提前致谢!用AWS Cloudsearch取代Google Site Search

+0

你有没有读过http://docs.aws.amazon.com/cloudsearch/latest/developerguide/what-is-cloudsearch.html? –

+0

@RicardoC在过去的几天里,我一直在阅读它们,但是我不知道专门讨论如何使用爬虫。 –

+0

Amazon CloudSearch不是网络爬虫。 –

回答

1

您是否遇到过我们的博客? Index the web with AWS CloudSearchIndex the web with StormCrawler (revisited)。我介绍了如何使用Nutch和StormCrawler来索引AWS Cloudsearch。

如果您需要搜索托管,我建议Elasticsearch和Elastic Cloud来代替。我发现Cloudsearch速度慢,麻烦而且昂贵,而且StormCrawler和Apache Nutch的Elasticsearch也有更多的资源。

+0

我已阅读你的第一篇文章,提到Nutch。我非常欣赏Elasticsearch的建议。目前,我在一个网站上工作,并试图寻找Google Site Search的替代方案,这让我倍感争议。你认为弹性云将是一个体面的替代品吗?这很糟糕,但Google似乎在这个特定的市场上留下了huuuuge的空白。再次感谢! –

+0

@EthanStepanian欢迎您。 Elastic Cloud无法帮助抓取本身,但与StormCrawler相结合,这将是一个好方法。另外还有一些基于Apache SOLR的托管解决方案,您可以使用Nutch等其他爬虫。 –