因此,我正在研究一个具有非常特定的全球站点搜索功能的站点,这些站点使用GSS,正如许多人已经知道的那样,GSS将在四月份离开。我需要抓取网站并将XML发送到Cloudsearch,但是我对如何解决这个问题感到困惑,并且我没有发现很多关于在互联网搜索后使用AWS Cloudsearch构建全球网站搜索的材料几天。到目前为止,我正在计划使用Apache Nutch来抓取该网站,但我真的很感激一些输入。提前致谢!用AWS Cloudsearch取代Google Site Search
回答
您是否遇到过我们的博客? Index the web with AWS CloudSearchIndex the web with StormCrawler (revisited)。我介绍了如何使用Nutch和StormCrawler来索引AWS Cloudsearch。
如果您需要搜索托管,我建议Elasticsearch和Elastic Cloud来代替。我发现Cloudsearch速度慢,麻烦而且昂贵,而且StormCrawler和Apache Nutch的Elasticsearch也有更多的资源。
我已阅读你的第一篇文章,提到Nutch。我非常欣赏Elasticsearch的建议。目前,我在一个网站上工作,并试图寻找Google Site Search的替代方案,这让我倍感争议。你认为弹性云将是一个体面的替代品吗?这很糟糕,但Google似乎在这个特定的市场上留下了huuuuge的空白。再次感谢! –
@EthanStepanian欢迎您。 Elastic Cloud无法帮助抓取本身,但与StormCrawler相结合,这将是一个好方法。另外还有一些基于Apache SOLR的托管解决方案,您可以使用Nutch等其他爬虫。 –
- 1. Google Site Search XML API分页
- 2. Site Search for POST-Based Search Engines
- 3. Google Site Search - 如何摆脱品牌?
- 4. Google Site Search无法返回结果
- 5. 在Drupal 7中实现Google Site Search
- 6. 如何使用Google Site Search中的类别
- 7. 用于Google Site Search的C#封装或样本
- 8. AWS CloudSearch抛出EndpointConnectionError异常
- 9. Google Site Search C#API不返回任何促销活动
- 10. Google Site Search - 完全自定义搜索输入
- 11. AWS Cloudsearch奇怪的问题
- 12. AWS Elasticsearch和AWS CloudSearch有什么区别?
- 13. AWS CloudSearch:1域中的不同文档?
- 14. 使用aws cloudsearch进行多个排除
- 15. 使用AWS CloudSearch查找类似词语
- 16. Google Site Data fetching
- 17. AWS CloudSearch建议(自动完成)
- 18. Google Search Appliance中的Google Search Appliance搜索
- 19. Google Custom Search with mod_rewrite search term
- 20. Google Site Apps脚本
- 21. 使用AWS Java SDK将文档从Amazon S3上传到CloudSearch
- 22. Google Custom Search API
- 23. Google Search API ruby
- 24. Google Search Appliances
- 25. Google API for Search
- 26. AWS CloudSearch导出/下载数据
- 27. AWS CloudSearch错误无需智能回应
- 28. AWS Cloudsearch电子邮件查询
- 29. 如何等待AWS Cloudsearch索引文档?
你有没有读过http://docs.aws.amazon.com/cloudsearch/latest/developerguide/what-is-cloudsearch.html? –
@RicardoC在过去的几天里,我一直在阅读它们,但是我不知道专门讨论如何使用爬虫。 –
Amazon CloudSearch不是网络爬虫。 –