2013-08-22 27 views
2

基本要求:跨越不同工具集的Intranet搜索引擎有哪些工具?

  • 应该能像链接到MediaWiki,合流时,SharePoint,GitHub的指数事情:企业,Askbot
  • 应合理聪明地去欺骗的结果(其中一个原因总汇搜索是如此的痛苦) 。
  • 应该明确地包含启发式方法,例如链接到文档的页数,搜索条件是否在文档标题中等等。如果有方法让用户降低特定结果​​,那可能是一种奖励。
  • 应该有点可调(例如,更喜欢Confluence而不是Sharepoint,将某些路径列入黑名单)。

有没有现成的产品可以做到上述? FOSS项目?是否有FOSS项目可以为上述提供基础知识,并且易于扩展或构建前端?

回答

2

你可以试试Apache Solr,这是一个很棒的工具。

根据网站:

Solr的是流行的,从Apache Lucene项目极快的开源企业搜索 平台。它的主要功能包括: 强大的全文搜索,点击高亮,分面搜索,实时索引,动态聚类,数据库集成,丰富的文档(例如Word,PDF)处理和地理空间搜索。 Solr是 高可靠性,可扩展性和容错性,提供分布式 索引,复制和负载平衡查询,自动故障转移 和恢复,集中配置等等。 Solr为 搜索和导航功能提供世界上最大的互联网 网站。

+0

Nutch + Solr并没有像我希望的那样击中它。我仍然在玩弄它们,但是对于这两种工具都没有太多的了解,这有点棘手(而且Nutch的文档看起来相当精神分裂)。一般来说,你会推荐走这条路吗,还是推出我自己的爬行工具Solr? –

+0

@ Jun-DaiBates-Kobashigawa我推荐使用Nutch,AFAIK是最好的开源网络爬虫,我不认为它会消失 –

+0

为Elasticsearch投票。 – boj

0

您可以尝试捆绑版本的Solr和其他工具,如OpenESPConstellio。预计会花一些时间调整来源和进口。与OpenESP捆绑在一起的ManifoldCF是一个开放源代码连接器/爬行器框架,用于将连接器插入到您所描述的各种系统的连接器中,并且几个连接器都是开箱即用的。