2011-07-07 21 views
0

我想知道如何设置一个搜索引擎这个约束:我如何允许用户搜索没有参考其URL的数据?

在网站(小流量网站),新闻内容被存储,但我们不知道这些内容实际显示的位置;我们无法猜测网址。

您是否知道如何以及使用哪种技术来实现此功能?

我想我需要一个搜索引擎,它在搜索时抓取整个网站?有人可以告诉我,如果sphynx/lucene/solr会合适吗?

回答

1

无论您选择哪种搜索引擎,您都必须提供足够的信息。因此,有了你的约束,你不能在世界上使用任何搜索引擎。

当您向索引提交文档或页面时,还必须提供足够的信息才能创建一个URL以显示实际内容的位置。

Lucene是Solr使用的搜索API。两者都是高质量的Apache项目,可以根据您的要求进行选择。 Solr为Lucene提供了一系列广泛的功能,例如facetted seach和一个适用于所有操作的REST API。

+0

我不确定我是否同意你的看法,那么抓取整个页面的搜索引擎如何呢?这样做使我能够知道URL。创建一个任务每天抓取整个网站一次将有助于维护搜索数据库的更新。 –

+0

如果您抓取整个页面,您**会获得足够的信息。您的约束是*'我们无法猜测URL * * –

+0

Johan是正确的,抓取网页意味着文档引用是url ... –

相关问题