2013-11-24 58 views
4

我在Phalcon有一个网站,我正在尝试添加一个搜索引擎。但是,内容不在数据库中,并且在平面文件中..位于app/views/Lucene/Sphinx/Solr如何工作?

我从来没有实现的搜索引擎,但是从我收集它似乎像Lucene的Solr的或/ Sphinx正是我需要的。

做这些工具提供解析我的网站ALA的HTTrack,从而创建索引和必要的绝对URI链接的选项?

如何指定要解析的HTML文件的哪一部分?他们如何与忽略某些区域(如HTML,JS)进行交互?

+0

我更新了这个问题,所以它不是要求“适合工作的工具”,而是需要这些工作。这仍然值得关闭吗? –

回答

1

Lucene是首先是一个索引。这甚至不是数据库,如果你愿意的话,它只是数据库的索引部分。它在索引中的高度可配置性,以及如何以及以何种数据保留原始格式以及索引后可以丢弃哪些数据。首先创建一个模式,就像创建数据库模式一样。但是,在Lucene的情况下,模式定义了用于为字段创建索引的什么类型的标记器和过滤器。然后,您将文档放入其中以使其填充索引。这取决于你,有几种不同的API可以让你提供数据。一个“网络爬虫”是而不是其中之一,它不会自动出去查找你的数据。然后,您可以通过各种方式查询索引,以检索之前填入的文档。简而言之,就是这样。

Lucene是非常专门的索引引擎,大约是tokenising和转换文本和其它数据转换成可以快速查询索引。它可以让你查询“小部件的制造商”的和与文本“小工具制造商”返回一个文件,如果你已经优化了你的索引和相应的查询部分。 Solr是一个围绕Lucene的应用程序,它增加了一个基于HTTP的API和一些其他的细节。两者都是可以用来构建搜索引擎的低级工具。它不是像Google那样的开箱即用的“搜索引擎”。