我想实现一个搜索引擎,它应该抓取一组网站,从网页中提取特定的信息并创建该特定信息的全文索引。Xapian的履带/解析器
在我看来,Xapian可能是搜索引擎库的不错选择。
爬虫/解析器与Xapian集成有哪些选项?
Solr是否比Xapian更好地选择与开源搜索器/解析器集成?
我想实现一个搜索引擎,它应该抓取一组网站,从网页中提取特定的信息并创建该特定信息的全文索引。Xapian的履带/解析器
在我看来,Xapian可能是搜索引擎库的不错选择。
爬虫/解析器与Xapian集成有哪些选项?
Solr是否比Xapian更好地选择与开源搜索器/解析器集成?
Here's Xapian和Solr稍微比较一下。
但是,如果你想构建一个爬虫,看看Nutch。这是extensible with plugins,所以你可以写一个插件,分析你正在寻找的信息。
Flax可能会提供一些你正在寻找的东西。