Java中的搜索引擎？

2011-10-28 Graham

Lucene是规范的Java搜索引擎。

要添加各种来源的文档，请查看Apache Tika以及具有服务/ Web界面的完整系统solr。

Lucene允许任意元数据与其文档相关联。 Tika将自动剔除各种格式的元数据。

2011-10-28 14:22:15

1）我的问题是除html之外，你可以添加元数据到任何其他文件格式，以便显示元描述。

一般来说，您将使用数据库并将元数据与文档一起存储在那里。然后，您可以使用数据库查询（可能使用SQL like或ilike）进行关键字搜索。

这些文件可能存储在硬盘上，只有路径在数据库中，或者作为CLOB或BLOB放入数据库，具体取决于您是否具有文本或二进制文档。

2）你能指向一个Java搜索引擎，它可以在文件格式（txt，html）中搜索并显示结果。

2011-10-28 14:22:21 Thomas

真的很好是Lucene。有很多的插件（这将允许例如从.DOC读），支持多国语言和大量的算法（如Levenshtein距离）

2011-10-28 14:23:00 Dewfy

Apache Nutch is an open source web-search software project.

Nutch的基础上Lucene之上/ solr索引，tika解析文档，并添加自己的网络爬虫。

2011-10-28 14:23:00 sbridges

2011-10-28 14:23:38 stivlo

... lucene和solr想起其他人的代码而言。

2011-10-28 14:24:16 vector

Apache Tika提取元数据。

Apache Tika Apache Tika工具包是ASFv2许可的开放源代码从数字文档中提取信息的工具。 Tika允许搜索引擎，内容管理系统和其他应用程序可以使用各种数字文档轻松检测并从所有主要文件格式中提取元数据和内容。

2011-10-28 14:26:56

您将不得不使用多个库。首先，很多人之前提到可以使用Lucene来进行实际搜索。但是，Lucene只处理纯文本，所以你需要从你索引的文件中提取。为此，您可以使用Apache Tika。

要开始，你应该买书Lucene in Action 2nd edition。那里的大多数例子仍然是最新的。如果你想成为一个小家伙，你也可以看看该页面提供的源代码。

2011-10-28 14:27:12

回答