2014-04-03 59 views
0

有人可以告诉我从哪里开始为本地文件开发一个简单的全文本搜索引擎吗?如何开发一个简单的搜索引擎在本地文件中进行全文搜索

我有一台带有LAMP的Debian 7服务器,并在其上安装了一个Windows网络驱动器。到目前为止,我正在使用this script向其他本地网络用户显示他们可以从装入的网络驱动器下载文件的目录树。

但我必须建立一个简单的搜索引擎,可以索引挂载文件夹中的本地文件的名称和内容(如果有) - Microsoft doc,docx,xl​​s,xlsx,rtf,txt。搜索必须返回文件的名称,路径和最好的文本是否存在搜索词出现的部分(如果文件有文本)。

难道有人指向我正确的方向,我必须阅读和学习如何做到这一点?谢谢。

回答

3

为此,您需要一些工具。你需要一些东西来索引和搜索内容,并且你已经用三个好工具来标记这个问题,。他们每个人都有丰富的教程和示例来帮助您开始。

您需要的另一件事是通过读取来自所有这些不同文件类型的内容。我建议Apache Tika。这是一个很好的工具包,可以读取你列出的所有格式,并且可以很好地与Lucene一起使用。

您可以在这个问题上一起看自己使用的例子:Tika in Action book examples Lucene StandardAnalyzer does not work

+0

感谢我会看的文档。你有使用elasticsearch的经验吗? – ispasov

+0

当然,有些。不知道你为什么问,虽然... – femtoRgon

+0

我只是想知道,如果你让我代表你的经验这些解决方案之间的一些comparizon。 – ispasov

1

你会发现这是很有帮助的,你可能不会。

我有Solr和Nutch设置索引我的本地文件系统,并将它们存储在Solr中,并有关于如何设置它们的指南。

这将为您的应用程序提供坚实的后端。

以下是链接。前两作Solr的设置,最后两个对Nutch的整合

http://amac4.blogspot.co.uk/2013/07/setting-up-solr-with-apache-tomcat-be.html http://amac4.blogspot.co.uk/2013/07/setting-up-tika-extracting-request.html

http://amac4.blogspot.co.uk/2013/07/configuring-nutch-to-crawl-urls.html http://amac4.blogspot.co.uk/2013/07/setting-up-nutch-to-crawl-filesystem.html

+0

谢谢我会检查你的指南,即使他们是为Windows设置。 – ispasov

+0

Linux设置不应该太不同 –