2010-05-10 118 views
6

我在Ubuntu 10.04上运行Solr 1.4(通过apt-get solr-tomcat安装),它似乎工作正常。我有一些困难找到任何连贯的信息,但如何索引文件。 Im新的SOLR让我忍受! 我有一个文件夹(/ mnt /文件夹),这是一个装载的Windows共享,其中包含Word和PDF文件,我想索引,最简单的方法来索取SOLR索引整个文件夹?如何索引SOLR中的文档?

SOLR的文档非常差,它不可能找到任何正确的教程来完成任务,所以任何帮助都非常感谢!

小号

回答

7

看看的Solr wiki,这是一个非常完整的文档。

尤其请参阅ExtractingRequestHandler,它允许您索引二进制文件,如Word和PDF文档。 Here's an introduction到主题。

如果这个wiki对你来说还不够,还有一个great book about Solr

+1

Lucid链接不起作用。但是,视频在YouTube上找到。 http://www.youtube.com/watch?v=ifgFjAeTOws&list=PLsj1Ri57ZE94lISrJuy7W8COc2RNFC1Fl&index=14 – Avec 2014-03-07 07:40:05

+0

仅链接到书籍作品 – orezvani 2014-08-20 10:15:06

1

我找到了一个核心文档同样的挑战,但我遇到了这个非常有用的参考指南从LucidImagination,这有助于澄清关于SOLR很多事情:

http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide

+0

遗憾的是,该链接不再有效。 – 2013-06-13 09:20:47

+0

我认为这将取代上述:http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide – paranza 2013-08-09 10:47:32

0

处理丰富的文档与Solr:http://wiki.apache.org/solr/UpdateRichDocuments

+2

哦,刚刚认识到,这种方法已被ExtractingRequestHandler取代,就像Mauricio所建议的。 (引用来自solr wiki:_This页面涵盖了由Eric Pugh和Chris Harris创建的RichDocumentHandler Solr的Tika集成,将取代RichDocumentHandler,在ExtractingRequestHandler中进行了描述,这里为那些目前使用RichDocumentHandler_的用户保留了此页面) – High6 2011-08-26 08:21:35