2015-09-07 41 views
0

我是Solr索引的新手。我正在寻找各种方式来索引比GB更大的文件(可以比这更多)。我尝试过Apache Tika来索引文件。如果大小不超过30MB,则效果很好。对于大于此值的文件,尽管将内存大小增加到了4096MB,但仍有内存异常(有些博客建议使用Apache Tika进行大文件索引以避免内存问题,但我还没有尝试过)。我想知道是否有更好的方法来索引大文件。我已阅读过数据导入处理程序(DIH),但不确定如何将其与现有Solr设置集成。有谁知道如何去DIH。我花了几天的时间一起整合,但似乎没有工作。从安装DIH直到处理一些示例文件将会有很大帮助,一步一步地进行。如果还有其他方法来索引大文件,请告知。大文件的索引索引内容(甚至大于GB)

我基本上是试图在我的一个Web门户中实现搜索功能,用户可以从各种文件服务器访问文件。他应该能够检查哪些文件具有他在搜索栏中键入的内容。我会每天运行一项工作来选择更改/新建的文件并重新编制索引。

+0

你试过了什么? –

+0

我下载了Tika,并尝试索引一些PDF文件,word文档等。它适用于文件高达30MB。但花费太多处理时间。 – Rahul

回答

0

Solr在二进制(PDF,Word)格式下使用Tika。所以,如果直接针对Tika失败,它很可能不会在Solr中工作。我会做一个简单的用例来显示一个问题,并在Tika邮件列表中询问。一旦Tika得到解决,您就可以看到该解决方案是否能够适合Solr本身。

您可能还想看看一个专用客户端,该客户端在具有超大内存的单独机器上运行,并以作业队列方式将这些文件转换为Tika提取的版本。