我是Solr索引的新手。我正在寻找各种方式来索引比GB更大的文件(可以比这更多)。我尝试过Apache Tika来索引文件。如果大小不超过30MB,则效果很好。对于大于此值的文件,尽管将内存大小增加到了4096MB,但仍有内存异常(有些博客建议使用Apache Tika进行大文件索引以避免内存问题,但我还没有尝试过)。我想知道是否有更好的方法来索引大文件。我已阅读过数据导入处理程序(DIH),但不确定如何将其与现有Solr设置集成。有谁知道如何去DIH。我花了几天的时间一起整合,但似乎没有工作。从安装DIH直到处理一些示例文件将会有很大帮助,一步一步地进行。如果还有其他方法来索引大文件,请告知。大文件的索引索引内容(甚至大于GB)
我基本上是试图在我的一个Web门户中实现搜索功能,用户可以从各种文件服务器访问文件。他应该能够检查哪些文件具有他在搜索栏中键入的内容。我会每天运行一项工作来选择更改/新建的文件并重新编制索引。
你试过了什么? –
我下载了Tika,并尝试索引一些PDF文件,word文档等。它适用于文件高达30MB。但花费太多处理时间。 – Rahul