0
我正面临通过C#.Net中的大量阿拉伯语内容文档(PDF和Doc文件)进行文本搜索的问题。Xapian vs Lucene.Net - 阿拉伯文档文本搜索
了很多,很多的搜索后,我想出了解决方案2,
首先,Lucene.Net我遇到了以下问题
1阿拉伯语分析与Lucene的使用。网络和发现this,不知道它是否会工作!
2-从文档(约6000 PDF和Doc文件)中提取文本并找到Tika,我将在ikvm的帮助下使用.Net。 但是,鉴于此解决方案将起作用,我不知道性能会如何。
其次,Xapian的我移动到,为了利用欧米茄库的这一解决方案,但还是发现了一些问题
1将Xapian的工作用阿拉伯语上下文或将需要一个阿拉伯语的分析如果是这样,我将如何解决这个问题
事实上,我不能决定哪个解决方案与阿拉伯语内容和几乎大量的数据。
任何帮助或建议非常赞赏,
感谢,
萨默尔
因此,Solr可以做3步骤,提取文本索引然后搜索? –
是的,像那样工作。 https://issues.apache.org/jira/browse/SOLR-205 – Peyman