2011-07-14 35 views
0

我正面临通过C#.Net中的大量阿拉伯语内容文档(PDF和Doc文件)进行文本搜索的问题。Xapian vs Lucene.Net - 阿拉伯文档文本搜索

了很多,很多的搜索后,我想出了解决方案2,

首先,Lucene.Net我遇到了以下问题

1阿拉伯语分析与Lucene的使用。网络和发现this,不知道它是否会工作!

2-从文档(约6000 PDF和Doc文件)中提取文本并找到Tika,我将在ikvm的帮助下使用.Net。 但是,鉴于此解决方案将起作用,我不知道性能会如何。

其次,Xapian的我移动到,为了利用欧米茄库的这一解决方案,但还是发现了一些问题

1将Xapian的工作用阿拉伯语上下文或将需要一个阿拉伯语的分析如果是这样,我将如何解决这个问题

事实上,我不能决定哪个解决方案与阿拉伯语内容和几乎大量的数据。

任何帮助或建议非常赞赏,

感谢,

萨默尔

回答

0

如果你想使用nLucene你必须创建阿拉伯语分析仪,但使用Solr和Im其做工精细用阿拉伯语语言。检查this topic

+0

因此,Solr可以做3步骤,提取文本索引然后搜索? –

+0

是的,像那样工作。 https://issues.apache.org/jira/browse/SOLR-205 – Peyman