1

我正在研究电子图书馆(阿拉伯语书籍)的项目。一个程序,允许用户将他的书籍导入到系统库中,并对他的图书馆执行搜索。系统通过用户可以稍后更新的基本库(一套书)交付给用户。阿拉伯语文本文件搜索和索引

为了处理搜索问题,我想系统在基本搜索关键字的DB中有一个初始表。每个搜索关键字指向库中书籍的位置。

在用户将新书导入库中时出现此问题。有两步。 第一次搜索已经进入系统的关键字,以查找是否有任何关键字出现在书中,并将该位置添加到系统中。 第二,这是主要的绊脚石,是在新书中确定新的搜索关键字。

我认为这个想法非常糟糕和天真,这个想法是把新书分成标记,然后搜索每个标记,对照以前在图书馆找到的所有书。

所以总结一下,如果有任何帮助(工具,库或数据库选项)或想法来解决整个系统的第二个问题或另一个想法,我明白了。真的尝试阅读和搜索很多解决方案,但徒劳无功。

非常感谢,

回答

1

你想要Lucene.net。您将需要使用阿拉伯语分析仪。

+0

首先非常感谢回复。其次,我有一些我不明白的观点。 我对Lucene有什么了解,如果我错了,请纠正我的错误是Lucene是一个库,它允许我通过给定文档或给定搜索标记上的文件进行文本搜索。 关于阿拉伯语分析仪,我真的没有得到它的用途,通过搜索。它将如何使用Lucene。 也对〜6000文件进行文本搜索,不会是一个超负荷? 再次感谢, –

+0

Lucene会构建一个_index_的文档。这是搜索的索引。您的搜索不限于令牌,您可以搜索短语并执行其他类型的搜索。分析器找到要编入索引的单词。为了获得语言的最佳结果,分析仪需要针对该语言进行设计。例如,专为英语设计的分析器不会将不同形式的阿拉伯词识别为同一个词。链接** guest **发布了一个关于Lucene如何工作的概述。 –