2011-11-29 30 views
1

我的Django应用程序需要能够搜索存储在另一个Postgres数据库(即与我的Django数据库不同)上的大量聊天记录。最初,网站上的用户将使用简单的全文搜索日志,但后来我们打算使用NLP解析这些日志。索引聊天记录并在Django中搜索它

在这种情况下什么是更好的索引选项 - Sphinx或Solr?

我在找东西是FOSS,扩展性好,支持NLP并且有很好的Python/Django绑定,除非你们中的任何一个人有更好的方法/工具来完成这个任务。

对不起,如果我上面有任何错误。我不熟悉实现这种任何事情的概念,并且尽可能快地掌握这些概念。

回答

0

它不会完全实现,但我认为如果你想进行全文搜索,只要开源实现去,Solr/Lucene就可以得到明确的答案。警告:我不使用Solr和Python,我从来没有使用过狮身人面像。

流水线就像从数据库中读取日志,索引它们,将索引存储在任何服务器上,然后搜索。

向Lucene索引器添加额外/自定义的NLP内容非常简单。

这个thread comparing Lucene and ElasticSearch可能值得一看。