2011-09-23 89 views
0

我有一个约两百万文本文件的集合,总共约10GB未压缩。我希望在这个集合中找到包含短语的文档,看起来像“每次”或“bill clinton”(简单的不区分大小写的字符串匹配)。我也想找到含有模糊内容的短语;例如“数周”。如何在一组文件中查找字符串和字符串模式?

我试过使用Lucene进行索引,但找到包含停用词的短语并不好,因为它们在索引时默认会被删除。 xargs和grep是一个缓慢的解决方案。这种数据量的快速和适用性是什么?

+0

当然Lucene。也许你应该问“我怎么能做到这一点,并与Lucene” –

+0

关闭Lucene的停止词处理?祝你好运。 – shellter

回答

0

你可以使用postgreSQL数据库。有全文搜索实施,并通过使用字典,您可以定义自己的停用词。我不知道它是否有帮助,但我会试一试。