Q

如何在一组文件中查找字符串和字符串模式？

2011-09-23 89 views 0 likes

0

我有一个约两百万文本文件的集合，总共约10GB未压缩。我希望在这个集合中找到包含短语的文档，看起来像“每次”或“bill clinton”（简单的不区分大小写的字符串匹配）。我也想找到含有模糊内容的短语;例如“数周”。如何在一组文件中查找字符串和字符串模式？

我试过使用Lucene进行索引，但找到包含停用词的短语并不好，因为它们在索引时默认会被删除。 xargs和grep是一个缓慢的解决方案。这种数据量的快速和适用性是什么？

2011-09-23 Leon Derczynski

+0

当然Lucene。也许你应该问“我怎么能做到这一点，并与Lucene” –

+0

关闭Lucene的停止词处理？祝你好运。 – shellter

A

回答

0

你可以使用postgreSQL数据库。有全文搜索实施，并通过使用字典，您可以定义自己的停用词。我不知道它是否有帮助，但我会试一试。

2011-09-23 16:49:42

相关问题