0
我有一个约两百万文本文件的集合,总共约10GB未压缩。我希望在这个集合中找到包含短语的文档,看起来像“每次”或“bill clinton”(简单的不区分大小写的字符串匹配)。我也想找到含有模糊内容的短语;例如“数周”。如何在一组文件中查找字符串和字符串模式?
我试过使用Lucene进行索引,但找到包含停用词的短语并不好,因为它们在索引时默认会被删除。 xargs和grep是一个缓慢的解决方案。这种数据量的快速和适用性是什么?
当然Lucene。也许你应该问“我怎么能做到这一点,并与Lucene” –
关闭Lucene的停止词处理?祝你好运。 – shellter