2017-10-15 46 views
0

我有一个1M到10M字符串的列表,我想查看它们中的哪些可以在单个文档中找到(比如说1页文本)。在单个文档中搜索很多字符串

我知道我可以使用Lucene(Solr/Elasticsearch)来查找包含字符串的所有文档。但这是相反的。

我可以编写一些基于字符串搜索算法之一的临时解决方案,如Aho-Corasic,try等,但我认为我会重新发明轮子。有没有任何图书馆/框架?

(我很好的分割字符串和文档进言,如果这有什么差别)

回答