#read in csv file in form ("case, num, val \n case1, 1, baz\n...")
# convert to form FOO = "casenumval..." roughly 6 million characters
for someString in List: #60,000 substrings
if substr not in FOO:
#do stuff
else:
#do other stuff
所以我的问题是,有太多的子字符串来检查这个庞大的字符串。我已经尝试逐行阅读文件,并检查子线对线,但这仍然崩溃的程序。有没有什么技术可以有效地检查大量的子字符串是否对应一个非常大的字符串?在大字符串中查找子字符串
FOR CONTEXT: 我正在执行数据检查,怀疑数据保存到csv文件以供审查/更改。然后将该已审阅/更改的文件与原始文件进行比较。没有改变的数据已被验证为良好,必须保存到新的“exceptionFile”中。已被更改并通过的数据被忽略。并且已经被更改并且被检查并且仍然怀疑的数据被再次发送以供审查。
如果'otherString'实际上是一个字符串,循环会遍历_individual characters_,不子。 – ForceBru
你读过这个问题吗? https://stackoverflow.com/questions/1765579/fast-algorithm-for-searching-for-substrings-in-a-string – Idos
这将有助于,如果你告诉我们什么“做东西”和“做其他事情”需要知道。例如,它是否重要_哪些子字符串被找到,或者你只是在寻找它们? – zwol