找到位置,我有两个很长的单词序列。其中两个字符串不同
我需要找到它们的不同地方。例如,如果输入的是
1st sequence: A B C D E F G
2nd sequence: A X D Y Z W G
(每个字符在这里表示一个字)
输出应该是:
B C -> X
E F -> Y Z W
我所想的:我能有一个索引两个序列。最初,两者都会指向A.增加两个指数。现在,第一指标点到B,第二为X.我现在可以搜索B.没有找到它的整个第二序列,我可以搜索C中的整个第二序列,然后D.我会找到一个d,和可以因此解决问题。
显然,这种“蛮力”的方法是可怕的。
什么是更好的方法?
我写我的Python代码,并使用NLTK,因此,如果这可以部分或完全使用内置NLTK功能来解决,这将是更快(实施)。
最长公共子可能更适用。 –