我删除重复的文字:从多个字符串
a = "This is Product A with property B and propery C. Buy it now!"
b = "This is Product B with property X and propery Y. Buy it now!"
c = "This is Product C having no properties. Buy it now!"
我正在寻找一种算法,可以这样做:
> magic(a, b, c)
=> ['A with property B and propery C',
'B with property X and propery Y',
'C having no properties']
我必须找到在1000+文本重复。超级表演不是必须的,但会很好。
- 更新
我正在寻找单词序列。所以,如果:
d = 'This is Product D with text engraving: "Buy". Buy it now!'
第一个“卖”不应该重复。我猜测我必须使用n之后的字眼,以便看作是重复的。
问题不明确?如何定义重复的文本? –
为什么“有财产”在重复时不重复? :D – fl00r
1)如果有第四个字符串“Bumblebee zebra”。 '魔术(a,b,c,d)'会被期望返回所有四个未修改的字符串? 2)预期如何使用位置信息,例如“魔术师”示例删除了“立即购买!”尽管事实上这是字符串的不同部分。可能你正在寻找一个'diff'函数? –