我处理字符串列表可能包含一些额外的字母到原来的拼写,例如:字符串预处理
words = ['whyyyyyy', 'heyyyy', 'alrighttttt', 'cool', 'mmmmonday']
我要预先处理这些字符串,让他们拼写正确,检索一个新的列表:
cleaned_words = ['why', 'hey', 'alright', 'cool', 'monday']
重复的字母可以改变的序列的长度,但是,显然cool
应保持其拼写。
我不知道有这样做的任何python库,我希望尽量避免硬编码它。
我试过这个:http://norvig.com/spell-correct.html但是你把更多的单词放在文本文件中,似乎有更多的机会提示不正确的拼写,因此即使没有删除额外的字母,它也从来没有真正得到正确的拼写。例如,eel
变成teel
...
在此先感谢。
由于任务非常依赖于语言,蟒本身不能为你做它。尝试查找一些拼写更正包,例如https://pypi.python.org/pypi/autocorrect/0.1.0 – javad
请看看这篇文章:http://stackoverflow.com/questions/4500752/python-check - 是否一个单词,被拼写的 - 正确。我建议:1)检查每个单词的拼写。 2)如果不正确,则使用循环尝试删除重复的字母,直到拼写正确。 – Quinn
我认为你不会得到任何真正的答案,除非你提供了一些你写的代码,或者你想到的任何推理 - 算法/论文/链接。 – Markon