4
我有一个网页抓取工具,它将论坛问题分解成单个单词并将其写入文本文件。单词存储在一个元组列表中。每个元组都包含这个词和它的频率。是这样的...Python:使用正则表达式从字符串中去除 u200b
[(u'move', 3), (u'exploration', 4), (u'prediction', 21),
(u'find', 5), (u'user', 2), (u'interface', 2), (u'pleasant', 2),
(u'am', 11), (u'puzzled', 2), (u'find', 5), (u'way', 5),
(u'prediction', 21), (u'mode', 2), (u'have', 21),
(u'explored', 2), (u'file', 9), (u'Can', 7), (u'help', 6),
(u'Possible', 1), (u'bug', 2), (u'data', 31), (u'is', 17)
然而,在论坛上一些人用它打破我的代码,因为这个角色不再是一个Unicode空白字符\ u200b。
(u'used\u200b', 1)
打印出来并不会产生错误,但是写入文本文件却有问题。我发现string.strip()
和string.replace()
没有帮助,所以我想知道如何使用正则表达式库来摆脱该字符。我打算通过解析整个元组列表来找到它。
'分裂()'和'replace'不正确的方式,因为你不会遭遇总是用'u200'。 – Kasramvd
@Kasramvd你可以给一个以上的字符作为'strip'的参数。还有很多方法可以替换多个字符(例如使用正则表达式)。 – roeland
.replace在Python3.5中运行良好 –