在python中处理非ASCII代码字符真是令人困惑。任何人都可以解释吗?在python中处理非ASCII代码字符串
我想读取纯文本文件并用空格替换所有非字母字符。
我有字符的列表:
ignorelist = ('!', '-', '_', '(', ')', ',', '.', ':', ';', '"', '\'', '?', '#', '@', '$', '^', '&', '*', '+', '=', '{', '}', '[', ']', '\\', '|', '<', '>', '/', u'—')
每个令牌我得到了,我通过调用
for punc in ignorelist:
token = token.replace(punc, ' ')
通知更换与空间令牌任何字符有一个非ASCII码字符在ignorelist
的结尾:u'—'
每当我的代码遇到该字符时,它崩溃并说:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position
我试图通过在文件的顶部添加# -*- coding: utf-8 -*-
来声明编码,但仍然无法工作。有谁知道为什么?谢谢!
谢谢,这工作! – bolei
我想要upvote你。但我的分数低于15,我不能投票......对不起! – bolei