0
代码可以在这里下载: https://github.com/kelrien/pyretrieval/编码错误
每当我执行我的example.py
,以下错误弹出:
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "example.py", line 21, in <module>
docs.append(proc.process(line.decode("utf-8")))
File "pyretrieval\processor.py", line 61, in process
tokens = self.tokenize(string)
File "pyretrieval\processor.py", line 47, in tokenize
temp = temp.replace(char, self.replace_characters[char])
UnicodeDecodeError: 'ascii' codec can't decode byte 0xfc in position 0: ordinal not in range(128)
正如你所看到的 - 尝试替换我指定的德语元音变音时发生错误。如果我不使用replace_characters字典并忽略这些变音符号,我没有收到错误。
我已经尝试了很多东西:
- 使用的编解码器模块
- 使用编码( “UTF-8”)和解码( “UTF-8”)在不同