如何在Python中读取带特殊字符的文件

我已经使用Apache Tika爬取pdf，html，doc文件并将结构化文本存储到文本文件中。这些文本文件包含一些不常见的特殊字符，因为这些特殊字符我无法阅读这些文字files.I有下面的代码片段来读取文件如何在Python中读取带特殊字符的文件

fo = codecs.open('/var/www/testfiles/sample.txt','r','utf-8').read()

不过，我收到以下错误

UnicodeDecodeError: 'utf8' codec can't decode byte 0xb7 in position 1291: invalid start byte

请，建议我怎么看我的文本文件。谢谢

您需要将'errors'关键字参数设置为默认strict以外的值。你可以找到一个可能的列表（Python 3.3）here。该列表在“codecs.register（）”文档中列举。

我会从'替换'选项开始，这样你就可以看到你在处理什么。

2013-08-02 10:26:25

回答