我有一个用utf-8编码的HTML文件。我想把它输出到一个用utf-8编码的文本文件中。这里是我正在使用的代码:什么是在Python中使用编解码器编码的正确方法?
import codecs
IN = codecs.open("E2P3.html","r",encoding="utf-8")
codehtml = IN.read()
#codehtml = codehtml.decode("utf-8")
texte = re.sub("<br>","\n",codehtml)
#texte = texte.encode("utf-8")
OUT = codecs.open("E2P3.txt","w",encoding="utf-8")
OUT.write(texte)
IN.close()
OUT.close()
正如你所看到的,我试过使用'decode'和'codecs'。这些都不工作,我的输出文本文件默认为Occidental(Windows-1252),一些实体变成乱码。 我在这里做错了什么?
为什么你认为输出文件被编码为Windows-1252?您是否使用无法在没有BOM的情况下检测到UTF-8文件的编辑器? –