我有一个脚本需要在通过lxml.HTML()进行解析读取之前确定字符集。如果找不到它,我会假定ISO-8859-1(这是正常的假设字符集?),并且搜索带有charset属性的元标记的html。不过,我不确定最好的方式来做到这一点。我可以尝试使用lxml创建一个etree,但我不想读取整个文件,因为我可能遇到编码问题。但是,如果我没有阅读整个文件,我不能创建一个etree,因为一些标签不会被关闭。确定来自html元标记的字符集w/python
我是否应该找到带有一些奇特字符串下标的元标记,并在找到或读取了一定数量的行后跳出循环?也许使用低级HTML解析器,例如html.parser?使用python3顺便说一句,谢谢。
谢谢,我不知道有关忽略选项。我已经首先从头文件中读取字符集,但发现一些缺少Content-Type头的W/E原因。 – kryptobs2000 2011-02-15 12:00:33
@ kryptobs2000:好的。只是告诉你:虽然这种方法很容易实现,但Alohci的链接解释了处理文档的最快算法。所以如果你正在处理大量的文件,你可能更喜欢这样。 – 2011-02-15 18:02:23