2
我在看这个bug几天,看起来像htmlParse函数在解析俄文符号时有编码问题。来自XML包的R-htmlParse()不能理解俄文字母
例如:
htmlParse("http://ru.wikipedia.org/wiki/Russia", encoding="UTF-8")
本页面是UTF-8编码,但可以肯定,我focing htmlParse对它进行编码以UTF-8。
但是,在htmlParse()输出中,英文符号是正确的编码,但俄语看起来是典型的错误编码符号。
我使用的是Windows 8,我的语言环境是Russian_Russia.1251。我认为非Unicode区域设置是这里的问题,因为当我在Ubuntu中使用这个命令时,一切按预期工作,但Ubuntu具有en_EN.UTF-8区域设置。
我测试,是的,XPath的输出是有效的,但是当你打印文档的变量,你得到错误编码的符号。可以吗? –