来自XML包的R-htmlParse（）不能理解俄文字母

我在看这个bug几天，看起来像htmlParse函数在解析俄文符号时有编码问题。来自XML包的R-htmlParse（）不能理解俄文字母

例如：

htmlParse("http://ru.wikipedia.org/wiki/Russia", encoding="UTF-8")

本页面是UTF-8编码，但可以肯定，我focing htmlParse对它进行编码以UTF-8。

但是，在htmlParse（）输出中，英文符号是正确的编码，但俄语看起来是典型的错误编码符号。

我使用的是Windows 8，我的语言环境是Russian_Russia.1251。我认为非Unicode区域设置是这里的问题，因为当我在Ubuntu中使用这个命令时，一切按预期工作，但Ubuntu具有en_EN.UTF-8区域设置。

来源

2014-01-19 Vadim Smakhtin

我不知道你已经尝试了什么，但能正常工作对我来说：

doc <- htmlParse("http://ru.wikipedia.org/wiki/Russia", encoding="UTF-8") 
xpathSApply(doc,'//*[@id="mw-content-text"]/ul/li/a',xmlValue) 
[1] "Russia (фильм)" "Киры Муратовой" "Наша Russia"  
    "Руша (Огайо)"  "англ."    "Россия (значения)"

来源

2014-01-19 13:03:09 agstudy

我测试，是的，XPath的输出是有效的，但是当你打印文档的变量，你得到错误编码的符号。可以吗？ –

来自XML包的R-htmlParse（）不能理解俄文字母

回答

相关问题