2014-01-19 34 views
2

我在看这个bug几天,看起来像htmlParse函数在解析俄文符号时有编码问题。来自XML包的R-htmlParse()不能理解俄文字母

例如:

htmlParse("http://ru.wikipedia.org/wiki/Russia", encoding="UTF-8") 

本页面是UTF-8编码,但可以肯定,我focing htmlParse对它进行编码以UTF-8。

但是,在htmlParse()输出中,英文符号是正确的编码,但俄语看起来是典型的错误编码符号。

我使用的是Windows 8,我的语言环境是Russian_Russia.1251。我认为非Unicode区域设置是这里的问题,因为当我在Ubuntu中使用这个命令时,一切按预期工作,但Ubuntu具有en_EN.UTF-8区域设置。

回答

1

我不知道你已经尝试了什么,但能正常工作对我来说:

doc <- htmlParse("http://ru.wikipedia.org/wiki/Russia", encoding="UTF-8") 
xpathSApply(doc,'//*[@id="mw-content-text"]/ul/li/a',xmlValue) 
[1] "Russia (фильм)" "Киры Муратовой" "Наша Russia"  
    "Руша (Огайо)"  "англ."    "Россия (значения)" 
+1

我测试,是的,XPath的输出是有效的,但是当你打印文档的变量,你得到错误编码的符号。可以吗? –

相关问题