2014-02-15 98 views
0

我想使用R和rcurl包访问网页。 这里是我的代码:R Rcurl的结果与firefox不同

library(RCurl) library(XML)

URL <- "http://www.lfp.fr/ligue1/calendrier_resultat#sai=82&jour=1" 
siteHTML <- getURL(url=URL) 
xmltext <- htmlParse(siteHTML, asText=TRUE, encoding = 'UTF-8') 
Date_Match <- sapply(xpathSApply(xmltext, '//*[@id="tableaux_rencontres"]//h4'), xmlValue) 
Date_Match 

结果并不好...一样,如果怨妇= 1参数不就不存在。 如果我尝试使用Firefox访问此页面,那就OK了。

我也试试这个代码没有成功:

x <- getForm("http://www.lfp.fr/ligue1/calendrier_resultat", 
     jour="2", 
     sai="82") 
xmltext <- htmlParse(x, asText=TRUE, encoding = 'UTF-8') 
Date_Match <- sapply(xpathSApply(xmltext, '//*[@id="tableaux_rencontres"]//h4'), xmlValue) 
Date_Match 

你知道为什么吗?解决办法是什么 ?你可以帮我吗 ? 我是R编程的初学者,所以不要犹豫,给大的解释。

回答

1

使用?,而不是#在网址:

library(RCurl) 
library(XML) 
URL <- "http://www.lfp.fr/ligue1/calendrier_resultat?sai=82&jour=1" 
siteHTML <- getURL(url=URL) 
xmltext <- htmlParse(siteHTML, asText=TRUE, encoding = 'UTF-8') 
Date_Match <- sapply(xpathSApply(xmltext, '//*[@id="tableaux_rencontres"]//h4'), xmlValue) 
Date_Match 
# [1] "Vendredi 14 février 2014" "Samedi 15 février 2014" "Dimanche 16 février 2014"