2016-12-07 14 views
0

我想解析下面的网页以返回每个结果子页面的链接。但是,'结果'维仅返回一个空列表。为了正确返回每个结果页面的标题和底层URL,我需要将哪些内容放入span子句中?Rcurl使用类标记解析HTML网页

非常感谢。

# load packages 
library(RCulr) 
library(XML) 

# download html 
url = "http://www.sportinglife.com/racing/results" 
http = htmlParse(url) 
result = lapply(http['//span[@class="hdr t2"]'],xmlValue) 

回答

0

简单。当您查看url源代码中的“hdr t2”时,您会注意到当您查询span标签时,包含此类名称的标签是h3标签。将“span”替换为“h3”,它会起作用。这对我的作品

 # load packages 
    library(RCulr) 
    library(XML) 

    # download html 
    url = "http://www.sportinglife.com/racing/results" 
    http = htmlParse(url) 
    result = lapply(http['//h3[@class="hdr t2"]'],xmlValue) 

我说这很简单,但它很容易,监督以及:)