Rcurl使用类标记解析HTML网页

我想解析下面的网页以返回每个结果子页面的链接。但是，'结果'维仅返回一个空列表。为了正确返回每个结果页面的标题和底层URL，我需要将哪些内容放入span子句中？Rcurl使用类标记解析HTML网页

非常感谢。

# load packages 
library(RCulr) 
library(XML) 

# download html 
url = "http://www.sportinglife.com/racing/results" 
http = htmlParse(url) 
result = lapply(http['//span[@class="hdr t2"]'],xmlValue)

来源

2016-12-07 Tammboy

简单。当您查看url源代码中的“hdr t2”时，您会注意到当您查询span标签时，包含此类名称的标签是h3标签。将“span”替换为“h3”，它会起作用。这对我的作品

 # load packages 
    library(RCulr) 
    library(XML) 

    # download html 
    url = "http://www.sportinglife.com/racing/results" 
    http = htmlParse(url) 
    result = lapply(http['//h3[@class="hdr t2"]'],xmlValue)

我说这很简单，但它很容易，监督以及:)

来源

2016-12-07 09:59:41

Rcurl使用类标记解析HTML网页

回答

相关问题