1
我想从这个site读取游戏数据,并使用XML封装这样做:readHTMLTable倒塌span元素
library(XML)
url <- 'http://scores.nbcsports.msnbc.com/cbk/teamstats.asp?team=1115&report=schedule'
raw.schedule <- readHTMLTable(url, which=2)
的问题是,所有的HTML日期列的<span>
元素都折叠起来。
R> raw.schedule$Date[1]
[1] "11/142:30 PM PT3:30 PM MT4:30 PM CT5:30 PM ET10:30 PM GMT6:30 PM 北京时间3:30 PM MST5:30 PM EST"
理想我想本身如刚才的日期元素:
R> raw.schedule$Date[1]
[1] "11/14"
我已经试过rvest包,但我有同样的问题。是否可以读取此表并保持元素分离,或只选择第一个元素?