0
我打算说我的XML知识非常少。Web抓取突然停止工作
我答应你比,直到2或3天前,下面的代码工作完美:
library("rvest")
url<-"https://en.wikipedia.org/wiki/Opinion_polling_for_the_next_United_Kingdom_general_election"
H<-read_html(url)
table<-html_table(H, fill=TRUE)
Z<-table[1]; Z1<-Z[[1]]
,然后让我开始去做我想要的东西,从该网页提取的第一个表,并把它在数据帧Z1
。然而,这却突然停止了工作,我不断收到错误消息:
Error in if (length(p) > 1 & maxp * n != sum(unlist(nrows)) & maxp * n != :
missing value where TRUE/FALSE needed
当我看H
似乎不再是一个列表,现在看起来是这样的:
{xml_document}
<html class="client-nojs" lang="en" dir="ltr">
[1] <head>\n<meta http-equiv="Content-Type" content="text/html; charset=UTF-8 ...
[2] <body class="mediawiki ltr sitedir-ltr mw-hide-empty-elt ns-0 ns-subject ...
这显然是在html_table
失败。
我真的不知道从哪里开始。
我是不是认为即使页面上的表格发生了变化,html_table仍然能够解析它吗?我查看了这段时间内页面上的变化,他们是小编辑。 – ANCutler