这是如何去废除这个页面的基本思想。尽管如果有许多页面需要报废,它可能会很慢。 现在你的问题有点模糊。您希望最终结果为.txt文件。什么是具有pdf的网页?好的。您仍然可以使用此代码并将文件扩展名更改为pdf,以获得包含pdf的网页。
library(xml2)
library(rvest)
urll="https://search.newyorkfed.org/board_public/search?start=10&Search=&number=10&text=inflation"
urll%>%read_html()%>%html_nodes("div#results a")%>%html_attr("href")%>%
.[!duplicated(.)]%>%lapply(function(x) read_html(x)%>%html_nodes("body"))%>%
Map(function(x,y) write_html(x,tempfile(y,fileext=".txt"),options="format"),.,
c(paste("tmp",1:length(.))))
这是代码的上面的故障: 的网址要废钢:
urll="https://search.newyorkfed.org/board_public/search?start=10&Search=&number=10&text=inflation"
获取所有的网址,您需要:
allurls <- urll%>%read_html()%>%html_nodes("div#results a")%>%html_attr("href")%>%.[!duplicated(.)]
你想保存你的文本在哪里?创建临时文件:
tmps <- tempfile(c(paste("tmp",1:length(allurls))),fileext=".txt")
按照现在。你的allurls
是在课堂上的角色。您必须将其更改为xml才能删除它们。然后最后把它们写入上面创建的tmp文件中:
allurls%>%lapply(function(x) read_html(x)%>%html_nodes("body"))%>%
Map(function(x,y) write_html(x,y,options="format"),.,tmps)
请不要遗漏任何东西。例如在..."format"),
之后有一段时间。考虑到这一点。 现在您的文件已被写入tempdir。要确定它们的位置,只需在控制台上键入命令tempdir()
,它应该给你文件的位置。同时,您可以在tempfile
命令中更改报废文件的位置。
希望这会有所帮助。
非常感谢,Onyambu!非常有用的答案!再次感谢! – SBAG009