rvest

0热度

1回答

我正在使用r中的R获得类别（维基百科页面的底部大部分）。我已经使用SelectorGadget来标识用于类别提取的html节点。我使用的代码如下 thepage <- read_html("https://en.wikipedia.org/wiki/San_Diego") Categories <- thepage %>% html_nodes("#mw-normal-catlin

0热度

1回答

withTimeout不起作用？

我在使用R.utils::withTimeout()时遇到了一些问题。它似乎根本没有把超时选项设置为acount，或者只是有时候。下面的功能我想用： scrape_player <- function(url, time){ raw_html <- tryCatch({ R.utils::withTimeout({ RCurl::getURL(url)

2热度

1回答

R中的外部字符自动编码修复

我有一个.csv数据框df具有100,000+行和两列代表城市和国家的名称（从网站的许可刮），其中一部分数据如下所示： df <- read.csv("country_dat.csv", header = TRUE, sep = ",", stringsAsFactors = FALSE) df city country 1 Huntsville, Alabama US

0热度

1回答

在R网站上抓取数据网页

正在使用R和rvest从www.nseindia.com网站抓取数据。我第一次能够下载数据，但之后出现以下错误消息... 使用方法错误（“xml_find_all”）：没有适用于'xml_find_all'的方法应用于类“字符的对象“ 想获得股指期货的第一行我的代码如下 library("rvest") website_nifty_future_live<- read_html("

3热度

1回答

如何提交似乎由JavaScript处理使用HTTR或rvest一种形式？

我试图以编程方式搜索网站，但提交按钮的功能似乎用JavaScript来实现主要动力。我不太熟悉它是如何工作的，所以我可能是错的。这里是我使用的代码： library(rvest) BASE_URL = 'https://mdocweb.state.mi.us/otis2/otis2.aspx' PARAMS = list(txtboxLName='Smith', drpdw

-1热度

1回答

储运刮使用rvest表中的变量

我怎么输出，我从html_table得到存储到一个变量？： library(rvest) elec<- read_html("https://en.wikipedia.org/wiki/Botswana_general_election,_1969") elec%>% html_nodes("table.wikitable")%>% htm

2热度

2回答

rvest html从span扫描文本

我想从这个页面获取坐标，http://hol.osu.edu/spmInfo.html?id=CMNHENT0042647。当我尝试获取文本时，我得到的是" "作为回报。 library(rvest) ID<-"CMNHENT0042647" HOLWebSite<-read_html("http://hol.osu.edu/spmInfo.html?id=",ID) Coords<

0热度

1回答

似乎无法识别数据

我有这段代码尝试从Kitco网站获取黄金的每日现货价格。 library("rvest") library("dplyr") library("tidyr") library("tibble") maya <- read_html("http://www.kitco.com/market/") mara <- html_nodes(maya, "table") mata <- html

1热度

1回答

清洁froum后在rvest多个报价+ stringr

我刮了很长的论坛主题，我想拿出有包含以下信息列的数据库：日期/全文后文/报价用户/引用文本/清洁文本干净的文字应该是每个用户的帖子，没有报价，如果他们回复给任何人。如果该帖子不是回复，我会将其保留为不适用。下面是一个发明后，与发明了用户，说明我已经设法到目前为止做： post<-"Meow1 wrote: »\noday is gonna be the day that they're gonn

0热度

1回答

中的R - 与rvest爬行 - 用失败HTML_TEXT使用rvest功能

url <-"http://news.chosun.com/svc/content_view/content_view.html?contid=1999080570392" hh = read_html(GET(url),encoding = "EUC-KR") #guess_encoding(hh) html_text(html_node(hh, 'div.par')) #html