rvest

0热度

1回答

我想从这个网站获得的表没有定义的表rvest： http://www.oddsportal.com/american-football/usa/nfl-2012-2013/results/ 其实我想要得到的表在页面的中间。我尝试过不同的方式，但徒劳无功。 library("rvest") library(dplyr) url1 <- "http://www.oddsportal.com/

0热度

1回答

网页抓取了多个网站

我已经在亚马逊网站上的数据存储访问过的CSV和读入R作为一个data.frame成一个对象“DataAmazon” DataAmazon <- read.csv("URLs.csv", header = TRUE, comment.char = "", stringsAsFactors = FALSE) head(DataAmazon,2) #Top 2 rows of data htt

-1热度

1回答

R/Python中的网页抓取

我需要从https://eservices.dha.gov.ae/DHASearch/UIPages/ProfessionalSearch.aspx?PageLang=En中提取数据。我需要4栏 - “姓名”，“性别”，“标题”，“医院名称”，“联系方式”。点击名称时将显示“标题”信息。我面临的另一个问题是从多个页面提取信息。总共有10071条记录。我需要所有这些记录的信息。目前我在R中使用rve

0热度

1回答

如何在网页抓取的html表中包含属性

我正在使用rvest从内部网站的HTML表格中抓取数据。行的颜色是有意义的，所以我想提取BGCOLOR属性作为我最终表中的列，但当然html_table()只提取内容。这是我到目前为止。下面是html表格的一个片段。我怎样才能包含一个颜色列？ html_nodes(samplepage,"table") tbl_content <- samplepage %>% html_nodes

0热度

1回答

使用rvest获取满量程内容

我试图用rvest程序包来抓取一组网页。它在获取网页内容时起作用，但我无法获得第一层的创建时间，该网页为2017-08-17 01:47。 url <- read_html("http://tieba.baidu.com/p/5275787419", encoding = "UTF-8") # This works contents <- url %>% html_nodes(".d_post

0热度

1回答

Rvest在一个函数中抓取多个数据

我知道如何在页面分页时循环，但我希望在一个循环函数中抓取多个信息/ html_nodes，但我不确定是否可以设置它。到目前为止，我尝试了以下。这基本上是一个jobsearch网站，我想要公司名称，公司名称和公开职位的数量。我用sprintf来得到第1-14页。 urlingtek <- sprintf("https://www.jobindex.dk/virksomhedsoversigt/ka

1热度

1回答

使用rvest来刮取HTML数据

我正在尝试为Data Science 101项目刮冰球参考。我遇到了特定表格的问题。网页是：https://www.hockey-reference.com/boxscores/201611090BUF.html。所需表格在“高级统计报告（所有情况）”下。我已经尝试了以下代码： url="https://www.hockey-reference.com/boxscores/201611090BUF

0热度

1回答

如何使用selector（Rvest）使用selectorgadget来webscrape .dpbox表？

我一直在试图使用selectorgadget在R的特定网站的webscrape数据。例如，我成功地从http://www.dotabuff.com/heroes/abaddon/matchups webscraped之前。通常，我只需使用selectorgadget Chrome扩展单击我想要的表格，并将CSS选择结果放入代码中，如下所示。 urlx <- "http://www.dotabuff

-1热度

2回答

rvest包的错误

我试图从多个页面（233）的Securities Class Action Filings网站上刮取表格。我的代码如下： install.packages("rvest") install.packages("magrittr") install.packages("xml2") library(xml2) library(rvest) library(magrittr) libra

1热度

2回答

如何将Web抓取的数据转换为数字？

我试图将图书存储库中的数据转换成数字数据，以便我可以绘制图表。我的代码目前是： selector <- ".rrp" library(rvest) url <- "https://www.bookdepository.com/bestsellers" doc <- read_html(url) prices <- html_nodes(doc, selector) html_text(