rvest

    0热度

    1回答

    我想从这个 网站获得的表没有定义的表rvest: http://www.oddsportal.com/american-football/usa/nfl-2012-2013/results/ 其实我想要得到的表在页面的中间。 我尝试过不同的方式,但徒劳无功。 library("rvest") library(dplyr) url1 <- "http://www.oddsportal.com/

    0热度

    1回答

    我已经在亚马逊网站上的数据存储访问过的CSV和读入R作为一个data.frame成一个对象“DataAmazon” DataAmazon <- read.csv("URLs.csv", header = TRUE, comment.char = "", stringsAsFactors = FALSE) head(DataAmazon,2) #Top 2 rows of data htt

    -1热度

    1回答

    我需要从https://eservices.dha.gov.ae/DHASearch/UIPages/ProfessionalSearch.aspx?PageLang=En中提取数据。我需要4栏 - “姓名”,“性别”,“标题”,“医院名称”,“联系方式”。点击名称时将显示“标题”信息。我面临的另一个问题是从多个页面提取信息。总共有10071条记录。我需要所有这些记录的信息。目前我在R中使用rve

    0热度

    1回答

    我正在使用rvest从内部网站的HTML表格中抓取数据。行的颜色是有意义的,所以我想提取BGCOLOR属性作为我最终表中的列,但当然html_table()只提取内容。 这是我到目前为止。下面是html表格的一个片段。我怎样才能包含一个颜色列? html_nodes(samplepage,"table") tbl_content <- samplepage %>% html_nodes

    0热度

    1回答

    我试图用rvest程序包来抓取一组网页。它在获取网页内容时起作用,但我无法获得第一层的创建时间,该网页为2017-08-17 01:47。 url <- read_html("http://tieba.baidu.com/p/5275787419", encoding = "UTF-8") # This works contents <- url %>% html_nodes(".d_post

    0热度

    1回答

    我知道如何在页面分页时循环,但我希望在一个循环函数中抓取多个信息/ html_nodes,但我不确定是否可以设置它。到目前为止,我尝试了以下。这基本上是一个jobsearch网站,我想要公司名称,公司名称和公开职位的数量。 我用sprintf来得到第1-14页。 urlingtek <- sprintf("https://www.jobindex.dk/virksomhedsoversigt/ka

    1热度

    1回答

    我正在尝试为Data Science 101项目刮冰球参考。我遇到了特定表格的问题。网页是:https://www.hockey-reference.com/boxscores/201611090BUF.html。所需表格在“高级统计报告(所有情况)”下。我已经尝试了以下代码: url="https://www.hockey-reference.com/boxscores/201611090BUF

    0热度

    1回答

    我一直在试图使用selectorgadget在R的特定网站的webscrape数据。例如,我成功地从http://www.dotabuff.com/heroes/abaddon/matchups webscraped之前。通常,我只需使用selectorgadget Chrome扩展单击我想要的表格,并将CSS选择结果放入代码中,如下所示。 urlx <- "http://www.dotabuff

    -1热度

    2回答

    我试图从多个页面(233)的Securities Class Action Filings网站上刮取表格。我的代码如下: install.packages("rvest") install.packages("magrittr") install.packages("xml2") library(xml2) library(rvest) library(magrittr) libra

    1热度

    2回答

    我试图将图书存储库中的数据转换成数字数据,以便我可以绘制图表。 我的代码目前是: selector <- ".rrp" library(rvest) url <- "https://www.bookdepository.com/bestsellers" doc <- read_html(url) prices <- html_nodes(doc, selector) html_text(