2015-10-24 50 views
-1

我是个“新手”,当涉及到R,但我真的想知道我怎么刮多个表(我不知道的尺寸),从这样的网站:如何刮R中的多个表?

https://en.wikipedia.org/wiki/World_population

(只是具体而言,这里的是代码看起来像在Python:

from bs4 import BeautifulSoup 
import urllib2 

url1 = "https://en.wikipedia.org/wiki/World_population" 
page = urllib2.urlopen(url1) 
soup = BeautifulSoup(page) 

table1 = soup.find("table", {'class' : 'wikitable sortable'}) 
trs = soup.find_all('tr') 
tds = soup.find_all('td') 

for row in trs: 
    for column in tds: 
     a = column.get_text().strip() 
     print a 
    break 
+1

欢迎来到SO!在R的SO上有这样的_scores_的例子。这可能会以dup或者“太宽泛”的方式关闭,除非你有一些R代码来表明它不起作用。 – hrbrmstr

回答

1

在R,

u <- "https://en.wikipedia.org/wiki/World_population" # input 

library(XML) 
b <- basename(u) 
download.file(u, b) 
L <- readHTMLTable(b) 

L现在是u中的29个表格的列表,每个表格都是R数据帧。