2012-04-02 120 views
0

我想为this页面的右侧列出的地方提取纬度和经度。我想创建像下面这样的表:刮掉html页面的超链接

Place Latitude Longitude 
Agarda 23.12604 87.19869 
Ahanda 23.13099 87.18501 
..... 
..... 
West-Sanabandh 23.24876 86.99941 

是否有可能做到这一点R中没有调用为“Agarda:,‘Ahanda’......等等。一次一个单独的超链接

+0

我没有时间给你一个完整的工作例子,但看看我是如何刮族谱档案:https://github.com/romunov/GEDCOM-archives/blob/master/gedcom-档案.R – 2012-04-02 11:29:24

回答

3

数据出现在不同的页面,你不能获得这些数据而无需请求每一页。

如果R支持线程,那么你可以把它们并联起来,而不是一次一个。

+0

那就是我的想法。感谢您的确认,Quentin。 – user702432 2012-04-03 16:44:53

1

这是可能使用RCurl在某些类型的循环中刮取每一页或sapply。如果你将它与一些正则表达式和/或readHTMLTable(用于标识超链接)相结合,那么它是一个相对简单的函数。

在RCurl中,可以创建一个多线程来并行执行此操作,但考虑到涉及的查询数量,它可能会轻松将其序列化并在查询之间放置一个小型系统睡眠。