网页荷兰政府宣扬它给出了一个网站上的补贴:从Java刮数据生成有R
http://www.hetlnvloket.nl/databank-eu-subsidiegegevens-2012#
但是,它不是简单明了,从网站获得的数据。如果你到现场,选择'Gemeenschappelijk Landbouw Beleid'(普通农业政策,欧盟补贴计划),然后在页面底部按'zoek'(zoek表示'搜索'),你会从100个条目中获得一张表。但是我不能把它写进R.看起来这个页面是在你按'zoek'后用JavaScript生成的。
我的问题是:
如何凑这个从网站?
如何得到其他900页
我要求政府给我这个XLS数据(总共有90K记录),但他们不会,对于隐私的原因”。但这样没人可以检查。我不喜欢那样。 ;-)
你确定你允许刮这些数据吗?鉴于你在2)中陈述的内容,我相信你没有。 – Gimby
我怀疑隐私是一个不了解开放治理和信息自由的人,我认为这两者都是荷兰人通常比较擅长的。 XLS,但?您需要一个API,而不是专有的文件格式。 – halfer
它看起来像通过AJAX获得的数据,应该是可以抓取的。如果你只是在数据快照之后,看看导入。io - 他们的桌面爬虫可能会提供帮助。 – halfer