本网站http://a810-bisweb.nyc.gov/bisweb/bispi00.jsp用于搜索nyc建筑应用信息。在“申请搜索”部分,有“BIS作业编号:”,所以我想要提取的信息是在输入工作号码后从新页面中提取,然后单击“开始”。我如何从R网站抓取这个网站的信息?
例如,从数据集 https://data.cityofnewyork.us/Housing-Development/DOB-Job-Application-Filings/ic3t-wcy2,我选择工作号码220286232,然后转到第一个网站,将数字放在“BIS工作号码”中,然后单击开始。现在我得到一个新的页面 。我想要的信息是“记录信息的申请人”(包括申请人的联系信息)。
我被困在这里。如何在每个工作号码下提取这些申请人信息?
我很新的网络抓取。我学会了如何使用rvest从整个页面提取信息,但我不熟悉跨不同网站的网页抓取。
谢谢。
更新:我试图使用Socrata API,但我发现申请人的联系信息没有自己的API字段。如果没有API字段的信息(但该页面上的其他信息有字段)这意味着我不能使用API来解决这个问题?
谢谢!
rvest有一些用于处理灯光表单的函数,但如果JavaScript需要先运行,您可能需要升级到RSelenium或[splashr](https://github.com/hrbrmstr/splashr)以获取源代码。一旦你有了HTML,你可以使用rvest来解析它。 – alistaire
谢谢你的回应。我试图看看这两个软件包是否可以提供帮助。 – zaodao