我正在寻找刮掉许多不同的地方政府网站的公共数据。这些数据不是以任何标准格式(XML,RSS等)提供的,必须从HTML中删除。我需要抓取这些数据并将其存储在数据库中供将来参考。理想情况下,抓取例程将循环运行,并只将新记录存储在数据库中。应该有一种方法可以让我在每个网站上轻松地检测旧版本中的新记录。从多个不同的网站屏幕抓取数据的最佳方法
我的大问题是:什么是最好的方法来完成这个?我听说过一些使用YQL。我也知道一些编程语言也使解析HTML数据变得更容易。我是一位具有几种不同语言知识的开发人员,并且希望确保我选择适当的语言和方法来开发这个功能,因此很容易维护。随着未来网站的变化,需要更新抓取例程/代码/逻辑,所以重要的是这很容易。
有什么建议吗?