2017-09-25 153 views
-2

网页抓取数据我想从这个网站上,每分钟刷新提取一些数据。我对java编程有非常基本的了解。我的这位朋友告诉我这样做的一种方式是做网页抓取,但我试图研究关于它的尝试Chrome扩展,但没有人可以为我工作。它每分钟刷新

关于网站的一些背景信息。这是一个人们去监测COE报价的网站(新加坡汽车权利证明)。每隔星期三,从1430到1600,我都必须手动将数据复制并粘贴到Excel电子表格中,然后每分钟刷新一次。

细则COE

enter image description here

我已附加截图来进一步说明。 这是要刮去的网站; https://www.onemotoring.com.sg/1m/coe/coeDetail.html

谢谢您的阅读,我感谢所有帮助我能。谢谢!

最好的问候, 查尔斯

回答

0

你可以得到一个非常低的成本AWS LAMBDA淋巴结JS。

创建一个lambda函数,并在您的cron时间表触发它要抓取的网站。您可以使用图书馆像

https://github.com/bda-research/node-crawler

简化爬行。

此外,

要获得页面使用服务器端的jQuery或任何进步的脚本,可以提取已爬页面元素的确切节点。

一旦你的信息,你可以将它们存储DynamoDB是非常低延迟的NoSQL下。

您可以使用 ODM如https://github.com/clarkie/dynogels以非常少的代码访问DynamoDB。

希望它有帮助。