2011-04-06 118 views
9

我想从一个在线目录中监控日常价格。 该网站使用HTTPS并使用JavaScript生成目录页面。我如何与网站进行交互并使其生成我需要的网页?如何刮HTTPS JavaScript网页

我已经完成了其他网站的HTML可以很容易地访问,我没有问题一旦生成HTML解析。

我只知道Python和Java。

在此先感谢。

回答

9

看看HTMLUnit - 一个可以完全由您的代码控制的无头Java浏览器。一个简单的例子可以在这里看到:http://htmlunit.sourceforge.net/gettingStarted.html

(强制性警告:通过屏幕抓取网站,你可能会违反其ToS,并可能打开自己的诉讼;检查你是否被允许在你开始之前这样做)

0

如果他们已经创建了一个JavaScript接口的Web API,那么您可能会直接刮掉它,而不是尝试去HTML路线。

如果他们已经对其进行了模糊处理,或者出于某种其他原因该选项不可用,则基本上需要Web浏览器来评估JavaScript,然后取消浏览器的DOM。也许写一个浏览器插件?