2016-07-21 97 views
0

我们需要加载HTML页面并在页面执行页面加载脚本并且页面已完全加载后捕获完整的HTML DOM。这需要基于服务器的方法,因为潜在的数量和需要将这种负载分散到多台机器上。页面完全加载后捕获HTML DOM - 使用服务

我们希望在不使用任何可视控件(如Web浏览器控件)的情况下在.NET中执行此操作,因为这会将我们绑定到STA环境和消息泵。

我们可以下载HTML页面没有问题,但是我们不能做的是等到脚本等完成执行并捕获该阶段的内容。

也许是可能

  • 使用新的边库的一部分来捕捉DOM没有 它呈现在画布
  • 可能有一些可用的自定义组件,使我们通过这样做模拟宿主环境(aka浏览器),并允许我们在加载DOM后访问DOM。

任何关于解决这个问题的信息都会被赞赏,即使我们需要移出.NET世界。

回答

0

最终偶然发现了一个针对PhantomJS的C#包装,它看起来应该为我做的伎俩。

1

这听起来像包含在网络爬虫中的功能。有可能使用Abot

+0

是的,我想它基本上是一个网络爬虫,但一个非常集中,但仍需要管理数以千计的网页10。我查看了那里的代码,Abot基本上正在做我们现在正在做的事情,为页面获取HTTPWebResponse。这将下载页面的HTML内容,但没有执行java脚本等,该页面可能包含,因此它不适合我们的需要。 – Bigtoe

+0

仔细阅读,现在我看到[Javascript Rendering](https://abotx.org/Learn/JavascriptRendering)是AbotX提供的付费附加组件。 – bds

相关问题