页面完全加载后捕获HTML DOM - 使用服务

我们需要加载HTML页面并在页面执行页面加载脚本并且页面已完全加载后捕获完整的HTML DOM。这需要基于服务器的方法，因为潜在的数量和需要将这种负载分散到多台机器上。页面完全加载后捕获HTML DOM - 使用服务

我们希望在不使用任何可视控件（如Web浏览器控件）的情况下在.NET中执行此操作，因为这会将我们绑定到STA环境和消息泵。

我们可以下载HTML页面没有问题，但是我们不能做的是等到脚本等完成执行并捕获该阶段的内容。

也许是可能

任何关于解决这个问题的信息都会被赞赏，即使我们需要移出.NET世界。

2016-07-21 Bigtoe

最终偶然发现了一个针对PhantomJS的C＃包装，它看起来应该为我做的伎俩。

2016-07-27 07:39:47 Bigtoe

这听起来像包含在网络爬虫中的功能。有可能使用Abot。

2016-07-21 16:24:50 bds

是的，我想它基本上是一个网络爬虫，但一个非常集中，但仍需要管理数以千计的网页10。我查看了那里的代码，Abot基本上正在做我们现在正在做的事情，为页面获取HTTPWebResponse。这将下载页面的HTML内容，但没有执行java脚本等，该页面可能包含，因此它不适合我们的需要。 – Bigtoe

仔细阅读，现在我看到[Javascript Rendering]（https://abotx.org/Learn/JavascriptRendering）是AbotX提供的付费附加组件。 – bds

回答