我们需要加载HTML页面并在页面执行页面加载脚本并且页面已完全加载后捕获完整的HTML DOM。这需要基于服务器的方法,因为潜在的数量和需要将这种负载分散到多台机器上。页面完全加载后捕获HTML DOM - 使用服务
我们希望在不使用任何可视控件(如Web浏览器控件)的情况下在.NET中执行此操作,因为这会将我们绑定到STA环境和消息泵。
我们可以下载HTML页面没有问题,但是我们不能做的是等到脚本等完成执行并捕获该阶段的内容。
也许是可能
- 使用新的边库的一部分来捕捉DOM没有 它呈现在画布
- 可能有一些可用的自定义组件,使我们通过这样做模拟宿主环境(aka浏览器),并允许我们在加载DOM后访问DOM。
任何关于解决这个问题的信息都会被赞赏,即使我们需要移出.NET世界。
是的,我想它基本上是一个网络爬虫,但一个非常集中,但仍需要管理数以千计的网页10。我查看了那里的代码,Abot基本上正在做我们现在正在做的事情,为页面获取HTTPWebResponse。这将下载页面的HTML内容,但没有执行java脚本等,该页面可能包含,因此它不适合我们的需要。 – Bigtoe
仔细阅读,现在我看到[Javascript Rendering](https://abotx.org/Learn/JavascriptRendering)是AbotX提供的付费附加组件。 – bds